CN113012806A - 一种妊娠期糖尿病的早期预测方法 - Google Patents
一种妊娠期糖尿病的早期预测方法 Download PDFInfo
- Publication number
- CN113012806A CN113012806A CN202110193180.XA CN202110193180A CN113012806A CN 113012806 A CN113012806 A CN 113012806A CN 202110193180 A CN202110193180 A CN 202110193180A CN 113012806 A CN113012806 A CN 113012806A
- Authority
- CN
- China
- Prior art keywords
- model
- indexes
- index
- prediction
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000004104 gestational diabetes Diseases 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 102000002260 Alkaline Phosphatase Human genes 0.000 claims description 33
- 108020004774 Alkaline Phosphatase Proteins 0.000 claims description 33
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 31
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 31
- 206010012601 diabetes mellitus Diseases 0.000 claims description 31
- 229940116269 uric acid Drugs 0.000 claims description 31
- 230000035935 pregnancy Effects 0.000 claims description 26
- 210000000265 leukocyte Anatomy 0.000 claims description 24
- 238000004820 blood count Methods 0.000 claims description 21
- 238000012706 support-vector machine Methods 0.000 claims description 19
- 210000000440 neutrophil Anatomy 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000036541 health Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 229940039716 prothrombin Drugs 0.000 description 11
- 108010094028 Prothrombin Proteins 0.000 description 10
- 102100027378 Prothrombin Human genes 0.000 description 10
- 238000007410 oral glucose tolerance test Methods 0.000 description 8
- 102000006395 Globulins Human genes 0.000 description 7
- 108010044091 Globulins Proteins 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- 239000008280 blood Substances 0.000 description 7
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 6
- 208000002672 hepatitis B Diseases 0.000 description 6
- OBHRVMZSZIDDEK-UHFFFAOYSA-N urobilinogen Chemical compound CCC1=C(C)C(=O)NC1CC1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(CC3C(=C(CC)C(=O)N3)C)N2)CCC(O)=O)N1 OBHRVMZSZIDDEK-UHFFFAOYSA-N 0.000 description 6
- 108020004206 Gamma-glutamyltransferase Proteins 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 102000006640 gamma-Glutamyltransferase Human genes 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 4
- 102000011923 Thyrotropin Human genes 0.000 description 4
- 108010061174 Thyrotropin Proteins 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 210000003743 erythrocyte Anatomy 0.000 description 4
- 239000008103 glucose Substances 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 210000002700 urine Anatomy 0.000 description 4
- XUIIKFGFIJCVMT-GFCCVEGCSA-N D-thyroxine Chemical compound IC1=CC(C[C@@H](N)C(O)=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-GFCCVEGCSA-N 0.000 description 3
- 102000001554 Hemoglobins Human genes 0.000 description 3
- 108010054147 Hemoglobins Proteins 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 3
- AUYYCJSJGJYCDS-LBPRGKRZSA-N Thyrolar Chemical compound IC1=CC(C[C@H](N)C(O)=O)=CC(I)=C1OC1=CC=C(O)C(I)=C1 AUYYCJSJGJYCDS-LBPRGKRZSA-N 0.000 description 3
- 210000004698 lymphocyte Anatomy 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 229940034208 thyroxine Drugs 0.000 description 3
- XUIIKFGFIJCVMT-UHFFFAOYSA-N thyroxine-binding globulin Natural products IC1=CC(CC([NH3+])C([O-])=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-UHFFFAOYSA-N 0.000 description 3
- 239000011573 trace mineral Substances 0.000 description 3
- 235000013619 trace mineral Nutrition 0.000 description 3
- 229940035722 triiodothyronine Drugs 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000036266 weeks of gestation Effects 0.000 description 3
- HSINOMROUCMIEA-FGVHQWLLSA-N (2s,4r)-4-[(3r,5s,6r,7r,8s,9s,10s,13r,14s,17r)-6-ethyl-3,7-dihydroxy-10,13-dimethyl-2,3,4,5,6,7,8,9,11,12,14,15,16,17-tetradecahydro-1h-cyclopenta[a]phenanthren-17-yl]-2-methylpentanoic acid Chemical compound C([C@@]12C)C[C@@H](O)C[C@H]1[C@@H](CC)[C@@H](O)[C@@H]1[C@@H]2CC[C@]2(C)[C@@H]([C@H](C)C[C@H](C)C(O)=O)CC[C@H]21 HSINOMROUCMIEA-FGVHQWLLSA-N 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 2
- 108010088751 Albumins Proteins 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 108090000190 Thrombin Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 210000003651 basophil Anatomy 0.000 description 2
- 239000003613 bile acid Substances 0.000 description 2
- 230000023555 blood coagulation Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000035487 diastolic blood pressure Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 210000003979 eosinophil Anatomy 0.000 description 2
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- YOBAEOGBNPPUQV-UHFFFAOYSA-N iron;trihydrate Chemical compound O.O.O.[Fe].[Fe] YOBAEOGBNPPUQV-UHFFFAOYSA-N 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 210000001616 monocyte Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 201000011461 pre-eclampsia Diseases 0.000 description 2
- 229960004072 thrombin Drugs 0.000 description 2
- 210000001685 thyroid gland Anatomy 0.000 description 2
- XDIYNQZUNSSENW-UUBOPVPUSA-N (2R,3S,4R,5R)-2,3,4,5,6-pentahydroxyhexanal Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@@H](O)C=O.OC[C@@H](O)[C@@H](O)[C@H](O)[C@@H](O)C=O XDIYNQZUNSSENW-UUBOPVPUSA-N 0.000 description 1
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 description 1
- JWUBBDSIWDLEOM-XHQRYOPUSA-N (3e)-3-[(2e)-2-[1-(6-hydroxy-6-methylheptan-2-yl)-7a-methyl-2,3,3a,5,6,7-hexahydro-1h-inden-4-ylidene]ethylidene]-4-methylidenecyclohexan-1-ol Chemical compound C1CCC2(C)C(C(CCCC(C)(C)O)C)CCC2\C1=C\C=C1/CC(O)CCC1=C JWUBBDSIWDLEOM-XHQRYOPUSA-N 0.000 description 1
- NTDFJPCHHGBHCO-UHFFFAOYSA-N 7,9-dihydro-3H-purine-2,6,8-trione Chemical compound OC1=NC(O)=C2NC(O)=NC2=N1.N1C(=O)NC(=O)C2=C1NC(=O)N2 NTDFJPCHHGBHCO-UHFFFAOYSA-N 0.000 description 1
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 1
- 108010082126 Alanine transaminase Proteins 0.000 description 1
- 239000004956 Amodel Substances 0.000 description 1
- 101710095342 Apolipoprotein B Proteins 0.000 description 1
- 102100040202 Apolipoprotein B-100 Human genes 0.000 description 1
- 102000007592 Apolipoproteins Human genes 0.000 description 1
- 108010071619 Apolipoproteins Proteins 0.000 description 1
- 108010003415 Aspartate Aminotransferases Proteins 0.000 description 1
- 102000004625 Aspartate Aminotransferases Human genes 0.000 description 1
- 235000021318 Calcifediol Nutrition 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 241000701022 Cytomegalovirus Species 0.000 description 1
- 239000003154 D dimer Substances 0.000 description 1
- 238000008789 Direct Bilirubin Methods 0.000 description 1
- 238000008416 Ferritin Methods 0.000 description 1
- 102000008857 Ferritin Human genes 0.000 description 1
- 108050000784 Ferritin Proteins 0.000 description 1
- 108010049003 Fibrinogen Proteins 0.000 description 1
- 102000008946 Fibrinogen Human genes 0.000 description 1
- 206010060919 Foetal malformation Diseases 0.000 description 1
- 102000015779 HDL Lipoproteins Human genes 0.000 description 1
- 108010010234 HDL Lipoproteins Proteins 0.000 description 1
- 241000700721 Hepatitis B virus Species 0.000 description 1
- 208000005176 Hepatitis C Diseases 0.000 description 1
- 241000701074 Human alphaherpesvirus 2 Species 0.000 description 1
- 241000725303 Human immunodeficiency virus Species 0.000 description 1
- 206010020994 Hypoglycaemia neonatal Diseases 0.000 description 1
- 206010056254 Intrauterine infection Diseases 0.000 description 1
- 206010023138 Jaundice neonatal Diseases 0.000 description 1
- 102000007330 LDL Lipoproteins Human genes 0.000 description 1
- 108010007622 LDL Lipoproteins Proteins 0.000 description 1
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 1
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 1
- 201000006346 Neonatal Jaundice Diseases 0.000 description 1
- IOVCWXUNBOPUCH-UHFFFAOYSA-M Nitrite anion Chemical compound [O-]N=O IOVCWXUNBOPUCH-UHFFFAOYSA-M 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 108090000279 Peptidyltransferases Proteins 0.000 description 1
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 1
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 1
- 208000002787 Pregnancy Complications Diseases 0.000 description 1
- 208000005107 Premature Birth Diseases 0.000 description 1
- 206010036590 Premature baby Diseases 0.000 description 1
- 241000710799 Rubella virus Species 0.000 description 1
- 108010000499 Thromboplastin Proteins 0.000 description 1
- 102000002262 Thromboplastin Human genes 0.000 description 1
- 238000008050 Total Bilirubin Reagent Methods 0.000 description 1
- 201000005485 Toxoplasmosis Diseases 0.000 description 1
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 231100000071 abnormal chromosome number Toxicity 0.000 description 1
- 230000003208 anti-thyroid effect Effects 0.000 description 1
- 229940043671 antithyroid preparations Drugs 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004159 blood analysis Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- FDJOLVPMNUYSCM-WZHZPDAFSA-L cobalt(3+);[(2r,3s,4r,5s)-5-(5,6-dimethylbenzimidazol-1-yl)-4-hydroxy-2-(hydroxymethyl)oxolan-3-yl] [(2r)-1-[3-[(1r,2r,3r,4z,7s,9z,12s,13s,14z,17s,18s,19r)-2,13,18-tris(2-amino-2-oxoethyl)-7,12,17-tris(3-amino-3-oxopropyl)-3,5,8,8,13,15,18,19-octamethyl-2 Chemical compound [Co+3].N#[C-].N([C@@H]([C@]1(C)[N-]\C([C@H]([C@@]1(CC(N)=O)C)CCC(N)=O)=C(\C)/C1=N/C([C@H]([C@@]1(CC(N)=O)C)CCC(N)=O)=C\C1=N\C([C@H](C1(C)C)CCC(N)=O)=C/1C)[C@@H]2CC(N)=O)=C\1[C@]2(C)CCC(=O)NC[C@@H](C)OP([O-])(=O)O[C@H]1[C@@H](O)[C@@H](N2C3=CC(C)=C(C)C=C3N=C2)O[C@@H]1CO FDJOLVPMNUYSCM-WZHZPDAFSA-L 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 108010052295 fibrin fragment D Proteins 0.000 description 1
- 229940012952 fibrinogen Drugs 0.000 description 1
- 229960000304 folic acid Drugs 0.000 description 1
- 235000019152 folic acid Nutrition 0.000 description 1
- 239000011724 folic acid Substances 0.000 description 1
- 238000005534 hematocrit Methods 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 150000002576 ketones Chemical class 0.000 description 1
- 230000003907 kidney function Effects 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011777 magnesium Substances 0.000 description 1
- 229910052749 magnesium Inorganic materials 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 102000013415 peroxidase activity proteins Human genes 0.000 description 1
- 108040007629 peroxidase activity proteins Proteins 0.000 description 1
- 201000007532 polyhydramnios Diseases 0.000 description 1
- 208000012113 pregnancy disease Diseases 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000002254 stillbirth Diseases 0.000 description 1
- 231100000537 stillbirth Toxicity 0.000 description 1
- 208000006379 syphilis Diseases 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
- 150000003626 triacylglycerols Chemical class 0.000 description 1
- 239000011715 vitamin B12 Substances 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种妊娠期糖尿病的早期预测方法,该预测方法包括以下步骤:步骤S1:获得研究对象孕11‑18周的临床指标检验结果;步骤S2:将步骤S1检测获得的指标进行预处理;步骤S3:选择与妊娠期糖尿病相关的指标,利用费舍尔值对每个指标进行评估,按照每个指标的费舍尔值由大到小进行排序;步骤S4:选择前11位指标输入至机器学习模型中,根据选择的输入指标,用来训练机器学习模型,验证这些指标对于妊娠期糖尿病的预测能力;步骤S5:通过步骤S4的结果,得到妊娠期糖尿病的预测模型;步骤S6:将另外一组新的临床指标检验结果代入到预测模型中进行验证,以评价预测模型的准确性;步骤S7:通过预测模型来预测孕妇是否会患病。
Description
技术领域
本发明涉及早期糖尿病预测的技术领域,具体涉及一种妊娠期糖尿病的早期预测方法。
背景技术
妊娠期糖尿病(gestational diabetes mellitus,GDM)是指妊娠前未患糖尿病的妇女妊娠期发展为高血糖的状况。世界范围内,GDM的发生率为1.8%-25.1%。GDM可能会增加先兆子痫、抑郁及剖腹产的发生风险。GDM治疗不佳的母亲所生的婴儿出现超重、新生儿低血糖及黄疸的风险升高。如果不加治疗,GDM可能会导致早产、羊水过多、宫内感染、胎儿畸形或死胎。研究表明,GDM的复发率高达48%,30-50%患有GDM的妇女未来有可能发展为糖尿病。
中国目前用75g口服葡萄糖耐量试验(OGTT)来进行GDM的诊断。根据世界卫生组织2018年的建议,对于GDM患病风险较低的孕妇,GDM的筛查和诊断通常在妊娠24-28周进行。在孕中晚期进行筛查使得发现GDM后可供采取干预的时间有限。美国糖尿病协会、澳大利亚妊娠糖尿病协会和第五次国际GDM研讨会会议提出,对于GDM应该进行选择性而不是普遍范围的筛查。
以往一些在患GDM高风险的孕妇或所有接受测试的孕妇中OGTT测试能否在妊娠14-18周时鉴别出GDM患者。结果表明,OGTT测试在高风险孕妇中对于早期GDM具有识别性,但在所有孕妇中这一鉴别的敏感性较低。因此,有必要开发其他替代方法来实现GDM的早期识别。Sweeting等指出目前已知的GDM危险因素(糖尿病家族史、GDM患病史、南亚和东亚种族,产次和BMI)与异倍性(染色体数目异常)及先兆子痫筛查指标相结合是GDM的重要预测因素。因此,将GDM的危险因素与临床检验指标相结合可能会实现在孕早期甚至是在初次产检时GDM的检测,从而对GDM高风险的妇女提供更好的产前医疗服务。GDM早期预诊断的实现也会对改善GDM孕妇及子代的出生结局产生长远影响。
发明内容
针对上述存在的问题,本发明利用孕11-18周的常规产检临床指标建立预测模型以实现GDM的早期预诊断。
为了实现上述目的,本发明所采用的技术方案如下:
一种妊娠期糖尿病的早期预测方法,该预测方法包括以下步骤:
步骤S1:建立结构化数据库,通过医院病历系统及产科病历系统回顾性获得研究对象孕11-18周的临床指标检验结果;
步骤S2:将步骤S1检测获得的指标进行预处理;
步骤S3:选择与妊娠期糖尿病相关的指标,利用费舍尔值对每个指标进行评估,按照每个指标的费舍尔值由大到小进行排序;
步骤S4:选择前11位指标输入至机器学习模型中,根据选择的输入指标,将数据集划分为训练样本和测试样本,其中,80%样本作为训练样本用来训练机器学习模型,剩余20%的样本用于测试样本,验证这些指标对于妊娠期糖尿病的预测能力;
步骤S5:通过步骤S4的结果,得到妊娠期糖尿病的预测模型;
步骤S6:将另外一组新的临床指标检验结果代入到预测模型中进行验证,以评价预测模型的准确性;
步骤S7:通过预测模型来预测孕妇是否会患病。
优选的,在上述步骤S1中,所述指标包括109个。
优选的,在上述步骤S2中,对获得的109个指标进行预处理,其过程如下:
(1)参考健康组的指标,删除具有相同值的指标;
(2)移出缺失值百分比大于70%的指标;
(3)对于参数结果为非连续性值的指标,其结果用大于上限值的固定值表示;
(4)对于参数结果为分类值的指标,结果显示“正常”用数字1表示,“非正常”用数字0表示;同样的,结果显示“阳性(+)”用数字1表示,“阴性(-)”用数字0表示;通过上述方式,分类和数值组合的数据类型被转换为数值类型,各指标中的缺失值则用指标的中位数表示;
(5)经过步骤(1)~(4)处理后,每位研究对象由最初的109个指标变为102个指标。
优选的,在上述步骤S3中,利用费舍尔值对每个指标进行评估的过程,实质上是利用下面公式评估每个指标对结果的预测能力;
优选的,在上述步骤S4中,所述训练机器学习模型包括最近中心模型、支持向量机模型和最近邻模型模型。
优选的,在上述步骤S5中,所述预测模型采用支持向量机模型,其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数。
优选的,在上述步骤S5中,所述预测模型采用支持向量机模型,其模型参数包括年龄、碱性磷酸酶、尿酸、中性粒细胞。
本发明的有益效果是:本发明用孕11-18周门诊及住院临床指标检验结果,结合已知的GDM危险因素(年龄、BMI、糖尿病家族史),通过机器学习的方法建立了GDM早期识别的预测模型以实现GDM的早期预诊断,整个方法通过计算机完成,快速简单准确。
附图说明
图1为前11个参数对GDM预测模型的贡献度;图中aAge-年龄;BMI-体重指数;Family History-糖尿病家族史;ALP-碱性磷酸酶;Uric acid-尿酸;GGT-谷酰转肽酶;Globulin-球蛋白;WBC-白细胞计数;PT%-凝血酶原百分活动度;NE#-中性粒细胞计数;Glucose-尿液中存在葡萄糖。黑色柱代表费舍尔值,白色柱代表平均分类精确度;
图2为使用(年龄+碱性磷酸酶+尿酸+白细胞计数+糖尿病家族史)预测时的ROC曲线;
图3为使用(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)预测时的ROC曲线。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明具体提供了一种妊娠期糖尿病的早期预测方法,该预测方法包括以下步骤:
步骤S1:建立结构化数据库,通过医院病历系统及产科病历系统回顾性获得研究对象孕11-18周的临床指标检验结果,所述指标包括109个;
步骤S2:将步骤S1检测获得的指标进行预处理;
(1)参考健康组的指标,删除具有相同值的指标;,如抗体结果均为阴性;
(2)移出缺失值百分比大于70%的指标;
(3)对于参数结果为非连续性值的指标,其结果用大于上限值的固定值表示;
(4)对于参数结果为分类值的指标,结果显示“正常”用数字1表示,“非正常”用数字0表示;同样的,结果显示“阳性(+)”用数字1表示,“阴性(-)”用数字0表示;通过上述方式,分类和数值组合的数据类型被转换为数值类型,各指标中的缺失值则用指标的中位数表示;
(5)经过步骤(1)~(4)处理后,每位研究对象由最初的109个指标变为102个指标;
步骤S3:选择与妊娠期糖尿病相关的指标,利用费舍尔值对每个指标进行评估,按照每个指标的费舍尔值由大到小进行排序;
步骤S4:选择前11位指标输入至机器学习模型中,根据选择的输入指标,将数据集划分为训练样本和测试样本,其中,80%样本作为训练样本用来训练机器学习模型,剩余20%的样本用于测试样本,验证这些指标对于妊娠期糖尿病的预测能力;
步骤S5:通过步骤S4的结果,得到妊娠期糖尿病的预测模型;
步骤S6:将另外一组新的临床指标检验结果代入到预测模型中进行验证,以评价预测模型的准确性;
步骤S7:通过预测模型来预测孕妇是否会患病。
在上述步骤S3中,利用费舍尔值对每个指标进行评估的过程,实质上是利用下面公式评估每个指标对结果的预测能力;
其中,其中,是第i维特征中第p个类别中的第k个样本,是第i维特征中第p个类别的类中心,μi是所有样本中第i维特征的类中心;pi越大,第i维特征的预测能力越强;“特征”指上文中的指标,“样本”指每位被测试者的所有指标,“类别”指被测试者是否是妊娠糖尿病患者。
在上述步骤S4中,所述训练机器学习模型包括最近中心模型(NC模型)、支持向量机模型(SVM模型)和最近邻模型模型(NN模型)。
在上述步骤S5中,所述预测模型采用支持向量机模型(SVM模型),其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数或年龄、碱性磷酸酶、尿酸、中性粒细胞。
下面通过具体试验对上述过程进行梳理。
1、材料与方法
1.1建立GDM预测模型
1.1.1研究对象
研究对象为2018年4月-2018年8月在西安市第四医院进行产前检查的单胎妊娠的孕妇,所有的孕妇均经过了孕24-28周75g OGTT筛查以诊断GDM。GDM的确诊至少包括以下结果之一:
1)空腹血糖≥5.1mmol/L;
2)1h血糖≥10mmol/L;
3)2h血糖≥8.5mmol/L。
GDM组的研究对象进一步排除了有既往糖尿病病史的孕妇。对照组为无任何妊娠期合并症的健康孕妇。
1.1.2孕11-18周临床指标收集
建立了结构化数据库,通过医院病历系统及产科病历系统回顾性地获得研究对象孕11-18周的临床指标检验结果。每位研究对象首次入院产检时均抽取静脉血及干净的中段尿液用于实验室检验,每位研究对象共收集了109个指标并将其纳入预测模型中,表3中列出了主要指标的类别。
研究对象的纳入指标主要包括年龄(年),孕周(周),BMI(kg/m2),血压(收缩压和舒张压,mmHg)。血常规检查包括了白细胞计数(109/L)、中性粒细胞计数(109/L)、中性粒细胞百分比(%)、淋巴细胞计数(109/L)、淋巴细胞百分比(%)、单核细胞计数(109/L)、单核细胞百分比(%)、嗜酸性粒细胞计数(109/L)、嗜酸性粒细胞百分比(%)、嗜碱性粒细胞计数(109/L)、嗜碱性粒细胞百分比(%)、红细胞计数(1012/L)、血红蛋白(g/L)、红细胞压积(%)、平均红细胞体积(fL)、平均血红蛋白含量(pg)、平均血红蛋白浓度(g/L)、红细胞分布宽度变异(%)、红细胞分布宽度标准(%)、血小板计数(109/L)、平均血小板体积(fL)、血小板体积分布宽度(fL)、血小板压积(%)、大型血小板数目(109/L)和大型血小板比率(%)。凝血项目检查包括D-二聚体(ug/ml)、凝血酶时间(s)、凝血酶原时间(s)、凝血酶原百分活动度(%)、凝血酶原时间比值、凝血酶原国际正常化比值、活化部分凝血活酶时间(s)和纤维蛋白原含量(g/L)。尿常规分析包括尿比重、管型(n/LP)、酸碱度、尿隐血(cell/ul)、红细胞计数(n/HP)、白细胞(cells/ul)、白细胞计数(n/HP)、上皮细胞计数(n/LP)、酮体(mmol/l)、胆红素(umol/l)、尿胆原(umol/l)、亚硝酸盐(+/-)、葡萄糖(mmol/l)、蛋白质(g/l)和结晶。甲状腺功能检测包括促甲状腺激素(TSH)(uIU/ml)、总三碘甲状腺原氨酸(总T3)(nmol/l)、游离三碘甲状腺原氨酸(FT3)(pmol/l)、总甲状腺素(总T4)(nmol/l)、游离甲状腺素(FT4)(pmol/l)和抗甲状腺过氧化物酶抗体(A-TPO)(IU/ml)。孕妇贫血检测包括铁蛋白(ng/ml)、叶酸(ng/ml)和维生素B12(pg/ml)。病原体检测包括乙型肝炎病毒(乙肝表面抗原(HBsAg)(ng/ml)、乙肝表面抗体(HBsAb)(mIU/ml)、乙肝e抗原(HBeAg)(NCU/ml)、乙肝e抗体(HBeAb)(NCU/ml)、乙肝核心抗体(HBcAb)(NCU/ml))、丙型肝炎抗体、人类免疫缺陷病毒抗体、梅毒抗体、单纯疱疹病毒II型抗体、巨细胞病毒抗体、风疹病毒抗体和弓形虫病毒抗体。肝功能检查包括总蛋白(g/L)、白蛋白(g/L)、球蛋白(g/L)、白蛋白/球蛋白、胆红素(总胆红素(umol/l)、直接胆红素(umol/l)、间接胆红素(umol/l)、总胆汁酸(umol/l))、谷草转氨酶(AST)(U/L)、谷丙转氨酶(ALT)(U/L)、AST/ALT、碱性磷酸酶(U/L)和谷酰转肽酶(U/L)。肾功 能检查包括尿素(mmol/l)、尿酸(umol/l)、葡萄糖(mmol/1)和肌酐(umol/1)。微量元素及生 化分析包括锌(umol/L)、铜(umol/L)、铁(mmol/L)、镁(mmol/L)、钙(mmol/L)、25-羟基维生素D(nmol/L)。脂质血脂检测包括总胆固醇、总甘油三酸酯、高密度脂蛋白、低密度脂蛋白、载脂蛋白A和载脂蛋白B。
1.1.3统计学分析
采用GraphPath、SPSS 23.0及Matlab(2015版)进行数据分析。连续型变量采用中位数和四分位间距进行描述,GDM组和健康对照组间的比较采用Mann Whitney检验;分类变量采用例数和百分比进行描述,两组间的比较采用Fischer检验。P<0.05表示差异有统计学意义。
对于GDM组和健康对照组存在显著差异的预测变量,采用Logistic回归模型进行回归分析,计算OR及95%可信区间(CI)。除单因素模型外,还建立了两个模型来逐步控制年龄、BMI、糖尿病家族史等GDM的影响因素:其中模型1校正了年龄和BMI,模型2校正了年龄、BMI及糖尿病家族史,单因素模型、模型1和模型2均属于Logistic回归模型。
数据的预处理过程如下:
(1)删除具有相同值的类别;
(2)移除缺失值百分比大于70%的指标。
经上述步骤后,每位研究对象由最初的109个指标变为了102个指标。
对于某些结果为非连续性值的指标,如指标“尿比重(SG)”,其结果“>1.03”会被一个略大于上限值的固定值所取代;对于某些结果为分类值的指标,如指标“尿胆原(URO)”,其结果“正常”会被1替换,“非正常”会被0替换;类似地,参数“乙肝表面抗体(HBsAb)”的结果“阳性(+)”被1替换,“阴性(-)”被0替换。
通过上述方法,分类和数值组合的数据类型被转换为了数值类型。此外,各指标中的缺失值由其相应指标的中位数所替换。
经过上述预处理,每位研究对象中包含了102个指标。为了找到与GDM相关的指标,我们使用费舍尔值对每个指标进行评价。利用下面的公式评估每个指标对结果的预测能力。
按照每个指标的费舍尔值大小进行排序,对于费舍尔值较大的前11位指标,我们使用以下三种算法在数据集上验证了这些指标对于GDM的预测能力:(1)最近中心分类器(Nearest Centroid,NC)、支持向量机(Support Vector Machine,SVM)和最近邻分类器(Nearest Neighbor,NN)。为了使结果更可靠,我们将数据集划分为测试集和训练集两部分,其中测试集中包含了20%的样本,其余80%的样本被用来训练SVM。我们对整个数据集进行了50次随机划分,得到最终的分类精度、敏感度(又被称为真阳率)及特异度(又被称为真阴率)。据最终的分类精度得到GDM的最佳预测指标组合。
1.2验证及评估GDM预测模型
对于得到的GDM预测模型,我们利用另外一个在西安交通大学第二附属医院的队列研究进行了模型验证和评估。该队列研究的研究对象为2018年8月以后在西安交通大学第二附属医院妇产科进行产前检查的单胎妊娠的孕妇。GDM和健康对照的纳入排除标准同上。根据上一步骤得到的孕早期GDM预测指标,在孕11-18周收集研究对象的相关临床指标,随访研究对象至孕24-28周并收集75g OGTT结果,将OGTT结果作为因变量、孕11-18周相关临床指标作为自变量纳入多因素Logistic回归模型中,使用AUC(area under the curve)评估预测模型的性能。
2.结果
2.1建立GDM预测模型
2.1.1基线资料比较
我们在西安市第四医院共收集80例健康孕妇和80例GDM患者的数据,怀孕孕周的中位数为12周。我们发现,与健康孕妇相比,GDM患者的年龄、BMI、舒张压较高,有糖尿病家族史的比例也较高(表1)。
表1健康对照与GDM患者基线资料比较
a数据为中位数(四分位间距),两组间的比较采用MannWhitney检验;
b糖尿病家族史是指孕妇的父母或兄弟姐妹被诊断为糖尿病,数据为例数(百分比),两组间的比较采用Fischer检验。
在单因素关联分析中,我们发现孕妇年龄越大、BMI越大、有糖尿病家族史增加GDM的发生风险(表2)。
表2基线资料与GDM发生风险的单因素关联分析
2.1.2 GDM新危险因素的识别
比较两组间的临床指标检验结果,我们发现18个指标在GDM患者和健康对照间存在显著差异(P<0.05),包括了血常规(白细胞计数和淋巴细胞计数),凝血(凝血酶原时间、凝血酶原百分活动度、凝血酶原时间比值、凝血酶原国际正常化比值、活化部分凝血酶时间),甲状腺功能(促甲状腺激素、总三碘甲状腺原氨酸、游离甲状腺素),微量元素(铜、铁),肝肾功能(碱性磷酸酶、谷酰转肽酶、总蛋白、球蛋白、总胆汁酸和尿酸)(表3)。
表3健康对照与GDM患者孕11-18周临床指标比较
a数据为中位数(四分位间距),两组间的比较采用MannWhitney检验;
b数据为例数(百分比),两组间的比较采用Fischer检验。
接下来,我们分析了以上18个指标在两组间有显著差异的参数是否为GDM发生的新危险因素。我们使用Logistic回归建立了3个模型以逐步校正混杂因素,计算了OR及95%可信区间。结果发现孕11-18周、TSH、T3、碱性磷酸酶、总蛋白和尿酸水平的升高是GDM的新危险因素(表4)。
表4两组间差异显著的参数与GDM发生风险的关联分析
a模型1调整了年龄和BMI;
b模型2调整了年龄、BMI和家族糖尿病史。
2.1.3 GDM的最佳预测模型
为了开发GDM的预测模型,我们首先根据费舍尔值评估了每个指标的预测能力。费舍尔评分确定了对模型贡献最大的前11个指标分别为年龄(Age)、体重指数(BMI)、糖尿病家族史(Family history)、碱性磷酸酶(ALP)、尿酸(UA)、谷酰转肽酶(GGT)、球蛋白(Globulin)、白细胞计数(WBC)、凝血酶原百分活动度(PT%)、中性粒细胞计数(NE#)和尿液中是否有葡萄糖(Glucose)(图1,黑色柱)。对于这11个参数,其中年龄、BMI和糖尿病家族史是已知的危险因素,而我们的研究发现了碱性磷酸酶(ALP)和尿酸(UA)也是GDM的危险因素。此外,健康孕妇和GDM患者中谷酰转肽酶(GGT)、球蛋白(Globulin)、白细胞计数(WBC)和凝血酶原百分活动度(PT%)有显著差异。接下来,我们评估了每个指标的分类精度,结果发现年龄(Age)、碱性磷酸酶(ALP)和谷酰转肽酶(GGT)的平均分类准确率较高(图1,白色柱)。
按照每个指标的费舍尔值大小排序,对于费舍尔值较大的前11位指标,我们使用以下三种算法在数据集上验证了这些指标对于GDM的预测能力:(1)最近中心分类器(Nearest Centroid,NC)[16]、支持向量机(Support Vector Machine,SVM)[17]和最近邻分类器(Nearest Neighbor,NN)。为了使结果更可靠,我们将数据集划分为测试集和训练集两部分,其中测试集中包含了20%的样本,其余80%的样本被用来训练SVM。我们对整个数据集进行了50次随机划分,得到最终的分类精度、敏感度(又被称为真阳率)及特异度(又被称为真阴率)。
用三种不同的算法(NC、SVM和NN)将费舍尔评分筛选的前11个指标放入到预测模型中。预测模型中指标个数的变化范围为1-11(T1,T2,…,T11)。也就是说,当指标个数为1时,使用这三种算法的模型中只放一个指标T1;当指标个数为2时,使用这三种算法的模型中放2个参数T1和T2,并以此类推。所有T1-T11组成的组合对GDM预测的精确度如补充材料中的图1所示。总体来说,SVM方法比NC和NN对于GDM的预测更好。
使用SVM方法进行GDM预测时,当模型中有4个或5个参数时模型的精确度最高。首先,我们放6个参数时的精确度为83.1%,这6个参数的组合为:(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数+中性粒细胞计数)。但由于中性粒细胞属于白细胞的一种,本研究中中性粒细胞计数与白细胞计数之间高度相关(Spearman相关系数=0.96),因此我们决定在预测模型纳入中性粒细胞计数或白细胞计数中的一个。比较5个参数组合的精确度,我们发现(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合的精确度较高,为83%,因此,5个参数时,(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合为最佳的预测模型。
而由于参数糖尿病家族史具有一定的主观性,一方面由于产检病历系统中未纳入这一参数,另一方面家族成员可能不清楚自身是否患有糖尿病,因此我们还评估了去除这一参数后4个参数组合的精确度。我们发现,(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)的精确度为(76.8%),高于(年龄+碱性磷酸酶+尿酸+白细胞计数)的精确度(76.1%),因此,4个参数时,(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)组合为最佳的预测模型。
2.2验证及评估GDM预测模型
对于得到的GDM预测模型,我们利用另外一个在西安交通大学第二附属医院的队列研究进行了模型验证。该队列研究的研究对象为2018年8月以后在西安交通大学第二附属医院妇产科进行产前检查的单胎妊娠的孕妇。GDM和健康对照的纳入排除标准同上。根据得到的GDM预测模型,我们收集研究对象的年龄、糖尿病家族史、孕11-18周碱性磷酸酶、尿酸、白细胞计数、中性粒细胞计数的检测结果,并收集了孕24-28周75g OGTT结果。共纳入50例GDM患者及50例健康对照以进行预测模型验证及评估。
以孕24-28周GDM的诊断结果为因变量,在2个Logistic回归模型中分别纳入5个参数(年龄+碱性磷酸酶+尿酸+白细胞计数+糖尿病家族史)或4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数),得到每个研究对象的GDM预测概率。用预测概率和GDM真实情况(孕24-28周OGTT结果),计算ROC曲线下的面积(area under curve,AUC)以评估预测模型的判别能力。预测模型的评估结果如图2和图3所示。
使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合进行预测时,AUC=0.762(0.663-0.860,P<0.001),ROC曲线如图2所示。
当使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)组合进行预测时,AUC=0.753(0.654-0.852,P<0.001),ROC曲线如图3所示。
总之,在本研究中我们采用机器学习的方法根据160例妊娠孕11-18周临床指标进行了GDM的预测。我们发现了孕11-18周碱性磷酸酶、尿酸水平的升高是GDM的新危险因素,建立了GDM的预测模型,使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)时对GDM预测的精确度为83.0%,使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)时对GDM预测的精确度为76.8%。我们在另一个队列研究中纳入100例妊娠采用多因素Logistic模型评估了GDM预测模型的性能,从而模拟了实际可操作性。当使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)进行预测时,AUC为0.762;当使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)进行预测时,AUC为0.753。总体而言,我们的模型有助于临床中对高危GDM人群进行早期识别。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种妊娠期糖尿病的早期预测方法,其特征在于,该预测方法包括以下步骤:
步骤S1:建立结构化数据库,通过医院病历系统及产科病历系统回顾性获得研究对象孕11-18周的临床指标检验结果;
步骤S2:将步骤S1检测获得的指标进行预处理;
步骤S3:选择与妊娠期糖尿病相关的指标,利用费舍尔值对每个指标进行评估,按照每个指标的费舍尔值由大到小进行排序;
步骤S4:选择前11位指标输入至机器学习模型中,根据选择的输入指标,将数据集划分为训练样本和测试样本,其中,测试集包含20%的样本,剩余的80%样本作为训练样本用来训练机器学习模型,验证这些指标对于妊娠期糖尿病的预测能力;
步骤S5:通过步骤S4的结果,得到妊娠期糖尿病的预测模型;
步骤S6:将另外一组新的临床指标检验结果代入到预测模型中进行验证,以评价预测模型的准确性;
步骤S7:通过预测模型来预测孕妇是否会患病。
2.根据权利要求1所述的一种妊娠期糖尿病的早期预测方法,其特征在于,在上述步骤S1中,所述指标包括109个。
3.根据权利要求2所述的一种妊娠期糖尿病的早期预测方法,其特征在于,在上述步骤S2中,对获得的109个指标进行预处理,其过程如下:
(1)参考健康组的指标,删除具有相同值的指标;
(2)移出缺失值百分比大于70%的指标;
(3)对于参数结果为非连续性值的指标,其结果用大于上限值的固定值表示;
(4)对于参数结果为分类值的指标,结果显示“正常”用数字1表示,“非正常”用数字0表示;同样的,结果显示“阳性(+)”用数字1表示,“阴性(-)”用数字0表示;通过上述方式,分类和数值组合的数据类型被转换为数值类型,各指标中的缺失值则用指标的中位数表示;
(5)经过步骤(1)~(4)处理后,每位研究对象由最初的109个指标变为102个指标。
5.根据权利要求1所述的一种妊娠期糖尿病的早期预测方法,其特征在于,在上述步骤S4中,所述训练机器学习模型包括最近中心模型、支持向量机模型和最近邻模型模型。
6.根据权利要求5所述的一种妊娠期糖尿病的早期预测方法,其特征在于,在上述步骤S5中,所述预测模型采用支持向量机模型,其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数。
7.根据权利要求5所述的一种妊娠期糖尿病的早期预测方法,其特征在于,在上述步骤S5中,所述预测模型采用支持向量机模型,其模型参数包括年龄、碱性磷酸酶、尿酸、中性粒细胞。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193180.XA CN113012806B (zh) | 2021-02-20 | 2021-02-20 | 一种妊娠期糖尿病的早期预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110193180.XA CN113012806B (zh) | 2021-02-20 | 2021-02-20 | 一种妊娠期糖尿病的早期预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012806A true CN113012806A (zh) | 2021-06-22 |
CN113012806B CN113012806B (zh) | 2024-01-19 |
Family
ID=76404351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110193180.XA Active CN113012806B (zh) | 2021-02-20 | 2021-02-20 | 一种妊娠期糖尿病的早期预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012806B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488166A (zh) * | 2021-07-28 | 2021-10-08 | 联仁健康医疗大数据科技股份有限公司 | 糖尿病数据分析模型训练及数据管理方法、装置和设备 |
CN114166977A (zh) * | 2022-01-24 | 2022-03-11 | 杭州凯莱谱精准医疗检测技术有限公司 | 预测妊娠个体血糖值的系统 |
US11923082B2 (en) | 2022-01-24 | 2024-03-05 | Hangzhou Calibra Diagnostics Co., Ltd. | Method and system for rapid prediction offast blood glucose level in pregnant subjects |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063583A (zh) * | 2014-06-06 | 2014-09-24 | 北京工业大学 | 基于动态物理学和理化因素的妊娠期糖尿病风险监测系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
JP2020031730A (ja) * | 2018-08-27 | 2020-03-05 | 株式会社Nttドコモ | データ収集解析装置及びデータ収集解析方法 |
CN111312399A (zh) * | 2020-02-24 | 2020-06-19 | 南京鼓楼医院 | 一种早期预测妊娠糖尿病模型的建立方法 |
-
2021
- 2021-02-20 CN CN202110193180.XA patent/CN113012806B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063583A (zh) * | 2014-06-06 | 2014-09-24 | 北京工业大学 | 基于动态物理学和理化因素的妊娠期糖尿病风险监测系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
JP2020031730A (ja) * | 2018-08-27 | 2020-03-05 | 株式会社Nttドコモ | データ収集解析装置及びデータ収集解析方法 |
CN111312399A (zh) * | 2020-02-24 | 2020-06-19 | 南京鼓楼医院 | 一种早期预测妊娠糖尿病模型的建立方法 |
Non-Patent Citations (7)
Title |
---|
SMIRNAKIS K V等: "Predicting gestational diabetes: Which is the best early serum marker", 《AMERICAN JOURNAL OF OBSTETRICS & GYNECOLOGY》, pages 90 * |
张璇: "基于Fisher准则的说话人识别特征参数提取研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
张璇: "基于Fisher准则的说话人识别特征参数提取研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 June 2014 (2014-06-15), pages 136 - 151 * |
谭育松: "长春地区妊娠期糖尿病风险预测模型的临床研究", 《中国妇幼保健》 * |
谭育松: "长春地区妊娠期糖尿病风险预测模型的临床研究", 《中国妇幼保健》, no. 16, 15 August 2020 (2020-08-15), pages 27 - 29 * |
赵丹青等: "妊娠期糖尿病高危因素的调查研究", 《贵州医科大学学报》 * |
赵丹青等: "妊娠期糖尿病高危因素的调查研究", 《贵州医科大学学报》, no. 09, 30 September 2017 (2017-09-30), pages 55 - 59 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488166A (zh) * | 2021-07-28 | 2021-10-08 | 联仁健康医疗大数据科技股份有限公司 | 糖尿病数据分析模型训练及数据管理方法、装置和设备 |
CN114166977A (zh) * | 2022-01-24 | 2022-03-11 | 杭州凯莱谱精准医疗检测技术有限公司 | 预测妊娠个体血糖值的系统 |
CN114166977B (zh) * | 2022-01-24 | 2022-06-21 | 杭州凯莱谱精准医疗检测技术有限公司 | 预测妊娠个体血糖值的系统 |
US11923082B2 (en) | 2022-01-24 | 2024-03-05 | Hangzhou Calibra Diagnostics Co., Ltd. | Method and system for rapid prediction offast blood glucose level in pregnant subjects |
Also Published As
Publication number | Publication date |
---|---|
CN113012806B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113012806B (zh) | 一种妊娠期糖尿病的早期预测方法 | |
US11967410B2 (en) | Biodosimetry panels and methods | |
Cook et al. | Iron deficiency and the measurement of iron status | |
Ishibashi et al. | C-reactive protein kinetics in newborns: application of a high-sensitivity analytic method in its determination | |
Ivandić et al. | Development and evaluation of a urine protein expert system | |
Fashami et al. | Is there an association between platelet and blood inflammatory indices and the risk of gestational diabetes mellitus? | |
CN113092777A (zh) | 孕早期进行重症子痫前期患者筛查的方法 | |
CN114974585A (zh) | 一种妊娠期代谢综合征早期风险预测评估模型构建方法 | |
Bó et al. | Evaluation of RET-He values as an early indicator of iron deficiency anemia in pregnant women | |
Bahr et al. | Neonatal reference intervals for the complete blood count parameters MicroR and HYPO-He: sensitivity beyond the red cell indices for identifying microcytic and hypochromic disorders | |
Waugh et al. | Urinary microalbumin/creatinine ratios: reference range in uncomplicated pregnancy | |
Lapić et al. | Haemoglobin A1c-based screening for prediabetes and diabetes mellitus: a multi-center study in Croatian adult population | |
Higby et al. | A comparison between two screening methods for detection of microproteinuria | |
Waters et al. | A systematic approach to the assessment of erythropoiesis | |
Aslan et al. | Hematological parameters to predict the severity of hyperemesis Gravidarum and Ketonuria | |
Bayram et al. | The predictive value of HALP score and systemic immune inflammation (SII) index in hyperemesis gravidarum | |
Cohen et al. | The comparison of mixed distribution analysis with a three-criteria model as a method for estimating the prevalence of iron deficiency anaemia in Costa Rican children aged 12-23 months. | |
Naji et al. | Effect of Iron Deficient on the Pregnant Women | |
Baumgarten et al. | Prospective study of an inverse relationship between maternal glycosylated hemoglobin and serum α-fetoprotein concentrations in pregnant women with diabetes | |
Blomberg et al. | The use of an expert system in the clinical laboratory as an aid in the diagnosis of anemia | |
Sonbol et al. | Cystatin C and β2 microglobulin in preeclampsia: a prospective study | |
CN118010601B (zh) | 一种用于诊断原发性胆汁性胆管炎的系统 | |
CN111613327B (zh) | 利用基于logistic回归的多发性骨髓瘤诊断模型开发的系统及其应用 | |
CN117542523A (zh) | 维持性血液透析老年患者死亡风险预测模型及其构建方法 | |
Cole et al. | Plasma Glycated Albumin in Early Pregnancy and Gestational Diabetes Mellitus: A Prospective and Longitudinal Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |