CN111312399A - 一种早期预测妊娠糖尿病模型的建立方法 - Google Patents
一种早期预测妊娠糖尿病模型的建立方法 Download PDFInfo
- Publication number
- CN111312399A CN111312399A CN202010112390.7A CN202010112390A CN111312399A CN 111312399 A CN111312399 A CN 111312399A CN 202010112390 A CN202010112390 A CN 202010112390A CN 111312399 A CN111312399 A CN 111312399A
- Authority
- CN
- China
- Prior art keywords
- gestational diabetes
- model
- early
- prediction
- information data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000004104 gestational diabetes Diseases 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000035935 pregnancy Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 18
- 210000004369 blood Anatomy 0.000 claims abstract description 16
- 239000008280 blood Substances 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims description 12
- 206010012601 diabetes mellitus Diseases 0.000 claims description 9
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 8
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 claims description 6
- 108010082126 Alanine transaminase Proteins 0.000 claims description 6
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 6
- 108090000340 Transaminases Proteins 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 239000008103 glucose Substances 0.000 claims description 6
- 230000002175 menstrual effect Effects 0.000 claims description 6
- 230000005906 menstruation Effects 0.000 claims description 6
- 102000014898 transaminase activity proteins Human genes 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000003908 liver function Effects 0.000 claims description 5
- 108010022197 lipoprotein cholesterol Proteins 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 102000001554 Hemoglobins Human genes 0.000 claims description 3
- 108010054147 Hemoglobins Proteins 0.000 claims description 3
- 206010020772 Hypertension Diseases 0.000 claims description 3
- 102000007330 LDL Lipoproteins Human genes 0.000 claims description 3
- 238000010876 biochemical test Methods 0.000 claims description 3
- 210000001772 blood platelet Anatomy 0.000 claims description 3
- 230000036772 blood pressure Effects 0.000 claims description 3
- 235000012000 cholesterol Nutrition 0.000 claims description 3
- 230000001684 chronic effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000009533 lab test Methods 0.000 claims description 3
- 210000000265 leukocyte Anatomy 0.000 claims description 3
- 201000010065 polycystic ovary syndrome Diseases 0.000 claims description 3
- 206010036049 Polycystic ovaries Diseases 0.000 claims description 2
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 4
- 230000002411 adverse Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 108010007622 LDL Lipoproteins Proteins 0.000 description 1
- 108090001030 Lipoproteins Proteins 0.000 description 1
- 102000004895 Lipoproteins Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000023852 carbohydrate metabolic process Effects 0.000 description 1
- 235000021256 carbohydrate metabolism Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000007446 glucose tolerance test Methods 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007410 oral glucose tolerance test Methods 0.000 description 1
- 230000009984 peri-natal effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000000276 sedentary effect Effects 0.000 description 1
- 150000003626 triacylglycerols Chemical class 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种早期预测妊娠糖尿病模型的建立方法,包括以下步骤:步骤一、临床回顾性收集若干例孕期血糖正常和患有妊娠期糖尿病的已生产孕妇,作为总收集例,收集各例信息数据;步骤二、在步骤一的总收集例中随机抽取若干例作为训练集;利用Python语言,运用spyder或者jupyter notebook软件编译“是否”型的LightGBM模型;设置模型参数,然后导入训练集各例的信息数据和最终是否患妊娠期糖尿病结果,构建LightGBM预测模型;步骤三、将待预测孕妇的信息数据输入步骤二构建的lightBGM预测模型,得到未来发生妊娠期糖尿病风险的预测风险值,根据预测风险值确定预测孕妇是否会患病。本发明具有实施简单便捷、结果准确性高等优点。
Description
技术领域
本发涉及一种预测方法,尤其涉及一种早期预测妊娠糖尿病的方法。
背景技术
妊娠期糖尿病(gestational diabetes mellitus,GDM)是指妊娠期首次发生的糖代谢异常,所有的患者孕前均没有糖尿病史。随着高热量饮食、少动生活方式的流行和妊娠年龄的增长,GDM发病率逐年上升。2019年国际糖尿病联盟 (IDF)公布的地图数据显示,全球2000万(1/6)的孕妇中有某种形式的妊娠高血糖,其中妊娠期糖尿病(GDM)占84%。IDF估计在2030之前,1830万新生儿会受妊娠高糖影响,我国多中心数据显示GDM发病率为17.5%,随着我国二胎政策开放,这一比例必将持续上升。GDM会导致产妇和新生儿多种围产期不良结局的增加,研究显示早期对GDM患者进行饮食、运动控制可有效改善多种不良结局。基于以上情况,开发针对早期预测GDM的有效方法,对于优生优育具有重要的意义和价值。
然而目前临床上缺乏简单直观且经济的GDM早期预测方法。最新指南 (2019ADA)建议孕妇一般在孕24-28周时行75g-葡萄糖耐量检测(oral glucose tolerance test,OGTT)来诊断GDM,但是指南只列举了危险因素,缺乏可量化的评价标准,无法个体化评估孕妇孕中晚期发生GDM的风险大小。
发明内容
本发明提供一种早期预测妊娠糖尿病的方法,以克服现有技术的缺陷。
为实现上述目的,本发明提供一种早期预测妊娠糖尿病的方法,包括以下步骤:步骤一、临床回顾性收集若干例孕期血糖正常和患有妊娠期糖尿病的已生产孕妇,,作为总收集例,收集各例信息数据;信息数据包括基本信息、现病史与既往史、月经史、家族史及实验室检查;步骤二、在步骤一的总收集例中随机抽取若干例作为训练集;利用Python语言,运用软件编译“是否”型的LightGBM模型;设置模型参数,然后导入训练集各例的信息数据和最终是否患妊娠期糖尿病结果,构建LightGBM预测模型;信息数据为n个,则导入的数据格式为:(x1, x2,.....,xn,y);x1、x2、.....、xn分别为n个信息数据的导入数值,y是孕妇最终是否进展为妊娠期糖尿病,定义y=1表示孕妇最后发生了妊娠期糖尿病, y=0表示孕妇血糖处于正常范围;步骤三、将待预测孕妇的信息数据输入步骤二构建的lightBGM预测模型,得到未来发生妊娠期糖尿病风险的预测风险值,根据预测风险值确定预测孕妇是否会患病。
其中,LightGBM是对传统的GBDT算法的优化,加入了基于梯度的单边采样(Gradient-based One-Side Sampling,GOSS)和互斥特征捆绑(Exclusive FeatureBundling,EFB)的算法,通过GOSS可实现对样本进行采样来计算梯度,而不是使用所用的样本点来计算梯度;利用EFB将某些特征进行捆绑在一起来降低特征的维度,是寻找最佳切分点的消耗减少,而不是使用所有的特征来进行扫描获得最佳的切分点,这样大大的降低的处理样本的时间复杂度,并且不会造成精度的降低。
GOSS算法描述:输入训练数据,设定迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b。(1)根据样本点的梯度的绝对值对它们进行降序排序; (2)对排序后的结果选取前a*100%的样本生成一个大梯度样本点的子集;(3) 对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;(4)将大梯度样本和采样的小梯度样本合并;(5) 将小梯度样本乘上一个权重系数;(6)使用上述的采样的样本,学习一个新的弱学习器;(7)不断地重复(1)-(6)步骤直到达到规定的迭代次数或者收敛为止。通过上面的算法可以在不改变数据分布的前提下不损失学习器精度的同时大大的减少模型学习的速率,输出训练好的强学习器。
FEB算法描述:(1)构造一个边带有权重的图,其权值对应于特征之间的总冲突;(2)通过特征在图中的度来降序排序特征;(3)检查有序列表中的每个特征,并将其分配给具有小冲突的现有bundling,或创建新bundling。这是一种更加高效的算法,改变了既往排序策略,将按度数排序改为按非0值数量排序,最后得到特征捆绑集合bundles。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,基本信息包括孕妇年龄、孕前身高、孕前体重、血压、学历、月经史和孕产次;现病史与既往史包括是否有多囊卵巢综合征、慢性高血压和妊娠期糖尿病病史;月经史包括初潮年龄、月经是否规律;家族史指是否有糖尿病家族史;实验室检查包括早孕期肝功能和血浆空腹血糖、孕14-20周生化检查和血常规。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,早孕期肝功能包括谷丙转氨酶和谷草转氨酶;孕14-20周生化检查包括谷丙转氨酶、谷草转氨酶、甘油三酯、胆固醇、高密度胆固醇脂蛋白、低密度胆固醇脂蛋白和空腹血糖;血常规包括血红蛋白、白细胞和血小板。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤二中,对导入的信息数据进行多轮迭代,采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练后得到强学习器,循环迭代至 AUC无法再提高时,则停止训练,生成LightGBM预测模型。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤二中,在LightGBM预测模型构建完成后,将总收集例中剩余例作为验证集,将验证集的信息数据导入LightGBM预测模型中,运用python语言中的sklearn机器学习模块的ROC-CURVE和AUC方法进行ROC曲线代码编译,输出验证集模型ROC曲线下面积,验证LightGBM预测模型。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤三中,得到未来发生妊娠期糖尿病风险的预测风险值为y',y'>50%定义为会发生妊娠期糖尿病,输出标签值为1,y'<50%定义为不会发生妊娠期糖尿病,输出标签值为0。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤二中,模型参数为:最大深度(max_depth)为10;叶子节点数量(num_leaves)为50;学习率(learning_rate)为0.005;评估指标(eval_metric) 为曲线下面积。
其中,LightGBM通过leaf-wise策略来生长树。每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同Level-wise相比,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度。但是,当样本量较小的时候,leaf-wise可能会造成过拟合。所以,LightGBM可以利用额外的参数max_depth(最大深度)来限制树的深度并避免过拟合,一般设置该值为5—10即可,可用来显式地限制树的深度,我们将模型‘max_depth’设为10。
叶子节点数量(num_leaves)是控制树模型复杂度的主要参数,原则上调整 num_leaves的取值时,应该让其小于.我们的模型设置参数为‘num_leaves’为 50。
学习率(learning_rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。通过使用较小的learning_rate,我们可以得到更好的准确率,我们的模型的学习率为0.005
曲线下面积(Area Under Curve,AUC)指ROC曲线下与坐标轴围成的面积,这是评价一个模型好坏的评价指标,可清晰地反应一个分类器的效果好坏,AUC 越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤一中,总收集例中,孕期血糖正常和患有妊娠期糖尿病的已生产孕妇的比例为1:1。
进一步,本发明提供一种早期预测妊娠糖尿病的方法,还可以具有这样的特征:其中,步骤二中,软件为spyder或者jupyter notebook。
本发明的有益效果在于:本发明提供一种早期预测妊娠糖尿病的方法,通过利用目前已普及的电子病历系统的大数据,采用LightGBM模型,深度分析孕妇早孕期(<13周)产检数据,得到不同孕妇未来发生妊娠糖尿病的具体风险。
本方法的LightGBM预测模型可以利用早孕期简单可得的产检数据,大幅度提升早期预测妊娠糖尿病的准确度,模型曲线下面积达80%以上,预测准确率近乎达80%。此外,我们的模型能够具体输出每个病人发生GDM的风险的预测值,实现个体化诊疗。且整个方法通过计算机软件完成,快速简单准确。本发明具有实施简单便捷、结果准确性高等优点。
附图说明
图1为软件连续迭代至停止训练截图;
图2是验证集模型ROC曲线下面积图;
图3是部分预测孕妇的预测风险值y'的输出截图;
图4是预测结果准确率的计算截图。
具体实施方式
以下结合具体实施例对本发明作进一步说明。
本发明提供一种早期预测妊娠糖尿病的方法,包括以下步骤:
步骤一、临床回顾性收集若干例孕期血糖正常和患有妊娠期糖尿病的已生产孕妇,作为总收集例,收集各例信息数据。信息数据包括基本信息、现病史与既往史、月经史、家族史及实验室检查。其中,基本信息包括孕妇年龄、孕前身高、孕前体重、血压、学历、月经史和孕产次。现病史与既往史包括是否有多囊卵巢综合征、慢性高血压和妊娠期糖尿病病史。月经史包括初潮年龄、月经是否规律。家族史指是否有糖尿病家族史。实验室检查包括早孕期肝功能(谷丙转氨酶和谷草转氨酶)和血浆空腹血糖、孕14-20周生化检查(谷丙转氨酶、谷草转氨酶、甘油三酯、胆固醇、高密度胆固醇脂蛋白、低密度胆固醇脂蛋白和空腹血糖)和血常规(血红蛋白、白细胞和血小板)。
其中,总收集例中,孕期血糖正常和患有妊娠期糖尿病的已生产孕妇的比例越接近1:1,模型曲线下面积越高,预测模型的预测能力越好。优选的,总收集例中,孕期血糖正常和患有妊娠期糖尿病的已生产孕妇的比例为1:1。
步骤二、在步骤一的总收集例中随机抽取若干例作为训练集。利用Python 语言,运用spyder或者jupyter notebook软件编译“是否”型的LightGBM模型。设置模型参数,然后导入训练集各例的信息数据和最终是否患妊娠期糖尿病结果,建立LightGBM预测模型。
其中,模型参数为:
最大深度(max_depth)为10;
叶子节点数量(num_leaves)为50;
学习率(learning_rate)为0.005;
评估指标(eval_metric)为曲线下面积。
信息数据为n个,则导入的数据格式为:(x1,x2,.....,xn,y)。
其中,x1、x2、.....、xn分别为n个信息数据的导入数值,y是孕妇最终是否进展为妊娠期糖尿病,定义y=1表示孕妇最后发生了妊娠期糖尿病,y=0表示孕妇血糖处于正常范围。
具体的,对导入的数据进行多轮迭代,采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练后得到强学习器,循环迭代至AUC无法再提高时,则停止训练,生成LightGBM预测模型。
本实施例中,在总收集例中随机抽取70%总收集例作为训练集,采用Python 语言进行代码编辑,编译环境为spyder或者jupyter notebook软件,设置参数后,导入训练集各例的信息数据和最终是否患妊娠期糖尿病结果,即(x1, x2,.....,xn,y),进行多轮迭代,当连续迭代200次AUC无法再提高时,则停止训练,如图1所示,生成最终的LightGBM预测模型。
在LightGBM预测模型构建完成后,将总收集例中剩余例作为验证集,将验证集的信息数据导入LightGBM预测模型中,运用python语言中的sklearn机器学习模块的ROC-CURVE和AUC方法进行ROC曲线代码编译,输出验证集模型ROC 曲线下面积,验证LightGBM预测模型。
在本实施例中,将总收集例中剩余例,即剩余30%总收集例作为验证集,将验证集的信息数据导入LightGBM预测模型中,运用python语言中的sklearn机器学习模块的ROC-CURVE和AUC方法进行ROC曲线代码编译,输出验证集模型ROC 曲线下面积为0.864,如图2所示。
步骤三、将待预测孕妇的信息数据输入步骤二构建的LightGBM预测模型,得到未来发生妊娠期糖尿病风险的预测风险值,根据预测风险值确定预测孕妇是否会患病。
其中,得到未来发生妊娠期糖尿病风险的预测风险值为y',y'>50%定义为会发生妊娠期糖尿病,输出标签值为1;y'<50%定义为不会发生妊娠期糖尿病,输出标签值为0。
本实施例中,将若干例待预测孕妇的信息数据输入步骤二构建的LightGBM 预测模型,个体化输出每位孕妇的未来发生妊娠期糖尿病风险的预测风险值y',每个孕妇的预测风险值y'以逗号隔开,部分预测风险值y'的输出如图3所示,孕妇1孕中晚期发生妊娠期糖尿病的风险为94.2%,孕妇2孕中晚期发生妊娠期糖尿病的风险为2.5%。
将孕妇的预测结果与最终孕妇实际是否发生妊娠期糖尿病的真实值进行比较,发现我们的LightGBM预测模型最终预测妊娠期糖尿病的准确率为79.9%,结果如4图所示。
Claims (9)
1.一种早期预测妊娠糖尿病模型的建立方法,其特征在于:
包括以下步骤:
步骤一、临床回顾性收集若干例孕期血糖正常和患有妊娠期糖尿病的已生产孕妇,作为总收集例,收集各例信息数据;
所述信息数据包括基本信息、现病史与既往史、月经史、家族史及实验室检查;
步骤二、在步骤一的总收集例中随机抽取若干例作为训练集;
利用Python语言,运用软件编译“是否”型的LightGBM模型;
设置模型参数,然后导入训练集各例的信息数据和最终是否患妊娠期糖尿病结果,构建LightGBM预测模型;
信息数据为n个,则导入的数据格式为:(x1,x2,.....,xn,y);
x1、x2、.....、xn分别为n个信息数据的导入数值,y是孕妇最终是否进展为妊娠期糖尿病,定义y=1表示孕妇最后发生了妊娠期糖尿病,y=0表示孕妇血糖处于正常范围;
步骤三、将待预测孕妇的信息数据输入步骤二构建的lightBGM预测模型,得到未来发生妊娠期糖尿病风险的预测风险值,根据预测风险值确定预测孕妇是否会患病。
2.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,所述基本信息包括孕妇年龄、孕前身高、孕前体重、血压、学历、月经史和孕产次;
所述现病史与既往史包括是否有多囊卵巢综合征、慢性高血压和妊娠期糖尿病病史;
所述月经史包括初潮年龄、月经是否规律;
所述家族史指是否有糖尿病家族史;
所述实验室检查包括早孕期肝功能和血浆空腹血糖、孕14-20周生化检查和血常规。
3.根据权利要求2所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,所述早孕期肝功能包括谷丙转氨酶和谷草转氨酶;
所述孕14-20周生化检查包括谷丙转氨酶、谷草转氨酶、甘油三酯、胆固醇、高密度胆固醇脂蛋白、低密度胆固醇脂蛋白和空腹血糖;
所述血常规包括血红蛋白、白细胞和血小板。
4.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤二中,对导入的信息数据进行多轮迭代,采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练后得到强学习器,循环迭代至AUC无法再提高时,则停止训练,生成所述LightGBM预测模型。
5.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤二中,在LightGBM预测模型构建完成后,将总收集例中剩余例作为验证集,将验证集的信息数据导入所述LightGBM预测模型中,运用python语言中的sklearn机器学习模块的ROC-CURVE和AUC方法进行ROC曲线代码编译,输出验证集模型ROC曲线下面积,验证所述LightGBM预测模型。
6.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤三中,所述得到未来发生妊娠期糖尿病风险的预测风险值为y',y'>50%定义为会发生妊娠期糖尿病,输出标签值为1,y'<50%定义为不会发生妊娠期糖尿病,输出标签值为0。
7.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤二中,所述模型参数为:
最大深度为10;
叶子节点数量为50;
学习率为0.005;
评估指标为曲线下面积。
8.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤一中,总收集例中,所述孕期血糖正常和患有妊娠期糖尿病的已生产孕妇的比例为1:1。
9.根据权利要求1所述的早期预测妊娠糖尿病模型的建立方法,其特征在于:
其中,步骤二中,所述软件为spyder或者jupyter notebook软件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010112390.7A CN111312399A (zh) | 2020-02-24 | 2020-02-24 | 一种早期预测妊娠糖尿病模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010112390.7A CN111312399A (zh) | 2020-02-24 | 2020-02-24 | 一种早期预测妊娠糖尿病模型的建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111312399A true CN111312399A (zh) | 2020-06-19 |
Family
ID=71147720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010112390.7A Pending CN111312399A (zh) | 2020-02-24 | 2020-02-24 | 一种早期预测妊娠糖尿病模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312399A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509695A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病患者的急性冠脉综合征预警方法及装置 |
CN112509704A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的急性冠脉综合征预警方法及装置 |
CN112836730A (zh) * | 2021-01-20 | 2021-05-25 | 国家卫生健康委科学技术研究所 | 用于用户妊娠状态分类的方法、装置、电子设备及介质 |
CN113012806A (zh) * | 2021-02-20 | 2021-06-22 | 西安交通大学医学院第二附属医院 | 一种妊娠期糖尿病的早期预测方法 |
CN113113142A (zh) * | 2021-04-09 | 2021-07-13 | 长沙理工大学 | 一种利用智能分析技术对糖尿病患病风险的预测方法 |
CN113257422A (zh) * | 2021-06-04 | 2021-08-13 | 福州大学 | 基于糖代谢数据的疾病预测模型的构建方法及系统 |
WO2022246707A1 (zh) * | 2021-05-26 | 2022-12-01 | 京东方科技集团股份有限公司 | 疾病风险预测方法、装置、存储介质及电子设备 |
CN117316445A (zh) * | 2023-09-22 | 2023-12-29 | 无锡市妇幼保健院 | 一种用于预测妊娠期糖尿病风险的评估模型及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446595A (zh) * | 2016-12-16 | 2017-02-22 | 上海尚戴科技发展有限公司 | 一种机器学习妊娠期糖尿病发病风险及病情程度预测系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109524118A (zh) * | 2018-11-01 | 2019-03-26 | 上海海事大学 | 一种基于机器学习和体检数据的妊娠期糖尿病筛查方法 |
-
2020
- 2020-02-24 CN CN202010112390.7A patent/CN111312399A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446595A (zh) * | 2016-12-16 | 2017-02-22 | 上海尚戴科技发展有限公司 | 一种机器学习妊娠期糖尿病发病风险及病情程度预测系统 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
CN109524118A (zh) * | 2018-11-01 | 2019-03-26 | 上海海事大学 | 一种基于机器学习和体检数据的妊娠期糖尿病筛查方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836730A (zh) * | 2021-01-20 | 2021-05-25 | 国家卫生健康委科学技术研究所 | 用于用户妊娠状态分类的方法、装置、电子设备及介质 |
CN112509695A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 针对稳定型冠心病患者的急性冠脉综合征预警方法及装置 |
CN112509704A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的急性冠脉综合征预警方法及装置 |
CN113012806A (zh) * | 2021-02-20 | 2021-06-22 | 西安交通大学医学院第二附属医院 | 一种妊娠期糖尿病的早期预测方法 |
CN113012806B (zh) * | 2021-02-20 | 2024-01-19 | 西安交通大学医学院第二附属医院 | 一种妊娠期糖尿病的早期预测方法 |
CN113113142A (zh) * | 2021-04-09 | 2021-07-13 | 长沙理工大学 | 一种利用智能分析技术对糖尿病患病风险的预测方法 |
WO2022246707A1 (zh) * | 2021-05-26 | 2022-12-01 | 京东方科技集团股份有限公司 | 疾病风险预测方法、装置、存储介质及电子设备 |
CN113257422A (zh) * | 2021-06-04 | 2021-08-13 | 福州大学 | 基于糖代谢数据的疾病预测模型的构建方法及系统 |
CN117316445A (zh) * | 2023-09-22 | 2023-12-29 | 无锡市妇幼保健院 | 一种用于预测妊娠期糖尿病风险的评估模型及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111312399A (zh) | 一种早期预测妊娠糖尿病模型的建立方法 | |
KR100794516B1 (ko) | 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
US20200388358A1 (en) | Machine Learning Method for Generating Labels for Fuzzy Outcomes | |
US20220122739A1 (en) | Ai-based condition classification system for patients with novel coronavirus | |
CN113643756B (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
Aslam et al. | Predictive analysis on severity of non-alcoholic fatty liver disease (nafld) using machine learning algorithms | |
CN114242245A (zh) | 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置 | |
CN113470816A (zh) | 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置 | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
CN112950643A (zh) | 基于特征融合深监督U-Net的新冠肺炎病灶分割方法 | |
Uddin et al. | Machine learning based diabetes detection model for false negative reduction | |
CN114974585A (zh) | 一种妊娠期代谢综合征早期风险预测评估模型构建方法 | |
CN112732910A (zh) | 跨任务文本情绪状态评估方法、系统、装置及介质 | |
CN116306783A (zh) | 基于lstm-dcgan模型的fhr数据增强方法 | |
CN113838018A (zh) | 基于Cnn-former的肝纤维化病变检测模型训练方法与系统 | |
CN116189909B (zh) | 基于推举算法的临床医学判别方法及系统 | |
CN116631626A (zh) | 一种患者临床风险评估方法、装置、设备及介质 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN112562849B (zh) | 一种基于层次结构和共现结构的临床自动诊断方法及系统 | |
Prasanth et al. | Prognostication of diabetes diagnosis based on different machine learning classification algorithms | |
Nandhini et al. | Random forest and genetic algorithm united with hyperparameter for diabetes prediction by using WBSMOTE, wrapper approach | |
CN113096815A (zh) | 一种基于logistic回归的慢性肾病预测方法 | |
CN112102285A (zh) | 一种基于多模态对抗训练的骨龄检测方法 | |
Shi et al. | AM-DenseNet: A novel DenseNet framework using attention mechanisms for COVID-19 CT image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |