CN113178261A - 基于机器学习的糖尿病预测模型构建方法及系统 - Google Patents
基于机器学习的糖尿病预测模型构建方法及系统 Download PDFInfo
- Publication number
- CN113178261A CN113178261A CN202110625405.4A CN202110625405A CN113178261A CN 113178261 A CN113178261 A CN 113178261A CN 202110625405 A CN202110625405 A CN 202110625405A CN 113178261 A CN113178261 A CN 113178261A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- machine learning
- prediction model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 33
- 206010012601 diabetes mellitus Diseases 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 40
- 201000010099 disease Diseases 0.000 claims abstract description 24
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000023852 carbohydrate metabolic process Effects 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 230000004060 metabolic process Effects 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000004153 glucose metabolism Effects 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008094 contradictory effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 235000008242 dietary patterns Nutrition 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 abstract description 3
- 239000008280 blood Substances 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 3
- 230000037182 bone density Effects 0.000 description 3
- 239000008103 glucose Substances 0.000 description 3
- 230000037081 physical activity Effects 0.000 description 3
- 206010018429 Glucose tolerance impaired Diseases 0.000 description 2
- 208000001280 Prediabetic State Diseases 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 2
- 230000003907 kidney function Effects 0.000 description 2
- 230000003908 liver function Effects 0.000 description 2
- 238000007410 oral glucose tolerance test Methods 0.000 description 2
- 201000009104 prediabetes syndrome Diseases 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 208000004611 Abdominal Obesity Diseases 0.000 description 1
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 1
- 108010082126 Alanine transaminase Proteins 0.000 description 1
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 206010003210 Arteriosclerosis Diseases 0.000 description 1
- 208000015163 Biliary Tract disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 206010065941 Central obesity Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000032928 Dyslipidaemia Diseases 0.000 description 1
- 208000004930 Fatty Liver Diseases 0.000 description 1
- 206010017076 Fracture Diseases 0.000 description 1
- 208000018522 Gastrointestinal disease Diseases 0.000 description 1
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 108010023302 HDL Cholesterol Proteins 0.000 description 1
- 206010019708 Hepatic steatosis Diseases 0.000 description 1
- 102000005548 Hexokinase Human genes 0.000 description 1
- 108700040460 Hexokinases Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 102000004877 Insulin Human genes 0.000 description 1
- 108090001061 Insulin Proteins 0.000 description 1
- 108010028554 LDL Cholesterol Proteins 0.000 description 1
- 208000017170 Lipid metabolism disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 208000001132 Osteoporosis Diseases 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 108090000340 Transaminases Proteins 0.000 description 1
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 1
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 1
- 208000011775 arteriosclerosis disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000459 calcaneus Anatomy 0.000 description 1
- VTYYLEPIZMXCLO-UHFFFAOYSA-L calcium carbonate Substances [Ca+2].[O-]C([O-])=O VTYYLEPIZMXCLO-UHFFFAOYSA-L 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000014171 carbonated beverage Nutrition 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 235000013365 dairy product Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001739 density measurement Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 229940125396 insulin Drugs 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 235000013594 poultry meat Nutrition 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003127 radioimmunoassay Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 235000014102 seafood Nutrition 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000004617 sleep duration Effects 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- 102000014898 transaminase activity proteins Human genes 0.000 description 1
- DCXXMTOCNZCJGO-UHFFFAOYSA-N tristearoylglycerol Chemical compound CCCCCCCCCCCCCCCCCC(=O)OCC(OC(=O)CCCCCCCCCCCCCCCCC)COC(=O)CCCCCCCCCCCCCCCCC DCXXMTOCNZCJGO-UHFFFAOYSA-N 0.000 description 1
- 229940116269 uric acid Drugs 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于机器学习的糖尿病预测模型构建方法及系统,包括以下步骤:步骤S1:获取样本人群的糖代谢数据,并构建第一样本数据集;步骤S2:对得到的初始样本数据集进行预处理,得到第二样本集,并按预设比例分为训练集和验证集;步骤S3:选取若干单分类机器学习模型构造一级模型,将训练集作为输入进行训练,得到若干单一疾病预测模型;步骤S4:对单一疾病预测模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合,得到融合模型;步骤S5:基于单一疾病预测模型和合模型,构建综合预测模型。本发明有效提升了模型精度和泛化能力,能快速预测待测者患有糖代谢异常相关的疾病的概率,节约了紧张的医疗资源。
Description
技术领域
本发明涉及大数据分析领域,具体涉及一种基于机器学习的糖尿病预测模型构建方法及系统。
背景技术
2型糖尿病作为糖尿病的主要类型,危害在于其并发症。糖尿病及其并发症已成为人群致死、致残的主要原因,并严重威胁到人们的健康。需要说明的是2型糖尿病是一种可防可控的慢性病,其发生发展往往经历一段时间。由于糖尿病和糖尿病前期的复杂性和多因素性,预防糖尿病和糖尿病前期必须参考多种危险因素。然而有许多预测因素同时存在时,很难评估一个人的糖代谢异常风险。一个整合了多种相关因素的糖尿病风险预测模型,将有助于促进健康教育与咨询。协助医护人员快速、高效的评估患者风险。特别是在农村居民患者中。现有传统的系统和模型,并不能精确的分析对应的数据,实现数据预测,且模型精度和泛化能力较弱,无法应用到现有的预测设备中。
发明内容
有鉴于此,本发明的目的在于提供一种基于机器学习的糖尿病预测模型构建方法及系统,有效提升了模型精度和泛化能力,能快速预测待测者患有糖代谢异常相关的疾病的概率,节约了紧张的医疗资源。
为实现上述目的,本发明采用如下技术方案:
一种基于机器学习的糖尿病预测模型构建方法,包括以下步骤:
步骤S1:获取样本人群的糖代谢数据,并构建第一样本数据集;
步骤S2:对得到的初始样本数据集进行预处理,得到第二样本集,并按预设比例分为训练集和验证集;
步骤S3:选取若干单分类机器学习模型构造一级模型,将训练集作为输入进行训练,得到若干单一疾病预测模型;
步骤S4:对单一疾病预测模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合,得到融合模型;
步骤S5:基于单一疾病预测模型和合模型,构建综合预测模型。
进一步的 ,所述第一样本数据集包括变量具体为:人口统计学特征、合并症、生活方式 、饮食方式、人体测量学特征、生理特征。
进一步的 ,所述步骤S2具体为:根据糖代谢常规检查数据所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,同时进行特征变量筛选,剔除无关变量,剩余变量构成第二样本集。
进一步的 ,所述数据清洗和标准化具体为:
根据疾病知识库剔除糖代谢检查数据中不符合生物学规律的数据以及相互矛盾的数据,然后对所述糖代谢检查数据进行数据标准化,将其映射到[0 ,1,2]上;
对缺失数据以及偏移数据进行处理,包括对缺失较多指标值的元组进行删除;存在个别缺失值的元组用人工填补缺失值法处理;超出不合理范围的数据,超过上限的用最大值代替,低于下限的用最小值代替;分类缺失值众数代替,数值型缺失数据均值代替,采用人工修正法将偏移数据值与对应的属性名称进行匹配。
进一步的 ,所述特征变量筛选具体为:使用单因素逻辑回归对训练集中的参与者进行分析,筛选影响3年糖代谢异常发生率的特征变量;通过结合专家知识最终确定用于模型构建的特征变量;其中将P<0.05的变量作为显著变量并纳入最终的模型构建,其余的特征变量进行筛除,将P<0.05的变量作为显著变量并纳入最终的模型构建。
进一步的 ,所述步骤S3具体为:选取BP神经网络、随机森林、梯度提升树、支持向量机单分类机器学习模型构造一级模型,将所述训练集作为以上四种单分类模型的输入,得到单一疾病预测模型。
进一步的 ,所述步骤S4具体为:
对若干种机器学习模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合;
对训练集进行五折交叉验证,其中四折作为训练,另外一折作为验证并预测出结果;
递归地完成5次训练,得出5个结果并把其列拼接起来作为新的训练集的一列;
测试集则取五次平均的结果作为新的测试集的一列;
用所选取的两个模型所生成的两列新的训练集和测试集横向拼接起来,导入线性回归模型训练,对新的测试集进行预测,得出模型融合结果。
一种基于机器学习的糖尿病预测模型的预测系统,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取糖代谢数据并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优化;所述预测模块用于模型的输出,预测用户是否患病;所述保存模块用于存储病人病历信息。
进一步的 ,所述预测模块还设置有模型评测单元,采用F1 score以及AUC,其中F1score为召回率和准确率的调和平均,AUC为评测分类模型优劣的标准。
本发明与现有技术相比具有以下有益效果:
本发明有效提升了模型精度和泛化能力,能快速预测待测者患有糖代谢异常相关的疾病的概率,节约了紧张的医疗资源;
本发明针对糖代谢各类检查数据的不同属性而采用了不同的筛选和清洗方法,提高了数据的有效性和精确性,降低了模型的训练误差和训练时间,因而更好的鲁棒性 。
附图说明
图1是本发明方法流程图;
图2是本发明系统原理示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本实施例提供一种基于机器学习的糖尿病预测模型构建方法,包括以下步骤:
步骤S1:获取样本人群的糖代谢数据,共含有72个变量构成第一样本集;
步骤S2:根据糖代谢常规检查数据所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,同时进行特征变量筛选,剔除无关变量,剩余32个变量构成第二样本集,并将所述第二样本集按预设比例划分为训练集、验证集;
步骤S3:将所述第二样本集按6:4比例划分为训练集、验证集,选取BP神经网络、随机森林、梯度提升树、支持向量机等单分类机器学习模型构造一级模型,将所述训练集作为以上四种单分类模型的输入;训练所述四种算法模型直至其输出值与真实值偏差低于阈值,得到单一疾病预测模型;
步骤S4:对单一疾病预测模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合,提升模型泛化能力和模型精度;
步骤S5:基于单一疾病预测模型和合模型,构建综合预测模型。
优选的,第一样本数据集包括变量具体为:人口统计学特征 (年龄、性别、教育水平、婚姻状况、家族史), 合并症 (超重、肥胖、腹型肥胖、骨质疏松、血脂异常、肿瘤、心血管和脑血管疾病、高血压、脂肪肝、胆道疾病、胃肠疾病、肾脏疾病、呼吸道疾病、打鼾、骨折),生活方式 (吸烟史、饮茶史、午睡时长、夜间睡眠时长、睡眠质量、低等强度体力活动、中等强度体力活动、高等强度体力活动), 饮食方式 (薯类、肉类、家禽类、海鲜、水果、鸡蛋、奶制品、豆制品、油炸食物、果味饮料、碳酸饮料、腌制食物、咖啡、动物内脏、营养品)。人体测量学特征包括身高、体重、腰围、臀围、颈围。辅助检查包括血压、脉搏、ABI、baPWV和心电图。
优选的,在本实施例中数据获取方式如下:
受试者静止休息5min后,使用欧姆龙血压计 (每天校准) 连续测量3次后取平均血压及脉搏。采用日本欧姆龙BP-203PREIII全自动动脉硬化多普勒超声自动分析得到左右两侧的ABI值和baPWV值。取两侧平均值作为该患者的baPWV值进行统计分析,取两侧最低值作为该患者的ABI值进行统计分析。并于当日留取隔夜空腹静脉血 (空腹至少8h) 测定空腹血糖(FPG)、空腹血清胰岛素 (FINS)、糖化血红蛋白 (HbA1c)、血脂四项 (高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、总胆固醇、三酰甘油), 肝功能 (谷丙转氨酶、谷草转氨酶、碱性磷酸酶), 肾功能 (肌酐、尿酸)。2h后时抽取静脉血测定口服葡萄糖耐量试验2h血糖(OGTT 2hPG)。血糖用己糖激酶法测定,FINS及HbA1c用放射免疫法测定,肝功能、肾功能、血脂四项采用自动生化仪 (Modular E170, Roche) 检测。骨密度测量选择左足跟骨,采用Achilles Express超声骨密度分析仪 (GE Lunar Corp,美国威斯康星州麦迪逊) 进行骨密度测定。
优选的,在本实施例中,根据糖代谢常规检查数据所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,同时进行特征变量筛选,剔除无关变量,剩余变量构成第二样本集。
根据疾病知识库剔除糖代谢检查数据中不符合生物学规律的数据以及相互矛盾的数据,然后对所述糖代谢检查数据进行数据标准化,将其映射到[0 ,1,2]上;
对缺失数据以及偏移数据进行处理,包括对缺失较多指标值的元组进行删除。其余各指标缺失值均较少,填补过后对模型结果无影响。其中,存在个别缺失值的元组用人工填补缺失值法处理。超出不合理范围的数据,超过上限的用最大值代替,低于下限的用最小值代替。分类缺失值众数代替,数值型缺失数据均值代替,采用人工修正法将偏移数据值与对应的属性名称进行匹配。
使用单因素逻辑回归对训练集中的参与者进行分析,筛选影响3年糖代谢异常发生率的特征变量;通过结合专家知识最终确定用于模型构建的特征变量;其中将P<0.05的变量作为显著变量并纳入最终的模型构建,其余的特征变量进行筛除,将P<0.05的变量作为显著变量并纳入最终的模型构建。
在本实施例中,步骤S4具体为:
对若干种机器学习模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合;
对训练集进行五折交叉验证,其中四折作为训练,另外一折作为验证并预测出结果;
递归地完成5次训练,得出5个结果并把其列拼接起来作为新的训练集的一列;
测试集则取五次平均的结果作为新的测试集的一列;
用所选取的两个模型所生成的两列新的训练集和测试集横向拼接起来,导入线性回归模型训练,对新的测试集进行预测,得出模型融合结果。
参考图2,本实施例中,还提供一种基于机器学习的糖尿病预测模型的预测系统,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取糖代谢数据并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优化;所述预测模块用于模型的输出,预测用户是否患病;所述保存模块用于存储病人病历信息。数据处理分析模块提取用户信息并预处理后,通过单分类器预测模型和融合模型预测,得到预测结果;预测模块根据预测结果判断用户是否患病,最后将结果输出并存储于保存模块。
优选的,在本实施例中,参数调整模块包括两部分,分别为交叉验证和完备训练集设定区,设定交叉验证比例,一般设定参考值为0.2~0.3,以此划分验证集通过验证集来验证最优参数,而完备训练集设定模块不需要设定。实例设定为0.3,点击拟合来进行训练模型,展示模块会展示模型通过网格搜索来寻找某一组较优的参数,设置最佳迭代次数为200,最大特征筛选采用“sqrt”,最大决策树深度为7,最小叶子节点为9。其中,为了简化参数搜过过程,避免工程师经验不足,交叉验证设定的参数为系统内置设定好。
优选的,在本实施例中,所述预测模块还设置有模型评测单元,采用F1 score以及AUC,其中F1 score为召回率和准确率的调和平均,AUC为评测分类模型优劣的标准。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (9)
1.一种基于机器学习的糖尿病预测模型构建方法,其特征在于,包括以下步骤:
步骤S1:获取样本人群的糖代谢数据,并构建第一样本数据集;
步骤S2:对得到的初始样本数据集进行预处理,得到第二样本集,并按预设比例分为训练集和验证集;
步骤S3:选取若干单分类机器学习模型构造一级模型,将训练集作为输入进行训练,得到若干单一疾病预测模型;
步骤S4:对单一疾病预测模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合,得到融合模型;
步骤S5:基于单一疾病预测模型和合模型,构建综合预测模型。
2.根据权利要求1所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述第一样本数据集包括变量具体为:人口统计学特征、合并症、生活方式 、饮食方式、人体测量学特征、生理特征。
3.根据权利要求1所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述步骤S2具体为:根据糖代谢常规检查数据所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,同时进行特征变量筛选,剔除无关变量,剩余变量构成第二样本集。
4.根据权利要求3所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述数据清洗和标准化具体为:
根据疾病知识库剔除糖代谢检查数据中不符合生物学规律的数据以及相互矛盾的数据,然后对所述糖代谢检查数据进行数据标准化,将其映射到[0 ,1,2]上;
对缺失数据以及偏移数据进行处理,包括对缺失较多指标值的元组进行删除;其中,存在个别缺失值的元组用人工填补缺失值法处理;超出不合理范围的数据,超过上限的用最大值代替,低于下限的用最小值代替;分类缺失值众数代替,数值型缺失数据均值代替,采用人工修正法将偏移数据值与对应的属性名称进行匹配。
5.根据权利要求3所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述特征变量筛选具体为:使用单因素逻辑回归对训练集中的参与者进行分析,筛选影响3年糖代谢异常发生率的特征变量;通过结合专家知识最终确定用于模型构建的特征变量;其中将P<0.05的变量作为显著变量并纳入最终的模型构建,其余的特征变量进行筛除,将P<0.05的变量作为显著变量并纳入最终的模型构建。
6.根据权利要求1所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述步骤S3具体为:选取BP神经网络、随机森林、梯度提升树、支持向量机单分类机器学习模型构造一级模型,将所述训练集作为以上四种单分类模型的输入,得到单一疾病预测模型。
7.根据权利要求1所述的基于机器学习的糖尿病预测模型构建方法,其特征在于,所述步骤S4具体为:
对若干种机器学习模型进行多样性分析,选取差异性大且精度最高的两种模型进行融合;
对训练集进行五折交叉验证,其中四折作为训练,另外一折作为验证并预测出结果;
递归地完成5次训练,得出5个结果并把其列拼接起来作为新的训练集的一列;
测试集则取五次平均的结果作为新的测试集的一列;
用所选取的两个模型所生成的两列新的训练集和测试集横向拼接起来,导入线性回归模型训练,对新的测试集进行预测,得出模型融合结果。
8.一种基于机器学习的糖尿病预测模型的预测系统,其特征在于,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取糖代谢数据并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优化;所述预测模块用于模型的输出,预测用户是否患病;所述保存模块用于存储病人病历信息。
9.根据权利要求8所述的基于机器学习的糖尿病预测模型的预测系统,其特征在于,所述预测模块还设置有模型评测单元,采用F1 score以及AUC,其中F1 score为召回率和准确率的调和平均,AUC为评测分类模型优劣的标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110625405.4A CN113178261A (zh) | 2021-06-04 | 2021-06-04 | 基于机器学习的糖尿病预测模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110625405.4A CN113178261A (zh) | 2021-06-04 | 2021-06-04 | 基于机器学习的糖尿病预测模型构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113178261A true CN113178261A (zh) | 2021-07-27 |
Family
ID=76927424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110625405.4A Pending CN113178261A (zh) | 2021-06-04 | 2021-06-04 | 基于机器学习的糖尿病预测模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113178261A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985515A (zh) * | 2023-03-20 | 2023-04-18 | 广东工业大学 | 一种基于机器学习的弱视矫治效果预测方法、装置及设备 |
CN116627946A (zh) * | 2023-06-01 | 2023-08-22 | 中山市人民医院 | 一种糖尿病足数据模型的建立方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018124854A1 (ko) * | 2016-12-30 | 2018-07-05 | 서울대학교 산학협력단 | 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 |
CN110111888A (zh) * | 2019-05-16 | 2019-08-09 | 闻康集团股份有限公司 | 一种XGBoost疾病概率预测方法、系统及存储介质 |
CN110246577A (zh) * | 2019-05-31 | 2019-09-17 | 深圳江行联加智能科技有限公司 | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN112786204A (zh) * | 2021-03-03 | 2021-05-11 | 天津医科大学 | 一种机器学习糖尿病发病风险预测方法及应用 |
CN113077900A (zh) * | 2021-03-11 | 2021-07-06 | 杭州市妇产科医院 | 糖尿病早期风险评估方法、装置、计算机设备及介质 |
-
2021
- 2021-06-04 CN CN202110625405.4A patent/CN113178261A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018124854A1 (ko) * | 2016-12-30 | 2018-07-05 | 서울대학교 산학협력단 | 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 |
CN110111888A (zh) * | 2019-05-16 | 2019-08-09 | 闻康集团股份有限公司 | 一种XGBoost疾病概率预测方法、系统及存储介质 |
CN110246577A (zh) * | 2019-05-31 | 2019-09-17 | 深圳江行联加智能科技有限公司 | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN112786204A (zh) * | 2021-03-03 | 2021-05-11 | 天津医科大学 | 一种机器学习糖尿病发病风险预测方法及应用 |
CN113077900A (zh) * | 2021-03-11 | 2021-07-06 | 杭州市妇产科医院 | 糖尿病早期风险评估方法、装置、计算机设备及介质 |
Non-Patent Citations (2)
Title |
---|
刘利明: "基于数据挖掘心血管疾病风险因子发现与早期预警的风险建模研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 * |
龚著琳 等: "《生物医学数据挖掘》", 31 August 2011, 上海科学技术出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115985515A (zh) * | 2023-03-20 | 2023-04-18 | 广东工业大学 | 一种基于机器学习的弱视矫治效果预测方法、装置及设备 |
CN116627946A (zh) * | 2023-06-01 | 2023-08-22 | 中山市人民医院 | 一种糖尿病足数据模型的建立方法及系统 |
CN116627946B (zh) * | 2023-06-01 | 2024-02-06 | 中山市人民医院 | 一种糖尿病足数据模型的建立方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113178261A (zh) | 基于机器学习的糖尿病预测模型构建方法及系统 | |
EP0973435A1 (en) | A system for predicting future health | |
CN107194138A (zh) | 一种基于体检数据建模的空腹血糖预测方法 | |
CN106250680B (zh) | 心脏健康指数检测系统 | |
CN109065113B (zh) | 基于机器学习的人体减重方案推荐方法、系统及介质 | |
CN114464322B (zh) | 女性盆底功能障碍性疾病风险预警模型及其构建方法和系统 | |
CN110176304A (zh) | 一种确定糖尿病患者骨折风险的方法及装置 | |
CN114360728A (zh) | 一种用于糖尿病轻度认知功能障碍的预测模型和诺模图的构建方法 | |
CN109409579A (zh) | Bp人工神经网络预测原料加工适宜性的方法 | |
CN117012392A (zh) | 高血压风险评估模型构建方法、膳食食疗及健康管理系统 | |
Nielsen et al. | A brief catalogue of failures: Framing evaluation and learning in fisheries resource management | |
CN114141363A (zh) | 一种基于机器学习方法的重症胰腺炎预测模型构建方法 | |
CN114943629A (zh) | 一种健康管理保健服务系统及其健康管理方法 | |
CN109841278A (zh) | 一种以心血管标志及机械学习运算法进行冠心症筛检的方法 | |
CN113257422A (zh) | 基于糖代谢数据的疾病预测模型的构建方法及系统 | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
JP6864947B2 (ja) | 健康度ポジショニングマップおよび健康関数を作成する方法、システム、およびプログラム、ならびにそれらの使用方法 | |
CN108109696A (zh) | 一种数据处理方法和装置 | |
CN117253612A (zh) | 一种基于评分模型的居民膳食质量及慢性病风险状况评价方法 | |
CN112666325A (zh) | 一种鸡肉品质感官评价模型的构建方法及应用 | |
CN116564521A (zh) | 一种慢性病风险评估模型建立方法、介质及系统 | |
KR102546256B1 (ko) | 체외진단기를 이용한 딥러닝 헬스케어 서비스 플랫폼 및 이를 이용한 헬스케어 추천방법 | |
CN113066547B (zh) | 一种基于常规无创参数的ards早期动态预警方法与系统 | |
CN114974570A (zh) | 基于机器学习的老年人营养健康状态评估与风险预测系统 | |
CN113096127A (zh) | 一种脑网络演化模型的生成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210727 |
|
RJ01 | Rejection of invention patent application after publication |