CN109979599A - 一种基于机器学习的糖尿病智能预测模型的建立方法 - Google Patents
一种基于机器学习的糖尿病智能预测模型的建立方法 Download PDFInfo
- Publication number
- CN109979599A CN109979599A CN201711445663.4A CN201711445663A CN109979599A CN 109979599 A CN109979599 A CN 109979599A CN 201711445663 A CN201711445663 A CN 201711445663A CN 109979599 A CN109979599 A CN 109979599A
- Authority
- CN
- China
- Prior art keywords
- model
- building
- machine learning
- diabetes
- xgboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于机器学习的糖尿病智能预测模型的建立方法,从数据库调取个体生理参数数据,并将个体生理参数数据通过稀疏自编码器转化为xgboost模型可用的稀疏特征;将稀疏特征带入xgboost模型进行训练,在训练过程中调整xgboost模型的结构与参数,得到训练后的xgboost模型;将训练后的xgboost模型的参数进行提取,转化为预测模型,并根据预测模型得到预测结果。本发明采用稀疏自编码器自动提取有效特征,减少了对医学先验知识的需求;通过易采集的生理参数,在降低数据采集难度的情况下保证了预测准确率;可重复使用预测模型,不需要频繁再训练,降低了时间复杂度。
Description
技术领域
本发明涉及医学模型领域,具体地说是一种基于机器学习的糖尿病智能预测模型的建立方法。
背景技术
早期在不采血的情况下进行诊断是糖尿病疾病临床诊断中的难题之一,如今,医学临床对非采血采尿的糖尿病临床诊断方法仍然十分有限,目前主要有一些形态学诊断方法,例如FINDRISK、ADRS和CDRS以及AUSDRISK等,不仅其采集方法复杂,而且诊断精度较低,绝大多数只能在病情发展到有明显病理改变时才能检测到。
发明内容
针对现有技术的不足,本发明提供一种基于机器学习的糖尿病智能预测模型的建立方法,利用人工智能技术采集多个生理参数,并提取出生理参数中的有益信息形成特征,并以此训练模型,预测糖尿病。
本发明为实现上述目的所采用的技术方案是:
一种基于机器学习的糖尿病智能预测模型的建立方法,包括以下步骤:
步骤1:从数据库调取个体生理参数数据,并将个体生理参数数据通过稀疏自编码器转化为xgboost模型可用的稀疏特征;
步骤2:将稀疏特征带入xgboost模型进行训练,在训练过程中调整xgboost模型的结构与参数,得到训练后的xgboost模型;
步骤3:将训练后的xgboost模型的参数进行提取,转化为预测模型,并根据预测模型得到预测结果。
所述个体生理参数数据包括静态信息和动态信息,其中
静态信息包括:年龄、性别、BMI、腰围、高血压家族史、糖尿病家族史、人口学测量指标、种族;
动态信息包括:收缩压、FPG、腰围、锻炼习惯、饮食习惯、体重变化情况、BMI变化情况、锻炼习惯变化情况。
所述稀疏自编码器为:
其中,W为自编码器网络权重,b为网络偏置,β为稀疏惩罚系数,ρ为理想活跃度,为实际活跃度,表示了具有交叉熵性质的惩罚因子限制稀疏度,其公式为:
其中,平均活跃度的数学定义为:
这里m为神经元个数,为隐藏层权重,x(i)为神经元的值。
所述调整xgboost模型的结构包括总体结构优化和个体结构优化。
所述总体结构优化为:
其中,Ω(ft)为L2正则项,l(.)为需要降低的残差,yi为第i个基学习器输出的目标函数,n为基学习器个数,ft为当前学习器的目标函数,constant为常数,评价标准为MSE。
所述个体结构优化为通过贪心算法对叶子节点进行分割:
其中,GL为左子树的增益,GR为右子树的增益,HL,HR为左右子树的熵,λ为正则系数,为左子树的分数,为右子树的分数,为不分裂的分数,γ为新叶子节点引入的复杂度代价。
需要调整的xgboost模型的参数包括行采样、列采样、树个数、树深度、学习率、正则化系数、叶子节点最大值。
所述预测模型为:
其中,M为基学习器数量,γjm为第m个基学习器的复杂度,J为特征总数,I为单位矩阵。
本发明具有以下有益效果及优点:
1.本发明采用稀疏自编码器自动提取有效特征,减少了对医学先验知识的需求;
2.本发明通过易采集的生理参数,在降低数据采集难度的情况下保证了预测准确率;
3.本发明通过可重复使用的预测模型,不需要频繁再训练,降低了时间复杂度。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示为本发明的方法流程图。
一种基于机器学习的糖尿病智能预测模型,建立方法包括以下步骤:
步骤1:从数据库调取个体生理参数数据,所述生理参数数据包括:年龄、性别、BMI、腰围、高血压家族史、糖尿病家族史、人口学测量指标、种族、收缩压、FPG、腰围、锻炼习惯、饮食习惯、体重变化情况、BMI变化情况、锻炼习惯变化情况。
其中年龄、性别、BMI、腰围、高血压家族史、糖尿病家族史、人口学测量指标、种族为静态信息,收缩压、FPG、腰围、锻炼习惯、饮食习惯、体重变化情况、BMI变化情况、锻炼习惯变化情况为动态信息。
步骤2:将生理数据通过自编码器转化为模型可用特征。
步骤3:将特征带入模型进行训练,训练过程中调整模型的结构与参数。
步骤4:将训练好的模型的参数进行提取,并转化为预测模型。
步骤5:根据预测模型得到预测结果。预测模型的公式为:
其中,M为基学习器数量,γ为模型复杂度。
采用上述方法,通过分析数据库中采集的个体生理参数信息,结合基于机器学习的糖尿病智能预测模型计算就能得到新个体是否为糖尿病患者的信息,将该信息存储到数据库中,该数据库就可以用作人群健康程度的大数据检测。
更进一步的,步骤2采用稀疏自编码器对生理参数数据进行稀疏特征化:
步骤1:保证模型特征的稀疏性,加入平均活跃度的定义:
步骤2:选择具有交叉熵性质的惩罚因子限制稀疏度:
其中,S2是隐藏层中隐藏神经元的数量,而索引j依次代表隐藏层中的每一个神经元。
步骤3:优化带有惩罚因子的损失函数:
采用上述步骤,稀疏自编码器是运用很广泛的特征提取技术,能够满足个体生理信号从稠密到稀疏特征的转换,并使得特征维度更高,便于模型对于特征的利用和处理。
更进一步的,步骤3将特征带入模型进行训练,训练过程中调整模型的结构:
步骤①:这里的模型选择使用xgboost,其需要优化的目标函数为:
其中Ω(ft)为L2正则项,l(.)为需要降低的残差。
步骤②:采用MSE作为评价标准优化目标函数,公式为:
这里y为真实值,y′为模型的预测值。
采用上述步骤,能从模型的结构角度降低预测的经验误差,发现数据的签字信息,提升预测准确率。
更进一步的,步骤①的模型参数主要包括行采样、列采样、树个数、树深度、学习率、正则化系数、叶子节点最大值。
采用上述方法,能够从模型的参数调整角度来提升模型整体的泛化能力,是模型产生的函数更接近于数据在假设空间的真实分布。
更进一步的,步骤4将训练好的模型的参数进行提取,并转化为预测模型:采用pickle将训练好的智能预测模型的参数进行参数服务器保存,以便在进行新数据预测时调用。
采用上述方法,能够将训练好的模型参数保存在分布式服务器中,一方面避免了模型做预测需要再训练的麻烦,另一方面分布式服务器可以降低因为硬件损坏造成数据损失的可能性。
更进一步的,步骤5中调用参数服务器中存储的参数,形成预测模型,对新个体的患病与否给出准确的预测,并实时动态调整模型参数,进行参数更新和覆盖,预测公式为:
其中,M为基学习器数量,γ为模型复杂度。
采用上述方法,能够在预测中实时调用训练好的参数,加速预测速度,提升预测准确率,并可以根据模型随时间衰减的函数,适当对模型进行重新训练,以及覆盖原参数。
Claims (8)
1.一种基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:包括以下步骤:
步骤1:从数据库调取个体生理参数数据,并将个体生理参数数据通过稀疏自编码器转化为xgboost模型可用的稀疏特征;
步骤2:将稀疏特征带入xgboost模型进行训练,在训练过程中调整xgboost模型的结构与参数,得到训练后的xgboost模型;
步骤3:将训练后的xgboost模型的参数进行提取,转化为预测模型,并根据预测模型得到预测结果。
2.根据权利要求1所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述个体生理参数数据包括静态信息和动态信息,其中
静态信息包括:年龄、性别、BMI、腰围、高血压家族史、糖尿病家族史、人口学测量指标、种族;
动态信息包括:收缩压、FPG、腰围、锻炼习惯、饮食习惯、体重变化情况、BMI变化情况、锻炼习惯变化情况。
3.根据权利要求1所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述稀疏自编码器为:
其中,W为自编码器网络权重,b为网络偏置,β为稀疏惩罚系数,ρ为理想活跃度,为实际活跃度,表示了具有交叉熵性质的惩罚因子限制稀疏度,其公式为:
其中,平均活跃度的数学定义为:
这里m为神经元个数,为隐藏层权重,x(i)为神经元的值。
4.根据权利要求1所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述调整xgboost模型的结构包括总体结构优化和个体结构优化。
5.根据权利要求4所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述总体结构优化为:
其中,Ω(ft)为L2正则项,l(.)为需要降低的残差,yi为第i个基学习器输出的目标函数,n为基学习器个数,ft为当前学习器的目标函数,constant为常数,评价标准为MSE。
6.根据权利要求4所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述个体结构优化为通过贪心算法对叶子节点进行分割:
其中,GL为左子树的增益,GR为右子树的增益,HL,HR为左右子树的熵,λ为正则系数,为左子树的分数,为右子树的分数,为不分裂的分数,γ为新叶子节点引入的复杂度代价。
7.根据权利要求1所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:需要调整的xgboost模型的参数包括行采样、列采样、树个数、树深度、学习率、正则化系数、叶子节点最大值。
8.根据权利要求1所述的基于机器学习的糖尿病智能预测模型的建立方法,其特征在于:所述预测模型为:
其中,M为基学习器数量,γjm为第m个基学习器的复杂度,J为特征总数,I为单位矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445663.4A CN109979599A (zh) | 2017-12-27 | 2017-12-27 | 一种基于机器学习的糖尿病智能预测模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711445663.4A CN109979599A (zh) | 2017-12-27 | 2017-12-27 | 一种基于机器学习的糖尿病智能预测模型的建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109979599A true CN109979599A (zh) | 2019-07-05 |
Family
ID=67071664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711445663.4A Pending CN109979599A (zh) | 2017-12-27 | 2017-12-27 | 一种基于机器学习的糖尿病智能预测模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979599A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111020028A (zh) * | 2020-02-21 | 2020-04-17 | 天津医科大学 | 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法 |
CN112668809A (zh) * | 2020-10-30 | 2021-04-16 | 华东师范大学 | 建立自闭症儿童康复效果预测模型的方法、预测自闭症儿童康复效果的方法及系统 |
CN117455890A (zh) * | 2023-11-20 | 2024-01-26 | 浙江大学 | 一种基于改进集成深度学习的儿童肠套叠空气灌肠结果预测装置 |
CN117455890B (zh) * | 2023-11-20 | 2024-05-31 | 浙江大学 | 一种基于改进集成深度学习的儿童肠套叠空气灌肠结果预测装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
-
2017
- 2017-12-27 CN CN201711445663.4A patent/CN109979599A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
Non-Patent Citations (3)
Title |
---|
叶倩怡: "基于Xgboost方法的实体零售业销售额预测研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 * |
洪烨: "基于机器学习算法的糖尿病预测模型研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 * |
秦胜君 等: "稀疏自动编码器在文本分类中的应用研究", 《科学技术与工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111020028A (zh) * | 2020-02-21 | 2020-04-17 | 天津医科大学 | 一种基于菌毛抗原基因分布对尿路感染部位进行定位判断的方法 |
CN112668809A (zh) * | 2020-10-30 | 2021-04-16 | 华东师范大学 | 建立自闭症儿童康复效果预测模型的方法、预测自闭症儿童康复效果的方法及系统 |
CN117455890A (zh) * | 2023-11-20 | 2024-01-26 | 浙江大学 | 一种基于改进集成深度学习的儿童肠套叠空气灌肠结果预测装置 |
CN117455890B (zh) * | 2023-11-20 | 2024-05-31 | 浙江大学 | 一种基于改进集成深度学习的儿童肠套叠空气灌肠结果预测装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Albu et al. | Results and challenges of artificial neural networks used for decision-making and control in medical applications | |
Karthik et al. | Attention embedded residual CNN for disease detection in tomato leaves | |
CN106295186B (zh) | 一种基于智能推理的辅助疾病诊断的系统 | |
CN110251120B (zh) | 基于注意力机制的深度残差神经网络的心电图分类方法 | |
CN108734208B (zh) | 基于多模态深度迁移学习机制的多源异构数据融合系统 | |
GB2596923A (en) | Systems, methods, and devices for biophysical modeling and response prediction | |
CN111180068A (zh) | 一种基于多任务学习模型的慢病预测系统 | |
CN114783611B (zh) | 基于人工智能的神经康复动作检测系统 | |
JP7191443B2 (ja) | 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム | |
Bayasi et al. | Culprit-prune-net: Efficient continual sequential multi-domain learning with application to skin lesion classification | |
CN116563707A (zh) | 一种基于图文多模态特征融合的枸杞虫害识别方法 | |
CN113012811B (zh) | 一种结合深度卷积网络和图神经网络的中医证候诊断和健康评价方法 | |
CN109979599A (zh) | 一种基于机器学习的糖尿病智能预测模型的建立方法 | |
CN111047073A (zh) | 一种基于神经网络的水产养殖水质预测方法及系统 | |
CN109034218A (zh) | 模型训练方法、装置、设备及存储介质 | |
CN113288157A (zh) | 基于深度可分离卷积和改进损失函数的心律失常分类方法 | |
CN115424660A (zh) | 一种使用预测模型预测多源信息关系的方法、装置 | |
CN114816069A (zh) | 基于多源域集成迁移的跨用户肌电手势识别方法及系统 | |
CN111091916A (zh) | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 | |
CN112712895B (zh) | 针对2型糖尿病并发症的多模态大数据的数据分析方法 | |
CN113180695B (zh) | 脑机接口信号分类方法、系统、设备和存储介质 | |
CN114155952A (zh) | 一种老年人群老年痴呆病患病辅助分析系统 | |
CN113627240A (zh) | 一种基于改进ssd学习模型的无人机树木种类识别方法 | |
CN116129988B (zh) | 一种模型构建方法、装置、设备和介质 | |
Yao et al. | Chemical property relation guided few-shot molecular property prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190705 |