CN112712900A - 基于机器学习的生理年龄预测模型及其建立方法 - Google Patents

基于机器学习的生理年龄预测模型及其建立方法 Download PDF

Info

Publication number
CN112712900A
CN112712900A CN202110022265.1A CN202110022265A CN112712900A CN 112712900 A CN112712900 A CN 112712900A CN 202110022265 A CN202110022265 A CN 202110022265A CN 112712900 A CN112712900 A CN 112712900A
Authority
CN
China
Prior art keywords
index data
data
model
index
physiological age
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110022265.1A
Other languages
English (en)
Inventor
吴晨凯
杨光来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duke Kunshan University
Original Assignee
Duke Kunshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duke Kunshan University filed Critical Duke Kunshan University
Priority to CN202110022265.1A priority Critical patent/CN112712900A/zh
Publication of CN112712900A publication Critical patent/CN112712900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Epidemiology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明揭示了一种基于机器学习的生理年龄预测模型及其建立方法,模型包括预测模式选择模块,用于为使用者提供生理年龄预测模式的选择,并生成对应的调用指令;指标数据输入模块,用于接收调用指令,并选择对应的数据采集模板供使用者输入指标数据;指标数据预处理模块,用于接收指标数据,并进行预处理、随后进行数据转发;预测结果生成模块,用于对指标数据进行分析、生成生理年龄预测结果后进行结果下发;预测结果展示模块,用于对结果进行展示。本发明的模型在血液指标数据的基础上引入了身体功能指标数据,使得模型能够更为全面地抓取与人群相关的生理行为特征,相较于单纯依赖血液指标数据的神经网络模型而言具有更好的评估效果。

Description

基于机器学习的生理年龄预测模型及其建立方法
技术领域
本发明涉及一种预测模型及其相对应的建立方法,具体而言,涉及一种基于机器学习的生理年龄预测模型及其建立方法,属于人工智能技术领域。
背景技术
生理年龄,亦称“生物年龄”,泛指人达到某一时序年龄时生理和其功能所反映出来的水平、即与一定时序年龄相对应的生理及其功能的表现程度,是从医学、生物学的角度来衡量的年龄。它表示人的成长、成熟或是衰老的程度,是一个人身体状况的年龄表现,其主要影响因素包括遗传因子、遗传因子的性质和发挥作用的结果等。
目前,对于生理年龄的预测和计算,主要包括三种方式,即综合性的动作测试、DNA检测以及利用神经网络模型进行预测。但是在实际的操作过程中人们发现,以上的三种方式均存在着其各自的不足,其中,动作测试的项目较多,不仅完成一次测试所需要花费的时间较长,而且测试过程中对硬件条件、测试人员的要求均较为严格,普通人很难获得这样的测试条件。DNA检测技术则受限于其操作成本,价格过高、缺乏普适性。而对于需要大量样本的神经网络模型而言,其缺点在于目前现有的模型训练样本只针对于外国人群,对于国内人群并不能完全适用;而且其训练样本仅限于血液指标数据,忽视了其他身体功能指标对于预测生理年龄的重要性。
正因现有技术中存在着上述诸多不足,因此,如何依据目前现有的研究基础,提供一种全新的、基于机器学习的生理年龄预测模型及其建立方法,以克服上述诸多问题,也就成为了目前行业内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于机器学习的生理年龄预测模型及其建立方法,具体如下。
一种基于机器学习的生理年龄预测模型,包括:
预测模式选择模块,用于为使用者提供三种生理年龄预测模式的选择,包括血液指标预测模式、身体功能指标预测模式以及综合指标预测模式,并依据使用者所选择的生理年龄预测模式生成对应的调用指令;
指标数据输入模块,与所述预测模式选择模块信号连接,用于接收来自所述预测模式选择模块的调用指令,并依据调用指令选择对应的数据采集模板供使用者输入指标数据;
指标数据预处理模块,与所述指标数据输入模块信号连接,用于接收来自所述指标数据输入模块的指标数据,并对指标数据进行预处理、随后进行数据转发;
预测结果生成模块,与所述指标数据预处理模块信号连接,用于接收来自所述指标数据预处理模块转发的指标数据,并对指标数据进行分析、生成生理年龄预测结果后进行结果下发;
预测结果展示模块,与所述预测结果生成模块信号连接,用于接收来自所述预测结果生成模块下发的生理年龄预测结果,并在显示器上对结果进行展示。
优选地,所述数据采集模板包括用于记录血液指标数据的血液指标数据采集模板、用于记录身体功能指标数据的身体功能指标数据采集模板以及同时记录血液指标数据及身体功能指标数据的综合指标数据采集模板。
优选地,所述血液指标数据包括收缩压、舒张压、每分钟心跳次数、白细胞个数、平均红细胞体积、血小板、尿素氮、血糖,肌酐、总胆固醇、甘油三酸酯、高密度脂蛋白、低密度脂蛋白、C反应蛋白、糖化血红蛋白、尿酸、血细胞压积、血红蛋白以及胱抑素C;
所述身体功能指标数据包括慢性病指标数据、功能障碍指标数据以及认知抑郁指标;
所述慢性病指标数据包括是否有高血压、是否有糖尿病、是否有癌症、是否有肺病、是否有心脏疾病、是否有中风、是否有心理疾病、是否有关节炎、是否血脂异常、是否有肝脏疾病、是否有肾脏疾病、是否有胃部/消化疾病、是否有哮喘以及是否有记忆问题;
所述功能障碍指标数据包括穿衣、洗澡、进食、上下床、上厕所、控制大小便、管理财务、用药、购物、准备饭菜、家务、跑步一千米、步行一千米、步行一百米、从椅子上起来、连续上七个台阶、弯腰/屈膝/下蹲、提十斤重物、捡起小硬币以及弯曲/伸展手臂;
所述认知抑郁指标数据包括抑郁量表得分、自评健康状况、自评记忆力、快速回忆、延迟回忆、100连续减7系列计算、日期认知以及图画认知。
优选地,所述对指标数据进行预处理包括指标数据转化及指标数据标准化;
所述指标数据转化包括,当指标数据为是/否类选择的类别变量时、将是/否选择结果转化为0/1编码,当指标数据为含有多个选项的目标变量时、将选择结果转化为数字化编码。
所述指标数据标准化包括,当指标数据为数值表示的数值变量时、采用Min-MaxScalar数据标准化对指标数据进行处理。
一种生理年龄预测模型的建立方法,用于建立如上所述的基于机器学习的生理年龄预测模型,包括如下步骤:
S1、训练数据收集与整理,从互联网中获取训练数据,所述训练数据中包含样本提供者ID、样本提供者年龄、血液指标数据以及身体功能指标数据,整理形成训练数据集;
S2、训练数据清洗,对所获取的训练数据集进行过滤、去重去空,完成数据清洗;
S3、训练数据预处理,对已完成数据清洗的训练数据集内的数据进行数据预处理、得到预处理后的训练数据集;
S4、模型选取及训练,选择机器学习领域内的回归模型,将预处理后的训练数据集带入所选取的回归模型中进行样本数据训练、得到年龄预测模型;
S5、模型验证,对所得到的年龄预测模型进行十折交叉验证并训练,验证模型在生理年龄预测方面的评估效果;
S6、模型导出及使用,将验证后的年龄预测模型导出为pkl文件保存,模型使用时,将pkl文件载入,进行生理年龄预测。
优选地,S1中所述训练数据为来源于中国健康与养老追踪调查网站的中国45岁及以上中老年人家庭和个人的高质量微观数据。
优选地,S2中所述训练数据清洗包括:
S21、针对年龄特征、从训练数据集中过滤出样本提供者年龄在40至85岁年龄段的样本数据;
S22、对训练数据集进行去重去空操作;
S23、针对训练数据集内的每个特征列计算数据缺失率,依据数据缺失率计算结果衡量是否需要舍去对应特征列的一个标准;
S24、检查各特征列内的指标数据,确保指标数据类型特征与类别类型特征准确定义,所述类别类型包括数值变量、类别变量以及目标变量。
优选地,S3中所述数据预处理包括:利用均值、中位数、众数对缺失值进行填充;指标数据转化及指标数据标准化;去除低方差特征;去除多重共线性。
优选地,S4中所述机器学习领域内的回归模型包括:Catboost Regressor、Gradient Boosting Regressor、Random Forest以及Ridge Regression。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明所述的基于机器学习的生理年龄预测模型,充分地利用了现有的机器学习模型及网络数据,通过训练,在血液指标数据的基础上加入了身体功能指标数据,使得模型能够更为全面地抓取与人群相关的生理行为特征,相较于单纯依赖血液指标数据的神经网络模型而言具有更好的评估效果。
同时,本发明的模型所使用的训练数据均为来源于网络的国内人群数据,不仅有效地解决了模型训练过程中需要大量样本的问题、降低了模型构建成本,还使得模型更适配于国人的生理体质、针对性和灵活性更强。
此外,本发明所述的生理年龄预测模型的建立方法,整体方法流程明晰、可操作性及可重复性强,而且也为同领域内的其他相关问题提供了参考。业内研究人员可以以本方法为依据进行拓展延伸,将其运用于领域内其他与预测模型及其建立相关的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明中基于机器学习的生理年龄预测模型的架构示意图;
图2为本发明中生理年龄预测模型的建立方法的方法流程示意图。
具体实施方式
本发明的目的是提出一种基于机器学习的生理年龄预测模型及其建立方法,旨在利用国内人群血液及非血液类数据构建并训练适合国人使用的生理年龄预测模型,以此达到降低使用成本并得到相对精确的生理年龄预测结果的目的,具体如下。
如图1所示,一种基于机器学习的生理年龄预测模型,包括:
预测模式选择模块,用于为使用者提供三种生理年龄预测模式的选择,包括血液指标预测模式、身体功能指标预测模式以及综合指标预测模式,并依据使用者所选择的生理年龄预测模式生成对应的调用指令;
指标数据输入模块,与所述预测模式选择模块信号连接,用于接收来自所述预测模式选择模块的调用指令,并依据调用指令选择对应的数据采集模板供使用者输入指标数据,所述数据采集模板包括用于记录血液指标数据的血液指标数据采集模板、用于记录身体功能指标数据的身体功能指标数据采集模板以及同时记录血液指标数据及身体功能指标数据的综合指标数据采集模板;
指标数据预处理模块,与所述指标数据输入模块信号连接,用于接收来自所述指标数据输入模块的指标数据,并对指标数据进行预处理、随后进行数据转发;
预测结果生成模块,与所述指标数据预处理模块信号连接,用于接收来自所述指标数据预处理模块转发的指标数据,并对指标数据进行分析、生成生理年龄预测结果后进行结果下发;
预测结果展示模块,与所述预测结果生成模块信号连接,用于接收来自所述预测结果生成模块下发的生理年龄预测结果,并在显示器上对结果进行展示。
在上述各项指标中,所述血液指标数据包括收缩压、舒张压、每分钟心跳次数、白细胞个数、平均红细胞体积、血小板、尿素氮、血糖,肌酐、总胆固醇、甘油三酸酯、高密度脂蛋白、低密度脂蛋白、C反应蛋白、糖化血红蛋白、尿酸、血细胞压积、血红蛋白以及胱抑素C。
所述身体功能指标数据包括慢性病指标数据、功能障碍指标数据以及认知抑郁指标,进一步描述如下。
所述慢性病指标数据包括是否有高血压、是否有糖尿病、是否有癌症、是否有肺病、是否有心脏疾病、是否有中风、是否有心理疾病、是否有关节炎、是否血脂异常、是否有肝脏疾病、是否有肾脏疾病、是否有胃部/消化疾病、是否有哮喘以及是否有记忆问题;
所述功能障碍指标数据包括穿衣、洗澡、进食、上下床、上厕所、控制大小便、管理财务、用药、购物、准备饭菜、家务、跑步一千米、步行一千米、步行一百米、从椅子上起来、连续上七个台阶、弯腰/屈膝/下蹲、提十斤重物、捡起小硬币以及弯曲/伸展手臂;
所述认知抑郁指标数据包括抑郁量表得分、自评健康状况、自评记忆力、快速回忆、延迟回忆、100连续减7系列计算、日期认知以及图画认知。
上述所述指标数据预处理模块对指标数据进行预处理的过程包括指标数据转化及指标数据标准化。
所述指标数据转化包括,当指标数据为是/否类选择的类别变量时、将是/否选择结果转化为0/1编码,当指标数据为含有多个选项的目标变量时、将选择结果转化为数字化编码;
所述指标数据标准化包括,当指标数据为数值表示的数值变量时、采用Min-MaxScalar数据标准化对指标数据进行处理。
综上所述,本发明所述的基于机器学习的生理年龄预测模型,充分地利用了现有的机器学习模型及网络数据,通过训练,在血液指标数据的基础上加入了身体功能指标数据,使得模型能够更为全面地抓取与人群相关的生理行为特征,相较于单纯依赖血液指标数据的神经网络模型而言具有更好的评估效果。
同时,本发明的模型所使用的训练数据均为来源于网络的国内人群数据,不仅有效地解决了模型训练过程中需要大量样本的问题、降低了模型构建成本,还使得模型更适配于国人的生理体质、针对性更强。
在本发明模型的使用过程中,使用者甚至可以依据已有数据的不同,有选择性的对预测模式进行选择,从而满足了各类不同使用者的使用需要,模型运用的灵活性更强。
如图2所示,一种生理年龄预测模型的建立方法,用于建立如上所述的基于机器学习的生理年龄预测模型,包括如下步骤:
S1、训练数据收集与整理,从互联网中获取训练数据,所述训练数据中包含样本提供者ID、样本提供者年龄、血液指标数据以及身体功能指标数据,整理形成训练数据集。
此处所述训练数据为来源于中国健康与养老追踪调查网站的中国45岁及以上中老年人家庭和个人的高质量微观数据。数据分别由2011年和2015年两个时间段构成,其中2011年含10027个样本,2015年含9668个样本。这两个数据集中俊包含有匿名ID来关联到每一个数据样本提供者。同时,除了ID之外,还包含有19个血液生物指标,14个慢性病指标,20个功能障碍指标,8个认知抑郁指标以及目标变量年龄。
S2、训练数据清洗,对所获取的训练数据集进行过滤、去重去空,完成数据清洗。
此处所述训练数据清洗包括:
S21、针对年龄特征、从训练数据集中过滤出样本提供者年龄在40至85岁(含40和85)年龄段的样本数据;
S22、对训练数据集进行去重去空操作,即去除具有相同数据的样本数据、去除全为空的样本数据;
S23、针对训练数据集内的每个特征列计算数据缺失率,依据数据缺失率计算结果衡量是否需要舍去对应特征列的一个标准(通常会舍去具有较高数据缺失率的特征列);
S24、检查各特征列内的指标数据,确保指标数据类型特征与类别类型特征准确定义,所述类别类型包括数值变量、类别变量以及目标变量。
S3、训练数据预处理,对已完成数据清洗的训练数据集内的数据进行数据预处理、得到预处理后的训练数据集。
此处所述数据预处理包括:利用均值、中位数、众数对缺失值进行填充;指标数据转化及指标数据标准化;去除低方差特征;去除多重共线性。
S4、模型选取及训练,选择机器学习领域内的回归模型,将预处理后的训练数据集带入所选取的回归模型中进行样本数据训练、得到年龄预测模型。
此处所述机器学习领域内的回归模型包括:Catboost Regressor、GradientBoosting Regressor、Random Forest以及Ridge Regression。
S5、模型验证,对所得到的年龄预测模型进行十折交叉验证并训练,验证模型在生理年龄预测方面的评估效果。
通过实际的验证可以得知,模型在加入非血液指标数据后,表现最好的R平方(通常用R平方来评估回归模型的预测效果)由0.2697变成0.4352,增长明显。
S6、模型导出及使用,将验证后的年龄预测模型导出为pkl文件保存,模型使用时,将pkl文件载入,进行生理年龄预测。
与前述基于机器学习的生理年龄预测模型相对应的,本发明所述的生理年龄预测模型的建立方法,整体方法流程明晰、可操作性及可重复性强,而且也为同领域内的其他相关问题提供了参考。本领域技术人员可以以本方法为依据进行拓展延伸,将其运用于领域内其他与预测模型及其建立相关的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
最后,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种基于机器学习的生理年龄预测模型,其特征在于,包括:
预测模式选择模块,用于为使用者提供三种生理年龄预测模式的选择,包括血液指标预测模式、身体功能指标预测模式以及综合指标预测模式,并依据使用者所选择的生理年龄预测模式生成对应的调用指令;
指标数据输入模块,与所述预测模式选择模块信号连接,用于接收来自所述预测模式选择模块的调用指令,并依据调用指令选择对应的数据采集模板供使用者输入指标数据;
指标数据预处理模块,与所述指标数据输入模块信号连接,用于接收来自所述指标数据输入模块的指标数据,并对指标数据进行预处理、随后进行数据转发;
预测结果生成模块,与所述指标数据预处理模块信号连接,用于接收来自所述指标数据预处理模块转发的指标数据,并对指标数据进行分析、生成生理年龄预测结果后进行结果下发;
预测结果展示模块,与所述预测结果生成模块信号连接,用于接收来自所述预测结果生成模块下发的生理年龄预测结果,并在显示器上对结果进行展示。
2.根据权利要求1所述的基于机器学习的生理年龄预测模型,其特征在于:所述数据采集模板包括用于记录血液指标数据的血液指标数据采集模板、用于记录身体功能指标数据的身体功能指标数据采集模板以及同时记录血液指标数据及身体功能指标数据的综合指标数据采集模板。
3.根据权利要求1所述的基于机器学习的生理年龄预测模型,其特征在于:所述血液指标数据包括收缩压、舒张压、每分钟心跳次数、白细胞个数、平均红细胞体积、血小板、尿素氮、血糖,肌酐、总胆固醇、甘油三酸酯、高密度脂蛋白、低密度脂蛋白、C反应蛋白、糖化血红蛋白、尿酸、血细胞压积、血红蛋白以及胱抑素C;
所述身体功能指标数据包括慢性病指标数据、功能障碍指标数据以及认知抑郁指标;
所述慢性病指标数据包括是否有高血压、是否有糖尿病、是否有癌症、是否有肺病、是否有心脏疾病、是否有中风、是否有心理疾病、是否有关节炎、是否血脂异常、是否有肝脏疾病、是否有肾脏疾病、是否有胃部/消化疾病、是否有哮喘以及是否有记忆问题;
所述功能障碍指标数据包括穿衣、洗澡、进食、上下床、上厕所、控制大小便、管理财务、用药、购物、准备饭菜、家务、跑步一千米、步行一千米、步行一百米、从椅子上起来、连续上七个台阶、弯腰/屈膝/下蹲、提十斤重物、捡起小硬币以及弯曲/伸展手臂;
所述认知抑郁指标数据包括抑郁量表得分、自评健康状况、自评记忆力、快速回忆、延迟回忆、100连续减7系列计算、日期认知以及图画认知。
4.根据权利要求1所述的基于机器学习的生理年龄预测模型,其特征在于:所述对指标数据进行预处理包括指标数据转化及指标数据标准化;
所述指标数据转化包括,当指标数据为是/否类选择的类别变量时、将是/否选择结果转化为0/1编码,当指标数据为含有多个选项的目标变量时、将选择结果转化为数字化编码;
所述指标数据标准化包括,当指标数据为数值表示的数值变量时、采用Min-MaxScalar数据标准化对指标数据进行处理。
5.一种生理年龄预测模型的建立方法,用于建立如权利要求1~4任一所述的基于机器学习的生理年龄预测模型,其特征在于,包括如下步骤:
S1、训练数据收集与整理,从互联网中获取训练数据,所述训练数据中包含样本提供者ID、样本提供者年龄、血液指标数据以及身体功能指标数据,整理形成训练数据集;
S2、训练数据清洗,对所获取的训练数据集进行过滤、去重去空,完成数据清洗;
S3、训练数据预处理,对已完成数据清洗的训练数据集内的数据进行数据预处理、得到预处理后的训练数据集;
S4、模型选取及训练,选择机器学习领域内的回归模型,将预处理后的训练数据集带入所选取的回归模型中进行样本数据训练、得到年龄预测模型;
S5、模型验证,对所得到的年龄预测模型进行十折交叉验证并训练,验证模型在生理年龄预测方面的评估效果;
S6、模型导出及使用,将验证后的年龄预测模型导出为pkl文件保存,模型使用时,将pkl文件载入,进行生理年龄预测。
6.根据权利要求5所述的生理年龄预测模型的建立方法,其特征在于:S1中所述训练数据为来源于中国健康与养老追踪调查网站的中国45岁及以上中老年人家庭和个人的高质量微观数据。
7.根据权利要求5所述的生理年龄预测模型的建立方法,其特征在于,S2中所述训练数据清洗包括:
S21、针对年龄特征、从训练数据集中过滤出样本提供者年龄在40至85岁年龄段的样本数据;
S22、对训练数据集进行去重去空操作;
S23、针对训练数据集内的每个特征列计算数据缺失率,依据数据缺失率计算结果衡量是否需要舍去对应特征列的一个标准;
S24、检查各特征列内的指标数据,确保指标数据类型特征与类别类型特征准确定义,所述类别类型包括数值变量、类别变量以及目标变量。
8.根据权利要求5所述的生理年龄预测模型的建立方法,其特征在于,S3中所述数据预处理包括:利用均值、中位数、众数对缺失值进行填充;指标数据转化及指标数据标准化;去除低方差特征;去除多重共线性。
9.根据权利要求5所述的生理年龄预测模型的建立方法,其特征在于,S4中所述机器学习领域内的回归模型包括:Catboost Regressor、Gradient Boosting Regressor、RandomForest以及Ridge Regression。
CN202110022265.1A 2021-01-08 2021-01-08 基于机器学习的生理年龄预测模型及其建立方法 Pending CN112712900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110022265.1A CN112712900A (zh) 2021-01-08 2021-01-08 基于机器学习的生理年龄预测模型及其建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110022265.1A CN112712900A (zh) 2021-01-08 2021-01-08 基于机器学习的生理年龄预测模型及其建立方法

Publications (1)

Publication Number Publication Date
CN112712900A true CN112712900A (zh) 2021-04-27

Family

ID=75548494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110022265.1A Pending CN112712900A (zh) 2021-01-08 2021-01-08 基于机器学习的生理年龄预测模型及其建立方法

Country Status (1)

Country Link
CN (1) CN112712900A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841872A (zh) * 2023-02-22 2023-03-24 中国疾病预防控制中心环境与健康相关产品安全所 老年人寿命预测方法、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN108256482A (zh) * 2018-01-18 2018-07-06 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
WO2019112366A1 (ko) * 2017-12-07 2019-06-13 서울대학교 산학협력단 생체인식 연령 예측 모델 생성 방법 및 장치
US20190228840A1 (en) * 2018-01-23 2019-07-25 Spring Discovery, Inc. Methods and Systems for Determining the Biological Age of Samples
JP2019145057A (ja) * 2018-02-19 2019-08-29 セルバス エーアイ インコーポレイテッド 健康年齢の予測方法
CN111816307A (zh) * 2020-04-15 2020-10-23 浙江大学 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法
US20200357119A1 (en) * 2019-05-09 2020-11-12 Inteneural Networks Inc. System and a method for determining brain age using a neural network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
WO2019112366A1 (ko) * 2017-12-07 2019-06-13 서울대학교 산학협력단 생체인식 연령 예측 모델 생성 방법 및 장치
CN108256482A (zh) * 2018-01-18 2018-07-06 中科视拓(北京)科技有限公司 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
US20190228840A1 (en) * 2018-01-23 2019-07-25 Spring Discovery, Inc. Methods and Systems for Determining the Biological Age of Samples
JP2019145057A (ja) * 2018-02-19 2019-08-29 セルバス エーアイ インコーポレイテッド 健康年齢の予測方法
US20200357119A1 (en) * 2019-05-09 2020-11-12 Inteneural Networks Inc. System and a method for determining brain age using a neural network
CN111816307A (zh) * 2020-04-15 2020-10-23 浙江大学 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841872A (zh) * 2023-02-22 2023-03-24 中国疾病预防控制中心环境与健康相关产品安全所 老年人寿命预测方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110827993A (zh) 基于集成学习的早期死亡风险评估模型建立方法及装置
RU2757048C1 (ru) Способ и система оценки здоровья тела человека на основе данных большого объема о сне
CN107192690B (zh) 近红外光谱无创血糖检测方法及其检测网络模型训练方法
CN102302361B (zh) 一种心率及身体状态监测装置及方法
CN112669967B (zh) 一种主动式健康医疗决策辅助方法及设备
CN109920547A (zh) 一种基于电子病历数据挖掘的糖尿病预测模型构建方法
US20100057490A1 (en) Methods, systems, and computer program products for evaluating a patient in a pediatric intensive care unit
Masood et al. Diversity-inducing policy gradient: Using maximum mean discrepancy to find a set of diverse policies
CN107194138B (zh) 一种基于体检数据建模的空腹血糖预测方法
CN107358014A (zh) 一种生理数据的临床前处理方法及系统
CN109171756A (zh) 基于深度置信网络模型的糖尿病指标预测方法及其系统
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN113133762B (zh) 一种无创血糖预测方法及装置
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
Kavitha et al. Monitoring of diabetes with data mining via CART Method
CN112971802A (zh) 基于深度学习模型的心音信号检测方法及系统
CN112786203A (zh) 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN105868532A (zh) 一种智能评估心脏衰老程度的方法及系统
WO2008138219A1 (fr) Unification et normalisation de valeur de référence de plage normale et de valeur de mesure réelle de rapport de détection ou de laboratoire en médecine clinique
CN108492870A (zh) 基于数位笔的画钟测试检测方法及系统
CN115116612A (zh) 一种儿童患者病情智能风险评估系统及方法
Vijayalaxmi et al. Multi-disease prediction with artificial intelligence from core health parameters measured through non-invasive technique
CN112712900A (zh) 基于机器学习的生理年龄预测模型及其建立方法
Gan et al. Human-computer interaction based interface design of intelligent health detection using PCANet and multi-sensor information fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination