CN114420300A - 中国老年认知损害预测模型 - Google Patents

中国老年认知损害预测模型 Download PDF

Info

Publication number
CN114420300A
CN114420300A CN202210066528.3A CN202210066528A CN114420300A CN 114420300 A CN114420300 A CN 114420300A CN 202210066528 A CN202210066528 A CN 202210066528A CN 114420300 A CN114420300 A CN 114420300A
Authority
CN
China
Prior art keywords
model
data
variables
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210066528.3A
Other languages
English (en)
Other versions
CN114420300B (zh
Inventor
吕晓珍
王华丽
于欣
纪俊
于滨
于淏岿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PEKING UNIVERSITY SIXTH HOSPITAL
Original Assignee
PEKING UNIVERSITY SIXTH HOSPITAL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEKING UNIVERSITY SIXTH HOSPITAL filed Critical PEKING UNIVERSITY SIXTH HOSPITAL
Priority to CN202210066528.3A priority Critical patent/CN114420300B/zh
Publication of CN114420300A publication Critical patent/CN114420300A/zh
Application granted granted Critical
Publication of CN114420300B publication Critical patent/CN114420300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开一种中国老年认知损害预测模型,其基于大样本社区老年人群数据库,通过利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,从而构建中国老年认知损害最优预测模型,用以预测认知功能正常的社区老年人未来三年发生认知损害的风险。另外,本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵,在社区开展认知损害高危人群的识别工作上更具有实践价值。

Description

中国老年认知损害预测模型
技术领域
本发明涉及人工智能领域,具体而言,涉及人工智能算法辅助构建认知损害预测模型,更具体地为一种中国老年认知损害预测模型。
背景技术
多数老年痴呆是一个隐匿、长期的发病过程,认知损害是老年痴呆早期的一个重要先兆症状。由于目前尚无药物能治愈老年痴呆,老年痴呆的早期预防至关重要,尽可能多地识别认知损害高危人群是有效预防老年痴呆的关键一步;而有认知损害风险的老人绝大部分生活在社区,在社区层面做好认知损害高危人群的识别和管理对预防和减少痴呆的发生意义重大。有学者研究构建认知损害预测模型,但现有的部分预测模型所纳入的部分预测变量如“MMSE总分”,是需要专业人员进行评估的,且该评估耗时较长,不利于基层医疗机构在日常诊疗工作中开展认知损害高危人群识别工作。此外,现有的部分预测模型采用“MMSE总分”做为结局指标,预测变量中纳入“MMSE总分”很可能存在过度拟合的情况。因此,需要一种能够利用基层医疗机构易获取的信息,构建适宜的认知损害预测模型,为社区开展认知损害高危人群的识别和管理工作提供有力支撑。
另外,现有技术所采用的认知预测模型是将模型的灵敏度和特异度放在了同等重要的位置,但对于可能存在认知损害的人群来说,“尽可能检出认知损害高危人群”的收益可能高于“将正常人判为认知损害高危人群”所带来的负面影响,亦即提高预测模型的灵敏度比提高预测模型的特异度有更重要的实践意义。
发明内容
为了解决上述问题,本发明提供一种中国老年认知损害预测模型,通过利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,从而构建中国老年认知损害最优预测模型,用以准确辅助预测认知损害的发生。另外,本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵,并整合算法和专家建议方法进行变量选择,在社区开展认知损害高危人群的识别工作上更具有实践价值。
为达到上述目的,本发明提供了一种中国老年认知损害预测模型,其构建过程包括以下步骤:
步骤S1:根据预设筛选条件从建模数据库中筛选样本组成数据库data01,数据库data01中的目标变量设定为cogsv2g18;
步骤S2:将目标变量cogsv2g18作为结局变量,其包括0和1两个值,其中,0表示认知维持正常,1表示发生认知损害;然后将目标变量cogsv2g18重新标注为Negative和Positive,其中,Negative代表未确诊为认知受损的受访者,Positive代表确诊为认知受损的受访者;
步骤S3:对数据库data01中的数据进行清洗,将自身缺失值比例大于10%的变量去除,保留缺失比例不高于10%的变量并生成数据集data01.1,其中缺失值比例=缺失个数/全部个数;
步骤S4:对于数据集中变量的缺失值,采用MissForest插入混合类型的缺失值,进行五次循环,其中,混合类型包括数字类型和因素类型;
步骤S5:根据包外误差,选择误差值最小循环填充后的数据集保存为填补结果,得到数据集data01.2;
步骤S6:对连续变量进行标化处理,对分类变量进行独热编码处理,得到数据集data01.3,用以提高机器学习分类器结果的稳定性和可解释性;
步骤S7:进行特征选择,具体为分别采用朴素贝叶斯和随机森林算法通过递归减少法选择特征,并对结果进行比对分析,以AUC和灵敏度作为建模特征集的选择依据;
步骤S8:将选择出来的特征与专家讨论结果,确定模型最终预测变量,得到数据集data01.4;
步骤S9:对数据集data01.4进行SMOTE处理,得到数据集data1作为训练模型的原始数据,用以解决建模数据库中结局变量分布不均衡的问题;
步骤S10:分别采用五种机器学习算法建立模型,包括广义线性模型、XGBTree模型、朴素贝叶斯模型、逻辑回归模型及神经网络模型,每种模型均设定5组模型参数进行十折交叉验证训练,根据AUC选出每种机器学习算法所拟合的最佳预测模型,分别是模型m1、m2、m3、m4及m5;
步骤S11:将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集,使用广义线性回归模型进行拟合,并采用十折交叉验证,根据AUC得到集合模型所拟合的最佳预测模型m6;
步骤S12:采用与步骤S3的建模数据库相同的清理方法,对外部验证数据test1进行处理;
步骤S13:使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测,输出每条记录的预测概率;
步骤S14:根据预测概率和test1中的目标值,绘制ROC曲线,确定m1~m6在验证数据集中包括AUC、灵敏度、特异度及F1值等模型表现指标,绘制校准图,根据AUC和校准图,选择最优的一个模型作为最终预测模型。
在本发明一实施例中,其中,步骤S1中预设筛选条件为:基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人,数据库data01包括10033人的样本数据,目标变量cogsv2g18为是否发生认知损害,其包含89个自变量,其中的缺失值用99999代替。
在本发明一实施例中,其中,步骤S4每次循环包括以下步骤:
步骤S401:按照缺失程度对需要填充的目标变量进行排序,并按照缺失比例由小到大的顺序对变量开始填充;
步骤S402:对本次需要填充的目标变量以外的其他缺失值,先采用均值/中位数进行填充,再使用MissForest算法对目标变量的缺失值进行预测,用预测值填充该目标变量的缺失值;
步骤S403:重复步骤S401和步骤S402的算法,完成所有变量缺失值的填充;
步骤S404:当所有的变量都已经填充过一遍,进入下一次迭代;
步骤S405:当预测值收敛,即本次迭代与上次迭代的预测值之差小于预设阈值时,停止迭代,完成缺失值的填充。
在本发明一实施例中,其中,在步骤S7中,
采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
步骤S711:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个权重值;
步骤S712:通过朴素贝叶斯算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的权重值,即计算对模型贡献度的程度;
步骤S713:将拥有最小绝对值权重的特征从特征集中删除;
步骤S714:重复步骤S711~S713,直至剩余的特征数量达到模型AUC最大的特征数量;
采用随机森林对模型通过递归减少法选择特征的具体过程为:
步骤S721:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量;
步骤S722:通过随机森林算法,以目标变量cogsv2g18作为标签值对数据进行拟合,计算每个特征的基尼重要性,即计算对模型贡献度的程度;
步骤S723:将拥有最小基尼重要性的特征从特征集中删除;
步骤S724:重复步骤S721~S723,直至剩余的特征数量达到模型AUC最大的特征数量。
在本发明一实施例中,其中,在步骤S9中,SMOTE处理的具体过程为:
步骤S901:先选定一个少数阳性样本;
步骤S902:找出这个阳性样本的k个近邻;
步骤S903:随机从这k个近邻中选出一个样本;
步骤S904:在步骤S901选定的阳性样本和被步骤S903选出的这个近邻之间的连线上,随机找到一个点,以这个点作为人工合成的新的阳性样本;
步骤S905:重复步骤S901~步骤S904,生成多个新的阳性样本,使得数据库中结局为阳性和阴性两类数据的数量平衡;
步骤S906:得到新的数据集data1,并覆盖之前的原始训练集data01.4。
在本发明一实施例中,其中,步骤S10中,
采用十折交叉验证训练并生成模型m1的具体过程为:
步骤S1001:将数据集data1随机分成10等份,分别为t1、t2、……、t9及t10;
步骤S1002:选用t1作为验证集,t2~t10作为训练数据传入广义线性模型,设定5组模型参数,分别进行训练,得到模型集合m1’;
步骤S1003:将t1去除标签值以外的数据输入模型m1’进行训练,得到结果后与t1标签值对比,输出灵敏度、特异度、精确度、AUC数值作为参考;
步骤S1004:重复步骤S1002分别对另外9组进行训练,并依次选用t2、t3、……、t9及t10作为验证集进行验证后,生成模型集合m2’、m3’、……、m9’及m10’;
步骤S1005:重复步骤S1003分别将t2、t3、……、t9及t10去除标签值以外的数据输入模型m2’、m3’、……、m9’及m10’进行训练,得到结果后与对应标签值对比,输出灵敏度、特异度、精确度、AUC数值作为参考;
步骤S1006:依据步骤S1003和S1005输出的AUC作为标准,选取模型参量对应AUC最高的一组输出结果,作为广义线性模型基分类器的最终结果,得到模型m1;
采用十折交叉验证训练并生成模型m2、m3、m4及m5的具体过程为:
步骤S1007:以XGBTree模型作为训练模型重复步骤S1001~S1006,得到XGBTree模型基分类器的最终结果,并生成的模型m2;
步骤S1008:以朴素贝叶斯模型作为训练模型重复步骤S1001~S1006,得到朴素贝叶斯模型基分类器的最终结果,并生成的模型m3;
步骤S1009:以逻辑回归模型作为训练模型重复步骤S1001~S1006,得到逻辑回归模型基分类器的最终结果,并生成的模型m4;
步骤S1010:以神经网络模型作为训练模型重复步骤S1001~S1006,得到神经网络模型基分类器的最终结果,并生成的模型m5。
在本发明一实施例中,其中,步骤S11中采用十折交叉验证的具体过程为:
步骤S1101:将步骤S11中m1~m5生成过程中十折交叉验证所产生的预测结果组合起来得到训练集D1;
步骤S1102:使用D1作为集合模型m6的训练数据,使用线性回归作为第二层算法;
步骤S1103:经过十折交叉验证训练,以AUC为测量矩阵,得到集合模型m6。
在本发明一实施例中,其中,步骤S12中对外部验证数据test1进行处理的过程包括:
步骤S1201:根据步骤S1的筛选条件进行数据筛选,根据步骤S8中确定的模型特征集,与外部验证数据test1进行对比,在test1中保留相同的特征;
步骤S1202:采用grep函数从中提取出目标变量cogsv2g18作为标签值;
步骤S1202:对test1的连续变量值进行标化处理,对分类变量进行独热处理,得到独立变量。
本发明提供的中国老年认知损害预测模型,与现有技术相比,能够利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,能够准确辅助预测认知损害并识别认知损害高危人群。另外,本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵,在社区开展认知损害高危人群的识别工作上更具有实践价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中建模流程示意图。
附图标记说明:S1~S14-步骤。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例中建模流程示意图,如图1所示,本发明提供了一种中国老年认知损害预测模型,其构建过程包括以下步骤:
步骤S1:根据预设筛选条件从建模数据库(例如2002-2005样本库和2005-2008样本库)中筛选样本组成数据库data01,数据库data01中的目标变量设定为cogsv2g18,其中,2002-2005样本库和2005-2008样本库分别为不同时间段的临床样本数据;
在本实施例中,其中,步骤S1中预设筛选条件为:基线未报告有痴呆、大于等于65岁、认知功能正常(即基线认知总分大于等于18)以及3年后随访存活的人,数据库data01包括10033人的样本数据,目标变量cogsv2g18为是否发生认知损害,其包含89个自变量,其中的缺失值用99999代替。
步骤S2:将目标变量cogsv2g18作为确定结局变量,其包括0和1两个值,其中,0表示认知维持正常,1表示发生认知损害;然后将目标变量cogsv2g18重新标注为Negative和Positive,其中,Negative代表未确诊为认知受损的受访者,Positive代表确诊为认知受损的受访者;本实施例中,Negative代表的受访者8293例(对应在源文件中标注为0),Positive代表的受访者1740例(对应在原文件中标注为1)。
步骤S3:对数据库data01中的数据进行清洗,将自身缺失值比例大于10%的变量去除,保留缺失比例不高于10%的变量并生成数据集data01.1,其中缺失值比例=缺失个数/全部个数;
在本实施例中,通过步骤S3的清洗去除的变量为:“父亲或母亲是否在受访者小于11岁时去世(f7383z)”、“是否患有前列腺疾病(g15j1z)”及“是否患有妇科疾病(g15v1z)”,保留变量86个。
步骤S4:对于数据集中变量的缺失值,采用MissForest(一种非参数的缺失值填补方法,是一种利用随机森林来填补缺失值的非参数方法)插入混合类型的缺失值,进行五次循环,其中,混合类型包括数字类型和因素类型;
在本实施例中,其中,步骤S4每次循环包括以下步骤:
步骤S401:按照缺失程度对需要填充的目标变量进行排序,并按照缺失率由小到大的顺序对变量开始填充;
步骤S402:对本次需要填充的目标变量以外的其他缺失值,先采用均值/中位数进行填充,再使用MissForest算法对目标变量的缺失值进行预测,用预测值填充该目标变量的缺失值;
步骤S403:重复步骤S401和步骤S402的算法,完成所有变量缺失值的填充;
步骤S404:当所有的变量都已经填充过一遍,进入下一次迭代;在本实施例填充的过程中,由于缺失位置的值发生了改变,因此预测值也会随之发生变化。
步骤S405:当预测值收敛,即本次迭代与上次迭代的预测值之差小于预设阈值时,停止迭代,完成缺失值的填充。
步骤S5:根据包外误差(OOB error,随机森林算法中的一种误差,又叫袋外误差),选择误差值最小循环填充后的数据集保存为填补结果,得到数据集data01.2;
步骤S6:对连续变量进行标化处理,对分类变量进行独热编码(One-Hot-Encoding)处理,得到数据集data01.3,用以提高机器学习分类器结果的稳定性和可解释性;
步骤S7:进行特征选择,具体为分别采用朴素贝叶斯和随机森林对模型通过递归减少法选择特征,并对结果进行比对分析,以AUC(Area Under Curve,ROC曲线下方的面积大小)和灵敏度作为建模特征集的选择依据;常见的特征选择算法包括递归消除法、嵌入法、过滤法,在本实施例中,为了提高模型的精确度,选取采用不同底层算法包括朴素贝叶斯和随机森林的递归消除法,并对结果进行对比分析。其中,模型为含有特征权重的预测模型。
在本实施例中,其中,在步骤S7中,采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
步骤S711:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个权重值;
步骤S712:通过朴素贝叶斯算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的权重值,即计算对模型贡献度的程度;
步骤S713:将拥有最小绝对值权重的特征从特征集中删除;
步骤S714:重复步骤S711~S713,直至剩余的特征数量达到模型AUC最大的特征数量。
在本实施例中,其中,在步骤S7中,采用随机森林对模型通过递归减少法选择特征的具体过程为:
步骤S721:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个基尼重要性(Gini importance);
步骤S722:通过随机森林算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的基尼重要性(Gini importance),即计算对模型贡献度的程度;
步骤S723:将拥有最小基尼重要性的特征从特征集中删除;
步骤S724:重复步骤S721~S723,直至剩余的特征数量达到模型AUC最大的特征数量。
步骤S8:将选择出来的特征与专家讨论结果,确定模型最终预测变量,得到数据集data01.4;
在本实施例中,其中,在步骤S8中可以根据专家意见得到完整版和简单版两组变量集,其中,简单版变量集与完整版变量集相比,主要是去除掉难以在基层医疗机构中进行数据采集的一些量表,如cogsv1,d11bhsum2等。
步骤S9:对数据集data01.4进行SMOTE(Synthetic Minority OversamplingTechnique,一种综合采样人工合成数据算法)处理,得到数据集data1作为训练模型的原始数据,用以解决建模数据库中数据不均衡的问题;
在本实施例中,其中,在步骤S9中,SMOTE处理的具体过程为:
步骤S901:先选定一个少数阳性样本;
步骤S902:找出这个阳性样本的k个近邻;
步骤S903:随机从这k个近邻中选出一个样本;
步骤S904:在步骤S901选定的阳性样本和被步骤S903选出的这个近邻之间的连线上,随机找到一个点,以这个点作为人工合成的新的阳性样本;
步骤S905:重复步骤S901~步骤S904,生成多个新的阳性样本,使得数据库中结局为阳性(认知损害)和阴性(认知功能正常)两类数据的数量平衡;
步骤S906:得到新的数据集data1,并覆盖之前的原始训练集data01.4。
步骤S10:分别采用五种机器学习算法建立模型,包括广义线性模型(一种广义线性模型)、XGBTree模型(一种集成树模型)、朴素贝叶斯模型(Naive Bayes)、逻辑回归模型(Logistic Regression)及神经网络模型(Neural Network),每种模型均设定5组模型参数进行十折交叉验证训练,根据AUC选出每种机器学习算法所拟合的最佳预测模型,分别是模型m1、m2、m3、m4及m5;本实施例参考既往研究和论文资料,选取常用且学习效果良好的广义线性(广义线性模型)、XGBTree(一种集成树模型)、朴素贝叶斯(Naive Bayes)、逻辑回归(Logistic Regression)及神经网络(Neural Network)方法建立的模型。
在本实施例中,其中,步骤S10中的十折交叉验证训练并生成模型m1的具体过程为:
步骤S1001:将数据集data1(完成变量筛选后的数据集)随机分成10等份,分别为t1、t2、……、t9及t10;
步骤S1002:选用t1作为验证集,t2~t10作为训练数据传入广义线性模型,选定5组模型参数进行训练,得到模型集合m1’;
步骤S1003:将t1去除标签值以外的数据输入模型m1’进行训练,得到结果后与t1标签值对比,输出灵敏度(标准差)、特异度(标准差)、精确度(标准差)、AUC等数值作为参考;
步骤S1004:重复步骤S1002分别对另外9组进行训练,并依次选用t2、t3、……、t9及t10作为验证集进行验证后,生成模型集合m2’、m3’、……、m9’及m10’;
步骤S1005:重复步骤S1003分别将t2、t3、……、t9及t10去除标签值以外的数据输入模型m2’、m3’、……、m9’及m10’进行训练,得到结果后与对应标签值对比,输出灵敏度、特异度、精确度、AUC等数值作为参考;
步骤S1006:依据步骤S1003和S1005输出的AUC作为标准,选取模型参量对应AUC最高的一组输出结果,作为广义线性模型基分类器的最终结果,并得到模型m1。
在本实施例中,其中,步骤S10中的十折交叉验证训练并生成模型m2、m3、m4及m5的具体过程为:
步骤S1007:以XGBTree模型作为训练模型重复步骤S1001~S1006,得到XGBTree模型基分类器的最终结果,并生成的模型m2;
步骤S1008:以朴素贝叶斯模型作为训练模型重复步骤S1001~S1006,得到朴素贝叶斯模型基分类器的最终结果,并生成的模型m3;
步骤S1009:以逻辑回归模型作为训练模型重复步骤S1001~S1006,得到逻辑回归模型基分类器的最终结果,并生成的模型m4;
步骤S1010:以神经网络模型作为训练模型重复步骤S1001~S1006,得到神经网络模型基分类器的最终结果,并生成的模型m5。
步骤S11:将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集,使用广义线性回归模型进行拟合,并采用十折交叉验证,根据AUC得到集合模型所拟合的最佳预测模型m6;
在本实施例中,其中,步骤S11中采用十折交叉验证的具体过程为:
步骤S1101:将步骤S11中m1~m5生成过程中十折交叉验证所产生的预测结果组合起来得到训练集D1;
步骤S1102:使用D1作为集合模型m6的训练数据,使用线性回归作为第二层算法;
步骤S1103:经过十折交叉验证训练,以AUC为测量矩阵,得到集合模型m6。
步骤S12:采用与步骤S3的建模数据库相同的清理方法,对外部验证数据test1进行处理;
在本实施例中,其中,步骤S12中对外部验证数据test1进行处理的过程包括:
步骤S1201:根据步骤S1的筛选条件进行数据筛选,根据步骤S8中确定的模型特征集,与外部验证数据test1进行对比,在test1中保留相同的特征;
步骤S1202:采用grep函数(global search regular expression and print outthe line,是Unix下一种文本搜索工具)从中提取出目标变量cogsv2g18作为标签值;
步骤S1203:对test1的连续变量值进行标化处理,对分类变量进行独热(one-hot-encoding)处理,得到独立变量。在本实施例中,独立变量的数量与步骤S8确定的变量集相关。
步骤S13:使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测,输出每条数据的预测概率;
步骤S14:根据预测概率和test1中的目标值,绘制ROC曲线,确定m1~m6在验证数据中包括灵敏度、特异度及F1值(精确率值)的模型表现指标,绘制校准图,根据AUC和校准图,选择最优的一个模型作为最终预测模型。
本发明提供的中国老年认知损害预测模型,与现有技术相比,能够利用基层医疗机构易获取的信息,最大程度地筛选潜在的预测变量,运用机器筛选和专家经验相结合的方法筛选变量,利用多种机器学习算法,并采用新的线性模型综合多个分类器的结果建立集合模型,并利用外部数据集进行验证,能够准确辅助预测认知损害并识别认知损害高危人群。另外,本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵,在社区开展认知损害高危人群的识别工作上更具有实践价值。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.一种中国老年认知损害预测模型,其特征在于,构建过程包括以下步骤:
步骤S1:根据预设筛选条件从建模数据库中筛选样本组成数据库data01,数据库data01中的目标变量设定为cogsv2g18;
步骤S2:将目标变量cogsv2g18作为结局变量,其包括0和1两个值,其中,0表示认知维持正常,1表示发生认知损害;然后将目标变量cogsv2g18重新标注为Negative和Positive,其中,Negative代表未确诊为认知受损的受访者,Positive代表确诊为认知受损的受访者;
步骤S3:对数据库data01中的数据进行清洗,将自身缺失值比例大于10%的变量去除,保留缺失比例不高于10%的变量并生成数据集data01.1,其中缺失值比例=缺失个数/全部个数;
步骤S4:对于数据集中变量的缺失值,采用MissForest插入混合类型的缺失值,进行五次循环,其中,混合类型包括数字类型和因素类型;
步骤S5:根据包外误差,选择误差值最小循环填充后的数据集保存为填补结果,得到数据集data01.2;
步骤S6:对连续变量进行标化处理,对分类变量进行独热编码处理,得到数据集data01.3,用以提高机器学习分类器结果的稳定性和可解释性;
步骤S7:进行特征选择,具体为分别采用朴素贝叶斯和随机森林算法通过递归减少法选择特征,并对结果进行比对分析,以AUC和灵敏度作为建模特征集的选择依据;
步骤S8:将选择出来的特征与专家讨论结果,确定模型最终预测变量,得到数据集data01.4;
步骤S9:对数据集data01.4进行SMOTE处理,得到数据集data1作为训练模型的原始数据,用以解决建模数据库中结局变量分布不均衡的问题;
步骤S10:分别采用五种机器学习算法建立模型,包括广义线性模型、XGBTree模型、朴素贝叶斯模型、逻辑回归模型及神经网络模型,每种模型均设定5组模型参数进行十折交叉验证训练,根据AUC选出每种机器学习算法所拟合的最佳预测模型,分别是模型m1、m2、m3、m4及m5;
步骤S11:将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集,使用广义线性回归模型进行拟合,并采用十折交叉验证,根据AUC得到集合模型所拟合的最佳预测模型m6;
步骤S12:采用与步骤S3的建模数据库相同的清理方法,对外部验证数据test1进行处理;
步骤S13:使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测,输出每条记录的预测概率;
步骤S14:根据预测概率和test1中的目标值,绘制ROC曲线,确定m1~m6在验证数据集中包括AUC、灵敏度、特异度及F1值等模型表现指标,绘制校准图,根据AUC和校准图,选择最优的一个模型作为最终预测模型。
2.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S1中预设筛选条件为:基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人,数据库data01包括10033人的样本数据,目标变量cogsv2g18为是否发生认知损害,其包含89个自变量,其中的缺失值用99999代替。
3.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S4每次循环包括以下步骤:
步骤S401:按照缺失程度对需要填充的目标变量进行排序,并按照缺失比例由小到大的顺序对变量开始填充;
步骤S402:对本次需要填充的目标变量以外的其他缺失值,先采用均值/中位数进行填充,再使用MissForest算法对目标变量的缺失值进行预测,用预测值填充该目标变量的缺失值;
步骤S403:重复步骤S401和步骤S402的算法,完成所有变量缺失值的填充;
步骤S404:当所有的变量都已经填充过一遍,进入下一次迭代;
步骤S405:当预测值收敛,即本次迭代与上次迭代的预测值之差小于预设阈值时,停止迭代,完成缺失值的填充。
4.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,在步骤S7中,
采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为:
步骤S711:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量,且每个原始特征设定一个权重值;
步骤S712:通过朴素贝叶斯算法,以目标变量cogsv2g18作为标签值对数据进行拟合,并重新计算每个特征的权重值,即计算对模型贡献度的程度;
步骤S713:将拥有最小绝对值权重的特征从特征集中删除;
步骤S714:重复步骤S711~S713,直至剩余的特征数量达到模型AUC最大的特征数量;
采用随机森林对模型通过递归减少法选择特征的具体过程为:
步骤S721:在训练数据集data01.3的原始特征上训练,其中,原始特征包括251个独立变量;
步骤S722:通过随机森林算法,以目标变量cogsv2g18作为标签值对数据进行拟合,计算每个特征的基尼重要性,即计算对模型贡献度的程度;
步骤S723:将拥有最小基尼重要性的特征从特征集中删除;
步骤S724:重复步骤S721~S723,直至剩余的特征数量达到模型AUC最大的特征数量。
5.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,在步骤S9中,SMOTE处理的具体过程为:
步骤S901:先选定一个少数阳性样本;
步骤S902:找出这个阳性样本的k个近邻;
步骤S903:随机从这k个近邻中选出一个样本;
步骤S904:在步骤S901选定的阳性样本和被步骤S903选出的这个近邻之间的连线上,随机找到一个点,以这个点作为人工合成的新的阳性样本;
步骤S905:重复步骤S901~步骤S904,生成多个新的阳性样本,使得数据库中结局为阳性和阴性两类数据的数量平衡;
步骤S906:得到新的数据集data1,并覆盖之前的原始训练集data01.4。
6.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S10中,
采用十折交叉验证训练并生成模型m1的具体过程为:
步骤S1001:将数据集data1随机分成10等份,分别为t1、t2、…、t9及t10;
步骤S1002:选用t1作为验证集,t2~t10作为训练数据传入广义线性模型,设定5组模型参数,分别进行训练,得到模型集合m1’;
步骤S1003:将t1去除标签值以外的数据输入模型m1’进行训练,得到结果后与t1标签值对比,输出灵敏度、特异度、精确度及AUC数值作为模型选择的参考;
步骤S1004:重复步骤S1002分别对另外9组进行训练,并依次选用t2、t3、…、t9及t10作为验证集进行验证后,生成模型集合m2’、m3’、…、m9’及m10’;
步骤S1005:重复步骤S1003分别将t2、t3、…、t9及t10去除标签值以外的数据输入模型m2’、m3’、…、m9’及m10’进行训练,得到结果后与对应标签值对比,输出灵敏度、特异度、精确度及AUC数值作为模型选择的参考;
步骤S1006:依据步骤S1003和S1005输出的AUC作为标准,选取模型参量对应AUC最高的一组输出结果,作为广义线性模型基分类器的最终结果,得到模型m1;
采用十折交叉验证训练并生成模型m2、m3、m4及m5的具体过程为:
步骤S1007:以XGBTree模型作为训练模型重复步骤S1001~S1006,得到XGBTree模型基分类器的最终结果,并生成的模型m2;
步骤S1008:以朴素贝叶斯模型作为训练模型重复步骤S1001~S1006,得到朴素贝叶斯模型基分类器的最终结果,并生成的模型m3;
步骤S1009:以逻辑回归模型作为训练模型重复步骤S1001~S1006,得到逻辑回归模型基分类器的最终结果,并生成的模型m4;
步骤S1010:以神经网络模型作为训练模型重复步骤S1001~S1006,得到神经网络模型基分类器的最终结果,并生成的模型m5。
7.根据权利要求6所述的中国老年认知损害预测模型,其特征在于,步骤S11中采用十折交叉验证的具体过程为:
步骤S1101:将步骤S10中m1~m5生成过程中十折交叉验证所产生的预测结果组合起来得到数据集D1;
步骤S1102:使用D1作为集合模型m6的输入数据,使用线性回归作为第二层算法;
步骤S1103:经过十折交叉验证训练,以AUC为测量矩阵,得到集合模型m6。
8.根据权利要求1所述的中国老年认知损害预测模型,其特征在于,步骤S12中对外部验证数据test1进行处理的过程包括:
步骤S1201:根据步骤S1的筛选条件进行数据筛选,根据步骤S8中确定的模型特征集,与外部验证数据test1进行对比,在test1中保留相同的特征;
步骤S1202:采用grep函数从中提取出目标变量cogsv2g18作为标签值;
步骤S1203:对test1的连续变量值进行标化处理,对分类变量进行独热处理,得到独立变量。
CN202210066528.3A 2022-01-20 2022-01-20 中国老年认知损害预测模型 Active CN114420300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210066528.3A CN114420300B (zh) 2022-01-20 2022-01-20 中国老年认知损害预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210066528.3A CN114420300B (zh) 2022-01-20 2022-01-20 中国老年认知损害预测模型

Publications (2)

Publication Number Publication Date
CN114420300A true CN114420300A (zh) 2022-04-29
CN114420300B CN114420300B (zh) 2023-08-04

Family

ID=81275857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210066528.3A Active CN114420300B (zh) 2022-01-20 2022-01-20 中国老年认知损害预测模型

Country Status (1)

Country Link
CN (1) CN114420300B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127185A1 (en) * 2015-02-06 2016-08-11 Royall Donald Methods and approach for detection and prediction of change in dementia severity or clinical diagnosis over time
CN106446566A (zh) * 2016-09-29 2017-02-22 北京理工大学 基于随机森林的老年人认知功能分类方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN108304887A (zh) * 2018-02-28 2018-07-20 云南大学 基于少数类样本合成的朴素贝叶斯数据处理系统及方法
US20190272922A1 (en) * 2018-03-02 2019-09-05 Jack Albright Machine-learning-based forecasting of the progression of alzheimer's disease
CN110584601A (zh) * 2019-08-26 2019-12-20 首都医科大学 一种老人认知功能监测和评估方法
CN111261282A (zh) * 2020-01-21 2020-06-09 南京航空航天大学 一种基于机器学习的脓毒症早期预测方法
CN112652361A (zh) * 2020-12-29 2021-04-13 中国医科大学附属盛京医院 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
US20210153801A1 (en) * 2019-11-26 2021-05-27 The Chinese University Of Hong Kong Methods based on an analysis of drawing behavior changes for cognitive dysfunction screening
CN112992368A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型系统及记录媒体
CN113053529A (zh) * 2019-12-29 2021-06-29 北京大学第六医院 一种情感障碍的识别处理方法
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113380407A (zh) * 2021-05-30 2021-09-10 重庆医科大学 构建认知障碍智能预测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016127185A1 (en) * 2015-02-06 2016-08-11 Royall Donald Methods and approach for detection and prediction of change in dementia severity or clinical diagnosis over time
CN106446566A (zh) * 2016-09-29 2017-02-22 北京理工大学 基于随机森林的老年人认知功能分类方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN108304887A (zh) * 2018-02-28 2018-07-20 云南大学 基于少数类样本合成的朴素贝叶斯数据处理系统及方法
US20190272922A1 (en) * 2018-03-02 2019-09-05 Jack Albright Machine-learning-based forecasting of the progression of alzheimer's disease
CN110584601A (zh) * 2019-08-26 2019-12-20 首都医科大学 一种老人认知功能监测和评估方法
US20210153801A1 (en) * 2019-11-26 2021-05-27 The Chinese University Of Hong Kong Methods based on an analysis of drawing behavior changes for cognitive dysfunction screening
CN113053529A (zh) * 2019-12-29 2021-06-29 北京大学第六医院 一种情感障碍的识别处理方法
CN111261282A (zh) * 2020-01-21 2020-06-09 南京航空航天大学 一种基于机器学习的脓毒症早期预测方法
CN112652361A (zh) * 2020-12-29 2021-04-13 中国医科大学附属盛京医院 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
CN112992368A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型系统及记录媒体
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113380407A (zh) * 2021-05-30 2021-09-10 重庆医科大学 构建认知障碍智能预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓蔚;: "数据挖掘预测模型在脑伤患者认知功能康复中的应用与研究", 东莞理工学院学报, no. 05, pages 51 - 58 *

Also Published As

Publication number Publication date
CN114420300B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
Wu et al. Beyond sparsity: Tree regularization of deep models for interpretability
CN106778014B (zh) 一种基于循环神经网络的患病风险预测建模方法
KR102153920B1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
CN111367961A (zh) 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN113744873B (zh) 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN109214437A (zh) 一种基于机器学习的ivf-et早孕胚胎发育预测系统
CN111967495A (zh) 一种分类识别模型构建方法
CN112037925B (zh) 一种基于lstm算法的新发重大传染病预警方法
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
Baker et al. Implementing critical machine learning (ML) approaches for generating robust discriminative neuroimaging representations using structural equation model (SEM)
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
Dhar Multistage ensemble learning model with weighted voting and genetic algorithm optimization strategy for detecting chronic obstructive pulmonary disease
Adi et al. Stroke risk prediction model using machine learning
CN114898879A (zh) 一种基于图表示学习的慢病风险预测方法
Tiruneh et al. Feature selection for construction organizational competencies impacting performance
JP7365747B1 (ja) 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム
CN114420300B (zh) 中国老年认知损害预测模型
Wang et al. Early Diagnosis of Parkinson's Disease with Speech Pronunciation Features Based on XGBoost Model
CN114896138B (zh) 一种基于复杂网络和图神经网络的软件缺陷预测方法
Langham et al. Predicting risk of dementia with machine learning and survival models using routine primary care records
Aloisio et al. Machine learning predictions of code-based seismic vulnerability for reinforced concrete and masonry buildings: Insights from a 300-building database
Khaneja et al. Analysing risk of coronary heart disease through discriminative neural networks
Teja et al. Autism Spectrum Disorder Detection Techniques
Khater et al. Interpretable Models For ML-Based Classification of Obesity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant