CN114420300A

CN114420300A - 中国老年认知损害预测模型

Info

Publication number: CN114420300A
Application number: CN202210066528.3A
Authority: CN
Inventors: 吕晓珍; 王华丽; 于欣; 纪俊; 于滨; 于淏岿
Original assignee: PEKING UNIVERSITY SIXTH HOSPITAL
Current assignee: PEKING UNIVERSITY SIXTH HOSPITAL
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-29
Anticipated expiration: 2042-01-20
Also published as: CN114420300B

Abstract

本发明公开一种中国老年认知损害预测模型，其基于大样本社区老年人群数据库，通过利用基层医疗机构易获取的信息，最大程度地筛选潜在的预测变量，运用机器筛选和专家经验相结合的方法筛选变量，利用多种机器学习算法，并采用新的线性模型综合多个分类器的结果建立集合模型，并利用外部数据集进行验证，从而构建中国老年认知损害最优预测模型，用以预测认知功能正常的社区老年人未来三年发生认知损害的风险。另外，本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵，在社区开展认知损害高危人群的识别工作上更具有实践价值。

Description

中国老年认知损害预测模型

技术领域

本发明涉及人工智能领域，具体而言，涉及人工智能算法辅助构建认知损害预测模型，更具体地为一种中国老年认知损害预测模型。

背景技术

多数老年痴呆是一个隐匿、长期的发病过程，认知损害是老年痴呆早期的一个重要先兆症状。由于目前尚无药物能治愈老年痴呆，老年痴呆的早期预防至关重要，尽可能多地识别认知损害高危人群是有效预防老年痴呆的关键一步；而有认知损害风险的老人绝大部分生活在社区，在社区层面做好认知损害高危人群的识别和管理对预防和减少痴呆的发生意义重大。有学者研究构建认知损害预测模型，但现有的部分预测模型所纳入的部分预测变量如“MMSE总分”，是需要专业人员进行评估的，且该评估耗时较长，不利于基层医疗机构在日常诊疗工作中开展认知损害高危人群识别工作。此外，现有的部分预测模型采用“MMSE总分”做为结局指标，预测变量中纳入“MMSE总分”很可能存在过度拟合的情况。因此，需要一种能够利用基层医疗机构易获取的信息，构建适宜的认知损害预测模型，为社区开展认知损害高危人群的识别和管理工作提供有力支撑。

另外，现有技术所采用的认知预测模型是将模型的灵敏度和特异度放在了同等重要的位置，但对于可能存在认知损害的人群来说，“尽可能检出认知损害高危人群”的收益可能高于“将正常人判为认知损害高危人群”所带来的负面影响，亦即提高预测模型的灵敏度比提高预测模型的特异度有更重要的实践意义。

发明内容

为了解决上述问题，本发明提供一种中国老年认知损害预测模型，通过利用基层医疗机构易获取的信息，最大程度地筛选潜在的预测变量，运用机器筛选和专家经验相结合的方法筛选变量，利用多种机器学习算法，并采用新的线性模型综合多个分类器的结果建立集合模型，并利用外部数据集进行验证，从而构建中国老年认知损害最优预测模型，用以准确辅助预测认知损害的发生。另外，本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵，并整合算法和专家建议方法进行变量选择，在社区开展认知损害高危人群的识别工作上更具有实践价值。

为达到上述目的，本发明提供了一种中国老年认知损害预测模型，其构建过程包括以下步骤：

步骤S1：根据预设筛选条件从建模数据库中筛选样本组成数据库data01，数据库data01中的目标变量设定为cogsv2g18；

步骤S2：将目标变量cogsv2g18作为结局变量，其包括0和1两个值，其中，0表示认知维持正常，1表示发生认知损害；然后将目标变量cogsv2g18重新标注为Negative和Positive，其中，Negative代表未确诊为认知受损的受访者，Positive代表确诊为认知受损的受访者；

步骤S3：对数据库data01中的数据进行清洗，将自身缺失值比例大于10％的变量去除，保留缺失比例不高于10％的变量并生成数据集data01.1，其中缺失值比例＝缺失个数/全部个数；

步骤S4：对于数据集中变量的缺失值，采用MissForest插入混合类型的缺失值，进行五次循环，其中，混合类型包括数字类型和因素类型；

步骤S5：根据包外误差，选择误差值最小循环填充后的数据集保存为填补结果，得到数据集data01.2；

步骤S6：对连续变量进行标化处理，对分类变量进行独热编码处理，得到数据集data01.3，用以提高机器学习分类器结果的稳定性和可解释性；

步骤S7：进行特征选择，具体为分别采用朴素贝叶斯和随机森林算法通过递归减少法选择特征，并对结果进行比对分析，以AUC和灵敏度作为建模特征集的选择依据；

步骤S8：将选择出来的特征与专家讨论结果，确定模型最终预测变量，得到数据集data01.4；

步骤S9：对数据集data01.4进行SMOTE处理，得到数据集data1作为训练模型的原始数据，用以解决建模数据库中结局变量分布不均衡的问题；

步骤S10：分别采用五种机器学习算法建立模型，包括广义线性模型、XGBTree模型、朴素贝叶斯模型、逻辑回归模型及神经网络模型，每种模型均设定5组模型参数进行十折交叉验证训练，根据AUC选出每种机器学习算法所拟合的最佳预测模型，分别是模型m1、m2、m3、m4及m5；

步骤S11：将模型m1、m2、m3、m4及m5所产生预测结果作为集合模型的输入集，使用广义线性回归模型进行拟合，并采用十折交叉验证，根据AUC得到集合模型所拟合的最佳预测模型m6；

步骤S12：采用与步骤S3的建模数据库相同的清理方法，对外部验证数据test1进行处理；

步骤S13：使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测，输出每条记录的预测概率；

步骤S14：根据预测概率和test1中的目标值，绘制ROC曲线，确定m1～m6在验证数据集中包括AUC、灵敏度、特异度及F1值等模型表现指标，绘制校准图，根据AUC和校准图，选择最优的一个模型作为最终预测模型。

在本发明一实施例中，其中，步骤S1中预设筛选条件为：基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人，数据库data01包括10033人的样本数据，目标变量cogsv2g18为是否发生认知损害，其包含89个自变量，其中的缺失值用99999代替。

在本发明一实施例中，其中，步骤S4每次循环包括以下步骤：

步骤S401：按照缺失程度对需要填充的目标变量进行排序，并按照缺失比例由小到大的顺序对变量开始填充；

步骤S402：对本次需要填充的目标变量以外的其他缺失值，先采用均值/中位数进行填充，再使用MissForest算法对目标变量的缺失值进行预测，用预测值填充该目标变量的缺失值；

步骤S403：重复步骤S401和步骤S402的算法，完成所有变量缺失值的填充；

步骤S404：当所有的变量都已经填充过一遍，进入下一次迭代；

步骤S405：当预测值收敛，即本次迭代与上次迭代的预测值之差小于预设阈值时，停止迭代，完成缺失值的填充。

在本发明一实施例中，其中，在步骤S7中，

采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为：

步骤S711：在训练数据集data01.3的原始特征上训练，其中，原始特征包括251个独立变量，且每个原始特征设定一个权重值；

步骤S712：通过朴素贝叶斯算法，以目标变量cogsv2g18作为标签值对数据进行拟合，并重新计算每个特征的权重值，即计算对模型贡献度的程度；

步骤S713：将拥有最小绝对值权重的特征从特征集中删除；

步骤S714：重复步骤S711～S713，直至剩余的特征数量达到模型AUC最大的特征数量；

采用随机森林对模型通过递归减少法选择特征的具体过程为：

步骤S721：在训练数据集data01.3的原始特征上训练，其中，原始特征包括251个独立变量；

步骤S722：通过随机森林算法，以目标变量cogsv2g18作为标签值对数据进行拟合，计算每个特征的基尼重要性，即计算对模型贡献度的程度；

步骤S723：将拥有最小基尼重要性的特征从特征集中删除；

步骤S724：重复步骤S721～S723，直至剩余的特征数量达到模型AUC最大的特征数量。

在本发明一实施例中，其中，在步骤S9中，SMOTE处理的具体过程为：

步骤S901：先选定一个少数阳性样本；

步骤S902：找出这个阳性样本的k个近邻；

步骤S903：随机从这k个近邻中选出一个样本；

步骤S904：在步骤S901选定的阳性样本和被步骤S903选出的这个近邻之间的连线上，随机找到一个点，以这个点作为人工合成的新的阳性样本；

步骤S905：重复步骤S901～步骤S904，生成多个新的阳性样本，使得数据库中结局为阳性和阴性两类数据的数量平衡；

步骤S906：得到新的数据集data1，并覆盖之前的原始训练集data01.4。

在本发明一实施例中，其中，步骤S10中，

采用十折交叉验证训练并生成模型m1的具体过程为：

步骤S1001：将数据集data1随机分成10等份，分别为t1、t2、……、t9及t10；

步骤S1002：选用t1作为验证集，t2～t10作为训练数据传入广义线性模型，设定5组模型参数，分别进行训练，得到模型集合m1’；

步骤S1003：将t1去除标签值以外的数据输入模型m1’进行训练，得到结果后与t1标签值对比，输出灵敏度、特异度、精确度、AUC数值作为参考；

步骤S1004：重复步骤S1002分别对另外9组进行训练，并依次选用t2、t3、……、t9及t10作为验证集进行验证后，生成模型集合m2’、m3’、……、m9’及m10’；

步骤S1005：重复步骤S1003分别将t2、t3、……、t9及t10去除标签值以外的数据输入模型m2’、m3’、……、m9’及m10’进行训练，得到结果后与对应标签值对比，输出灵敏度、特异度、精确度、AUC数值作为参考；

步骤S1006：依据步骤S1003和S1005输出的AUC作为标准，选取模型参量对应AUC最高的一组输出结果，作为广义线性模型基分类器的最终结果，得到模型m1；

采用十折交叉验证训练并生成模型m2、m3、m4及m5的具体过程为：

步骤S1007：以XGBTree模型作为训练模型重复步骤S1001～S1006，得到XGBTree模型基分类器的最终结果，并生成的模型m2；

步骤S1008：以朴素贝叶斯模型作为训练模型重复步骤S1001～S1006，得到朴素贝叶斯模型基分类器的最终结果，并生成的模型m3；

步骤S1009：以逻辑回归模型作为训练模型重复步骤S1001～S1006，得到逻辑回归模型基分类器的最终结果，并生成的模型m4；

步骤S1010：以神经网络模型作为训练模型重复步骤S1001～S1006，得到神经网络模型基分类器的最终结果，并生成的模型m5。

在本发明一实施例中，其中，步骤S11中采用十折交叉验证的具体过程为：

步骤S1101：将步骤S11中m1～m5生成过程中十折交叉验证所产生的预测结果组合起来得到训练集D1；

步骤S1102：使用D1作为集合模型m6的训练数据，使用线性回归作为第二层算法；

步骤S1103：经过十折交叉验证训练，以AUC为测量矩阵，得到集合模型m6。

在本发明一实施例中，其中，步骤S12中对外部验证数据test1进行处理的过程包括：

步骤S1201：根据步骤S1的筛选条件进行数据筛选，根据步骤S8中确定的模型特征集，与外部验证数据test1进行对比，在test1中保留相同的特征；

步骤S1202：采用grep函数从中提取出目标变量cogsv2g18作为标签值；

步骤S1202：对test1的连续变量值进行标化处理，对分类变量进行独热处理，得到独立变量。

本发明提供的中国老年认知损害预测模型，与现有技术相比，能够利用基层医疗机构易获取的信息，最大程度地筛选潜在的预测变量，运用机器筛选和专家经验相结合的方法筛选变量，利用多种机器学习算法，并采用新的线性模型综合多个分类器的结果建立集合模型，并利用外部数据集进行验证，能够准确辅助预测认知损害并识别认知损害高危人群。另外，本发明在变量选择步骤选择AUC和灵敏度作为评估矩阵，在社区开展认知损害高危人群的识别工作上更具有实践价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中建模流程示意图。

附图标记说明：S1～S14-步骤。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例中建模流程示意图，如图1所示，本发明提供了一种中国老年认知损害预测模型，其构建过程包括以下步骤：

步骤S1：根据预设筛选条件从建模数据库(例如2002-2005样本库和2005-2008样本库)中筛选样本组成数据库data01，数据库data01中的目标变量设定为cogsv2g18，其中，2002-2005样本库和2005-2008样本库分别为不同时间段的临床样本数据；

在本实施例中，其中，步骤S1中预设筛选条件为：基线未报告有痴呆、大于等于65岁、认知功能正常(即基线认知总分大于等于18)以及3年后随访存活的人，数据库data01包括10033人的样本数据，目标变量cogsv2g18为是否发生认知损害，其包含89个自变量，其中的缺失值用99999代替。

步骤S2：将目标变量cogsv2g18作为确定结局变量，其包括0和1两个值，其中，0表示认知维持正常，1表示发生认知损害；然后将目标变量cogsv2g18重新标注为Negative和Positive，其中，Negative代表未确诊为认知受损的受访者，Positive代表确诊为认知受损的受访者；本实施例中，Negative代表的受访者8293例(对应在源文件中标注为0)，Positive代表的受访者1740例(对应在原文件中标注为1)。

在本实施例中，通过步骤S3的清洗去除的变量为：“父亲或母亲是否在受访者小于11岁时去世(f7383z)”、“是否患有前列腺疾病(g15j1z)”及“是否患有妇科疾病(g15v1z)”，保留变量86个。

步骤S4：对于数据集中变量的缺失值，采用MissForest(一种非参数的缺失值填补方法，是一种利用随机森林来填补缺失值的非参数方法)插入混合类型的缺失值，进行五次循环，其中，混合类型包括数字类型和因素类型；

在本实施例中，其中，步骤S4每次循环包括以下步骤：

步骤S401：按照缺失程度对需要填充的目标变量进行排序，并按照缺失率由小到大的顺序对变量开始填充；

步骤S404：当所有的变量都已经填充过一遍，进入下一次迭代；在本实施例填充的过程中，由于缺失位置的值发生了改变，因此预测值也会随之发生变化。

步骤S5：根据包外误差(OOB error，随机森林算法中的一种误差，又叫袋外误差)，选择误差值最小循环填充后的数据集保存为填补结果，得到数据集data01.2；

步骤S6：对连续变量进行标化处理，对分类变量进行独热编码(One-Hot-Encoding)处理，得到数据集data01.3，用以提高机器学习分类器结果的稳定性和可解释性；

步骤S7：进行特征选择，具体为分别采用朴素贝叶斯和随机森林对模型通过递归减少法选择特征，并对结果进行比对分析，以AUC(Area Under Curve，ROC曲线下方的面积大小)和灵敏度作为建模特征集的选择依据；常见的特征选择算法包括递归消除法、嵌入法、过滤法，在本实施例中，为了提高模型的精确度，选取采用不同底层算法包括朴素贝叶斯和随机森林的递归消除法，并对结果进行对比分析。其中，模型为含有特征权重的预测模型。

在本实施例中，其中，在步骤S7中，采用朴素贝叶斯对模型通过递归减少法选择特征的具体过程为：

步骤S713：将拥有最小绝对值权重的特征从特征集中删除；

步骤S714：重复步骤S711～S713，直至剩余的特征数量达到模型AUC最大的特征数量。

在本实施例中，其中，在步骤S7中，采用随机森林对模型通过递归减少法选择特征的具体过程为：

步骤S721：在训练数据集data01.3的原始特征上训练，其中，原始特征包括251个独立变量，且每个原始特征设定一个基尼重要性(Gini importance)；

步骤S722：通过随机森林算法，以目标变量cogsv2g18作为标签值对数据进行拟合，并重新计算每个特征的基尼重要性(Gini importance)，即计算对模型贡献度的程度；

步骤S723：将拥有最小基尼重要性的特征从特征集中删除；

在本实施例中，其中，在步骤S8中可以根据专家意见得到完整版和简单版两组变量集，其中，简单版变量集与完整版变量集相比，主要是去除掉难以在基层医疗机构中进行数据采集的一些量表，如cogsv1,d11bhsum2等。

步骤S9：对数据集data01.4进行SMOTE(Synthetic Minority OversamplingTechnique，一种综合采样人工合成数据算法)处理，得到数据集data1作为训练模型的原始数据，用以解决建模数据库中数据不均衡的问题；

在本实施例中，其中，在步骤S9中，SMOTE处理的具体过程为：

步骤S901：先选定一个少数阳性样本；

步骤S902：找出这个阳性样本的k个近邻；

步骤S903：随机从这k个近邻中选出一个样本；

步骤S905：重复步骤S901～步骤S904，生成多个新的阳性样本，使得数据库中结局为阳性(认知损害)和阴性(认知功能正常)两类数据的数量平衡；

步骤S10：分别采用五种机器学习算法建立模型，包括广义线性模型(一种广义线性模型)、XGBTree模型(一种集成树模型)、朴素贝叶斯模型(Naive Bayes)、逻辑回归模型(Logistic Regression)及神经网络模型(Neural Network)，每种模型均设定5组模型参数进行十折交叉验证训练，根据AUC选出每种机器学习算法所拟合的最佳预测模型，分别是模型m1、m2、m3、m4及m5；本实施例参考既往研究和论文资料，选取常用且学习效果良好的广义线性(广义线性模型)、XGBTree(一种集成树模型)、朴素贝叶斯(Naive Bayes)、逻辑回归(Logistic Regression)及神经网络(Neural Network)方法建立的模型。

在本实施例中，其中，步骤S10中的十折交叉验证训练并生成模型m1的具体过程为：

步骤S1001：将数据集data1(完成变量筛选后的数据集)随机分成10等份，分别为t1、t2、……、t9及t10；

步骤S1002：选用t1作为验证集，t2～t10作为训练数据传入广义线性模型，选定5组模型参数进行训练，得到模型集合m1’；

步骤S1003：将t1去除标签值以外的数据输入模型m1’进行训练，得到结果后与t1标签值对比，输出灵敏度(标准差)、特异度(标准差)、精确度(标准差)、AUC等数值作为参考；

步骤S1005：重复步骤S1003分别将t2、t3、……、t9及t10去除标签值以外的数据输入模型m2’、m3’、……、m9’及m10’进行训练，得到结果后与对应标签值对比，输出灵敏度、特异度、精确度、AUC等数值作为参考；

步骤S1006：依据步骤S1003和S1005输出的AUC作为标准，选取模型参量对应AUC最高的一组输出结果，作为广义线性模型基分类器的最终结果，并得到模型m1。

在本实施例中，其中，步骤S10中的十折交叉验证训练并生成模型m2、m3、m4及m5的具体过程为：

在本实施例中，其中，步骤S11中采用十折交叉验证的具体过程为：

在本实施例中，其中，步骤S12中对外部验证数据test1进行处理的过程包括：

步骤S1202：采用grep函数(global search regular expression and print outthe line，是Unix下一种文本搜索工具)从中提取出目标变量cogsv2g18作为标签值；

步骤S1203：对test1的连续变量值进行标化处理，对分类变量进行独热(one-hot-encoding)处理，得到独立变量。在本实施例中，独立变量的数量与步骤S8确定的变量集相关。

步骤S13：使用模型m1、m2、m3、m4、m5及m6对test1中除目标值以外的变量进行预测，输出每条数据的预测概率；

步骤S14：根据预测概率和test1中的目标值，绘制ROC曲线，确定m1～m6在验证数据中包括灵敏度、特异度及F1值(精确率值)的模型表现指标，绘制校准图，根据AUC和校准图，选择最优的一个模型作为最终预测模型。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种中国老年认知损害预测模型，其特征在于，构建过程包括以下步骤：

2.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，步骤S1中预设筛选条件为：基线未报告患有痴呆、大于等于65岁、认知功能正常以及3年后随访存活的人，数据库data01包括10033人的样本数据，目标变量cogsv2g18为是否发生认知损害，其包含89个自变量，其中的缺失值用99999代替。

3.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，步骤S4每次循环包括以下步骤：

4.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，在步骤S7中，

步骤S713：将拥有最小绝对值权重的特征从特征集中删除；

步骤S723：将拥有最小基尼重要性的特征从特征集中删除；

5.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，在步骤S9中，SMOTE处理的具体过程为：

步骤S901：先选定一个少数阳性样本；

步骤S902：找出这个阳性样本的k个近邻；

步骤S903：随机从这k个近邻中选出一个样本；

6.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，步骤S10中，

采用十折交叉验证训练并生成模型m1的具体过程为：

步骤S1001：将数据集data1随机分成10等份，分别为t1、t2、…、t9及t10；

步骤S1003：将t1去除标签值以外的数据输入模型m1’进行训练，得到结果后与t1标签值对比，输出灵敏度、特异度、精确度及AUC数值作为模型选择的参考；

步骤S1004：重复步骤S1002分别对另外9组进行训练，并依次选用t2、t3、…、t9及t10作为验证集进行验证后，生成模型集合m2’、m3’、…、m9’及m10’；

步骤S1005：重复步骤S1003分别将t2、t3、…、t9及t10去除标签值以外的数据输入模型m2’、m3’、…、m9’及m10’进行训练，得到结果后与对应标签值对比，输出灵敏度、特异度、精确度及AUC数值作为模型选择的参考；

7.根据权利要求6所述的中国老年认知损害预测模型，其特征在于，步骤S11中采用十折交叉验证的具体过程为：

步骤S1101：将步骤S10中m1～m5生成过程中十折交叉验证所产生的预测结果组合起来得到数据集D1；

步骤S1102：使用D1作为集合模型m6的输入数据，使用线性回归作为第二层算法；

8.根据权利要求1所述的中国老年认知损害预测模型，其特征在于，步骤S12中对外部验证数据test1进行处理的过程包括：

步骤S1203：对test1的连续变量值进行标化处理，对分类变量进行独热处理，得到独立变量。