CN110729052A - 老年健康数据知识分析方法和系统 - Google Patents

老年健康数据知识分析方法和系统 Download PDF

Info

Publication number
CN110729052A
CN110729052A CN201910854775.8A CN201910854775A CN110729052A CN 110729052 A CN110729052 A CN 110729052A CN 201910854775 A CN201910854775 A CN 201910854775A CN 110729052 A CN110729052 A CN 110729052A
Authority
CN
China
Prior art keywords
data
health
old
health survey
survey data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910854775.8A
Other languages
English (en)
Inventor
顾东晓
李童童
李兴国
王晓玉
江政
陆文星
钟金宏
赵树平
杨雪洁
苏凯翔
叶紫薇
苗夏雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Hefei Polytechnic University
Original Assignee
Hefei Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Polytechnic University filed Critical Hefei Polytechnic University
Priority to CN201910854775.8A priority Critical patent/CN110729052A/zh
Publication of CN110729052A publication Critical patent/CN110729052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种老年健康数据知识分析方法和系统,涉及数据处理技术领域。本发明提出了基于集成学习的特征选择方法,构建知识发现模型,同时融入基于机器学习评价指标和解释机器学习性评价方法,使得老年健康调查数据知识发现模型既有评价指标又引入了解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全面的分析出老年人健康影响因素。

Description

老年健康数据知识分析方法和系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种老年健康数据知识 分析方法和系统。
背景技术
老年健康数据包括日常活动能力、器具性活动能力、教育程度、 工作类型、运动习惯、饮食健康、医疗服务、心理状态等方面的个人 数据。老年健康数据具有复杂性、精确性、安全性、异构性及封闭性 的特点。对老年人健康影响因素的全面分析研究,对于科学认识老龄 化健康问题和实现健康的老龄化具有重要意义。
长期以来,健康普查数据的分析方法一直是统计方法或者简单的 线性回归分析,即通过提出假设再进行挖掘验证数据中的关系。
然而,现有的基于统计方法或者简单的线性回归分析的健康普查 数据的分析方法虽然可以较为充分的利用有限的宝贵数据,但提出的 假设一般是基于某个主要因素,例如居住模式、教育水平、经济地位 等进行相应的考察,没有结合多个方面的具体因素进行综合考虑,存 在一定的局限性,导致分析结果准确度不高。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种老年健康数据知识分析 方法和系统,解决了分析结果准确度不高的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种老年健康数据知识分析方法,所述方法由计算机 执行,包括以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到 关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知 识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康 调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
优选的,所述预处理包括缺失值处理。
优选的,所述缺失值处理包括:
S201、记一组老年健康调查数据为x1......xk,以统一的形式表示 这组老年健康调查数据中的缺失值;
S202、从第一个老年健康调查数据开始,如果x1有缺失值,将在 其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值由 来自x1的后验预测分布模拟得出;
S203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他 老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测分 布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。
优选的,所述集成特征选择包括:
S301、分别使用卡方检验、互信息、基于L2逻辑回归、随机逻辑 回归、随机森林和Light GBM对预处理之后的一组老年健康调查数据 中的特征a进行特征选择,获取特征a的6种类型的特征得分向量;
S302、对所述特征a的6种类型的特征得分向量进行归一化处理, 归一化处理的公式包括:
Figure BDA0002198004970000031
其中:
X*为归一化处理后的特征得分向量;
Xi为特征a的6种类型的特征得分向量中的其中一种特征得分向量;
S303、基于归一化后的特征a的6种类型的特征得分向量获取特 征平均总得分值;
S304、基于步骤S301~S303的方法,获取老年健康调查数据中M 个特征的特征平均总得分值,再将M个特征的特征平均总得分值相加, 得到总得分值,将总得分值除以6,除以6之后再除以老年健康调查数 据中老年人的个数,得到最终平均总得分值,选取老年健康调查数据 中特征平均总得分值在最终平均总得分值之上的特征作为关键特征。
优选的,所述获取知识发现模型的方法包括:
将关键特征输入梯度提升树分类器中,获取知识发现模型。
优选的,所述获取老年健康调查数据知识发现模型的具体方法包 括:
S501、基于机器学习评价指标对知识发现模型进行评价,基于评 价结果,筛选知识发现模型,得到初始老年健康调查数据知识发现模 型;
S502、将排列重要性和基于博弈论Shapley值的ShapleyAdditive Explanations两种解释机器学习性评价方法加入到初始老年健康调查数 据知识发现模型中,得到老年健康调查数据知识发现模型。
优选的,在步骤S501中,所述机器学习评价指标包括:准确率、 F值和AUC值。
本发明还提供一种老年健康数据知识分析系统,所述系统包括计 算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少 一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到 关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知 识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康 调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
(三)有益效果
本发明提供了一种老年健康数据知识分析方法和系统。与现有技 术相比,具备以下有益效果:
本发明通过对预处理之后的老年健康调查数据中的特征进行集成 特征选择,得到关键特征,再基于关键特征获取知识发现模型,并在 知识发现模型融入基于机器学习评价指标和解释机器学习性评价方法, 得到老年健康调查数据知识发现模型,然后通过老年健康调查数据知 识发现模型分析老年健康调查数据中的自变量与因变量的关系。本发 明提出了基于集成学习的特征选择方法,构建知识发现模型,同时融 入基于评价指标和解释机器学习性评价方法,使得老年健康调查数据 知识发现模型既有评价指标又引入了解释性评价方法,能从多个维度 分析老年健康调查数据中的自变量与因变量的关系,从而能准确、全 面的分析出老年人健康影响因素。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
图1为本发明实例一种老年健康数据知识分析方法的框图;
图2为本发明实施例中的ROC曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明 实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施 例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有 其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种老年健康数据知识分析方法和系统, 解决了现有技术中健康普查数据的分析方法的准确度低的问题,实现 从多个维度分析老年健康调查数据中的自变量与因变量的关系,从而 能准确、全面的分析出老年人健康影响因素。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过对预处理之后的老年健康调查数据中的特征进 行集成特征选择,得到关键特征,再基于关键特征获取知识发现模型, 并在知识发现模型融入基于评价指标和解释机器学习性评价方法,得 到老年健康调查数据知识发现模型,然后通过老年健康调查数据知识 发现模型分析老年健康调查数据中的自变量与因变量的关系。本发明 实施例提出了基于集成学习的特征选择方法,构建知识发现模型,同 时融入基于评价指标和解释机器学习性评价方法,使得老年健康调查 数据知识发现模型既有机器学习评价指标又引入了解释性评价方法, 能从多个维度分析老年健康调查数据中的自变量与因变量的关系,从 而能准确、全面的分析出老年人健康影响因素。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体 的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种老年健康数据知识分析方法,该方法由 计算机执行,如图1所示,包括步骤S1~S6:
S1、获取老年健康调查数据;
S2、对老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到 关键特征;
S4、基于上述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知 识发现模型,获取老年健康调查数据知识发现模型;
S6、基于上述老年健康调查数据知识发现模型分析所述老年健康 调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。
本发明实施例提出了基于集成学习的特征选择方法,构建知识发 现模型,同时融入基于机器学习评价指标和解释机器学习性评价方法, 使得老年健康调查数据知识发现模型既有机器学习评价指标又引入了 解释性评价方法,能从多个维度分析老年健康调查数据中的自变量与 因变量的关系,从而能准确、全面的分析出老年人健康影响因素。
下面对个步骤进行详细的描述:
S1、获取老年健康调查数据。需要说明的是,在本发明实施例中, 老年健康调查数据以CLHLS项目2014年的最新调查数据为例,该数 据的原始样本包含了7192条样本,共计886个变量。通过该项调查的 说明手册,发现一些变量是为了保证问卷调查的合理性而设计的,但 是这些变量本身没有什么实际的含义,比如每一类问题前都会有一道 问题涉及本题是由本人亲自回答,还是由他人代答,每一道此类题目 对应着一个变量,通常这类变量的名称编码以字母“r”开头,我们首 先删除此类对于本文的研究来说没有实际意义的变量,其次删除所有 行或者列均为空的样本。
S2、对老年健康调查数据进行预处理。具体实施过程如下:
S201、记一组老年健康调查数据为x1......xk,以统一的形式表示 这组老年健康调查数据中的缺失值;
S202、从第一个老年健康调查数据开始,如果x1有缺失值,它将 在其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值 由来自x1的后验预测分布模拟得出;
S203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他 老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测 分布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。
需要说明的是,在本发明实施例中,对于缺失值所占比例超过10% 的变量进行删除。另外需要注意的是,本发明实施例中排除掉岁数超 过105岁的样本。这样得到的自评健康数据集为6312条,特征(变量) 为206个,心理健康数据集为6314条,特征(变量)为206个。然后 对两个数据集分别进行特征选择,以方便建模。下面以自评健康数据 集为例,进行进一步分析。
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到 关键特征。具体实施过程如下:
S301、分别使用卡方检验、互信息、基于L2逻辑回归、随机逻辑 回归、随机森林和Light GBM对预处理之后的一组自评健康数据集中 的一个特征(在本发明实施例中,一个特征是指特征a,特征a指M 个特征中的其中一个,M=206)进行特征选择,获取一个特征的6种 类型的特征得分向量;
S302、对6种类型的特征得分向量进行归一化处理,为了确保由 不同特征选择方法产生的特征得分向量具有可比性,需要在执行特征 得分向量汇总融合之前进行归一化处理,每个特征选择方法产生的特 征得分向量都被标准化为取值在[0,1]中的范围。归一化处理的公式包 括:
Figure BDA0002198004970000091
其中:
X*为归一化处理后的特征得分向量;
Xi为6种类型的特征得分向量中的其中一种特征得分向量;
S303、基于归一化后的一种特征的6种类型的特征得分向量获取 特征平均总得分值。具体为,将一个特征的6种类型的特征得分向量 相加,再除以6,得到特征平均总得分值。
S304、基于步骤S301~S303的方法,获取老年健康调查数据中206 个特征的特征平均总得分值,再将206个特征的特征平均总得分值相 加,得到总得分值,将总得分值除以6,除以6之后再除以老年健康调 查数据中老年人的6312,得到最终平均总得分值,选取老年健康调查 数据中特征平均总得分值在最终平均总得分值之上的特征作为关键特 征。最终选择出44个关键特征。如表1所示。其中,表中的mean是 指最终平均总得分值,Stability是指随机逻辑回归,Chi2是指卡方检验, Rf是指随机森林,lasso_l2是指基于L2逻辑回归,Lgbm是指Light GBM, MI是指互信息。
表1
Figure BDA0002198004970000101
通过表格可以发现,就特征选择的结果而言,卡方检验方法出现 了大量的分数为零,而其他的方法总体保持了相对一致的趋势,从而 筛选出最有效的关键特征。由于原始样本的变量都是以字母代号的形 式进行编码,含义不清楚,所以对所筛选出的特征(变量)按照其实 际含义重新进行命名,并呈现了每个特征(变量)的具体编码含义, 详见表2所示:
表2
Figure BDA0002198004970000112
Figure BDA0002198004970000121
Figure BDA0002198004970000131
结合每个特征所代表的实际含义可以看出,在决定老年人生理健 康感受的因素中,心理状态占据了相当重要的部分,数个变量都是和 心理状态有关的,比如说是否仍然乐观,是否会焦虑,是否会感到孤 独等。除此之外,也能发现几个最常困扰老年人的慢性疾病的出现, 比如肺部有关的疾病,心血管疾病,糖尿病和关节疾病,这些高发的 老年疾病常常会对老年人的生活产生实际的影响。饮食上的一些习惯 似乎也暗中影响了老年人的生理健康感受,比如鸡蛋的摄入,牛奶的 摄入等。以上的特征选择结果只是初步表明了特征的可能的重要性, 最终的排名必须得经过对模型的训练后才能给出。
S4、基于上述关键特征获取知识发现模型。具体为:将44个关键 特征输入梯度提升树分类器中,作为输入变量,自评健康作为因变量, 获取知识发现模型。同时,在本发明实施例中,还通过常用的透明度 高的模型即逻辑斯蒂回归模型、决策树模型、随机森林模型获得知识 发现模型。
S5、基于评价指标、解释机器学习性评价方法和上述知识发现模 型,获取老年健康调查数据知识发现模型。具体实施过程如下:
S501、对知识发现模型的表现进行机器学习评价指标评价,上述 机器学习评价指标包括准确率、F值和AUC值。值筛选知识发现模型, 得到初始老年健康调查数据知识发现模型。
从表3和图2可得出,表3和图2中GBDT是指通过梯度提升树 (GBDT)构建的知识发现模型。综合各个模型的结果可以看出通过梯 度提升树构建的知识发现模型在各个指标上拥有最好的表现,尤其是 在准确率,F值和Auc(ROC曲线下的面积)这几个关键指标上,其综合表现是优于其他模型的。这说明通过梯度提升树构建知识发现模 型能够以不错的效率识别出老年人的自评健康状态,无论是健康的状 态还是不健康的状态。
表3
Accuracy Precision Recall F1 Auc
逻辑回归 76.22% 73.11% 72.89% 72.97% 83.79%
决策树 74.72% 69.48% 75.76% 72.48% 81.78%
随机森林 74.78% 75.17% 63.90% 69.04% 81.65%
GBDT 77.74% 74.48% 75.37% 74.89% 85.19%
S502、将排列重要性和基于博弈论Shapley值的ShapleyAdditive Explanations(沙普利加性解释)两种解释机器学习性评价方法加入到 初始老年健康调查数据知识发现模型中,得到老年健康调查数据知识 发现模型。
S6、基于上述老年健康调查数据知识发现模型分析上述老年健康 调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。
具体实施过程如下:
首先考察各项因素如何单独地影响老年健康自评。通过排列重要 性方法得到的结果如表4所示,在表格中,越是靠近顶部的特征对结 果预测影响越大,底部的特征则是影响最小的。因为是随机打乱排列 进行计算,所以实际上执行了多次操作,影响大小通过均值加方差来 进行表示,如果出现值为负数,说明该特征随机打乱后的预测结果反 而更好,这类特征基本没有什么用,可以考虑事后删除掉。
观察前十的排名,在本发明实施例中,可以看到最为重要的是生 活满意度评价,该特征也是与心理健康相关度很高的表征变量。这说 明了老年人的健康必须是全面的健康,心理和生理上的缺一不可。同 时老年人对自己健康状况的变化的感受也十分的重要,这需要注意和 老年人的交流,注意他们对自己身体状况感受的表达,这会是非常重 要的健康信号。同时睡眠质量以及心态方面尤其是积极乐观的心态也 占据了比较重要的位置。活动受限和急诊就医常常是老年人健康状况 出问题的直接表现形式,而能否蹲下起立则是老年人虚弱程度的表现, 因此他们也有较高的排名。老年人的年龄也有很重要的作用,说明健 康状况可能与年龄的分布有关,需要有针对性的针对不同年龄段提供 对应的健康服务。而在前20名中,还注意到老年人的身高也出现在了 相对靠前的位置,通过对国内外文献关于老年人身高和健康的关系的 检索,发现了国外的一些研究指出,老年人随着岁数增大,身高会出 现一定萎缩,这和老年人的生理健康有着十分重要的关系,是老年人 生理健康状况的重要信号。这一点是以往研究人员对该调查数据集的 研究中所没有涉及到的。尤其是,这为持续跟踪老年人健康状况,提 供了一种可能的简单途径,即通过关注老年人的身高的变化情况,作 为老年人健康状况预警的重要信号之一。而心脏疾病和哮喘等肺部疾 病则是老年慢性病中最突出的,牙齿数、能否走一千米和弯腰拾物, 也是老年身体健康的重要表现,在本发明实施例中的重要性排名也相 对靠前。此外省份也在前20名中,说明老年健康自评也与地域分布可 能有较强关系。而在最后的排名中,出现了两个负值,意味着两个变 量对于预测自评健康没有丝毫作用,其中一个是家庭收入,这似乎与 大部分人的直觉不符,因为一般的大部分人认为家庭收入更高,会有 更好的医疗保健,健康也应该更好。
表4
Figure BDA0002198004970000161
Figure BDA0002198004970000171
排列重要性解释方法计算速度快,可以快速地给出特征的全局重要 性排名,反映出特征对于模型来说是否重要,但是这种影响不够直观, 比如排列重要性的取值为中等时,可能意味着它只对少量预测有很大 的影响,但是整体影响较少,或者对所有的预测都有中等程度的影响, 也即排列重要性无法反映出每个特征具体如何影响最终的结果。因此, 在本发明实例中,还引入了基于博弈论Shapley值的Shapley Additive Explanations方法,该方法的计算较为复杂,但是该方法可以具体的衡 量出每个特征在每次的样本预测或者所有的样本预测中发挥的作用, 提供关于特征重要性的局部洞察。同时这两种解释性方法可以互相确 认,有助于增强对模型和结果的信任。
本发明实施例还提供一种老年健康数据知识分析系统,上述系统 包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少 一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取老年健康调查数据;
S2、对老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到 关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和上述知 识发现模型,获取老年健康调查数据知识发现模型;
S6、基于上述老年健康调查数据知识发现模型分析上述老年健康 调查数据,得到上述老年健康调查数据中的自变量与因变量的关系。
可理解的是,本发明实施例提供的上述老年健康数据知识分析系 统与上述老年健康数据知识分析方法相对应,其有关内容的解释、举 例、有益效果等部分可以参考老年健康数据知识分析方法中的相应内 容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例提出了基于集成的特征选择方法,构建知识发现模 型,同时融入基于机器学习评价指标和解释机器学习性评价方法,使 得老年健康调查数据知识发现模型既有机器学习评价指标又引入了解 释性评价方法,能从多个维度分析老年健康调查数据中的自变量与因 变量的关系,从而能准确、全面的分析出老年人健康影响因素。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员 可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方 式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术 做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品 可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等, 包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器, 或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包 括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、 物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品 或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种老年健康数据知识分析方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
2.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述预处理包括缺失值处理。
3.如权利要求2所述的老年健康数据知识分析方法,其特征在于,所述缺失值处理包括:
S201、记一组老年健康调查数据为x1......xk,以统一的形式表示这组老年健康调查数据中的缺失值;
S202、从第一个老年健康调查数据开始,如果x1有缺失值,将在其他变量x2到xk上回归,将x1中的缺失值替换为预测值,所述预测值由来自x1的后验预测分布模拟得出;
S203、对于下一个具有缺失值的老年健康调查数据xi,在所有其他老年健康调查数据x1......xk上回归,xi中的缺失值被来自xi的后验预测分布的模拟值所取代,将老年健康调查数据中的所有缺失值进行替换。
4.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述集成特征选择包括:
S301、分别使用卡方检验、互信息、基于L2逻辑回归、随机逻辑回归、随机森林和LightGBM对预处理之后的一组老年健康调查数据中的特征a进行特征选择,获取特征a的6种类型的特征得分向量;
S302、对所述特征a的6种类型的特征得分向量进行归一化处理,归一化处理的公式包括:
Figure FDA0002198004960000021
其中:
X*为归一化处理后的特征得分向量;
Xi为特征a的6种类型的特征得分向量中的其中一种特征得分向量;
S303、基于归一化后的特征a的6种类型的特征得分向量获取特征平均总得分值;
S304、基于步骤S301~S303的方法,获取老年健康调查数据中M个特征的特征平均总得分值,再将M个特征的特征平均总得分值相加,得到总得分值,将总得分值除以6,除以6之后再除以老年健康调查数据中老年人的个数,得到最终平均总得分值,选取老年健康调查数据中特征平均总得分值在最终平均总得分值之上的特征作为关键特征。
5.如权利要求1所述的老年健康数据知识分析方法,其特征在于,所述获取知识发现模型的方法包括:
将关键特征输入梯度提升树分类器中,获取知识发现模型。
6.如权利要求5所述的老年健康数据知识分析方法,其特征在于,所述获取老年健康调查数据知识发现模型的具体方法包括:
S501、基于机器学习评价指标对知识发现模型进行评价,基于评价结果,筛选知识发现模型,得到初始老年健康调查数据知识发现模型;
S502、将排列重要性和基于博弈论Shapley值的Shapley Additive Explanations两种解释机器学习性评价方法加入到初始老年健康调查数据知识发现模型中,得到老年健康调查数据知识发现模型。
7.如权利要求6所述的老年健康数据知识分析方法,其特征在于,在步骤S501中,所述机器学习评价指标包括:准确率、F值和AUC值。
8.一种老年健康数据知识分析系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取老年健康调查数据;
S2、对所述老年健康调查数据进行预处理;
S3、对预处理之后的老年健康调查数据进行集成特征选择,得到关键特征;
S4、基于所述关键特征获取知识发现模型;
S5、基于机器学习评价指标、解释机器学习性评价方法和所述知识发现模型,获取老年健康调查数据知识发现模型;
S6、基于所述老年健康调查数据知识发现模型分析所述老年健康调查数据,得到所述老年健康调查数据中的自变量与因变量的关系。
CN201910854775.8A 2019-09-10 2019-09-10 老年健康数据知识分析方法和系统 Pending CN110729052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854775.8A CN110729052A (zh) 2019-09-10 2019-09-10 老年健康数据知识分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854775.8A CN110729052A (zh) 2019-09-10 2019-09-10 老年健康数据知识分析方法和系统

Publications (1)

Publication Number Publication Date
CN110729052A true CN110729052A (zh) 2020-01-24

Family

ID=69217992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854775.8A Pending CN110729052A (zh) 2019-09-10 2019-09-10 老年健康数据知识分析方法和系统

Country Status (1)

Country Link
CN (1) CN110729052A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN113520319A (zh) * 2021-07-12 2021-10-22 吾征智能技术(北京)有限公司 一种基于逻辑回归的癫痫事件风险管理方法和系统
CN114283942A (zh) * 2021-12-24 2022-04-05 中国人民解放军西部战区总医院 基于老年综合评估情况生成个体化护理方案的系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512686A (zh) * 2015-12-14 2016-04-20 深圳大学 一种集成特征选择方法及系统
US20170046460A1 (en) * 2015-04-14 2017-02-16 Ptc Inc. Scoring a population of examples using a model
CN109471948A (zh) * 2018-11-08 2019-03-15 威海天鑫现代服务技术研究院有限公司 一种老年健康领域知识问答系统构建方法
US20190156216A1 (en) * 2017-11-17 2019-05-23 Adobe Inc. Machine learning model interpretation
CN110110008A (zh) * 2019-05-08 2019-08-09 北京理工大学 一种基于夏普利值的区块链医疗数据共享激励方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170046460A1 (en) * 2015-04-14 2017-02-16 Ptc Inc. Scoring a population of examples using a model
CN105512686A (zh) * 2015-12-14 2016-04-20 深圳大学 一种集成特征选择方法及系统
US20190156216A1 (en) * 2017-11-17 2019-05-23 Adobe Inc. Machine learning model interpretation
CN109471948A (zh) * 2018-11-08 2019-03-15 威海天鑫现代服务技术研究院有限公司 一种老年健康领域知识问答系统构建方法
CN110110008A (zh) * 2019-05-08 2019-08-09 北京理工大学 一种基于夏普利值的区块链医疗数据共享激励方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王和勇著: "《面向大数据的高维数据挖掘技术》", 31 March 2018, 西安电子科技大学出版社 *
胡荣等: ""中国城市老年人健康影响因素分析"", 《贵州师范大学学报(社会科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329928A (zh) * 2020-12-30 2021-02-05 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN112329928B (zh) * 2020-12-30 2021-04-30 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
CN113520319A (zh) * 2021-07-12 2021-10-22 吾征智能技术(北京)有限公司 一种基于逻辑回归的癫痫事件风险管理方法和系统
CN114283942A (zh) * 2021-12-24 2022-04-05 中国人民解放军西部战区总医院 基于老年综合评估情况生成个体化护理方案的系统及方法

Similar Documents

Publication Publication Date Title
Hemmert et al. Log-likelihood-based pseudo-R 2 in logistic regression: deriving sample-sensitive benchmarks
Abd-Alrazaq et al. An overview of the features of chatbots in mental health: A scoping review
Chen et al. Building a profile of subjective well-being for social media users
Goodman Conceptualizing and measuring citizenship and integration policy: Past lessons and new approaches
Copping et al. Psychometrics and life history strategy: The structure and validity of the high K strategy scale
Scherbaum et al. Logic tree branch weights and probabilities: Summing up to one is not enough
KR102525599B1 (ko) 스트레스 관련 콘텐츠 제공 장치 및 방법
CN111260448A (zh) 基于人工智能的药品推荐方法及相关设备
Helmus et al. Field validity of Static-99R and STABLE-2007 with 4,433 men serving sentences for sexual offences in British Columbia: New findings and meta-analysis.
Mistler et al. A comparison of joint model and fully conditional specification imputation for multilevel missing data
CN110729052A (zh) 老年健康数据知识分析方法和系统
Reis et al. Black and white or shades of gray: Are gender differences categorical or dimensional?
Stiglic et al. Challenges associated with missing data in electronic health records: a case study of a risk prediction model for diabetes using data from Slovenian primary care
Amirault et al. The impact of aggravating and mitigating factors on the sentence severity of sex offenders: An exploration and comparison of differences between offending groups
Heidinger et al. The childhood roots of adult psychological distress: Interdisciplinary perspectives toward a better understanding of exposure to cumulative childhood adversity
Ficetola et al. Biogeographical structure and endemism pattern in reptiles of the Western Palearctic
Olaru et al. The HEX-ACO-18: Developing an age-invariant HEXACO short scale using ant colony optimization
Kretsch et al. Marriage, divorce, and alcohol use in young adulthood: A longitudinal sibling-comparison study
Houlden et al. Does nature make us happier? A spatial error model of greenspace types and mental wellbeing
Simsek et al. Religion and intergroup boundaries: positive and negative ties among youth in ethnically and religiously diverse school classes in western Europe
Richardson et al. The psychometric equivalence of the Personal Wellbeing Index for normally functioning and homeostatically defeated Australian adults
Coca Perraillon et al. Predicting the EQ-5D-3L preference index from the SF-12 health survey in a national US sample: a finite mixture approach
Plassot et al. Inequality of opportunity in Mexico and its regions: A Data-Driven Approach
Castellanos-García et al. Light, moderate and vigorous physical activities: new insights into a virtuous circle with happiness
Dubey et al. Predicting diabetic neuropathy risk level using artificial neural network and clinical parameters of subjects with diabetes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gu Dongxiao

Inventor after: Lu Wenxing

Inventor after: Zhao Shuping

Inventor after: Xie Yuguang

Inventor after: Lu Liyan

Inventor after: Wei Qi

Inventor after: Wang Qin

Inventor after: Xu Zhengfei

Inventor after: Li Pengyu

Inventor after: Li Tongtong

Inventor after: Wang Xiaoyu

Inventor after: Xie Yi

Inventor after: Jiang Zheng

Inventor after: Yang Xuejie

Inventor after: Su Kaixiang

Inventor after: Zhao Wang

Inventor after: Zhao Qin

Inventor before: Gu Dongxiao

Inventor before: Su Kaixiang

Inventor before: Ye Ziwei

Inventor before: Miao Xiayu

Inventor before: Li Tongtong

Inventor before: Li Xingguo

Inventor before: Wang Xiaoyu

Inventor before: Jiang Zheng

Inventor before: Lu Wenxing

Inventor before: Zhong Jinhong

Inventor before: Zhao Shuping

Inventor before: Yang Xuejie

CB03 Change of inventor or designer information