CN110706822A - 基于逻辑回归模型和决策树模型的健康管理方法 - Google Patents

基于逻辑回归模型和决策树模型的健康管理方法 Download PDF

Info

Publication number
CN110706822A
CN110706822A CN201910890610.6A CN201910890610A CN110706822A CN 110706822 A CN110706822 A CN 110706822A CN 201910890610 A CN201910890610 A CN 201910890610A CN 110706822 A CN110706822 A CN 110706822A
Authority
CN
China
Prior art keywords
individual
data
genetic
logistic regression
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910890610.6A
Other languages
English (en)
Other versions
CN110706822B (zh
Inventor
张毅骏
谭翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Para Software Co Ltd
Original Assignee
Shanghai Para Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Para Software Co Ltd filed Critical Shanghai Para Software Co Ltd
Priority to CN201910890610.6A priority Critical patent/CN110706822B/zh
Publication of CN110706822A publication Critical patent/CN110706822A/zh
Application granted granted Critical
Publication of CN110706822B publication Critical patent/CN110706822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

本发明提供了一种基于逻辑回归模型和决策树模型的健康管理方法,其特征在于,包括以下步骤:收集每个个体的身体指标数据、遗传病史数据以及相对应的目标变量,目标变量为个体是否认为自己健康;利用决策树模型对遗传病对健康的影响进行建模,决策树模型的输入数据为遗传病史数据,决策树模型的目标变量为个体是否认为自己健康;利用逻辑回归模型进行健康管理的建模;实时获得某个个体的身体指标数据及遗传病史数据,将遗传病史数据输入决策树模型,得到当前个体的遗传史对健康的得分,将该得分与当前个体的身体指标数据共同输入训练好的逻辑回归模型中,得到逻辑回归模型输出的p值最小的n个字段组成的模型结果。

Description

基于逻辑回归模型和决策树模型的健康管理方法
技术领域
本发明涉及一种健康管理方法。
背景技术
健康管理是指一种对个人或人群的健康危险因素进行全面管理的过程。健康管理面临的难点是:第一、影响健康的因素太多:比如身高,体重,血脂,血压,血糖,年龄,肌肉比等。第二、影响健康的各因素之间存在关联性:比如血脂与体重、身高与体重、血脂与血压、血糖与血压、年龄与血糖等等,都是有关联性的。例如:一个人血脂偏高,一般可以推断他的血压较高;体重较重、血糖较高,也能推断年纪较大。第三、遗传病史(基因作用)也会影响健康:由于人和人之间的基因组成存在一定差别,从健康管理的角度来说,每个人的遗传病史对其健康状况存在着较大的影响。
逻辑回归是指,形如:
Figure BDA0002208632300000011
方程的数据分析模型。方程中,p是指某种事件发生的概率,1-p指的是该种事件不发生的概率。逻辑回归具有如下特点:(1)因变量只能是0-1的二项分布;(2)模型的损失函数是最大似然估计,即当给定数据时,对a1,a2,…,an中的每一个参数进行偏微分后,再让偏微分式子等于0,从而求出参数的估计值;(3)虽然因变量只能是0-1的二项分布,但由于使用的损失函数是最大似然估计,故本质上是在计算因变量为0或因变量为1的概率;(4)由于第(3)点,故可以将预0-1分类变量的任务转换为一种预测变量为1概率的模型,从而可以转换为一种评分模型。
决策树模型指的是利用信息熵指标,利用数据中不同字段,将数据分类的算法。信息熵指的是:
Figure BDA0002208632300000012
式中:i指的是用字段将数据按行分成的各个类别,比如,性别字段,会把数据按行分成“男”和“女”两类;pi指的是第i种类别下,男性的占比。
发明内容
本发明的目的是:基于逻辑回归及决策树模型实现健康管理。
为了达到上述目的,本发明的技术方案是提供了一种基于逻辑回归模型和决策树模型的健康管理方法,其特征在于,包括以下步骤:
步骤1、收集每个个体的身体指标数据、遗传病史数据以及相对应的目标变量,目标变量为个体是否认为自己健康,用1代表个体觉得自己不健康,用0代表个体觉得自己健康;
步骤2、利用决策树模型对遗传病对健康的影响进行建模,决策树模型的输入数据为遗传病史数据,决策树模型的目标变量为个体是否认为自己健康,决策树模型的输出变量为个体的遗传史对健康的得分;
步骤3、利用逻辑回归模型进行健康管理的建模,包括以下步骤:
步骤301、建立训练数据集,训练数据集中的每个数据对应一个个体,包括自变量字段及决策目标字段,其中,自变量字段包括个体的身体指标数据及遗传病史数据,决策目标字段包括个体是否认为自己健康;
步骤302、提取训练数据集中每个数据的遗传病史数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
步骤303、将训练数据集中的身体指标数据与步骤302计算得到的每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段,逻辑回归模型输出的p值最小的n个字段组成模型结果;
步骤304、建立测试数据集,提取测试数据集中每个数据的遗传病史数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
步骤305、将测试数据集中的身体指标数据与步骤304计算得到的每个个体的遗传史对健康的得分输入训练后的逻辑回归模型,若逻辑回归模型输出的模型结果与测试数据集中决策目标字段的实际值相同的概率大于设定的阈值,则进入步骤306,否则建立新的训练数据集,返回步骤302重新对逻辑回归模型进行训练;
步骤4、实时获得某个个体的身体指标数据及遗传病史数据,将遗传病史数据输入决策树模型,得到当前个体的遗传史对健康的得分,将该得分与当前个体的身体指标数据共同输入训练好的逻辑回归模型中,得到逻辑回归模型输出的p值最小的n个字段组成的模型结果。
优选地,步骤302中,在获得每个个体的遗传史对健康的得分的同时,还进行以下步骤:
对训练数据集中的每个数据进行Pearson相关性筛选,即计算自变量字段之间的Pearson相关性,当两个自变量字段之间的Pearson相关性大于设定的阈值时,随机舍去一个自变量字段,将筛选后的训练数据集与每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段。
本发明充分考虑了遗传病史在健康管理中的作用,使得本发明提供的方法能够更为准确地对健康状况做出预测。
附图说明
图1为实施例中的决策树模型示意图;
图2为实施例中的逻辑回归模型的训练过程;
图3为实施例中的逻辑回归模型上线后的示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的提出基于如下概念:
(1)分位数:
将数据进行排序后,数据点位于数据的n分位数是指比数据点更小的数据点的数量占所有数据量的n%。通常地,我们只取10%、20%、30%等整数的分位数点,对数据进行分类。另外,通常地,当会将10%、20%、30%等整数的分为点分别转换成10、20、30等整数,从而方便模型使用。
(2)Pearson相关性:
输入项:数值向量x={x1,…,xN},数值向量y={y1,…,yN},其中两个向量的长度为N,则有:
CorrPearson就是Pearson相关性,该指标是用来判断向量x与向量y的线性关系是不是强,即y=ax+b中a的数值是否逼近0。
(3)p值:
在很多统计模型中,当模型被建立后,需要对模型的参数进行参数为0的假设检验,p值只的是在给定数据下,该假设检验中,模型认为该参数为0的概率。
本发明提供了一种基于逻辑回归模型和决策树模型的健康管理方法,包括以下步骤:
步骤1、收集每个个体的身体指标数据、遗传病史数据以及相对应的目标变量,身体指标数据包括诸如身高、体重、血脂、血压、血糖、年龄等,遗传病史数据包括诸如是否有糖尿病、是否有高血压、是否有家族糖尿病史、是否有家族高血压史等,目标变量为个体是否认为自己健康,用1代表个体觉得自己不健康,用0代表个体觉得自己健康;
步骤2、考虑到遗传病对健康的影响与一般的因素,诸如身高、体重、血脂、血压、血糖、年龄等相比较高,故使用决策树模型对遗传病史进行建模。如图1所示,利用决策树模型对遗传病对健康的影响进行建模,决策树模型的输入数据为遗传病史数据,包括:是否糖尿病、是否高血压、是否有家族糖尿病史、是否有家族高血压史等,决策树模型的目标变量为个体是否认为自己健康,决策树模型的输出变量为个体的遗传史对健康的得分;
步骤3、利用逻辑回归模型进行健康管理的建模,如图2所示,包括以下步骤:
步骤301、建立训练数据集,训练数据集中的每个数据对应一个个体,包括自变量字段及决策目标字段,其中,自变量字段包括个体的身体指标数据及遗传病史数据,决策目标字段包括个体是否认为自己健康;
步骤302、提取训练数据集中每个数据的遗传病史数据及与遗传病相关的身体指标数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
在获得每个个体的遗传史对健康的得分的同时,还进行以下步骤:
对训练数据集中的每个数据进行Pearson相关性筛选,即计算自变量字段之间的Pearson相关性,当两个自变量字段之间的Pearson相关性大于0.6时,随机舍去一个自变量字段,将筛选后的训练数据集与每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段;
步骤303、将训练数据集中的身体指标数据与步骤302计算得到的每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段,逻辑回归模型输出的p值最小的5个字段组成模型结果;
步骤304、建立测试数据集,提取测试数据集中每个数据的遗传病史数据及与遗传病相关的身体指标数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
步骤305、将测试数据集中的身体指标数据与步骤304计算得到的每个个体的遗传史对健康的得分输入训练后的逻辑回归模型,若逻辑回归模型输出的模型结果与测试数据集中决策目标字段的实际值相同的概率大于70%,则进入步骤306,否则建立新的训练数据集,返回步骤302重新对逻辑回归模型进行训练;
步骤4、结合图3,实时获得某个个体的身体指标数据及遗传病史数据,将遗传病史数据及与遗传病相关的身体指标数据输入决策树模型,得到当前个体的遗传史对健康的得分,将该得分与当前个体的身体指标数据共同输入训练好的逻辑回归模型中,得到逻辑回归模型输出的p值最小的5个字段组成的模型结果。

Claims (2)

1.一种基于逻辑回归模型和决策树模型的健康管理方法,其特征在于,包括以下步骤:
步骤1、收集每个个体的身体指标数据、遗传病史数据以及相对应的目标变量,目标变量为个体是否认为自己健康,用1代表个体觉得自己不健康,用0代表个体觉得自己健康;
步骤2、利用决策树模型对遗传病对健康的影响进行建模,决策树模型的输入数据为遗传病史数据,决策树模型的目标变量为个体是否认为自己健康,决策树模型的输出变量为个体的遗传史对健康的得分;
步骤3、利用逻辑回归模型进行健康管理的建模,包括以下步骤:
步骤301、建立训练数据集,训练数据集中的每个数据对应一个个体,包括自变量字段及决策目标字段,其中,自变量字段包括个体的身体指标数据及遗传病史数据,决策目标字段包括个体是否认为自己健康;
步骤302、提取训练数据集中每个数据的遗传病史数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
步骤303、将训练数据集中的身体指标数据与步骤302计算得到的每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段,逻辑回归模型输出的p值最小的n个字段组成模型结果;
步骤304、建立测试数据集,提取测试数据集中每个数据的遗传病史数据输入步骤2建立的决策树模型中,得到每个个体的遗传史对健康的得分;
步骤305、将测试数据集中的身体指标数据与步骤304计算得到的每个个体的遗传史对健康的得分输入训练后的逻辑回归模型,若逻辑回归模型输出的模型结果与测试数据集中决策目标字段的实际值相同的概率大于设定的阈值,则进入步骤306,否则建立新的训练数据集,返回步骤302重新对逻辑回归模型进行训练;
步骤4、实时获得某个个体的身体指标数据及遗传病史数据,将遗传病史数据输入决策树模型,得到当前个体的遗传史对健康的得分,将该得分与当前个体的身体指标数据共同输入训练好的逻辑回归模型中,得到逻辑回归模型输出的p值最小的n个字段组成的模型结果。
2.如权利要求1所述的一种基于逻辑回归模型和决策树模型的健康管理方法,其特征在于,步骤302中,在获得每个个体的遗传史对健康的得分的同时,还进行以下步骤:
对训练数据集中的每个数据进行Pearson相关性筛选,即计算自变量字段之间的Pearson相关性,当两个自变量字段之间的Pearson相关性大于设定的阈值时,随机舍去一个自变量字段,将筛选后的训练数据集与每个个体的遗传史对健康的得分输入逻辑回归模型,对逻辑回归模型进行训练,训练数据集的决策目标字段作为建模目标字段。
CN201910890610.6A 2019-09-20 2019-09-20 基于逻辑回归模型和决策树模型的健康管理方法 Active CN110706822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910890610.6A CN110706822B (zh) 2019-09-20 2019-09-20 基于逻辑回归模型和决策树模型的健康管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910890610.6A CN110706822B (zh) 2019-09-20 2019-09-20 基于逻辑回归模型和决策树模型的健康管理方法

Publications (2)

Publication Number Publication Date
CN110706822A true CN110706822A (zh) 2020-01-17
CN110706822B CN110706822B (zh) 2024-02-02

Family

ID=69195712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910890610.6A Active CN110706822B (zh) 2019-09-20 2019-09-20 基于逻辑回归模型和决策树模型的健康管理方法

Country Status (1)

Country Link
CN (1) CN110706822B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613325A (zh) * 2020-05-20 2020-09-01 京东方科技集团股份有限公司 一种慢阻肺复发预测方法、装置、电子设备和存储介质
CN111816311A (zh) * 2020-07-22 2020-10-23 北京捷通华声科技股份有限公司 状态识别的方法、系统、装置
CN112086130A (zh) * 2020-08-13 2020-12-15 东南大学 一种基于测序和数据分析的肥胖风险预测装置及其预测方法
CN112309527A (zh) * 2020-11-24 2021-02-02 南通市第二人民医院 一种基于大数据的病案统计管理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN107480851A (zh) * 2017-06-29 2017-12-15 北京小豆儿机器人科技有限公司 一种基于养老机器人的智能健康管理系统
CN107767956A (zh) * 2017-10-27 2018-03-06 秦皇岛市惠斯安普医学系统股份有限公司 一种基于生物电感应技术的健康风险评估与管理方法
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
US20180211727A1 (en) * 2017-01-24 2018-07-26 Basehealth, Inc. Automated Evidence Based Identification of Medical Conditions and Evaluation of Health and Financial Benefits Of Health Management Intervention Programs
CN108847289A (zh) * 2018-07-27 2018-11-20 方蘅英 上尿路损害风险预测方法、装置与计算机可读存储介质
CN109285606A (zh) * 2018-11-28 2019-01-29 极力健生物科技(广州)有限公司 一种基于大数据智能算法的健康管理方法和系统
CN109325640A (zh) * 2018-12-07 2019-02-12 中山大学 用户价值预测方法、装置、存储介质及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
US20180211727A1 (en) * 2017-01-24 2018-07-26 Basehealth, Inc. Automated Evidence Based Identification of Medical Conditions and Evaluation of Health and Financial Benefits Of Health Management Intervention Programs
CN106874693A (zh) * 2017-03-15 2017-06-20 国信优易数据有限公司 一种医疗大数据分析处理系统及方法
CN107220217A (zh) * 2017-05-31 2017-09-29 北京京东尚科信息技术有限公司 基于逻辑回归的特征系数训练方法和装置
CN107480851A (zh) * 2017-06-29 2017-12-15 北京小豆儿机器人科技有限公司 一种基于养老机器人的智能健康管理系统
CN107767956A (zh) * 2017-10-27 2018-03-06 秦皇岛市惠斯安普医学系统股份有限公司 一种基于生物电感应技术的健康风险评估与管理方法
CN108847289A (zh) * 2018-07-27 2018-11-20 方蘅英 上尿路损害风险预测方法、装置与计算机可读存储介质
CN109285606A (zh) * 2018-11-28 2019-01-29 极力健生物科技(广州)有限公司 一种基于大数据智能算法的健康管理方法和系统
CN109325640A (zh) * 2018-12-07 2019-02-12 中山大学 用户价值预测方法、装置、存储介质及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李现文;李春玉;MIYONG KIM;李贞姬;黄德镐;朱琴淑;金今姬;: "决策树与Logistic回归在高血压患者健康素养预测中的应用", 护士进修杂志, no. 13, pages 7 - 9 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613325A (zh) * 2020-05-20 2020-09-01 京东方科技集团股份有限公司 一种慢阻肺复发预测方法、装置、电子设备和存储介质
CN111816311A (zh) * 2020-07-22 2020-10-23 北京捷通华声科技股份有限公司 状态识别的方法、系统、装置
CN112086130A (zh) * 2020-08-13 2020-12-15 东南大学 一种基于测序和数据分析的肥胖风险预测装置及其预测方法
CN112086130B (zh) * 2020-08-13 2021-07-27 东南大学 一种基于测序和数据分析的肥胖风险预测装置的预测方法
CN112309527A (zh) * 2020-11-24 2021-02-02 南通市第二人民医院 一种基于大数据的病案统计管理方法及系统

Also Published As

Publication number Publication date
CN110706822B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN110706822B (zh) 基于逻辑回归模型和决策树模型的健康管理方法
KR101669526B1 (ko) 생체나이를 이용한 잔여 수명 예측방법
Zhong et al. Large group decision-making incorporating decision risk and risk attitude: A statistical approach
CN106682412A (zh) 一种基于医疗体检数据的糖尿病预测方法
CN111243736A (zh) 一种生存风险评估方法及系统
CN110739076A (zh) 一种医疗人工智能公共训练平台
CN108847285A (zh) 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
CN110491520A (zh) 一种基于半监督学习的骨质状态评估模型的构建方法
JP2019169139A (ja) 顔画像からの定性的特徴を評価するコンピュータ実行ツールを構築する方法
CN113284623A (zh) 基于用户能力的个性化认知训练任务推荐算法及系统
Tiwari et al. Diabetes type2 patient detection using lasso based cffnn machine learning approach
Kwakye et al. Machine learning-based classification algorithms for the prediction of coronary heart diseases
KR101255477B1 (ko) 사상체질 분류방법
TWI599896B (zh) 多輸出決策屬性選擇暨資料離散化分類方法
Pancerz et al. Determining importance of ranges of MMPI scales using fuzzification and relevant attribute selection
Chandra et al. Application Of Machine Learning K-Nearest Neighbour Algorithm To Predict Diabetes
CN114628033A (zh) 疾病风险预测方法、装置、设备及存储介质
CN113096127A (zh) 一种脑网络演化模型的生成系统及方法
CN110957044A (zh) 基于改进的逻辑回归模型的健康管理方法
CN113361653A (zh) 基于数据样本增强的深度学习模型去偏方法和装置
CN112434737A (zh) 用于脑卒中分析的多智能体评价准则融合的特征选择系统
Baihaqi et al. Review on fuzzy expert system and data mining techniques for the diagnosis of coronary artery disease
Kour et al. An Advance Approach for Diabetes Detection by Implementing Machine Learning Algorithms
Fattah et al. A voting classifier for the treatment of employees’ mental health disorder
Meda et al. An Efficient and Scalable Heart Disease Diagnosis System with Attribute Impact Based Weights and Genetic Correlation Analysis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant