CN107403072A - 一种基于机器学习的2型糖尿病预测预警方法 - Google Patents

一种基于机器学习的2型糖尿病预测预警方法 Download PDF

Info

Publication number
CN107403072A
CN107403072A CN201710665605.6A CN201710665605A CN107403072A CN 107403072 A CN107403072 A CN 107403072A CN 201710665605 A CN201710665605 A CN 201710665605A CN 107403072 A CN107403072 A CN 107403072A
Authority
CN
China
Prior art keywords
diabetes
data
algorithms
module
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710665605.6A
Other languages
English (en)
Inventor
杨胜齐
吴寒
丁梦
王冰笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710665605.6A priority Critical patent/CN107403072A/zh
Publication of CN107403072A publication Critical patent/CN107403072A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的2型糖尿病预测预警方法,通过K‑means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K‑means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块等五大模块。主要应用在糖尿病早期预测分析、高危人群预警分级以及糖尿病日常健康管理等三大方面。本方法在实际应用中具有更高的预测准确性,更加专注每个实例的健康参数,同时针对非糖尿病实例进行预警分级,能起到更好的防范作用,做到疾病的提早预防。

Description

一种基于机器学习的2型糖尿病预测预警方法
技术领域
本发明属于机器学习预测分析与医疗健康技术领域,具体涉及一种基于机器学习的2型糖尿病预测预警方法。
背景技术
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特性,接近一半的糖尿病患者有家族遗传病史。国际糖尿病联盟在Diabetes Atlas(Seventh Edition)中的最新数据表明,2015年全世界范围内DM患病人群的数量将近4.15亿。根据近年的增长率预测到2040年,全球糖尿病患者将达到6.42亿,这意味着未来每十个成年人中间就有一个人患有糖尿病。这一惊人的数字毫无疑问需要引起高度重视。
近年来,中国已成世界糖尿病患者第一大国,目前患病人数已高达1.1亿人,且患者数量还在不断上升当中。然而我国糖尿病患者知晓率仅为30.1%,其中仅有25.8%的患者得到治疗,而在进行治疗的患者中,血糖得到良好控制的仅有39.7%,据此测算,糖尿病患者中,血糖得到控制的患者比例仅为3.08%。在城市和乡村,上述数据存在显著差异,且不同性别之间差异也较大,经济不发达地区的女性糖尿病的控制情况非常低。在这样的情况下,通过先进的技术手段做好糖尿病患病的前期预防和日常管理就显得格外重要。
随着人工智能机器学习等技术的快速发展,大量机器学习算法被运用在医疗健康的方方面面。机器学习是研究如何使用机器来模拟人类学习活动的学科。一种更为严格的定义是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。机器学习主要研究的是让机器从过去的经历中学习经验,对数据的不确定性进行建模,并在未来进行预测。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
糖尿病预测预警是机器学习算法的应用领域之一,主要在如下三个方面展开:1)重要糖尿病参数分析。通过主成分分析方法和关联算法对多种糖尿病数据集的基本属性值进行分析筛选,得出引发糖尿病的重要因素;2)预测模型分析。通过多种分类算法对糖尿病数据集进行有监督的预测分析来判断糖尿病风险参数在一定时间之后引发糖尿病的可能性,主要应用的算法有决策树算法、随机森林算法、神经网络算法以及逻辑回归算法等;3)预警分级分析。针对多种糖尿病数据集,通过无监督的聚类算法,优化现有糖尿病预警分级标准。
发明内容
本发明的目的是针对现有糖尿病预测方法准确性的不足,以及对潜在人群进行风险提示的欠缺,提供了一种基于K-means算法、Logistic Regression算法和C4.5算法结合应用的2型糖尿病预测预警方法。本方法对糖尿病参数进行持续的数据收集、数据分析、数据管理等工作,在此基础之上形成预测分析、预警分级和日常管理等功能。
为达到上述目的,本发明采用的技术方案为:
一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接。
本方法包括以下步骤:
(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等。首先对每一个实例以糖尿病和非糖尿病进行标记。
(2)对糖尿病参数数据库中的原始数据做数据预处理。预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量。
(3)使用K-means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类。
(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识。
(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化。在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果。
所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记。
所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化。数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。缺失值处理即将数据集中缺少的值使用平均值进行替代。数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果。
所述的预测分析模块分为两部分,分别是K-means聚类处理和LogisticRegression模型处理。使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理。使用Logistic Regression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性。
预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准。在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断。
所述的日常管理模块包含血糖记录和体征记录。血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库。体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比等数据。所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。
本发明相对于现有技术,具有以下有益效果:
本方法所述数据预处理模块和预测分析模块中使用的混合算法(K-means算法和Logistic Regression算法)在实际应用中相对于现有技术数据处理更清晰、预测准确性更高。针对糖尿病是遗传性疾病的属性,本方法更加专注每个实例的健康参数,包括参数的统一建库管理及更新优化,通过不断引入新的实例数据来优化算法模型的预测准确性。本方法在预测糖尿病与否的基础上,针对非糖尿病实例进行预警分级,能起到更好的防范作用,做到疾病的提早预防。
附图说明
图1是本发明方法结构示意图。
图2是本发明方法预测分析模块示意图。
图3是本发明方法预警分级模块示意图。
图4是本发明方法部分数据预测结果示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
预测分析模块和预警分级模块是本方法的两大核心模块。
所述的预测分析模块由K-means算法和Logistic Regression算法组成。
K-means算法是典型的基于距离的聚类算法,采用距离作为相似度的度量指标,即规定对象间的距离值越小,其相似度越大。K-means算法所产生的簇都是由距离相近的对象组成,故其最终目标是找到这些紧凑且独立的簇。在K-means算法中,K值代表的是初始聚类中心的个数,聚类中心即簇,故K值的选取对聚类结果影响大。
针对包含n个糖尿病实例的初始数据集,n为糖尿病实例的个数且取正整数,对应的算法过程如下:
1)在给出数据集中的n个糖尿病实例里任意选取2个对象作为初始聚类中心。由于最终的分类结果为两类,将K值定为2;
2)对剩余的每个糖尿病实例分别计算与每个中心的距离,并根据剩余的每个糖尿病实例与各个簇中心的距离把剩余的每个糖尿病实例归到最近的中心的簇;
3)重新计算每个聚类的中心,判断中心是否发生变化;
4)循环步骤2)~3)步直至新的中心与原中心相等或小于指定阈值,即已收敛,则算法结束。通过误差函数判断收敛:其中x表示糖尿病参数中的每个实例,μ(Ci)表示聚类Ci的中心,d(x,μ(Ci))表示x和μ(Ci)之间的欧几里德距离,k的值为2。
在对糖尿病数据集使用K-means算法进行分析时,选取K值为2,将分析结果与数据集原始的分类标签进行比较,剔除错误的噪声数据,将剩余的数据集作为下一级LogisticRegression算法的输入。由于起初K-means算法的Seed值是随机选取的,在剔除数据过程中可能造成错误聚类数量过大,故在每次聚类分析结束后计算数据集剩余比(剩余数据项数量除以原始数据项数量)。若比值大于75%,则进入下一步;若比值小于75%,则进入循环重新选取新的Seed值开始聚类。如附图2所示。
以此方法降低人工选取Seed值导致错误分析的风险,并且能够有效控制原始数据集的不必要损失。
对高质量的数据集使用Logistic Regression算法进入第二级处理。
Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。针对糖尿病参数进行分析研究,采用Logistic Regression Models,其定义如下:估计概率公式为:其中P表示时间Y发生的概率,即分类结果为糖尿病或非糖尿病的概率;p(Y=1)=p/(1-p)表示让步比;Ln[p/(1-p)]是让步比的log值;每一个独立的糖尿病参数X分配相应的系数值β代表该参数对分类结果占有的权重。
在本方法中,最终结果的标签为两类,糖尿病和非糖尿病。数据集中的属性值提供了分类依据。通过Logistic Regression算法分析,得到每一项属性值的权重,从而确定糖尿病参数中的危险因素,进一步分析得到的分类结果即为整体算法模型的预测结果。
在本方法中,使用10折交叉验证方法对预测分析结果进行验证,将初始采样分割成10个子样本,一个单独的子样本被保留作为验证模型的数据,其他9个样本用来训练。交叉验证重复10次,每个子样本验证一次,平均10次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。
图4所示是部分数据预测结果示意图,一种预测过程会有四个不同的结果,分别为True Positive(TP)、True Negative(TN)、False Positive(FT)和False Negative(FN)。在混淆矩阵(Confusion Matrix)中显示四种结果相应的数据,TP和TN是分类正确的结果,FT是将原本属于Negative的结果错误分类至Positive类,FN是将原本属于Positive的结果错误分类至Negative类。Precision查准率,是衡量检索系统拒受非相关信息的能力。Recall查全率,是衡量检索系统检出相关信息的能力。MCC(The Mathews CorrelationCoefficient,Mathews相关系数),这是一个针对二元分类的有趣性能指标,特别是各个类别在数量上不平衡时。
预警分级模块由C4.5算法和K-means算法组成。
决策树是一个树结构(是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。C4.5是决策树算法的一种,其主要特点是优化信息增益的缺点,提出信息增益率的概念,其定义为 信息增益率使用“分裂信息”值将信息增益规范化,分裂信息定义如下:其中D1到DV是V个值的属性A分割D而形成的V个样例子集,分裂信息就是D关于属性A的各值的熵。
选择具有最大增益率的属性作为分裂属性。
在本模块中,首先使用C4.5算法对原始数据集做分类分析,将原始数据集分为糖尿病和非糖尿病两类,分类结果分析得出的分类规则是一系列对属性数值区间的规约,将这些规则应用于下一步的分级定义当中。
K-means算法可以对数据集进行无标签的聚类分析。针对仅包含非糖尿病实例参数的数据集,使用K-means算法进行聚类,将K值设为3,结果生成三个属于不同范围内的类别。通过将结果与现有糖尿病预警分级标准以及上一步生成的若干规则进行对比分析,分别针对高风险、低风险和无风险三个级别得出有实际效用的预警分级规则。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和LogisticRegression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型;本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接;
其特征在于:本方法包括以下步骤:
(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等;首先对每一个实例以糖尿病和非糖尿病进行标记;
(2)对糖尿病参数数据库中的原始数据做数据预处理;预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量;
(3)使用K-means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类;
(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识;
(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化;在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果;
所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记;
所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化;数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;缺失值处理即将数据集中缺少的值使用平均值进行替代;数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果;
所述的预测分析模块分为两部分,分别是K-means聚类处理和LogisticRegression模型处理;使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理;使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性;
预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准;在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断;
所述的日常管理模块包含血糖记录和体征记录;血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库;体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比数据;所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。
2.根据权利要求1所述的一种基于机器学习的2型糖尿病预测预警方法,其特征在于:预测分析模块和预警分级模块是本方法的两大核心模块;
所述的预测分析模块由K-means算法和LogisticRegression算法组成;
K-means算法是典型的基于距离的聚类算法,采用距离作为相似度的度量指标,即规定对象间的距离值越小,其相似度越大;K-means算法所产生的簇都是由距离相近的对象组成,故其最终目标是找到这些紧凑且独立的簇;在K-means算法中,K值代表的是初始聚类中心的个数,聚类中心即簇,故K值的选取对聚类结果影响大;
针对包含n个糖尿病实例的初始数据集,n为糖尿病实例的个数且取正整数,对应的算法过程如下:
1)在给出数据集中的n个糖尿病实例里任意选取2个对象作为初始聚类中心;由于最终的分类结果为两类,将K值定为2;
2)对剩余的每个糖尿病实例分别计算与每个中心的距离,并根据剩余的每个糖尿病实例与各个簇中心的距离把剩余的每个糖尿病实例归到最近的中心的簇;
3)重新计算每个聚类的中心,判断中心是否发生变化;
4)循环步骤2)~3)步直至新的中心与原中心相等或小于指定阈值,即已收敛,则算法结束;通过误差函数判断收敛:其中x表示糖尿病参数中的每个实例,μ(Ci)表示聚类Ci的中心,d(x,μ(Ci))表示x和μ(Ci)之间的欧几里德距离,k的值为2;
在对糖尿病数据集使用K-means算法进行分析时,选取K值为2,将分析结果与数据集原始的分类标签进行比较,剔除错误的噪声数据,将剩余的数据集作为下一级LogisticRegression算法的输入;由于起初K-means算法的Seed值是随机选取的,在剔除数据过程中可能造成错误聚类数量过大,故在每次聚类分析结束后计算数据集剩余比;若比值大于75%,则进入下一步;若比值小于75%,则进入循环重新选取新的Seed值开始聚类;
以此方法降低人工选取Seed值导致错误分析的风险,并且能够有效控制原始数据集的不必要损失;
对高质量的数据集使用LogisticRegression算法进入第二级处理;
Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域;探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等;针对糖尿病参数进行分析研究,采用LogisticRegressionModels,其定义如下:估计概率公式为:其中P表示时间Y发生的概率,即分类结果为糖尿病或非糖尿病的概率;p(Y=1)=p/(1-p)表示让步比;Ln[p/(1-p)]是让步比的log值;每一个独立的糖尿病参数X分配相应的系数值β代表该参数对分类结果占有的权重;
在本方法中,最终结果的标签为两类,糖尿病和非糖尿病;数据集中的属性值提供了分类依据;通过LogisticRegression算法分析,得到每一项属性值的权重,从而确定糖尿病参数中的危险因素,进一步分析得到的分类结果即为整体算法模型的预测结果;
在本方法中,使用10折交叉验证方法对预测分析结果进行验证,将初始采样分割成10个子样本,一个单独的子样本被保留作为验证模型的数据,其他9个样本用来训练;交叉验证重复10次,每个子样本验证一次,平均10次的结果或者使用其它结合方式,最终得到一个单一估测;这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次;
一种预测过程会有四个不同的结果,分别为TP、TN、FT和FN;在混淆矩阵中显示四种结果相应的数据,TP和TN是分类正确的结果,FT是将原本属于Negative的结果错误分类至Positive类,FN是将原本属于Positive的结果错误分类至Negative类;Precision查准率,是衡量检索系统拒受非相关信息的能力;Recall查全率,是衡量检索系统检出相关信息的能力;MCC,这是一个针对二元分类的有趣性能指标,特别是各个类别在数量上不平衡时;
预警分级模块由C4.5算法和K-means算法组成;
决策树是一个树结构;其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别;使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果;C4.5是决策树算法的一种,其主要特点是优化信息增益的缺点,提出信息增益率的概念,其定义为信息增益率使用“分裂信息”值将信息增益规范化,分裂信息定义如下: 其中D1到DV是V个值的属性A分割D而形成的V个样例子集,分裂信息就是D关于属性A的各值的熵;
选择具有最大增益率的属性作为分裂属性;
在本模块中,首先使用C4.5算法对原始数据集做分类分析,将原始数据集分为糖尿病和非糖尿病两类,分类结果分析得出的分类规则是一系列对属性数值区间的规约,将这些规则应用于下一步的分级定义当中;
K-means算法可以对数据集进行无标签的聚类分析;针对仅包含非糖尿病实例参数的数据集,使用K-means算法进行聚类,将K值设为3,结果生成三个属于不同范围内的类别;通过将结果与现有糖尿病预警分级标准以及上一步生成的若干规则进行对比分析,分别针对高风险、低风险和无风险三个级别得出有实际效用的预警分级规则。
CN201710665605.6A 2017-08-07 2017-08-07 一种基于机器学习的2型糖尿病预测预警方法 Pending CN107403072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710665605.6A CN107403072A (zh) 2017-08-07 2017-08-07 一种基于机器学习的2型糖尿病预测预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710665605.6A CN107403072A (zh) 2017-08-07 2017-08-07 一种基于机器学习的2型糖尿病预测预警方法

Publications (1)

Publication Number Publication Date
CN107403072A true CN107403072A (zh) 2017-11-28

Family

ID=60401961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710665605.6A Pending CN107403072A (zh) 2017-08-07 2017-08-07 一种基于机器学习的2型糖尿病预测预警方法

Country Status (1)

Country Link
CN (1) CN107403072A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847289A (zh) * 2018-07-27 2018-11-20 方蘅英 上尿路损害风险预测方法、装置与计算机可读存储介质
CN109243561A (zh) * 2018-08-10 2019-01-18 上海交通大学 治疗方案推荐系统的模型优化方法及系统
CN109243608A (zh) * 2018-09-11 2019-01-18 北京唐冠天朗科技开发有限公司 一种高危人群识别方法和系统
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN109979599A (zh) * 2017-12-27 2019-07-05 中国科学院沈阳自动化研究所 一种基于机器学习的糖尿病智能预测模型的建立方法
CN110136836A (zh) * 2019-03-27 2019-08-16 周凡 一种基于体检报告聚类分析的疾病预测方法
CN110379488A (zh) * 2019-07-12 2019-10-25 深圳市预防宝科技有限公司 一种对餐后高血糖进行预警的装置及方法
CN110634563A (zh) * 2019-06-21 2019-12-31 中国人民解放军总医院 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN110717543A (zh) * 2019-10-14 2020-01-21 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN110838366A (zh) * 2019-10-15 2020-02-25 平安科技(深圳)有限公司 一种患病风险的预测方法及装置
CN110853726A (zh) * 2019-12-04 2020-02-28 苏宁智能终端有限公司 一种按摩数据自动生成方法、装置、系统
CN110895669A (zh) * 2018-09-13 2020-03-20 大连大学 构建房颤预测决策树的方法
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
CN111223568A (zh) * 2019-04-18 2020-06-02 岭南师范学院 一种改进k-means聚类的糖尿病预警模型
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN111445991A (zh) * 2020-03-31 2020-07-24 深圳市恒泰生命科学技术发展有限公司 一种基于细胞转录组数据进行临床免疫监测的方法
CN111512381A (zh) * 2018-01-08 2020-08-07 国际商业机器公司 用于癌症概率的库筛选
CN111599477A (zh) * 2020-07-10 2020-08-28 吾征智能技术(北京)有限公司 一种基于饮食习惯预测糖尿病的模型构建方法和系统
WO2020211592A1 (zh) * 2019-04-18 2020-10-22 岭南师范学院 一种糖尿病风险预警系统
CN111951957A (zh) * 2020-08-14 2020-11-17 南京邮电大学 基于注意力机制与层次时间记忆的糖尿病数据异常检测方法
CN112086130A (zh) * 2020-08-13 2020-12-15 东南大学 一种基于测序和数据分析的肥胖风险预测装置及其预测方法
CN112102955A (zh) * 2020-09-07 2020-12-18 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法
CN112635064A (zh) * 2020-12-31 2021-04-09 山西三友和智慧信息技术股份有限公司 一种基于深度pca变换的早期糖尿病风险预测方法
CN112819027A (zh) * 2020-12-18 2021-05-18 北京工业大学 一种基于机器学习和相似度评分的分类方法
WO2021098842A1 (zh) * 2019-11-21 2021-05-27 四川省人民医院 基于机器学习的通过体检指标预测健康状态的方法
CN113014643A (zh) * 2021-02-24 2021-06-22 南京中兴维先信息技术有限公司 一种利用急救大数据的重大突发事件智能监测预警系统
WO2021179514A1 (zh) * 2020-03-07 2021-09-16 华中科技大学 一种基于人工智能的新型冠状病毒患者病况分类系统
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
CN113539470A (zh) * 2020-04-14 2021-10-22 郑州大学第一附属医院 一种糖尿病肾病及非糖尿病性肾脏疾病鉴别诊断预测模型及构建方法
CN114530228A (zh) * 2022-01-28 2022-05-24 广东工业大学 基于平滑处理及融合的血糖预测方法、系统及医疗设备
CN115346665A (zh) * 2022-10-19 2022-11-15 南昌大学第二附属医院 视网膜病变发病风险预测模型的构建方法、系统及设备
WO2023076121A1 (en) * 2021-10-27 2023-05-04 Dexcom, Inc. Disease prediction using analyte measurement features and machine learning
CN116361351A (zh) * 2022-12-01 2023-06-30 重庆科创职业学院 一种用于工业设备健康管理的数据挖掘方法
TWI808785B (zh) * 2022-06-10 2023-07-11 英業達股份有限公司 驗證機器學習的資料拆分系統及其方法
CN117373656A (zh) * 2023-10-30 2024-01-09 北京理工大学 一种基于异构数据的糖尿病弱监督分类方法
CN118072960A (zh) * 2024-04-18 2024-05-24 浙江省肿瘤医院 一种用于预测头颈肿瘤放疗后并发恶液质的方法
US11996195B2 (en) 2020-02-20 2024-05-28 Acer Incorporated Training data processing method and electronic device

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979599A (zh) * 2017-12-27 2019-07-05 中国科学院沈阳自动化研究所 一种基于机器学习的糖尿病智能预测模型的建立方法
CN111512381B (zh) * 2018-01-08 2024-03-29 国际商业机器公司 用于癌症概率的库筛选
CN111512381A (zh) * 2018-01-08 2020-08-07 国际商业机器公司 用于癌症概率的库筛选
CN108847289A (zh) * 2018-07-27 2018-11-20 方蘅英 上尿路损害风险预测方法、装置与计算机可读存储介质
CN109243561A (zh) * 2018-08-10 2019-01-18 上海交通大学 治疗方案推荐系统的模型优化方法及系统
CN109243561B (zh) * 2018-08-10 2020-07-28 上海交通大学 治疗方案推荐系统的模型优化方法及系统
CN109243608A (zh) * 2018-09-11 2019-01-18 北京唐冠天朗科技开发有限公司 一种高危人群识别方法和系统
CN110895669A (zh) * 2018-09-13 2020-03-20 大连大学 构建房颤预测决策树的方法
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110136836A (zh) * 2019-03-27 2019-08-16 周凡 一种基于体检报告聚类分析的疾病预测方法
CN111223568B (zh) * 2019-04-18 2024-03-26 岭南师范学院 一种改进k-means聚类的糖尿病预警模型
WO2020211592A1 (zh) * 2019-04-18 2020-10-22 岭南师范学院 一种糖尿病风险预警系统
CN111223568A (zh) * 2019-04-18 2020-06-02 岭南师范学院 一种改进k-means聚类的糖尿病预警模型
CN111223569A (zh) * 2019-04-25 2020-06-02 岭南师范学院 一种基于特征权重的lars糖尿病预测方法
CN110634563A (zh) * 2019-06-21 2019-12-31 中国人民解放军总医院 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN110379488A (zh) * 2019-07-12 2019-10-25 深圳市预防宝科技有限公司 一种对餐后高血糖进行预警的装置及方法
CN110717543A (zh) * 2019-10-14 2020-01-21 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN110717543B (zh) * 2019-10-14 2023-09-19 北京工业大学 基于样本分布统计检验的双窗口概念漂移检测方法
CN110838366A (zh) * 2019-10-15 2020-02-25 平安科技(深圳)有限公司 一种患病风险的预测方法及装置
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
WO2021098842A1 (zh) * 2019-11-21 2021-05-27 四川省人民医院 基于机器学习的通过体检指标预测健康状态的方法
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
CN110853726A (zh) * 2019-12-04 2020-02-28 苏宁智能终端有限公司 一种按摩数据自动生成方法、装置、系统
US11996195B2 (en) 2020-02-20 2024-05-28 Acer Incorporated Training data processing method and electronic device
WO2021179514A1 (zh) * 2020-03-07 2021-09-16 华中科技大学 一种基于人工智能的新型冠状病毒患者病况分类系统
CN111445991A (zh) * 2020-03-31 2020-07-24 深圳市恒泰生命科学技术发展有限公司 一种基于细胞转录组数据进行临床免疫监测的方法
CN113539470A (zh) * 2020-04-14 2021-10-22 郑州大学第一附属医院 一种糖尿病肾病及非糖尿病性肾脏疾病鉴别诊断预测模型及构建方法
CN111599477A (zh) * 2020-07-10 2020-08-28 吾征智能技术(北京)有限公司 一种基于饮食习惯预测糖尿病的模型构建方法和系统
CN112086130A (zh) * 2020-08-13 2020-12-15 东南大学 一种基于测序和数据分析的肥胖风险预测装置及其预测方法
CN111951957A (zh) * 2020-08-14 2020-11-17 南京邮电大学 基于注意力机制与层次时间记忆的糖尿病数据异常检测方法
CN111951957B (zh) * 2020-08-14 2022-08-02 南京邮电大学 基于注意力机制与层次时间记忆的糖尿病数据异常检测方法
CN112102955A (zh) * 2020-09-07 2020-12-18 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN112102955B (zh) * 2020-09-07 2024-03-15 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN112185585A (zh) * 2020-11-03 2021-01-05 浙江大学滨海产业技术研究院 一种基于代谢组学的糖尿病早期预警方法
CN112819027B (zh) * 2020-12-18 2024-05-28 北京工业大学 一种基于机器学习和相似度评分的分类方法
CN112819027A (zh) * 2020-12-18 2021-05-18 北京工业大学 一种基于机器学习和相似度评分的分类方法
CN112635064A (zh) * 2020-12-31 2021-04-09 山西三友和智慧信息技术股份有限公司 一种基于深度pca变换的早期糖尿病风险预测方法
CN113014643A (zh) * 2021-02-24 2021-06-22 南京中兴维先信息技术有限公司 一种利用急救大数据的重大突发事件智能监测预警系统
CN113488166A (zh) * 2021-07-28 2021-10-08 联仁健康医疗大数据科技股份有限公司 糖尿病数据分析模型训练及数据管理方法、装置和设备
WO2023076121A1 (en) * 2021-10-27 2023-05-04 Dexcom, Inc. Disease prediction using analyte measurement features and machine learning
CN114530228A (zh) * 2022-01-28 2022-05-24 广东工业大学 基于平滑处理及融合的血糖预测方法、系统及医疗设备
CN114530228B (zh) * 2022-01-28 2022-09-27 广东工业大学 基于平滑处理及融合的血糖预测方法、系统及医疗设备
TWI808785B (zh) * 2022-06-10 2023-07-11 英業達股份有限公司 驗證機器學習的資料拆分系統及其方法
CN115346665B (zh) * 2022-10-19 2023-03-10 南昌大学第二附属医院 视网膜病变发病风险预测模型的构建方法、系统及设备
CN115346665A (zh) * 2022-10-19 2022-11-15 南昌大学第二附属医院 视网膜病变发病风险预测模型的构建方法、系统及设备
CN116361351A (zh) * 2022-12-01 2023-06-30 重庆科创职业学院 一种用于工业设备健康管理的数据挖掘方法
CN116361351B (zh) * 2022-12-01 2024-05-17 重庆科创职业学院 一种用于工业设备健康管理的数据挖掘方法
CN117373656A (zh) * 2023-10-30 2024-01-09 北京理工大学 一种基于异构数据的糖尿病弱监督分类方法
CN117373656B (zh) * 2023-10-30 2024-06-21 北京理工大学 一种基于异构数据的糖尿病弱监督分类方法
CN118072960A (zh) * 2024-04-18 2024-05-24 浙江省肿瘤医院 一种用于预测头颈肿瘤放疗后并发恶液质的方法

Similar Documents

Publication Publication Date Title
CN107403072A (zh) 一种基于机器学习的2型糖尿病预测预警方法
CN109119167A (zh) 基于集成模型的脓毒症死亡率预测系统
Silva et al. Rating organ failure via adverse events using data mining in the intensive care unit
CN108648827A (zh) 心脑血管疾病风险预测方法及装置
CN105956382A (zh) 基于改进型cart决策树与模糊朴素贝叶斯组合模型的中医体质优化分类方法
CN107358014A (zh) 一种生理数据的临床前处理方法及系统
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及系统
CN107194138A (zh) 一种基于体检数据建模的空腹血糖预测方法
Kangra et al. Comparative analysis of predictive machine learning algorithms for diabetes mellitus
CN109243620A (zh) 基于血药浓度监测的药效优化方法及装置
CN110097928A (zh) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
Juraev et al. Multilayer dynamic ensemble model for intensive care unit mortality prediction of neonate patients
Shetty et al. A tool for diabetes prediction and monitoring using data mining technique
Fakih et al. An efficient prediction of diabetes using artificial neural networks
Wenxin Heart disease prediction model based on model ensemble
Thaiparnit et al. A classification for patients with heart disease based on hoeffding tree
Papageorgiou et al. Unsupervised Learning in NBA Injury Recovery: Advanced Data Mining to Decode Recovery Durations and Economic Impacts
KR101255477B1 (ko) 사상체질 분류방법
CN111883258A (zh) 一种构建ohss分度分型预测模型的方法
Theodoraki et al. Innovative data mining approaches for outcome prediction of trauma patients
Sharma Data Mining Prediction Techniques in Health Care Sector
CN114093503A (zh) 基于LightGBM优化的死亡率预测方法和系统
CN114417969A (zh) 基于细粒度迁移的跨场景认知能力评估方法及系统
Cui et al. Research on diabetes risk prediction model at early stage based on machine learning
CN113140320A (zh) 一种用于先心病手术患儿术后远期营养不良的预测模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128