CN107194138B - 一种基于体检数据建模的空腹血糖预测方法 - Google Patents

一种基于体检数据建模的空腹血糖预测方法 Download PDF

Info

Publication number
CN107194138B
CN107194138B CN201610065891.8A CN201610065891A CN107194138B CN 107194138 B CN107194138 B CN 107194138B CN 201610065891 A CN201610065891 A CN 201610065891A CN 107194138 B CN107194138 B CN 107194138B
Authority
CN
China
Prior art keywords
physical examination
data
blood glucose
feature
fasting blood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610065891.8A
Other languages
English (en)
Other versions
CN107194138A (zh
Inventor
纪俊
于滨
肖文翔
王嵩
朱易辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Welline Pangu Technology Co ltd
Original Assignee
Beijing Welline Pangu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Welline Pangu Technology Co ltd filed Critical Beijing Welline Pangu Technology Co ltd
Priority to CN201610065891.8A priority Critical patent/CN107194138B/zh
Publication of CN107194138A publication Critical patent/CN107194138A/zh
Application granted granted Critical
Publication of CN107194138B publication Critical patent/CN107194138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于体检数据建模的空腹血糖预测方法,其包括以下步骤,数据选择与处理;包括从海量体检数据中提取关键信息以及对数据的清洗和转换;数据集的建立;对处理后的数据进行特征构建,每行表示为一个人的体检记录,每列表示一项体检项特征,得到包含所有特征集合的数据集dataset1;重要特征选取;按以下步骤进行:血糖预测模型构建与评价。本发明将大量的人员的体检数据进行系统的分析、建模,并给出模型评价方法,通过该模型能够基于大数据体检项数据与血糖的相关性对病人未来的血糖状况有效预测和判断,使在发病前期进行有效的的预防干预或阻断、延缓成为可能,为达到最佳治疗效果提供依据。

Description

一种基于体检数据建模的空腹血糖预测方法
技术领域
本发明涉及空腹血糖预测技术领域,具体地说,涉及一种基于体检数据建模的空腹血糖预测方法。
背景技术
近年来,随着中国患糖尿病的人数的持续攀升,糖尿病已成为导致国民死亡的排名第三的疾病,引起人们对空腹血糖的有效检测及合理预测技术的深入研究。空腹血糖,是指在隔夜空腹(至少8~10小时未进任何食物,饮水除外)后,早餐前采的血,所检定的血糖值,为糖尿病最常用的检测指标。
目前,血糖预测模型的建立多采用基于数据驱动的方法。已存在的预测模型可以划分为线性模型,其典型代表是基于最小二乘的自回归模型,非线性模型,以神经网络方法为其典型代表。
但是,上述方法通常只是根据历史血糖数据以及外源输入预测未来的血糖变化情况,未考虑其它的健康指标参数,预测结果准确性与可靠性不能保证。研究表明,人类体检中的尿糖、尿素、肌酐值、脂肪肝、AST/ALT、血清天门冬氨酸氨基转移酶、血清丙氨酸氨基转移酶、红细胞分布宽度、红细胞比积等很多体检指标值与血糖存在广泛的相关性,其检测数据对于血糖的预测具有重要的指示作用。
人类健康体检数据普遍存储于健康管理类机构,这些数据各自独立地存储于健康管理系统中,数据并没有得到有效的挖掘与利用,因此开发一种基于体检大数据对空腹血糖进行有效预测的方法具有重要的意义。
发明内容
为解决以上问题,本发明提供的一种基于体检数据建模的空腹血糖预测方法,其具体的技术方案如下:
一种基于体检数据建模的空腹血糖预测方法,其包括以下步骤:
步骤1:数据选择与处理;包括从海量体检数据中提取关键信息以及对数据的清洗和转换;
步骤2:数据集的建立;对处理后的数据进行特征构建,每行表示为一个人的体检记录,每列表示一项体检项特征,得到包含所有特征集合的数据集dataset1;
步骤3:重要特征选取;按以下步骤进行:
(3.1)利用随机森林方法对特征集合中的每一个特征计算其特征重要性,并据此计算体检项重要性得分;
(3.2)结合序列后向选择算法:从dataset1全部特征集合s开始,对s对应训练集进行建模,并计算其在测试集上AUC,然后去掉得分最低的体检项对应特征,建模并计算在测试集上AUC,直至特征集合s中只含有一个体检项,选取具有最大AUC值的特征集合为最优特征集合optimalset;
步骤4:血糖预测模型构建与评价,其步骤如下:
(4.1)使用随机划分的方式,将最优特征集合optimalset对应的最优数据集optimaldataset按比例分割为训练集Xtrain和测试集Xtest;
(4.2)使用包含大量决策树的随机森林拟合训练集Xtrain,每棵决策树使用数据由原数据随机抽取,决策树生成过程中,每个分割节点从全部特征集合中随机选择p个特征,从中选择最佳划分特征。随机森林生成后,对血糖预测值是各决策树血糖预测值的均值,此时,血糖预测的回归模型建立完毕;
(4.3)根据模型对测试集Xtest进行预测,得到未来一年的空腹血糖预测值,以该值减体检者上一年的空腹血糖值,差值为正说明预测该体检者空腹血糖上升,差值为负说明该体检者空腹血糖下降,得到关于体检者空腹血糖变化的预测,空腹血糖变化上升表示为1,下降表示为0,差值表示预测得分;
(4.4)根据测试集,使用体检者第四年空腹血糖减第三年空腹血糖,得到体检者真实空腹血糖变化,将其转化为0-1表示;
(4.5)根据预测得分和体检者真实数据变化的0-1表示,通过ROC曲线对应的AUC值,对模型性能进行评价。
步骤5:空腹血糖变化预测的概率化打分:
(5.1)将最优特征集合optimalset对应的最优数据集optimaldataset划分为训练集、测试集、验证集三部分;
(5.2)使用训练集结合随机森林方法建立空腹血糖值预测模型,使用测试集计算不同概率化打分对应阈值,预测验证集的概率化打分;
(5.3)结合验证集概率化打分,选定概率化得分80分以上体检者为血糖变化概率较大人群,基于选定的阈值,验证模型表现。
其中,步骤1中数据的清洗和转换包括:对残缺、错误数据,将其值置为空;对重复数据进行删除;格式不标准数据,通过数值编码方式统一处理为数值格式。
进一步,步骤(3.2)中,按如下步骤进行:
A.使用体检项重要性计算过程中得到的体检项重要性得分,对体检项按照得分高低进行重要性排序;
B.根据全部特征s对应数据集,使用随机森林训练模型,并计算相应的AUC值;
C.从体检项集合中,去掉得分最低体检项对应的特征,使用余下特征对应数据集训练随机森林模型,并计算相应的AUC值;
D.重复步骤C,直至体检项集合只包含一个体检项;
E.根据上述步骤,得到对应最优AUC值的体检项集合,进一步得到最优特征集合optimalset;
F.根据以上过程得到的最优特征集合optimalset,对应数据集可以得到最优模型。
进一步,步骤1中提取的关键信息为不同体检者不少于三年的体检信息。
进一步,步骤1中提取的关键信息包括人口统计学信息、血常规检测、血生化检测、尿常规检测、内科、心电图科目下的一种或多种信息。
进一步,步骤1中提取的关键信息包括:
空腹血糖、年龄、腰围、体重、身腰比、体重指数、尿糖、尿素、肌酐、脂肪肝、AST/ALT、血清天门冬氨酸氨基转移酶、血清丙氨酸氨基转移酶、红细胞分布宽度、红细胞比积、平均血红蛋白浓度、血清甘油三酯、血检-红细胞、红细胞平均体积、身高、血清低密度脂蛋白胆固醇、血清高密度脂蛋白胆固醇、中性粒细胞总数、平均血红蛋白含量、血液比重、中性粒细胞百分数、收缩压、淋巴细胞百分数、血检-白细胞、血小板分布宽度、舒张压、性别、淋巴细胞总数、血小板数、尿酸碱度、血清总胆固醇、平均血小板体积、尿酮体、尿检-红细胞、裂隙灯、双下肢水肿、亚硝酸盐、尿胆红素、心电图、心率、尿检-白细胞、尿胆原、尿蛋白。
本发明所提供的一种基于体检数据建模的空腹血糖预测方法,具有以下优点:
本发明将大量的人员的体检数据进行系统的分析、建模,并给出模型评价方法,通过该模型能够基于大数据体检项数据与空腹血糖的相关性对病人未来的空腹血糖状况有效预测和判断,使在发病前期进行有效的的预防干预或阻断、延缓成为可能,为达到最佳治疗效果提供依据。
附图说明
图1为本发明一种基于体检数据建模的空腹血糖预测方法的工作流示意图;
图2为本发明体检数据建模最优特征选择结果;
图3为本发明特征选择后三年预测一年模型ROC曲线。
具体实施方式
下面结合附图及本发明的实施例对本发明的一种基于体检数据建模的空腹血糖预测方法作进一步详细的说明。
本发明主要基于大量体检数据进行建模,基于体检数据库中存在的四年体检数据利用三年体检数据对未来一年空腹血糖进行预测,并对预测结果进行概率化描述。该发明包括针对体检数据进行建模的处理流程和进行空腹血糖预测、分析、概率化等重要方法和结果。该发明结合了体检数据和数据挖掘方法,是医疗数据与大数据分析方法结合的一种创新,该发明在一定程度上填补了国内医疗数据研究的空白,在利用体检数据进行空腹血糖预测分析方面具有开拓性。
该发明使用体检数据来源于体检数据库中的N年体检数据,数据的选择还包括用于特征构建的信息提取,主要有体检者人口统计学信息和体检项信息,体检项主要包含如下几类:血常规检测、血生化检测、尿常规检测、内科、心电图等。体检项选取的原则是选择参加体检人数较多的体检项,进而产生较多的特征,以利用和发现与血糖相关的潜在因素。在以后的描述中,将这些体检项与人口统计学信息,我们都使用体检项来描述。如图1所示,具体步骤如下:
1.建立大表
体检数据库中存在三个有用的表:用户信息表,包含用户ID和用户每次体检的标识号;体检信息表,包含用户体检ID,个人信息,体检标识号,其中用户体检ID中包含用户体检日期的信息;体检数据表,包含用户每项体检结果,可以通过用户体检ID与体检信息表关联。
大表建立过程如下:
连接三个表,生成一个新表一,新表中每行表示用户在某天进行了某项体检。
从新表一按日期和体检项选择记录,生成新表二。
对新表二中数据进行清洗、转换,新表二中数据基本上处理为标准形式。
在新表二中,选择用户ID、年龄、性别、体检项名称、体检值生成数据框,从中分离出血压记录将其划分为两列:舒张压和收缩压。将体检记录按一年为单位分成4个小表(2011-2014),将各表体检项转化为列形式,表中每行表示一个用户参加体检各体检项结果。同样方式处理血压数据,并按照相同年份,血压表左连接到小表中。
以新表二中所有用户ID的集合创建数据框,该数据框只有用户ID一列,将小表按年份依次使用左连接到数据框中。数据框中每一行表示一个用户四年体检记录,若用户某年未体检,则相应记录为空。
若用户最后一年的体检记录为空,则使该用户之前的体检记录向后移动一年的长度,直至最后一年体检记录不为空。至此,大表建立完成。
2.使用大表建立数据集
对于大表,生成全局特征过程如下:取四年身高平均值作为体检者身高特征,并删除每年身高特征;取第三年性别作为体检者性别,并删除每年性别特征;取第三年年龄作为体检者年龄,并删除每年年龄特征;取最后一年空腹血糖作为响应变量,去掉最后一年其余特征。此外,为表征体检者的中心肥胖性,我们计算了每年身高与腰围的比值作为每年特征。至此,数据集dataset1建立完毕。
3.重要特征选取
重要特征选取包括两个方面:计算体检项重要性得分、特征选择。首先,利用随机森林对特征集合中的每一个特征计算其特征重要性,根据特征重要性求得每个体检项的特征重要性,选择具有最佳表现的体检项集合对应特征集合作为最优的特征集合。
本发明中,特征重要性的确定,基于发明采用数据集和随机森林算法,该算法原理为构建包含多棵决策树的随机森林,每颗决策树都有分类或回归的功能,组合每棵树的预测结果生成最终的预测结果。特征重要性的计算主要通过对某一特征对应的特征值进行重新排列,放入决策树中,若预测的准确率降低,就说明该特征重要,统计特征在每棵树中的重要性,就生成该特征的重要性得分。
随机森林在模型拟合完毕后,可以计算特征的重要性得分,给出相应特征的重要性数值,数值越大表明该特征越重要。根据随机森林的特征重要性得分,可以用来计算体检项的重要程度。具体步骤如下:
1)将dataset1分割为训练集Xtrain和测试集Xtest,比例为2:1
2)使用数据集dataset1拟合随机森林,得到特征重要性得分
3)局部特征在每年体检中都会出现,因此对于对应局部特征的体检项,我们求平均值,以此来表示该体检项的重要性得分
4)在特征选择阶段,我们结合序列后向选择(SBS,Sequential BackwardSelection)算法:从dataset1全部特征集合s开始,每次从特征集合s中,去掉重要性得分最低的体检项对应的特征,寻找到对应模型最优的特征集合optimalset。算法具体流程如下:
1)使用体检项重要性计算过程中得到的体检项重要性得分,对体检项按照得分高低进
行重要性排序
2)根据全部特征s对应数据集,使用随机森林训练模型,并计算相应的AUC值。
3)从体检项集合中,去掉得分最低体检项对应的特征,使用余下特征对应数据集训练随机森林模型,并计算相应的AUC值。
4)重复步骤3),直至体检项集合只包含一个特征。
5)根据上述步骤,得到对应最优AUC值的体检项集合,进一步可得到最优特征集合optimalset。
6)根据以上过程得到的最优特征集合optimalset,对应数据集可以得到最优模型。
4.使用随机森林建模
1)将最优特征集合optimalset对应最优数据集optimaldataset分割为训练集Xtrain和测试集Xtest,比例为2:1
2)使用包含3000棵决策树的随机森林拟合训练集Xtrain,每棵决策树使用数据由原数据随机抽取,决策树生成过程中,每个分割节点从全部特征中随机选择p个特征,从中选择最佳划分特征。随机森林生成后,空腹血糖预测值是各决策树空腹血糖预测值的均值,此时,空腹血糖预测的回归模型建立完毕;
3)此时,可以根据模型对测试集Xtest进行预测,得到未来一年的空腹血糖预测值,以该值减体检者上一年的空腹血糖值,差值为正说明预测该体检者空腹血糖上升,差值为负说明该体检者空腹血糖下降,得到关于体检者空腹血糖变化的预测,空腹血糖变化上升表示为1,下降表示为0,差值表示预测得分。
4)根据测试集,使用体检者第四年空腹血糖减第三年空腹血糖,可以得到体检者真实空腹血糖变化,同样的,我们将其转化为0-1表示。
5)根据预测得分和体检者真实数据变化的0-1表示,可以通过ROC曲线对应的AUC值,对模型性能进行评价。
5.对预测结果进行概率化打分
根据建立的随机森林模型,可以得到关于体检者未来一年的空腹血糖值得预测,使用空腹血糖预测值减其上一年的空腹血糖值,得到体检者空腹血糖变化得分。将数据集划分为3部分:训练集、测试集、验证集,其中训练集用于生成预测模型,测试集用于构建空腹血糖变化得分的分布,验证集用于验证概率化打分效果。实验具体步骤如下:
1)将最优数据集optimaldataset划分为3部分:训练集、测试集、验证集。比例为2:1:1。
2)使用训练集和随机森林建立空腹血糖值的回归预测模型,对测试集中每个体检者给出其空腹血糖预测值,将空腹血糖值减其上一年的空腹血糖值,得到体检者的空腹血糖变化得分。
3)空腹血糖变化得分按照升序排列,选取不同的阈值,当空腹血糖变化得分大于某一阈值时,计算空腹血糖变化得分大于该阈值空腹血糖上升人数比例。选定阈值p,空腹血糖变化得分大于p的人群中空腹血糖上升人数比例大于80%,此时,得到空腹血糖变化得分大于p的体检者有80%以上的概率上升,空腹血糖上升得分在80分以上。同样的,对于空腹血糖下降预测结果,我们可以使用类似的方式进行概率化打分。
4)对验证集进行相关空腹血糖值预测,计算其空腹血糖变化得分,并根据空腹血糖变化得分计算出空腹血糖概率化得分。对于大于80分体检者,预测其空腹血糖未来一年会上升(下降),小于80分体检者,预测其空腹血糖未来一年回下降(上升)。
概率化打分计算具体过程:根据测试集中空腹血糖上升变化得分,计算一系列的阈值p1、p2、p3…、p10,对应打分为10、20、30、…、100,对于验证集中体检者,计算其空腹血糖上升变化得分,该得分必定落在某个区间[pi,p(i+1)],根据空腹血糖上升变化得分值和pi、p(i+1)对应概率化打分,可线性计算出空腹血糖上升变化得分对应概率化打分。同理,可计算空腹血糖下降变化的概率化打分。
实施例1:
为了验证本发明的一种基于体检数据建模的空腹血糖预测方法的有效性,本实施例选取时间范围为2011.1.1-2014.12.31体检数据库中的体检数据,这四年内数据较完整、数据量比较大,容易找出连续多年体检人群,可以利用更多的有效信息进行空腹血糖预测。
1、数据处理:
根据本发明所述方法构建完成的数据集具有形式为:每行表示为一个人的体检记录,每列表示其一个体检项。特征包括两个方面:全局特征和局部特征,全局特征为体检者自身不会改变的特征,如:身高、性别等;局部特征为体检者每年体检都可能发生变化的体检项,如:第一年的空腹血糖、血压、腰围,第二年的空腹血糖、血压、腰围,其中每年的一个体检项都对应一个特征。数据集的响应变量(算法需要预测的值)为最后一年空腹血糖。完成数据处理阶段工作,最终生成的数据集具有形式如表格2描述,该数据有7109行,139列,其中,135列对应局部特征的三年体检,4列对应全局特征的检查项(身高、年龄、性别、最后一年空腹血糖)。其中,前138列变量为特征集合,最后一列变量(最后一年空腹血糖)为响应变量。如下表所示:
Figure GDA0004140993090000081
2、重要特征选取:
得到对应最优AUC值的体检项集合及最优的特征集合对应的AUC值如图2所示,图2中,每一个点代表一个特征集合,根据对应的AUC值,找到最优特征集合optimalset。对体检项的打分结果如下表所示。
Figure GDA0004140993090000082
Figure GDA0004140993090000091
3、采用测试集对模型进行评价
可以根据模型对测试集Xtest进行预测,得到未来一年的空腹血糖预测值,以该值减体检者上一年的空腹血糖值,差值为正说明预测该体检者空腹血糖上升,差值为负说明该体检者空腹血糖下降,得到关于体检者空腹血糖变化的预测,空腹血糖变化上升表示为1,下降表示为0,差值表示预测得分。根据测试集,使用体检者第四年空腹血糖减第三年空腹血糖,可以得到体检者真实空腹血糖变化,同样的,我们将其转化为0-1表示。根据预测得分和体检者真实数据变化的0-1表示,可以通过ROC曲线对应的AUC值,对模型性能进行评价。评价结果如图3所示。
4、对预测结果进行概率化打分
验证集结果如下表所示,本实验中,验证集包括1185人。
Figure GDA0004140993090000101
附注:关于分类问题一些指标解释,对于二分类问题,定义两个类别分别为正类和负类,正类中的每一个对象称为正实例,负类中的每一个对象称为负实例。通常,我们将我们感兴趣的类别认为是正类,比如在预测空腹血糖上升时,空腹血糖上升的记录为正类;而预测空腹血糖下降时是,空腹血糖下降的记录为正类。使用分类模型对测试样本进行预测,会有四种情况,如果一个实例是正类并被预测为真正类(True positive),如果实例是负类被预测为正类,称之为假正类(False postive)。相应的,如果实例是负类被预测成负类,称之为真负类(True negative),正实例被预测成负类则为假负类(False negative)。
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类的数目;
TN:负实例预测为负类的数目;
敏感性(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN)
特异性(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP)
阳性预测值(Positive Predictive Value,PPV):预测为正类的实例中,正实例占的比例,即TP/(TP+FP)。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (6)

1.一种基于体检数据建模的空腹血糖预测方法,其特征在于:其包括以下步骤:
步骤1:数据选择与处理;包括从海量体检数据中提取关键信息以及对数据的清洗和转换;
步骤2:数据集的建立;对处理后的数据进行特征构建,每行表示为一个人的体检记录,每列表示一项体检项特征,得到包含所有特征集合的数据集dataset1;
步骤3:重要特征选取;按以下步骤进行:
(3.1)利用随机森林方法对特征集合中的每一个特征计算其特征重要性,并据此计算体检项重要性得分;
(3.2)结合序列后向选择算法:从dataset1全部特征集合s开始,对s对应训练集进行建模,并计算其在测试集上AUC,然后去掉得分最低的体检项对应特征,建模并计算在测试集上AUC,直至特征集合s中只含有一个体检项,选取具有最大AUC值的特征集合为最优特征集合optimalset;
步骤4:血糖预测模型构建与评价,其步骤如下:
(4.1)使用随机划分的方式,将最优特征集合optimalset对应的最优数据集optimaldataset
按比例分割为训练集Xtrain和测试集Xtest;
(4.2)使用包含大量决策树的随机森林拟合训练集Xtrain,每棵决策树使用数据由原数据随机抽取,决策树生成过程中,每个分割节点从全部特征集合中随机选择p个特征,从中选择最佳划分特征;
随机森林生成后,血糖预测值是各决策树血糖预测值的均值,此时,血糖预测的回归模型建立完毕;
(4.3)根据模型对测试集Xtest进行预测,得到未来一年的空腹血糖预测值,以该值减体检者上一年的空腹血糖值,差值为正说明预测该体检者空腹血糖上升,差值为负说明该体检者空腹血糖下降,得到关于体检者空腹血糖变化的预测,空腹血糖变化上升表示为1,下降表示为0,差值表示预测得分;
(4.4)根据测试集,使用体检者第四年空腹血糖减第三年空腹血糖,得到体检者真实空腹血糖变化,将其转化为0-1表示;
(4.5)根据预测得分和体检者真实数据变化的0-1表示,通过ROC曲线对应的AUC值,对模型性能进行评价;
步骤5:空腹血糖变化预测的概率化打分:
(5.1)将最优特征集合optimalset对应的最优数据集optimaldataset划分为训练集、测试集、验证集三部分;
(5.2)使用训练集结合随机森林方法建立空腹血糖值预测模型,使用测试集计算不同概率化打分对应阈值,预测验证集的概率化打分;
(5.3)结合验证集概率化打分,选定概率化得分80分以上体检者为血糖变化概率较大人群,基于选定的阈值,验证模型表现。
2.根据权利要求1所述的一种基于体检数据建模的空腹血糖预测方法,其特征在于:步骤1中数据的清洗和转换包括:对残缺、错误数据,将其值置为空;对重复数据进行删除;格式不标准数据,通过数值编码方式统一处理为数值格式。
3.根据权利要求1所述的一种基于体检数据建模的空腹血糖预测方法,其特征在于:步骤(3.2)中,按如下步骤进行:
A.使用体检项重要性计算过程中得到的体检项重要性得分,对体检项按照得分高低进行重要性排序;
B.根据全部特征s对应数据集,使用随机森林训练模型,并计算相应的AUC值;
C.从体检项集合中,去掉得分最低体检项对应的特征,使用余下特征对应数据集训练随机森林模型,并计算相应的AUC值;
D.重复步骤C,直至体检项集合只包含一个体检项;
E.根据上述步骤,得到对应最优AUC值的体检项集合,进一步得到最优的特征集合optimalset;
F.根据以上过程得到的最优特征集合optimalset,对应数据集可以得到最优模型。
4.根据权利要求1所述的一种基于体检数据建模的空腹血糖预测方法,其特征在于:步骤1中提取的关键信息为不同体检者不少于三年的体检信息。
5.根据权利要求4所述的一种基于体检数据建模的空腹血糖预测方法,其特征在于:步骤1中提取的关键信息包括人口统计学信息、血常规检测、血生化检测、尿常规检测、内科、心电图科目下的一种或多种信息。
6.根据权利要求5所述的一种基于体检数据建模的空腹血糖预测方法,其特征在于:步骤1中提取的关键信息包括:
空腹血糖、年龄、腰围、体重、身腰比、体重指数、尿糖、尿素、肌酐、脂肪肝、AST/ALT、血清天门冬氨酸氨基转移酶、血清丙氨酸氨基转移酶、红细胞分布宽度、红细胞比积、平均血红蛋白浓度、血清甘油三酯、血检-红细胞、红细胞平均体积、身高、血清低密度脂蛋白胆固醇、血清高密度脂蛋白胆固醇、中性粒细胞总数、平均血红蛋白含量、血液比重、中性粒细胞百分数、收缩压、淋巴细胞百分数、血检-白细胞、血小板分布宽度、舒张压、性别、淋巴细胞总数、血小板数、尿酸碱度、血清总胆固醇、平均血小板体积、尿酮体、尿检-红细胞、裂隙灯、双下肢水肿、亚硝酸盐、尿胆红素、心电图、心率、尿检-白细胞、尿胆原、尿蛋白。
CN201610065891.8A 2016-01-31 2016-01-31 一种基于体检数据建模的空腹血糖预测方法 Active CN107194138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610065891.8A CN107194138B (zh) 2016-01-31 2016-01-31 一种基于体检数据建模的空腹血糖预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610065891.8A CN107194138B (zh) 2016-01-31 2016-01-31 一种基于体检数据建模的空腹血糖预测方法

Publications (2)

Publication Number Publication Date
CN107194138A CN107194138A (zh) 2017-09-22
CN107194138B true CN107194138B (zh) 2023-05-16

Family

ID=59870562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610065891.8A Active CN107194138B (zh) 2016-01-31 2016-01-31 一种基于体检数据建模的空腹血糖预测方法

Country Status (1)

Country Link
CN (1) CN107194138B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10398389B1 (en) 2016-04-11 2019-09-03 Pricewaterhousecoopers Llp System and method for physiological health simulation
TWI678630B (zh) * 2018-01-16 2019-12-01 中央研究院 非侵入式估測hba1c與血糖值之系統與方法
CN109272001B (zh) * 2018-09-28 2021-09-03 深圳市飞点健康管理有限公司 尿检识别分类器的构造训练方法、装置及计算机设备
CN109378072A (zh) * 2018-10-13 2019-02-22 中山大学 一种基于集成学习融合模型的异常空腹血糖值预警方法
CN109524062A (zh) * 2018-10-26 2019-03-26 武汉工程大学 一种基于随机森林算法的离子浓度预测方法
CN110197706B (zh) * 2019-04-26 2021-08-27 深圳市宁远科技股份有限公司 一种基于sbs的层次化特征选择方法、系统及应用
JP7438693B2 (ja) * 2019-09-02 2024-02-27 キヤノンメディカルシステムズ株式会社 診療支援装置
WO2021098842A1 (zh) * 2019-11-21 2021-05-27 四川省人民医院 基于机器学习的通过体检指标预测健康状态的方法
CN112289435B (zh) * 2020-10-15 2022-10-14 浙江大学医学院附属妇产科医院 一种基于机器学习和体检数据的妊娠期糖尿病筛查系统
CN113892939A (zh) * 2021-09-26 2022-01-07 燕山大学 一种基于多特征融合的人体静息状态下呼吸频率监测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080300797A1 (en) * 2006-12-22 2008-12-04 Aviir, Inc. Two biomarkers for diagnosis and monitoring of atherosclerotic cardiovascular disease
EP2510116A2 (en) * 2009-12-09 2012-10-17 Aviir, Inc. Biomarker assay for diagnosis and classification of cardiovascular disease
TW201217788A (en) * 2010-10-28 2012-05-01 Tethys Bioscience Inc Method for determining risk of diabetes
JP5812333B2 (ja) * 2011-09-13 2015-11-11 学校法人 久留米大学 生死予測装置とその方法、生死予測プログラム及び記録媒体
CN102999686A (zh) * 2011-09-19 2013-03-27 上海煜策信息科技有限公司 一种健康管理系统及其实现方法
CN102930163A (zh) * 2012-11-01 2013-02-13 北京理工大学 一种2型糖尿病风险状态判定方法
CN103198211B (zh) * 2013-03-08 2017-02-22 北京理工大学 2型糖尿病发病危险因素对血糖影响的定量分析方法
CN103150611A (zh) * 2013-03-08 2013-06-12 北京理工大学 Ii型糖尿病发病概率分层预测方法
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN104665840B (zh) * 2015-03-02 2017-11-21 桂林麦迪胜电子科技有限公司 无创血糖测量方法及指端测量探头

Also Published As

Publication number Publication date
CN107194138A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107194138B (zh) 一种基于体检数据建模的空腹血糖预测方法
Kumar et al. Performance analysis of machine learning algorithms on diabetes dataset using big data analytics
CN104166667B (zh) 分析系统以及保健事业支援方法
Wu et al. An artificial intelligence approach to early predict non-ST-elevation myocardial infarction patients with chest pain
Nikam et al. Cardiovascular disease prediction using machine learning models
CN106339593A (zh) 基于医疗数据建模的川崎病分类预测方法
CN103678534A (zh) 结合粗糙集和模糊推理的生理信息与健康相关性获取方法
CN110046757B (zh) 基于LightGBM算法的门诊量预测系统及预测方法
CN106295229A (zh) 一种基于医疗数据建模的川崎病分级预测方法
WO2017165693A1 (en) Use of clinical parameters for the prediction of sirs
CN115050451B (zh) 败血症临床用药方案自动生成系统
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
Thaiparnit et al. A classification for patients with heart disease based on hoeffding tree
Murthy et al. Comparative analysis on diabetes dataset using machine learning algorithms
Vilas-Boas et al. Hourly prediction of organ failure and outcome in intensive care based on data mining techniques
Xao et al. Fasting blood glucose change prediction model based on medical examination data and data mining techniques
Sunge et al. Prediction diabetes mellitus using decision tree models
Uppin et al. Expert system design to predict heart and diabetes diseases
Suneetha et al. Fine tuning bert based approach for cardiovascular disease diagnosis
Thomas et al. Heart stroke prediction using machine learning: A comparative analysis and implementation
Hakim Performance Evaluation of Machine Learning Techniques for Early Prediction of Brain Strokes
Mareeswari et al. Predicting Chronic Kidney Disease Using KNN Algorithm
Liang et al. Prediction of patients with heart failure after myocardial infarction
Johnson Mortality prediction and acuity assessment in critical care

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20180115

Address after: 100089 room 602, fangzheng International Building, No. 52 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing welline Pangu Technology Co.,Ltd.

Address before: The city of Yanan city of Qingdao province Shandong three road 266000 No. 128 Building No. 4 702

Applicant before: QINGDAO RUIBANG INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant