CN109308545A

CN109308545A - 预测患糖尿病几率的方法、装置、计算机设备及存储介质

Info

Publication number: CN109308545A
Application number: CN201810956678.5A
Authority: CN
Inventors: 周南光; 董厶溢; 伍可; 陈依云
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-02-05
Anticipated expiration: 2038-08-21
Also published as: CN109308545B

Abstract

本申请涉及算法模型，揭示了预测患糖尿病几率的方法、装置、计算机设备及存储介质，其中，本申请提出一种预测患糖尿病几率的方法，包括：获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据；将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的；获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。本申请通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。

Description

预测患糖尿病几率的方法、装置、计算机设备及存储介质

技术领域

本申请涉及到大数据领域，特别是涉及到预测患糖尿病几率的方法、装置、计算机设备及存储介质。

背景技术

糖尿病是一组以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损，或两者兼有引起。糖尿病时长期存在的高血糖，导致各种组织，特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。现有的检测糖尿病的方法，需要分空腹检查血糖或饱腹检查血糖，不同检测条件下，检测数据相差较大，如检查者不真实的坚守相应的检测条件，根据检测结果推断的糖尿病病症会出现较大的误差，因此，现有技术还不能很好排除糖尿病样本检测条件对检测结果的不良影响。

申请内容

本申请的主要目的为提供一种预测患糖尿病几率的方法，旨在解决现有糖尿病测试条件苛刻，且无法排除样本检测条件对检测结果的不良影响的技术问题。

本申请提出一种预测患糖尿病几率的方法，包括：

获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据；

将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的；

获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

优选地，所述将所述体检指标数据输入到预先训练得到的患病几率检测模型中的步骤之前，包括：

将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练，其中特征排序根据多个维度的特征对预测患糖尿病的重要性进行排序得到；

判断是否达到终止迭代训练的预设条件；

若达到预设条件，则根据特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型，其中特征集为达到终止迭代训练的预设条件所需的各特征组成的集合。

优选地，所述判断是否达到终止迭代训练的预设条件的步骤，包括：

判断根据第一特征排序进行第一迭代是否达到预设训练精度；

若达到预设训练精度，则终止所述第一迭代，并输出所述第一迭代对应的第一特征集以及第一错误分类样本；

判断根据所述第一特征集进行样本划分的正确率是否达到预设值；

若达到预设值，则判定达到终止迭代训练的预设条件。

优选地，所述判断根据所述第一特征集进行样本划分的正确率是否达到预设值的步骤之后，包括：

若未达到预设值，将所述第一错误分类样本再次输入到所述GBDT模型中，根据第二特征排序进行第二迭代的模型训练；

判断所述第二迭代是否达到预设训练精度；

若达到预设训练精度，则终止所述第二迭代，并输出所述第二迭代对应的第二特征集以及第二错误分类样本；

判断根据所述第二特征集进行样本划分的正确率是否达到预设值；

若达到预设值，则判定达到终止迭代训练的预设条件。

优选地，所述根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤，包括：

汇总所述第一特征集、第二特征集，以及所述第一特征集和第二特征集、第三特征集中的各特征分别对应的各预测糖尿病几率；

通过计算各预测糖尿病几率的平均值，得到所述预测模型中计算患糖尿病的几率的预测方式。

优选地，所述将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练的步骤，包括：

获取以指定比例正负样本的血样数据组成的样本数据；

将所述样本数据分别按照一行指定特征信息、一行患糖尿病的状况标签的形式进行排列分布，得到预处理的体检指标数据的训练样本；

分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数；

按照各所述相关系数对各所述指定特征进行降序排列得到所述特征排序；

将所述预处理的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中，根据所述特征排序进行迭代式的模型训练。

优选地，所述分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数的步骤，包括：

在所述样本数据中分别查询各样本是否存在指定特征；

若不存在，则标记为缺失所述指定特征的第一样本；

若存在，则标记为第二样本，并纳入相关系数计算集合，以获取各所述第二样本分别对应所述指定特征的患糖尿病的第一相关系数；

获取所有所述第一相关系数的中位数；

将所述中位数设定为各所述第一样本分别对应所述指定特征的患糖尿病的相关系数。

优选地，所述根据特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤之后，包括：

获取各所述待预测用户分别反馈的糖尿病确诊信息；

通过各所述糖尿病确诊信息判断所述预测模型的准确度是否达到预设范围；

若否，则更新所述预处理的体检指标数据的训练样本，并将更新后的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中重新进行迭代训练。

本申请还提供了一种预测患糖尿病几率的装置，包括：

第一获取模块，用于获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据；

第一输入模块，用于将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的；

第二获取模块，用于获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述建模方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述建模方法的步骤。

本申请通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本申请的预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。本申请通过增加孕妇的遗传因素、基因检测和家庭患病背景的特征，更高效率、高精度地将预测模型用于预测孕妇等特定人群的患糖尿病的风险。

附图说明

图1本申请一实施例的预测患糖尿病几率的方法流程示意图；

图2本申请一实施例的预测患糖尿病几率的装置的结构示意图；

图3本申请一实施例的第一判断模块的结构示意图；

图4本申请另一实施例的第一判断模块的结构示意图；

图5本申请一实施例的得到模块的结构示意图；

图6本申请一实施例的第二输入模块的结构示意图；

图7本申请一实施例的计算单元的结构示意图；

图8本申请再一实施例的预测患糖尿病几率的装置的结构示意图；

图9本申请一实施例的计算机设备的内部结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的预测患糖尿病几率的方法，包括：

S1a：获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据。

S2a：将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的。

S3a：获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

本实施例通过将用户的用户信息以及体检指标数据，输入到检测模型中获得用户的糖尿病患病几率，由于通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本实施例的预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。

进一步地，本实施例的步骤S1a之前，包括：

S1：将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练，其中特征排序根据多个维度的特征对预测患糖尿病的重要性进行排序得到。

本实施例的体检指标数据中，包括待测用户的性别、年龄等身份信息，以及天门冬氨酸氨基转换酶、丙氨酸氨基转换酶、碱性磷酸酶、r-谷氨酰基转换酶、总蛋白、白蛋白、球蛋白、白球比例、甘油三酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、尿素、肌酐、尿酸、乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体、乙肝核心抗体白细胞计数、红细胞计数、血红蛋白、红细胞压积、红细胞平均体积、红细胞平均血红蛋白量、红细胞平均血红蛋白浓度、红细胞体积分布宽度、血小板计数、血小板平均体积、血小板体积分布宽度、血小板比积、中性粒细胞％、淋巴细胞％、单核细胞％、嗜酸细胞％、嗜碱细胞％等多种或全部的血样测试数据，本实施例优选包括上述全部的血样测试数据，以便提高模型训练的有效性。本实施例的预训练的体检指标数据的训练样本包括正负样本，以患有糖尿病的用户的体检指标数据为正样本，以未患有糖尿病的用户的体检指标数据为负样本，正负样本按照一定的比例进行组合形成训练样本，并通过对正负样本的数值进行处理后，形成预处理的体检指标数据的训练样本，以便能对预测模型进行正常训练。本实施例的GBDT模型(Gradient Boosting Decision Tree，梯度提升决策树)为一变种的决策树模型，由多棵决策树组成，主要通过迭代训练不断对训练模型产生的误差进行拟合迭代，以挖掘训练样本中更多的特征信息。本实施例的GBDT模型通过对特征重要性排序，进行体检指标数据的训练样本的切分，得到不同训练样本的患糖尿病水平，并作为预测模型，不仅考虑到预测性比较强的特征，对于重要性靠后的但是仍然具有预测能力的特征同样考虑在内，预测效果更佳。本实施例的指定参数组数值包括模型的深度参数、抽样比例参数、迭代次数参数等，其中，深度参数决定糖尿病预测中选取重要特征的个数，抽样比例参数决定迭代时抽取全部训练样本的个数，迭代次数参数决定模型训练过程中残差拟合的次数，比如对上一轮迭代时样本划分后产生误差的错误样本进行新一轮迭代训练。

S2：判断是否达到终止迭代训练的预设条件。

本实施例的预测糖尿病的GBDT训练模型在指定特征排序下的训练精度，是指在指定特征排序下，训练模型对样本类型的划分正确率达到预设值，比如划分正确的样本数量占比抽取样本总量的比例为60％及以上。

S3：若达到预设条件，则根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型，其中特征集为达到终止迭代训练的预设条件所需的各特征组成的集合。

本实施例终止对特征进行重新排序、对训练模型重新在新排序下的最重要的特征进行迭代训练的预设条件，为整个训练过程的样本划分正确率达到预设值，比如，95％；或整个迭代训练过程中对样本划分正确率无明显提升或分不出错误样本时，则终止整个迭代训练。

本实施例通过将血样数据输入到已训练好的预测模型中，进行患糖尿病的几率预测，相比于常规通过检测血液中的葡萄糖含量预测糖尿病的精准度更高，参照的特征指标更全面，测试要求条件更宽松，无需像常规通过葡萄糖含量预测糖尿病的测试条件，必须限定空腹测试条件下，葡萄糖含量大于6.7毫克/摩尔，餐后测试条件下，葡萄糖含量大于11.1毫克/摩尔才可判定为糖尿病。本实施例的测试条件无需区别空腹或餐后，更能满足人性化测试需求。且本实施例的血样测试数据也无需特定查验，待测用户的日常血常规数据即可得到相应的糖尿病预测分析，使得一个数据可得到多个预测效果，减少检测费用，且可最大范围的推广糖尿病的预测人群，为糖尿病的医疗诊断提供有力支撑。本实施例的预设范围为患糖尿病的几率的取值在0-1之间，具体的预设范围取值可以根据实际情况确定，比如，预设阈值为0.9。预测患糖尿病风险的几率处于较高水平的人群，比如预测患糖尿病的几率达到预设阈值0.9，患糖尿病的预测准确率可高达99％。本实施例通过将用户的性别、年龄、血常规数据以及肝脏的体检指标数据利用机器学习方法进行建模，形成预测糖尿病的预测模型，最终预测体检人患糖尿病的风险水平，以辅助医生进行临床判定，且进一步提高血常规体检数据的利用率，且提高对糖尿病的检测范围，实现更广泛人群的糖尿病监测和预防，具有实际应用价值。

进一步地，本实施例的步骤S2，包括：

S21：判断根据第一特征排序进行所述第一迭代是否达到预设训练精度。

本实施例的预测糖尿病的GBDT训练模型在指定特征排序下的训练精度，是指在指定特征排序下，训练模型对样本类型的划分正确率达到预设值，比如划分正确的样本数量占比抽取样本总量的比例为60％及以上。本实施例的第一特征排序为模型迭代训练前的某一此所有特征重要性的排序，“第一”仅为区别，不作限定，其他处相同，不赘述。

S22：若达到预设训练精度，则终止所述第一迭代，并输出所述第一迭代对应的第一特征集以及第一错误分类样本。

本实施例的第一特征排序为各血样数据中各特征对患糖尿病的重要性进行的排序，比如重要排序中年龄和性别的重要性分别排在按重要性降序排列的第一特征排序前列，即第一特征排序为年龄、性别等其他，本实施例的具体的各特征的重要性排序跟具体总样本的数据分布特征有关。比如年龄为最重要，则根据年龄特征进行划分样本，比如将样本划分为0-18岁，19-25岁…，计算得到各个年龄段样本的患糖尿病的几率。比如本实施例根据第一特征排序输出的第一特征集为年龄、性别，比如本实施例的训练精度为60％，第一次抽取样本的总量为1000，则第一错误分类样本为400个。通过提取第一迭代后样本划分产生的错误分类的样本(如正常人划入患病群体，患病人划入正常人群体)后，进行新一轮的模型迭代(重新计算新样本的特征重要性，排序后再继续划分样本)。

S23：判断根据所述第一特征集进行样本划分的正确率是否达到预设值。

本实施例通过第一迭代后输出的第一特征集，进行样本划分的正确率就达到了终止迭代训练的预设条件，比如，第一迭代训练过程的样本划分正确率达到预设值95％，则终止整个迭代训练。

S24：若达到预设值，则判定达到终止迭代训练的预设条件。

进一步地，本申请另一实施例的步骤S23之后，包括：

S25：若未达到预设值，将所述第一错误分类样本再次输入到所述GBDT模型中，根据第二特征排序进行第二迭代的模型训练。

本实施例通过第一迭代后输出的第一特征集，进行样本划分的正确率未达到了终止迭代训练的预设条件，则需要对第一迭代输出的400个第一错误分类样本，重新进行特征排序得到第二特征排序，比如，第二特征排序中白蛋白含量排在按重要性降序排列的第二特征排序的前列，则以血红蛋白含量为特征进行第二迭代。根据第一特征排序输出的第一特征集为年龄、性别。

S26：判断所述第二迭代是否达到预设训练精度。

本实施例的第二迭代的预设训练精度可以与第一迭代的预设训练精度相同，比如均为60％，也可为其他，比如70％或80％等。

S27：若达到预设训练精度，则终止所述第二迭代，并输出所述第二迭代对应的第二特征集以及第二错误分类样本。

比如本实施例的训练精度仍为60％，第一错误分类样本的总量为400，则第二迭代后输出的第二错误分类样本为160个。

S28:判断根据所述第二特征集进行样本划分的正确率是否达到预设值。

举例地，经过第二迭代输出的第二特征集，划分样本后输出的第二错误分类样本为160个，相比于整个训练样本的总量1000，正确率为84％，即840除以1000，乘以100％，未达到预设值95％。或整个迭代训练过程中对样本划分正确率无明显提升或分不出错误样本时，则终止整个迭代训练。

S29:若达到预设值，则判定达到终止迭代训练的预设条件。

本实施例通过一次对上一次迭代输出的错误样本进行新一轮的特征排序，并在新一轮的特征排序下，进行新一轮的迭代拟合训练。以便在训练模型迭代训练过程中，会不断更新每次迭代的特征重要性排序，比如，第一次迭代训练时，通过计算获得年龄、性别是最重要的特征，则根据上述两个特征的取值情况对第一迭代训练样本进行样本划分；对于第一迭代输出的分类错误的样本，通过计算获得血红蛋白含量变成最重要的特征，通过两次特征排序后的迭代训练，可获得训练样本对应群体的特征集合包括三个重要特征，即年龄、性别和血红蛋白含量。第三次迭代训练时，白蛋白的含量为最重要特征，并进行第三迭代训练。输出最后一次迭代训练对应的第三特征集，包括白蛋白含量。

进一步地，本实施例的步骤S3，包括：

S30:汇总所述第一特征集、第二特征集，以及所述第一特征集和第二特征集中的各特征分别对应的各预测糖尿病几率。

比如，本实施例通过两次次特征排序，分别对应的特征集汇总后，总特征集包括年龄、性别、血红蛋白含量、白蛋白含量。本申请其他实施例当训练模型迭代次数增加、深度加大时候，特征集合会更加复杂。

S31:通过计算各预测糖尿病几率的平均值，得到所述预测模型中计算患糖尿病的几率的预测方式。

本实施例通过将各特征分别对应的预测糖尿病几率的平均值，作为通过预测模型预测患糖尿病的几率的预测方式，不仅考虑了与患糖尿病的重要性最高的相关系数，也把排在后续顺序的其他特征也考虑在内，以提高预测准确度，以及训练模型对其他样本的迁移学习能力。

进一步地，本实施例的步骤S1，包括：

S10：获取以指定比例正负样本的体检指标数据组成的样本数据。

本实施例的正负样本的指定比例包括5％的患病者的体检指标数据对应的样本。

S11：将所述样本数据分别按照一行指定特征信息、一行患糖尿病的状况标签的形式进行排列分布，得到预处理的体检指标数据的训练样本。

本实施例通过将以特征信息为一行，患病状态为一行，分别将体检指标数据的样本排列成两行多列的矩阵形式，以便对各样本进行相关系数计算。举例地，本实施例的指定特征为年龄，将各样本的年龄填在指定位置，将各样本的是否患有糖尿病按照患糖尿病或未患糖尿病的两种状况标签分别对应起来，同一列为同一样本，分别对整个样本数据中的各样本进行对应处理；同时分别以其他特征为指定特征进行如上所示的一一对应处理。

S12：分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数。

比如，本实施例的样本数据为1000个体检指标数据的样本，40种指定特征，则形成40个两行的数据排布，并分别从每个数据排布中，分别计算各指定特征对于患糖尿病的相关系数。本实施例的相关系数计算经过相应的相关系数计算推导获得。

S13：按照各所述相关系数对各所述指定特征进行降序排列得到所述特征排序。

本实施例按照相关系数的大小对各指定特征进行降序排列，以便筛选相关系数最大的特征进行迭代计算，以增加预测的准确性。

S14：将所述预处理的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中，根据所述特征排序进行迭代式的模型训练。

根据首次筛选的相关系数最大的特征进行第一迭代的迭代计算，第一迭代包括多次，直到在本次排序中最大的特征的划分样本的精度达到预设值则终止同一指定特征下的深度方向的迭代。

进一步地，上述步骤S12，包括：

S121：在所述样本数据中分别查询各样本是否存在指定特征。

本实施例中，若样本中不存在对应的指定特征，比如在进行年龄特征的相关系系数计算时，有些样本不包含年龄特征，有些样本包含年龄特征。

S122：若不存在，则标记为缺失所述指定特征的第一样本。

本实施例将上述不含年龄特征的样本，称为年龄特征缺失样本，其他特征的处理方式相同，不赘述。

S123：若存在，则标记为第二样本，并纳入相关系数计算集合，以获取各所述第二样本分别对应所述指定特征的患糖尿病的第一相关系数。

本实施例的相关系数的计算仅通过包含此指定特征的样本获得。

S124：获取所有所述第一相关系数的中位数。

将各所述第一相关系数依次按顺序排列，降序或升序排列，以便寻找中位数。

S125：将所述中位数设定为各所述第一样本分别对应指定特征的患糖尿病的相关系数。

本实施例的缺失样本的指定特征的相关系数以上述各第一相关系数的中位数进行填补，以确保模型训练的顺利进行，且不引起过度的误差量。

进一步地，本申请另一实施例的步骤S3之后，包括：

S4：获取各所述待预测用户分别反馈的糖尿病确诊信息。

本实施例通过汇集各所述待预测用户分别反馈的糖尿病确诊信息，进一步评价训练模型预测糖尿病的能力，以便进一步完善与提高训练模型预测糖尿病的实际应用可靠性。

S5：通过各所述糖尿病确诊信息判断所述预测模型的准确度是否达到预设范围。

比如，预设范围为预测准确度为90％以上，预测几率前20％的数据，准确度达99％以上。

S6：若否，则更新所述预处理的体检指标数据的训练样本，并将更新后的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中重新进行迭代训练。

可通过增加新的样本数据进行样本数据的扩充，以便缩小通过特征排序进行筛选指定特征进行有限次迭代产生的局限性，进一步提高训练模型的广泛适用性，提高对不同预测用户的样本数据的精准预测能力。

本申请其他实施例通过改变特定参数的组成，可实现预测模型对其他特殊群体人群的糖尿病监测。比如对孕妇的糖尿病监测，妊娠糖尿病是一个特定场景下的糖尿病，患病的因素比普通糖尿病更加多元和复杂，不同的地方在于孕妇的血糖值可能在妊娠结束后恢复正常，也就是在怀孕期间(孕前、孕中、孕后)血糖值偏高，结束后恢复正常的水平，所以传统判定是否妊娠糖尿病需要多次体检检测。本实施例的预测方法将考虑到患者的遗传因素，加入基因检测和家庭患病背景的特征，以此来更高效率、高精度地预测患者的患病风险。通过增加SNP(单核苷酸多态性，Single Nucleotide Polymor phisms)1至55、孕次、产次、身高、孕前体重、BMI(身体质量指数，Body Mass Index)分类、孕前BMI、收缩压、舒张压、分娩时糖筛、孕周、VAR00007(胰岛素抵抗指数)、wbc(白细胞，white blood cell)、ALT(谷丙转氨酶,Alanine aminotransferase)、AST(谷草转氨酶,Aspartate aminotransferase)、CR(血肌酐测定,肾功能指标；creatinine)、BUN(尿素氮)、CHO(总胆固醇,total cholesterol)、TG(Triglyceride，甘油三酯)、HDLC(高密度脂蛋白)、LDLC(低密度脂蛋白)、ApoA1(载脂蛋白A1)、ApoB(载脂蛋白B)、Lpa(脱脂转化酶)hsCRP(超敏C-反应蛋白)等实现对孕妇的糖尿病的准确预测。

本实施例通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本实施例的预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。本实施例通过增加孕妇的遗传因素、基因检测和家庭患病背景的特征，更高效率、高精度地将预测模型用于预测孕妇等特定人群的患糖尿病的风险。

参照图2，本申请一实施例的预测患糖尿病几率的装置，包括：

第一获取模块1a，用于获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据。

第一输入模块2a，用于将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的。

第二获取模块3a，用于获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

本实施例通过用户的用户信息以及体检指标数据，输入到检测模型中获得用户的糖尿病患病几率，由于通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本实施例的预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。

进一步地，本实施例的预测患糖尿病几率的装置，包括：

第二输入模块1，用于将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练，其中特征排序根据多个维度的特征对预测患糖尿病的重要性进行排序得到。

本实施例的体检指标数据中，包括待测用户的性别、年龄等身份信息，以及天门冬氨酸氨基转换酶、丙氨酸氨基转换酶、碱性磷酸酶、r-谷氨酰基转换酶、总蛋白、白蛋白、球蛋白、白球比例、甘油三酯、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、尿素、肌酐、尿酸乙肝表面抗原、乙肝表面抗体、乙肝e抗原、乙肝e抗体、乙肝核心抗体白细胞计数、红细胞计数、血红蛋白、红细胞压积、红细胞平均体积、红细胞平均血红蛋白量、红细胞平均血红蛋白浓度、红细胞体积分布宽度、血小板计数、血小板平均体积、血小板体积分布宽度、血小板比积、中性粒细胞％、淋巴细胞％、单核细胞％、嗜酸细胞％、嗜碱细胞％等多种或全部的血样测试数据，本实施例优选包括上述全部的血样测试数据，以便提高模型训练的有效性。

本实施例的预训练的体检指标数据的训练样本包括正负样本，以患有糖尿病的用户的体检指标数据为正样本，以未患有糖尿病的用户的体检指标数据为负样本，正负样本按照一定的比例进行组合形成训练样本，并通过对正负样本的数值进行处理后，形成预处理的体检指标数据的训练样本，以便能对预测模型进行正常训练。本实施例的GBDT模型(Gradient Boosting Decision Tree，梯度提升决策树)为一变种的决策树模型，由多棵决策树组成，主要通过迭代训练不断对训练模型产生的误差进行拟合迭代，以挖掘训练样本中更多的特征信息。本实施例的GBDT模型通过对特征重要性排序，进行体检指标数据的训练样本的切分，得到不同训练样本的患糖尿病水平，并作为预测模型，不仅考虑到预测性比较强的特征，对于重要性靠后的但是仍然具有预测能力的特征同样考虑在内，预测效果更佳。本实施例的指定参数组数值包括模型的深度参数、抽样比例参数、迭代次数参数等，其中，深度参数决定糖尿病预测中选取重要特征的个数，抽样比例参数决定迭代时抽取全部训练样本的个数，迭代次数参数决定模型训练过程中残差拟合的次数，比如对上一轮迭代时样本划分后产生误差的错误样本进行新一轮迭代训练。

第一判断模块2，用于判断是否达到终止迭代训练的预设条件。

得到模块3，用于若达到终止迭代训练的预设条件，则根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型，其中特征集为达到终止迭代训练的预设条件所需的各特征组成的集合。

本实施例终止对特征进行重新排序、在新排序下进行迭代训练的预设条件，为整个训练过程的样本划分正确率达到预设值，比如，95％；或整个迭代训练过程中对样本划分正确率无明显提升或分不出错误样本时，则终止整个迭代训练。本实施例通过将上述血样数据输入到已训练好的预测模型中，进行患糖尿病的几率预测，相比于常规通过检测血液中的葡萄糖含量预测糖尿病的精准度更高，参照的特征指标更全面，测试要求条件更宽松，无需像常规通过葡萄糖含量预测糖尿病的测试条件，必须限定空腹测试条件下，葡萄糖含量大于6.7毫克/摩尔，餐后测试条件下，葡萄糖含量大于11.1毫克/摩尔才可判定为糖尿病。本实施例的测试条件无需区别空腹或餐后，更能满足人性化测试需求。且本实施例的血样测试数据也无需特定查验，待测用户的日常血常规数据即可得到相应的糖尿病预测分析，使得一个数据可得到多个预测效果，减少检测费用，且可最大范围的推广糖尿病的预测人群，为糖尿病的医疗诊断提供有力支撑。本实施例的预设范围为患糖尿病的几率的取值在0-1之间，具体的预设范围取值可以根据实际情况确定，比如，预设阈值为0.9。预测患糖尿病风险的几率处于较高水平的的人群，比如预测患糖尿病的几率达到预设阈值0.9，患糖尿病的预测准确率可高达99％。本实施例通过将用户的性别、年龄、血常规数据以及肝脏的体检指标数据利用机器学习方法进行建模，形成预测糖尿病的预测模型，最终预测体检人患糖尿病的风险水平，以辅助医生进行临床判定，且进一步提高血常规体检数据的利用率，且提高对糖尿病的检测范围，实现更广泛人群的糖尿病监测和预防，具有实际应用价值。

参照图3，本实施例的第一判断模块2，包括：

第二判断单元21，用于判断根据第一特征排序进行所述第一迭代是否达到预设训练精度。

第一终止单元22，用于若达到预设训练精度，则终止所述第一迭代，并输出所述第一迭代对应的第一特征集以及第一错误分类样本。

第三判断单元23，用于判断根据所述第一特征集进行样本划分的正确率是否达到预设值。

第一判定单元24，用于若达到预设值，则判定达到终止迭代训练的预设条件。

参照图4，本申请另一实施例的第一判断模块2，包括：

第一输入单元25，用于若根据所述第一特征集进行样本划分的正确率未达到预设值，将所述第一错误分类样本再次输入到所述GBDT模型中，根据第二特征排序进行第二迭代的模型训练。

第四判断单元26，用于判断所述第二迭代是否达到预设训练精度。

第二终止单元27，用于若达到预设训练精度，则终止所述第二迭代，并输出所述第二迭代对应的第二特征集以及第二错误分类样本。

第五判断单元28，用于判断根据所述第二特征集进行样本划分的正确率是否达到预设值。

第二判定单元29，用于若达到预设值，则判定达到终止迭代训练的预设条件。

参照图5，本实施例的得到模块3，包括：

汇总单元30，用于汇总所述第一特征集、第二特征集，以及所述第一特征集和第二特征集中的各特征分别对应的各预测糖尿病几率。

比如，本实施例通过两次特征排序，分别对应的特征集汇总后，总特征集包括年龄、性别、血红蛋白含量、白蛋白含量。本申请其他实施例当训练模型迭代次数增加、深度加大时候，特征集合会更加复杂。

第一得到单元31，用于通过计算各预测糖尿病几率的平均值，得到所述预测模型中计算患糖尿病的几率的预测方式。

参照图6，本实施例的第一输入模块1，包括:

获取单元10，用于获取以指定比例正负样本的体检指标数据组成的样本数据。

第二得到单元11，用于将所述样本数据分别按照一行指定特征信息、一行患糖尿病的状况标签的形式进行排列分布，得到预处理的体检指标数据的训练样本。

计算单元12，用于分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数。

比如，本实施例的样本数据为1000个体检指标数据的的样本，40种指定特征，则形成40个两行的数据排布，并分别从每个数据排布中，分别计算各指定特征对于患糖尿病的相关系数。本实施例的相关系数计算经过相应的相关系数计算推导获得。

第三得到单元13，用于按照各所述相关系数对各所述指定特征进行降序排列得到所述特征排序。

第二输入单元14，用于将所述预处理的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中，根据所述特征排序进行迭代式的模型训练。

参照图7，本实施例的计算单元12，包括：

查询子单元121，用于在所述样本数据中分别查询各样本是否存在指定特征。

第一标记子单元122，用于若不存在指定特征，则标记为缺失所述指定特征的第一样本。

第二标记子单元123，用于若存在指定特征信息，则标记为第二样本，并纳入相关系数计算集合，以获取各所述第二样本分别对应所述指定特征的患糖尿病的第一相关系数。

获取子单元124，用于获取所有所述第一相关系数的中位数。

设定子单元125，用于将所述中位数设定为各所述第一样本分别对应所述第一指定特征的患糖尿病的相关系数。

参照图8，本申请再一实施例的预测糖尿病的装置，包括：

第三获取模块4，用于获取各所述待预测用户分别反馈的糖尿病确诊信息。

第六判断模块5，用于通过各所述糖尿病确诊信息判断所述预测模型的准确度是否达到预设范围。

更新模块6，用于若未达到预设范围，则更新所述预处理的体检指标数据的训练样本，并将更新后的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中重新进行迭代训练。

参照图9，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于预测患糖尿病几率的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现预测患糖尿病几率的方法。

上述处理器执行上述预测患糖尿病几率的方法，包括：获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据；将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的；获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

上述计算机设备，通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本申请预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。本申请通过增加孕妇的遗传因素、基因检测和家庭患病背景的特征，更高效率、高精度地将预测模型用于预测孕妇等特定人群的患糖尿病的风险。

在一个实施例中，上述处理器将所述体检指标数据输入到预先训练得到的患病几率检测模型中的步骤之前，包括：将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练，其中特征排序根据多个维度的特征对预测患糖尿病的重要性进行排序得到；判断是否达到终止迭代训练的预设条件；若达到预设条件，则根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型，其中特征集为达到终止迭代训练的预设条件所需的各特征组成的集合。

在一个实施例中，上述处理器判断是否达到终止迭代训练的预设条件的步骤，包括：判断根据第一特征排序进行所述第一迭代是否达到预设训练精度；若达到预设训练精度，则终止所述第一迭代，并输出所述第一迭代对应的第一特征集以及第一错误分类样本；判断根据所述第一特征集进行样本划分的正确率是否达到预设值；若达到预设值，则判定达到终止迭代训练的预设条件。

在一个实施例中，上述处理器判断根据所述第一特征集进行样本划分的正确率是否达到预设值的步骤之后，包括：若未达到预设值，则将所述第一错误分类样本再次输入到所述GBDT模型中，根据第二特征排序进行第二迭代的模型训练；判断所述第二迭代是否达到预设训练精度；若达到预设训练精度，则终止所述第二迭代，并输出所述第二迭代对应的第二特征集以及第二错误分类样本；判断根据所述第二特征集进行样本划分的正确率是否达到预设值；若达到预设值，则判定达到终止迭代训练的预设条件。

在一个实施例中，上述处理器根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤，包括：汇总所述第一特征集和第二特征集，以及所述第一特征集和第二特征集中的各特征分别对应的各预测糖尿病几率；通过计算各预测糖尿病几率的平均值，得到所述预测模型中计算患糖尿病的几率的预测方式。

在一个实施例中，上述处理器将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练的步骤，包括：获取以指定比例正负样本的体检指标数据组成的样本数据；将所述样本数据分别按照一行指定特征信息、一行患糖尿病的状况标签的形式进行排列分布，得到预处理的体检指标数据的训练样本；分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数；按照各所述相关系数对各所述指定特征进行降序排列得到所述特征排序；将所述预处理的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中，根据所述特征排序进行迭代式的模型训练。

在一个实施例中，上述处理器分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数的步骤，包括：在所述样本数据中分别查询各样本是否存在指定特征信息；若不存在，则标记为缺失所述指定特征信息的第一样本；若存在，则标记为第二样本，并纳入相关系数计算集合，以获取各所述第二样本分别对应所述指定特征的患糖尿病的第一相关系数；获取所有所述第一相关系数的中位数；将所述中位数设定为各所述第一样本分别对应所述指定特征的患糖尿病的相关系数。

在一个实施例中，上述处理器根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤之后，包括：获取各所述待预测用户分别反馈的糖尿病确诊信息；通过各所述糖尿病确诊信息判断预测模型的准确度是否达到预设范围；若否，则更新所述预处理的体检指标数据的训练样本，并将更新后的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中重新进行迭代训练。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现预测患糖尿病几率的方法，包括：获取待检测用户的用户信息以及体检指标数据，所述用户信息包括多个维度的特征对应的用户数据；将所述体检指标数据输入到预先训练得到的患病几率检测模型中，所述患病几率检测模型为GBDT模型根据用户的多个维度的特征对糖尿病患病几率的影响程度排序进行迭代训练后得到的；获取所述患病几率检测模型基于所述体检指标数据输出的所述待检测用户的糖尿病患病几率。

上述计算机可读存储介质，通过大数据训练模型对预测糖尿病形成可靠的预测模型，无需要求测试样本数据的测试条件，有效避开了样本检测条件对糖尿病检测结果的不良影响。本申请预测模型进行预测计算的过程中，不仅考虑了预测性比较强、与糖尿病相关系数大的特征，且考虑了预测性较弱但仍然具有预测能力的特征，以提高预测准确度，且提高预测模型对样本的迁移学习能力。本申请通过增加孕妇的遗传因素、基因检测和家庭患病背景的特征，更高效率、高精度地将预测模型用于预测孕妇等特定人群的患糖尿病的风险。

在一个实施例中，上述处理器根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤，包括：汇总所述第一特征集、第二特征集，以及所述第一特征集和第二特征集中的各特征分别对应的各预测糖尿病几率；通过计算各预测糖尿病几率的平均值，得到所述预测模型中计算患糖尿病的几率的预测方式。

在一个实施例中，上述处理器将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练的步骤，包括：获取以指定比例正负样本的体检指标数据组成的样本数据；将所述样本数据分别按照一行指定特征信息、一行患糖尿病的状况标签的形式进行排列分布，得到预处理的体检指标数据的训练样本；分别计算所述体检指标数据的中各所述指定特征对于患糖尿病的相关系数；按照各所述相关系数对各所述指定特征进行降序排列得到所述特征排序；将所述预处理的体检指标数据的训练样本输入到指定参数组数值的GBDT模型中，根据所述特征排序进行迭代式的模型训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种预测患糖尿病几率的方法，其特征在于，包括：

2.根据权利要求1所述的预测患糖尿病几率的方法，其特征在于，所述将所述体检指标数据输入到预先训练得到的患病几率检测模型中的步骤之前，包括：

判断是否达到终止迭代训练的预设条件；

3.根据权利要求2所述的预测患糖尿病几率的方法，其特征在于，所述判断是否达到终止迭代训练的预设条件的步骤，包括：

若达到预设值，则判定达到终止迭代训练的预设条件。

4.根据权利要求3所述的预测患糖尿病几率的方法，其特征在于，所述判断根据所述第一特征集进行样本划分的正确率是否达到预设值的步骤之后，包括：

判断所述第二迭代是否达到预设训练精度；

若达到预设值，则判定达到终止迭代训练的预设条件。

5.根据权利要求4所述的预测患糖尿病几率的方法，其特征在于，所述根据所述特征集中的各特征分别对应的预测糖尿病几率，得到预测糖尿病的预测模型的步骤，包括：

汇总所述第一特征集、第二特征集，以及所述第一特征集和第二特征集中的各特征分别对应的各预测糖尿病几率；

6.根据权利要求2所述的预测患糖尿病几率的方法，其特征在于，所述将所述体检指标数据组成的训练样本输入到指定参数组数值的GBDT模型中，根据多个维度的特征的特征排序进行迭代式的模型训练的步骤，包括:

获取以指定比例正负样本的体检指标数据组成的样本数据；

7.根据权利要求6所述的预测患糖尿病几率的方法，其特征在于，所述分别计算所述体检指标数据中各所述指定特征对于患糖尿病的相关系数的步骤，包括：

在所述样本数据中分别查询各样本是否存在指定特征；

若不存在，则标记为缺失所述指定特征的第一样本；

获取所有所述第一相关系数的中位数；

8.一种预测患糖尿病几率的装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述建模方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的建模方法的步骤。