CN110197728A

CN110197728A - 糖尿病的预测方法、装置及计算机设备

Info

Publication number: CN110197728A
Application number: CN201910185075.4A
Authority: CN
Inventors: 金晓辉; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-09-03

Abstract

本申请公开了一种糖尿病的预测方法、装置及计算机设备，涉及计算机技术领域，能有效解决现有技术中只能判断用户是否患糖尿病，却无法判断其患病的严重程度的问题，其中方法包括：获取原始健康档案和电子病历数据中的样本用户数据；根据所述样本用户数据中的用户特征创建回归预测模型；利用所述回归预测模型判断目标用户的糖尿病并发症数量；根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度。本申请适用于糖尿病的预测，以及对糖尿病患病程度的确定。

Description

糖尿病的预测方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及到一种糖尿病的预测方法、装置及计算机设备。

背景技术

据世界卫生组织统计，糖尿病并发症高达100多种，是目前已知并发症数量最多的一种疾病，且糖尿病的严重程度往往与其引起的并发症数量息息相关，并发症一旦发生，通过药物治疗也很难逆转。因而糖尿病的有效预测在糖尿病诊断上十分必要的，对治疗糖尿病也起着至关重要的作用。

目前业内对于糖尿病预测的常见方法是通过收集糖尿病医案，将糖尿病患者数据与健康人群数据进行对比，构建0-1分类模型，通过患者的各类特征维度数据，判断用户是否患糖尿病。

然而现有的糖尿病的预测方法只能判断患者是否患糖尿病，却无法判断其患病的严重程度，导致诊断结果不够完善，不具说服力，且无法支撑生成配套的控制治疗方案，实用性不强。

发明内容

有鉴于此，本申请提供了一种糖尿病的预测方法、装置及计算机设备，主要目的在于解决当利用构建的0-1分类模型进行糖尿病的预测时，只能判断用户是否患糖尿病，却无法判断其患病的严重程度，进而导致诊断结果不够完善的问题。

根据本申请的一个方面，提供了一种糖尿病的预测方法，该方法包括：

获取原始健康档案和电子病历数据中的样本用户数据；

根据所述样本用户数据中的用户特征创建回归预测模型；

利用所述回归预测模型判断目标用户的糖尿病并发症数量，其中，所述样本用户和所述目标用户均为已患糖尿病的用户；

根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度。

根据本申请的另一个方面，提供了一种糖尿病的预测装置，该装置包括：

获取模块，用于获取原始健康档案和电子病历数据中的样本用户数据；

创建模块，用于根据所述样本用户数据中的用户特征创建回归预测模型；

判断模块，用于利用所述回归预测模型判断目标用户的糖尿病并发症数量，其中，所述样本用户和所述目标用户均为已患糖尿病的用户；

预测模块，用于根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述糖尿病的预测方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述糖尿病的预测方法。

借由上述技术方案，本申请提供的一种糖尿病的预测方法、装置及计算机设备，与目前利用构建的0-1分类模型预测糖尿病的方法相比，本申请在现有的糖尿病预测模型的基础上，增加了回归预测模型，具体通过已患糖尿病的样本用户数据训练得到，进而可利用回归预测模型判断出已患糖尿病的目标用户的糖尿病并发症数量，并且还能根据糖尿病并发症数量进一步判断出目标用户的患病程度，使诊断结果覆盖面更广，涵盖内容更加全面。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种糖尿病的预测方法的流程示意图；

图2示出了本申请实施例提供的另一种糖尿病的预测方法的流程示意图；

图3示出了本申请实施例提供的一种糖尿病的预测装置的结构示意图；

图4示出了本申请实施例提供的另一种糖尿病的预测装置的结构示意图。

具体实施方式

下文中将参考实施例并结合附图来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前利用构建的0-1分类模型来对糖尿病进行预测时，无法根据用户数据判断出糖尿病患病严重程度的问题，本实施例提供了一种糖尿病的预测方法，如图1所示，该方法包括：

101、获取原始健康档案和电子病历数据中的样本用户数据。

其中，样本用户为已患糖尿病的用户。样本用户数据可包括患者就诊数据、体检指标数据、用药数据和健康告知数据等，就诊数据又包括门诊、住院和用药数据，由于模型目标是预测用户的并发症数量，因此针对的用户为已患糖尿病的患者，故样本用户数据的筛选规则为就诊记录中包含糖尿病患病史的糖尿病患者。

102、根据样本用户数据中的用户特征创建回归预测模型。

其中，用户特征可包含用户基础信息(如年龄、性别等)、患病史、住院信息、并发症信息、用药信息、体检信息共计700+类特征维度数据。

在具体的应用场景中，回归预测模型可根据多种回归算法模型进行融合创建得到，即采用集成学习思想将多个回归算法模型聚集在一起，以提高预测结果的准确率。

通过创建得到的回归预测模型可以很好的反应出不同基础信息、患病史、住院信息、用药信息、体检信息等的样本用户分别对应的糖尿病并发症数量。

103、利用回归预测模型判断目标用户的糖尿病并发症数量。

其中，目标用户为已患糖尿病的用户，具体为需要进行糖尿病并发症数量预测的用户；并发症数量主要是统计目标用户的8大类糖尿病并发症数量， 8大类并发症分别为糖尿病肾病、眼部并发症、糖尿病足、心血管并发症、神经病变、糖尿病酮症酸中毒、高渗性高血压状态、乳酸性酸中毒。

对于本实施例，基于不同特征的样本用户反应出的糖尿病并发症数量，将目标用户的特征与样本用户的特征进行匹配，找到匹配样本用户特征对应的糖尿病并发症数量。

104、根据糖尿病并发症数量预测目标用户的糖尿病患病程度。

在具体的应用场景中，可根据目标用户得出的糖尿病并发症数量，按照预定关系，判断出目标用户的患病程度，进而为用户提供更为精确的诊断结果。

通过本实施例中糖尿病的预测方法，可提取就诊记录中包含糖尿病患病史的样本用户数据，来创建回归预测模型，进而可利用训练好的回归预测模型判断目标用户的糖尿病并发症数量，最后按照预定规则能够分析出目标用户的糖尿病患病程度，使病情诊断结果更为精准，诊断内容更加完善，便于根据糖尿病的不同发展程度进行及时有效的配套治疗，进而遏制病情发展。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本申请实施例中的具体实施过程，提供了另一种糖尿病的预测方法，如图2 所示，该方法包括：

201、获取原始健康档案和电子病历数据中的样本用户数据。

例如，在原始健康档案和电子病历数据中获取样本用户数据，共获取200 项存在糖尿病并发症的样本用户数据。

202、获取样本用户数据中的用户特征，将用户特征中糖尿病并发症数量作为标签信息Y，并将样本用户的目标特征数据作为特征信息X，创建模型训练集。

其中，用户特征是利用正则表达式从样本用户数据中提取的。目标特征数据至少包括样本用户的用户基础数据、住院数据、就诊用药数据、体检数据、健康告知数据中的一项或多项。

创建得到的模型训练集中包含各个特征信息X，以及各自对应的标签信息Y。即不同基础数据、住院数据、就诊用药数据、体检数据、健康告知数据等的已患糖尿病样本用户分别对应的糖尿病并发症数量。

203、通过模型训练集基于预设回归预测算法训练得到回归预测模型。

其中，预设回归预测算法可由线性回归、随机森林、Xgboost三种算法融合得到，回归预测模型的评估采用均方误差(MSE)指标。在训练过程中，当回归预测模型对应的MSE指标值小于预设标准阈值时，确定回归预测模型符合评估标准，通过符合评估标准的回归预测模型可确定特征信息X和标签信息Y之间的映射关系。

MSE指标值的计算公式为其中，y_i是测试集上的真实值，x_i表示预测值，m为测试集包含的测试用例个数。通过符合评估标准的回归预测模型进行预测，可保证预测结果的准确性。如果回归预测模型对应的MSE指标值小于预设标准阈值时，则利用样本用户的模型训练集继续对回归预测模型进行训练(如重新划分每个算法模型对应的训练集等，或者利用新的样本用户的模型训练集对该回归预测模型进行继续训练)，直至得到的回归预测模型对应的MSE指标值小于预设标准阈值。

为了说明利用上述三种算法融合对回归预测模型的具体训练过程，作为一种可选方式，步骤203具体可包括：将步骤202中得到的模型训练集划分为多个子训练集；每次选取多个子训练集中的一个第一子训练集作为测试集，除第一子训练集以外多个训练集中剩余的第二子训练集作为训练集，基于线性回归算法训练得到线性回归预测模型，其中每次选择的第一子训练集不重复，并将每次训练得到的回归预测模型利用各自相对应的测试集进行测试第一正确率，以便利用第一正确率的平均值和预设标准阈值确定线性回归预测模型是否符合标准，若线性回归预测模型不符合标准，则重新执行划分模型训练集和继续训练不符合标准的线下回归预测模型的步骤，直至线性回归预测模型符合标准；及

每次选取多个子训练集中的一个第三子训练集作为测试集，除第三子训练集以外多个训练集中剩余的第四子训练集作为训练集，基于随机森林算法训练得到随机森林预测模型，其中每次选择的第三子训练集不重复，并将每次训练得到的随机森林预测模型利用各自相对应的测试集进行测试第二正确率，以便利用第二正确率的平均值和预置标准阈值确定随机森林预测模型是否符合标准，若随机森林预测模型不符合标准，则重新执行划分模型训练集和继续训练不符合标准的随机森林预测模型的步骤，直至随机森林预测模型符合标准；及

每次选取多个子训练集中的一个第五子训练集作为测试集，除第五子训练集以外多个训练集中剩余的第六子训练集作为训练集，基于Xgboost算法训练得到Xgboost预测模型，其中每次选择的第五子训练集不重复，并将每次训练得到的Xgboost预测模型利用各自相对应的测试集进行测试第三正确率，以便利用第三正确率的平均值和预定标准阈值确定Xgboost预测模型是否符合标准，若Xgboost预测模型不符合标准，则重新执行划分模型训练集和继续训练不符合标准的Xgboost预测模型的步骤，直至Xgboost预测模型符合标准；

最后将符合标准的线性回归预测模型、符合标准的随机森林预测模型、符合标准的Xgboost预测模型按照求三者平均预测值的方式进行融合处理，得到回归预测模型。

对于线性回归预测模型的训练过程：例如，将模型训练集划分为10个子训练集(每个子训练集中都包含有不同的特征信息X，以及各自对应的标签信息Y)，每次选取1个子训练集作为测试集，剩余9个子训练集作为训练集，基于线性回归算法训练得到线性回归预测模型。每次选取作为测试集的子训练集不同，这样经过一轮训练后，会得到10个线性回归预测模型以及10 个测试集(之间具有一一对应关系)，将这10个线性回归预测模型利用各自对应的测试集进行测试，得到这10个线性回归预测模型分别对应的正确率，然后将10个正确率取平均值，如果该平均值大于预设标准阈值，就确定这轮训练得到的线性回归预测模型符合标准。

如果该平均值小于预设标准阈值，就确定这轮训练得到的线性回归预测模型不符合标准，后续重新划分模型训练集得到新的10个子训练集，基于这 10个新的子训练集重复上述训练过程对已训练得到的这10个线性回归预测模型继续进行训练，即从这10个新的子训练集中每次选取一个新的子训练集作为测试集，剩余9个子训练集作为训练集，继续训练已训练的线性回归预测模型，这样每个已训练的线性回归预测模型各自又分别经历了一次训练过程，然后利用各自对应的新测试集进行测试正确率，最后还是基于正确率的平均值和预设标准阈值判定是否需要进行下一轮的训练过程，如果正确率的平均值符合标准，则停止训练，后续利用最新训练得到的10个线性回归预测模型，作为符合标准的线性回归预测模型进行预测。如将待测用户的基础数据、住院数据、就诊用药数据、体检数据、健康告知数据输入到这10个符合标准的线性回归预测模型中，预测得到各自对应的糖尿病并发症数量，然后取这10 个糖尿病并发症数量的平均值作为符合标准的线性回归预测模型的预测结果。

与上述过程类似，对于随机森林预测模型和Xgboost预测模型的训练过程，也如上述这种划分多个子训练集，每次选取1个子训练集作为测试集，其余子训练集作为训练集，基于各自对应算法进行训练得到模型，最后通过模型正确率的均值判定是否符合标准。需要说明的是，对于本实施例，三种算法的模型训练过程中，模型训练集划分子训练集的数量可根据实际需求设定，在此不做限定。

具体的，下面结合每种算法原理说明这三种模型的具体训练过程：

线性回归预测模型：A)假设样本用户特征满足线性关系，即初始模型为 y_i＝a+bx_i，xi为第i个样本(样本用户特征)，yi为xi对应的值(糖尿病并发症数量)，

B)并采用最小二乘法公式作为回归的损失函数。

其中，yi为样本xi对应的值(糖尿病并发症数量)，θ^Tx对应模型预测值。

C)利用上述初始模型代入目标子训练集数据进行拟合训练，并利用上述最终目标函数衡量模型拟合训练数据的好坏程度(即利用目标函数计算损失值(J(θ))，损失值越小说明模型能够较好的拟合训练数据)，使得模型的偏差和方差得到标准要求，即最终通过目标子训练集训练得到的线性回归预测模型。

随机森林预测模型：①从目标子训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n次采样，生成n个训练集；②对于n个训练集，分别训练n个决策树模型(可通过ID3算法、C4.5算法、CART算法等现有算法构建)；③对于单个决策树模型，假设训练样本特征的个数为n，那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂；④每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类，在决策树的分裂过程中不需要剪枝；⑤将生成的多棵决策树组成随机森林。对于回归问题，由多棵树预测值的均值决定最终预测结果，即作为通过目标子训练集训练得到的随机森林预测模型的预测结果。

Xgboost预测模型：A)建立初始模型，具体如下式：

其中，k表示树的个数，F表示构建的每个树结构，xi表示第i个样本，xi在每个树上的得分值的和就是xi的预测值，为预测值。

该初始模型的目标函数为

yi为xi对应的样本实际值。

B)随着树的增长，通过t轮的公式递推，得到最终目标函数为

其中， I_j表示：第j个叶子中包括的所有样本，wj表示第j个叶子的权重，γT对应叶子的个数。

C)利用上述初始模型代入目标子训练集数据进行拟合训练，并利用上述最终目标函数衡量模型拟合训练数据的好坏程度(即利用目标函数计算损失值(Obj^t)，损失值越小说明模型能够较好的拟合训练数据)，使得模型的偏差和方差得到标准要求，即最终通过目标子训练集训练得到的Xgboost预测模型。

上述三个模型具体融合处理方式是采用平均求值的方式。例如，对于这三种分类器，在输入待测用户的基础数据、住院数据、就诊用药数据、体检数据、健康告知数据后，将这三个模型得到的预测结果取平均值，作为待测用户的糖尿病并发症数量。

204、将目标用户的特征信息输入到回归预测模型中与特征信息X进行相似度匹配。

其中，目标用户的特征信息对应目标特征数据，即至少包括用户基础数据、住院数据、就诊用药数据、体检数据、健康告知数据中的一项或多项。

作为一种可选方式，步骤204具体可包括：将目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理，得到结构化数据的特征信息；将结构化数据的特征信息与特征信息X进行相似度匹配。

由于目标用户的特征信息有时是包含无用数据、和/或存在缺失值、和/ 或存在异常值的，即不适合利用回归预测模型直接进行预测的非结构化数据。因此，首先可对目标用户的特征信息进行数据清洗，清除无用数据(如去除用户现住处所在地、户口所在地等数据，只保留患病史数据、住院数据、就诊用药数据、体检数据、健康告知数据等)；再对保留的数据进行特征提取 (如提取患病史数据、住院数据、就诊用药数据、体检数据、健康告知数据等)；如果提取的特征数据中存在缺失值时可利用0值进行填充(如用户体检数据中身高和体重一项空缺，可利用0值填充，这样后续与模型中特征信息X匹配时保证具有可比性，避免特征匹配时产生无法匹配的错误)；如果提取的特征数据中存在异常值可参考实际情况进行修正处理(如住院时长一项为99999天，明显存在异常，可进一步通过住院开始时间和结束时间计算正确的住院时长，然后进行修改处理)。

通过本可选方式中的数据清洗、特征提取、缺失值填充、异常值处理等一系列处理，可保证得到与回归预测模型中特征信息匹配时具有可比性的结构化数据，避免特征匹配时产生无法匹配的错误，去除异常值，提高特征匹配的精确度。

为了说明回归预测模型的预测过程，作为一种可选方式，特征信息X中包含线性回归预测模型对应的特征信息X1、随机森林预测模型对应的特征信息X2、XgBoost预测模型对应的特征信息X3，标签信息Y中包含线性回归预测模型对应的标签信息Y1、随机森林预测模型对应的标签信息Y2、XgBoost 预测模型对应的标签信息Y3，特征信息X1与标签信息Y1对应、特征信息 X2与标签信息Y2对应、特征信息X3与标签信息Y3对应；

步骤204中具体的匹配过程可包括：将目标用户的特征信息分别与特征信息X1、特征信息X2、特征信息X3进行相似度匹配。三次匹配过程都可设置各自对应的相似度阈值。

205、利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X 和所述映射关系，确定所述目标用户对应的糖尿病并发症数量。

其中，相似度阈值可根据实际需求预先设置。例如，相似度阈值设置得越大，相应的特征匹配精度越高，如果相似度为100％，则说明特征完全匹配。

基于步骤204中的可选方式，步骤205具体可包括：获取与相似度大于预设相似度阈值、且相似度最高的特征信息X1对应的目标标签信息Y1；获取与相似度大于预设相似度阈值、且相似度最高的特征信息X2对应的目标标签信息Y2；获取与相似度大于预设相似度阈值、且相似度最高的特征信息 X3对应的目标标签信息Y3；最后计算目标标签信息Y1、目标标签信息Y2、目标标签信息Y3三者的平均值，得到目标用户对应的糖尿病并发症数量。

例如，线性回归预测模型利用匹配的特征信息X1计算出目标标签信息Y1为6、随机森林预测模型利用匹配的特征信息X2计算出目标标签信息Y2 为7、XGBoost预测模型利用匹配的特征信息X3计算出目标标签信息Y3为 5，则可通过三种模型预测的结果，得出目标用户对应的糖尿病并发症数量为 (6+7+5)÷3＝6，即最终判断出目标用户的糖尿病并发症数量为6。

206、根据糖尿病并发症数量预测目标用户的糖尿病患病程度。

作为一种可选方式，在步骤206之前，还可包括：为不同的糖尿病并发症数量配置分别对应的糖尿病严重程度，其中，并发症数量越多，配置的糖尿病严重程度越高；相应的，步骤206具体包括：查询与目标用户的糖尿病并发症数量对应配置的糖尿病严重程度，作为目标用户的糖尿病患病程度。

例如，可根据实际情况为不同糖尿病并发症数量配置对应的等级，并发症的等级划分为：1级对应的并发症数量为0-2；2级对应的并发症数量为3-4； 3级对应的并发症数量为5-8。起哄1级对应的患病程度为较为严重；2级对应的患病程度为非常严重；3级对应的患病程度为极度严重。如果通过回归预测模型判断出目标用户的并发症数量为3，进而确定目标用户当前所处的并发症等级为2级，确定目标用户的糖尿病患病程度为非常严重，应引起极大注意，并配套治疗，防止病情持续恶化。

通过上述糖尿病的预测方法，可以通过采取样本用户数据，利用模型训练集训练创建回归预测模型，确定特征信息和标签信息之间的映射关系，将目标用户的结构化数据与回归预测模型中的特征信息进行匹配，进而通过映射关系确定目标用户的糖尿病并发症数量，并为不同的数量配置相应的并发症等级，通过第二映射关系与并发症等级即可确定目标用户的患病严重程度。整个方案从糖尿病确诊指标出发，不但能确定出目标用户的并发症数量，还能进一步分析出目标用户的患病程度，使诊断结果更加完善，覆盖类型更全面，具有强有力的说服力，从而能为患者及医生提供更好的治疗依据。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种糖尿病的预测装置，如图3所示，该装置包括：获取模块31、创建模块 32、判断模块33、预测模块34。

获取模块31，可用于获取原始健康档案和电子病历数据中的样本用户数据；

创建模块32，可用于根据所述样本用户数据中的用户特征创建回归预测模型；

判断模块33，可用于利用所述回归预测模型判断目标用户的糖尿病并发症数量，其中，所述样本用户和所述目标用户均为已患糖尿病的用户；

预测模块34，可用于根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度。

在具体的应用场景中，为了根据样本用户数据中的用户特征创建出回归预测模型，如图4所示，创建模块32，具体可包括：创建单元321、训练单元322。

创建单元321，可用于将所述用户特征中所述糖尿病并发症数量作为标签信息Y，并将样本用户的目标特征数据作为特征信息X，创建模型训练集，所述目标特征数据至少包括所述样本用户的用户基础数据、住院数据、就诊用药数据、体检数据、健康告知数据中的一项或多项；

训练单元322，可用于通过所述模型训练集基于预设回归预测算法训练得到所述回归预测模型，其中，所述预设回归预测算法由线性回归、随机森林、 Xgboost三种算法融合得到，所述回归预测模型的评估采用均方误差MSE指标，当所述回归预测模型对应的MSE指标值小于预设标准阈值时，确定所述回归预测模型符合评估标准，通过符合评估标准的所述回归预测模型可确定所述特征信息X和所述标签信息Y之间的映射关系；

所述MSE指标值的计算公式为其中，y_i是测试集上的真实值，x_i表示预测值，m为所述测试集包含的测试用例个数。

相应的，为了利用回归预测模型判断出目标用户的糖尿病并发症数量，如图4所示，判断模块33，具体可包括：匹配单元331、确定单元332。

匹配单元331，可用于将所述目标用户的特征信息输入到所述回归预测模型中与所述特征信息X进行相似度匹配，所述目标用户的特征信息对应所述目标用户的所述目标特征数据；

确定单元332，可用于利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X和所述映射关系，确定所述目标用户对应的糖尿病并发症数量。

在具体的应用场景中，为了根据糖尿病并发症数量预测出目标用户的糖尿病患病程度，如图4所示，预测模块34，具体可包括：配置单元341、判断单元342。

配置单元341，具体可用于为不同的糖尿病并发症数量配置分别对应的糖尿病严重程度，其中，所述并发症数量越多，配置的所述糖尿病严重程度越高；

判断单元344，具体可用于查询与所述目标用户的糖尿病并发症数量对应配置的糖尿病严重程度，作为所述目标用户的糖尿病患病程度。

在具体的应用场景中，匹配单元331，具体可用于将所述目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理，得到结构化数据的特征信息；将结构化数据的特征信息与所述特征信息X进行相似度匹配。

在具体的应用场景中，训练单元322，具体可用于将所述模型训练集划分为多个子训练集；

每次选取所述多个子训练集中的一个第一子训练集作为测试集，除所述第一子训练集以外所述多个训练集中剩余的第二子训练集作为训练集，基于线性回归算法训练得到线性回归预测模型，其中每次选择的所述第一子训练集不重复，并将每次训练得到的回归预测模型利用各自相对应的测试集进行测试第一正确率，以便利用所述第一正确率的平均值和预设标准阈值确定所述线性回归预测模型是否符合标准，若所述线性回归预测模型不符合标准，则重新执行划分所述模型训练集和继续训练不符合标准的所述线下回归预测模型的步骤，直至所述线性回归预测模型符合标准；及

每次选取所述多个子训练集中的一个第三子训练集作为测试集，除所述第三子训练集以外所述多个训练集中剩余的第四子训练集作为训练集，基于随机森林算法训练得到随机森林预测模型，其中每次选择的所述第三子训练集不重复，并将每次训练得到的随机森林预测模型利用各自相对应的测试集进行测试第二正确率，以便利用所述第二正确率的平均值和预置标准阈值确定所述随机森林预测模型是否符合标准，若所述随机森林预测模型不符合标准，则重新执行划分所述模型训练集和继续训练不符合标准的所述随机森林预测模型的步骤，直至所述随机森林预测模型符合标准；及

每次选取所述多个子训练集中的一个第五子训练集作为测试集，除所述第五子训练集以外所述多个训练集中剩余的第六子训练集作为训练集，基于 Xgboost算法训练得到Xgboost预测模型，其中每次选择的所述第五子训练集不重复，并将每次训练得到的Xgboost预测模型利用各自相对应的测试集进行测试第三正确率，以便利用所述第三正确率的平均值和预定标准阈值确定所述Xgboost预测模型是否符合标准，若所述Xgboost预测模型不符合标准，则重新执行划分所述模型训练集和继续训练不符合标准的所述Xgboost预测模型的步骤，直至所述Xgboost预测模型符合标准；

将符合标准的所述线性回归预测模型、符合标准的所述随机森林预测模型、符合标准的所述Xgboost预测模型按照求三者平均预测值的方式进行融合处理，得到回归预测模型。

在具体的应用场景中，所述特征信息X中包含所述线性回归预测模型对应的特征信息X1、所述随机森林预测模型对应的特征信息X2、所述Xgboost 预测模型对应的特征信息X3，所述标签信息Y中包含所述线性回归预测模型对应的标签信息Y1、所述随机森林预测模型对应的标签信息Y2、所述Xgboost 预测模型对应的标签信息Y3，所述特征信息X1与所述标签信息Y1对应、所述特征信息X2与所述标签信息Y2对应、所述特征信息X3与所述标签信息Y3对应；

匹配单元331，具体可用于将所述目标用户的特征信息分别与所述特征信息X1、特征信息X2、特征信息X3进行相似度匹配；

确定单元332，具体可用于获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X1对应的目标标签信息Y1；获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X2对应的目标标签信息Y2；获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X3对应的目标标签信息Y3；计算所述目标标签信息Y1、所述目标标签信息Y2、所述目标标签信息Y3三者的平均值，得到所述目标用户对应的糖尿病并发症数量。

需要说明的是，本实施例提供的一种糖尿病的预测装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1 和图2所示的糖尿病的预测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的糖尿病的预测方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频 (RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理糖尿病的预测实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可以在检测出目标用户患有糖尿病并发症数量的基础上，进一步判断患病的严重程度，可以使诊断结果更加完善，诊断内容更加充实，进而可及时跟踪了解目标用户的病情发展情况，并进行相应的配套治疗。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种糖尿病的预测方法，其特征在于，包括：

获取原始健康档案和电子病历数据中的样本用户数据；

根据所述样本用户数据中的用户特征创建回归预测模型；

2.根据权利要求1所述的方法，其特征在于，所述用户特征是利用正则表达式从所述样本用户数据中提取的；

所述根据所述样本用户数据中的用户特征创建回归预测模型，具体包括：

将所述用户特征中所述糖尿病并发症数量作为标签信息Y，并将样本用户的目标特征数据作为特征信息X，创建模型训练集，所述目标特征数据至少包括所述样本用户的用户基础数据、住院数据、就诊用药数据、体检数据、健康告知数据中的一项或多项；

通过所述模型训练集基于预设回归预测算法训练得到所述回归预测模型，其中，所述预设回归预测算法由线性回归、随机森林、Xgboost三种算法融合得到，所述回归预测模型的评估采用均方误差MSE指标，当所述回归预测模型对应的MSE指标值小于预设标准阈值时，确定所述回归预测模型符合评估标准，通过符合评估标准的所述回归预测模型可确定所述特征信息X和所述标签信息Y之间的映射关系；

3.根据权利要求2所述的方法，其特征在于，所述利用所述回归预测模型判断目标用户的糖尿病并发症数量，具体包括：

将所述目标用户的特征信息输入到所述回归预测模型中与所述特征信息X进行相似度匹配，所述目标用户的特征信息对应所述目标特征数据；

利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X和所述映射关系，确定所述目标用户对应的糖尿病并发症数量。

4.根据权利要求3所述的方法，其特征在于，在所述根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度之前，所述方法还包括：

为不同的糖尿病并发症数量配置分别对应的糖尿病严重程度，其中，所述并发症数量越多，配置的所述糖尿病严重程度越高；

所述根据所述糖尿病并发症数量预测所述目标用户的糖尿病患病程度，具体包括：

查询与所述目标用户的糖尿病并发症数量对应配置的糖尿病严重程度，作为所述目标用户的糖尿病患病程度。

5.根据权利要求3所述的方法，其特征在于，所述将所述目标用户的特征信息输入到所述回归预测模型中与所述特征信息X进行相似度匹配，具体包括：

将所述目标用户的特征信息经过数据清洗、特征提取、缺失值填充、异常值处理，得到结构化数据的特征信息；

将结构化数据的特征信息与所述特征信息X进行相似度匹配。

6.根据权利要求3所述的方法，其特征在于，所述通过所述模型训练集基于预设回归预测算法训练得到所述回归预测模型，具体包括：

将所述模型训练集划分为多个子训练集；

每次选取所述多个子训练集中的一个第五子训练集作为测试集，除所述第五子训练集以外所述多个训练集中剩余的第六子训练集作为训练集，基于Xgboost算法训练得到Xgboost预测模型，其中每次选择的所述第五子训练集不重复，并将每次训练得到的Xgboost预测模型利用各自相对应的测试集进行测试第三正确率，以便利用所述第三正确率的平均值和预定标准阈值确定所述Xgboost预测模型是否符合标准，若所述Xgboost预测模型不符合标准，则重新执行划分所述模型训练集和继续训练不符合标准的所述Xgboost预测模型的步骤，直至所述Xgboost预测模型符合标准；

7.根据权利要求6所述的方法，其特征在于，所述特征信息X中包含所述线性回归预测模型对应的特征信息X1、所述随机森林预测模型对应的特征信息X2、所述Xgboost预测模型对应的特征信息X3，所述标签信息Y中包含所述线性回归预测模型对应的标签信息Y1、所述随机森林预测模型对应的标签信息Y2、所述Xgboost预测模型对应的标签信息Y3，所述特征信息X1与所述标签信息Y1对应、所述特征信息X2与所述标签信息Y2对应、所述特征信息X3与所述标签信息Y3对应；

所述将所述目标用户的特征信息输入到所述回归预测模型中与所述特征信息X进行相似度匹配，具体包括：

将所述目标用户的特征信息分别与所述特征信息X1、特征信息X2、特征信息X3进行相似度匹配；

所述利用相似度大于预设相似度阈值、且相似度最高的所述特征信息X和所述映射关系，确定所述目标用户对应的糖尿病并发症数量，具体包括：

获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X1对应的目标标签信息Y1；

获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X2对应的目标标签信息Y2；

获取与相似度大于预设相似度阈值、且相似度最高的所述特征信息X3对应的目标标签信息Y3；

计算所述目标标签信息Y1、所述目标标签信息Y2、所述目标标签信息Y3三者的平均值，得到所述目标用户对应的糖尿病并发症数量。

8.一种糖尿病的预测装置，其特征在于，包括：

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的糖尿病的预测方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的糖尿病的预测方法。