CN110085318A

CN110085318A - 预测未来血糖值的方法、装置及计算机设备

Info

Publication number: CN110085318A
Application number: CN201910185058.0A
Authority: CN
Inventors: 金晓辉; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-08-02
Also published as: WO2020181806A1

Abstract

本申请公开了一种预测未来血糖值的方法、装置及计算机设备，涉及计算机技术领域，能有效解决现有技术中只能判断用户当前的血糖值，却无法对用户未来血糖值进行预测的问题。其中方法包括：从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据；利用所述样本用户数据创建血糖值时间序列的预测模型；将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列，其中，所述历史用户数据对应的历史时长小于所述预设时长阈值，所述目标用户和所述样本用户均为糖尿病患者。本申请适用于对目标用户未来血糖值的预测。

Description

预测未来血糖值的方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及到一种预测未来血糖值的方法、装置及计算机设备。

背景技术

糖尿病是一组以高血糖为特征的代谢性疾病，发病时会导致大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等多个部位，还会伴有多种并发症，故加强糖尿病的预测工作是完全必要的。然而随着科技的进步，病种的诊断已经不局限于医生的分析，利用人工智能来预测糖尿病，才是符合如今的发展潮流。

目前业内对于糖尿病预测的常见方法是通过收集糖尿病医案，将糖尿病患者数据与健康人群数据进行对比，构建0-1分类模型，通过患者的各类特征维度数据，判断用户是否患糖尿病。

然而现有的糖尿病预测的方法只能判断没有糖尿病相关医案的用户是否患糖尿病，但针对已有数据且长期随访的用户，却不能进行未来血糖值的预测，不能更好的实现对糖尿病的诊断和治疗。

发明内容

有鉴于此，本申请提供了一种预测未来血糖值的方法、装置及计算机设备，主要目的在于解决当下只能判断出用户是否患糖尿病，却无法预测出未来血糖值，进而不能更好的实现对糖尿病跟踪治疗的问题。

根据本申请的一个方面，提供了一种预测未来血糖值的方法，该方法包括：

从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据；

利用所述样本用户数据创建血糖值时间序列的预测模型；

将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列，其中，所述历史用户数据对应的历史时长小于所述预设时长阈值，所述目标用户和所述样本用户均为糖尿病患者。

根据本申请的另一个方面，提供了一种预测未来血糖值的装置，该装置包括：

提取模块，用于从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据；

创建模块，用于利用所述样本用户数据创建血糖值时间序列的预测模型；

确定模块，用于将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列，其中，所述历史用户数据对应的历史时长小于所述预设时长阈值，所述目标用户和所述样本用户均为糖尿病患者。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述预测未来血糖值的方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述预测未来血糖值的方法。

借由上述技术方案，本申请提供的一种预测未来血糖值的方法、装置及计算机设备，与目前利用构建的0-1分类模型预测糖尿病的方法相比，本申请是依据从原始健康档案和电子病历中提取的样本用户数据，来创建血糖值时间序列的预测模型，将目标用户的历史用户数据输入到预测模型中，进而利用预测模型获取目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后预设时长血糖值的第二预测序列，由于样本用户和目标用户均为糖尿病患者，因此可利用预测模型确定与目标用户具有相同或类似用户数据的样本用户，其对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。并且由于样本用户的糖尿病随访记录大于预设时长阈值，而目标用户的历史用户数据对应的历史时长小于该阈值，相当于利用大范围的时间序列判别其包含的小范围时间序列走向，进而可很好的预测出目标用户的未来血糖值变化规律，进而可实时监测糖尿病的发展情况，进行相应的配套治疗，在对糖尿病的治疗控制上具有很大的意义。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种预测未来血糖值的方法的流程示意图；

图2示出了本申请实施例提供的另一种预测未来血糖值的方法的流程示意图；

图3示出了本申请实施例提供的一种预测未来血糖值的装置的结构示意图；

图4示出了本申请实施例提供的另一种预测未来血糖值的装置的结构示意图。

具体实施方式

下文中将参考实施例并结合附图来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前只能判断出用户是否患糖尿病，却无法预测出未来血糖值，进而不能更好的实现对糖尿病跟踪治疗的问题，本实施例提供了一种预测未来血糖值的方法，如图1所示，该方法包括：

101、从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据。

其中，样本用户为糖尿病患者。样本用户数据可包括患者就诊数据、体检指标数据、用药数据和健康告知数据等，就诊数据又包括门诊、住院和用药数据，患者的用药、症状、体征和生活方式等糖尿病随访数据主要来源于各大医院和体检中心。预设时长阈值可根据实际业务需求设定，例如，可设定时间阈值为一年，即获取糖尿病随访记录大于一年的样本用户对应的样本用户数据。

在具体的应用场景中，从原始健康档案和电子病历中提取的样本用户数据中一般包含许多无用数据以及异常数据等，故在利用这些数据创建预测模型之前，需要对这些样本用户数据进行清洗整合从中提取出需要的相关特征，提取方式主要通过正则表达式，正则表达式即对字符串的一种逻辑公式，通过事先定义好的特定字符组合去匹配文本，获取需要的文本及数字。

102、利用样本用户数据创建血糖值时间序列的预测模型。

在本实施例中，从样本用户数据中获取样本用户每次糖尿病随访时的空腹血糖值、餐后两小时血糖值、用药、症状、体征和生活方式等数据，然后基于这些数据创建血糖值时间序列的预测模型，具体可通过时间序列的相关算法训练得到。

通过创建得到的血糖值时间序列的预测模型可以很好的反应出具有不同糖尿病随访特征的样本用户分别对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。

103、将目标用户的历史用户数据输入到预测模型中，预测目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列。

其中，需要进行未来糖尿病预测的目标用户为糖尿病患者，历史用户数据对应的历史时长小于预设时长阈值。在本实施例中，历史用户数据为目标用户最近一段时间的历史用户数据，例如，最近半年每次糖尿病随访时的空腹血糖值、餐后两小时血糖值、用药、症状、体征和生活方式等数据。

预设未来时间段为根据实际需要进行设定的，使血糖值时间序列的预测模型最终显示出未来该时间段内的血糖值，例如，预设未来时间段可为未来30日；第一预测序列为目标用户在预设未来时间段内空腹血糖值的时间序列；第二预测序列为目标用户在预设未来时间段内餐后两小时血糖值的时间序列。

通过上述预测未来血糖值的方法，依据从原始健康档案和电子病历中提取的样本用户数据，来创建血糖值时间序列的预测模型，将目标用户的历史用户数据输入到预测模型中，进而利用预测模型获取目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后预设时长血糖值的第二预测序列，由于样本用户和目标用户均为糖尿病患者，因此可利用预测模型确定与目标用户具有相同或类似用户数据的样本用户，其对应的空腹血糖值时间序列和餐后两小时血糖值时间序列。并且由于样本用户的糖尿病随访记录大于预设时长阈值，而目标用户的历史用户数据对应的历史时长小于该阈值，相当于利用大范围的时间序列判别其包含的小范围时间序列走向，进而可很好的预测出目标用户的未来血糖值变化规律，进而可实时监测糖尿病的发展情况，进行相应的配套治疗，在对糖尿病的治疗控制上具有很大的意义。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本申请实施例中的具体实施过程，提供了另一种预测未来血糖值的方法，如图2所示，该方法包括：

201、从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据。

202、对样本用户数据进行预处理。

由于样本用户数据中通常会存在无用数据以及异常数据等，因此需要样本用户数据进行预处理，获取得到预测模型创建需要的数据，为了说明此过程，作为一种可选方式，步骤202具体可包括：利用正则表达式从样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据(即对应每次随访时的时序数据)；若空腹血糖值的时序数据或餐后两小时血糖的时序数据，在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况，则使用多条血糖测量值中的众数作为该天对应的血糖测量值；及若空腹血糖值或餐后两小时血糖值在预设历史时间段内出现血糖测量数据空缺的日期，则使用内插法补充日期对应的空值，得到日颗粒度的血糖序列；最后对日颗粒度的血糖序列，进行差分化移动平滑处理，得到稳定序列。利用这种相对平稳的稳定序列训练模型，可消除噪音，得到的预测模型可预测更加精确的结果。

例如，获取过去一年中样本用户a每次随访时的空腹血糖值的时序数据和餐后两小时血糖值的时序数据，如果存在某一天内具有5条空腹血糖测量值的情况，分别为5.7mmol/L、5.7mmol/L、6.7mmol/L、5.9mmol/L、6.1mmol/L，因在这些空腹血糖测量值中5.7mmol/L为众数，故可用众数5.7mmol/L代替那一天的多次取值；如果存在某一天的餐后两小时血糖值空缺，则利用内插法补充空值，即使用相邻几天对应的餐后两小时血糖值，通过内插法公式计算得到(如已知(X1，Y1)、(X2，Y2)，X为X1和X2中间点，那么X对应的Y＝Y1+(Y2-Y1)*(X-X1)/(X2-X1)。

通过上述预处理过程使得在过去一年中样本用户a每天都对应一个空腹血糖值和一个餐后两小时血糖值，即两个初始的血糖值时间序列；为了使这两个血糖值时间序列趋势性更加明显，可将这两个血糖值时间序列转化为平稳序列，具体可对这两个血糖值时间序列进行差分以及移动平滑处理。两个初始的血糖值时间序列的差分以及移动平滑处理过程相同，这里以空腹血糖值的时间序列变换为例进行说明，设空腹血糖值的时间序列为y_t＝f(t)，t为每次糖尿病随访的时间，y_t为随访时对应的空腹血糖值，一阶差分定义为Δy_t＝y_t+1-y_t＝f(t+1)-f(t)，k阶差分定义为(k＝1,2,3…)，求解带有k阶差分、且带有未知函数f(t)的差分方程，然后将求得的f(t)带入差分公式中，实现时间序列的差分处理过程。然后对差分处理后得到的时间序列进行移动平滑处理，即获取该时间序列中波动较大的(与各点平均值的差值大于一定阈值)序列点，然后利用各点平均值(这里平均值可利用算术平均数、几何平均数、调和平均数等)代替该点的值。最终通过这样的处理，可使得空腹血糖值的时间序列从非平稳序列转化为稳定序列。

在本实施例中，在对样本用户数据进行预处理后，分两种预测方式进行说明，一种是预测未来空腹血糖值的时间序列(即步骤203a至204a所示过程)，另一种是预测餐后两小时血糖值的时间序列(即步骤203b至204b所示过程)。

203a、将预处理后的样本用户数据中空腹血糖值的时序数据作为标签信息Y1，将样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X，创建第一模型训练集。

其中，目标特征数据包括用药数据、症状数据、体征数据、生活方式数据。

结合步骤202中稳定序列转化的可选方式，将预处理后的样本用户数据中空腹血糖值的时序数据作为标签信息Y1的过程，具体可包括：将预处理后的空腹血糖值的稳定序列作为标签信息Y1。

创建得到的第一模型训练集中包含各个特征信息X，以及各自对应的标签信息Y1。即不同糖尿病随访特征的样本用户分别对应的空腹血糖值时间序列。

204a、利用第一模型训练集并结合时间序列算法，训练得到第一识别模型。

其中，时间序列算法可由ARIMA和LSTM两种算法融合得到，第一识别模型的评估采用平均绝对百分比误差(MAPE)指标，当第一识别模型对应的MAPE指标值小于预置标准比较阈值时，确定第一识别模型符合评估标准。MAPE指标用于评估模型预测值和真实值之间的误差，还考虑了误差与真实值之间的比例，其计算公式为：

在上面公式中，N为样本总数，X为实测值，Y为模拟值。MAPE值越小，说明模型预测值和真实值之间的误差越小，在具体实施方式中，可根据实际情况设定标准比较阈值，当MAPE小于标准比较阈值时，说明第一识别模型符合评估标准。通过符合评估标准的识别模型进行预测，可保证预测结果的准确性。

通过符合评估标准的第一识别模型可确定特征信息X和标签信息Y1之间的第一映射关系。

为了说明上述第一识别模型的训练过程，作为一种可选方式，该过程具体包括：

(1)采用随机采样方式从第一模型训练集中分别获取第一训练样本集、第二训练样本集，例如从第一模型训练集中随机抽取n个训练样本，共进行两轮抽取，得到两个训练集。(两个训练集之间相互独立，元素可以有重复)；

(2)基于第一训练样本集利用ARIMA算法，训练得到第一分类器；基于第二训练样本集利用LSTM算法，训练得到第二分类器；

其中，每个训练样本集中都包含有不同的特征信息X，以及各自对应的标签信息Y1，这两种分类器的训练过程可基于各自对应的模型训练算法训练得到，且得到的这两种分类器都可单独进行空腹血糖值时间序列的预测，即输入待测用户的特征数据(具体内容对应特征信息X)，通过分类器找到相对应的标签信息Y1。

对于第一分类器的具体训练过程：

1)设与特征信息X_i对应的空腹血糖值的时间序列Y_i可用Y_i＝{y_i1，y_i2，…，y_ik}来表示，其中1至k表示时间点，y_it表示Y_i第t个时间点的值。ARIMA(p，d，q)模型中有三个参数p，d，q，其中，p表示预测模型中采用的时序数据本身的滞后数；d表示时序数据需要进行几阶差分化才是稳定的；q表示预测模型中采用的预测误差的滞后数。

2)通过步骤202中差分化处理的步骤确定d，而对空腹血糖值的时间序列分别求其自相关系数ACF和偏自相关系数PACF和偏自相关系数PACF；然后利用这两个系数分别生成自相关图和偏自相关图，然后从图中分析得到最佳的阶层p和阶数q。

3)基于上述p，d，q值，得到第一分类器的初始数学形式表示为：

Y_i＝μ+φ₁*f(X_i)+...+φ_p*f(X_i-p)+θ₁*f(X_i-1)+...+θ_q*f(X_i-q)，其中，φ表示自回归AR的系数，θ表示移动平均MA的系数，μ为设定的偏移值(如取相邻两点差值的平均值)。

4)利用上述公式，带入第一训练样本集中的数据进行训练，求解f(Xi)，作为第一分类器。

对于第二分类器的具体训练过程：

LSTM相当于门限循环神经网络RNN，LSTM的巧妙之处在于通过增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，这样一来在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度膨胀的问题。基于这一原理执行下列步骤：

1)设与特征信息X_i对应的空腹血糖值的时间序列Y_i可用Y_i＝{y_i1，y_i2，…，y_ik}来表示，其中1至k表示时间点，y_it表示Y_i第t个时间点的值。

2)利用公式Y_i＝A[(w_f+w_i)*f(X_i)/w_o+(B_f+B_i)/B_o)]，带入第二训练样本集中的数据进行训练，求解f(Xi)，作为第二分类器。其中，A为设定的调整参数，w_f为遗忘门限对应的权重，w_i为输入门限对应的权重，w_o为输出门限对应的权重，B_f为遗忘门限对应的补偿值，B_i为输入门限对应的补偿值，B_o为输出门限对应的补偿值。

(3)将第一分类器和第二分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第一识别模型。

例如，两个分类器得到的结果分别为时间序列Ai{A1，A2….An}，时间序列Bi{B1，B2….Bn}，将Ai与Bi相加求平均，即最后得到的第一识别模型的预测结果为{(A1+B1)/2，(A2+B2)/2，…(An+Bn)/2}.

进一步的，若根据MAPE指标值确定经过一轮训练得到的第一识别模型不符合评估标准，则重新执行划分第一模型训练集和继续训练不符合标准的第一识别模型的步骤，直至第一识别模型符合标准。例如重新划分第一模型训练集，得到两个新的训练样本集，并利用这两个新的训练样本集对已经训练得到的两个分类器继续进行训练，然后评估由两个新训练的分类器得到的第一识别模型的MAPE指标值，如果仍然不符合评估标准，则再重新执行划分第一模型训练集，重复上述过程，直至第一识别模型符合评估标准。

与步骤203a并列的步骤203b、将预处理后的样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2，并结合特征信息X，创建第二模型训练集。

结合步骤202中稳定序列转化的可选方式，将预处理后的样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2，具体包括：将预处理后的餐后两小时血糖值的稳定序列作为标签信息Y2。

204b、利用第二模型训练集并结合时间序列算法，训练得到第二识别模型。

其中，第二识别模型的评估采用MAPE指标，当第二识别模型对应的MAPE指标值小于预定标准比较阈值时，确定第二识别模型符合评估标准，通过符合评估标准的第二识别模型可确定特征信息X和标签信息Y2之间的第二映射关系。

作为一种可选方式，步骤204b具体可包括：采用随机采样方式从第二模型训练集中分别获取第三训练样本集、第四训练样本集；基于第三训练样本集利用ARIMA算法，训练得到第三分类器；基于第四训练样本集利用LSTM算法，训练得到第四分类器；将第三分类器和第四分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第二识别模型；若根据MAPE指标值确定经过一轮训练得到的第二识别模型不符合评估标准，则重新执行划分第二模型训练集和继续训练不符合标准的第二识别模型的步骤，直至第二识别模型符合标准。

上述可选方式的具体实现过程可参照步骤204a中的实现过程，在此不再赘述。

205、将目标用户的历史用户数据输入到预测模型中，预测目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列。

作为一种可选方式，步骤205具体可包括：将目标用户的历史用户数据经过预处理，得到目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据；将历史用药数据、历史症状数据、历史体征数据、历史生活方式数据输入到第一识别模型中与特征信息X进行相似度匹配，并利用第一映射关系，确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1；

将目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配，判定历史空腹血糖值的稳定序列匹配到第一目标时间序列中的第一目标位置，以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列，确定目标用户在预设未来时间段内空腹血糖值的第一预测序列；将历史用药数据、历史症状数据、历史体征数据、历史生活方式数据输入到第二识别模型中与特征信息X进行相似度匹配，并利用第二映射关系，确定与相似度大于预设阈值、且相似度最高的特征信息X对应的目标标签信息Y2；

将目标标签信息Y2相应的第二目标时间序列与历史餐后两小时血糖值的稳定序列进行近似匹配，判定餐后两小时血糖值的稳定序列匹配到第二目标时间序列中的第二目标位置，以便利用第二目标时间序列中在第二目标位置后的餐后两小时血糖值时间序列，确定目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。

其中，预定阈值可根据实际需求预先设置。例如，预定阈值设置得越大，相应的特征匹配精度越高，如果相似度为100％，则说明特征完全匹配。

通过上述获取空腹血糖的第一预测序列和餐后预设时长血糖的第二预测序列的方法，对预设历史时间段内的目标用户数据中空腹血糖和餐后两小时血糖的时序数据进行清洗和内插的预处理，以得到目标用户对应的预设历史时间段内日颗粒度的目标血糖序列，将目标用户数据结构化处理，方便血糖值预测模型结合目标用户的历史数据进行血糖值的预测，为了使目标用户的历史血糖序列趋势性更加明显，将历史血糖序列转化为平稳序列输出，对数据进行差分以及移动平滑处理，便于准确分析出目标用户的第一预测序列和第二预测序列。

例如，在预测模型输入目标用户最近3个月的用药、症状、体征和生活方式等糖尿病随访数据后，相当于将这些数据分别输入到上述步骤204a的两个分类器中，并与分类器各自对应的特征信息进行相似度匹配，分别找到最相似且大于一定阈值的特征信息，进而通过这两个分类器分别求出各自对应的空腹血糖值时间序列，然后通过相加求平均的方式得到最终的空腹血糖值时间序列B，该序列B相当于与目标用户具有相似特征的样本用户在最近1年内的空腹血糖值波动情况，将目标用户这3个月的空腹血糖值时间序列A与样本用户这1年内的空腹血糖值时间序列B进行匹配，找到序列A在序列B中的位置，然后将该位置以后的序列数据作为目标用户的未来空腹血糖值的时间序列，即代表目标用户的未来空腹血糖值的变化情况。

利用相同方法，将目标用户的用药、症状、体征和生活方式等糖尿病随访数据输入到上述步骤204b的两个分类器中，最后可求出代表目标用户的未来餐后两小时血糖值变化情况的餐后两小时血糖值时间序列。

在本实施例中，除了计算出目标用户的未来血糖值变化情况以外，还可进一步分析得到影响未来血糖变化的影响因素，即执行步骤206至208所示过程。

206、从目标用户的历史用户数据中获取目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值。

207、将每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响第一预测序列中血糖指标变化的影响因素。

作为一种可选方式，在步骤207之前还包括：获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列。

在本可选方式中，可依据每次糖尿病随访时的用药情况进行评分(如药剂量越大评分越高)，依据每次糖尿病随访时出现的症状情况进行评分(如症状数越多评分越高、出现异常症状时评分也较高等)，依据每次糖尿病随访时出现的体征情况进行评分(如体征越异常评分越高)，依据每次糖尿病随访时记录的生活方式情况进行评分(如生活作息越异常评分越高)。

相应的，步骤207具体可包括：计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与空腹血糖值序列之间的相关系数的第一绝对值；依据用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列中获取第一绝对值最高的一项或多项，确定影响第一预测序列中血糖指标变化的关键影响因素。

例如，可利用计算公式为：

计算相关系数。其中，ρ_X，Y为X序列与Y序列二者之间的相关系数，σ_X为X序列的标准差，μ_X为X序列的平均值，σ_Y为Y序列的标准差，μ_Y为Y序列的平均值，E()用于计算期望。如用药评分值序列与空腹血糖值序列之间的相关系数的绝对值最高，那么目标用户的用药情况是影响未来空腹血糖值变化的关键影响因素。

208、将每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。

基于步骤207中的可选方式过程，相应的，步骤208具体可包括：计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与餐后两小时血糖值序列之间的相关系数的第二绝对值；依据用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列中获取第二绝对值最高的一项或多项，确定影响第二预测序列中血糖指标变化的关键影响因素。

例如，可利用上述计算公式，计算用药评分值序列、症状评分值序列、体征评分值序列、生活作息评分值序列分别与餐后两小时血糖值序列之间的相关系数。如用生活作息评分值序列与餐后两小时血糖值序列之间的相关系数的绝对值最高，那么目标用户的生活方式情况是影响未来餐后两小时血糖值变化的关键影响因素。

通过上述预测未来血糖值的方法，可很好的预测出目标用户的未来血糖值变化规律，进而可实时监测糖尿病的发展情况，进行相应的配套治疗，在对糖尿病的治疗控制上具有很大的意义；并且还可判断出影响未来血糖指标变化的重要因素，可使诊断结果更加完善，覆盖类型更全面，从而能为患者及医生提供更好的治疗依据。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种预测未来血糖值的装置，如图3所示，该装置包括：提取模块31、创建模块32、确定模块33。

提取模块31，可用于从原始健康档案和电子病历中提取糖尿病随访记录大于预设时长阈值的样本用户对应的样本用户数据；

创建模块32，可用于利用所述样本用户数据创建血糖值时间序列的预测模型；

确定模块33，可用于将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列，其中，所述历史用户数据对应的历史时长小于所述预设时长阈值，所述目标用户和所述样本用户均为糖尿病患者。

在具体的应用场景中，为了创建出血糖值时间序列的预测模型，如图4所示，创建模块32，具体可包括：处理单元321、创建单元322、训练单元323。

处理单元321，可用于对样本用户数据进行预处理；

创建单元322，可用于将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1，将所述样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X，创建第一模型训练集，其中，所述目标特征数据包括用药数据、症状数据、体征数据、生活方式数据；

训练单元323，可用于利用所述第一模型训练集并结合时间序列算法，训练得到第一识别模型，其中，所述时间序列算法由ARIMA和LSTM两种算法融合得到，所述第一识别模型的评估采用平均绝对百分比误差MAPE指标，当所述第一识别模型对应的MAPE指标值小于预置标准比较阈值时，确定所述第一识别模型符合评估标准，通过符合评估标准的所述第一识别模型可确定所述特征信息X和所述标签信息Y1之间的第一映射关系；

创建单元322，还可用于将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2，并结合所述特征信息X，创建第二模型训练集；

训练单元323，还可用于利用所述第二模型训练集并结合所述时间序列算法，训练得到第二识别模型，其中，所述第二识别模型的评估采用MAPE指标，当所述第二识别模型对应的MAPE指标值小于预定标准比较阈值时，确定所述第二识别模型符合评估标准，通过符合评估标准的所述第二识别模型可确定所述特征信息X和所述标签信息Y2之间的第二映射关系。

在具体的应用场景中，处理单元321，具体可用于利用正则表达式从所述样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据；若所述空腹血糖值的时序数据或所述餐后两小时血糖的时序数据，在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况，则使用所述多条血糖测量值中的众数作为该天对应的血糖测量值；及若所述空腹血糖值或所述餐后两小时血糖值在所述预设历史时间段内出现血糖测量数据空缺的日期，则使用内插法补充所述日期对应的空值，得到日颗粒度的血糖序列；对所述日颗粒度的血糖序列，进行差分化移动平滑处理，得到稳定序列；

创建单元322，具体可用于将预处理后的所述空腹血糖值的稳定序列作为标签信息Y1；

创建单元322，具体还可用于将预处理后的所述餐后两小时血糖值的稳定序列作为标签信息Y2。

在具体的应用场景中，确定模块33，具体可用于将所述目标用户的历史用户数据经过预处理，得到所述目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据；将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第一识别模型中与所述特征信息X进行相似度匹配，并利用所述第一映射关系，确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1；将所述目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配，判定所述历史空腹血糖值的稳定序列匹配到所述第一目标时间序列中的第一目标位置，以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列，确定所述目标用户在预设未来时间段内空腹血糖值的第一预测序列；将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第二识别模型中与所述特征信息X进行相似度匹配，并利用所述第二映射关系，确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y2；将所述目标标签信息Y2相应的第二目标时间序列与所述历史餐后两小时血糖值的稳定序列进行近似匹配，判定所述餐后两小时血糖值的稳定序列匹配到所述第二目标时间序列中的第二目标位置，以便利用所述第二目标时间序列中在所述第二目标位置后的餐后两小时血糖值时间序列，确定所述目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。

在具体的应用场景中，训练单元323，具体可用于采用随机采样方式从所述第一模型训练集中分别获取第一训练样本集、第二训练样本集；基于所述第一训练样本集利用ARIMA算法，训练得到第一分类器；基于所述第二训练样本集利用LSTM算法，训练得到第二分类器；将所述第一分类器和所述第二分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第一识别模型；若根据MAPE指标值确定所述经过一轮训练得到的第一识别模型不符合评估标准，则重新执行划分所述第一模型训练集和继续训练不符合标准的所述第一识别模型的步骤，直至所述第一识别模型符合标准；

训练单元323，具体还可用于采用随机采样方式从所述第二模型训练集中分别获取第三训练样本集、第四训练样本集；基于所述第三训练样本集利用ARIMA算法，训练得到第三分类器；基于所述第四训练样本集利用LSTM算法，训练得到第四分类器；将所述第三分类器和所述第四分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第二识别模型；若根据MAPE指标值确定所述经过一轮训练得到的第二识别模型不符合评估标准，则重新执行划分所述第二模型训练集和继续训练不符合标准的所述第二识别模型的步骤，直至所述第二识别模型符合标准。

在具体的应用场景中，如图4所示，本装置还包括：计算模块34；

提取模块31，还可用于从所述历史用户数据中获取所述目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值；

计算模块34，可用于将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素；及将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。

在具体的应用场景中，提取模块31，还可用于获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列；

计算模块34，具体可用于计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述空腹血糖值序列之间的相关系数的第一绝对值；依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第一绝对值最高的一项或多项，确定影响所述第一预测序列中血糖指标变化的关键影响因素；

计算模块34，具体还可用于计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述餐后两小时血糖值序列之间的相关系数的第二绝对值；依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第二绝对值最高的一项或多项，确定影响所述第二预测序列中血糖指标变化的关键影响因素。

需要说明的是，本实施例提供的一种预测预测未来血糖值的装置所涉及各功能模块的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的预测未来血糖值的方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的预测未来血糖值的方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理预测未来血糖值的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可很好的预测出目标用户的未来血糖值变化规律，进而可实时监测糖尿病的发展情况，进行相应的配套治疗，在对糖尿病的治疗控制上具有很大的意义；并且还可判断出影响未来血糖指标变化的重要因素，可使诊断结果更加完善，覆盖类型更全面，从而能为患者及医生提供更好的治疗依据。。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种预测未来血糖值的方法，其特征在于，包括：

利用所述样本用户数据创建血糖值时间序列的预测模型；

2.根据权利要求1所述的方法，其特征在于，所述利用所述样本用户数据创建血糖值时间序列的预测模型，具体包括：

对样本用户数据进行预处理；

将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1，将所述样本用户数据中除空腹血糖值和餐后两小时血糖值以外的目标特征数据作为特征信息X，创建第一模型训练集，其中，所述目标特征数据包括用药数据、症状数据、体征数据、生活方式数据；

利用所述第一模型训练集并结合时间序列算法，训练得到第一识别模型，其中，所述时间序列算法由ARIMA和LSTM两种算法融合得到，所述第一识别模型的评估采用平均绝对百分比误差MAPE指标，当所述第一识别模型对应的MAPE指标值小于预置标准比较阈值时，确定所述第一识别模型符合评估标准，通过符合评估标准的所述第一识别模型可确定所述特征信息X和所述标签信息Y1之间的第一映射关系；

将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2，并结合所述特征信息X，创建第二模型训练集；

利用所述第二模型训练集并结合所述时间序列算法，训练得到第二识别模型，其中，所述第二识别模型的评估采用MAPE指标，当所述第二识别模型对应的MAPE指标值小于预定标准比较阈值时，确定所述第二识别模型符合评估标准，通过符合评估标准的所述第二识别模型可确定所述特征信息X和所述标签信息Y2之间的第二映射关系。

3.根据权利要求2所述的方法，其特征在于，所述对样本用户数据进行预处理，具体包括：

利用正则表达式从所述样本用户数据中提取空腹血糖值的时序数据和餐后两小时血糖值的时序数据；

若所述空腹血糖值的时序数据或所述餐后两小时血糖的时序数据，在预设历史时间段的部分日期存在一天内具有多条血糖测量数据的情况，则使用所述多条血糖测量值中的众数作为该天对应的血糖测量值；及

若所述空腹血糖值或所述餐后两小时血糖值在所述预设历史时间段内出现血糖测量数据空缺的日期，则使用内插法补充所述日期对应的空值，得到日颗粒度的血糖序列；

对所述日颗粒度的血糖序列，进行差分化移动平滑处理，得到稳定序列；

所述将预处理后的所述样本用户数据中空腹血糖值的时序数据作为标签信息Y1，具体包括：

将预处理后的所述空腹血糖值的稳定序列作为标签信息Y1；

所述将预处理后的所述样本用户数据中餐后两小时血糖值的时序数据作为标签信息Y2，具体包括：

将预处理后的所述餐后两小时血糖值的稳定序列作为标签信息Y2。

4.根据权利要求3所述的方法，其特征在于，所述将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列，具体包括：

将所述目标用户的历史用户数据经过预处理，得到所述目标用户的历史空腹血糖值的稳定序列、历史餐后两小时血糖值的稳定序列、历史用药数据、历史症状数据、历史体征数据、历史生活方式数据；

将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第一识别模型中与所述特征信息X进行相似度匹配，并利用所述第一映射关系，确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y1；

将所述目标标签信息Y1相应的第一目标时间序列与所述历史空腹血糖值的稳定序列进行近似匹配，判定所述历史空腹血糖值的稳定序列匹配到所述第一目标时间序列中的第一目标位置，以便利用所述第一目标时间序列中在所述第一目标位置后的空腹血糖值时间序列，确定所述目标用户在预设未来时间段内空腹血糖值的第一预测序列；

将所述历史用药数据、所述历史症状数据、所述历史体征数据、所述历史生活方式数据输入到所述第二识别模型中与所述特征信息X进行相似度匹配，并利用所述第二映射关系，确定与相似度大于预设阈值、且相似度最高的所述特征信息X对应的目标标签信息Y2；

将所述目标标签信息Y2相应的第二目标时间序列与所述历史餐后两小时血糖值的稳定序列进行近似匹配，判定所述餐后两小时血糖值的稳定序列匹配到所述第二目标时间序列中的第二目标位置，以便利用所述第二目标时间序列中在所述第二目标位置后的餐后两小时血糖值时间序列，确定所述目标用户在预设未来时间段内餐后两小时血糖值的第二预测序列。

5.根据权利要求2所述的方法，其特征在于，所述利用所述第一模型训练集并结合时间序列算法，训练得到第一识别模型，具体包括：

采用随机采样方式从所述第一模型训练集中分别获取第一训练样本集、第二训练样本集；

基于所述第一训练样本集利用ARIMA算法，训练得到第一分类器；

基于所述第二训练样本集利用LSTM算法，训练得到第二分类器；

将所述第一分类器和所述第二分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第一识别模型；

若根据MAPE指标值确定所述经过一轮训练得到的第一识别模型不符合评估标准，则重新执行划分所述第一模型训练集和继续训练不符合标准的所述第一识别模型的步骤，直至所述第一识别模型符合标准；

所述利用所述第二模型训练集并结合所述时间序列算法，训练得到第二识别模型，具体包括：

采用随机采样方式从所述第二模型训练集中分别获取第三训练样本集、第四训练样本集；

基于所述第三训练样本集利用ARIMA算法，训练得到第三分类器；

基于所述第四训练样本集利用LSTM算法，训练得到第四分类器；

将所述第三分类器和所述第四分类器利用求二者平均时间序列的方式进行融合处理，作为经过一轮训练得到的第二识别模型；

若根据MAPE指标值确定所述经过一轮训练得到的第二识别模型不符合评估标准，则重新执行划分所述第二模型训练集和继续训练不符合标准的所述第二识别模型的步骤，直至所述第二识别模型符合标准。

6.根据权利要求1所述的方法，其特征在于，在所述将目标用户的历史用户数据输入到所述预测模型中，预测所述目标用户在预设未来时间段内空腹血糖值的第一预测序列，和餐后两小时血糖值的第二预测序列之后，所述方法还包括：

从所述历史用户数据中获取所述目标用户每次随访的用药数据、症状数据、体征数据、生活方式数据、空腹血糖值、餐后两小时血糖值；

将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素；及

将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素。

7.根据权利要求6所述的方法，其特征在于，在所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素之前，所述方法还包括：

获取每次随访用药组成的用药评分值序列、每次随访症状组成的症状评分值序列、每次随访体征组成的体征评分值序列、每次随访生活方式组成的生活作息评分值序列、每次随访测量的空腹血糖值序列和餐后两小时血糖值序列；

所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的空腹血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第一预测序列中血糖指标变化的影响因素，具体包括：

计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述空腹血糖值序列之间的相关系数的第一绝对值；

依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第一绝对值最高的一项或多项，确定影响所述第一预测序列中血糖指标变化的关键影响因素；

所述将所述每次随访的用药数据、症状数据、体征数据、生活方式数据分别与每次随访的餐后两小时血糖值之间进行相关分析计算，依据得到的相关分析计算结果判定影响所述第二预测序列中血糖指标变化的影响因素，具体包括：

计算所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列分别与所述餐后两小时血糖值序列之间的相关系数的第二绝对值；

依据所述用药评分值序列、所述症状评分值序列、所述体征评分值序列、所述生活作息评分值序列中获取所述第二绝对值最高的一项或多项，确定影响所述第二预测序列中血糖指标变化的关键影响因素。

8.一种预测未来血糖值的装置，其特征在于，包括：

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的预测未来血糖值的方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的预测未来血糖值的方法。