CN113077900B

CN113077900B - 糖尿病早期风险评估方法、装置、计算机设备及介质

Info

Publication number: CN113077900B
Application number: CN202110267404.7A
Authority: CN
Inventors: 胡文胜; 卢莎; 张艺超
Original assignee: Hangzhjou Obstetrics & Gynecology Hospital
Current assignee: Hangzhjou Obstetrics & Gynecology Hospital
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-10-20
Anticipated expiration: 2041-03-11
Also published as: CN113077900A

Abstract

本发明涉及糖尿病早期风险评估方法、装置、计算机设备及介质，该方法包括获取医疗数据，以得到初始数据；对所述初始数据进行预处理，以得到中间数据；将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果；发送所述预测结果至终端，以供终端持有者进行预警和干预；其中，所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的。本发明实现提高GDM早期风险评估的准确性，且可做到GDM早发现、早干预、早治疗，以减少其发病率和不良后果，同时为医院节省大量人力资料。

Description

糖尿病早期风险评估方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，更具体地说是指针对妊娠期的糖尿病早期风险评估方法、装置、计算机设备及介质。

背景技术

GDM(妊娠期糖尿病，gestational diabetes mellitus)是指妊娠期间发生的不同程度的糖代谢异常，不包含孕前存在的糖尿病或糖尿病前期，患病率为9.5％～25.5％，且随年龄增加而上升。GDM可能会导致严重的并发症，常见有产后出血、胎膜早破、胎盘早剥、羊水过多等，远期还可使心血管疾病和2型糖尿病发病风险明显增高对于子代来说，孕期胎儿暴露于高血糖、高血脂等不良宫内环境，对胚胎各器官功能产生长期影响，导致胎儿生长受限、巨大儿、胎儿宫内窘迫、胎死宫内、新生儿低血糖、新生儿窒息等，影响子代体格发育，成年后发生代谢综合征和心血管疾病的几率也明显增加。早期识别GDM高危人群，早期干预对降低GDM发生风险、减轻疾病负担意义重大。GDM发生与胎盘功能密切相关，且根据专家共识，血糖在妊娠早期呈生理性下降，因此当前筛查与诊断选择胎盘功能相对成熟的孕24～28周，而此时已无法阻止GDM的病理生理进程。

临床上GDM的诊断应综合考虑影响糖代谢的因素为减少GDM发病率，目前大致分为两类GDM的早期评估方法。一类是采用人口学数据，如Linda和Van的研究则基于患者特征和病史早期预测GDM，各研究结果的AUC集中在0.70～0.75；此类方法多依靠产前数据和一些固定资料，忽略了孕产在妊娠期的一些病理状态，因此往往准确率较低。另一类是基于生物指标的GDM预测，如苗志荣等人探讨早孕期空腹血糖、血脂、血压等常用临床指标对不同孕前体重的GDM预测价值，其中在肥胖人群中ROC曲线下面积达0.793；Abell等人结合12～15周的空腹血糖和血清生物标志物预测GDM，AUC(受试者工作特征曲线下的面积，Area UnderCurve)可达0.85；而此类研究目前多采用固定时间段的化验指标或者体检指标，未考虑到生理参数的时序关系，评估的准确率不高。

因此，有必要设计一种新的方法，实现提高GDM早期风险评估的准确性。

发明内容

本发明的目的在于克服现有技术的缺陷，提供糖尿病早期风险评估方法、装置、计算机设备及介质。

为实现上述目的，本发明采用以下技术方案：糖尿病早期风险评估方法，包括：

获取医疗数据，以得到初始数据；

对所述初始数据进行预处理，以得到中间数据；

将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果；

发送所述预测结果至终端，以供终端持有者进行预警和干预；

其中，所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的。

其进一步技术方案为：所述医疗数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录中至少一种。

其进一步技术方案为：所述对所述初始数据进行预处理，以得到中间数据，包括：

对所述初始数据中的临床病例资料进行筛选和汇总，以得到汇总后的数据；

对汇总后的数据进行数据转换和特征提取，以得到关键特征；

对所述关键特征进行缺失值填补，以得到填补结果；

对所述填补结果进行归一化处理，以得到处理后的数据；

对处理后的数据进行异常值剔除，以得到中间数据。

其进一步技术方案为：所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的，包括：

对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征；

对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征；

融合动态资料的特征以及固定资料的特征，以得到新特征；

构建GRU模型，利用所述新特征对所述GRU模型进行训练，采用预设定的评价指标评价训练后的所述GRU模型，以得到GDM预测模型。

其进一步技术方案为：所述对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征，包括：

对若干个预处理后的医疗数据构成的样本集内动态数据集分别通过XGBoost模型和RF模型计算对应的预测值，并对两个预测值进行求平均值；

选择平均值大于预设的信息增益率阈值所对应的动态数据，以得到动态资料的特征。

其进一步技术方案为：所述对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征，包括：

构建梯度提升树，并对若干个预处理后的医疗数据构成的样本集生成固定资料的特征；

其中，所述构建梯度提升树，包括：

计算梯度提升树的负梯度；

更新对应的基学习器；

对每轮产生的基学习器通过线性相加，以得到梯度提升树。

其进一步技术方案为：所述评价指标包括准确率、查准率、召回率、F1值、混淆矩阵及ROC曲线下面积的度量值。

本发明还提供了糖尿病早期风险评估装置，包括：

数据获取单元，用于获取医疗数据，以得到初始数据；

预处理单元，用于对所述初始数据进行预处理，以得到中间数据；

预测单元，用于将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果；

发送单元，用于发送所述预测结果至终端，以供终端持有者进行预警和干预。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过获取医疗数据，并对医疗数据进行预处理后，输入GDM预测模型进行自动预测，由此获取妊娠期糖尿病早期风险对应的预测结果，实现提高GDM早期风险评估的准确性，且可做到GDM早发现、早干预、早治疗，以减少其发病率和不良后果，同时为医院节省大量人力资料。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的糖尿病早期风险评估方法的应用场景示意图；

图2为本发明实施例提供的糖尿病早期风险评估方法的流程示意图；

图3为本发明实施例提供的糖尿病早期风险评估方法的子流程示意图；

图4为本发明实施例提供的糖尿病早期风险评估方法的子流程示意图；

图5为本发明实施例提供的糖尿病早期风险评估方法的子流程示意图；

图6为本发明实施例提供的糖尿病早期风险评估方法的子流程示意图；

图7为本发明实施例提供的糖尿病早期风险评估装置的示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的糖尿病早期风险评估方法的应用场景示意图。图2为本发明实施例提供的糖尿病早期风险评估方法的示意性流程图。该糖尿病早期风险评估方法应用于服务器中，该服务器与终端进行数据交互，终端主要是集成有医疗系统，包括医生的就诊端以及病人的资料上传端等，服务器针对着终端输入的医疗数据进行预处理后在进行妊娠期糖尿病早期风险的评估，并及时反馈至终端，以便于及时预警和干预病情。

GDM早期风险评估应考虑各因素间的相互相关系、比例权重及相关指标的时序关系，随着机器学习和深度学习技术的飞速发展，人工智能技术也逐渐应用在孕产妇健康方面，妊娠期糖尿病早期风险评估的核心在于GDM预测模型的构建，利用时序模型充分挖掘不同时序长度数据变化特征，提高GDM早期风险评估的准确性。

图2是本发明实施例提供的糖尿病早期风险评估方法的流程示意图。如图2所示，该方法包括以下步骤S110至S140。

S110、获取医疗数据，以得到初始数据。

在本实施例中，初始数据是指由终端输入的医疗数据，是多源异构数据，该医疗数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录中至少一种。

具体地，上述的初始数据包括固定资料和动态资料，其中，固定资料是指产妇人口学资料、产前检查资料；动态资料是指孕早期实验室检验以及超声影像检查记录；

其中固定资料的输入变量包括年龄、出生日期、孕次、产次、身高、孕前体重、产前收缩压和舒张压、末次月经、初潮、经期、周期、月经量、痛经、自然妊娠、血型、文化程度、所处社区等；富含时序特征的动态资料主要有B超影像资料和实验室检查资料，早期B超数据包含顶臀径，孕囊大小，NT厚等，中期B超数据则有双顶径、头围、股骨长、腹围、羊水指数、脐动脉血流等；实验检查数据包含血常规、血脂代谢、血糖和甲状腺相关数据。输出变量为24周后临床诊断GDM的情况。

S120、对所述初始数据进行预处理，以得到中间数据。

在本实施例中，中间数据是指经过特征提取、缺失值填补、归一化等预处理后的特征。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S125。

S121、对所述初始数据中的临床病例资料进行筛选和汇总，以得到汇总后的数据。

在本实施例中，汇总后的数据是指孕早期的就诊、体检并后续继续在就诊至分娩的完整临床病例资料。

在本实施例中，选取孕早期在本院就诊、体检，并后续继续在本院就诊至分娩的完整临床病例资料。筛选排除标准如下：妊娠前患糖尿病；24周前就诊、体检次数小于3次；有严重的心、脑、血管、肾等内外科合并症及妊娠并发症；双胎以及多胎；利用这些标准进行筛选后，对筛选出来的结果进行汇总，以得到汇总后的数据。

S122、对汇总后的数据进行数据转换和特征提取，以得到关键特征。

在本实施例中，关键特征是指阴道分娩史、剖宫产史、流产史等与孕妇相关的数据和孕囊大小、羊水指数、胎儿信息等与胎儿相关的数据。

在本实施例中，根据查询产妇具体分娩记录，将孕次和产次转化为阴道分娩史、剖宫产史、流产史；B超影像以检查报告等形式，通过正则表达式的形式，提取孕囊大小、羊水指数、胎儿信息等特征。

S123、对所述关键特征进行缺失值填补，以得到填补结果。

在本实施例中，填补结果是指采用拉格朗日插值法填补所述关键特征的缺失值。

在本实施例中，年龄、BMI等<1％的缺失值，可通过人工校验原始数据直接填补；体检数据和化验数据等连续性变量采用拉格朗日插值法填补缺失值：其中x表示时间，y表示具体的时序检查参数，其几何意义为(x₁，y₁)和(x₂，y₂)是曲线上的两个点，由一条直线y来近似拟合该曲线。

S124、对所述填补结果进行归一化处理，以得到处理后的数据。

在本实施例中，处理后的数据是指归一化处理后的特征。

由于特征具有不同的量纲和量纲单位，数值间的差距会对模型造成影响，因此需要对数据进行归一化处理，避免值域较大的特征影响其他特征，同时提升模型的收敛速度。采用min-max标准化，使得结果映射到[0，1]之间， y＝y_predict(xmin_max+x_min)；其中x为当前特征值，x_min,x_max分别为当前特征的最小值和最大值，x*为标准化后的特征值。模型得到预测结果后，需要对结果进行反归一化处理得到真实值，其中y为真实值，y_predict为预测值。

S125、对处理后的数据进行异常值剔除，以得到中间数据。

在本实施例中，中间数据是指剔除大于三倍数据列标准差的特征之后所剩下的特征。

具体地，采用拉依达准则进行异常值处理，即以给定的置信概率99.7％为标准，以3倍数据列标准差为依据，删除大于该值的异常数据行；即|vb|＝|xb-x|>3σ，其中测量值xb的剩余误差vb大于3倍数据列标准差σ时，应予剔除。

S130、将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果。

在本实施例中，预测结果是指不同时序长度数据变化特征对应的ROC曲线下面积的度量值。该预测结果可以是否患有GDM或者患GDM的概率。

在一实施例中，请参阅图4，上述的步骤S130可包括步骤S131～S134。

S131、对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征。

在本实施例中，动态资料的特征是指根据动态资料提取所得的特征。

在一实施例中，请参阅图5，上述的步骤S131可包括步骤S1311～S1312。

S1311、对若干个预处理后的医疗数据构成的样本集内动态数据集分别通过XGBoost模型和RF模型计算对应的预测值，并对两个预测值进行求平均值。

具体地，动态数据集是指动态资料，通过XGBoost(梯度提升，Extreme GradientBoosting)模型和RF(随机森林，random forests)模型分别计算得到梯度提升值XGB值和随机森林值RF值，并取其平均值Gain-ratio_avg，初步删去不重要的特征以提高计算速度和泛化能力。

S1312、选择平均值大于预设的信息增益率阈值所对应的动态数据，以得到动态资料的特征。

在本实施例中，选择平均值大于信息增益率阈值V_Gain-ratio的变量小于最大信息增益变量max(V_Gain-ratio)的15％该阈值所对应的动态数据，其中，动态资料的特征Variables＝{V|V_Gain-ratio>0.15×max(V_Gain-ratio)}。

S132、对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征。

在本实施例中，固定资料的特征是指根据固定资料提取所得的特征。

具体地，构建梯度提升树，并对若干个预处理后的医疗数据构成的样本集生成固定资料的特征。其中，梯度提升树是指用于提取固定资料的特征的模型。

具体地，是对若干个预处理后的医疗数据构成的样本集中的固定数据集生成固定资料的特征；其中，固定数据集是指固定资料。

在一实施例中，请参阅图6，上述的构建梯度提升树可包括步骤S1321～S1323。

S1321、计算梯度提升树的负梯度。

在本实施例中，梯度提升树利用损失函数的负梯度在当前模型F_m(x)＝F_m-1(x)的值近似替代残差，则负梯度r_ij的计算公式如下：其中当前模型为F_m(x)，训练样本为i(i＝1，2，3…，n)，迭代次数j(j＝1，2，3…，m)，损失函数为L(y_i,F(x_i))。具体的，m为树的个数，用损失函数的负梯度来拟合本轮损失的近似值，r_ij表示第j轮第i个样本的损失函数的负梯度。

S1322、更新对应的基学习器。

在本实施例中，使用基学习器h_j(x)拟合损失函数的负梯度r_j，求出使损失函数最小的最佳拟合值，从而进行模型更新，本轮的强学习器如下： F_j(x)＝F_j-1(x)+r_jh_j(x_i)。其中，强学习器是指更新后选择最优的基学习器。具体地，h_j(x)为基学习器；L(y,f(x))为损失函数，其中，y为预测真实值，f(x)为模型预测值；负梯度标号统一为r_ij。

S1323、对每轮产生的基学习器通过线性相加，以得到梯度提升树。

在本实施例中，最终梯度提升树是由每轮产生的基学习器通过线性相加的方式求得：F_m(x)为当前模型，j为迭代次数，m为最大迭代次数。

S133、融合动态资料的特征以及固定资料的特征，以得到新特征。

在本实施例中，新特征是指动态资料的特征以及固定资料的特征进行融合所得的特征。

具体地，固定资料的特征Feature₂，与动态资料的特征Features_{time_series}进行特征融合，获得新特征Features_new：

S134、构建GRU模型，利用所述新特征对所述GRU模型进行训练，采用预设定的评价指标评价训练后的所述GRU模型，以得到GDM预测模型。

在本实施例中，所述评价指标包括准确率、查准率、召回率、F1值、混淆矩阵及ROC曲线下面积的度量值。

新特征Features_new具有明显的时间依赖性，GRU(门控循环单元结构，GatedRecurrent Unit)神经网络模型通过一个隐藏层中的更新门和控制门来共同决定模型的保留和遗忘的能力，通过迭代得到最终的预测结果。一个当前的输入x_t，和上一个节点传递下来的隐状态h_t-1,这个隐状态包含了之前节点的信息；r_t＝σ(Wr·[h_t-1,x_t])；z_t＝σ(Wz·[h_t-1,x_t])；其中z_t和r_t分别表示更新门和重置门。z_t决定前一时刻的状态信息传输到当前状态的多少，z_t越大表明前一时刻的状态信息传入到当前状态越多，r_t决定前一状态有多少信息被写入到当前的候选集h_t上，σ是Sigmoid激活函数。

上一时刻隐藏数据经过重置门控得到的重置数据与当前的输入x_t相结合并通过tanh激活函数可以得到当前时刻的候选隐藏状态

最后使用同一个门控z_t进行选择和遗忘记忆，得到t时刻的隐藏状态：

得出当前时刻的隐藏状态h_t后，即可进一步得到GRU网络模型的输出为是否患有GDM，即y_t＝σ(W_O·h_t)；当y_t为1，表明患有GDM，当y_t为0，表明没有患GDM。

采用准确率、查准率(Precision)、召回率、F1值、混淆矩阵及ROC曲线下面积6个度量值对各个模型(如XGBoost模型、RF模型和GRU模型)的性能进行评价，以评估模型的预测能力。

S140、发送所述预测结果至终端，以供终端持有者进行预警和干预。

预测结果发送至终端，可将上述的GDM预测模型嵌入电子病系统实现GDM智能早期预警，可实现临床GDM的早期预测，尽早发现GDM相关预测指标，有助于确定高危人群，对预防和降低GDM的发生具有重要意义。可作为一种产科门诊辅助系统，填补当前国内对于早期GDM防治的空白，旨在对GDM早发现、早干预、早治疗，以减少其发病率和不良后果，同时为医院节省大量人力资料。

上述的糖尿病早期风险评估方法，通过获取医疗数据，并对医疗数据进行预处理后，输入GDM预测模型进行自动预测，由此获取妊娠期糖尿病早期风险对应的预测结果，实现提高GDM早期风险评估的准确性，且可做到GDM早发现、早干预、早治疗，以减少其发病率和不良后果，同时为医院节省大量人力资料。

图7是本发明实施例提供的一种糖尿病早期风险评估装置300的示意性框图。如图7所示，对应于以上糖尿病早期风险评估方法，本发明还提供一种糖尿病早期风险评估装置300。该糖尿病早期风险评估装置300包括用于执行上述糖尿病早期风险评估方法的单元，该装置可以被配置于服务器中。具体地，请参阅图7，该糖尿病早期风险评估装置300包括数据获取单元301、预处理单元302、预测单元303以及发送单元304。

数据获取单元301，用于获取医疗数据，以得到初始数据；预处理单元302，用于对所述初始数据进行预处理，以得到中间数据；预测单元303，用于将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果；发送单元304，用于发送所述预测结果至终端，以供终端持有者进行预警和干预。

在一实施例中，所述预处理单元302包括汇总子单元、特征提取子单元、填补子单元、归一化子单元以及剔除子单元。

汇总子单元，用于对所述初始数据中的临床病例资料进行筛选和汇总，以得到汇总后的数据；特征提取子单元，用于对汇总后的数据进行数据转换和特征提取，以得到关键特征；填补子单元，用于对所述关键特征进行缺失值填补，以得到填补结果；归一化子单元，用于对所述填补结果进行归一化处理，以得到处理后的数据；剔除子单元，用于对处理后的数据进行异常值剔除，以得到中间数据。

在一实施例中，上述的装置还包括训练单元。

所述训练单元，用于通过若干个预处理后的医疗数据作为样本集训练神经网络，以得到GDM预测模型。

在一实施例中，所述训练单元包括动态特征提取子单元、固定特征提取子单元、融合子单元以及模型处理子单元。

动态特征提取子单元，用于对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征；固定特征提取子单元，用于对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征；融合子单元，用于融合动态资料的特征以及固定资料的特征，以得到新特征；模型处理子单元，用于构建GRU模型，利用所述新特征对所述GRU模型进行训练，采用预设定的评价指标评价训练后的所述GRU模型，以得到GDM预测模型。

在一实施例中，所述动态特征提取子单元包括计算模块以及选择模块。

计算模块，用于对若干个预处理后的医疗数据构成的样本集内动态数据集分别通过XGBoost模型和RF模型计算对应的预测值，并对两个预测值进行求平均值；选择模块，用于选择平均值大于预设的信息增益率阈值所对应的动态数据，以得到动态资料的特征。

在一实施例中，所述固定特征提取子单元，用于构建梯度提升树，并对若干个预处理后的医疗数据构成的样本集生成固定资料的特征，其中，构建梯度提升树，包括：计算梯度提升树的负梯度；更新对应的基学习器；对每轮产生的基学习器通过线性相加，以得到梯度提升树。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述糖尿病早期风险评估装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述糖尿病早期风险评估装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种糖尿病早期风险评估方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种糖尿病早期风险评估方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取医疗数据，以得到初始数据；对所述初始数据进行预处理，以得到中间数据；将所述中间数据输入GDM预测模型内进行妊娠期糖尿病早期风险预测，以得到预测结果；发送所述预测结果至终端，以供终端持有者进行预警和干预；

所述医疗数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录中至少一种。

在一实施例中，处理器502在实现所述对所述初始数据进行预处理，以得到中间数据步骤时，具体实现如下步骤：

对所述初始数据中的临床病例资料进行筛选和汇总，以得到汇总后的数据；对汇总后的数据进行数据转换和特征提取，以得到关键特征；对所述关键特征进行缺失值填补，以得到填补结果；对所述填补结果进行归一化处理，以得到处理后的数据；对处理后的数据进行异常值剔除，以得到中间数据。

在一实施例中，处理器502在实现所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的步骤时，具体实现如下步骤：

对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征；对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征；融合动态资料的特征以及固定资料的特征，以得到新特征；构建GRU模型，利用所述新特征对所述GRU模型进行训练，采用预设定的评价指标评价训练后的所述GRU模型，以得到GDM预测模型。

其中，所述评价指标包括准确率、查准率、召回率、F1值、混淆矩阵及ROC曲线下面积的度量值。

在一实施例中，处理器502在实现所述对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征步骤时，具体实现如下步骤：

对若干个预处理后的医疗数据构成的样本集内动态数据集分别通过XGBoost模型和RF模型计算对应的预测值，并对两个预测值进行求平均值；选择平均值大于预设的信息增益率阈值所对应的动态数据，以得到动态资料的特征。

在一实施例中，处理器502在实现所述对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征步骤时，具体实现如下步骤：

其中，所述构建梯度提升树，包括：计算梯度提升树的负梯度；更新对应的基学习器；对每轮产生的基学习器通过线性相加，以得到梯度提升树。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一介质中，该介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种介质。该介质可以为计算机可读存储介质。该介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述初始数据进行预处理，以得到中间数据步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征步骤时，具体实现如下步骤：

所述介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.糖尿病早期风险评估方法，其特征在于，包括：

获取医疗数据，以得到初始数据；

对所述初始数据进行预处理，以得到中间数据；

其中，所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的；

所述GDM预测模型是通过若干个预处理后的医疗数据作为样本集训练神经网络所得的，包括：

融合动态资料的特征以及固定资料的特征，以得到新特征；

构建GRU模型，利用所述新特征对所述GRU模型进行训练，采用预设定的评价指标评价训练后的所述GRU模型，以得到GDM预测模型；

所述对若干个预处理后的医疗数据构成的样本集基于树的计算实时变量的信息增益率进行特征选择，以得到动态资料的特征，包括：

2.根据权利要求1所述的糖尿病早期风险评估方法，其特征在于，所述医疗数据包括门诊病历、实验室检验、超声影像检查、住院病历病程记录中至少一种。

3.根据权利要求1所述的糖尿病早期风险评估方法，其特征在于，所述对所述初始数据进行预处理，以得到中间数据，包括：

对所述关键特征进行缺失值填补，以得到填补结果；

对所述填补结果进行归一化处理，以得到处理后的数据；

对处理后的数据进行异常值剔除，以得到中间数据。

4.根据权利要求1所述的糖尿病早期风险评估方法，其特征在于，所述对若干个预处理后的医疗数据构成的样本集利用梯度提升树生成固定资料的特征，包括：

其中，所述构建梯度提升树，包括：

计算梯度提升树的负梯度；

更新对应的基学习器；

对每轮产生的基学习器通过线性相加，以得到梯度提升树。

5.根据权利要求4所述的糖尿病早期风险评估方法，其特征在于，所述评价指标包括准确率、查准率、召回率、F1值、混淆矩阵及ROC曲线下面积的度量值。

6.糖尿病早期风险评估装置，其特征在于，包括：

数据获取单元，用于获取医疗数据，以得到初始数据；

发送单元，用于发送所述预测结果至终端，以供终端持有者进行预警和干预；

融合动态资料的特征以及固定资料的特征，以得到新特征；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。

8.一种介质，其特征在于，所述介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至4中任一项所述的方法。