CN113012806A

CN113012806A - 一种妊娠期糖尿病的早期预测方法

Info

Publication number: CN113012806A
Application number: CN202110193180.XA
Authority: CN
Inventors: 毛占热塔安娜嘎斯卡; 张若; 姚超
Original assignee: Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Current assignee: Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-22
Anticipated expiration: 2041-02-20
Also published as: CN113012806B

Abstract

本发明公开了一种妊娠期糖尿病的早期预测方法，该预测方法包括以下步骤：步骤S1：获得研究对象孕11‑18周的临床指标检验结果；步骤S2：将步骤S1检测获得的指标进行预处理；步骤S3：选择与妊娠期糖尿病相关的指标，利用费舍尔值对每个指标进行评估，按照每个指标的费舍尔值由大到小进行排序；步骤S4：选择前11位指标输入至机器学习模型中，根据选择的输入指标，用来训练机器学习模型，验证这些指标对于妊娠期糖尿病的预测能力；步骤S5：通过步骤S4的结果，得到妊娠期糖尿病的预测模型；步骤S6：将另外一组新的临床指标检验结果代入到预测模型中进行验证，以评价预测模型的准确性；步骤S7：通过预测模型来预测孕妇是否会患病。

Description

一种妊娠期糖尿病的早期预测方法

技术领域

本发明涉及早期糖尿病预测的技术领域，具体涉及一种妊娠期糖尿病的早期预测方法。

背景技术

妊娠期糖尿病(gestational diabetes mellitus,GDM)是指妊娠前未患糖尿病的妇女妊娠期发展为高血糖的状况。世界范围内，GDM的发生率为1.8％-25.1％。GDM可能会增加先兆子痫、抑郁及剖腹产的发生风险。GDM治疗不佳的母亲所生的婴儿出现超重、新生儿低血糖及黄疸的风险升高。如果不加治疗，GDM可能会导致早产、羊水过多、宫内感染、胎儿畸形或死胎。研究表明，GDM的复发率高达48％，30-50％患有GDM的妇女未来有可能发展为糖尿病。

中国目前用75g口服葡萄糖耐量试验(OGTT)来进行GDM的诊断。根据世界卫生组织2018年的建议，对于GDM患病风险较低的孕妇，GDM的筛查和诊断通常在妊娠24-28周进行。在孕中晚期进行筛查使得发现GDM后可供采取干预的时间有限。美国糖尿病协会、澳大利亚妊娠糖尿病协会和第五次国际GDM研讨会会议提出，对于GDM应该进行选择性而不是普遍范围的筛查。

以往一些在患GDM高风险的孕妇或所有接受测试的孕妇中OGTT测试能否在妊娠14-18周时鉴别出GDM患者。结果表明，OGTT测试在高风险孕妇中对于早期GDM具有识别性，但在所有孕妇中这一鉴别的敏感性较低。因此，有必要开发其他替代方法来实现GDM的早期识别。Sweeting等指出目前已知的GDM危险因素(糖尿病家族史、GDM患病史、南亚和东亚种族，产次和BMI)与异倍性(染色体数目异常)及先兆子痫筛查指标相结合是GDM的重要预测因素。因此，将GDM的危险因素与临床检验指标相结合可能会实现在孕早期甚至是在初次产检时GDM的检测，从而对GDM高风险的妇女提供更好的产前医疗服务。GDM早期预诊断的实现也会对改善GDM孕妇及子代的出生结局产生长远影响。

发明内容

针对上述存在的问题，本发明利用孕11-18周的常规产检临床指标建立预测模型以实现GDM的早期预诊断。

为了实现上述目的，本发明所采用的技术方案如下：

一种妊娠期糖尿病的早期预测方法，该预测方法包括以下步骤：

步骤S1：建立结构化数据库，通过医院病历系统及产科病历系统回顾性获得研究对象孕11-18周的临床指标检验结果；

步骤S2：将步骤S1检测获得的指标进行预处理；

步骤S3：选择与妊娠期糖尿病相关的指标，利用费舍尔值对每个指标进行评估，按照每个指标的费舍尔值由大到小进行排序；

步骤S4：选择前11位指标输入至机器学习模型中，根据选择的输入指标，将数据集划分为训练样本和测试样本，其中，80％样本作为训练样本用来训练机器学习模型，剩余20％的样本用于测试样本，验证这些指标对于妊娠期糖尿病的预测能力；

步骤S5：通过步骤S4的结果，得到妊娠期糖尿病的预测模型；

步骤S6：将另外一组新的临床指标检验结果代入到预测模型中进行验证，以评价预测模型的准确性；

步骤S7：通过预测模型来预测孕妇是否会患病。

优选的，在上述步骤S1中，所述指标包括109个。

优选的，在上述步骤S2中，对获得的109个指标进行预处理，其过程如下：

(1)参考健康组的指标，删除具有相同值的指标；

(2)移出缺失值百分比大于70％的指标；

(3)对于参数结果为非连续性值的指标，其结果用大于上限值的固定值表示；

(4)对于参数结果为分类值的指标，结果显示“正常”用数字1表示，“非正常”用数字0表示；同样的，结果显示“阳性(+)”用数字1表示，“阴性(-)”用数字0表示；通过上述方式，分类和数值组合的数据类型被转换为数值类型，各指标中的缺失值则用指标的中位数表示；

(5)经过步骤(1)～(4)处理后，每位研究对象由最初的109个指标变为102个指标。

优选的，在上述步骤S3中，利用费舍尔值对每个指标进行评估的过程，实质上是利用下面公式评估每个指标对结果的预测能力；

其中，

是第i维特征中第p个类别中的第k个样本，

是第i维特征中第p个类别的类中心，μ_i是所有样本中第i维特征的类中心；p_i越大，第i维特征的预测能力越强。

优选的，在上述步骤S4中，所述训练机器学习模型包括最近中心模型、支持向量机模型和最近邻模型模型。

优选的，在上述步骤S5中，所述预测模型采用支持向量机模型，其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数。

优选的，在上述步骤S5中，所述预测模型采用支持向量机模型，其模型参数包括年龄、碱性磷酸酶、尿酸、中性粒细胞。

本发明的有益效果是：本发明用孕11-18周门诊及住院临床指标检验结果，结合已知的GDM危险因素(年龄、BMI、糖尿病家族史)，通过机器学习的方法建立了GDM早期识别的预测模型以实现GDM的早期预诊断，整个方法通过计算机完成，快速简单准确。

附图说明

图1为前11个参数对GDM预测模型的贡献度；图中^aAge-年龄；BMI-体重指数；Family History-糖尿病家族史；ALP-碱性磷酸酶；Uric acid-尿酸；GGT-谷酰转肽酶；Globulin-球蛋白；WBC-白细胞计数；PT％-凝血酶原百分活动度；NE#-中性粒细胞计数；Glucose-尿液中存在葡萄糖。黑色柱代表费舍尔值，白色柱代表平均分类精确度；

图2为使用(年龄+碱性磷酸酶+尿酸+白细胞计数+糖尿病家族史)预测时的ROC曲线；

图3为使用(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)预测时的ROC曲线。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

本发明具体提供了一种妊娠期糖尿病的早期预测方法，该预测方法包括以下步骤：

步骤S1：建立结构化数据库，通过医院病历系统及产科病历系统回顾性获得研究对象孕11-18周的临床指标检验结果，所述指标包括109个；

步骤S2：将步骤S1检测获得的指标进行预处理；

(1)参考健康组的指标，删除具有相同值的指标；，如抗体结果均为阴性；

(2)移出缺失值百分比大于70％的指标；

(5)经过步骤(1)～(4)处理后，每位研究对象由最初的109个指标变为102个指标；

步骤S5：通过步骤S4的结果，得到妊娠期糖尿病的预测模型；

步骤S7：通过预测模型来预测孕妇是否会患病。

在上述步骤S3中，利用费舍尔值对每个指标进行评估的过程，实质上是利用下面公式评估每个指标对结果的预测能力；

其中，其中，

是第i维特征中第p个类别中的第k个样本，

是第i维特征中第p个类别的类中心，μ_i是所有样本中第i维特征的类中心；p_i越大，第i维特征的预测能力越强；“特征”指上文中的指标，“样本”指每位被测试者的所有指标，“类别”指被测试者是否是妊娠糖尿病患者。

在上述步骤S4中，所述训练机器学习模型包括最近中心模型(NC模型)、支持向量机模型(SVM模型)和最近邻模型模型(NN模型)。

在上述步骤S5中，所述预测模型采用支持向量机模型(SVM模型)，其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数或年龄、碱性磷酸酶、尿酸、中性粒细胞。

下面通过具体试验对上述过程进行梳理。

1、材料与方法

1.1建立GDM预测模型

1.1.1研究对象

研究对象为2018年4月-2018年8月在西安市第四医院进行产前检查的单胎妊娠的孕妇，所有的孕妇均经过了孕24-28周75g OGTT筛查以诊断GDM。GDM的确诊至少包括以下结果之一：

1)空腹血糖≥5.1mmol/L；

2)1h血糖≥10mmol/L；

3)2h血糖≥8.5mmol/L。

GDM组的研究对象进一步排除了有既往糖尿病病史的孕妇。对照组为无任何妊娠期合并症的健康孕妇。

1.1.2孕11-18周临床指标收集

建立了结构化数据库，通过医院病历系统及产科病历系统回顾性地获得研究对象孕11-18周的临床指标检验结果。每位研究对象首次入院产检时均抽取静脉血及干净的中段尿液用于实验室检验，每位研究对象共收集了109个指标并将其纳入预测模型中，表3中列出了主要指标的类别。

研究对象的纳入指标主要包括年龄(年)，孕周(周)，BMI(kg/m²)，血压(收缩压和舒张压，mmHg)。血常规检查包括了白细胞计数(10⁹/L)、中性粒细胞计数(10⁹/L)、中性粒细胞百分比(％)、淋巴细胞计数(10⁹/L)、淋巴细胞百分比(％)、单核细胞计数(10⁹/L)、单核细胞百分比(％)、嗜酸性粒细胞计数(10⁹/L)、嗜酸性粒细胞百分比(％)、嗜碱性粒细胞计数(10⁹/L)、嗜碱性粒细胞百分比(％)、红细胞计数(10¹²/L)、血红蛋白(g/L)、红细胞压积(％)、平均红细胞体积(fL)、平均血红蛋白含量(pg)、平均血红蛋白浓度(g/L)、红细胞分布宽度变异(％)、红细胞分布宽度标准(％)、血小板计数(10⁹/L)、平均血小板体积(fL)、血小板体积分布宽度(fL)、血小板压积(％)、大型血小板数目(10⁹/L)和大型血小板比率(％)。凝血项目检查包括D-二聚体(ug/ml)、凝血酶时间(s)、凝血酶原时间(s)、凝血酶原百分活动度(％)、凝血酶原时间比值、凝血酶原国际正常化比值、活化部分凝血活酶时间(s)和纤维蛋白原含量(g/L)。尿常规分析包括尿比重、管型(n/LP)、酸碱度、尿隐血(cell/ul)、红细胞计数(n/HP)、白细胞(cells/ul)、白细胞计数(n/HP)、上皮细胞计数(n/LP)、酮体(mmol/l)、胆红素(umol/l)、尿胆原(umol/l)、亚硝酸盐(+/-)、葡萄糖(mmol/l)、蛋白质(g/l)和结晶。甲状腺功能检测包括促甲状腺激素(TSH)(uIU/ml)、总三碘甲状腺原氨酸(总T3)(nmol/l)、游离三碘甲状腺原氨酸(FT3)(pmol/l)、总甲状腺素(总T4)(nmol/l)、游离甲状腺素(FT4)(pmol/l)和抗甲状腺过氧化物酶抗体(A-TPO)(IU/ml)。孕妇贫血检测包括铁蛋白(ng/ml)、叶酸(ng/ml)和维生素B₁₂(pg/ml)。病原体检测包括乙型肝炎病毒(乙肝表面抗原(HBsAg)(ng/ml)、乙肝表面抗体(HBsAb)(mIU/ml)、乙肝e抗原(HBeAg)(NCU/ml)、乙肝e抗体(HBeAb)(NCU/ml)、乙肝核心抗体(HBcAb)(NCU/ml))、丙型肝炎抗体、人类免疫缺陷病毒抗体、梅毒抗体、单纯疱疹病毒II型抗体、巨细胞病毒抗体、风疹病毒抗体和弓形虫病毒抗体。肝功能检查包括总蛋白(g/L)、白蛋白(g/L)、球蛋白(g/L)、白蛋白/球蛋白、胆红素(总胆红素(umol/l)、直接胆红素(umol/l)、间接胆红素(umol/l)、总胆汁酸(umol/l))、谷草转氨酶(AST)(U/L)、谷丙转氨酶(ALT)(U/L)、AST/ALT、碱性磷酸酶(U/L)和谷酰转肽酶(U/L)。肾功能检查包括尿素(mmol/l)、尿酸(umol/l)、葡萄糖(mmol/1)和肌酐(umol/1)。微量元素及生化分析包括锌(umol/L)、铜(umol/L)、铁(mmol/L)、镁(mmol/L)、钙(mmol/L)、25-羟基维生素D(nmol/L)。脂质血脂检测包括总胆固醇、总甘油三酸酯、高密度脂蛋白、低密度脂蛋白、载脂蛋白A和载脂蛋白B。

1.1.3统计学分析

采用GraphPath、SPSS 23.0及Matlab(2015版)进行数据分析。连续型变量采用中位数和四分位间距进行描述，GDM组和健康对照组间的比较采用Mann Whitney检验；分类变量采用例数和百分比进行描述，两组间的比较采用Fischer检验。P＜0.05表示差异有统计学意义。

对于GDM组和健康对照组存在显著差异的预测变量，采用Logistic回归模型进行回归分析，计算OR及95％可信区间(CI)。除单因素模型外，还建立了两个模型来逐步控制年龄、BMI、糖尿病家族史等GDM的影响因素：其中模型1校正了年龄和BMI，模型2校正了年龄、BMI及糖尿病家族史，单因素模型、模型1和模型2均属于Logistic回归模型。

数据的预处理过程如下：

(1)删除具有相同值的类别；

(2)移除缺失值百分比大于70％的指标。

经上述步骤后，每位研究对象由最初的109个指标变为了102个指标。

对于某些结果为非连续性值的指标，如指标“尿比重(SG)”，其结果“＞1.03”会被一个略大于上限值的固定值所取代；对于某些结果为分类值的指标，如指标“尿胆原(URO)”，其结果“正常”会被1替换，“非正常”会被0替换；类似地，参数“乙肝表面抗体(HBsAb)”的结果“阳性(+)”被1替换，“阴性(-)”被0替换。

通过上述方法，分类和数值组合的数据类型被转换为了数值类型。此外，各指标中的缺失值由其相应指标的中位数所替换。

经过上述预处理，每位研究对象中包含了102个指标。为了找到与GDM相关的指标，我们使用费舍尔值对每个指标进行评价。利用下面的公式评估每个指标对结果的预测能力。

其中

是第i维特征中第p个类别中的第k个样本，

按照每个指标的费舍尔值大小进行排序，对于费舍尔值较大的前11位指标，我们使用以下三种算法在数据集上验证了这些指标对于GDM的预测能力：(1)最近中心分类器(Nearest Centroid，NC)、支持向量机(Support Vector Machine，SVM)和最近邻分类器(Nearest Neighbor，NN)。为了使结果更可靠，我们将数据集划分为测试集和训练集两部分，其中测试集中包含了20％的样本，其余80％的样本被用来训练SVM。我们对整个数据集进行了50次随机划分，得到最终的分类精度、敏感度(又被称为真阳率)及特异度(又被称为真阴率)。据最终的分类精度得到GDM的最佳预测指标组合。

1.2验证及评估GDM预测模型

对于得到的GDM预测模型，我们利用另外一个在西安交通大学第二附属医院的队列研究进行了模型验证和评估。该队列研究的研究对象为2018年8月以后在西安交通大学第二附属医院妇产科进行产前检查的单胎妊娠的孕妇。GDM和健康对照的纳入排除标准同上。根据上一步骤得到的孕早期GDM预测指标，在孕11-18周收集研究对象的相关临床指标，随访研究对象至孕24-28周并收集75g OGTT结果，将OGTT结果作为因变量、孕11-18周相关临床指标作为自变量纳入多因素Logistic回归模型中，使用AUC(area under the curve)评估预测模型的性能。

2.结果

2.1建立GDM预测模型

2.1.1基线资料比较

我们在西安市第四医院共收集80例健康孕妇和80例GDM患者的数据，怀孕孕周的中位数为12周。我们发现，与健康孕妇相比，GDM患者的年龄、BMI、舒张压较高，有糖尿病家族史的比例也较高(表1)。

表1健康对照与GDM患者基线资料比较

^a数据为中位数(四分位间距)，两组间的比较采用MannWhitney检验；

^b糖尿病家族史是指孕妇的父母或兄弟姐妹被诊断为糖尿病，数据为例数(百分比)，两组间的比较采用Fischer检验。

在单因素关联分析中，我们发现孕妇年龄越大、BMI越大、有糖尿病家族史增加GDM的发生风险(表2)。

表2基线资料与GDM发生风险的单因素关联分析

2.1.2 GDM新危险因素的识别

比较两组间的临床指标检验结果，我们发现18个指标在GDM患者和健康对照间存在显著差异(P＜0.05)，包括了血常规(白细胞计数和淋巴细胞计数)，凝血(凝血酶原时间、凝血酶原百分活动度、凝血酶原时间比值、凝血酶原国际正常化比值、活化部分凝血酶时间)，甲状腺功能(促甲状腺激素、总三碘甲状腺原氨酸、游离甲状腺素)，微量元素(铜、铁)，肝肾功能(碱性磷酸酶、谷酰转肽酶、总蛋白、球蛋白、总胆汁酸和尿酸)(表3)。

表3健康对照与GDM患者孕11-18周临床指标比较

^b数据为例数(百分比)，两组间的比较采用Fischer检验。

接下来，我们分析了以上18个指标在两组间有显著差异的参数是否为GDM发生的新危险因素。我们使用Logistic回归建立了3个模型以逐步校正混杂因素，计算了OR及95％可信区间。结果发现孕11-18周、TSH、T3、碱性磷酸酶、总蛋白和尿酸水平的升高是GDM的新危险因素(表4)。

表4两组间差异显著的参数与GDM发生风险的关联分析

^a模型1调整了年龄和BMI；

^b模型2调整了年龄、BMI和家族糖尿病史。

2.1.3 GDM的最佳预测模型

为了开发GDM的预测模型，我们首先根据费舍尔值评估了每个指标的预测能力。费舍尔评分确定了对模型贡献最大的前11个指标分别为年龄(Age)、体重指数(BMI)、糖尿病家族史(Family history)、碱性磷酸酶(ALP)、尿酸(UA)、谷酰转肽酶(GGT)、球蛋白(Globulin)、白细胞计数(WBC)、凝血酶原百分活动度(PT％)、中性粒细胞计数(NE#)和尿液中是否有葡萄糖(Glucose)(图1，黑色柱)。对于这11个参数，其中年龄、BMI和糖尿病家族史是已知的危险因素，而我们的研究发现了碱性磷酸酶(ALP)和尿酸(UA)也是GDM的危险因素。此外，健康孕妇和GDM患者中谷酰转肽酶(GGT)、球蛋白(Globulin)、白细胞计数(WBC)和凝血酶原百分活动度(PT％)有显著差异。接下来，我们评估了每个指标的分类精度，结果发现年龄(Age)、碱性磷酸酶(ALP)和谷酰转肽酶(GGT)的平均分类准确率较高(图1，白色柱)。

按照每个指标的费舍尔值大小排序，对于费舍尔值较大的前11位指标，我们使用以下三种算法在数据集上验证了这些指标对于GDM的预测能力：(1)最近中心分类器(Nearest Centroid，NC)^[16]、支持向量机(Support Vector Machine，SVM)^[17]和最近邻分类器(Nearest Neighbor，NN)。为了使结果更可靠，我们将数据集划分为测试集和训练集两部分，其中测试集中包含了20％的样本，其余80％的样本被用来训练SVM。我们对整个数据集进行了50次随机划分，得到最终的分类精度、敏感度(又被称为真阳率)及特异度(又被称为真阴率)。

用三种不同的算法(NC、SVM和NN)将费舍尔评分筛选的前11个指标放入到预测模型中。预测模型中指标个数的变化范围为1-11(T₁，T₂，…，T₁₁)。也就是说，当指标个数为1时，使用这三种算法的模型中只放一个指标T₁；当指标个数为2时，使用这三种算法的模型中放2个参数T₁和T₂，并以此类推。所有T₁-T₁₁组成的组合对GDM预测的精确度如补充材料中的图1所示。总体来说，SVM方法比NC和NN对于GDM的预测更好。

使用SVM方法进行GDM预测时，当模型中有4个或5个参数时模型的精确度最高。首先，我们放6个参数时的精确度为83.1％，这6个参数的组合为：(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数+中性粒细胞计数)。但由于中性粒细胞属于白细胞的一种，本研究中中性粒细胞计数与白细胞计数之间高度相关(Spearman相关系数＝0.96)，因此我们决定在预测模型纳入中性粒细胞计数或白细胞计数中的一个。比较5个参数组合的精确度，我们发现(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合的精确度较高，为83％，因此，5个参数时，(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合为最佳的预测模型。

而由于参数糖尿病家族史具有一定的主观性，一方面由于产检病历系统中未纳入这一参数，另一方面家族成员可能不清楚自身是否患有糖尿病，因此我们还评估了去除这一参数后4个参数组合的精确度。我们发现，(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)的精确度为(76.8％)，高于(年龄+碱性磷酸酶+尿酸+白细胞计数)的精确度(76.1％)，因此，4个参数时，(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)组合为最佳的预测模型。

2.2验证及评估GDM预测模型

对于得到的GDM预测模型，我们利用另外一个在西安交通大学第二附属医院的队列研究进行了模型验证。该队列研究的研究对象为2018年8月以后在西安交通大学第二附属医院妇产科进行产前检查的单胎妊娠的孕妇。GDM和健康对照的纳入排除标准同上。根据得到的GDM预测模型，我们收集研究对象的年龄、糖尿病家族史、孕11-18周碱性磷酸酶、尿酸、白细胞计数、中性粒细胞计数的检测结果，并收集了孕24-28周75g OGTT结果。共纳入50例GDM患者及50例健康对照以进行预测模型验证及评估。

以孕24-28周GDM的诊断结果为因变量，在2个Logistic回归模型中分别纳入5个参数(年龄+碱性磷酸酶+尿酸+白细胞计数+糖尿病家族史)或4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)，得到每个研究对象的GDM预测概率。用预测概率和GDM真实情况(孕24-28周OGTT结果)，计算ROC曲线下的面积(area under curve，AUC)以评估预测模型的判别能力。预测模型的评估结果如图2和图3所示。

使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)组合进行预测时，AUC＝0.762(0.663-0.860，P＜0.001)，ROC曲线如图2所示。

当使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)组合进行预测时，AUC＝0.753(0.654-0.852，P＜0.001)，ROC曲线如图3所示。

总之，在本研究中我们采用机器学习的方法根据160例妊娠孕11-18周临床指标进行了GDM的预测。我们发现了孕11-18周碱性磷酸酶、尿酸水平的升高是GDM的新危险因素，建立了GDM的预测模型，使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)时对GDM预测的精确度为83.0％，使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)时对GDM预测的精确度为76.8％。我们在另一个队列研究中纳入100例妊娠采用多因素Logistic模型评估了GDM预测模型的性能，从而模拟了实际可操作性。当使用5个参数(年龄+糖尿病家族史+碱性磷酸酶+尿酸+白细胞计数)进行预测时，AUC为0.762；当使用4个参数(年龄+碱性磷酸酶+尿酸+中性粒细胞计数)进行预测时，AUC为0.753。总体而言，我们的模型有助于临床中对高危GDM人群进行早期识别。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种妊娠期糖尿病的早期预测方法，其特征在于，该预测方法包括以下步骤：

步骤S2：将步骤S1检测获得的指标进行预处理；

步骤S4：选择前11位指标输入至机器学习模型中，根据选择的输入指标，将数据集划分为训练样本和测试样本，其中，测试集包含20％的样本，剩余的80％样本作为训练样本用来训练机器学习模型，验证这些指标对于妊娠期糖尿病的预测能力；

步骤S5：通过步骤S4的结果，得到妊娠期糖尿病的预测模型；

步骤S7：通过预测模型来预测孕妇是否会患病。

2.根据权利要求1所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S1中，所述指标包括109个。

3.根据权利要求2所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S2中，对获得的109个指标进行预处理，其过程如下：

(1)参考健康组的指标，删除具有相同值的指标；

(2)移出缺失值百分比大于70％的指标；

4.根据权利要求1所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S3中，利用费舍尔值对每个指标进行评估的过程，实质上是利用下面公式评估每个指标对结果的预测能力；

其中，

是第i维特征中第p个类别中的第k个样本，

5.根据权利要求1所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S4中，所述训练机器学习模型包括最近中心模型、支持向量机模型和最近邻模型模型。

6.根据权利要求5所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S5中，所述预测模型采用支持向量机模型，其模型参数包括年龄、糖尿病家族史、碱性磷酸酶、尿酸、白细胞计数。

7.根据权利要求5所述的一种妊娠期糖尿病的早期预测方法，其特征在于，在上述步骤S5中，所述预测模型采用支持向量机模型，其模型参数包括年龄、碱性磷酸酶、尿酸、中性粒细胞。