CN118098555A

CN118098555A - 针对妊娠期糖尿病的辅助诊断模型

Info

Publication number: CN118098555A
Application number: CN202311435657.6A
Authority: CN
Inventors: 刘西茹; 韩文莉; 马智; 杨甦庆; 黄佳语; 周雷; 郎廷元; 徐红兵
Original assignee: Chongqing Medical University
Current assignee: Chongqing Medical University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-05-28

Abstract

本发明公开了一种针对妊娠期糖尿病的辅助诊断模型的建立方法及系统，一种妊娠期糖尿病的辅助诊断系统、一种电子设备、一种计算机可读存储介质。所述建立方法包括如下步骤：选取可用于所述辅助诊断模型的机器学习模型；获取多个样本中的蛋白质标志物数据，其中，所述多个样本从受试者泪液中收集，并将所述蛋白质标志物数据作为所述机器学习模型的原始数据集；基于所述原始数据集对所述机器学习模型进行训练和评估，并根据评估结果得到所述辅助诊断模型。

Description

针对妊娠期糖尿病的辅助诊断模型

技术领域

本发明涉及妊娠期糖尿病辅助诊断模型，具体涉及一种针对妊娠期糖尿病的辅助诊断模型的建立方法及系统，一种妊娠期糖尿病的辅助诊断系统、一种电子设备、一种计算机可读存储介质。

背景技术

妊娠期糖尿病(Gestational Diabetes Mellitus，GDM)指在妊娠期首次发现或发生的糖代谢异常，是糖尿病的一种，可能导致胎儿发育畸形、胎儿宫内窘迫、胎死宫内新生儿低血糖、巨大儿以及难产或者死产等并发症。患有GDM的母亲所生的婴儿暴露于化学失衡的风险增加，因此早期准确的检测至关重要。在临床中，通常采用24-28周的口服葡萄糖耐量试验(Oral Glucose Tolerance Test，OGTT)以诊断GDM。然而，这种主流方法是侵入性的，耗时的且劳动密集型的，需要在服用葡萄糖之前和之后多次检查血糖水平。此外，在妊娠早期，OGTT对迟发性GDM的敏感性和特异性较低。因此，这种方法不适合早期发现，临床上仍然迫切需要更多无创的、准确的生物标志物。

眼泪富含蛋白质和脂质，这些蛋白质和脂质已成为诊断生物标志物的重要来源。疾病的病理生理变化可能反映在眼泪中，泪液生物标志物的诊断能力已在许多非眼科全身性疾病(如多发性硬化症和帕金森病)中得到证实。最常见的泪液样品采集方法包括泪液分泌试纸(Schirmer strip)法和毛细管(capillary)法，这些方法能够非侵入性地收集样本。由此，基于比较蛋白质组学分析的泪液生物标志物可用于GDM诊断。

机器学习(Machine Learning)作为现代信息学科人工智能的重要分支，使用算法解析大量数据并从中学习和归纳问题，从而可以通过模拟人类大脑思维的学习方式作出推理或判断。机器学习常用的算法有很多，例如按学习风格可分为监督学习、无监督学习、半监督学习等，按形式或功能的相似性可分为分类、回归、决策树、聚类、深度学习等。近年来，机器学习和临床诊断相结合虽然取得了一些进展，但受限于医学样本数据特点和各种算法的适用性，尤其是针对妊娠期糖尿病诊断，目前尚未发现于此相关的具有高准确率的人工智能辅助诊断模型。

发明内容

基于上述现状，本发明的主要目的在于提供针对妊娠期糖尿病的辅助诊断模型的建立方法及系统、针对妊娠期糖尿病的辅助诊断模型、电子设备和计算机可读存储介质，所述建立方法将样本中的蛋白质标志物数据经预处理后用于机器学习模型，在得到优化的训练模型的基础上结合数据转换处理和性能评估最终确认最优的妊娠期糖尿病辅助诊断模型，由此得到的辅助诊断模型能够基于泪液蛋白标志物准确地、高效地实现辅助诊断妊娠期糖尿病。

为实现上述目的，本发明采用的技术方案如下：

本发明的第一方面提供了一种针对妊娠期糖尿病的辅助诊断模型的建立方法，所述方法包括如下步骤：

选取可用于所述辅助诊断模型的机器学习模型；

获取多个样本中的蛋白质标志物数据，其中，所述多个样本从受试者泪液中收集，并将所述蛋白质标志物数据作为所述机器学习模型的原始数据集；

基于所述原始数据集对所述机器学习模型进行训练和评估，并根据评估结果得到所述辅助诊断模型。

优选地，所述基于所述原始数据集对所述机器学习模型进行训练和评估包括：

对所述原始数据集进行缩放处理并得到预处理数据；

将所述预处理数据随机分为训练集和测试集，通过所述训练集对所述机器学习模型进行训练并得到训练模型，并通过所述测试集对所述训练模型进行评估，根据评估结果确定最优训练模型；

基于所述缩放处理生成可用于单个样本的数据转换程序，将所述数据转换程序集成入所述最优训练模型并得到集成模型，对所述集成模型进行性能评估，根据性能评估的结果得到所述辅助诊断模型。

优选地，

所述缩放处理包括通过Z值算法对所述原始数据集进行统一量级处理；

所述数据转换程序根据所述Z值算法所采用的参数对所述辅助诊断模型的输入数据进行处理，以适用于单个样本作为所述输入数据。

优选地，所述对所述集成模型进行性能评估包括：

绘制ROC曲线，并计算所述集成模型的AUC值。

优选地，所述蛋白质标志物数据包括K2C5、PIP和GLOD4的泪液蛋白浓度数据。

优选地，所述通过所述训练集对所述机器学习模型进行训练并得到训练模型包括：

将所述K2C5、PIP和GLOD4的泪液蛋白浓度数据作为最优特征子集；

采用交叉验证并得到模型评估结果，基于所述模型评估结果确定最优超参数，根据所述最优超参数得到所述训练模型。

优选地，所述训练集和测试集的比例为7：3，所述交叉验证为十折交叉验证。

优选地，所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。

优选地，所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。

本发明的第二方面提供了一种针对妊娠期糖尿病的辅助诊断模型的建立系统，所述建立系统包括：

模型单元，用于选取可用于所述辅助诊断模型的机器学习模型；

输入单元，用于获取多个样本中的蛋白质标志物数据，其中，所述多个样本从受试者泪液中收集，并将所述蛋白质标志物数据作为所述机器学习模型的原始数据集；

建模单元，用于基于所述原始数据集对所述机器学习模型进行训练和评估，并根据评估结果得到所述辅助诊断模型。

优选地，所述建模单元包括：

数据处理模块，用于对所述原始数据集进行缩放处理并得到预处理数据；

模型训练模块，用于将所述预处理数据随机分为训练集和测试集，通过所述训练集对所述机器学习模型进行训练并得到训练模型，并通过所述测试集对所述训练模型进行评估，并根据评估结果确定最优训练模型；

模型建立模块，用于基于所述缩放处理生成可用于单个样本的数据转换程序，将所述数据转换程序集成入所述最优训练模型并得到集成模型，对所述集成模型进行性能评估，根据所述性能评估的结果得到所述辅助诊断模型。

优选地，

所述数据处理模块包括第一子模块，所述第一子模块能够通过Z值算法对所述原始数据集进行统一量级处理；

所述数据转换程序包括第二子模块，所述第二子模块能够根据所述Z值算法所采用的参数对所述辅助诊断模型的输入数据进行处理，以适用于单个样本作为所述输入数据。

优选地，所述模型建立模块还包括性能评估模块，用于绘制ROC曲线，并计算所述集成模型的AUC值。

优选地，所述模型训练模块的最优特征子集为K2C5、PIP和GLOD4的泪液蛋白浓度数据；

所述模型训练模块包括第三子模块，所述第三子模块能够采用交叉验证并得到模型评估结果，基于所述模型评估结果确定最优超参数，根据所述最优超参数得到所述训练模型。

本发明的第三方面提供了一种妊娠期糖尿病的辅助诊断系统，所述辅助诊断系统包括：

输入模块，用于输入待诊断数据，所述待诊断数据包括受试者的K2C5、PIP和GLOD4的泪液蛋白浓度数据；

诊断模块，用于对所述待诊断数据进行判断，所述诊断模块包括如上述第一方面所述的建立方法得到的辅助诊断模型；

输出模块，用于输出所述待诊断数据的判断结果，以得到所述受试者的妊娠期糖尿病患病概率。

优选地，所述辅助诊断模型基于随机森林模型得到。

本发明的第四方面提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述第一方面所述的建立方法。

本发明的第五方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述第一方面所述的建立方法。

本发明与现有技术相比具有明显的优点和有益效果，其至少具有下列优点：

本发明的针对妊娠期糖尿病的辅助诊断模型的建立方法及建立系统，基于多个受试者泪液样本获取蛋白质标志物数据，并将蛋白质标志物数据作为机器学习模型的原始数据集，并基于原始数据集对机器学习模型进行训练和评估，从而得到妊娠期糖尿病的辅助诊断模型，由此该辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断，基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病，并具备非侵入性和良好的性能表现，该辅助诊断模型预测正确率的最佳AUC值可在0.98以上。

本发明的妊娠期糖尿病的辅助诊断系统，该系统的诊断模块包括根据上述建立方法所得到的辅助诊断模型，能够基于多个样本中的蛋白质标志物数据(包括K2C5、PIP和GLOD4的泪液蛋白浓度数据)进行快速、准确的妊娠期糖尿病辅助诊断，实现快速分析、判断样本数据并输出结果，从而为临床应用提供有效的、非侵入性的妊娠期糖尿病诊断依据。

本发明的电子设备和计算机可读存储介质，通过采用上述建立方法所得到的辅助诊断模型能够基于蛋白质标志物为大规模队列提供快速、准确的妊娠期糖尿病辅助诊断，并实现非侵入行的妊娠期糖尿病的辅助诊断。

附图说明

图1为本发明的针对妊娠期糖尿病的辅助诊断模型的建立方法的流程示意图；

图2为本发明的一个实施例的蛋白质标志物经ELISA验证的蛋白浓度数据的示意图；

图3为本发明的一个实施例的蛋白质标志物经ELISA验证的蛋白浓度数据的示意图；

图4为本发明的一个实施例的蛋白质标志物经ELISA验证的蛋白浓度数据的示意图；

图5为本发明的一个实施例的用于鉴别妊娠和GDM的AUC值的示意图；

图6为本发明的针对妊娠期糖尿病的辅助诊断模型的建立系统的模块示意图；

图7为本发明的妊娠期糖尿病的辅助诊断系统的模块示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的方法、系统、电子设备和计算机可读存储介质，其具体实施方式、方法、步骤、特征及其功效，详细说明如后。

参见图1，一种针对妊娠期糖尿病的辅助诊断模型的建立方法，所述方法包括如下步骤：

选取可用于所述辅助诊断模型的机器学习模型；

通过上述步骤，基于多个受试者样本获取可用于诊断妊娠期糖尿病的蛋白质标志物数据，将受试者样本中的泪液蛋白浓度数据作为模型构建的原始数据集，并基于原始数据集对机器学习模型进行训练和评估，从而得到妊娠期糖尿病辅助诊断模型，由此该辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断，基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病，并具备非侵入性和良好的性能表现，该辅助诊断模型预测正确率的最佳AUC值可在0.98以上。

作为可选的实施例，所述基于所述原始数据集对所述机器学习模型进行训练和评估包括：

对所述原始数据集进行缩放处理并得到预处理数据；

通过上述步骤，对原始数据集进行缩放处理得到统一量级的预处理数据，利用预处理数据对机器学习模型进行训练以获取最优训练模型，在最优训练模型中集成与标准化处理相应的数据转换程得到集成模型，该集成模型经性能评估后确认得到妊娠期糖尿病辅助诊断模型，由此该辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断，基于优选出来的最佳机器学习模型和适用的蛋白质标志物得到的辅助诊断模型能够有效判别妊娠期糖尿病，并具备非侵入性和良好的性能表现。

作为可选的实施例，

具体地，通过前述步骤得到的原始数据集可能是处于不同量级的数据，采用Z值(Z-Score)算法将不同量级的数据统一转化为同一个量级，统一用计算出的Z值衡量，以保证数据之间的可比性。基于Z值算法进行数据的缩放处理时，一般需要总体数据的均值、总体数据的标准差以及个体数据(即经ELISA验证的单个样本的蛋白质标志物数据)。

此外，用于机器学习的原始数据集一般包括多个样本的若干蛋白质标志物数据，通常以数据矩阵的形式输入给机器学习模型并进行训练，经参数优化的训练模型经评估确定为适用的辅助诊断模型，而该辅助诊断模型在实际使用时输入数据通常是单个的陌生样本，这就需要通过数据转换程序对输入数据进行处理后以使得辅助诊断模型能够对单个样本进行判断。由此，数据处理程序基于Z值算法所采用的相关参数对单个样本的原始数据进行处理，具体参照如下公式：

式中，Z为转换后的单个样本的蛋白质标志物数值，X为原始的单个样本的蛋白质标志物数值，M为Z值算法中使用的蛋白质标志物数据的均值，s为Z值算法中使用的蛋白质标志物数据的标准差。

通过上述步骤，在得到的最优训练模型中集成数据转换程序，以满足单个样本数据的判断需求，能有效模拟现实临床应用。

多个验证集进行多次评估，能更好地反映模型的分类或判断性能。

作为可选的实施例，所述对所述集成模型进行性能评估包括：

绘制ROC曲线，并计算所述集成模型的AUC值。

具体地，受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC曲线)用于分析二元分类模型。曲线下面积(Area Under the Curve,AUC)用于在比较不同的分类模型时，将每个模型的ROC曲线画出来，比较曲线下面积作为模型优劣的指标，一般是在1x1的方格里面求面积，AUC值必须在0～1之间。AUC值越大的分类器(模型)，其正确率越高。

通过上述步骤，能够有效地对所得到的集成模型进行性能评估，以确认得到最佳的集成模型作为妊娠期糖尿病辅助诊断模型。

作为可选的实施例，所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。

具体地，通过检测受试者泪液中蛋白质组学的动态变化，能够发现与妊娠和GDM相关的蛋白质标志物。

在本实施例中，招募的受试者包括：孕中期正常孕妇(MS组)和孕中期妊娠期糖尿病孕妇(GDM组)。其中，孕中期包括妊娠第2期和第3期。MS组为254例、GDM组为189例。所有受试者的入组标准包括：(1)无妊娠史：(2)无慢性病；(3)6个月内或怀孕期间未服药；(4)妊娠期无异常情况(GDM组除外)；(5)无眼病史；(6)体格检查发现重要器官无功能障碍。随后，根据入组标准，MS组和GDM组中9.8％和10％的受试者被排除在外。最后，从224名MS组受试者和183名GDM组受试者中收集泪液样本。

作为可选的实施例，所述蛋白质标志物数据包括K2C5、PIP和GLOD4的泪液蛋白浓度数据。

具体地，关于蛋白质标志物K2C5，其蛋白全称：Type II cytoskeletal 5，编码基因名称：KRT5，Gene ID:3852，中文名：细胞角蛋白5，Uniprot接收号：P13647，Uniprot接收名称：K2C5_HUMAN。

具体地，关于蛋白质标志物PIP，其蛋白全称：Prolactin-inducible protein，编码基因名称：PIP，Gene ID:5304，中文名：泌乳素诱导蛋白，Uniprot接收号：P12273，Uniprot接收名称：PIP_HUMAN。

具体地，关于蛋白质标志物GLOD4，其蛋白全称：Glyoxalase Domain-containing4，编码基因名称：GLOD4，Gene ID:51031，中文名：乙二醛功能域涵盖蛋白4，Uniprot接收号：Q9HC38，Uniprot接收名称：GLOD4_HUMAN。

由此，将K2C5、PIP和GLOD4的泪液蛋白浓度数据作为模型构建的原始数据集，通过适用的蛋白质标志物数据对机器学习模型进行相应的训练和评估，提供了获得最佳机器学习模型的数据基础。

作为可选的实施例，所述获取多个样本中的蛋白质标志物数据中，基于iTRAQ表征所述样本的蛋白质组学谱，并通过ELISA验证得到所述蛋白质标志物数据。

具体地，样本的蛋白质组学谱通过同位素标记相对和绝对定量(isobaric Tagsfor Relative and Absolute Quantification，iTRAQ)进行表征，随后通过酶联免疫吸附测定(enzyme linked immunosorbent assay，ELISA)验证基于生物信息学分析选择的蛋白标志物，由此得到的蛋白质标志物数据用于机器学习。

其中，iTRAQ是一种标记定量蛋白质组学，指利用iTRAQ标记技术和质谱技术对蛋白质组进行定量的一种分析方法。ELISA是一种定性或定量检测，使用抗体来结合并测定目的分子。本实施例中，iTRAQ用于发现阶段以鉴定可选的蛋白质标志物，ELISA用于验证阶段以验证在发现阶段选定的蛋白质标志物。

作为可选的实施例，所述通过所述训练集对所述机器学习模型进行训练并得到训练模型包括：

具体地，根据上述实施例的受试者样本的蛋白质标志物数据，从224名MS组受试者和183名GDM组受试者中收集泪液样本，例如基于iTRAQ表征样本的蛋白质组学谱，并通过ELISA验证得到泪液样本中的蛋白质标志物可以包括K2C5、CPNS1、PIP、GLOD4、CATD、PPIB、G3P、TPIS、ENOA(如上均为蛋白缩写)。通过数据观察和比对，参见图2，可以发现其中某些蛋白质标志物(例如，K2C5、CPNS1、PIP和GLOD4)含量随着妊娠逐渐增加并在GDM组显著增加，参见图3，某些蛋白质标志物(例如，CATD和PPIB)含量会随着妊娠持续上调并在GDM组急剧降低，参见图4，某些蛋白质标志物(例如，G3P、TPIS、ENOA含量)会在MS组显著增加并在GDM组增加异常。同时，这些蛋白质标志物经ELISA得到验证，并通过ROC曲线和AUC值评估这些蛋白质标志物的鉴别或分类能力，参见图5，例如，某些蛋白质标志物(例如，G3P、PIP、TPIS、GLOD4和CATD)可作为鉴别妊娠的最佳候选标志物，某些蛋白质(例如CATD、G3P、K2C5、CPNS1和ENOA)可作为鉴别GDM的最佳候选标志物，基于此，从这些蛋白质标志物中选取合适的若干蛋白质标志物，并将其相应的泪液蛋白浓度数据的集合作为最优特征子集并用于训练机器学习模型。

机器学习中，特征选择是一个重要问题，其目标是寻找最优特征子集，通过特征选择能够剔除不相关或冗余的特征，从而达到减少特征个数，有助于提高模型精确度，减少运行时间。同时，选取出真正与问题相关的特征或特征子集，能够简化模型，协助理解数据产生的过程，避免过拟合等问题。由此，根据与GDM诊断相关的若干蛋白质标志物确定可用于机器学习模型的最优特征子集，有助于确保辅助诊断模型的使用性能和准确率。

在本实施例中，蛋白质标志物数据中选取了K2C5、PIP和GLOD4的泪液蛋白浓度数据，其中，将K2C5和PIP组合、K2C5和GLOD4组合、PIP和GLOD4组合、以及K2C5、PIP和GLOD4组合，分别作为训练数据的特征子集，用于机器学习模型，并将深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林作为机器学习模型。通过绘制ROC曲线和评估AUC值，得到基于随机森林模型的K2C5、PIP和GLOD4泪液蛋白浓度数据集合的最优训练模型和集成模型的性能最佳，能有效地对妊娠期糖尿病进行辅助诊断，其AUC值可在0.98以上。

此外，训练集在训练机器模型时可能会出现过拟合问题，一般在训练集中可以分出一部分数据作为验证集，用于评估模型的训练效果和调整模型的超参数。验证集用于评估模型的一般错误率，基于此调整超参数以得到最优超参数。在上述实施例中，采用了交叉验证(cross-validation)，例如较常用的是K-fold交叉验证(K-fold cross validation)，也就是将训练集分成K份，既可以重复使用训练集中的数据，每一份数据都会被作为训练集参与模型训练，也会作为验证集参与模型评估，最大程度地利用了全部数据，且

作为可选的实施例，所述训练集和测试集的比例为7：3，所述交叉验证为十折交叉验证。

具体地，训练集用于构模型的建立型，测试集用于评估模型的指标，例如正确率、敏感性等。在上述实施例中，根据从224名MS组受试者和183名GDM组受试者中收集泪液样本的K2C5、PIP和GLOD4的泪液蛋白浓度数据，基于此得到的原始数据集在经过预处理后按照70％和30％分为训练集和测试集，在本实施例中重复进行了50次随机拆分得到多个训练集和测试集，以满足模型训练和评估的要求，并实现了具有最佳性能(AUC＝0.981±0.013)的训练模型和集成模型。

需要说明的是，如果数据集体量很大时，测试集可以不需要完全按照比例分配，只要能满足使用需要即可。

具体地，在上述实施例中，根据从224名MS组受试者和183名GDM组受试者中收集泪液样本的K2C5、PIP和GLOD4的泪液蛋白浓度数据，采用了十折交叉验证(Ten-fold cross-validation)，经多个验证集进行多次评估，能够很好地反映辅助诊断模型的分类或判断性能。

作为可选的实施例，所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。

在上述实施例中，通过选取不同的机器学习模型并基于选定的蛋白质标志物数据进行相应的训练，以确定最佳性能的训练模型和集成模型，用于作为妊娠期糖尿病辅助诊断模型。

参见图6，一种针对妊娠期糖尿病的辅助诊断模型的建立系统，所述建立系统包括：

由此，所得到的辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断，基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效地对妊娠期糖尿病进行辅助诊断，并具备非侵入性和良好的性能表现，该辅助诊断模型预测准确率的最佳AUC值可在0.98以上。

作为可选的实施例，所述建模单元包括：

由此，通过数据处理模块对原始数据集进行缩放处理得到统一量级的预处理数据，模型训练模块利用预处理数据对机器学习模型进行训练以获取最优训练模型，模型建立模块在最优训练模型中集成与标准化处理相应的数据转换程得到集成模型，该集成模型经性能评估后确认得到妊娠期糖尿病辅助诊断模型，由此该辅助诊断模型适用于大规模队列的妊娠期糖尿病诊断，基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效对妊娠期糖尿病进行辅助诊断，并具备非侵入性和良好的性能表现。

作为可选的实施例，

由此，第一子模块采用Z值(Z-Score)算法将不同量级的数据统一转化为同一个量级，统一用计算出的Z值衡量，以保证数据之间的可比性，并且第二子模块对辅助诊断模型的输入数据进行处理，以满足单个样本数据的诊断需求，能有效模拟现实临床应用。

作为可选的实施例，所述模型建立模块还包括性能评估模块，用于绘制ROC曲线，并计算所述集成模型的AUC值。

由此，通过性能评估模块绘制ROC曲线和计算AUC值，有效地对所得到的集成模型进行性能评估，以确认得到最佳的集成模型作为妊娠期糖尿病辅助诊断模型。

其中，关于蛋白质标志物K2C5、PIP和GLOD4的具体描述(包括蛋白全称、编码基因、Gene ID、中文名、Uniprot接收号、Uniprot接收名称)，参照上文具体内容。

作为可选的实施例，所述模型训练模块的最优特征子集为K2C5、PIP和GLOD4的泪液蛋白浓度数据；

由此，通过第三子模块进行交叉验证，既可以重复使用训练集中的数据，每一份数据都会被作为训练集参与模型训练，也会作为验证集参与模型评估，最大程度地利用了全部数据，且多个验证集进行多次评估，能更好地反映模型的分类或判断性能。

具体地，根据从224名MS组受试者和183名GDM组受试者中收集泪液样本的K2C5、PIP和GLOD4的泪液蛋白浓度数据，基于此得到的原始数据集在经过预处理后按照70％和30％分为训练集和测试集，在本实施例中重复进行了50次随机拆分得到多个训练集和测试集，以满足模型训练和评估的要求，采用了十折交叉验证(Ten-fold cross-validation)，经多个验证集进行多次评估，能够很好地反映辅助诊断模型的分类或判断性能，并实现了具有最佳性能(AUC＝0.981±0.013)的训练模型和集成模型。

由此，通过检测孕中期正常孕妇和孕中期妊娠期糖尿病孕妇泪液中蛋白质组学的动态变化，能够有效地发现与妊娠和GDM相关的多个蛋白质标志物。

由此，通过选取不同的机器学习模型并基于选定的蛋白质标志物数据进行相应的训练，以确定最佳性能的训练模型和集成模型，用于作为妊娠期糖尿病辅助诊断模型。

参见图7，一种妊娠期糖尿病的辅助诊断系统，所述辅助诊断系统包括：

诊断模块，用于对所述待诊断数据进行判断，所述诊断模块包括根据上述建立方法得到的辅助诊断模型；

由此，该辅助诊断系统的诊断模块包括根据上述建立方法得到的辅助诊断模型，能够基于选定的蛋白质标志物进行快速、准确的妊娠期糖尿病诊断，实现快速分析、判断样本数据并输出结果，从而为临床应用提供有效的、非侵入性的妊娠期糖尿病诊断。

作为可选的实施例，所述辅助诊断模型基于随机森林模型得到。

在本实施例中，从224名MS组受试者和183名GDM组受试者中收集泪液样本，基于iTRAQ表征样本的蛋白质组学谱，并通过ELISA验证得到泪液样本中的蛋白质标志物数据，并经过分析和比对，蛋白质标志物数据中选取了K2C5、PIP和GLOD4的泪液蛋白浓度数据，其中，将K2C5和PIP组合、K2C5和GLOD4组合、PIP和GLOD4组合、以及K2C5、PIP和GLOD4组合，分别作为训练数据的特征子集，用于机器学习模型，并将深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林作为机器学习模型。通过绘制ROC曲线和评估AUC值，得到基于随机森林模型的K2C5、PIP和GLOD4泪液蛋白浓度数据集合的最优训练模型和集成模型的性能最佳，能有效对妊娠期糖尿病进行辅助诊断，其AUC值可在0.98以上。

在鉴别妊娠时，以K2C5、PIP和GLOD4为最优特征子集的所有机器学习模型的最优训练模型均表现出了高性能，而在鉴别GDM时，以K2C5、PIP和GLOD4为最优特征子集的随机森林模型的最优训练模型达到了最佳性能AUC可达0.981±0.013。

在鉴别妊娠时，以K2C5、PIP和GLOD4为最优特征子集的所有机器学习模型的集成模型均表现出了高性能，而在鉴别GDM时，以K2C5、PIP和GLOD4为最优特征子集的随机森林模型的集成模型达到了最佳性能AUC可达0.981±0.013。

由此，基于随机森林模型和选定的泪液蛋白标志物生成的辅助诊断模型在鉴别GDM方面表现出较高的性能。尽管高性能部分地源于严格的受试者入组标准，但这项研究产生了准确的非侵入性泪液蛋白质标志物特征，并改善泪液蛋白质组学在GDM研究中的应用。

本发明还提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述实施例所述的建立方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述实施例所述的建立方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种针对妊娠期糖尿病的辅助诊断模型的建立方法，其特征在于，所述方法包括如下步骤：

选取可用于所述辅助诊断模型的机器学习模型；

2.如权利要求1所述的建立方法，其特征在于，所述基于所述原始数据集对所述机器学习模型进行训练和评估包括：

对所述原始数据集进行缩放处理并得到预处理数据；

3.如权利要求2所述的建立方法，其特征在于，

4.如权利要求2所述的建立方法，其特征在于，所述对所述集成模型进行性能评估包括：

绘制ROC曲线，并计算所述集成模型的AUC值。

5.如权利要求1所述的建立方法，其特征在于，所述蛋白质标志物数据包括K2C5、PIP和GLOD4的泪液蛋白浓度数据。

6.如权利要求5所述的建立方法，其特征在于，所述通过所述训练集对所述机器学习模型进行训练并得到训练模型包括：

7.如权利要求6所述的建立方法，其特征在于，所述训练集和测试集的比例为7：3，所述交叉验证为十折交叉验证。

8.如权利要求1所述的建立方法，其特征在于，所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。

9.如权利要求1-8任一项所述的建立方法，其特征在于，所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。

10.一种针对妊娠期糖尿病的辅助诊断模型的建立系统，其特征在于，所述建立系统包括：

11.如权利要求10所述的建立系统，其特征在于，所述建模单元包括：

12.如权利要求11所述的建立系统，其特征在于，

13.如权利要求11所述的建立系统，其特征在于，所述模型建立模块还包括性能评估模块，用于绘制ROC曲线，并计算所述集成模型的AUC值。

14.如权利要求10所述的建立系统，其特征在于，所述蛋白质标志物数据包括K2C5、PIP和GLOD4的泪液蛋白浓度数据。

15.如权利要求14所述的建立系统，其特征在于，所述模型训练模块的最优特征子集为K2C5、PIP和GLOD4的泪液蛋白浓度数据；

16.如权利要求15所述的建立系统，其特征在于，所述训练集和测试集的比例为7：3，所述交叉验证为十折交叉验证。

17.如权利要求10所述的建立系统，其特征在于，所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。

18.如权利要求10至17任一项所述的建立系统，其特征在于，所述机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。

19.一种妊娠期糖尿病的辅助诊断系统，其特征在于，所述辅助诊断系统包括：

诊断模块，用于对所述待诊断数据进行判断，所述诊断模块包括根据权利要求1至9任一项所述的建立方法得到的辅助诊断模型；

20.如权利要求19所述的辅助诊断系统，其特征在于，所述辅助诊断模型基于随机森林模型得到。

21.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如权利要求1至9任一项所述的建立方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序用于运行以实现如权利要求1至9任一项所述的建立方法。