CN117936068A - 智能判断模型的构建方法及系统 - Google Patents

智能判断模型的构建方法及系统 Download PDF

Info

Publication number
CN117936068A
CN117936068A CN202311440841.XA CN202311440841A CN117936068A CN 117936068 A CN117936068 A CN 117936068A CN 202311440841 A CN202311440841 A CN 202311440841A CN 117936068 A CN117936068 A CN 117936068A
Authority
CN
China
Prior art keywords
model
training
data
intelligent judgment
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311440841.XA
Other languages
English (en)
Inventor
徐红兵
俞兰
杨甦庆
胡敏
尹楠林
周雷
郎廷元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aidun Guangdong Biotechnology Co ltd
Original Assignee
Aidun Guangdong Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aidun Guangdong Biotechnology Co ltd filed Critical Aidun Guangdong Biotechnology Co ltd
Priority to CN202311440841.XA priority Critical patent/CN117936068A/zh
Publication of CN117936068A publication Critical patent/CN117936068A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种智能判断模型的构建方法及其系统,所述智能判断模型用于妊娠期糖尿病的判断,所述方法包括如下步骤:获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;其中,所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:磷酸丙糖异构酶),α‑烯醇化酶1和肽酰脯氨酰异构酶B。

Description

智能判断模型的构建方法及系统
技术领域
本发明涉及妊娠期糖尿病智能判断系统,具体涉及一种智能判断模型的构建方法及系统、一种用于妊娠期糖尿病的智能判断系统、一种电子设备和一种计算机可读存储介质。
背景技术
妊娠期糖尿病是糖尿病的一种,是指在妊娠期首次发现或发生的糖代谢异常,可能导致胎儿发育畸形、胎儿宫内窘迫、胎死宫内新生儿低血糖、巨大儿以及难产或者死产等并发症。患有妊娠期糖尿病的母亲所生的婴儿暴露于化学失衡的风险增加,因此早期准确的检测至关重要。在临床中,通常采用口服葡萄糖耐量试验以对妊娠期糖尿病进行诊断。然而,这种主流方法需要在服用葡萄糖之前和之后多次检查血糖水平,具有侵入性的,耗时的、劳动密集型的特点。此外,在妊娠早期,口服葡萄糖耐量试验对迟发性妊娠期糖尿病的敏感性和特异性较低。因此,这种方法不适合早期发现,临床上仍然迫切需要更多无创的、准确的生物标志物,以用于妊娠期糖尿病的临床判断。
机器学习作为现代信息学科人工智能的重要分支,使用算法解析大量数据并从中学习和归纳问题,从而可以通过模拟人类大脑思维的学习方式作出推理或判断。机器学习常用的算法有很多,例如按学习风格可分为监督学习、无监督学习、半监督学习等,按形式或功能的相似性可分为分类、回归、决策树、聚类、深度学习等。近年来,机器学习和临床诊断相结合虽然取得了一些进展,但受限于医学样本数据特点和各种算法的适用性,尤其是针对妊娠期糖尿病诊断,目前尚未发现于此相关的具有高准确率的基于机器学习的智能判断模型。
发明内容
基于上述现状,本发明的主要目的在于提供一种用于妊娠期糖尿病判断的智能判断模型的构建方法、构建系统、智能判断系统、电子设备和介质,所述构建方法将样本中的蛋白质标志物数据经预处理后用于机器学习模型,并在经过训练和评估的机器学习模型的基础上得到具有最佳准确率的智能判断模型,从而能够基于泪液生物标志物准确地、高效地诊断妊娠期糖尿病。
为实现上述目的,本发明采用的技术方案如下:
本发明的第一方面提供了一种智能判断模型的构建方法,所述智能判断模型用于妊娠期糖尿病的判断,所述方法包括如下步骤:
S100,获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
S200,通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述步骤S100中的所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
优选地,所述步骤S100中,所述多个样本从包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇的受试者的泪液中收集。
优选地,所述步骤S200还包括:
所述步骤S200包括:
S210,通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
S220,随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
S230,生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
S240,对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
优选地,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S221,将所述磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据作为最优特征子集。
优选地,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S222,采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
优选地,所述步骤S240中,所述对所述集成模型进行性能评估包括:
S241,绘制ROC曲线,并计算所述集成模型的AUC值。
优选地,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
优选地,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
本发明的第二方面提供了一种智能判断模型的构建系统,所述智能判断模型用于妊娠期糖尿病的判断,所述构建系统包括:
输入单元,用于获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
建模单元,用于通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
优选地,所述多个样本包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇的泪液样本。
优选地,所述建模单元包括:
数据模块,用于通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
训练模块,用于随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
构建模块,用于生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
评估模块,用于对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
优选地,所述训练模块的最优特征子集为磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据。
优选地,所述训练模块包括第一子模块,所述第一子模块能够采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
优选地,所述评估模块还用于绘制ROC曲线,并计算所述集成模型的AUC值。
优选地,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
优选地,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
本发明的第三方面提供了一种用于妊娠期糖尿病的智能判断系统,所述智能判断系统包括:
输入模块,用于输入待判断数据,所述待判断数据包括受试者的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据;
判断模块,用于对所述待判断数据进行判断,所述判断模块包括根据上述第一方面所述的构建方法得到的智能判断模型;
输出模块,用于输出所述待判断数据的判断结果,以得到所述受试者的妊娠期糖尿病患病概率。
优选地,所述智能判断模型基于随机森林模型得到。
本发明的第四方面提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如上述第一方面所述的构建方法。
本发明的第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于运行以实现如上述第一方面所述的构建方法。
本发明与现有技术相比具有明显的优点和有益效果,其至少具有下列优点:
本发明的智能判断模型的构建方法及构建系统,基于多个受试者样本获取可用于诊断妊娠期糖尿病的蛋白质标志物数据,将磷酸丙糖异构酶,α-烯醇化酶1和肽酰脯氨酰异构酶B的泪液蛋白浓度数据作为模型构建的原始数据集,并基于原始数据集对预选机器学习模型进行训练和评估,从而得到用于判断妊娠期糖尿病的智能判断模型,由此该智能判断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现,该智能判断模型预测正确率的最佳AUC值可在0.98以上。
本发明的用于妊娠期糖尿病的智能判断系统,该智能判断系统的判断模块包括根据上述构建方法得到的智能判断模型,能够基于多个样本中的蛋白质标志物数据(包括磷酸丙糖异构酶、α-烯醇化酶1和肽酰脯氨酰异构酶B的泪液蛋白浓度数据)进行快速、准确的妊娠期糖尿病诊断,实现快速分析、判断样本数据并输出结果,从而为临床应用提供一种有效的、非侵入性的妊娠期糖尿病判断方法。
本发明的电子设备和计算机可读存储介质,通过采用上述构建方法能够得到用于妊娠期糖尿病的智能判断模型,该智能判断模型能够基于泪液蛋白质标志物为大规模队列提供快速、准确的妊娠期糖尿病判断,有助于实现非侵入性的基于机器学习的妊娠期糖尿病诊断。
附图说明
图1为本发明的智能判断模型的构建方法的流程示意图;
图2为本发明的一个实施例的蛋白质标志物经ELISA验证的泪液蛋白浓度数据的示意图;
图3为本发明的一个实施例的蛋白质标志物经ELISA验证的泪液蛋白浓度数据的示意图;
图4为本发明的一个实施例的蛋白质标志物经ELISA验证的泪液蛋白浓度数据的示意图;
图5为本发明的一个实施例的用于鉴别妊娠和妊娠期糖尿病的AUC值的示意图;
图6为本发明的智能判断模型的构建系统的模块示意图;
图7为本发明的用于妊娠期糖尿病的智能判断系统的模块示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的方法、系统、电子设备和计算机可读存储介质,其具体实施方式、方法、步骤、特征及其功效,详细说明如后。
参见图1,一种智能判断模型的构建方法,所述智能判断模型用于妊娠期糖尿病的判断,所述方法包括如下步骤:
S100,获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
S200,通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述步骤S100中的所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
其中,眼泪富含蛋白质和脂质,这些蛋白质和脂质已成为诊断生物标志物的重要来源。疾病的病理生理变化可能反映在眼泪中,泪液生物标志物的诊断能力已在许多非眼科全身性疾病(如多发性硬化症和帕金森病)中得到证实。最常见的泪液样品采集方法包括泪液分泌试纸(Schirmer strip)法和毛细管(capillary)法,这些方法能够非侵入性地收集样本。由此,基于比较蛋白质组学分析的泪液生物标志物可用于妊娠期糖尿病得诊断。
具体地,关于蛋白质标志物,其中,磷酸丙糖异构酶(TPIS),其蛋白全称:Triosephosphate isomerase,编码基因名称:TPI1,Gene ID:7167,中文名:磷酸丙糖异构酶,Uniprot接收号:P60174,Uniprot接收名称:TPIS_HUMAN;
α-烯醇化酶1(ENOA),其蛋白全称:Alpha-enolase,编码基因名称:ENO1,Gene ID:2023,中文名:α-烯醇化酶1,Uniprot接收号:P06733,Uniprot接收名称:ENOA_HUMAN;
肽酰脯氨酰异构酶B(PPIB),其蛋白全称:Peptidyl-prolyl cis-transisomerase B,编码基因名称:PPIB,Gene ID:5479,中文名:肽酰脯氨酰异构酶B,Uniprot接收号:P23284,Uniprot接收名称:PPIB_HUMAN。
通过上述步骤,基于多个受试者样本获取可用于诊断妊娠期糖尿病的蛋白质标志物数据,将磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据作为模型构建的原始数据集,并基于原始数据集对预选机器学习模型进行训练和评估,从而得到智能判断模型,由此该智能判断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现,该判断模型预测正确率的最佳AUC值可在0.98以上。
作为可选的实施例,所述步骤S100中,所述多个样本从受试者泪液中收集,所述受试者包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇。
具体地,通过检测受试者泪液中蛋白质组学的动态变化,能够发现与妊娠和妊娠期糖尿病相关的蛋白质标志物。
在本实施例中,招募的受试者包括:孕中期正常孕妇(A组)和孕中期妊娠期糖尿病孕妇(B组)。其中,孕中期包括妊娠第2期和第3期。A组为254例、B组为189例。所有受试者的入组标准包括:(1)无妊娠史:(2)无慢性病;(3)6个月内或怀孕期间未服药;(4)妊娠期无异常情况(B组除外);(5)无眼病史;(6)体格检查发现重要器官无功能障碍。随后,根据入组标准,A组和B组中9.8%和10%的受试者被排除在外。最后,从224名A组受试者和183名B组受试者中收集泪液样本。
作为可选的实施例,所述步骤S100中,基于iTRAQ表征所述样本的蛋白质组学谱,并通过ELISA验证得到所述蛋白质标志物数据。
具体地,样本的蛋白质组学谱通过同位素标记相对和绝对定量(isobaric Tagsfor Relative and Absolute Quantification,iTRAQ)进行表征,随后通过酶联免疫吸附测定(enzyme linked immunosorbent assay,ELISA)验证基于生物信息学分析选择的蛋白标志物,由此得到的蛋白质标志物数据可用于机器学习。
其中,iTRAQ是一种标记定量蛋白质组学,指利用iTRAQ标记技术和质谱技术对蛋白质组进行定量的一种分析方法。ELISA是一种定性或定量检测,使用抗体来结合并测定目的分子。本实施例中,iTRAQ用于发现阶段以鉴定可选的蛋白质标志物,ELISA用于验证阶段以验证在发现阶段选定的蛋白质标志物。
作为可选的实施例,所述步骤S200还包括:
S210,通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
S220,随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
S230,生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
S240,对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
其中,所述步骤S210中,所述缩放处理包括是通过Z值算法对所述原始数据集进行统一量级处理。具体地,通过步骤S100得到的原始数据集可能是处于不同量级的数据,采用Z值(Z-Score)算法将不同量级的数据统一转化为同一个量级,统一用计算出的Z值衡量,以保证数据之间的可比性。基于Z值算法进行数据的缩放处理时,一般需要总体数据的均值、总体数据的标准差以及个体数据(即经ELISA验证的单个样本的蛋白质标志物数据)。
其中,所述步骤S230中,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,以适用于单个样本作为所述输入数据。具体地,用于机器学习的原始数据集一般包括多个样本的若干蛋白质标志物数据,通常以数据矩阵的形式输入给机器学习模型并进行训练,经参数优化的训练模型经评估确定为适用的判断模型,该判断模型在实际使用时输入数据通常是单个的陌生样本,这就需要通过数据转换程序对输入数据进行处理后以使得判断模型能够对单个样本进行判断。由此,数据处理程序基于Z值算法所采用的相关参数对单个样本的原始数据进行处理,具体参照如下公式:
式中,Z为转换后的单个样本的蛋白质标志物数值,X为原始的单个样本的蛋白质标志物数值,M为Z值算法中使用的蛋白质标志物数据的均值,s为Z值算法中使用的蛋白质标志物数据的标准差。
通过上述步骤,对原始数据集进行缩放处理得到统一量级的预处理数据,利用预处理数据对预选机器学习模型进行训练以获取最优训练模型,在最优训练模型中集成与Z值算法缩放处理相应的数据转换程得到集成模型,由此在得到的最优训练模型中集成数据转换程序,以满足单个样本数据的判断需求,能有效模拟现实临床应用,并且该集成模型经性能评估后确认得到智能判断模型,由此该智能判断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现。
作为可选的实施例,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S221,将所述磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据作为最优特征子集。
具体地,根据上述实施例的受试者样本的蛋白质标志物数据,从224名A组受试者和183名B组受试者中收集泪液样本,例如基于iTRAQ表征样本的蛋白质组学谱,并通过ELISA验证得到泪液样本中的蛋白质标志物可以包括K2C5、CPNS1、PIP、GLOD4、CATD、PPIB、G3P、TPIS、ENOA(如上均为蛋白缩写)。通过数据观察和比对,参见图2,可以发现其中某些蛋白质标志物(例如,K2C5、CPNS1、PIP和GLOD4)含量随着妊娠逐渐增加并在B组显著增加,参见图3,某些蛋白质标志物(例如,CATD和PPIB)含量会随着妊娠持续上调并在B组急剧降低,参见图4,某些蛋白质标志物(例如,G3P、TPIS、ENOA含量)会在A组显著增加并在B组增加异常。同时,这些蛋白质标志物经ELISA得到验证,并通过ROC曲线和AUC值评估这些蛋白质标志物的鉴别或分类能力,参见图5,例如,某些蛋白质标志物(例如,G3P、PIP、TPIS、GLOD4和CATD)可作为鉴别妊娠的最佳候选标志物,某些蛋白质(例如CATD、G3P、K2C5、CPNS1和ENOA)可作为鉴别妊娠期糖尿病的最佳候选标志物,基于此,从这些蛋白质标志物中选取合适的若干蛋白质标志物,并将其相应的泪液蛋白浓度数据的集合作为最优特征子集并用于训练机器学习模型。
机器学习中,特征选择是一个重要问题,其目标是寻找最优特征子集,通过特征选择能够剔除不相关或冗余的特征,从而达到减少特征个数,有助于提高模型精确度,减少运行时间。同时,选取出真正与问题相关的特征或特征子集,能够简化模型,协助理解数据产生的过程,避免过拟合等问题。由此,根据与妊娠期糖尿病诊断相关的若干蛋白质标志物确定可用于机器学习模型的最优特征子集,有助于确保判断模型的使用性能和准确率。
在本实施例中,蛋白质标志物数据中选取了磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据,其中,将TPIS和ENOA组合、TPIS和PPIB组合、ENOA和PPIB组合、以及TPIS、ENOA和PPIB组合,分别作为训练数据的特征子集,用于机器学习模型,并将深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林作为预选机器学习模型。通过绘制ROC曲线和评估AUC值,得到基于随机森林模型的TPIS、ENOA和PPIB泪液蛋白浓度数据集合的最优训练模型和集成模型的性能最佳,能有效诊断妊娠期糖尿病,其AUC值可在0.98以上。
作为可选的实施例,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S222,采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
具体地,训练集在训练机器模型时可能会出现过拟合问题,一般在训练集中可以分出一部分数据作为验证集,用于评估模型的训练效果和调整模型的超参数。验证集用于评估模型的一般错误率,基于此调整超参数以得到最优超参数。在上述实施例中,采用了交叉验证,例如较常用的是K折交叉验证,也就是将训练集分成K份,既可以重复使用训练集中的数据,每一份数据都会被作为训练集参与模型训练,也会作为验证集参与模型评估,最大程度地利用了全部数据,且多个验证集进行多次评估,能更好地反映模型的分类或判断性能。
作为可选的实施例,所述步骤S240中,所述对所述集成模型进行性能评估包括:
S241,绘制ROC曲线,并计算所述集成模型的AUC值。
具体地,受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC曲线)用于分析二元分类模型。曲线下面积(Area Under the Curve,AUC)用于在比较不同的分类模型时,将每个模型的ROC曲线画出来,比较曲线下面积作为模型优劣的指标,一般是在1x1的方格里面求面积,AUC值必须在0~1之间。AUC值越大的分类器(模型),其正确率越高。
通过上述步骤,能够有效地对所得到的集成模型进行性能评估,以确认得到最佳的集成模型作为智能判断模型。
作为可选的实施例,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
具体地,训练集用于构建模型,测试集用于评估模型的指标,例如正确率、敏感性等。在上述实施例中,根据从224名A组受试者和183名B组受试者中收集泪液样本的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据,基于此得到的原始数据集在经过预处理后按照70%和30%分为训练集和测试集,在本实施例中重复进行了50次随机拆分得到多个训练集和测试集,以满足模型训练和评估的要求,并实现了具有最佳性能(AUC=0.989±0.06)的训练模型和集成模型。
需要说明的是,如果数据集体量很大时,测试集可以不需要完全按照比例分配,只要能满足使用需要即可。
具体地,在上述实施例中,根据从224名A组受试者和183名B组受试者中收集泪液样本的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据,采用了十折交叉验证,经多个验证集进行多次评估,能够很好地反映判断模型的分类或判断性能。
作为可选的实施例,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
在上述实施例中,通过选取不同的机器学习模型并基于选定的蛋白质标志物数据进行相应的训练,以确定最佳性能的训练模型和集成模型,用于作为智能判断模型。
参见图6,一种智能判断模型的构建系统,所述智能判断模型用于妊娠期糖尿病的判断,所述构建系统包括:
输入单元,用于获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
建模单元,用于通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
其中,关于蛋白质标志物磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的具体描述(包括蛋白全称、编码基因、Gene ID、中文名、Uniprot接收号、Uniprot接收名称),参照上文具体内容。
由此,所得到的智能判断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现,该智能判断模型预测准确率的最佳AUC值可在0.98以上。
作为可选的实施例,所述多个样本包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇的泪液样本。
由此,通过检测孕中期正常孕妇和孕中期妊娠期糖尿病孕妇泪液中蛋白质组学的动态变化,能够有效地发现与妊娠和妊娠期糖尿病相关的多个蛋白质标志物。
作为可选的实施例,所述建模单元包括:
数据模块,用于通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
训练模块,用于随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
构建模块,用于生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
评估模块,用于对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
其中,所述数据模块采用Z值(Z-Score)算法将不同量级的数据统一转化为同一个量级,统一用计算出的Z值衡量,以保证数据之间的可比性,并且构建模块的数据转换程序对判断模型的输入数据进行处理,以满足单个样本数据的诊断需求,能有效模拟现实临床应用。
由此,通过数据处理模块对原始数据集进行缩放处理得到统一量级的预处理数据,模型训练模块利用预处理数据对预选机器学习模型进行训练以获取最优训练模型,模型构建模块在最优训练模型中集成与Z值算法缩放处理相应的数据转换程得到集成模型,该集成模型经性能评估后确认得到智能判断模型,由此该智能判断模型适用于大规模队列的妊娠期糖尿病诊断,基于优选出来的最佳机器学习模型和适用的蛋白质标志物能够有效判别妊娠期糖尿病,并具备非侵入性和良好的性能表现。
作为可选的实施例,所述训练模块的最优特征子集为磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据。
由此,根据与妊娠期糖尿病诊断相关的若干蛋白质标志物确定可用于机器学习模型的最优特征子集,有助于确保判断模型的使用性能和准确率。
作为可选的实施例,所述训练模块包括第一子模块,所述第一子模块能够采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
由此,通过第一子模块进行交叉验证,既可以重复使用训练集中的数据,每一份数据都会被作为训练集参与模型训练,也会作为验证集参与模型评估,最大程度地利用了全部数据,且多个验证集进行多次评估,能更好地反映模型的分类或判断性能。
作为可选的实施例,所述评估模块还用于绘制ROC曲线,并计算所述集成模型的AUC值。
由此,通过评估模块绘制ROC曲线和计算AUC值,有效地对所得到的集成模型进行性能评估,以确认得到最佳的集成模型作为智能判断模型。
作为可选的实施例,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
具体地,根据从224名A组受试者和183名B组受试者中收集泪液样本的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据,基于此得到的原始数据集在经过预处理后按照70%和30%分为训练集和测试集,在本实施例中重复进行了50次随机拆分得到多个训练集和测试集,以满足模型训练和评估的要求,采用了十折交叉验证,经多个验证集进行多次评估,能够很好地反映判断模型的分类或判断性能,并实现了具有最佳性能(AUC=0.989±0.06)的训练模型和集成模型。
作为可选的实施例,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
由此,通过选取不同的机器学习模型并基于选定的蛋白质标志物数据进行相应的训练,以确定最佳性能的训练模型和集成模型,用于作为智能判断模型。
参见图7,一种用于妊娠期糖尿病的智能判断系统,所述智能判断系统包括:
输入模块,用于输入待判断数据,所述待判断数据包括受试者的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据;
判断模块,用于对所述待判断数据进行判断,所述判断模块包括根据上述构建方法得到的智能判断模型;
输出模块,用于输出所述待判断数据的判断结果,以得到所述受试者的妊娠期糖尿病患病概率。
其中,关于蛋白质标志物磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的具体描述(包括蛋白全称、编码基因、Gene ID、中文名、Uniprot接收号、Uniprot接收名称),参照上文具体内容。
由此,该智能判断系统的判断模块包括根据上述构建方法得到的智能判断模型,能够基于选定的蛋白质标志物进行快速、准确的妊娠期糖尿病诊断,实现快速分析、判断样本数据并输出结果,从而为临床应用提供有效的、非侵入性的妊娠期糖尿病诊断。
作为可选的实施例,所述智能判断模型基于随机森林模型得到。
在本实施例中,从224名A组受试者和183名B组受试者中收集泪液样本,基于iTRAQ表征样本的蛋白质组学谱,并通过ELISA验证得到泪液样本中的蛋白质标志物数据,并经过分析和比对,在蛋白质标志物数据中选取了磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据,其中,将TPIS和ENOA组合、TPIS和PPIB组合、ENOA和PPIB组合、以及TPIS、ENOA和PPIB组合,分别作为训练数据的特征子集,用于机器学习模型,并将深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林作为预选机器学习模型。通过绘制ROC曲线和评估AUC值,得到基于随机森林模型的TPIS、ENOA和PPIB泪液蛋白浓度数据的最优训练模型和集成模型的性能最佳,能有效诊断妊娠期糖尿病,其AUC值可在0.98以上。
在鉴别妊娠时,以TPIS、ENOA和PPIB为最优特征子集的所有机器学习模型的最优训练模型均表现出了高性能,而在鉴别妊娠期糖尿病时,以TPIS、ENOA和PPIB为最优特征子集的随机森林模型的最优训练模型达到了最佳性能AUC=0.989±0.06。
在鉴别妊娠时,以TPIS、ENOA和PPIB为最优特征子集的所有机器学习模型的集成模型均表现出了高性能,而在鉴别妊娠期糖尿病时,以TPIS、ENOA和PPIB为最优特征子集的随机森林模型的集成模型达到了最佳性能AUC=0.989±0.06。
由此,基于随机森林模型和选定的泪液蛋白标志物生成的判断模型在鉴别妊娠期糖尿病方面表现出较高的性能。尽管高性能部分地源于严格的受试者入组标准,但这项研究产生了准确的非侵入性泪液蛋白质标志物特征,并改善泪液蛋白质组学在妊娠期糖尿病研究中的应用。
本发明还提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如上述实施例所述的构建方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于运行以实现如上述实施例所述的构建方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (20)

1.一种智能判断模型的构建方法,所述智能判断模型用于妊娠期糖尿病的判断,其特征在于,所述方法包括如下步骤:
S100,获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
S200,通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述步骤S100中的所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
2.如权利要求1所述的构建方法,其特征在于,所述步骤S100中,所述多个样本从包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇的受试者的泪液中收集。
3.如权利要求1所述的构建方法,其特征在于,所述步骤S200包括:
S210,通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
S220,随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
S230,生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
S240,对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
4.如权利要求3所述的构建方法,其特征在于,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S221,将所述磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据作为最优特征子集。
5.如权利要求3所述的构建方法,其特征在于,所述步骤S220中,所述通过所述训练集对所述预选机器学习模型进行训练并得到训练模型包括:
S222,采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
6.如权利要求3所述的构建方法,其特征在于,所述步骤S240中,所述对所述集成模型进行性能评估包括:
S241,绘制ROC曲线,并计算所述集成模型的AUC值。
7.如权利要求5所述的构建方法,其特征在于,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
8.如权利要求1-7任一项所述的构建方法,其特征在于,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
9.一种智能判断模型的构建系统,所述智能判断模型用于妊娠期糖尿病的判断,其特征在于,所述构建系统包括:
输入单元,用于获取多个样本中的蛋白质标志物数据,并作为用于构建所述智能判断模型的原始数据集;
建模单元,用于通过所述原始数据集对预选机器学习模型进行训练和评估,并根据评估结果得到所述智能判断模型;
其中,所述蛋白质标志物数据包括如下标志物的泪液蛋白浓度数据:
磷酸丙糖异构酶(TPIS),
α-烯醇化酶1(ENOA),和
肽酰脯氨酰异构酶B(PPIB)。
10.如权利要求9所述的构建系统,其特征在于,所述多个样本包括孕中期正常孕妇和孕中期妊娠期糖尿病孕妇的泪液样本。
11.如权利要求9所述的构建系统,其特征在于,所述建模单元包括:
数据模块,用于通过Z值算法对所述原始数据集进行缩放处理并得到预处理数据;
训练模块,用于随机将所述预处理数据分为训练集和测试集,通过所述训练集对预选机器学习模型进行训练并得到训练模型,并通过所述测试集对所述训练模型进行评估,确定最优训练模型;
构建模块,用于生成可用于单个样本的数据转换程序,所述数据转换程序根据所述Z值算法所采用的参数对所述智能判断模型的输入数据进行处理,将所述数据转换程序与所述最优训练模型进行集成并得到集成模型;
评估模块,用于对所述集成模型进行性能评估,根据所述性能评估的结果得到所述智能判断模型。
12.如权利要求11所述的构建系统,其特征在于,所述训练模块的最优特征子集为磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据。
13.如权利要求11所述的构建系统,其特征在于,所述训练模块包括第一子模块,所述第一子模块能够采用交叉验证并得到模型评估结果,基于所述模型评估结果确定最优超参数,根据所述最优超参数得到所述训练模型。
14.如权利要求11所述的构建系统,其特征在于,所述评估模块还用于绘制ROC曲线,并计算所述集成模型的AUC值。
15.如权利要求13所述的构建系统,其特征在于,所述训练集和测试集的比例为7:3,所述交叉验证为十折交叉验证。
16.如权利要求9至15任一项所述的构建系统,其特征在于,所述预选机器学习模型包括深度神经网络、线性支持向量机、径向基核函数支持向量机、随机梯度下降、随机森林。
17.一种用于妊娠期糖尿病的智能判断系统,其特征在于,所述智能判断系统包括:
输入模块,用于输入待判断数据,所述待判断数据包括受试者的磷酸丙糖异构酶(TPIS)、α-烯醇化酶1(ENOA)和肽酰脯氨酰异构酶B(PPIB)的泪液蛋白浓度数据;
判断模块,用于对所述待判断数据进行判断,所述判断模块包括根据权利要求1至8任一项所述的构建方法得到的智能判断模型;
输出模块,用于输出所述待判断数据的判断结果,以得到所述受试者的妊娠期糖尿病患病概率。
18.如权利要求17所述的判断系统,其特征在于,所述智能判断模型基于随机森林模型得到。
19.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如权利要求1至8任一项所述的构建方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于运行以实现如权利要求1至8任一项所述的构建方法。
CN202311440841.XA 2023-10-31 2023-10-31 智能判断模型的构建方法及系统 Pending CN117936068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311440841.XA CN117936068A (zh) 2023-10-31 2023-10-31 智能判断模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311440841.XA CN117936068A (zh) 2023-10-31 2023-10-31 智能判断模型的构建方法及系统

Publications (1)

Publication Number Publication Date
CN117936068A true CN117936068A (zh) 2024-04-26

Family

ID=90754463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311440841.XA Pending CN117936068A (zh) 2023-10-31 2023-10-31 智能判断模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN117936068A (zh)

Similar Documents

Publication Publication Date Title
CN111598867B (zh) 用于检测特定面部综合征的方法、装置及计算机可读存储介质
CN114999629B (zh) 一种基于多特征融合的ad早期预测方法、系统、装置
CN112669960B (zh) 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质
JP7286863B2 (ja) 医療データの自動化された検証
US20220117552A1 (en) Artificial neural network-based nuclear magnetic resonance and magnetic resonance spectroscopy data processing method and apparatus thereof
Vargason et al. Towards a multivariate biomarker-based diagnosis of autism spectrum disorder: review and discussion of recent advancements
CN105512493A (zh) 基于脑部病理年龄估计的脑疾病检测系统
CN112183572A (zh) 一种生成预测肺炎严重程度的预测模型的方法及装置
CN112466402A (zh) 一种使用血液标志物预测年龄的方法
CN114974585A (zh) 一种妊娠期代谢综合征早期风险预测评估模型构建方法
CN117831771B (zh) 一种基于深度学习的疾病风险预测模型构建方法及系统
CN111175480A (zh) 一种血液生化指标计算性别和年龄的方法
CN113066549B (zh) 基于人工智能的医疗器械的临床有效性评估方法及系统
CN114842969A (zh) 一种基于关键纤维束的轻度认知障碍症评估方法
CN116738352B (zh) 视网膜血管阻塞疾病的视杆细胞异常分类方法及装置
CN117612729A (zh) 基于临床化验指标预判胡蜂蛰伤病人轻症或重症的方法
KR102439319B1 (ko) 인공신경망 기반 핵자기공명 및 자기공명분광 데이터 처리 방법 및 그 장치
CN112986454A (zh) 急性心肌梗死的血清标志物、试剂盒和用途
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
CN117936068A (zh) 智能判断模型的构建方法及系统
CN116597950A (zh) 一种医学图像分层方法
CN118039116A (zh) 基于机器学习的妊娠期糖尿病判断模型的构建方法及系统
CN113545771B (zh) 一种基于足底压力的集成k近邻帕金森病定量诊断系统
CN118098555A (zh) 针对妊娠期糖尿病的辅助诊断模型
CN114974562A (zh) 一种基于机器学习的重症胰腺炎的临床预测模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination