CN113687083A

CN113687083A - 一种基于深度学习的糖尿病肾病早期预测方法及系统

Info

Publication number: CN113687083A
Application number: CN202110957901.XA
Authority: CN
Inventors: 李遇伯; 王玉明; 孙桂江; 赵换
Original assignee: Tianjin University of Traditional Chinese Medicine
Current assignee: Tianjin University of Traditional Chinese Medicine
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-23
Anticipated expiration: 2041-08-20
Also published as: CN113687083B

Abstract

本发明公开一种基于深度学习的糖尿病肾病早期预测方法及系统，预测方法包括以下步骤：S1、采集受试者样本，提取蛋白质组学和脂质组学；S2、分析所述蛋白质组学和所述脂质组学，获取原始特征；S3、筛选所述原始特征，提取融合特征；S4、分析所述融合特征间的相关性，获取糖尿病肾病早期预测的生物标志物；S5、基于所述糖尿病肾病早期预测的生物标志物，早期预测糖尿病肾病。本发明利用深度学习进行海量、高维数据量计算，发现糖尿病与肾病之间的敏感关联特征，提高早期预测效率。

Description

一种基于深度学习的糖尿病肾病早期预测方法及系统

技术领域

本发明涉及计算机应用领域，特别是涉及一种基于深度学习的糖尿病肾病早期预测方法及系统。

背景技术

糖尿病(Diabetemellitus,DM)的是以高血糖为特征的一种代谢性疾病，在诸多并发症中，由于肾小球血管受损、硬化等长期慢性微血管病变导致的糖尿病肾病(Diabetickidney disease，DKD)是最严重的并发症之一，也是慢性肾病和肾衰竭的主要原因。目前，尿微量白蛋白是目前诊断及评估DKD进展最常用的指标，然而在其水平异常之前，部分患者的肾脏病理早已出现，有限的灵敏度和特异性已经不能满足DKD的早期预测。

在高通量技术迅猛发展的推动下，脂质组学和蛋白质组学使DKD的动态循环生物标志物方面有了前所未有的洞察力。作为代谢通路的参与者，差异脂类代谢物和蛋白质标志物也可能突出参与DKD发展过程中涉及的路径，这已被诸多学者证实。但伴随着大数据时代的到来，组学数据呈现海量、高维、结构复杂、结构化的特点，传统的统计分析方法不足以满足结果准确率及效率需要。

发明内容

本发明的目的是提供一种基于深度学习的糖尿病肾病早期预测方法及系统，以解决上述现有技术存在的问题，利用深度学习进行海量、高维数据量计算，发现糖尿病与肾病之间的敏感关联特征，提高早期预测效率。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于深度学习的糖尿病肾病早期预测方法，包括以下步骤：

S1、采集受试者样本，提取蛋白质组学和脂质组学；

S2、分析所述蛋白质组学和所述脂质组学，获取原始特征；

S3、筛选所述原始特征，获取融合特征；

S4、分析所述融合特征间的相关性，获取糖尿病肾病早期预测的生物标志物；

S5、基于所述糖尿病肾病早期预测的生物标志物，早期预测糖尿病肾病。

优选地，所述受试者样本为血清样本。

优选地，在所述S1中还提取所述受试者的临床指标信息。

优选地，所述S2中分析所述蛋白质组学数据采用数据独立采集DIA方法。

优选地，所述S2中分析所述脂质组学数据过程中，采用HPLC-Q-TOF/MS对所述脂质组学数据进行无靶向分析。

优选地，所述S3包括：采取近邻成分分析NCA对所述原始特征变量进行特征选择，将排名靠前的20％的特征选出，获取所述融合特征。

优选地，所述S4包括：

S4.1、基于原始特征数据和融合特征数据，组成卷积神经网络CNN模型的训练集和验证集；

S4.2、构建所述CNN模型，利用所述训练集对所述CNN模型进行训练，获得最终的CNN模型；

S4.3、利用所述验证集验证所述最终的CNN模型；

S4.4、基于所述最终的CNN模型，融合所述融合特征；

S4.5、采用典型关联分析CCA分析所述融合特征间的相关性，获取糖尿病肾病早期预测的生物标志物。

优选地，所述CNN模型包括输入层-卷积层-池化层-全连接层-输出层，其中，所述输入层由3部分组成，分别用于处理所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据；所述卷积层，用于对所述对所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据进行特征提取，输出的特征会被传递至所述池化层进行特征选择和信息过滤，所述全连接层用于对提取的特征进行非线性组合以得到分类结果定义输出。

优选地，所述融合特征包括：CAP1，TLN1，CNN2，PTPN6，17α,21-Dihydroxypregnenolone，Tetrahydrocorticosterone，LysoPC(P-18:0/0:0)，Trihydroxycoprostanoic acid，GlcCer(d18:1/-18:1)，Cer(d18:1/16:0)，FAHFA(18:1/13-O-18:0)，3-Oxohexadecanoic acid。

还提供一种基于深度学习的糖尿病肾病早期预测系统，包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块、预测模块，

所述数据采集模块，用于采集受试者的临床指标信息、蛋白质组学数据和脂质组学数据；

所述数据分析模块，用于分析所述蛋白质组学数据和所述脂质组学数据，提取原始特征；

所述融合特征提取模块，用于利用筛选所述原始特征，提取融合特征；

所述融合特征相关性分析模块，用于分析所述融合特征间的关联性，获取糖尿病肾病早期预测的生物标志物。

本发明公开了以下技术效果：

本发明提供的一种基于深度学习的糖尿病肾病早期预测方法及系统，将脂质组学与蛋白质组学数据结合现有临床指标找寻糖尿病肾病早期预测的最佳标志物，对高通量、多维度的多组学数据进行整合分析，进一步明确关键代谢特征的指向，显著提高了早期预测的效率和精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于深度学习的糖尿病肾病早期预测方法的流程示意图；

图2为本发明实施例中多组学原始特征获取结果可视化图；

图3为本发明实施例中权重排序在前20％的特征排名示意图；

图4为本发明实施例中被验证的重要特征变量相对含量水平示意图；

图5是本发明实施例中基于深度学习的糖尿病肾病早期预测系统的组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于深度学习的糖尿病肾病早期预测方法，如图1所示，包括以下步骤：

S1、选择受试者，采集受试者样本，获取受试者的临床指标信息，提取样本的蛋白质组学和脂质组学。

本发明实施例中，受试者包括健康对照人群(HC)、糖尿病患者(DM)及糖尿病肾病(DKD)患者，分为发现集队列105例和验证集队列300例，采集所有受试者的血清样本，其中发现集队列的血清样本被用于蛋白质组学与脂质组学分析；验证集队列的血清样本用于验证发现集结果的重现性。

本发明实施例中，对发现集发现集健康对照组(HC)35例，糖尿病(DM)35例，糖尿病肾病(DKD)35例，通过SPSS26.0对各组受试者基本信息和临床指标做统计分析，临床基线匹配结果见表1，3组受试者的年龄、性别、血压、总胆固醇(TC)和低密度脂蛋白(LDL)无统计学差异(P>0.05)，甘油三酯(TG)、高密度脂蛋白(HDL)、动脉粥样硬化指数(AASI)、糖化血红蛋白(HbA1c)、葡萄糖(Glu)、糖尿病史(Diabetes history)、血尿素氮(BUN)和血肌酐(SCR)有显著性差异(p<0.05)。

表1

*:Compared with HC(*＜0.05,**＜0.01)；#:Compared with DM(#＜0.05,##＜0.01)

S2、分析蛋白质组学和脂质组学，获取原始特征。

本实施例中，采用数据独立采集(Data independent acquisition，DIA)定量方法进行蛋白质组学分析。血清样品经蛋白提取制备后，于高酸碱度反相UHPLC(ThermoScientific,Waltham,Massachusetts)分离洗脱。DDA分析在Orbitrap Fusion LUMOS质谱仪上进行，通过Easy Spray连接到Easy-nLC 1200。使用Pulsar搜索引擎分析所有原始数据，半胱氨酸的氨基甲酸乙酯被指定为固定修饰，甲硫氨酸的氧化被指定为可变修饰。DIAMS/MS采集应用与DDA相同的LC-MS系统与LC线性梯度方法进行。DIA原始文件在Spectronaut X中进行了分析，获取蛋白质组学原始特征。

采用HPLC-Q-TOF/MS技术来进行无靶向脂质组学分析。血清样本经脂质提取后解冻后，于Waters ACQUITY UPLC系统中进行梯度洗脱，在Waters Xevo G2-XS Q-Tof质谱系统的正离子模式下电离。通过定期分析QC样本以实现数据的规范化和标准化。原始数据由MarkerLynx应用程序管理器4.1版处理导出，数据经前处理后被导入SIMCA-P11.5统计软件进行多元统计分析，获取脂质组学原始特征。

本实施例中，蛋白质组学与脂质组学多元统计分析结果显示，分别如图2中的A、B所示，发现集HC,DM与DKD三组间的代谢特征有明显的差异。以fold change≥1.5且p<0.05的标准，最终筛选出219个显著差异的蛋白，其在各组间水平的分布与所在比较组的情况如图2中的C所示，多数蛋白在疾病组的水平高于健康组。脂质组学质量控制分析结果显示方法学考察结果合格，以变量重要性投影VIP>1与p<0.05为准则，最终鉴定了70个血清差异代谢物如表2所示，各组间水平及脂质类别分布如图2中的D所示，甘油脂类及甘油磷脂类物质占比最大，疾病组存在脂质堆积的现象。

表2

S3、筛选原始特征，提取融合特征；

采用采取近邻成分分析(Neighbourhood Component Analysis,NCA)对原始特征变量进行特征选择。首先，以占单组学总数的20％为比例分别选择蛋白质组学与脂质组学的特征，即蛋白质组学有44个特征被选择，如图3中的A所示，脂质组学有14个特征被选择，如图3中的B所示。随后，将289个特征视为整体来作NCA，以同样的占比选择权重排序在前58位的特征，如图3中的C所示，结果包括32个差异蛋白与26个差异代谢物，得到融合特征。

S4、构建深度学习模型，分析融合特征间的相关性，获取糖尿病肾病早期预测的生物标志物。

本实施例中，分别对105例样本的原始特征数据及提取融合特征后的数据进行模型构建及性能评估，并且对单一组学、组学联合及临床指标是否参与的结果作比较。通过分层抽样扩展为两组样本：训练集(84例样本，80％)和测试集(21例样本，20％)，每组的3个组别(HC,DM,DKD)的样本比例保持稳定。这一比例有助于确保有足够数量的训练样本来构建稳健的模型，同时有足够的测试样本来评估模型，更适用于处理中等或小样本量的数据。

选择CNN模型框架以实现多组学数据的整合集成。CNN模型构建共包括五部分：输入层-卷积层-池化层-全连接层-输出层。整合分析的输入层由3部分组成，分别对应的临床指标信息、蛋白质组学与脂质组学数据。卷积层的功能是对输入层的数据进行特征提取并输出所提取到的特征，特征会被传递至池化层进行特征选择和信息过滤，全连接层的作用则是对提取的特征进行非线性组合以得到输出。最后，模型类别由临床分类结果定义输出。对80％的训练数据集进行了10倍交叉验证，并对其余20％的测试集数据进行了模型测试。迭代学习过程中连续的训练验证操作以防止模型过度拟合。同时，本实施例中还应用支持向量机(SVM)方法构建模型以和深度学习结果作为结果对比。SVM是另一种机器学习算法，它将具有N个数据点的代谢组学数据分离为(N-1)维超平面,是一种常用的快速可靠的分类算法。

特征选择前后及单一组学与组学联合下的模型准确率及评估结果如表3所示。对于单一组学结果来看，无论是SVM机器学习，还是基于CNN的DL模型，特征提取前的蛋白质组学结果要优于提取后，而脂质组学提取特征后的两种模型均表现为内部准确率及预测准确率高于未提取特征模型，且整体CNN模型要优于SVM模型；多组学CNN-Selected模型以最高的准确率Internal Accuracy 100％，Prediction Accuracy 90.48％表现出显著优势。以上的结果表明DL在多组学数据的模型构建中更加突出适用，且特征的提取有助于提升模型的性能。

HbA1c与Glu两项临床指标参与模型构建的结果表明，它们的加入并没有使模型的准确率提高；此外，当两项指标被用作模型构建的唯一特征集时，CNN模型的诊断能力要比SVM弱得多。这样的结果或许有助于得出结论，一方面，与传统机器学习相比，DL更适用于处理高维复杂的数据，因此只有两个特征时，其优势便不会被体现；另一方面，即使没有临床指标的参与，基于DL的多组学模型也可以表现良好。推测可能是由于DL具有表现力和效率均突出的复杂多层的神经网络体系，它可以通过多组学数据来捕捉一些已有临床指标的关键信息，使被提取筛选出的高级特征更准确、更适用于分类。

表3

随后对基于Multiomics-Selected的58个融合特征作进一步的水平验证。酶联免疫吸附剂测定(Enzyme linked immunosorbent assay，ELISA)方法对其中32个蛋白进行定量验证，包括来自中心1与中心2的90例临床血清样本，每组各30例。最终共有CAP1，TLN1，CNN2，PTPN6 4个蛋白得到定量验证，如图4所示。无靶向脂质组学分析对象为验证集的300例受试者。经过同样的数据处理方法，最终，Cer(d18:1/16:0)等8个生物标志物在对应比较组中表现出显著性变化，如图4所示。

S5、分析同类生物标志物之间的特征关联，并且整合不同类生物标志物的组学数据整合分析不同类生物标志物之间的特征关联，早期预测糖尿病肾病。

通过多元统计分析方法-典型关联分析(Canonical Correlation Analysis,CCA)来进一步挖掘图4中12个生物标志物间潜在联系。设置4个差异蛋白为集和1，8个差异脂类分子为集和2。4个差异蛋白与8个差异脂类分子间存在一定的正相关性(0.511，p＜0.05)。根据标准化相关系数，第一对典型相关变量的标准化数学表达式如下：

集和1：

-0.386*A1-0.826*A2+0.123*A4

集和2：

0.551*B1+0.354*B2+0.024*B3-0.623*B4-0.084*B5-0.219*B5+0.095*B6

集合1中TLN1的标准化相关系数较大(r＝-0.826)，表明其对脂类特征的影响较大。集合2中17α，21-Dihydroxypregnenolone(r＝-0.551)，Trihydroxycoprostanoic acid(r＝-0.623)对蛋白特征贡献突出。两集和的皮尔逊相关系数可视化结果表明TLN1与Trihydroxycoprostanoic acid有较强的正关联性(r＝0.25)。此外，两集和的内部间存在更高的相关性，如CNN2与CAP1(r＝-0.44)，Trihydroxycoprostanoic acid与Cer(d18：1/16：0)(r＝-0.86)。

结合这些特征所在的差异比较组的情况，对12个特征的ROC分析，将AUC＞0.7的特征视为疾病显著预测因子，如表4所示。与CCA结果相呼应，Trihydroxycoprostanoic acid与Cer(d18：1/16：0)在各比较组中的效能突出；TLN1能够在特异性诊断DKD与DM向DKD进展的模型中均表现优异。即由TLN1，Trihydroxycoprostanoicacid与Cer(d18：1/16：0)组成的最佳生物标志物组合对DKD的早期诊断效能达到最优(AUC＝0.938)。利用此生物标志物组合制备DKD早期检测试剂盒，即特异性强，灵敏度高的血清检测试剂盒。针对广大的糖尿病受试人群，采集其血清样本，使用DKD早期检测试剂盒检测3种生物标志物的相对浓度水平，用于糖尿病患者糖尿病肾病的早期预测与筛查，做到早发现早治疗，实现前期检测的低成本、易操作及高准确性。

表4

本实施例还提供了一种基于深度学习的糖尿病肾病早期预测系统，如图5所示，包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块。

数据采集模块，用于采集受试者的临床指标信息、蛋白质组学数据和脂质组学数据；

数据分析模块，用于分析蛋白质组学数据和脂质组学数据，提取原始特征；

融合特征提取模块，用于利用筛选原始特征，提取融合特征；

融合特征相关性分析模块，用于分析融合特征间的关联性，获取糖尿病肾病早期预测的生物标志物。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于深度学习的糖尿病肾病早期预测方法，其特征在于：包括以下步骤：

S1、采集受试者样本，提取蛋白质组学和脂质组学；

S2、分析所述蛋白质组学和所述脂质组学，获取原始特征；

S3、筛选所述原始特征，获取融合特征；

2.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述受试者样本为血清样本。

3.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：在所述S1中还提取所述受试者的临床指标信息。

4.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述S2中分析所述蛋白质组学数据采用数据独立采集DIA方法。

5.根据权利要求1或4所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述S2中分析所述脂质组学数据过程中，采用HPLC-Q-TOF/MS对所述脂质组学数据进行无靶向分析。

6.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述S3包括：采取近邻成分分析NCA对所述原始特征变量进行特征选择，将排名靠前的20％的特征选出，获取所述融合特征。

7.根据权利要求3所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述S4包括：

S4.3、利用所述验证集验证所述最终的CNN模型；

S4.4、基于所述最终的CNN模型，融合所述融合特征；

8.根据权利要求7所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：所述CNN模型包括输入层-卷积层-池化层-全连接层-输出层，其中，所述输入层由3部分组成，分别用于处理所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据；所述卷积层，用于对所述对所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据进行特征提取，输出的特征会被传递至所述池化层进行特征选择和信息过滤，所述全连接层用于对提取的特征进行非线性组合以得到分类结果定义输出。

9.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于，所述融合特征包括：CAP1，TLN1，CNN2，PTPN6，17α,21-Dihydroxypregnenolone，Tetrahydrocorticosterone，LysoPC(P-18:0/0:0)，Trihydroxycoprostanoic acid，GlcCer(d18:1/-18:1)，Cer(d18:1/16:0)，FAHFA(18:1/13-O-18:0)，3-Oxohexadecanoicacid。

10.一种基于深度学习的糖尿病肾病早期预测系统，所述预测系统用于实施权利要求1所述的基于深度学习的糖尿病肾病早期预测方法，其特征在于：包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块、预测模块，