CN113687083A - 一种基于深度学习的糖尿病肾病早期预测方法及系统 - Google Patents
一种基于深度学习的糖尿病肾病早期预测方法及系统 Download PDFInfo
- Publication number
- CN113687083A CN113687083A CN202110957901.XA CN202110957901A CN113687083A CN 113687083 A CN113687083 A CN 113687083A CN 202110957901 A CN202110957901 A CN 202110957901A CN 113687083 A CN113687083 A CN 113687083A
- Authority
- CN
- China
- Prior art keywords
- diabetic nephropathy
- data
- early prediction
- deep learning
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000033679 diabetic kidney disease Diseases 0.000 title claims abstract description 59
- 208000007342 Diabetic Nephropathies Diseases 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 239000000090 biomarker Substances 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 210000002966 serum Anatomy 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 claims description 9
- 101000598025 Homo sapiens Talin-1 Proteins 0.000 claims description 7
- 102100036977 Talin-1 Human genes 0.000 claims description 7
- YDNKGFDKKRUKPY-JHOUSYSJSA-N C16 ceramide Natural products CCCCCCCCCCCCCCCC(=O)N[C@@H](CO)[C@H](O)C=CCCCCCCCCCCCCC YDNKGFDKKRUKPY-JHOUSYSJSA-N 0.000 claims description 6
- YDNKGFDKKRUKPY-TURZORIXSA-N N-hexadecanoylsphingosine Chemical compound CCCCCCCCCCCCCCCC(=O)N[C@@H](CO)[C@H](O)\C=C\CCCCCCCCCCCCC YDNKGFDKKRUKPY-TURZORIXSA-N 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 102100027241 Adenylyl cyclase-associated protein 1 Human genes 0.000 claims description 4
- 108010077333 CAP1-6D Proteins 0.000 claims description 4
- 102100033591 Calponin-2 Human genes 0.000 claims description 4
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 108010031970 prostasin Proteins 0.000 claims description 4
- OAOZDDNYRRMSQP-ROUUACIJSA-N 7-[(1S,2S)-2-(8,8,8-trihydroxyoctyl)cyclopentyl]heptanoic acid Chemical compound OC(CCCCCCC[C@H]1CCC[C@@H]1CCCCCCC(=O)O)(O)O OAOZDDNYRRMSQP-ROUUACIJSA-N 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- RHQQHZQUAMFINJ-UHFFFAOYSA-N (3alpha,5alpha,11beta)-3,11,21-Trihydroxypregnan-20-one Natural products C1C(O)CCC2(C)C3C(O)CC(C)(C(CC4)C(=O)CO)C4C3CCC21 RHQQHZQUAMFINJ-UHFFFAOYSA-N 0.000 claims description 2
- JNHJGXQUDOYJAK-IYRCEVNGSA-N 17alpha,21-dihydroxypregnenolone Chemical compound C1[C@@H](O)CC[C@]2(C)[C@H]3CC[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CC=C21 JNHJGXQUDOYJAK-IYRCEVNGSA-N 0.000 claims description 2
- ASICPMTWQSESKX-UHFFFAOYSA-N 3-oxopalmitic acid Chemical compound CCCCCCCCCCCCCC(=O)CC(O)=O ASICPMTWQSESKX-UHFFFAOYSA-N 0.000 claims description 2
- 101000617285 Homo sapiens Tyrosine-protein phosphatase non-receptor type 6 Proteins 0.000 claims description 2
- WBOMIOWRFSPZMC-AYICAFKVSA-N LysoPC P-18:0/0:0 Chemical compound CCCCCCCCCCCCCCCC\C=C/OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C WBOMIOWRFSPZMC-AYICAFKVSA-N 0.000 claims description 2
- RHQQHZQUAMFINJ-DTDWNVJFSA-N Tetrahydrocorticosterone Chemical compound C1[C@H](O)CC[C@]2(C)[C@H]3[C@@H](O)C[C@](C)([C@H](CC4)C(=O)CO)[C@@H]4[C@@H]3CC[C@@H]21 RHQQHZQUAMFINJ-DTDWNVJFSA-N 0.000 claims description 2
- 102100021657 Tyrosine-protein phosphatase non-receptor type 6 Human genes 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 206010012601 diabetes mellitus Diseases 0.000 abstract description 16
- 208000017169 kidney disease Diseases 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 235000018102 proteins Nutrition 0.000 description 9
- 102000004169 proteins and genes Human genes 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 150000002632 lipids Chemical class 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000002253 acid Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000002207 metabolite Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000002965 ELISA Methods 0.000 description 2
- 102000015779 HDL Lipoproteins Human genes 0.000 description 2
- 108010010234 HDL Lipoproteins Proteins 0.000 description 2
- 102000007330 LDL Lipoproteins Human genes 0.000 description 2
- 108010007622 LDL Lipoproteins Proteins 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 208000020832 chronic kidney disease Diseases 0.000 description 2
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 239000003643 water by type Substances 0.000 description 2
- JOYRKODLDBILNP-UHFFFAOYSA-N Ethyl urethane Chemical compound CCOC(N)=O JOYRKODLDBILNP-UHFFFAOYSA-N 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 208000034189 Sclerosis Diseases 0.000 description 1
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003143 atherosclerotic effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000022831 chronic renal failure syndrome Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 230000000678 effect on lipid Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 230000001434 glomerular Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 108091005995 glycated hemoglobin Proteins 0.000 description 1
- 150000002313 glycerolipids Chemical class 0.000 description 1
- 150000002327 glycerophospholipids Chemical class 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 230000006372 lipid accumulation Effects 0.000 description 1
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 206010062198 microangiopathy Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000751 protein extraction Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000001195 ultra high performance liquid chromatography Methods 0.000 description 1
- 238000004704 ultra performance liquid chromatography Methods 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/66—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving blood sugars, e.g. galactose
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- Urology & Nephrology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Microbiology (AREA)
- Cell Biology (AREA)
- Biochemistry (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Diabetes (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开一种基于深度学习的糖尿病肾病早期预测方法及系统,预测方法包括以下步骤:S1、采集受试者样本,提取蛋白质组学和脂质组学;S2、分析所述蛋白质组学和所述脂质组学,获取原始特征;S3、筛选所述原始特征,提取融合特征;S4、分析所述融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物;S5、基于所述糖尿病肾病早期预测的生物标志物,早期预测糖尿病肾病。本发明利用深度学习进行海量、高维数据量计算,发现糖尿病与肾病之间的敏感关联特征,提高早期预测效率。
Description
技术领域
本发明涉及计算机应用领域,特别是涉及一种基于深度学习的糖尿病肾病早期预测方法及系统。
背景技术
糖尿病(Diabetemellitus,DM)的是以高血糖为特征的一种代谢性疾病,在诸多并发症中,由于肾小球血管受损、硬化等长期慢性微血管病变导致的糖尿病肾病(Diabetickidney disease,DKD)是最严重的并发症之一,也是慢性肾病和肾衰竭的主要原因。目前,尿微量白蛋白是目前诊断及评估DKD进展最常用的指标,然而在其水平异常之前,部分患者的肾脏病理早已出现,有限的灵敏度和特异性已经不能满足DKD的早期预测。
在高通量技术迅猛发展的推动下,脂质组学和蛋白质组学使DKD的动态循环生物标志物方面有了前所未有的洞察力。作为代谢通路的参与者,差异脂类代谢物和蛋白质标志物也可能突出参与DKD发展过程中涉及的路径,这已被诸多学者证实。但伴随着大数据时代的到来,组学数据呈现海量、高维、结构复杂、结构化的特点,传统的统计分析方法不足以满足结果准确率及效率需要。
发明内容
本发明的目的是提供一种基于深度学习的糖尿病肾病早期预测方法及系统,以解决上述现有技术存在的问题,利用深度学习进行海量、高维数据量计算,发现糖尿病与肾病之间的敏感关联特征,提高早期预测效率。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于深度学习的糖尿病肾病早期预测方法,包括以下步骤:
S1、采集受试者样本,提取蛋白质组学和脂质组学;
S2、分析所述蛋白质组学和所述脂质组学,获取原始特征;
S3、筛选所述原始特征,获取融合特征;
S4、分析所述融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物;
S5、基于所述糖尿病肾病早期预测的生物标志物,早期预测糖尿病肾病。
优选地,所述受试者样本为血清样本。
优选地,在所述S1中还提取所述受试者的临床指标信息。
优选地,所述S2中分析所述蛋白质组学数据采用数据独立采集DIA方法。
优选地,所述S2中分析所述脂质组学数据过程中,采用HPLC-Q-TOF/MS对所述脂质组学数据进行无靶向分析。
优选地,所述S3包括:采取近邻成分分析NCA对所述原始特征变量进行特征选择,将排名靠前的20%的特征选出,获取所述融合特征。
优选地,所述S4包括:
S4.1、基于原始特征数据和融合特征数据,组成卷积神经网络CNN模型的训练集和验证集;
S4.2、构建所述CNN模型,利用所述训练集对所述CNN模型进行训练,获得最终的CNN模型;
S4.3、利用所述验证集验证所述最终的CNN模型;
S4.4、基于所述最终的CNN模型,融合所述融合特征;
S4.5、采用典型关联分析CCA分析所述融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物。
优选地,所述CNN模型包括输入层-卷积层-池化层-全连接层-输出层,其中,所述输入层由3部分组成,分别用于处理所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据;所述卷积层,用于对所述对所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据进行特征提取,输出的特征会被传递至所述池化层进行特征选择和信息过滤,所述全连接层用于对提取的特征进行非线性组合以得到分类结果定义输出。
优选地,所述融合特征包括:CAP1,TLN1,CNN2,PTPN6,17α,21-Dihydroxypregnenolone,Tetrahydrocorticosterone,LysoPC(P-18:0/0:0),Trihydroxycoprostanoic acid,GlcCer(d18:1/-18:1),Cer(d18:1/16:0),FAHFA(18:1/13-O-18:0),3-Oxohexadecanoic acid。
还提供一种基于深度学习的糖尿病肾病早期预测系统,包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块、预测模块,
所述数据采集模块,用于采集受试者的临床指标信息、蛋白质组学数据和脂质组学数据;
所述数据分析模块,用于分析所述蛋白质组学数据和所述脂质组学数据,提取原始特征;
所述融合特征提取模块,用于利用筛选所述原始特征,提取融合特征;
所述融合特征相关性分析模块,用于分析所述融合特征间的关联性,获取糖尿病肾病早期预测的生物标志物。
本发明公开了以下技术效果:
本发明提供的一种基于深度学习的糖尿病肾病早期预测方法及系统,将脂质组学与蛋白质组学数据结合现有临床指标找寻糖尿病肾病早期预测的最佳标志物,对高通量、多维度的多组学数据进行整合分析,进一步明确关键代谢特征的指向,显著提高了早期预测的效率和精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于深度学习的糖尿病肾病早期预测方法的流程示意图;
图2为本发明实施例中多组学原始特征获取结果可视化图;
图3为本发明实施例中权重排序在前20%的特征排名示意图;
图4为本发明实施例中被验证的重要特征变量相对含量水平示意图;
图5是本发明实施例中基于深度学习的糖尿病肾病早期预测系统的组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种基于深度学习的糖尿病肾病早期预测方法,如图1所示,包括以下步骤:
S1、选择受试者,采集受试者样本,获取受试者的临床指标信息,提取样本的蛋白质组学和脂质组学。
本发明实施例中,受试者包括健康对照人群(HC)、糖尿病患者(DM)及糖尿病肾病(DKD)患者,分为发现集队列105例和验证集队列300例,采集所有受试者的血清样本,其中发现集队列的血清样本被用于蛋白质组学与脂质组学分析;验证集队列的血清样本用于验证发现集结果的重现性。
本发明实施例中,对发现集发现集健康对照组(HC)35例,糖尿病(DM)35例,糖尿病肾病(DKD)35例,通过SPSS26.0对各组受试者基本信息和临床指标做统计分析,临床基线匹配结果见表1,3组受试者的年龄、性别、血压、总胆固醇(TC)和低密度脂蛋白(LDL)无统计学差异(P>0.05),甘油三酯(TG)、高密度脂蛋白(HDL)、动脉粥样硬化指数(AASI)、糖化血红蛋白(HbA1c)、葡萄糖(Glu)、糖尿病史(Diabetes history)、血尿素氮(BUN)和血肌酐(SCR)有显著性差异(p<0.05)。
表1
*:Compared with HC(*<0.05,**<0.01);#:Compared with DM(#<0.05,##<0.01)
S2、分析蛋白质组学和脂质组学,获取原始特征。
本实施例中,采用数据独立采集(Data independent acquisition,DIA)定量方法进行蛋白质组学分析。血清样品经蛋白提取制备后,于高酸碱度反相UHPLC(ThermoScientific,Waltham,Massachusetts)分离洗脱。DDA分析在Orbitrap Fusion LUMOS质谱仪上进行,通过Easy Spray连接到Easy-nLC 1200。使用Pulsar搜索引擎分析所有原始数据,半胱氨酸的氨基甲酸乙酯被指定为固定修饰,甲硫氨酸的氧化被指定为可变修饰。DIAMS/MS采集应用与DDA相同的LC-MS系统与LC线性梯度方法进行。DIA原始文件在Spectronaut X中进行了分析,获取蛋白质组学原始特征。
采用HPLC-Q-TOF/MS技术来进行无靶向脂质组学分析。血清样本经脂质提取后解冻后,于Waters ACQUITY UPLC系统中进行梯度洗脱,在Waters Xevo G2-XS Q-Tof质谱系统的正离子模式下电离。通过定期分析QC样本以实现数据的规范化和标准化。原始数据由MarkerLynx应用程序管理器4.1版处理导出,数据经前处理后被导入SIMCA-P11.5统计软件进行多元统计分析,获取脂质组学原始特征。
本实施例中,蛋白质组学与脂质组学多元统计分析结果显示,分别如图2中的A、B所示,发现集HC,DM与DKD三组间的代谢特征有明显的差异。以fold change≥1.5且p<0.05的标准,最终筛选出219个显著差异的蛋白,其在各组间水平的分布与所在比较组的情况如图2中的C所示,多数蛋白在疾病组的水平高于健康组。脂质组学质量控制分析结果显示方法学考察结果合格,以变量重要性投影VIP>1与p<0.05为准则,最终鉴定了70个血清差异代谢物如表2所示,各组间水平及脂质类别分布如图2中的D所示,甘油脂类及甘油磷脂类物质占比最大,疾病组存在脂质堆积的现象。
表2
S3、筛选原始特征,提取融合特征;
采用采取近邻成分分析(Neighbourhood Component Analysis,NCA)对原始特征变量进行特征选择。首先,以占单组学总数的20%为比例分别选择蛋白质组学与脂质组学的特征,即蛋白质组学有44个特征被选择,如图3中的A所示,脂质组学有14个特征被选择,如图3中的B所示。随后,将289个特征视为整体来作NCA,以同样的占比选择权重排序在前58位的特征,如图3中的C所示,结果包括32个差异蛋白与26个差异代谢物,得到融合特征。
S4、构建深度学习模型,分析融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物。
本实施例中,分别对105例样本的原始特征数据及提取融合特征后的数据进行模型构建及性能评估,并且对单一组学、组学联合及临床指标是否参与的结果作比较。通过分层抽样扩展为两组样本:训练集(84例样本,80%)和测试集(21例样本,20%),每组的3个组别(HC,DM,DKD)的样本比例保持稳定。这一比例有助于确保有足够数量的训练样本来构建稳健的模型,同时有足够的测试样本来评估模型,更适用于处理中等或小样本量的数据。
选择CNN模型框架以实现多组学数据的整合集成。CNN模型构建共包括五部分:输入层-卷积层-池化层-全连接层-输出层。整合分析的输入层由3部分组成,分别对应的临床指标信息、蛋白质组学与脂质组学数据。卷积层的功能是对输入层的数据进行特征提取并输出所提取到的特征,特征会被传递至池化层进行特征选择和信息过滤,全连接层的作用则是对提取的特征进行非线性组合以得到输出。最后,模型类别由临床分类结果定义输出。对80%的训练数据集进行了10倍交叉验证,并对其余20%的测试集数据进行了模型测试。迭代学习过程中连续的训练验证操作以防止模型过度拟合。同时,本实施例中还应用支持向量机(SVM)方法构建模型以和深度学习结果作为结果对比。SVM是另一种机器学习算法,它将具有N个数据点的代谢组学数据分离为(N-1)维超平面,是一种常用的快速可靠的分类算法。
特征选择前后及单一组学与组学联合下的模型准确率及评估结果如表3所示。对于单一组学结果来看,无论是SVM机器学习,还是基于CNN的DL模型,特征提取前的蛋白质组学结果要优于提取后,而脂质组学提取特征后的两种模型均表现为内部准确率及预测准确率高于未提取特征模型,且整体CNN模型要优于SVM模型;多组学CNN-Selected模型以最高的准确率Internal Accuracy 100%,Prediction Accuracy 90.48%表现出显著优势。以上的结果表明DL在多组学数据的模型构建中更加突出适用,且特征的提取有助于提升模型的性能。
HbA1c与Glu两项临床指标参与模型构建的结果表明,它们的加入并没有使模型的准确率提高;此外,当两项指标被用作模型构建的唯一特征集时,CNN模型的诊断能力要比SVM弱得多。这样的结果或许有助于得出结论,一方面,与传统机器学习相比,DL更适用于处理高维复杂的数据,因此只有两个特征时,其优势便不会被体现;另一方面,即使没有临床指标的参与,基于DL的多组学模型也可以表现良好。推测可能是由于DL具有表现力和效率均突出的复杂多层的神经网络体系,它可以通过多组学数据来捕捉一些已有临床指标的关键信息,使被提取筛选出的高级特征更准确、更适用于分类。
表3
随后对基于Multiomics-Selected的58个融合特征作进一步的水平验证。酶联免疫吸附剂测定(Enzyme linked immunosorbent assay,ELISA)方法对其中32个蛋白进行定量验证,包括来自中心1与中心2的90例临床血清样本,每组各30例。最终共有CAP1,TLN1,CNN2,PTPN6 4个蛋白得到定量验证,如图4所示。无靶向脂质组学分析对象为验证集的300例受试者。经过同样的数据处理方法,最终,Cer(d18:1/16:0)等8个生物标志物在对应比较组中表现出显著性变化,如图4所示。
S5、分析同类生物标志物之间的特征关联,并且整合不同类生物标志物的组学数据整合分析不同类生物标志物之间的特征关联,早期预测糖尿病肾病。
通过多元统计分析方法-典型关联分析(Canonical Correlation Analysis,CCA)来进一步挖掘图4中12个生物标志物间潜在联系。设置4个差异蛋白为集和1,8个差异脂类分子为集和2。4个差异蛋白与8个差异脂类分子间存在一定的正相关性(0.511,p<0.05)。根据标准化相关系数,第一对典型相关变量的标准化数学表达式如下:
集和1:
-0.386*A1-0.826*A2+0.123*A4
集和2:
0.551*B1+0.354*B2+0.024*B3-0.623*B4-0.084*B5-0.219*B5+0.095*B6
集合1中TLN1的标准化相关系数较大(r=-0.826),表明其对脂类特征的影响较大。集合2中17α,21-Dihydroxypregnenolone(r=-0.551),Trihydroxycoprostanoic acid(r=-0.623)对蛋白特征贡献突出。两集和的皮尔逊相关系数可视化结果表明TLN1与Trihydroxycoprostanoic acid有较强的正关联性(r=0.25)。此外,两集和的内部间存在更高的相关性,如CNN2与CAP1(r=-0.44),Trihydroxycoprostanoic acid与Cer(d18:1/16:0)(r=-0.86)。
结合这些特征所在的差异比较组的情况,对12个特征的ROC分析,将AUC>0.7的特征视为疾病显著预测因子,如表4所示。与CCA结果相呼应,Trihydroxycoprostanoic acid与Cer(d18:1/16:0)在各比较组中的效能突出;TLN1能够在特异性诊断DKD与DM向DKD进展的模型中均表现优异。即由TLN1,Trihydroxycoprostanoicacid与Cer(d18:1/16:0)组成的最佳生物标志物组合对DKD的早期诊断效能达到最优(AUC=0.938)。利用此生物标志物组合制备DKD早期检测试剂盒,即特异性强,灵敏度高的血清检测试剂盒。针对广大的糖尿病受试人群,采集其血清样本,使用DKD早期检测试剂盒检测3种生物标志物的相对浓度水平,用于糖尿病患者糖尿病肾病的早期预测与筛查,做到早发现早治疗,实现前期检测的低成本、易操作及高准确性。
表4
本实施例还提供了一种基于深度学习的糖尿病肾病早期预测系统,如图5所示,包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块。
数据采集模块,用于采集受试者的临床指标信息、蛋白质组学数据和脂质组学数据;
数据分析模块,用于分析蛋白质组学数据和脂质组学数据,提取原始特征;
融合特征提取模块,用于利用筛选原始特征,提取融合特征;
融合特征相关性分析模块,用于分析融合特征间的关联性,获取糖尿病肾病早期预测的生物标志物。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.一种基于深度学习的糖尿病肾病早期预测方法,其特征在于:包括以下步骤:
S1、采集受试者样本,提取蛋白质组学和脂质组学;
S2、分析所述蛋白质组学和所述脂质组学,获取原始特征;
S3、筛选所述原始特征,获取融合特征;
S4、分析所述融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物;
S5、基于所述糖尿病肾病早期预测的生物标志物,早期预测糖尿病肾病。
2.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述受试者样本为血清样本。
3.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:在所述S1中还提取所述受试者的临床指标信息。
4.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述S2中分析所述蛋白质组学数据采用数据独立采集DIA方法。
5.根据权利要求1或4所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述S2中分析所述脂质组学数据过程中,采用HPLC-Q-TOF/MS对所述脂质组学数据进行无靶向分析。
6.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述S3包括:采取近邻成分分析NCA对所述原始特征变量进行特征选择,将排名靠前的20%的特征选出,获取所述融合特征。
7.根据权利要求3所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述S4包括:
S4.1、基于原始特征数据和融合特征数据,组成卷积神经网络CNN模型的训练集和验证集;
S4.2、构建所述CNN模型,利用所述训练集对所述CNN模型进行训练,获得最终的CNN模型;
S4.3、利用所述验证集验证所述最终的CNN模型;
S4.4、基于所述最终的CNN模型,融合所述融合特征;
S4.5、采用典型关联分析CCA分析所述融合特征间的相关性,获取糖尿病肾病早期预测的生物标志物。
8.根据权利要求7所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:所述CNN模型包括输入层-卷积层-池化层-全连接层-输出层,其中,所述输入层由3部分组成,分别用于处理所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据;所述卷积层,用于对所述对所述临床指标信息、所述蛋白质组学数据与所述脂质组学数据进行特征提取,输出的特征会被传递至所述池化层进行特征选择和信息过滤,所述全连接层用于对提取的特征进行非线性组合以得到分类结果定义输出。
9.根据权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于,所述融合特征包括:CAP1,TLN1,CNN2,PTPN6,17α,21-Dihydroxypregnenolone,Tetrahydrocorticosterone,LysoPC(P-18:0/0:0),Trihydroxycoprostanoic acid,GlcCer(d18:1/-18:1),Cer(d18:1/16:0),FAHFA(18:1/13-O-18:0),3-Oxohexadecanoicacid。
10.一种基于深度学习的糖尿病肾病早期预测系统,所述预测系统用于实施权利要求1所述的基于深度学习的糖尿病肾病早期预测方法,其特征在于:包括数据采集模块、数据分析模块、融合特征提取模块、融合特征相关性分析模块、预测模块,
所述数据采集模块,用于采集受试者的临床指标信息、蛋白质组学数据和脂质组学数据;
所述数据分析模块,用于分析所述蛋白质组学数据和所述脂质组学数据,提取原始特征;
所述融合特征提取模块,用于利用筛选所述原始特征,提取融合特征;
所述融合特征相关性分析模块,用于分析所述融合特征间的关联性,获取糖尿病肾病早期预测的生物标志物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957901.XA CN113687083B (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的糖尿病肾病早期预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957901.XA CN113687083B (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的糖尿病肾病早期预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113687083A true CN113687083A (zh) | 2021-11-23 |
CN113687083B CN113687083B (zh) | 2023-11-28 |
Family
ID=78580879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110957901.XA Active CN113687083B (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的糖尿病肾病早期预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113687083B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114609395A (zh) * | 2022-04-25 | 2022-06-10 | 李玉凤 | 一种预测或诊断糖尿病或糖尿病肾病患者中的早期动脉粥样硬化的应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100197033A1 (en) * | 2009-01-28 | 2010-08-05 | Industrial Technology Research Institute (Itri) | Urine and serum biomarkers associated with diabetic nephropathy |
CN105181973A (zh) * | 2015-09-10 | 2015-12-23 | 付冬霞 | 糖尿病肾病早期检测标记组合物,试剂盒及其使用方法 |
US20200240996A1 (en) * | 2017-10-18 | 2020-07-30 | Venn Biosciences Corporation | Identification and use of biological parameters for diagnosis and treatment monitoring |
CN111766325A (zh) * | 2020-07-20 | 2020-10-13 | 南方科技大学 | 一种多组学分析的样品前处理方法及其应用 |
-
2021
- 2021-08-20 CN CN202110957901.XA patent/CN113687083B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100197033A1 (en) * | 2009-01-28 | 2010-08-05 | Industrial Technology Research Institute (Itri) | Urine and serum biomarkers associated with diabetic nephropathy |
CN105181973A (zh) * | 2015-09-10 | 2015-12-23 | 付冬霞 | 糖尿病肾病早期检测标记组合物,试剂盒及其使用方法 |
US20200240996A1 (en) * | 2017-10-18 | 2020-07-30 | Venn Biosciences Corporation | Identification and use of biological parameters for diagnosis and treatment monitoring |
CN111766325A (zh) * | 2020-07-20 | 2020-10-13 | 南方科技大学 | 一种多组学分析的样品前处理方法及其应用 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114609395A (zh) * | 2022-04-25 | 2022-06-10 | 李玉凤 | 一种预测或诊断糖尿病或糖尿病肾病患者中的早期动脉粥样硬化的应用 |
CN114609395B (zh) * | 2022-04-25 | 2024-03-29 | 李玉凤 | 一种预测或诊断糖尿病或糖尿病肾病患者中的早期动脉粥样硬化的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113687083B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghazanfari et al. | A comparison of HbA1c and fasting blood sugar tests in general population | |
Rifai et al. | Protein biomarker discovery and validation: the long and uncertain path to clinical utility | |
Hortin | Can mass spectrometric protein profiling meet desired standards of clinical laboratory practice? | |
Holzscheiter et al. | NGAL, L-FABP, and KIM-1 in comparison to established markers of renal dysfunction | |
Jacobs et al. | Evaluation of a new free light chain ELISA assay: bringing coherence with electrophoretic methods | |
Guo et al. | Machine learning distilled metabolite biomarkers for early stage renal injury | |
Johansen et al. | A simple transformation independent method for outlier definition | |
Graziani et al. | Diagnostic accuracy of a reagent strip for assessing urinary albumin excretion in the general population | |
CN109920473B (zh) | 一种代谢组学标志物权重分析通用方法 | |
Watson et al. | Quantitative mass spectrometry analysis of cerebrospinal fluid protein biomarkers in Alzheimer’s disease | |
Vanhoutte et al. | Biomarker discovery with SELDI-TOF MS in human urine associated with early renal injury: evaluation with computational analytical tools | |
Ozarda | Establishing and using reference intervals | |
Awdishu et al. | Identification of maltase glucoamylase as a biomarker of acute kidney injury in patients with cirrhosis | |
Brandolini-Bunlon et al. | Multi-block PLS discriminant analysis for the joint analysis of metabolomic and epidemiological data | |
Soleimani et al. | Macro vitamin B12: an underestimated threat | |
Maleska et al. | Comparison of HbA1c detection in whole blood and dried blood spots using an automated ion-exchange HPLC system | |
CN113687083B (zh) | 一种基于深度学习的糖尿病肾病早期预测方法及系统 | |
Curcio et al. | Reference intervals for 24 laboratory parameters determined in 24-hour urine collections | |
Yoon et al. | Performance of digital morphology analyzer Vision Pro on white blood cell differentials | |
Sriwimol et al. | Strong correlation and high comparability of capillary electrophoresis and three different methods for HbA1c measurement in a population without hemoglobinopathy | |
Weissinger et al. | Online coupling of capillary electrophoresis with mass spectrometry for the identification of biomarkers for clinical diagnosis | |
CN115862838A (zh) | 一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用 | |
Solsvik et al. | A national surveillance program for evaluating new reagent lots in medical laboratories | |
US20110136241A1 (en) | Type ii diabetes molecular bioprofile and method and system of using the same | |
Jimenez-Anon et al. | Assessment of intraindividual agreement in prolactin results after post-polyethylene glycol precipitation test for the estimation of macroprolactin. Should the precipitation procedure be repeated in the same patient? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |