CN113433206A - 一种基于深度学习技术提高质谱谱图分组稳定性的方法 - Google Patents
一种基于深度学习技术提高质谱谱图分组稳定性的方法 Download PDFInfo
- Publication number
- CN113433206A CN113433206A CN202110505305.8A CN202110505305A CN113433206A CN 113433206 A CN113433206 A CN 113433206A CN 202110505305 A CN202110505305 A CN 202110505305A CN 113433206 A CN113433206 A CN 113433206A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- mass
- grouping
- stability
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000005516 engineering process Methods 0.000 title claims abstract description 15
- 238000001819 mass spectrum Methods 0.000 title claims description 11
- 208000029078 coronary artery disease Diseases 0.000 claims abstract description 41
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 31
- 210000002966 serum Anatomy 0.000 claims abstract description 29
- 239000003381 stabilizer Substances 0.000 claims abstract description 22
- 230000002503 metabolic effect Effects 0.000 claims abstract description 18
- 239000002105 nanoparticle Substances 0.000 claims abstract description 12
- 230000004060 metabolic process Effects 0.000 claims abstract description 10
- 150000003384 small molecules Chemical class 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000816 matrix-assisted laser desorption--ionisation Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 16
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 claims description 14
- 229910052742 iron Inorganic materials 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 208000010125 myocardial infarction Diseases 0.000 abstract description 23
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 3
- 238000004989 laser desorption mass spectroscopy Methods 0.000 abstract description 3
- 230000003042 antagnostic effect Effects 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006641 stabilisation Effects 0.000 description 5
- 238000011105 stabilization Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 150000002500 ions Chemical class 0.000 description 4
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 4
- 238000001698 laser desorption ionisation Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 101100537532 Rattus norvegicus Tnni3 gene Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 238000004587 chromatography analysis Methods 0.000 description 3
- 238000003795 desorption Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 102000004903 Troponin Human genes 0.000 description 2
- 108090001027 Troponin Proteins 0.000 description 2
- 102100036859 Troponin I, cardiac muscle Human genes 0.000 description 2
- 101710128251 Troponin I, cardiac muscle Proteins 0.000 description 2
- 238000002583 angiography Methods 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- GTZCVFVGUGFEME-HNQUOIGGSA-N cis-Aconitic acid Natural products OC(=O)C\C(C(O)=O)=C/C(O)=O GTZCVFVGUGFEME-HNQUOIGGSA-N 0.000 description 2
- GTZCVFVGUGFEME-IWQZZHSRSA-N cis-aconitic acid Chemical compound OC(=O)C\C(C(O)=O)=C\C(O)=O GTZCVFVGUGFEME-IWQZZHSRSA-N 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 150000001982 diacylglycerols Chemical class 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000000132 electrospray ionisation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 235000014655 lactic acid Nutrition 0.000 description 2
- 239000004310 lactic acid Substances 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- GTZCVFVGUGFEME-UHFFFAOYSA-N trans-aconitic acid Natural products OC(=O)CC(C(O)=O)=CC(O)=O GTZCVFVGUGFEME-UHFFFAOYSA-N 0.000 description 2
- LTKMTXLIAZLQHS-UHFFFAOYSA-N 1-methylpyridine Chemical compound CN1C=CC=C=C1 LTKMTXLIAZLQHS-UHFFFAOYSA-N 0.000 description 1
- JYKNMRPMJXDBJS-UHFFFAOYSA-N 5-methyl-imidazole-2-carboxylic acid Chemical compound CC1=CN=C(C(O)=O)N1 JYKNMRPMJXDBJS-UHFFFAOYSA-N 0.000 description 1
- 206010002091 Anaesthesia Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- -1 LDI Chemical class 0.000 description 1
- 208000020358 Learning disease Diseases 0.000 description 1
- 102000004987 Troponin T Human genes 0.000 description 1
- 108090001108 Troponin T Proteins 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000037005 anaesthesia Effects 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001363 autoimmune Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001687 destabilization Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000155 isotopic effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 229910001220 stainless steel Inorganic materials 0.000 description 1
- 239000010935 stainless steel Substances 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
- G01N27/64—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode using wave or particle radiation to ionise a gas, e.g. in an ionisation chamber
Landscapes
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Physics & Mathematics (AREA)
- Toxicology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于深度学习技术提高质谱谱图分组稳定性的方法,涉及人工智能辅助临床检验分组领域,所述方法包括以下步骤:1、建立人血清样本库;2、采用基质辅助激光解吸电离质谱技术,采集所述血清样本的代谢小分子质谱图;3、对所述代谢小分子质谱图进行预处理;4、开发基于生成对抗学习的深度稳定器(deep stabilizer),重建得到高质量质谱图;5、采用弹性网络对所述高质量质谱图进行分组,并提取潜在标志物。本发明基于纳米颗粒辅助的LDI‑MS检测和深度稳定器的构建,实现了对微量血清稳定代谢的超快速、无标记、无抗体分组,以及对分组冠心病(包括心梗/非心梗性冠心病)的准确高效评估,有助于医疗保健的改善。
Description
技术领域
本发明涉及人工智能辅助临床检验分组领域,尤其涉及一种基于深度学习技术提高质谱谱图分组稳定性的方法。
背景技术
在个性化医疗保健中,分组是精准医疗的关键,以获得最佳治疗决策,而三分之二的临床分组依赖于体外分组。体外分组在临床实验室包括多种先进的检测方法,其中质谱(MS)被认为是未来的前途的分组工具,由于其强大的分析功能,提供高分辨率(~ppm)和吞吐量的识别分子(如代谢产物)。
值得注意的是,临床上主要采用两种MS:电喷雾电离(ESI)和激光解吸/电离(LDI)。这两种机制在离子化的初级离子形成中依赖离子或电子的转移,如LDI中通过基质吸收光子进行固-气转变。然而,这两种类型的MS都需要样本处理,这限制了实际应用。具体来说,大多数临床MS方法需要严格的多步骤色谱和衍生程序来降低样品的复杂性和丰富目标分子,但这些程序带来了速度/效率降低和样品消耗增加的权衡。此外,同位素标记是常用的样品预处理,不可避免地增加检测费用(~2000美元/g)和时间。光热导向的解吸/电离机理阐明了MS的电离机制,并在label-free和无需样本预处理的情况下提供高性能代谢检测。
MS的临床应用依赖于高质量的数据。值得注意的是,需要大量的技术重复,以确保高数据质量和低变异系数所显示的重现性(例如,目前临床分组指南中变异系数,CV<10%),例如,为了确保深度基质辅助MS的高数据质量和再现性,需要数百万次的激光轰击样本。但是,以这种方式获得高质量质谱图是昂贵、耗时和劳力密集的,同时限制了大规模临床适用性。通过机器学习,特别是深度学习,可以显著提高数据质量。由于面向任务的学习策略通过非线性模块编码特征和内在数据表示,深度学习已成功应用于复杂信号重建任务,如低剂量到正常剂量的CT映射和磁共振(MR)到CT映射。然而,尽管最近在二级MS(MS/MS)数据的高质量预测方面取得了成功,但在获取高质量一级MS数据和随后的分组应用方面,深度学习在MS中的应用非常有限。
我们开发并应用深度学习方法,通过使用血清代谢谱(SMPs)进行疾病分组,从LDI-MS结果中提取血清蓝图,以区分患者和对照组。代谢紊乱与大多数疾病相关,包括冠心病(CHD),它占心血管相关死亡的一半。冠心病包括心肌梗死(MI),其死亡率在冠心病病例中最高(47.8%),每年在全世界造成数百万人死亡。值得注意的是,分组速度在MI的早期发现中是至关重要,以挽救患者的生命和提高生活质量。高敏感性心肌肌钙蛋白I/T(cTnI/T)试验几乎适用于每一个疑似心肌梗死的冠心病患者。尽管肌钙蛋白测定法的应用非常广泛,但它仍然需要连续的cTnI测定(最多9小时),而一次测定至少需要15-30分钟来进行抗体-抗原的识别。此外,对于非心肌梗死的冠心病,肌钙蛋白不能提供任何有价值的分组信息,取而代之的是血管造影术加心电图(金标准分组方法),这可能是侵入性的,不适用于一般筛查。因此,需要改进冠心病的检测方法,特别是MI和非MI的检测方法。
因此,本领域的技术人员致力于开发一种基于深度学习技术提高质谱谱图分组稳定性的方法,基于MS的超快速、无标记、无抗体分组微量血清稳定代谢,实现更加快速、准确评估冠心病(包括心梗和非心梗性冠心病),改善医疗保健现有技术水平。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是针对临床MS方法需要严格的多步骤色谱和衍生程序来降低样品的复杂性、高质量质谱图数据对激光轰击次数增加的要求,以及前在标志物筛选问题,提供一种基于深度学习技术提高质谱谱图分组稳定性的方法,基于MS的超快速、无标记、无抗体分组微量血清稳定代谢,实现更加快速、准确评估冠心病(包括心梗和非心梗性冠心病)。
为实现上述目的,本发明提供了一种基于深度学习技术提高质谱谱图分组稳定性的方法,所述方法包括以下步骤:
步骤1、收集冠心病患者和健康人的血清样本,建立人血清样本库;
步骤2、采用基质辅助激光解吸电离质谱技术,分别采集激光轰击200、400、600、800、1000和10000次下的所述血清样本的代谢小分子质谱图;
步骤3、对所述代谢小分子质谱图进行预处理得到原始图谱;
步骤4、开发基于生成对抗学习的深度稳定器(deep stabilizer),将所述原始图谱作为输入和映射目标划分成训练集和测试集进行模型训练,重建得到高质量质谱图;
步骤5、采用弹性网络对重建后的所述高质量质谱图进行分组,并提取潜在标志物。
进一步地,所述基质辅助激光解吸电离质谱技术以纳米颗粒为基质,其中所述纳米颗粒为铁纳米颗粒。
进一步地,所述基质辅助激光解吸电离质谱技术的模式为正离子模式,质荷比范围为100-1000m/z。
进一步地,所述步骤3中的所述预处理包括等距分箱、平滑降噪和基线矫正。
进一步地,所述深度稳定器包括生成器和鉴别器:所述生成器通过两个分支,分别进行稳定导向的粗粒度谱图重建和注意力机制导向的峰精炼,所述鉴别器计算稳定质谱(MS)结果的概率作为参考MS结果。
进一步地,所述步骤4中的所述输入为200-1000次所述激光轰击下采集的所述代谢小分子质谱图,所述映射目标为10000次所述激光轰击下采集的所述代谢小分子质谱图。
进一步地,所述步骤4中的所述划分为随机划分,划分比例为8:2。
进一步地,所述步骤4中的所述重建的目标为所述激光轰击次数为1000次下采集的所述代谢小分子质谱图。
进一步地,所述步骤5具体包括以下步骤:
步骤5.1、根据局部最小值和信噪比提取谱峰作为特征,基于质谱图稀疏性特征,采用弹性网络作为分类器;
步骤5.2:将重建后的所述高质量质谱图的特征作为输入,是否为冠心病病人作为输出,对所述训练集进行5折交叉验证训练;
步骤5.3、打乱所述训练集顺序,重复所述步骤5.2,收集子模型;
步骤5.4、计算每个所述特征的显著性(p值);
步骤5.5、根据每个所述特征的显著性(p值)和稳定性(被所有所述子模型选中的概率)筛选出冠心病分组的所述潜在标志物。
进一步地,所述步骤5.3中重复20次,收集所述子模型100个。
与现有技术相比,本发明至少具备以下有益的技术效果:
(1)本发明提供了一种基于铁纳米颗粒辅助激光解吸电离质谱技术,实现了对小分子谱图快速提取;
(2)本发明开发了一种基于深度学习技术的高质量质谱图重建模型,实现了从低激光次数轰击质谱图中重建出高激光次数轰击质谱图;
(3)本发明基于稀疏性学习和统计显著性,准确高效地筛选出潜在标志物。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的一种超快速、无标签和抗体的血清代谢分组方案示意图;
图2是本发明的一个较佳实施例的deep stabilizer结构示意图;
图3是本发明的一个较佳实施例的deep stabilizer对HCs和CHD的性能验证结果图;
图4是本发明的一个较佳实施例的典型纳米辅助LDI质谱图;
图5是本发明的一个较佳实施例的HCs和冠心病(MI/非MI)患者的血清代谢谱;
图6是本发明的一个较佳实施例的机器学习用于分层和预测的分组性能表征结果;
图7是本发明的一个较佳实施例的基于血清代谢谱和机器学习的分组协议示意图;
图8是本发明的一个较佳实施例的分组协议在发现队列和验证队列中的应用结果。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本发明结合纳米颗粒辅助的LDI-MS检测和基于深度学习技术的深度稳定器的构建,提供了一种超快速、无标签、无抗体的血清代谢分组方法。本实施例中采用铁纳米颗粒辅助激光解吸电离质谱技术。如图1所示,具体包括以下步骤:1、从患者/对照组采集样本建立人血清样本库;2、在微阵列中直接装载血清,不需要事先进行标记、衍生或层析,然后以铁纳米颗粒作为基质加载到微阵列上,并进行激光解吸/电离(LDI)得到阳离子加合物,采集冠心病血清代谢小分子谱图;3、对质谱图进行预处理;4、开发基于生成对抗学习的深度稳定器(deep stabilizer)并提升原始图谱质量、重建出高质量质谱图;5、根据重建后的高质量质谱图,采用弹性网络对其进行机器学习疾病的分组,并提取潜在标志物。
2017年5月至2017年11月,本实施例从上海交通大学附属胸科医院连续招募了517名受试者构建样本库:261名接受常规保健维护的健康对照组(HCs)和256名冠心病患者(CHD)。入库标准:所有冠心病患者均经血管造影和心电图阳性分组,在不了解患者临床病程的情况下,由两名病理学家查阅每个病例的所有临床资料。对于心肌梗死(MI)患者,测定99分位心肌肌钙蛋白I(cTnI)水平。排除标准:有药物或自身免疫综合征证据的患者被排除在工作之外。在最初分组时抽血,没有麻醉或手术。261名HCs没有心血管疾病或其他主要疾病,并收集血清样本作为对照。收集血清样本:静脉穿刺取血约2mL,5100xg离心10min,将血清转入微管,-80℃保存。HCs和CHD患者在年龄和性别上没有显著差异。
实施例1、基于铁纳米颗粒辅助激光解吸电离质谱技术获取血清代谢小分子质谱图的获取及预处理
具体包括以下步骤:
步骤1、取0.5微升收集的血清样本吸移到不锈钢靶板后,将0.5微升铁纳米基质溶液滴在血清分析物上,干燥后进行后续质谱分析;
步骤2、使用激光解吸电离质谱仪(Nd:YAG,355nm)对每个样本进行代谢小分子谱图收集,质荷比范围为100-1000,模式为正离子模式;每个受试样本均独立进行了10次技术重复,每次技术重复的激光轰击次数为1000次;
步骤3、对提取的质谱图进行预处理,包括等距分箱、谱图平滑和基线矫正三个步骤。
实施例2、深度稳定器(deep stabilizer)网络的搭建及性能验证
如图2所示,Deep stabilizer的整体结构包括生成器和鉴别器,设计框架基于生成对抗网络,并采用Wasserstein GAN(WGAN)和梯度惩罚策略进行训练。该生成器采用卷积神经网络设计,由两个主要分支组成,一个分支用于稳定导向的粗粒度谱图重建,另一个分支用于注意力机制导向的峰精炼。其中用于稳定定向粗粒度谱图重建分支包括一个解码器和一个编码器,引入跳跃连接将信息从编码器传输到解码器,实现快速梯度更新和信息重用,设计了用于特征提取的编码器,设计了用于重建的解码器,具体如下:
g(x)=σ(Wenc*Fraw+Benc)
Fcg=σ(Wdec*g(x)+Bdec)
其中Fraw、Fcg、Wenc、Wdec、Benc和Bdec分别表示输入谱图、重建粗粒度谱图、编码器的卷积核和解码器的卷积核参数,同时星号代表卷积操作。
LeakyReLU被选为激活函数,定义如下:
σ=max(0,x)+αmin(0,x),
其中α=0.01。
为了加强特征传播,缓解消失梯度问题,本发明选择以下dense block作为基本模块:
zl=Hl([z0,z1,z2,...,zl-1])
其中[z0,z1,z2,...,zl-1]代表连接前一层特征。
注意力机制导向的峰精炼分支仅包含一个dense block,l和k分别设为4和32:
Fpeaks=σ(Wp*Fraw+Bp)
其中Fpeaks、Fraw、Wp和Bp分别代表精炼峰、输入谱图以及对应卷核参数。
最终高质量谱由粗粒度重建谱和精炼峰重建得到:
Ffg=Fcg+Fcg⊙Fpeaks·
鉴别器包含7个卷积层和2个全连接层。每个卷积层之后是一个LeakyReLU激活层,其斜率为负0.2,每个卷积层的步长为2。深度稳定器的损失函数包括两部分:对抗损失和重建损失。
关于对抗性损失,采用梯度惩罚框架,以解决模型收敛速度慢和模态崩溃等问题。WGAN的MS重建目标函数定义如下:
对于重构损失,采用滑动窗口对网络进行训练,使深度稳定器具有更强鲁棒性。为了降低对异常值的敏感性,本发明选择Huber损失作为损失函数。Huber损失的定义如下:
其中zi定义为:
将200-1000次激光轰击下收集的质谱图作为deep stabilizer的输入,10000次激光轰击下收集的质谱图作为deep stabilizer的映射目标;随机将数据集按8:2划分成训练集和测试集进行模型训练;加载训练好的deep stabilizer对在1000次激光轰击下收集的冠心病质谱图进行重建,同时采用重建后的高质量质谱图作为分组代谢谱图。
如图3所示,对deep stabilizer的性能进行了验证,验证队列中无稳定数据和深度稳定数据预测冠心病的分组性能(AUC、敏感性和特异度)如3a所示;图3b为验证队列中HCs和CHD(MI和non-MI)患者通过无稳定和深度稳定实验的预测概率CVs;图3c为未稳定化和深度稳定化实验获得的HCs和CHD患者1-甲基吡啶(1-met)水平数据;图3d为未稳定和深稳定实验新筛选出的5个生物标志物:乳酸(LA)、甲基咪唑乙酸(MIAA)、顺-aconitic酸(cis-AC)、二酰基甘油(14:1/24:1)(dag1)、二酰基甘油(24:1/20:4)(dag2)。(***表示p<0.001和****为p<0.0001)。可见通过deep stabilizer进行深度稳定化后有效提高了对CHD的分组验证能力。
实施例3、基于稀疏性学习和统计显著性共同筛选潜在标志物
具体包括以下步骤:
步骤1、根据局部最小值和信噪比提取谱峰作为特征;基于质谱图稀疏性特征,采用弹性网络作为分类器;
步骤2、将重建后的谱图特征作为输入,是否为冠心病病人作为输出,对训练集进行5折交叉验证训练;
步骤3、打乱训练集顺序,重复步骤3共计20次,共收集100个子模型;
步骤4、计算每个特征的显著性(p值);
步骤5、根据每个特征的显著性(p值)和稳定性(被100个子模型选中的概率)筛选出冠心病分组的6个潜在标志物。
典型纳米辅助LDI质谱图包括健康对照(HC)、冠心病伴有心肌梗死和冠心病不伴有心肌梗死的患者(如图4所示),HCs和冠心病(MI/非MI)患者的血清代谢谱(如图5所示)。每个血清代谢谱包含35m/z特征,其中6个生物标记物(p<0.001,平均强度>25、命中频率>60)。与HCs相比,冠心病患者中有5个biomarker表达上调,1个biomarker表达下调。图6为机器学习用于分层和预测的分组性能表征结果。如图6a所示,受试者工作特征(ROC)曲线和曲线下面积(AUC)分析采用正交投影潜结构判别分析(OPLS-DA,黑色)和稀疏学习(弹性网络分析,红色)区分HCs和CHD患者,实线和虚线分别显示了来自发现组和验证组的结果。基于发现队列(图6b)和验证队列(图6c)中血清代谢谱的稀疏学习(弹性网络分析)获得的冠心病患者和HCs的预测概率分层。蓝色和紫色分别代表HCs和CHD患者,虚线表示机器学习的阈值,用于区分冠心病患者和HCs。
如图7所示为基于血清代谢谱和机器学习的分组协议示意图。该协议实现了三个主要步骤来获得分组变异特征(DVC)曲面(这里称为Mengji-Kun(MK)曲面):阈值识别、精度计算和性能相关性。将该协议应用于发现队列(图8a-c)和验证队列(图8d-f)中。其中图8a、d显示指定队列的MK曲面的三维(3D)模型,蓝色的平面表示CV为10%的阈值,灰色和红色的MK曲面分别为no稳定和deep-steady实验。MK表面的投影显示CV/特异性(图8b、e)和敏感性/特异性(图8c、f),虚线表示CV为10%的阈值。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述方法包括以下步骤:
步骤1、收集冠心病患者和健康人的血清样本,建立人血清样本库;
步骤2、采用基质辅助激光解吸电离质谱技术,分别采集激光轰击200、400、600、800、1000和10000次下的所述血清样本的代谢小分子质谱图;
步骤3、对所述代谢小分子质谱图进行预处理得到原始图谱;
步骤4、开发基于生成对抗学习的深度稳定器(deep stabilizer),将所述原始图谱作为输入和映射目标划分成训练集和测试集进行模型训练,重建得到高质量质谱图;
步骤5、采用弹性网络对重建后的所述高质量质谱图进行分组,并提取潜在标志物。
2.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述基质辅助激光解吸电离质谱技术以纳米颗粒为基质,其中所述纳米颗粒为铁纳米颗粒。
3.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述基质辅助激光解吸电离质谱技术的模式为正离子模式,质荷比范围为100-1000m/z。
4.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤3中的所述预处理包括等距分箱、平滑降噪和基线矫正。
5.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述深度稳定器包括生成器和鉴别器:所述生成器通过两个分支,分别进行稳定导向的粗粒度谱图重建和注意力机制导向的峰精炼,所述鉴别器计算稳定质谱(MS)结果的概率作为参考MS结果。
6.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤4中的所述输入为200-1000次所述激光轰击下采集的所述代谢小分子质谱图,所述映射目标为10000次所述激光轰击下采集的所述代谢小分子质谱图。
7.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤4中的所述划分为随机划分,划分比例为8:2。
8.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤4中的所述重建的目标为所述激光轰击次数为1000次下采集的所述代谢小分子质谱图。
9.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1、根据局部最小值和信噪比提取谱峰作为特征,基于质谱图稀疏性特征,采用弹性网络作为分类器;
步骤5.2:将重建后的所述高质量质谱图的特征作为输入,是否为冠心病病人作为输出,对所述训练集进行5折交叉验证训练;
步骤5.3、打乱所述训练集顺序,重复所述步骤5.2,收集子模型;
步骤5.4、计算每个所述特征的显著性(p值);
步骤5.5、根据每个所述特征的显著性(p值)和稳定性(被所有所述子模型选中的概率)筛选出冠心病分组的所述潜在标志物。
10.如权利要求9所述的基于深度学习技术提高质谱谱图分组稳定性的方法,其特征在于,所述步骤5.3中重复20次,收集所述子模型100个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505305.8A CN113433206A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习技术提高质谱谱图分组稳定性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505305.8A CN113433206A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习技术提高质谱谱图分组稳定性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113433206A true CN113433206A (zh) | 2021-09-24 |
Family
ID=77753162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110505305.8A Pending CN113433206A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习技术提高质谱谱图分组稳定性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113433206A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114137137A (zh) * | 2021-11-15 | 2022-03-04 | 上海交通大学 | 一种视网膜母细胞瘤分期模型构建方法及标志物 |
CN114414656A (zh) * | 2022-01-26 | 2022-04-29 | 上海交通大学 | 一种基于血清代谢指纹自体免疫疾病模型的构建方法 |
CN115754107A (zh) * | 2022-11-08 | 2023-03-07 | 福建省龙德新能源有限公司 | 用于六氟磷酸锂制备的自动化采样分析系统及其方法 |
-
2021
- 2021-05-10 CN CN202110505305.8A patent/CN113433206A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114137137A (zh) * | 2021-11-15 | 2022-03-04 | 上海交通大学 | 一种视网膜母细胞瘤分期模型构建方法及标志物 |
CN114414656A (zh) * | 2022-01-26 | 2022-04-29 | 上海交通大学 | 一种基于血清代谢指纹自体免疫疾病模型的构建方法 |
CN115754107A (zh) * | 2022-11-08 | 2023-03-07 | 福建省龙德新能源有限公司 | 用于六氟磷酸锂制备的自动化采样分析系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113433206A (zh) | 一种基于深度学习技术提高质谱谱图分组稳定性的方法 | |
US11341404B2 (en) | Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model | |
Seddiki et al. | Cumulative learning enables convolutional neural network representations for small mass spectrometry data classification | |
JP2022525427A (ja) | 質量分析法データにおける境界の自動検出 | |
Laatifi et al. | Machine learning approaches in Covid-19 severity risk prediction in Morocco | |
Hu et al. | Emerging computational methods in mass spectrometry imaging | |
Coupé et al. | LesionBrain: an online tool for white matter lesion segmentation | |
Mostacci et al. | Multivariate denoising methods combining wavelets and principal component analysis for mass spectrometry data | |
Debik et al. | Multivariate analysis of NMR‐based metabolomic data | |
Wang et al. | Unsupervised deep learning features for lung cancer overall survival analysis | |
CN114813908A (zh) | 一种乳腺癌代谢生物标志物组合及其指纹模型构建方法与应用 | |
Xu et al. | Diagnosis of Parkinson's Disease via the Metabolic Fingerprint in Saliva by Deep Learning | |
Shafiee et al. | Discovery radiomics via stochasticnet sequencers for cancer detection | |
Fan et al. | Diagnosis of breast cancer using HPLC metabonomics fingerprints coupled with computational methods | |
CN113270191A (zh) | 一种数据校正及分类方法及存储介质 | |
CN115131628A (zh) | 一种基于分型辅助信息的乳腺图像分类方法及设备 | |
Huang et al. | [Retracted] Analysis of Inducing Factors of Chronic Pulmonary Heart Disease Caused by Chronic Obstructive Pulmonary Disease at High Altitude through Epidemiological Investigation under Intelligent Medicine and Big Data | |
Skarysz et al. | Fast and automated biomarker detection in breath samples with machine learning | |
Abdelmoula et al. | msiPL: Non-linear Manifold and Peak Learning of Mass Spectrometry Imaging Data Using Artificial Neural Networks | |
Liu et al. | DAFLNet: Dual Asymmetric Feature Learning Network for COVID‐19 Disease Diagnosis in X‐Rays | |
Hiremath et al. | Lumira: An integrated lung deformation atlas and 3d-cnn model of infiltrates for covid-19 prognosis | |
Liu | MODELLING EARLY DETECTION OF PROSTATE CANCER | |
Peng et al. | Enhancing mass spectrometry data analysis: A novel framework for calibration, outlier detection, and classification | |
Batta et al. | Complexity-Reduced Variational Auto Encoders With Bayesian Optimization for Anomaly Detection in High-Dimensional Medical Data | |
Hu | DEVELOPMENT OF DATA-DRIVEN METHODS FOR MASS SPECTROMETRY IMAGING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |