CN113433206A

CN113433206A - 一种基于深度学习技术提高质谱谱图分组稳定性的方法

Info

Publication number: CN113433206A
Application number: CN202110505305.8A
Authority: CN
Inventors: 钱昆; 张梦吉; 黄琳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-09-24

Abstract

本发明公开了一种基于深度学习技术提高质谱谱图分组稳定性的方法，涉及人工智能辅助临床检验分组领域，所述方法包括以下步骤：1、建立人血清样本库；2、采用基质辅助激光解吸电离质谱技术，采集所述血清样本的代谢小分子质谱图；3、对所述代谢小分子质谱图进行预处理；4、开发基于生成对抗学习的深度稳定器(deep stabilizer)，重建得到高质量质谱图；5、采用弹性网络对所述高质量质谱图进行分组，并提取潜在标志物。本发明基于纳米颗粒辅助的LDI‑MS检测和深度稳定器的构建，实现了对微量血清稳定代谢的超快速、无标记、无抗体分组，以及对分组冠心病(包括心梗/非心梗性冠心病)的准确高效评估，有助于医疗保健的改善。

Description

一种基于深度学习技术提高质谱谱图分组稳定性的方法

技术领域

本发明涉及人工智能辅助临床检验分组领域，尤其涉及一种基于深度学习技术提高质谱谱图分组稳定性的方法。

背景技术

在个性化医疗保健中，分组是精准医疗的关键，以获得最佳治疗决策，而三分之二的临床分组依赖于体外分组。体外分组在临床实验室包括多种先进的检测方法，其中质谱(MS)被认为是未来的前途的分组工具，由于其强大的分析功能，提供高分辨率(～ppm)和吞吐量的识别分子(如代谢产物)。

值得注意的是，临床上主要采用两种MS：电喷雾电离(ESI)和激光解吸/电离(LDI)。这两种机制在离子化的初级离子形成中依赖离子或电子的转移，如LDI中通过基质吸收光子进行固-气转变。然而，这两种类型的MS都需要样本处理，这限制了实际应用。具体来说，大多数临床MS方法需要严格的多步骤色谱和衍生程序来降低样品的复杂性和丰富目标分子，但这些程序带来了速度/效率降低和样品消耗增加的权衡。此外，同位素标记是常用的样品预处理，不可避免地增加检测费用(～2000美元/g)和时间。光热导向的解吸/电离机理阐明了MS的电离机制，并在label-free和无需样本预处理的情况下提供高性能代谢检测。

MS的临床应用依赖于高质量的数据。值得注意的是，需要大量的技术重复，以确保高数据质量和低变异系数所显示的重现性(例如，目前临床分组指南中变异系数，CV<10％)，例如，为了确保深度基质辅助MS的高数据质量和再现性，需要数百万次的激光轰击样本。但是，以这种方式获得高质量质谱图是昂贵、耗时和劳力密集的，同时限制了大规模临床适用性。通过机器学习，特别是深度学习，可以显著提高数据质量。由于面向任务的学习策略通过非线性模块编码特征和内在数据表示，深度学习已成功应用于复杂信号重建任务，如低剂量到正常剂量的CT映射和磁共振(MR)到CT映射。然而，尽管最近在二级MS(MS/MS)数据的高质量预测方面取得了成功，但在获取高质量一级MS数据和随后的分组应用方面，深度学习在MS中的应用非常有限。

我们开发并应用深度学习方法，通过使用血清代谢谱(SMPs)进行疾病分组，从LDI-MS结果中提取血清蓝图，以区分患者和对照组。代谢紊乱与大多数疾病相关，包括冠心病(CHD)，它占心血管相关死亡的一半。冠心病包括心肌梗死(MI)，其死亡率在冠心病病例中最高(47.8％)，每年在全世界造成数百万人死亡。值得注意的是，分组速度在MI的早期发现中是至关重要，以挽救患者的生命和提高生活质量。高敏感性心肌肌钙蛋白I/T(cTnI/T)试验几乎适用于每一个疑似心肌梗死的冠心病患者。尽管肌钙蛋白测定法的应用非常广泛，但它仍然需要连续的cTnI测定(最多9小时)，而一次测定至少需要15-30分钟来进行抗体-抗原的识别。此外，对于非心肌梗死的冠心病，肌钙蛋白不能提供任何有价值的分组信息，取而代之的是血管造影术加心电图(金标准分组方法)，这可能是侵入性的，不适用于一般筛查。因此，需要改进冠心病的检测方法，特别是MI和非MI的检测方法。

因此，本领域的技术人员致力于开发一种基于深度学习技术提高质谱谱图分组稳定性的方法，基于MS的超快速、无标记、无抗体分组微量血清稳定代谢，实现更加快速、准确评估冠心病(包括心梗和非心梗性冠心病)，改善医疗保健现有技术水平。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是针对临床MS方法需要严格的多步骤色谱和衍生程序来降低样品的复杂性、高质量质谱图数据对激光轰击次数增加的要求，以及前在标志物筛选问题，提供一种基于深度学习技术提高质谱谱图分组稳定性的方法，基于MS的超快速、无标记、无抗体分组微量血清稳定代谢，实现更加快速、准确评估冠心病(包括心梗和非心梗性冠心病)。

为实现上述目的，本发明提供了一种基于深度学习技术提高质谱谱图分组稳定性的方法，所述方法包括以下步骤：

步骤1、收集冠心病患者和健康人的血清样本，建立人血清样本库；

步骤2、采用基质辅助激光解吸电离质谱技术，分别采集激光轰击200、400、600、800、1000和10000次下的所述血清样本的代谢小分子质谱图；

步骤3、对所述代谢小分子质谱图进行预处理得到原始图谱；

步骤4、开发基于生成对抗学习的深度稳定器(deep stabilizer)，将所述原始图谱作为输入和映射目标划分成训练集和测试集进行模型训练，重建得到高质量质谱图；

步骤5、采用弹性网络对重建后的所述高质量质谱图进行分组，并提取潜在标志物。

进一步地，所述基质辅助激光解吸电离质谱技术以纳米颗粒为基质，其中所述纳米颗粒为铁纳米颗粒。

进一步地，所述基质辅助激光解吸电离质谱技术的模式为正离子模式，质荷比范围为100-1000m/z。

进一步地，所述步骤3中的所述预处理包括等距分箱、平滑降噪和基线矫正。

进一步地，所述深度稳定器包括生成器和鉴别器：所述生成器通过两个分支，分别进行稳定导向的粗粒度谱图重建和注意力机制导向的峰精炼，所述鉴别器计算稳定质谱(MS)结果的概率作为参考MS结果。

进一步地，所述步骤4中的所述输入为200-1000次所述激光轰击下采集的所述代谢小分子质谱图，所述映射目标为10000次所述激光轰击下采集的所述代谢小分子质谱图。

进一步地，所述步骤4中的所述划分为随机划分，划分比例为8：2。

进一步地，所述步骤4中的所述重建的目标为所述激光轰击次数为1000次下采集的所述代谢小分子质谱图。

进一步地，所述步骤5具体包括以下步骤：

步骤5.1、根据局部最小值和信噪比提取谱峰作为特征，基于质谱图稀疏性特征，采用弹性网络作为分类器；

步骤5.2：将重建后的所述高质量质谱图的特征作为输入，是否为冠心病病人作为输出，对所述训练集进行5折交叉验证训练；

步骤5.3、打乱所述训练集顺序，重复所述步骤5.2，收集子模型；

步骤5.4、计算每个所述特征的显著性(p值)；

步骤5.5、根据每个所述特征的显著性(p值)和稳定性(被所有所述子模型选中的概率)筛选出冠心病分组的所述潜在标志物。

进一步地，所述步骤5.3中重复20次，收集所述子模型100个。

与现有技术相比，本发明至少具备以下有益的技术效果：

(1)本发明提供了一种基于铁纳米颗粒辅助激光解吸电离质谱技术，实现了对小分子谱图快速提取；

(2)本发明开发了一种基于深度学习技术的高质量质谱图重建模型，实现了从低激光次数轰击质谱图中重建出高激光次数轰击质谱图；

(3)本发明基于稀疏性学习和统计显著性，准确高效地筛选出潜在标志物。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的一种超快速、无标签和抗体的血清代谢分组方案示意图；

图2是本发明的一个较佳实施例的deep stabilizer结构示意图；

图3是本发明的一个较佳实施例的deep stabilizer对HCs和CHD的性能验证结果图；

图4是本发明的一个较佳实施例的典型纳米辅助LDI质谱图；

图5是本发明的一个较佳实施例的HCs和冠心病(MI/非MI)患者的血清代谢谱；

图6是本发明的一个较佳实施例的机器学习用于分层和预测的分组性能表征结果；

图7是本发明的一个较佳实施例的基于血清代谢谱和机器学习的分组协议示意图；

图8是本发明的一个较佳实施例的分组协议在发现队列和验证队列中的应用结果。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本发明结合纳米颗粒辅助的LDI-MS检测和基于深度学习技术的深度稳定器的构建，提供了一种超快速、无标签、无抗体的血清代谢分组方法。本实施例中采用铁纳米颗粒辅助激光解吸电离质谱技术。如图1所示，具体包括以下步骤：1、从患者/对照组采集样本建立人血清样本库；2、在微阵列中直接装载血清，不需要事先进行标记、衍生或层析，然后以铁纳米颗粒作为基质加载到微阵列上，并进行激光解吸/电离(LDI)得到阳离子加合物，采集冠心病血清代谢小分子谱图；3、对质谱图进行预处理；4、开发基于生成对抗学习的深度稳定器(deep stabilizer)并提升原始图谱质量、重建出高质量质谱图；5、根据重建后的高质量质谱图，采用弹性网络对其进行机器学习疾病的分组，并提取潜在标志物。

2017年5月至2017年11月，本实施例从上海交通大学附属胸科医院连续招募了517名受试者构建样本库：261名接受常规保健维护的健康对照组(HCs)和256名冠心病患者(CHD)。入库标准：所有冠心病患者均经血管造影和心电图阳性分组，在不了解患者临床病程的情况下，由两名病理学家查阅每个病例的所有临床资料。对于心肌梗死(MI)患者，测定99分位心肌肌钙蛋白I(cTnI)水平。排除标准：有药物或自身免疫综合征证据的患者被排除在工作之外。在最初分组时抽血，没有麻醉或手术。261名HCs没有心血管疾病或其他主要疾病，并收集血清样本作为对照。收集血清样本：静脉穿刺取血约2mL，5100xg离心10min，将血清转入微管，-80℃保存。HCs和CHD患者在年龄和性别上没有显著差异。

实施例1、基于铁纳米颗粒辅助激光解吸电离质谱技术获取血清代谢小分子质谱图的获取及预处理

具体包括以下步骤：

步骤1、取0.5微升收集的血清样本吸移到不锈钢靶板后，将0.5微升铁纳米基质溶液滴在血清分析物上，干燥后进行后续质谱分析；

步骤2、使用激光解吸电离质谱仪(Nd：YAG，355nm)对每个样本进行代谢小分子谱图收集，质荷比范围为100-1000，模式为正离子模式；每个受试样本均独立进行了10次技术重复，每次技术重复的激光轰击次数为1000次；

步骤3、对提取的质谱图进行预处理，包括等距分箱、谱图平滑和基线矫正三个步骤。

实施例2、深度稳定器(deep stabilizer)网络的搭建及性能验证

如图2所示，Deep stabilizer的整体结构包括生成器和鉴别器，设计框架基于生成对抗网络，并采用Wasserstein GAN(WGAN)和梯度惩罚策略进行训练。该生成器采用卷积神经网络设计，由两个主要分支组成，一个分支用于稳定导向的粗粒度谱图重建，另一个分支用于注意力机制导向的峰精炼。其中用于稳定定向粗粒度谱图重建分支包括一个解码器和一个编码器，引入跳跃连接将信息从编码器传输到解码器，实现快速梯度更新和信息重用，设计了用于特征提取的编码器，设计了用于重建的解码器，具体如下：

g(x)＝σ(W_enc*F_raw+B_enc)

F_cg＝σ(W_dec*g(x)+B_dec)

其中F_raw、F_cg、W_enc、W_dec、B_enc和B_dec分别表示输入谱图、重建粗粒度谱图、编码器的卷积核和解码器的卷积核参数，同时星号代表卷积操作。

LeakyReLU被选为激活函数，定义如下：

σ＝max(0，x)+αmin(0，x)，

其中α＝0.01。

为了加强特征传播，缓解消失梯度问题，本发明选择以下dense block作为基本模块：

z_l＝H_l([z₀，z₁，z₂，...，z_l-1])

其中[z₀，z₁，z₂，...，z_l-1]代表连接前一层特征。

注意力机制导向的峰精炼分支仅包含一个dense block，l和k分别设为4和32：

F_peaks＝σ(W_p*F_raw+B_p)

其中F_peaks、F_raw、W_p和B_p分别代表精炼峰、输入谱图以及对应卷核参数。

最终高质量谱由粗粒度重建谱和精炼峰重建得到：

F_fg＝F_cg+F_cg⊙F_peaks·

鉴别器包含7个卷积层和2个全连接层。每个卷积层之后是一个LeakyReLU激活层，其斜率为负0.2，每个卷积层的步长为2。深度稳定器的损失函数包括两部分：对抗损失和重建损失。

关于对抗性损失，采用梯度惩罚框架，以解决模型收敛速度慢和模态崩溃等问题。WGAN的MS重建目标函数定义如下：

其中

x和

分别代表重建谱图、高质量谱图和插值谱图，

代表梯度惩罚项。

对于重构损失，采用滑动窗口对网络进行训练，使深度稳定器具有更强鲁棒性。为了降低对异常值的敏感性，本发明选择Huber损失作为损失函数。Huber损失的定义如下：

其中z_i定义为：

其中y_i和

分别为观测值和预测值。在Python 3.7中使用PyTorch(版本1.3.1)和torchvision(版本0.4.2)实现deep stabilizer。

将200-1000次激光轰击下收集的质谱图作为deep stabilizer的输入，10000次激光轰击下收集的质谱图作为deep stabilizer的映射目标；随机将数据集按8：2划分成训练集和测试集进行模型训练；加载训练好的deep stabilizer对在1000次激光轰击下收集的冠心病质谱图进行重建，同时采用重建后的高质量质谱图作为分组代谢谱图。

如图3所示，对deep stabilizer的性能进行了验证，验证队列中无稳定数据和深度稳定数据预测冠心病的分组性能(AUC、敏感性和特异度)如3a所示；图3b为验证队列中HCs和CHD(MI和non-MI)患者通过无稳定和深度稳定实验的预测概率CVs；图3c为未稳定化和深度稳定化实验获得的HCs和CHD患者1-甲基吡啶(1-met)水平数据；图3d为未稳定和深稳定实验新筛选出的5个生物标志物:乳酸(LA)、甲基咪唑乙酸(MIAA)、顺-aconitic酸(cis-AC)、二酰基甘油(14:1/24:1)(dag1)、二酰基甘油(24:1/20:4)(dag2)。(***表示p<0.001和****为p<0.0001)。可见通过deep stabilizer进行深度稳定化后有效提高了对CHD的分组验证能力。

实施例3、基于稀疏性学习和统计显著性共同筛选潜在标志物

具体包括以下步骤：

步骤1、根据局部最小值和信噪比提取谱峰作为特征；基于质谱图稀疏性特征，采用弹性网络作为分类器；

步骤2、将重建后的谱图特征作为输入，是否为冠心病病人作为输出，对训练集进行5折交叉验证训练；

步骤3、打乱训练集顺序，重复步骤3共计20次，共收集100个子模型；

步骤4、计算每个特征的显著性(p值)；

步骤5、根据每个特征的显著性(p值)和稳定性(被100个子模型选中的概率)筛选出冠心病分组的6个潜在标志物。

典型纳米辅助LDI质谱图包括健康对照(HC)、冠心病伴有心肌梗死和冠心病不伴有心肌梗死的患者(如图4所示)，HCs和冠心病(MI/非MI)患者的血清代谢谱(如图5所示)。每个血清代谢谱包含35m/z特征，其中6个生物标记物(p<0.001，平均强度>25、命中频率>60)。与HCs相比，冠心病患者中有5个biomarker表达上调，1个biomarker表达下调。图6为机器学习用于分层和预测的分组性能表征结果。如图6a所示，受试者工作特征(ROC)曲线和曲线下面积(AUC)分析采用正交投影潜结构判别分析(OPLS-DA，黑色)和稀疏学习(弹性网络分析，红色)区分HCs和CHD患者，实线和虚线分别显示了来自发现组和验证组的结果。基于发现队列(图6b)和验证队列(图6c)中血清代谢谱的稀疏学习(弹性网络分析)获得的冠心病患者和HCs的预测概率分层。蓝色和紫色分别代表HCs和CHD患者，虚线表示机器学习的阈值，用于区分冠心病患者和HCs。

如图7所示为基于血清代谢谱和机器学习的分组协议示意图。该协议实现了三个主要步骤来获得分组变异特征(DVC)曲面(这里称为Mengji-Kun(MK)曲面)：阈值识别、精度计算和性能相关性。将该协议应用于发现队列(图8a-c)和验证队列(图8d-f)中。其中图8a、d显示指定队列的MK曲面的三维(3D)模型，蓝色的平面表示CV为10％的阈值，灰色和红色的MK曲面分别为no稳定和deep-steady实验。MK表面的投影显示CV/特异性(图8b、e)和敏感性/特异性(图8c、f)，虚线表示CV为10％的阈值。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述方法包括以下步骤：

步骤3、对所述代谢小分子质谱图进行预处理得到原始图谱；

2.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述基质辅助激光解吸电离质谱技术以纳米颗粒为基质，其中所述纳米颗粒为铁纳米颗粒。

3.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述基质辅助激光解吸电离质谱技术的模式为正离子模式，质荷比范围为100-1000m/z。

4.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤3中的所述预处理包括等距分箱、平滑降噪和基线矫正。

5.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述深度稳定器包括生成器和鉴别器：所述生成器通过两个分支，分别进行稳定导向的粗粒度谱图重建和注意力机制导向的峰精炼，所述鉴别器计算稳定质谱(MS)结果的概率作为参考MS结果。

6.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤4中的所述输入为200-1000次所述激光轰击下采集的所述代谢小分子质谱图，所述映射目标为10000次所述激光轰击下采集的所述代谢小分子质谱图。

7.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤4中的所述划分为随机划分，划分比例为8：2。

8.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤4中的所述重建的目标为所述激光轰击次数为1000次下采集的所述代谢小分子质谱图。

9.如权利要求1所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.4、计算每个所述特征的显著性(p值)；

10.如权利要求9所述的基于深度学习技术提高质谱谱图分组稳定性的方法，其特征在于，所述步骤5.3中重复20次，收集所述子模型100个。