CN117034017B

CN117034017B - 一种基于深度学习的质谱图分类方法、系统、介质及设备

Info

Publication number: CN117034017B
Application number: CN202311150820.4A
Authority: CN
Inventors: 孙楠楠; 徐威; 居斌; 张丽英; 钱小亮
Original assignee: Yunjiankang Hangzhou Medical Technology Co ltd
Current assignee: Yunjiankang Hangzhou Medical Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-03-19
Anticipated expiration: 2043-09-07
Also published as: CN117034017A

Abstract

本发明公开了一种基于深度学习的质谱图分类方法、系统、介质及设备，涉及质谱分析技术领域。本发明还公开了一种构建用于质谱图分类的深度学习模型的方法，包括获取多个包含分类信息的质谱数据集形成的数组，对数组中的m/zs进行离散化处理；根据intensities中的最大峰值，对intensities进行标准化处理；基于处理后的数组，得到矩阵；利用及质谱数据集对应的分类信息构建深度学习模型。利用本发明的方法和系统，在数据处理上充分利用了原始质谱图上的信息，无须对生物标志物进行鉴定；数据不需要在保留时间上对齐，从而使得模型泛化性能较好；利用一维CNN以及采用相对位置向量编码的Transformer方法建立深度学习模型，模型的训练速度快，训练难度低。

Description

一种基于深度学习的质谱图分类方法、系统、介质及设备

技术领域

本发明涉及质谱分析技术领域，尤其涉及一种基于深度学习的质谱图分类方法、系统、介质及设备。

背景技术

随着深度学习技术在各个领域的快速发展，深度学习也在蛋白质组学领域进一步推进了蛋白质组分析。部分研究通过MSGF+、MaxQuant等工具对原始质谱进行分析鉴定出标志物，通过统计分析获得差异标志物后利用传统机器学习方法，如决策树，支持向量机等建立疾病诊断分类模型；一些研究将质谱数据以图的形式基于卷积神经网络进行特征提取后进行标志物识别和建立疾病诊断模型；这些分类结果过分依赖标志物鉴定的准确率，由于在进行标志物识别的过程中时容易出现标志物不能完全鉴定出来或者鉴定出的标志物与该疾病相关性不大，这将导致下游的诊断模型的准确率下降。

为了不依赖标志物鉴定，提高诊断的准确率，一些研究直接使用深度学习算法直接在质谱原始数据上进行建模来进行疾病诊断，但是首先由于不同实验室对质谱仪参数设置的不同，不同实验室的质谱数据的保留时间RT不是对齐的，从而导致诊断模型的泛化性能不佳；另外，当前研究大部分集中在DIA质谱数据上，这些研究主要把注意力集中在数量巨大的二级质谱上，导致训练过程中需要足够大的内存，诊断模型训练困难。

发明内容

为了解决背景技术中提到的至少一个技术问题，本发明的目的在于提供一种基于深度学习的质谱图分类方法、介质及设备，可以不依赖标志物鉴定，且提供较好的泛化性能，降低模型的训练难度。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种构建用于质谱图分类的深度学习模型的方法，包括：

S101，获取多个质谱数据集，包括分类为第一类的质谱数据集和分类为第二类的质谱数据集，所述质谱数据集包括由保留时间RT、质荷比m/z和峰值intensity组成的数组，所有所述RT存储在保留时间列表RTs中，每一个RT对应的多个m/z存储在质荷比列表m/zs中，每一个RT对应的多个intensity存储在峰值列表intensities中，且m/z与intensity一一对应；所述数组的数量与RTs的长度r相等，所述数组的格式为(RT，(m/zs，intensities))；

S102，对所述数组中的所述m/zs进行离散化处理；根据所述intensities中的最大峰值，对所述intensities进行标准化处理；基于处理后的数组，得到矩阵；

S103，利用所述及所述质谱数据集对应的分类信息构建深度学习模型；

所述S102包括：

S1021，对所述数组中的m/zs进行离散化处理，包括：

针对r个m/zs，计算离散化的索引，计算公式为

；

其中I是索引，为取下限，/>是离散化尺度，/>为预设的离散化范围的最小值；

S1022，对所述数组中的intensities进行标准化处理，包括：

对每个所述intensities内的intensity进行标准化，标准化计算公式为

；

其中表示intensities中的最大峰值，/>表示标准峰值；

将处于同一索引中的标准峰值求和，计算公式为

；

其中N为索引最大值，为在离散化索引为k时的所有标准峰值的累加值；

S1023，基于每个RT对应的，构成m行r列的矩阵/>，其中m表示离散化后的m/zs的长度，m等于N。

进一步的，所述深度学习模型包括一维CNN模块和Transformer模块，所述Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。

进一步的，所述深度学习模型的损失函数的计算公式为

；

其中，n为预设的迭代次数，表示预测值，/>代表真实值，所述预测值大于等于0小于等于1，所述真实值为0或1；

当所述损失函数收敛时，则所述深度学习模型训练完毕。

第二方面，本发明实施例提供了一种基于深度学习的质谱图分类方法，利用步骤S102构建待分类的质谱数据集对应的矩阵X_init，并输入到利用上述方法构建的深度学习模型中，从而得到所述待分类的质谱数据集的分类信息，所述分类信息包括第一类和第二类。

第三方面，本发明实施例提供了一种基于深度学习的质谱图分类系统，包括：

数据输入模块，用于获取待分类的质谱数据集；

数据存储模块，用于存储多个质谱数据集对应的矩阵X_init及其分类信息；

分类模块，分别与所述数据输入模块和所述数据存储模块连接，用于先根据所述多个质谱数据集对应的X_init及其分类信息构建深度学习模型，再将所述待分类质谱数据集输入模型中，得到所述待分类质谱数据集的分类信息；

结果输出模块，与所述分类模块连接，用于输出分类结果；

其中，所述X_init按照步骤S102进行构建。

进一步的，所述结果输出模块进一步与所述数据存储模块连接，用于将所述待分类的质谱数据集对应的X_init和所述分类结果输入至所述数据存储模块。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的任一构建用于质谱图分类的深度学习模型的方法。

第五方面，本发明实施例还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的任一构建用于质谱图分类的深度学习模型的方法。

与现有技术相比，本发明的有益效果是：

在数据处理上充分利用了原始质谱图上的信息，提高了信息的利用率，从而提高了预测准确度；

直接在原始质谱数据集上进行特征提取，无须对生物标志物进行鉴定；

一个m/z的向量编码可以看作[intensity₁，intensity₂，…，intensity_n]，n指RTs的长度，然后在RTs维度上进行累加，数据不需要在保留时间上对齐，从而使得模型泛化性能较好；

利用卷积神经网络以及将绝对位置向量改进为相对位置向量编码的Transformer方法建立深度学习模型，在m/z范围扩大时也能很好地进行分类，且模型的训练速度快，训练难度低。

附图说明

图1为本发明实施例提供的一种构建用于质谱图分类的深度学习模型的方法的流程图；

图2为本发明实施例提供的一种利用训练集训练深度学习模型时损失函数曲线变化的示意图；

图3为本发明实施例提供的一种利用测试集测试深度学习模型时损失函数曲线变化的示意图；

图4为本发明实施例提供的一种测试集的ROC曲线的示意图；

图5为本发明实施例提供的一种基于深度学习的质谱图分类系统的结构图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的上述问题，本发明实施例提供了一种基于深度学习的质谱图分类方法、系统、介质及设备，下面分别进行详细说明。

本发明实施例以肝细胞癌HCC的质谱数据为例进行说明，需要说明的是，本发明提供的方法还可以用于其他癌症的质谱数据分类，对此不作限定。

第一方面，本发明实施例提供了一种构建用于质谱图分类的深度学习模型的方法。

实施例一：

如图1所示，图1为本发明实施例提供的一种构建用于质谱图分类的深度学习模型的方法的流程图，包括以下步骤：

S101，获取多个质谱数据集，包括分类为第一类的质谱数据集和分类为第二类的质谱数据集，质谱数据集包括由保留时间RT、质荷比m/z和峰值intensity组成的数组，所有RT存储在保留时间列表RTs中，每一个RT对应的多个m/z存储在质荷比列表m/zs中，每一个RT对应的多个intensity存储在峰值列表intensities中，且m/z与intensity一一对应；数组的数量与RTs的长度r相等，数组的格式为(RT，(m/zs，intensities))。

从质谱数据库中下载原发性肝癌DDA质谱原始文件（.raw格式），提取对应原始质谱图的的保留时间（Retention Time，RT），一级质谱的质荷比（m/z）和相应的峰值（intensity）序列信息，构建r个数组(RT，(m/zs，intensities))。

具体下载顺序为，读取下载地址，确定是否为iProX库地址执行的FTP下载链接，若是，下载标记为raw的文件到以rawdata为文件名的文件夹。

本发明实施例中使用数据集：IPX0000937000；该数据集可通过链接:https:// www.iprox.cn//page/subproject.html?id=IPX0000937001获取得到。

在获取IPX0000937000数据集后，挑选出以Thermo Orbitrap QE HF‐X仪器中采集方式为DDA的数据进行分析。从公共数据库iProX中下载对原始数据文件后缀格式为.raw，我们使用MSConvert软件对原始文件进行格式转换，将其转换为后缀为.mzML的通用格式。

将.mzML文件通过python包proteomics提取质谱的MS1的RT，m/z和intensity信息并以(RT，(m/z，intensity))的格式存储。

S102，对数组中的m/zs进行离散化处理；根据intensities中的最大峰值，对intensities进行标准化处理；基于处理后的数组，得到矩阵。

步骤S102可以细分为如下步骤：

S1021，对数组中的m/zs进行离散化处理，包括：

针对r个m/zs，计算离散化的索引，计算公式为

；

其中I是索引，为取下限，/>是离散化尺度，默认设置为1，/>为预设的离散化范围的最小值；本发明实施例中设定m/z的范围为/>。

S1022，对数组中的intensities进行标准化处理，包括：

对每个intensities内的intensity进行标准化，一次扫描指质谱仪在一个RT上进行的单次数据采集，标准化计算公式为

；

其中表示intensities中的最大峰值，/>表示标准峰值；

将处于同一索引中的标准峰值求和，计算公式为

；

其中N为索引最大值，为在离散化索引为k时的所有标准峰值的累加值。

由于步骤S1021对m/zs进行离散化，同一索引中包含多个峰值，所以将同一索引中的标准峰值求和，实现每个索引对应一个。

S1023，基于每个RT对应的，构成m行r列的矩阵/>，其中r表示RTs的长度，m表示离散化后的m/zs的长度，m等于N。

当在索引为k没有峰出现时，则为0。本发明实施例中设定m/z的范围为，则m为1540，N也为1540。

S103，利用及质谱数据集对应的分类信息构建深度学习模型。

上述深度学习模型包括一维CNN模块和Transformer模块， Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。

深度学习模型的损失函数的计算公式为

；

其中，n为预设的迭代次数，表示预测值，/>代表真实值，预测值大于等于0小于等于1，真实值为0或1；迭代次数可以根据实际情况设定，本发明实施例设定为200，对此不作限定。

当损失函数收敛时，则深度学习模型训练完毕。

在本发明实施例中，将原始数据分为训练集和测试集进行模型的训练。训练集用于对模型的训练，测试集用于检测模型的性能。

如图2所示，图2为本发明实施例提供的利用训练集训练深度学习模型时损失函数曲线变化的示意图。可以看出训练的过程中模型收敛非常快，在迭代次数到200之后，损失函数开始收敛。

如图3所示，图3为本发明实施例提供的利用测试集测试深度学习模型时损失函数曲线变化的示意图。在迭代200次时损失函数开始收敛，表明深度学习模型训练非常顺利。

经过步骤S102得到的，

；

按照r维度上进行累加获得，

；

先将输入到一维CNN模块进行卷积获得/>，其中，d为一维CNN模块的隐变量维度；

；

再将输入到transfomer中的Positional Embedding中进行计算，获得相对位置编码矩阵/>，其中/>，h指head个数，本发明实施例中设置h=8，q为Positional Embedding的隐变量维度。

输入到transformer中的multi-head Attention中，首先/>通过与三个权重矩阵/>进行矩阵相乘获得计算Attention值所需要的矩阵Q、K、V；矩阵Q、K相乘获得矩阵C；矩阵P、Q相乘获得矩阵Rel；将矩阵C和矩阵Rel相加后经过Softmax函数获得矩阵attention，将attention与矩阵V相乘后，利用rearrange函数进行维度变换获得/>，/>经过线性转换获得矩阵向量后，再与/>累加获得/>，/>经过两层前馈神经网络获得/>后与/>累加获得/>，再将/>进行维度拉平后经过两层前馈神经网络后获得预测结果/>，其中/>为预测值，区间范围[0，1]。

本发明实施例中预设分类阈值为0.5，若大于0.5，则输出分类信息为第一类；若/>不大于0.5，则输出分类信息为第二类。预设分类阈值可以根据实际需求设定，本发明实施例对此不作限定。

可以通过以下指标评估深度学习模型在测试集上的性能：

准确率（Accuracy）：正确预测的样本数占总样本数的比例。

精确率（Precision）：真正例占所有被模型预测为正例的样本数的比例。

召回率（Recall）：真正例占所有真正例的样本数的比例，又称为查全率。

F1分数（F1 Score）：精确率和召回率的调和平均值，用于平衡精确率和召回率之间的权衡。

ROC曲线和AUC：ROC曲线绘制了真正例率与假正例率之间的关系，AUC是ROC曲线下的面积，适用于处理类别不平衡问题。

；

其中，

TP：实际为正且分类为正的样本数，真正例数；

FP：实际为负但分类为正的样本数，假正例数；

TN：实际为负且分类为负的样本数，真负例数；

FN：实际为正但分类为负的样本数，假负例数。

如下表1所示，表1是测试集的分类指标结果，从表中可以看出在测试集上，本发明构建的深度学习模型对于质谱数据的分类指标结果均在90%以上。

表1 测试集的分类指标结果

如图4所示，图4为本发明实施例提供的一种测试集的ROC曲线的示意图。图中，实线为ROC曲线，虚线为参考曲线，横坐标为假阳性率(False Positive Rate，FPR)，纵坐标为真阳性率(True Positive Rate，TPR)，计算公式分别如下：

FPR=FP/N；

TPR=TP/P；

其中，N是真实负样本的个数，FP是N个负样本中被预测为正样本的个数。P是真实正样本的个数，TP是P个正样本中被预测为正样本的个数。

ROC曲线的面积越大说明分类效果越好，由图4可知本发明构建的深度学习模型在测试集上的分类效果卓越。

实施例二：

本发明实施例还提供了一种基于深度学习的质谱图分类方法，利用上述步骤S102构建待分类的质谱数据集对应的矩阵X_init，并输入到上述深度学习模型中，从而得到待分类的质谱数据集的分类信息。

以HCC为例，当深度学习模型输出的大于0.5时，则表示输入的质谱数据被判定为HCC；当深度学习模型输出的/>不大于0.5时，则表示输入的质谱数据被判定为non-HCC。

实施例三：

本发明实施例还提供了一种基于深度学习的质谱图分类系统，如图5所示，图5为本发明实施例提供的一种基于深度学习的质谱图分类系统的结构图，包括：

数据输入模块，用于获取待分类的质谱数据集；

分类模块，分别与数据输入模块和数据存储模块连接，用于先根据多个质谱数据集对应的X_init及其分类信息构建深度学习模型，再将待分类质谱数据集输入模型中，得到待分类质谱数据集的分类信息；

结果输出模块，与分类模块连接，用于输出分类结果；

其中，X_init按照步骤S102进行构建。

结果输出模块进一步与数据存储模块连接，用于将待分类的质谱数据集对应的X_init和分类结果输入至数据存储模块。这样，深度学习模型在应用过程中不断优化，从而进一步提高分类的准确度。

实施例四：

本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一构建用于质谱图分类的深度学习模型的方法。

实施例五：

本发明实施例还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一构建用于质谱图分类的深度学习模型的方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种构建用于质谱图分类的深度学习模型的方法，其特征在于，包括：

所述S102包括：

S1021，对所述数组中的m/zs进行离散化处理，包括：

针对r个m/zs，计算离散化的索引，计算公式为

；

S1022，对所述数组中的intensities进行标准化处理，包括：

；

其中表示intensities中的最大峰值，/>表示标准峰值；

将处于同一索引中的标准峰值求和，计算公式为

；

2.根据权利要求1所述的构建用于质谱图分类的深度学习模型的方法，其特征在于，所述深度学习模型包括一维CNN模块和Transformer模块，所述Transformer模块包括采用相对位置编码的Positional Embedding和多头注意力机制multi-head Attention。

3.根据权利要求1所述的构建用于质谱图分类的深度学习模型的方法，其特征在于，所述深度学习模型的损失函数的计算公式为

；

当所述损失函数收敛时，则所述深度学习模型训练完毕。

4.一种基于深度学习的质谱图分类方法，其特征在于，利用权利要求1中S102构建待分类的质谱数据集对应的矩阵X_init，并输入到权利要求1构建的深度学习模型中，从而得到所述待分类的质谱数据集的分类信息，所述分类信息包括第一类和第二类。

5.一种基于深度学习的质谱图分类系统，其特征在于，包括：

数据输入模块，用于获取待分类的质谱数据集；

结果输出模块，与所述分类模块连接，用于输出分类结果；

其中，所述X_init按照权利要求1步骤S102进行构建。

6.根据权利要求5所述的系统，其特征在于，所述结果输出模块进一步与所述数据存储模块连接，用于将所述待分类的质谱数据集对应的X_init和所述分类结果输入至所述数据存储模块。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任意一项所述的方法。

8.一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任意一项所述的方法。