CN113284563A

CN113284563A - 一种蛋白质质谱定量分析结果的筛选方法及系统

Info

Publication number: CN113284563A
Application number: CN202110424972.3A
Authority: CN
Inventors: 何情祖; 李一鸣; 郭欢; 韩家淮; 帅建伟
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-08-20
Anticipated expiration: 2041-04-20
Also published as: CN113284563B

Abstract

本发明公开了一种蛋白质质谱定量分析结果的筛选方法及系统，包括：获取经过OpenSWATH筛选后的定量结果图像；利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化，将XIC的强度转换到0和1之间；通过训练好的卷积神经网络对归一化方法的输出进行分类，输出肽段为阳性肽段的概率；基于预设的双阈值进行筛选，如果所述概率小于等于第一预设阈值，则判断出对应的肽段为假阳性肽段，如果所述概率大于等于第二预设阈值，则判断出对应的肽段为阳性肽段，否则，判断出对应的肽段为模糊肽段。本发明对OpenSWATH输出结果中多肽的碎片离子色谱所有肽段进行分类，以去除假阳性肽段，减轻人工检测的任务量。

Description

一种蛋白质质谱定量分析结果的筛选方法及系统

技术领域

本发明涉及蛋白质组学鉴定领域，具体涉及一种蛋白质质谱定量分析结果的筛选方法及系统。

背景技术

质谱技术广泛应用于多肽和蛋白质的鉴定和定量。数据独立采集(DIA：Dataindependent acquisition)是多肽和蛋白质鉴定和定量领域中的一种数据采集策略。SWATH是一种数据独立采集式的质谱采集模式，全称为全碎片离子顺序窗口化获取质谱(Sequential Windowed Acquisition of All Theoretical Fragment Ions，SWATH)。而OpenSWATH是一个分析SWATH-MS(MS：Mass Spectrometry)质谱数据的通用工具，首先从谱图库中提取理论色谱图，与质谱数据得到的实验谱图进行匹配，然后根据评分算法过滤肽段，去除掉错误的肽段匹配，从而得到定性和定量的分析结果。首先利用谱图库的信息，从质谱数据中提取出每个肽段对应的色谱峰，然后计算肽段子离子对应的色谱峰之间的相似性，过滤子离子相似性低的肽段，从而得到定性和定量的分析结果。然而，经OpenSWATH筛选后仍然存在假阳性肽段，导致定量结果不理想。因此，对所有肽段进行分类以过滤假阳性肽段是非常重要的。但是目前解决此分类问题的办法只有人工检测，人工检查的工作是将可视化的碎片子离子峰形图进行分类，分成阳性肽段和假阳性肽段两类，去除掉假阳性肽段，从而提高定性定量分析结果的准确性，但是即使是经过OpenSWATH筛选后的定量结果中数据量也非常庞大，再加上人力的分类是具有很强的主观性的，所以人工检测的任务量繁重且主观性过强。

分类问题是深度学习的基础问题之一，深度学习算法的很多问题都需要基于分类的特征提取再进行其他的操作。各类传统机器学习方法的分类效果，远不如深度学习。但目前的许多基于深度学习的分类方法，广泛应用于医学诊断、自然语言处理、地貌学等的处理中，在蛋白质鉴定领域还有许多分类问题需要解决。

发明内容

本发明的主要目的在于提出一种蛋白质质谱定量分析结果的筛选方法及系统，对OpenSWATH分析的鉴定结果进行分类，然后去除假阳性肽段，减轻人工检测的任务量。

本发明采用如下技术方案：

第一方面，一种蛋白质质谱定量分析结果的筛选方法，包括：

获取经过OpenSWATH筛选后的定量结果图像；

利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化，将XIC的强度转换到0和1之间；

通过训练好的卷积神经网络对归一化方法的输出进行分类，输出肽段为阳性肽段的概率；

基于预设的双阈值进行筛选；如果所述概率小于等于第一预设阈值，则判断出对应的肽段为假阳性肽段；如果所述概率大于等于第二预设阈值，则判断出对应的肽段为阳性肽段；否则，判断出对应的肽段为模糊肽段。

优选的，所述归一化方法包括最小最大归一化方法。

优选的，所述概率的范围为大于等于0且小于等于1。

优选的，所述卷积神经网络的训练方法，包括：

构建数据集，构建包括训练集、验证集和测试集的数据集；所述训练集、验证集和测试集彼此之间没有交集；且所述训练集包括原始图像和相对应的标签图像，用来输入到所述卷积神经网络中进行训练，所述验证集和测试集只包括原始图像；所述原始图像为经过OpenSWATH筛选后的定量结果图像；所述标签图像为将定量结果图像标注为阳性肽段或假阳性肽段的图像，如果数据集中的6条强度曲线在峰值处相互吻合，则标注该肽段图像为阳性肽段图像；按照一定的比例随机选取相应数量的阳性肽段图像和假阳性肽段图像作为训练集和交叉验证集，随机选取一定数量的测试集；

增强数据，将每张图像的6个XIC的顺序随机重排4次以增加数据集；

预处理图像，利用归一化方法对数据集图像中的6个子离子的XIC曲线进行标准归一化；

训练卷积神经网络，将预处理后的图像输入卷积神经网络，训练出使损失函数最小的卷积神经网络。

优选的，所述卷积神经网络包括依次设置的卷积层、池化层、完全连接层以及各层激活函数的选择；所述卷积层包括一个或多个；所述池化层包括一个或多个；所述完全连接层包括一个或多个。

优选的，所述卷积层和所述池化层的数量相同，且所述卷积层和所述池化层交替设置。

优选的，所述卷积层的激活函数选择ReLU函数。

优选的，所述完全连接层包括相连接的第一完全连接层和第二完全连接层；所述第一完全连接层设置在所述池化层后，所述第一完全连接层的激活函数选择ReLU函数；所述第二完全连接层设置在所述第一完全连接层后，所述第二完全连接层的激活函数选择Sigmoid函数，只有一个单元也就是输出为一个值。

第二方面，一种蛋白质质谱定量分析结果的筛选系统，包括

数据获取模块，用于获取经过OpenSWATH筛选后的定量结果图像；

数据预处理模块，利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化，将XIC的强度转换到0和1之间；

卷积神经网络处理模块，通过训练好的卷积神经网络对归一化方法的输出进行分类，输出肽段为阳性肽段的概率；

筛选模块，基于预设的双阈值进行筛选；如果所述概率小于等于第一预设阈值，则判断出对应的肽段为假阳性肽段；如果所述概率大于等于第二预设阈值，则判断出对应的肽段为阳性肽段；否则，判断出对应的肽段为模糊肽段。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的蛋白质质谱定量分析结果的筛选方法。

与现有技术相比，本发明的有益效果如下：

本发明构建了关于包含阳性肽段和假阳性肽段的离子峰的标签数据集，并采用深度卷积神经网络对串联质谱数据(MS/MS)数据进行自动分类以输出肽段为阳性肽段的概率，最后结合双阈值方法，鉴定出假阳性肽段、阳性肽段和模糊肽段；本发明减少了人工分类的任务量，避免了人工分类主观性的影响，提高了分类的精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，从而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下列举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。

附图说明

图1为本发明实施例的蛋白质质谱定量分析结果的筛选方法的流程图；

图2为本发明实施例的标准归一化前后不同类别肽段的XIC曲线；同一张图中不同曲线代表一个母离子肽段的不同子离子的XIC曲线；A1归一化前阳性肽段的碎片子离子的XIC曲线；A2为归一化前假阳性肽段的碎片子离子的XIC曲线；B1为归一化后的阳性肽段的碎片子离子的XIC曲线；B2为归一化后假阳性肽段的碎片子离子的XIC曲线；

图3为本发明实施例的卷积神经网络模型；其中“C”表示卷积层，“M”表示最大池层，“D”表示密集层；括号内的数字表示相应层的输出大小；

图4为本发明实施例的测试集上卷积神经网络预测概率的分布直方图；纵轴表示在0.04的某个箱子大小上肽段的比例，而横轴表示肽段为阳性的预测可能性；

图5为本发明实施例的卷积神经网络分类界面的显示；

图6为本发明实施例的蛋白质质谱定量分析结果的筛选系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。

参见图1所示，本发明一种蛋白质质谱定量分析结果的筛选方法，包括：

S101，获取经过OpenSWATH筛选后的定量结果图像；

S102，利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化，将XIC的强度转换到0和1之间；

S103，通过训练好的卷积神经网络对归一化方法的输出进行分类，输出肽段为阳性肽段的概率；

S104，基于预设的双阈值进行筛选；如果所述概率小于等于第一预设阈值，则判断出对应的肽段为假阳性肽段；如果所述概率大于等于第二预设阈值，则判断出对应的肽段为阳性肽段；否则，判断出对应的肽段为模糊肽段。

具体的，本实施例一种蛋白质质谱定量分析结果的筛选方法对来自SWATH-MS标准(SGS)数据集的人类数据集和来自HYE的数据集进行自动分类。所述的XIC表示提取离子流色谱。

首先，本实施例基于上述数据集构建卷积神经网络训练及测试的数据集。

构建的数据集包括：训练集、验证集和测试集，训练集、验证集和测试集彼此之间没有交集。构建数据集的具体步骤如下：

A1.收集数据：收集了来自SWATH-MS标准(SGS)数据集的人类数据集以及收集了来自HYE数据集，人类数据集是在32个固定窗口下使用AB SciexTripletTOF5600仪器采集的，HYE数据集是由TripleTOF 5600或TripleTOF 6600仪器获得的，窗口数为32或64，窗口大小固定或可变。

A2.标签：用于训练卷积神经网络的数据集由40153个肽段组成，这些肽段被分为两类：阳性肽段和假阳性肽段。如果数据集中的6条强度曲线在峰值处相互吻合，则标注该肽段为阳性肽段。相反，如果6条曲线在波峰处不一致，则标注该肽段为假阳性肽段。经人工检测，获得阳性肽段22744条，假阳性肽段17409条。

A3.随机选取15921个阳性肽段和12186个假阳性肽段作为训练集，6823个阳性肽段和5223个假阳性肽段作为交叉验证集。结果表明，训练集与交叉验证集之比为7:3。测试集包括829个阳性肽段和559个假阳性肽段。本发明的模型输入由前6个片段XIC组成，本发明将XIC的长度固定为85。图2(A1)和(A2)分别显示了最初阳性肽段和假阳性肽段的示例。

A4.数据增强：将6个XIC的顺序随机洗牌4次以增加数据。

然后，对上述构建的数据集进行预处理。

训练模型之前，利用最小最大归一化方法对6个子离子的XIC曲线进行标准归一化。这种归一化算法将XIC的强度转换到0和1之间，转换公式如下：

其中min(X)和max(X)代表每个XIC的最小值和最大值。

图2(B1)和(B2)显示了标准归一化后阳性和假阳性肽段的示例。

接下来，基于上述数据集就可以进行卷积神经网络的构建、训练和测试。

本发明模型应用卷积神经网络进行分类，卷积神经网络擅长处理多个阵列，并且可以自动学习给定数据的潜在空间相关性。设计模型结构时，本发明模型也参考了LeNet模型结构，LeNet可以克服归一化引起的XIC的变化。

具体的，本发明实施例的卷积神经网络结构如下：

输入数据大小为(1，6，85)，输入格式为(channel，height，width)。一共有三个卷积层，三个池化层，两个完全连接层。Conv1层是一个卷积层，内核大小为(2，7)，输出大小为(5，79)，激活函数选择ReLU函数。Max pooling1是一个Max pooling层，内核大小为(2，2)，输出大小为(4，78)。Conv2层是一个卷积层，内核大小为(2，3)，输出大小为(3，76)，激活函数选择ReLU函数。Layer Max pooling2是一个Max poling层，内核大小为(2，2)，输出大小为(2，75)。Conv3层是一个卷积层，内核大小为(2，3)，输出大小为(3，75)，空间填充为(1，1)，激活函数选择ReLU函数。Layer Max pooling3是一个Max poling层，内核大小为(2，2)，输出大小为(2，74)。Dense1层是一个完全连接的层，有512个神经元，丢弃率为0.3，激活函数选择ReLU。Dense2层是一个完全连接的层，有256个神经元，丢弃率为0.3，ReLU激活。输出层是一个完全连接的层，激活函数选择Sigmoid函数，只有一个单元也就是输出为一个值。

本次网络构建的结构如图3所示，经过三个卷积层，三个池化层，两个全连接层。

需要说明的是，本发明的卷积神经网络所提出的网络层数可以是任意的数值来替换，分割难度大的任务往往采用更深的网络层数，反之亦反。同样的，本发明采用的卷积神经网络参数，例如卷积核大小、数量，学习率，丢弃概率，优化器等，都可以根据具体情况来设置合适的参数。

最后，确定双阈值，以鉴定出阳性肽段、假阳性肽段和模糊肽段。

对于卷积神经网络模型分析结果，大部分预测得分接近0或1，只有一小部分预测得分处于中间区间。通过对中间区间肽段的XIC进行检测，发现这些XIC中存在高噪声，并将这些肽定义为模糊肽段。噪声的存在降低了二值分类的精度。因此，本发明采用两层阈值分割法来区分阳性肽段、假阳性肽段和模糊肽段，模糊肽段的预测分数在中间区间。

本发明模型的输出显示了肽段X成为阳性肽段的概率P(X)。通过设置两级阈值，分别用T_lower和T_upper表示下限和上限阈值，可将具有由模型计算的概率P的原始肽段分配到以下三类中的一类：

根据分布直方图平滑曲线的拐点(参见图4所示)，本发明将上阈值设置为0.92，下阈值设置为0.08。由于平滑曲线的斜率两端陡峭，中间平坦，因此两个阈值的微小变化几乎不影响中间范围内预测的模糊肽段的数量。用户可以选择某个肽段进行XIC可视化，对量化肽段进行分类，并基于所选择的阈值输出分类结果。用户可以修改两个阈值的值以获得满意的分类(图5)。

本发明采用了卷积神经网络结构，能够自主学习选择最合适的网络层数以及自动学习给定数据的潜在空间相关性并且结合了双阈值选择来筛选。因此通过本发明的方法可以大大减少繁琐的人工检测的耗时，并且达到更优秀的去除假阳性肽段的目标。一旦网络学习完成，蛋白质DIA数据鉴定工作流末端分析速度将飞速的提升。

参见图6所示，一种蛋白质质谱定量分析结果的筛选系统，包括：

数据获取模块601，用于获取经过OpenSWATH筛选后的定量结果图像；

数据预处理模块602，利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化，将XIC的强度转换到0和1之间；

卷积神经网络处理模块603，通过训练好的卷积神经网络对归一化方法的输出进行分类，输出肽段为阳性肽段的概率；

筛选模块604，基于预设的双阈值进行筛选；如果所述概率小于等于第一预设阈值，则判断出对应的肽段为假阳性肽段；如果所述概率大于等于第二预设阈值，则判断出对应的肽段为阳性肽段；否则，判断出对应的肽段为模糊肽段。

一种蛋白质质谱定量分析结果的筛选系统各模块的具体实现与一种蛋白质质谱定量分析结果的筛选方法的具体实现相同，本发明实施例不做重复说明。

进一步的，本发明一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的蛋白质质谱定量分析结果的筛选方法。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种蛋白质质谱定量分析结果的筛选方法，其特征在于，包括：

获取经过OpenSWATH筛选后的定量结果图像；

2.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述归一化方法包括最小最大归一化方法。

3.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述概率的范围为大于等于0且小于等于1。

4.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述卷积神经网络的训练方法，包括：

5.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述卷积神经网络包括依次设置的卷积层、池化层、完全连接层以及各层激活函数的选择；所述卷积层包括一个或多个；所述池化层包括一个或多个；所述完全连接层包括一个或多个。

6.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述卷积层和所述池化层的数量相同，且所述卷积层和所述池化层交替设置。

7.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述卷积层的激活函数选择ReLU函数。

8.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法，其特征在于，所述完全连接层包括相连接的第一完全连接层和第二完全连接层；所述第一完全连接层设置在所述池化层后，所述第一完全连接层的激活函数选择ReLU函数；所述第二完全连接层设置在所述第一完全连接层后，所述第二完全连接层的激活函数选择Sigmoid函数，只有一个单元也就是输出为一个值。

9.一种蛋白质质谱定量分析结果的筛选系统，其特征在于，包括

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。