CN113284563A - 一种蛋白质质谱定量分析结果的筛选方法及系统 - Google Patents
一种蛋白质质谱定量分析结果的筛选方法及系统 Download PDFInfo
- Publication number
- CN113284563A CN113284563A CN202110424972.3A CN202110424972A CN113284563A CN 113284563 A CN113284563 A CN 113284563A CN 202110424972 A CN202110424972 A CN 202110424972A CN 113284563 A CN113284563 A CN 113284563A
- Authority
- CN
- China
- Prior art keywords
- peptide segment
- screening
- layer
- image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 32
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 28
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 28
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 15
- 238000001819 mass spectrum Methods 0.000 title claims abstract description 12
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 83
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 47
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 47
- 238000010606 normalization Methods 0.000 claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 23
- 238000004949 mass spectrometry Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010833 quantitative mass spectrometry Methods 0.000 claims 1
- 102000004196 processed proteins & peptides Human genes 0.000 abstract description 13
- 239000012634 fragment Substances 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 abstract description 6
- 229920001184 polypeptide Polymers 0.000 abstract description 3
- 238000004255 ion exchange chromatography Methods 0.000 abstract 1
- 150000002500 ions Chemical class 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004451 qualitative analysis Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Abstract
本发明公开了一种蛋白质质谱定量分析结果的筛选方法及系统,包括:获取经过OpenSWATH筛选后的定量结果图像;利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;基于预设的双阈值进行筛选,如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段,如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段,否则,判断出对应的肽段为模糊肽段。本发明对OpenSWATH输出结果中多肽的碎片离子色谱所有肽段进行分类,以去除假阳性肽段,减轻人工检测的任务量。
Description
技术领域
本发明涉及蛋白质组学鉴定领域,具体涉及一种蛋白质质谱定量分析结果的筛选方法及系统。
背景技术
质谱技术广泛应用于多肽和蛋白质的鉴定和定量。数据独立采集(DIA:Dataindependent acquisition)是多肽和蛋白质鉴定和定量领域中的一种数据采集策略。SWATH是一种数据独立采集式的质谱采集模式,全称为全碎片离子顺序窗口化获取质谱(Sequential Windowed Acquisition of All Theoretical Fragment Ions,SWATH)。而OpenSWATH是一个分析SWATH-MS(MS:Mass Spectrometry)质谱数据的通用工具,首先从谱图库中提取理论色谱图,与质谱数据得到的实验谱图进行匹配,然后根据评分算法过滤肽段,去除掉错误的肽段匹配,从而得到定性和定量的分析结果。首先利用谱图库的信息,从质谱数据中提取出每个肽段对应的色谱峰,然后计算肽段子离子对应的色谱峰之间的相似性,过滤子离子相似性低的肽段,从而得到定性和定量的分析结果。然而,经OpenSWATH筛选后仍然存在假阳性肽段,导致定量结果不理想。因此,对所有肽段进行分类以过滤假阳性肽段是非常重要的。但是目前解决此分类问题的办法只有人工检测,人工检查的工作是将可视化的碎片子离子峰形图进行分类,分成阳性肽段和假阳性肽段两类,去除掉假阳性肽段,从而提高定性定量分析结果的准确性,但是即使是经过OpenSWATH筛选后的定量结果中数据量也非常庞大,再加上人力的分类是具有很强的主观性的,所以人工检测的任务量繁重且主观性过强。
分类问题是深度学习的基础问题之一,深度学习算法的很多问题都需要基于分类的特征提取再进行其他的操作。各类传统机器学习方法的分类效果,远不如深度学习。但目前的许多基于深度学习的分类方法,广泛应用于医学诊断、自然语言处理、地貌学等的处理中,在蛋白质鉴定领域还有许多分类问题需要解决。
发明内容
本发明的主要目的在于提出一种蛋白质质谱定量分析结果的筛选方法及系统,对OpenSWATH分析的鉴定结果进行分类,然后去除假阳性肽段,减轻人工检测的任务量。
本发明采用如下技术方案:
第一方面,一种蛋白质质谱定量分析结果的筛选方法,包括:
获取经过OpenSWATH筛选后的定量结果图像;
利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
优选的,所述归一化方法包括最小最大归一化方法。
优选的,所述概率的范围为大于等于0且小于等于1。
优选的,所述卷积神经网络的训练方法,包括:
构建数据集,构建包括训练集、验证集和测试集的数据集;所述训练集、验证集和测试集彼此之间没有交集;且所述训练集包括原始图像和相对应的标签图像,用来输入到所述卷积神经网络中进行训练,所述验证集和测试集只包括原始图像;所述原始图像为经过OpenSWATH筛选后的定量结果图像;所述标签图像为将定量结果图像标注为阳性肽段或假阳性肽段的图像,如果数据集中的6条强度曲线在峰值处相互吻合,则标注该肽段图像为阳性肽段图像;按照一定的比例随机选取相应数量的阳性肽段图像和假阳性肽段图像作为训练集和交叉验证集,随机选取一定数量的测试集;
增强数据,将每张图像的6个XIC的顺序随机重排4次以增加数据集;
预处理图像,利用归一化方法对数据集图像中的6个子离子的XIC曲线进行标准归一化;
训练卷积神经网络,将预处理后的图像输入卷积神经网络,训练出使损失函数最小的卷积神经网络。
优选的,所述卷积神经网络包括依次设置的卷积层、池化层、完全连接层以及各层激活函数的选择;所述卷积层包括一个或多个;所述池化层包括一个或多个;所述完全连接层包括一个或多个。
优选的,所述卷积层和所述池化层的数量相同,且所述卷积层和所述池化层交替设置。
优选的,所述卷积层的激活函数选择ReLU函数。
优选的,所述完全连接层包括相连接的第一完全连接层和第二完全连接层;所述第一完全连接层设置在所述池化层后,所述第一完全连接层的激活函数选择ReLU函数;所述第二完全连接层设置在所述第一完全连接层后,所述第二完全连接层的激活函数选择Sigmoid函数,只有一个单元也就是输出为一个值。
第二方面,一种蛋白质质谱定量分析结果的筛选系统,包括
数据获取模块,用于获取经过OpenSWATH筛选后的定量结果图像;
数据预处理模块,利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
卷积神经网络处理模块,通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
筛选模块,基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的蛋白质质谱定量分析结果的筛选方法。
与现有技术相比,本发明的有益效果如下:
本发明构建了关于包含阳性肽段和假阳性肽段的离子峰的标签数据集,并采用深度卷积神经网络对串联质谱数据(MS/MS)数据进行自动分类以输出肽段为阳性肽段的概率,最后结合双阈值方法,鉴定出假阳性肽段、阳性肽段和模糊肽段;本发明减少了人工分类的任务量,避免了人工分类主观性的影响,提高了分类的精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下列举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。
附图说明
图1为本发明实施例的蛋白质质谱定量分析结果的筛选方法的流程图;
图2为本发明实施例的标准归一化前后不同类别肽段的XIC曲线;同一张图中不同曲线代表一个母离子肽段的不同子离子的XIC曲线;A1归一化前阳性肽段的碎片子离子的XIC曲线;A2为归一化前假阳性肽段的碎片子离子的XIC曲线;B1为归一化后的阳性肽段的碎片子离子的XIC曲线;B2为归一化后假阳性肽段的碎片子离子的XIC曲线;
图3为本发明实施例的卷积神经网络模型;其中“C”表示卷积层,“M”表示最大池层,“D”表示密集层;括号内的数字表示相应层的输出大小;
图4为本发明实施例的测试集上卷积神经网络预测概率的分布直方图;纵轴表示在0.04的某个箱子大小上肽段的比例,而横轴表示肽段为阳性的预测可能性;
图5为本发明实施例的卷积神经网络分类界面的显示;
图6为本发明实施例的蛋白质质谱定量分析结果的筛选系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。
参见图1所示,本发明一种蛋白质质谱定量分析结果的筛选方法,包括:
S101,获取经过OpenSWATH筛选后的定量结果图像;
S102,利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
S103,通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
S104,基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
具体的,本实施例一种蛋白质质谱定量分析结果的筛选方法对来自SWATH-MS标准(SGS)数据集的人类数据集和来自HYE的数据集进行自动分类。所述的XIC表示提取离子流色谱。
首先,本实施例基于上述数据集构建卷积神经网络训练及测试的数据集。
构建的数据集包括:训练集、验证集和测试集,训练集、验证集和测试集彼此之间没有交集。构建数据集的具体步骤如下:
A1.收集数据:收集了来自SWATH-MS标准(SGS)数据集的人类数据集以及收集了来自HYE数据集,人类数据集是在32个固定窗口下使用AB SciexTripletTOF5600仪器采集的,HYE数据集是由TripleTOF 5600或TripleTOF 6600仪器获得的,窗口数为32或64,窗口大小固定或可变。
A2.标签:用于训练卷积神经网络的数据集由40153个肽段组成,这些肽段被分为两类:阳性肽段和假阳性肽段。如果数据集中的6条强度曲线在峰值处相互吻合,则标注该肽段为阳性肽段。相反,如果6条曲线在波峰处不一致,则标注该肽段为假阳性肽段。经人工检测,获得阳性肽段22744条,假阳性肽段17409条。
A3.随机选取15921个阳性肽段和12186个假阳性肽段作为训练集,6823个阳性肽段和5223个假阳性肽段作为交叉验证集。结果表明,训练集与交叉验证集之比为7:3。测试集包括829个阳性肽段和559个假阳性肽段。本发明的模型输入由前6个片段XIC组成,本发明将XIC的长度固定为85。图2(A1)和(A2)分别显示了最初阳性肽段和假阳性肽段的示例。
A4.数据增强:将6个XIC的顺序随机洗牌4次以增加数据。
然后,对上述构建的数据集进行预处理。
训练模型之前,利用最小最大归一化方法对6个子离子的XIC曲线进行标准归一化。这种归一化算法将XIC的强度转换到0和1之间,转换公式如下:
其中min(X)和max(X)代表每个XIC的最小值和最大值。
图2(B1)和(B2)显示了标准归一化后阳性和假阳性肽段的示例。
接下来,基于上述数据集就可以进行卷积神经网络的构建、训练和测试。
本发明模型应用卷积神经网络进行分类,卷积神经网络擅长处理多个阵列,并且可以自动学习给定数据的潜在空间相关性。设计模型结构时,本发明模型也参考了LeNet模型结构,LeNet可以克服归一化引起的XIC的变化。
具体的,本发明实施例的卷积神经网络结构如下:
输入数据大小为(1,6,85),输入格式为(channel,height,width)。一共有三个卷积层,三个池化层,两个完全连接层。Conv1层是一个卷积层,内核大小为(2,7),输出大小为(5,79),激活函数选择ReLU函数。Max pooling1是一个Max pooling层,内核大小为(2,2),输出大小为(4,78)。Conv2层是一个卷积层,内核大小为(2,3),输出大小为(3,76),激活函数选择ReLU函数。Layer Max pooling2是一个Max poling层,内核大小为(2,2),输出大小为(2,75)。Conv3层是一个卷积层,内核大小为(2,3),输出大小为(3,75),空间填充为(1,1),激活函数选择ReLU函数。Layer Max pooling3是一个Max poling层,内核大小为(2,2),输出大小为(2,74)。Dense1层是一个完全连接的层,有512个神经元,丢弃率为0.3,激活函数选择ReLU。Dense2层是一个完全连接的层,有256个神经元,丢弃率为0.3,ReLU激活。输出层是一个完全连接的层,激活函数选择Sigmoid函数,只有一个单元也就是输出为一个值。
本次网络构建的结构如图3所示,经过三个卷积层,三个池化层,两个全连接层。
需要说明的是,本发明的卷积神经网络所提出的网络层数可以是任意的数值来替换,分割难度大的任务往往采用更深的网络层数,反之亦反。同样的,本发明采用的卷积神经网络参数,例如卷积核大小、数量,学习率,丢弃概率,优化器等,都可以根据具体情况来设置合适的参数。
最后,确定双阈值,以鉴定出阳性肽段、假阳性肽段和模糊肽段。
对于卷积神经网络模型分析结果,大部分预测得分接近0或1,只有一小部分预测得分处于中间区间。通过对中间区间肽段的XIC进行检测,发现这些XIC中存在高噪声,并将这些肽定义为模糊肽段。噪声的存在降低了二值分类的精度。因此,本发明采用两层阈值分割法来区分阳性肽段、假阳性肽段和模糊肽段,模糊肽段的预测分数在中间区间。
本发明模型的输出显示了肽段X成为阳性肽段的概率P(X)。通过设置两级阈值,分别用Tlower和Tupper表示下限和上限阈值,可将具有由模型计算的概率P的原始肽段分配到以下三类中的一类:
根据分布直方图平滑曲线的拐点(参见图4所示),本发明将上阈值设置为0.92,下阈值设置为0.08。由于平滑曲线的斜率两端陡峭,中间平坦,因此两个阈值的微小变化几乎不影响中间范围内预测的模糊肽段的数量。用户可以选择某个肽段进行XIC可视化,对量化肽段进行分类,并基于所选择的阈值输出分类结果。用户可以修改两个阈值的值以获得满意的分类(图5)。
本发明采用了卷积神经网络结构,能够自主学习选择最合适的网络层数以及自动学习给定数据的潜在空间相关性并且结合了双阈值选择来筛选。因此通过本发明的方法可以大大减少繁琐的人工检测的耗时,并且达到更优秀的去除假阳性肽段的目标。一旦网络学习完成,蛋白质DIA数据鉴定工作流末端分析速度将飞速的提升。
参见图6所示,一种蛋白质质谱定量分析结果的筛选系统,包括:
数据获取模块601,用于获取经过OpenSWATH筛选后的定量结果图像;
数据预处理模块602,利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
卷积神经网络处理模块603,通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
筛选模块604,基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
一种蛋白质质谱定量分析结果的筛选系统各模块的具体实现与一种蛋白质质谱定量分析结果的筛选方法的具体实现相同,本发明实施例不做重复说明。
进一步的,本发明一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的蛋白质质谱定量分析结果的筛选方法。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种蛋白质质谱定量分析结果的筛选方法,其特征在于,包括:
获取经过OpenSWATH筛选后的定量结果图像;
利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
2.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述归一化方法包括最小最大归一化方法。
3.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述概率的范围为大于等于0且小于等于1。
4.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述卷积神经网络的训练方法,包括:
构建数据集,构建包括训练集、验证集和测试集的数据集;所述训练集、验证集和测试集彼此之间没有交集;且所述训练集包括原始图像和相对应的标签图像,用来输入到所述卷积神经网络中进行训练,所述验证集和测试集只包括原始图像;所述原始图像为经过OpenSWATH筛选后的定量结果图像;所述标签图像为将定量结果图像标注为阳性肽段或假阳性肽段的图像,如果数据集中的6条强度曲线在峰值处相互吻合,则标注该肽段图像为阳性肽段图像;按照一定的比例随机选取相应数量的阳性肽段图像和假阳性肽段图像作为训练集和交叉验证集,随机选取一定数量的测试集;
增强数据,将每张图像的6个XIC的顺序随机重排4次以增加数据集;
预处理图像,利用归一化方法对数据集图像中的6个子离子的XIC曲线进行标准归一化;
训练卷积神经网络,将预处理后的图像输入卷积神经网络,训练出使损失函数最小的卷积神经网络。
5.根据权利要求1所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述卷积神经网络包括依次设置的卷积层、池化层、完全连接层以及各层激活函数的选择;所述卷积层包括一个或多个;所述池化层包括一个或多个;所述完全连接层包括一个或多个。
6.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述卷积层和所述池化层的数量相同,且所述卷积层和所述池化层交替设置。
7.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述卷积层的激活函数选择ReLU函数。
8.根据权利要求5所述的蛋白质质谱定量分析结果的筛选方法,其特征在于,所述完全连接层包括相连接的第一完全连接层和第二完全连接层;所述第一完全连接层设置在所述池化层后,所述第一完全连接层的激活函数选择ReLU函数;所述第二完全连接层设置在所述第一完全连接层后,所述第二完全连接层的激活函数选择Sigmoid函数,只有一个单元也就是输出为一个值。
9.一种蛋白质质谱定量分析结果的筛选系统,其特征在于,包括
数据获取模块,用于获取经过OpenSWATH筛选后的定量结果图像;
数据预处理模块,利用归一化方法对定量结果图像中的6个子离子的XIC曲线进行标准归一化,将XIC的强度转换到0和1之间;
卷积神经网络处理模块,通过训练好的卷积神经网络对归一化方法的输出进行分类,输出肽段为阳性肽段的概率;
筛选模块,基于预设的双阈值进行筛选;如果所述概率小于等于第一预设阈值,则判断出对应的肽段为假阳性肽段;如果所述概率大于等于第二预设阈值,则判断出对应的肽段为阳性肽段;否则,判断出对应的肽段为模糊肽段。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424972.3A CN113284563B (zh) | 2021-04-20 | 2021-04-20 | 一种蛋白质质谱定量分析结果的筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110424972.3A CN113284563B (zh) | 2021-04-20 | 2021-04-20 | 一种蛋白质质谱定量分析结果的筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284563A true CN113284563A (zh) | 2021-08-20 |
CN113284563B CN113284563B (zh) | 2024-04-09 |
Family
ID=77276884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110424972.3A Active CN113284563B (zh) | 2021-04-20 | 2021-04-20 | 一种蛋白质质谱定量分析结果的筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284563B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113552370A (zh) * | 2021-09-23 | 2021-10-26 | 北京小蝇科技有限责任公司 | 一种毛细管免疫分型单克隆免疫球蛋白定量分析方法 |
CN114858958A (zh) * | 2022-07-05 | 2022-08-05 | 西湖欧米(杭州)生物科技有限公司 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495127A (zh) * | 2011-11-11 | 2012-06-13 | 暨南大学 | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 |
CN103870720A (zh) * | 2014-03-19 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 蛋白质信号转导子网的预测方法和装置 |
CN103884806A (zh) * | 2012-12-21 | 2014-06-25 | 中国科学院大连化学物理研究所 | 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 |
CN105956416A (zh) * | 2016-05-10 | 2016-09-21 | 湖北普罗金科技有限公司 | 一种快速自动分析原核生物蛋白质基因组学数据的方法 |
CN107328842A (zh) * | 2017-06-05 | 2017-11-07 | 华东师范大学 | 基于质谱谱图的无标蛋白质定量方法 |
CN110596262A (zh) * | 2019-08-14 | 2019-12-20 | 中国农业科学院蜜蜂研究所 | 利用液相色谱串联质谱测定蜂蜜中意蜂mrjp1蛋白含量的方法 |
CN110950774A (zh) * | 2019-11-04 | 2020-04-03 | 北京大学 | 蛋白质定量标记试剂及其制备方法与应用 |
CN111693597A (zh) * | 2020-06-12 | 2020-09-22 | 南方科技大学 | 一种高覆盖度的神经节糖苷脂鉴定方法及其应用 |
CN112415208A (zh) * | 2020-11-17 | 2021-02-26 | 北京航空航天大学 | 一种评价蛋白组学质谱数据质量的方法 |
-
2021
- 2021-04-20 CN CN202110424972.3A patent/CN113284563B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495127A (zh) * | 2011-11-11 | 2012-06-13 | 暨南大学 | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 |
CN103884806A (zh) * | 2012-12-21 | 2014-06-25 | 中国科学院大连化学物理研究所 | 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 |
CN103870720A (zh) * | 2014-03-19 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 蛋白质信号转导子网的预测方法和装置 |
CN105956416A (zh) * | 2016-05-10 | 2016-09-21 | 湖北普罗金科技有限公司 | 一种快速自动分析原核生物蛋白质基因组学数据的方法 |
CN107328842A (zh) * | 2017-06-05 | 2017-11-07 | 华东师范大学 | 基于质谱谱图的无标蛋白质定量方法 |
CN110596262A (zh) * | 2019-08-14 | 2019-12-20 | 中国农业科学院蜜蜂研究所 | 利用液相色谱串联质谱测定蜂蜜中意蜂mrjp1蛋白含量的方法 |
CN110950774A (zh) * | 2019-11-04 | 2020-04-03 | 北京大学 | 蛋白质定量标记试剂及其制备方法与应用 |
CN111693597A (zh) * | 2020-06-12 | 2020-09-22 | 南方科技大学 | 一种高覆盖度的神经节糖苷脂鉴定方法及其应用 |
CN112415208A (zh) * | 2020-11-17 | 2021-02-26 | 北京航空航天大学 | 一种评价蛋白组学质谱数据质量的方法 |
Non-Patent Citations (1)
Title |
---|
ZHENQIN WU, DANIEL SERIE, GEGE XU AND ET AL: ""PB-net:Automatic peak integration by sequential deep learning for multiple reaction monitoring"", "JOURNAL OF PROTEOMICS", vol. 223, no. 7, 15 July 2020 (2020-07-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113552370A (zh) * | 2021-09-23 | 2021-10-26 | 北京小蝇科技有限责任公司 | 一种毛细管免疫分型单克隆免疫球蛋白定量分析方法 |
CN113552370B (zh) * | 2021-09-23 | 2021-12-28 | 北京小蝇科技有限责任公司 | 一种毛细管免疫分型单克隆免疫球蛋白定量分析方法 |
CN114858958A (zh) * | 2022-07-05 | 2022-08-05 | 西湖欧米(杭州)生物科技有限公司 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
CN114858958B (zh) * | 2022-07-05 | 2022-11-01 | 西湖欧米(杭州)生物科技有限公司 | 质谱数据在质量评估中的分析方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113284563B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN106203377B (zh) | 一种煤粉尘图像识别方法 | |
CN113887459B (zh) | 一种基于改进Unet++的露天矿区采场变化区域检测方法 | |
Marchant et al. | Automated analysis of foraminifera fossil records by image classification using a convolutional neural network | |
CN113284563B (zh) | 一种蛋白质质谱定量分析结果的筛选方法及系统 | |
CN116368500A (zh) | 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质 | |
US20130301910A1 (en) | Extracting object edges from images | |
CN113569724B (zh) | 基于注意力机制和扩张卷积的道路提取方法及系统 | |
CN112580458B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN116740728B (zh) | 一种用于晶圆读码器动态获取方法和系统 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN113343755A (zh) | 红细胞图像中的红细胞分类系统及方法 | |
Ge et al. | Coarse-to-fine foraminifera image segmentation through 3D and deep features | |
CN115294377A (zh) | 一种道路裂缝的识别系统及方法 | |
CN113344933B (zh) | 一种基于多层次特征融合网络的腺体细胞分割方法 | |
CN116245855B (zh) | 作物品种鉴定方法、装置、设备及存储介质 | |
CN111191584A (zh) | 一种人脸识别方法及装置 | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
CN116758336A (zh) | 一种基于人工智能的医学图像智能分析系统 | |
CN113096079B (zh) | 图像分析系统及其构建方法 | |
CN114037868B (zh) | 图像识别模型的生成方法及装置 | |
CN113033567B (zh) | 一种融合分割网络和生成网络的甲骨拓片图像字符训练方法 | |
CN114882497A (zh) | 一种基于深度学习算法实现水果分类识别的方法 | |
Ma | DeepQuality: mass spectra quality assessment via compressed sensing and deep learning | |
CN110555342B (zh) | 一种图像识别方法、装置和图像设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |