CN115064207B - 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 - Google Patents

蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 Download PDF

Info

Publication number
CN115064207B
CN115064207B CN202210757754.6A CN202210757754A CN115064207B CN 115064207 B CN115064207 B CN 115064207B CN 202210757754 A CN202210757754 A CN 202210757754A CN 115064207 B CN115064207 B CN 115064207B
Authority
CN
China
Prior art keywords
protein
subcellular localization
subcellular
localization
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210757754.6A
Other languages
English (en)
Other versions
CN115064207A (zh
Inventor
郭雪江
李妍
司徒成昊
王兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Medical University
Original Assignee
Nanjing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Medical University filed Critical Nanjing Medical University
Priority to CN202210757754.6A priority Critical patent/CN115064207B/zh
Publication of CN115064207A publication Critical patent/CN115064207A/zh
Application granted granted Critical
Publication of CN115064207B publication Critical patent/CN115064207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,该方法包括:基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹来构建特征图谱;利用卷积神经网络的提取蛋白质特征图谱的深度图特征;利用卷积注意力机制模块对深度图特征进行自适应特征优化;进而使用深度神经网络来预测蛋白质亚细胞定位;使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。本发明能高效、准确地实现蛋白质亚细胞定位预测,并促进空间蛋白质组学的未来发展和应用。

Description

蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
技术领域
本发明涉及空间蛋白质组学、蛋白质亚细胞定位和人工智能技术领域,尤其涉及一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法。
背景技术
在真核细胞中,蛋白质会被分布到不同的亚细胞区隔,从而在不同的生物学条件下执行不同的功能。蛋白质亚细胞定位(Protein Subcellular Localization,PSL)的研究是了解蛋白质功能和调控机制的一个基本步骤,而蛋白质的错误亚细胞定位能导致蛋白质功能障碍甚至疾病的发生。通过单个蛋白质的荧光法测定PSL虽然可靠,但不适合于数千个蛋白质的亚细胞定位研究。因此,稳健、高效的PSL预测方法在生物学和医学研究中发挥着至关重要的作用。
近年来,基于质谱仪的空间蛋白质组学技术的发展提供了一种高通量的方法来评估蛋白质亚细胞定位,它可以对受控条件下特定细胞中众多蛋白质的亚细胞分离组分的水平进行定量。基于质谱仪的空间蛋白质组学方法,如hyperLOPIT和LOPIT-DC可以帮助精确量化数千种蛋白质在不同亚细胞分离组分的分布。这些涉及的亚细胞分离方法,如差速离心或密度梯度分离等,尽管无法完全纯化特定的细胞器,但是可通过超速离心等分离方法对多个细胞器进行分离,不同的细胞器会在不同的亚细胞分离组分中形成不同的特征定量分布模式,通过分析细胞器的亚细胞分离组分特征定量分布模式能预测蛋白质的亚细胞定位。所以,通过基于质谱仪定量不同亚细胞分离组分的空间蛋白质组学方法,利用经典蛋白质的已知细胞器定位信息作为先验知识,使用机器学习和模式识别等方法解析蛋白质在不同亚细胞分离组分中的特征定量分布模式,能预测未知蛋白质的亚细胞定位。
基于空间蛋白质组质谱数据中蛋白质在不同亚细胞分离组分的特征定量分布模式,多种传统的无监督聚类和监督聚类方法被用于进行PSL分析。Groen等人使用监督K-最近邻(K-NearestNeighbor,KNN)分类器识别跨高尔基网络PSL。Geladaki等人使用带有径向基函数的加权支持向量机(Support Vector Machine,SVM)对人骨肉瘤U-2OS细胞中进行PSL预测。Crook等人提出了一种基于高斯混合模型的贝叶斯生成分类器(T-AugmentedGaussian Mixture,TAGM),通过分配蛋白质在各细胞器的表达量来计算蛋白质在各细胞器的定位概率。但TAGM模型是以蛋白质在不同亚细胞分离组分的特征定量分布模式为基础,对空间蛋白质组学定量数据的质量有着严格的要求,其鲁棒性较差。
基于质谱仪的空间蛋白质组学技术为蛋白质的亚细胞定位的预测和研究提供了有效的方法,但目前相应的PSL预测模型大多数基于传统的机器学习算法,相对简单。而蛋白质在不同亚细胞分离组分之间的变化轨迹没有被很好地融合到预测模型中,这表明PSL预测的准确性仍有很大的提升空间。因此,充分利用蛋白质在不同亚细胞分离组分的变化轨迹,结合先进的深度学习模型,有望有效优化PSL预测模型,促进空间蛋白质组学研究,为后续进一步阐明蛋白质的功能调节和疾病的发生机制做出贡献。
发明内容
本发明的目的在于提供一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,实现对基于质谱仪的空间蛋白质组学蛋白质亚细胞定位的高效、准确预测。
为实现上述目的,本发明采取的技术方案是:一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其包括以下步骤:
(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱;
(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征;
(3)利用卷积注意力机制模块对深度图特征进行自适应特征优化;
(4)以自适应优化特征为输入,使用深度神经网络来预测蛋白质亚细胞定位;
(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;
(6)控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。
作为本方案的进一步优选,所述步骤(1)中,首先对每次重复实验中各蛋白质各组分表达水平进行归一化,再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹,从而构建特征图谱;给定一个蛋白质p,存在f个组分n次重复实验,则通过差分矩阵构建的特征图谱xp如下:
Figure GDA0004253511240000021
其中:
Figure GDA0004253511240000022
和/>
Figure GDA0004253511240000023
是蛋白质p第i个和第j个组分表达水平,e是超参数为1e-6,用于零值校正,tanh函数被用来约束xp的范围,特征图谱xp的范围为[-1,1],当i<j时,则关注各组分之间表达水平的减数变化;i=j时,则关注各组分表达水平与平均水平的变异情况;当i>j时,则关注各组分之间表达水平的倍数变化。
作为本方案的进一步优选,所述步骤(2)中,以特征图谱xp为输入,使用卷积神经网络提取蛋白质特征图谱的深度图特征,其过程如下:
Figure GDA0004253511240000031
其中:Conv为卷积函数,BatchNorm为批量归一化函数,ReLU为整流线性函数,MaxPool为最大池化函数,xp依次经过卷积层-池化层-卷积层得到深度图特征
Figure GDA0004253511240000032
作为本方案的进一步优选,所述步骤(3)中,使用卷积注意力机制模块CBAM有选择性地关注深度图特征中重要的子集并忽略不相关的信息,从而进行自适应特征优化。
作为本方案的更进一步优选,所述卷积注意力机制模块CBAM包含的通道注意力机制CA和空间注意力机制SA函数分别如下:
Figure GDA0004253511240000033
其中:AvgPool为平均池化函数,MLP为多层感知机函数,Sigmoid为激活函数,CBAM通过CA和SA依次处理
Figure GDA0004253511240000034
得到自适应优化特征/>
Figure GDA0004253511240000035
操作如下:
Figure GDA0004253511240000036
其中:
Figure GDA0004253511240000037
表示元素相乘,/>
Figure GDA0004253511240000038
是由通道注意力机制提取的通道优化特征。
作为本方案的进一步优选,所述步骤(4)中,基于自适应优化特征展开作为输入,使用深度神经网络来预测蛋白质亚细胞定位,操作如下:
Figure GDA0004253511240000039
其中:Flatten为展开函数,Dense为稠密网络,Dropout为丢失层,Softmax为激活函数;自适应优化特征
Figure GDA00042535112400000310
首先被展开,再依次通过三层深度神经网络,输出蛋白质在各亚细胞中定位的预测概率y'p
作为本方案的进一步优选,所述步骤(4)中,输出层使用焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响,并最小化训练误差,其定义lossFL如下:
Figure GDA0004253511240000041
Figure GDA0004253511240000042
其中:n是蛋白质的数量,m是亚细胞定位标签的数量,bincount(yt)是训练集中真实定位于亚细胞标签t中的蛋白质个数,蛋白质p的亚细胞定位的真实标签为t,对应的蛋白质亚细胞定位预测概率为
Figure GDA0004253511240000043
αt用于缓解蛋白质亚细胞定位标签不平衡效应的权重,当少数蛋白质定位在亚细胞定位标签t时,则会产生更大的αt和lossFL,γ是设置为2的调节因子,使得容易预测亚细胞定位的蛋白质有更小的lossFL
作为本方案的进一步优选,所述步骤(5)中,为了训练和测试本方法,每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱,使用步骤(2)-(4)构建的网络框架,利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证,对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。
作为本方案的更进一步优选,训练时使用Adam优化器对模型进行100次的训练,学习率设置为0.001,小批量样本mini-batch批大小设置为64。
作为本方案的进一步优选,所述步骤(6)中,基于已知亚细胞定位的蛋白质的交叉验证预测结果,计算具有参考性的蛋白质亚细胞定位错误发现率FDR,其定义如下:
Figure GDA0004253511240000044
其中:TPc和FPc分别表示蛋白质亚细胞定位预测概率大于c时的真阳性和假阳性的数量;为了保证单调性,从下到上的第二次遍历将经验FDR改变为迄今为止观察到的最小FDR,从而得到最终的FDR估计;基于交叉验证获得FDR对应的蛋白质亚细胞定位预测概率作为阈值,来控制未知蛋白质亚细胞定位的错误发现率,从而获得可信度高的蛋白质亚细胞定位预测结果。
本发明的有益效果如下:
本发明是基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱,将常规的蛋白质亚细胞分离组分特征定量分布模式信息丰富为图片形式的信息特征图谱。应用本发明提供的方法,在独立测试集的蛋白质亚细胞定位预测和未知的蛋白质亚细胞定位预测的准确性和稳健性方面取得了明显的改善。本发明作为一个便捷、低成本的计算框架,能高效、准确地大规模实现基于质谱仪的空间蛋白质组学蛋白质亚细胞定位预测,并促进空间蛋白质组学的未来发展和应用。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例提供的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法的流程示意图。
图2为E14TG2aR数据集中各亚细胞器中蛋白质亚细胞分离组分特征定量信息。(A)为不同亚细胞分离组分中的蛋白质水平分布图,黑线代表不同亚细胞分离组分中的蛋白质水平的中位数;(B)为基于蛋白质水平中位数的差分矩阵的特征图。
图3为本发明无注意力(WithoutAttention)和有注意力(WithAttention)模块在五个数据集中的性能比较。使用(A)5倍交叉验证和(B)独立测试集对本方法无注意力(WithoutAttention)和有注意力(WithAttention)模块进行性能评估。
图4为本发明与其它蛋白质亚细胞定位模型的性能比较。具体为KNN、SVM、MAP、MCMC和本方法在五个数据集的独立测试中100次重复预测结果:(A)调和平均值(F1-Score)、(B)准确率(Accuracy)、(C)精准率(Precision)和(D)召回率(Recall)。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,为本发明提供的一种实施例:一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,包括
步骤(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱;
步骤(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征;
步骤(3)利用卷积注意力机制模块对深度图特征进行自适应特征优化;
步骤(4)以自适应优化特征为输入,使用深度神经网络来预测蛋白质亚细胞定位;
步骤(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;
步骤(6)控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。
本实施例的步骤(1)中,从相关发表论文中,收集了四个公共数据集,表1为基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据采集信息。基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,首先对每次重复实验中各蛋白质各组分表达水平进行归一化,再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹,从而构建特征图谱。给定一个蛋白质p,存在f个组分n次重复实验,则通过差分矩阵构建的特征图谱xp如下:
Figure GDA0004253511240000061
其中:
Figure GDA0004253511240000062
和/>
Figure GDA0004253511240000063
是蛋白质p第i个和第j个组分表达水平,e是超参数为1e-6,用于零值校正,tanh函数被用来约束xp的范围。特征图谱xp的范围为[-1,1],当i<j时,则关注各组分之间表达水平的减数变化;i=j时,则关注各组分表达水平与平均水平的变异情况;当i>j时,则关注各组分之间表达水平的倍数变化。例如,在E14TG2aR数据集中,如图2中A所示,40S核糖体和60S核糖体中蛋白质亚细胞分离组分的特征定量分布模式十分相似,细胞膜和蛋白酶体中蛋白质组分之间分布也十分相似,这使得的PSL预测变得困难。而如图2中B所示,本发明构建利用差分矩阵方法构建的特征图谱使通过捕捉亚细胞分离组分之间的减法和倍数变化来发掘不同细胞器中蛋白质的分布差异,从而为本发明中的深度学习模型挖掘蛋白质特征图谱的深度图特征奠定基础。
表1
Figure GDA0004253511240000064
本实施例的步骤(2)中,以特征图谱xp为输入,使用卷积神经网络提取蛋白质特征图谱的深度图特征,其过程如下:
Figure GDA0004253511240000065
其中:Conv为卷积函数,BatchNorm为批量归一化函数,ReLU为整流线性函数,MaxPool为最大池化函数。xp依次经过卷积层-池化层-卷积层得到深度图特征
Figure GDA0004253511240000066
xp被卷积(Conv)层转化为/>
Figure GDA0004253511240000067
该层有16个3×3卷积核。/>
Figure GDA0004253511240000068
由2×2大小的池化层转化为/>
Figure GDA0004253511240000069
再由带有32个3×3卷积核的卷积层转化为/>
Figure GDA00042535112400000610
本实施例的步骤(3)中,使用了卷积注意力机制模块(CBAM)有选择性地关注深度图特征中重要的子集并忽略不相关的信息,从进行自适应特征优化。CBAM包含的通道注意力机制(CA)和空间注意力机制(SA)函数分别如下:
Figure GDA0004253511240000071
其中:AvgPool为平均池化函数,MLP为多层感知机函数,Sigmoid为激活函数。CBAM通过CA和SA依次处理
Figure GDA0004253511240000072
得到自适应优化特征/>
Figure GDA0004253511240000073
操作如下:
Figure GDA0004253511240000074
其中:
Figure GDA0004253511240000075
表示元素相乘,/>
Figure GDA0004253511240000076
是由通道注意力机制提取的通道优化特征。CA中使用下降比为2的MLP层,而SA使用3×3卷积核大小的卷积层。
本实施例的步骤(4)中,基于自适应优化特征展开作为输入,使用深度神经网络来预测蛋白质亚细胞定位,操作如下:
Figure GDA0004253511240000077
其中:Flatten为展开函数,Dense为稠密网络,Dropout为丢失层,Softmax为激活函数。自适应优化特征
Figure GDA0004253511240000078
首先被展开,再依次通过三层深度神经网络,输出蛋白质在各亚细胞中定位的预测概率y'p。前两层的神经元个数分别为512和256,且使用丢失率为0.3的Dropout层,用于防止过拟合。输出层神经元个数则为预测亚细胞标签个数。
同时在步骤(4)中,输出层使用了焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响,并最小化训练误差,其定义lossFL如下:
Figure GDA0004253511240000079
Figure GDA00042535112400000710
其中:n是蛋白质的数量,m是亚细胞定位标签的数量,bincount(yt)是训练集中真实定位于亚细胞标签t中的蛋白质个数。蛋白质p的亚细胞定位的真实标签为t,对应的蛋白质亚细胞定位预测概率为
Figure GDA00042535112400000711
αt用于缓解蛋白质亚细胞定位标签不平衡效应的权重,当少数蛋白质定位在亚细胞定位标签t时,则会产生更大的αt和lossFL。γ是设置为2的调节因子,使得容易预测亚细胞定位的蛋白质有更小的lossFL
本实施例的步骤(5)中,为了训练和测试本方法,每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱。本方法使用步骤(2)-(4)构建的网络框架,利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证,对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。其中训练时使用Adam优化器对模型进行100次的训练,学习率设置为0.001,小批量样本(mini-batch)批大小设置为64。
本实施例的步骤(6)中,基于已知亚细胞定位的蛋白质的交叉验证预测结果,计算具有参考性的蛋白质亚细胞定位错误发现率(FDR),其定义如下:
Figure GDA0004253511240000081
其中:TPc和FPc分别表示蛋白质亚细胞定位预测概率大于c时的真阳性和假阳性的数量。为了保证单调性,从下到上的第二次遍历将经验FDR改变为迄今为止观察到的最小FDR,从而得到最终的FDR估计。基于交叉验证获得FDR对应的蛋白质亚细胞定位预测概率作为阈值,来控制未知蛋白质亚细胞定位的错误发现率,从而获得可信度高的蛋白质亚细胞定位预测结果。
为了评估注意力机制模块在本发明中的效果,已知亚细胞定位的蛋白质被划分为训练集用于交叉验证和独立测试集,由图3可知,当本发明在结合了注意机制模块来预测PSL时,效果均优于不含注意力机制的模型。本发明与KNN、SVM、采用最大后验参数估计(MAP)的TAGM,以及采用马尔科夫链蒙特卡洛参数估计(MCMC)的TAGM相比较,由图4可知,在划分的独立测试集的一百次重复实验结果表明,本发明的PSL预测性能明显优于现有方法。
此外,在nikolovski2014数据集中应用本发明预测未知亚细胞定位的蛋白质定位时,如表2所示,本发明预测的排名前10个蛋白质的PSL均有文献证明,表明本发明可以高准确地预测未知亚细胞定位的蛋白质的定位。
表2
Figure GDA0004253511240000082
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (8)

1.一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于包括以下步骤:
(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱;具体为:
首先对每次重复实验中各蛋白质各组分表达水平进行归一化,再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹,从而构建特征图谱;给定一个蛋白质p,存在f个组分n次重复实验,则通过差分矩阵构建的特征图谱xp如下:
Figure FDA0004253511220000011
其中:fi p和fj p是蛋白质p第i个和第j个组分表达水平,e是超参数为1e-6,用于零值校正,tanh函数被用来约束xp的范围,特征图谱xp的范围为[-1,1],当i<j时,则关注各组分之间表达水平的减数变化;i=j时,则关注各组分表达水平与平均水平的变异情况;当i>j时,则关注各组分之间表达水平的倍数变化;
(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征;
(3)利用卷积注意力机制模块CBAM对深度图特征进行自适应特征优化;
(4)以自适应优化特征为输入,使用深度神经网络来预测蛋白质亚细胞定位;
(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;
(6)控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。
2.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(2)中,以特征图谱xp为输入,使用卷积神经网络提取蛋白质特征图谱的深度图特征,其过程如下:
Figure FDA0004253511220000012
其中:Conv为卷积函数,BatchNorm为批量归一化函数,ReLU为整流线性函数,MaxPool为最大池化函数,xp依次经过卷积层-池化层-卷积层得到深度图特征O3 p
3.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述卷积注意力机制模块包含的通道注意力机制CA和空间注意力机制SA函数分别如下:
Figure FDA0004253511220000021
其中:AvgPool为平均池化函数,MLP为多层感知机函数,Sigmoid为激活函数,CBAM通过CA和SA依次处理O3 p,得到自适应优化特征O4 p,操作如下:
Figure FDA0004253511220000022
其中:
Figure FDA0004253511220000023
表示元素相乘,OF p是由通道注意力机制提取的通道优化特征。
4.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(4)中,基于自适应优化特征展开作为输入,使用深度神经网络来预测蛋白质亚细胞定位,操作如下:
Figure FDA0004253511220000024
其中:Flatten为展开函数,Dense为稠密网络,Dropout为丢失层,Softmax为激活函数;自适应优化特征O4 p首先被展开,再依次通过三层深度神经网络,输出蛋白质在各亚细胞中定位的预测概率y'p
5.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(4)中,输出层使用焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响,并最小化训练误差,其定义lossFL如下:
Figure FDA0004253511220000025
Where
Figure FDA0004253511220000026
其中:n是蛋白质的数量,m是亚细胞定位标签的数量,bincount(yt)是训练集中真实定位于亚细胞标签t中的蛋白质个数,蛋白质p的亚细胞定位的真实标签为t,对应的蛋白质亚细胞定位预测概率为
Figure FDA0004253511220000027
αt用于缓解蛋白质亚细胞定位标签不平衡效应的权重,当少数蛋白质定位在亚细胞定位标签t时,则会产生更大的αt和lossFL,γ是设置为2的调节因子,使得容易预测亚细胞定位的蛋白质有更小的lossFL
6.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(5)中,为了训练和测试本方法,每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱,使用步骤(2)-(4)构建的网络框架,利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证,对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。
7.根据权利要求6所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,训练时使用Adam优化器对模型进行100次的训练,学习率设置为0.001,小批量样本mini-batch批大小设置为64。
8.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(6)中,基于已知亚细胞定位的蛋白质的交叉验证预测结果,计算具有参考性的蛋白质亚细胞定位错误发现率FDR,其定义如下:
Figure FDA0004253511220000031
其中:TPc和FPc分别表示蛋白质亚细胞定位预测概率大于c时的真阳性和假阳性的数量;为了保证单调性,从下到上的第二次遍历将经验FDR改变为迄今为止观察到的最小FDR,从而得到最终的FDR估计;基于交叉验证获得FDR对应的蛋白质亚细胞定位预测概率作为阈值,来控制未知蛋白质亚细胞定位的错误发现率,从而获得可信度高的蛋白质亚细胞定位预测结果。
CN202210757754.6A 2022-06-30 2022-06-30 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 Active CN115064207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210757754.6A CN115064207B (zh) 2022-06-30 2022-06-30 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210757754.6A CN115064207B (zh) 2022-06-30 2022-06-30 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Publications (2)

Publication Number Publication Date
CN115064207A CN115064207A (zh) 2022-09-16
CN115064207B true CN115064207B (zh) 2023-06-30

Family

ID=83205157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210757754.6A Active CN115064207B (zh) 2022-06-30 2022-06-30 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Country Status (1)

Country Link
CN (1) CN115064207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672353A (zh) * 2023-12-18 2024-03-08 南京医科大学 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1608203A (zh) * 2001-10-26 2005-04-20 植物药学公司 用于定量分析并评估植物样品性质的矩阵法
CN105651853A (zh) * 2016-01-21 2016-06-08 江南大学 一种亚细胞结构的特征性n-连接糖链及其应用
CN113888636A (zh) * 2021-09-29 2022-01-04 山东大学 基于多尺度深度特征的蛋白质亚细胞定位方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529204B (zh) * 2016-10-18 2019-05-07 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
CN111796095A (zh) * 2019-04-09 2020-10-20 苏州扇贝生物科技有限公司 一种蛋白质组质谱数据处理方法及装置
CN111781292B (zh) * 2020-07-15 2022-06-21 四川大学华西医院 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统
CN112201300B (zh) * 2020-10-23 2022-05-13 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112767997B (zh) * 2021-02-04 2023-04-25 齐鲁工业大学 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN114639444B (zh) * 2022-03-31 2022-12-27 南京医科大学 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1608203A (zh) * 2001-10-26 2005-04-20 植物药学公司 用于定量分析并评估植物样品性质的矩阵法
CN105651853A (zh) * 2016-01-21 2016-06-08 江南大学 一种亚细胞结构的特征性n-连接糖链及其应用
CN113888636A (zh) * 2021-09-29 2022-01-04 山东大学 基于多尺度深度特征的蛋白质亚细胞定位方法

Also Published As

Publication number Publication date
CN115064207A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
Kim et al. Deep learning with support vector data description
Deng et al. On-line pattern analysis by evolving self-organizing maps
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
JP2022551683A (ja) 人工知能(ai)モデルを使用した非侵襲的遺伝子検査を行う方法及びシステム
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
CN115064207B (zh) 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN113688787A (zh) 花生叶片病害识别方法
Sun et al. Optimized light-weight convolutional neural networks for histopathologic cancer detection
CN111091916A (zh) 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN115130651A (zh) 一种记忆环路多层异构机制启发的脉冲神经网络
You et al. ShiftAddNAS: Hardware-inspired search for more accurate and efficient neural networks
Silpa et al. Designing of augmented breast cancer data using enhanced firefly algorithm
Dinesh et al. Reliable evaluation of neural network for multiclass classification of real-world data
Thulare et al. An empirical analysis and application of the expectation-maximization and matrix completion algorithms for varying degrees of missing data
CN115661498A (zh) 一种自优化单细胞聚类方法
Termritthikun et al. Neural architecture search and multi-objective evolutionary algorithms for anomaly detection
Abhilasa et al. Classification of agricultural leaf images using hybrid combination of activation functions
CN112489012A (zh) 一种用于ct图像识别的神经网络架构方法
Al Mazroa et al. Improved Bald Eagle Search Optimization With Deep Learning-Based Cervical Cancer Detection and Classification
Chen Brain Tumor Prediction with LSTM Method
CN117197095B (zh) 基于半监督生成对抗分割模型的表面缺陷检测方法和系统
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Sharma et al. Perceiving abstract concepts via evolving computational cognitive modeling
Doždor et al. Facial Age Estimation Models for Embedded Systems: A Comparative Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant