CN115064207B

CN115064207B - 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Info

Publication number: CN115064207B
Application number: CN202210757754.6A
Authority: CN
Inventors: 郭雪江; 李妍; 司徒成昊; 王兵
Original assignee: Nanjing Medical University
Current assignee: Nanjing Medical University
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-06-30
Anticipated expiration: 2042-06-30
Also published as: CN115064207A

Abstract

本发明公开了一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，该方法包括：基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹来构建特征图谱；利用卷积神经网络的提取蛋白质特征图谱的深度图特征；利用卷积注意力机制模块对深度图特征进行自适应特征优化；进而使用深度神经网络来预测蛋白质亚细胞定位；使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证，对未知亚细胞定位的蛋白质进行预测；控制蛋白质亚细胞定位的错误发现率，获得高可信度的蛋白质亚细胞定位预测结果。本发明能高效、准确地实现蛋白质亚细胞定位预测，并促进空间蛋白质组学的未来发展和应用。

Description

蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

技术领域

本发明涉及空间蛋白质组学、蛋白质亚细胞定位和人工智能技术领域，尤其涉及一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法。

背景技术

在真核细胞中，蛋白质会被分布到不同的亚细胞区隔，从而在不同的生物学条件下执行不同的功能。蛋白质亚细胞定位(Protein Subcellular Localization，PSL)的研究是了解蛋白质功能和调控机制的一个基本步骤，而蛋白质的错误亚细胞定位能导致蛋白质功能障碍甚至疾病的发生。通过单个蛋白质的荧光法测定PSL虽然可靠，但不适合于数千个蛋白质的亚细胞定位研究。因此，稳健、高效的PSL预测方法在生物学和医学研究中发挥着至关重要的作用。

近年来，基于质谱仪的空间蛋白质组学技术的发展提供了一种高通量的方法来评估蛋白质亚细胞定位，它可以对受控条件下特定细胞中众多蛋白质的亚细胞分离组分的水平进行定量。基于质谱仪的空间蛋白质组学方法，如hyperLOPIT和LOPIT-DC可以帮助精确量化数千种蛋白质在不同亚细胞分离组分的分布。这些涉及的亚细胞分离方法，如差速离心或密度梯度分离等，尽管无法完全纯化特定的细胞器，但是可通过超速离心等分离方法对多个细胞器进行分离，不同的细胞器会在不同的亚细胞分离组分中形成不同的特征定量分布模式，通过分析细胞器的亚细胞分离组分特征定量分布模式能预测蛋白质的亚细胞定位。所以，通过基于质谱仪定量不同亚细胞分离组分的空间蛋白质组学方法，利用经典蛋白质的已知细胞器定位信息作为先验知识，使用机器学习和模式识别等方法解析蛋白质在不同亚细胞分离组分中的特征定量分布模式，能预测未知蛋白质的亚细胞定位。

基于空间蛋白质组质谱数据中蛋白质在不同亚细胞分离组分的特征定量分布模式，多种传统的无监督聚类和监督聚类方法被用于进行PSL分析。Groen等人使用监督K-最近邻(K-NearestNeighbor，KNN)分类器识别跨高尔基网络PSL。Geladaki等人使用带有径向基函数的加权支持向量机(Support Vector Machine，SVM)对人骨肉瘤U-2OS细胞中进行PSL预测。Crook等人提出了一种基于高斯混合模型的贝叶斯生成分类器(T-AugmentedGaussian Mixture，TAGM)，通过分配蛋白质在各细胞器的表达量来计算蛋白质在各细胞器的定位概率。但TAGM模型是以蛋白质在不同亚细胞分离组分的特征定量分布模式为基础，对空间蛋白质组学定量数据的质量有着严格的要求，其鲁棒性较差。

基于质谱仪的空间蛋白质组学技术为蛋白质的亚细胞定位的预测和研究提供了有效的方法，但目前相应的PSL预测模型大多数基于传统的机器学习算法，相对简单。而蛋白质在不同亚细胞分离组分之间的变化轨迹没有被很好地融合到预测模型中，这表明PSL预测的准确性仍有很大的提升空间。因此，充分利用蛋白质在不同亚细胞分离组分的变化轨迹，结合先进的深度学习模型，有望有效优化PSL预测模型，促进空间蛋白质组学研究，为后续进一步阐明蛋白质的功能调节和疾病的发生机制做出贡献。

发明内容

本发明的目的在于提供一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，实现对基于质谱仪的空间蛋白质组学蛋白质亚细胞定位的高效、准确预测。

为实现上述目的，本发明采取的技术方案是：一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其包括以下步骤：

(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹，从而构建特征图谱；

(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征；

(3)利用卷积注意力机制模块对深度图特征进行自适应特征优化；

(4)以自适应优化特征为输入，使用深度神经网络来预测蛋白质亚细胞定位；

(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证，对未知亚细胞定位的蛋白质进行预测；

(6)控制蛋白质亚细胞定位的错误发现率，获得高可信度的蛋白质亚细胞定位预测结果。

作为本方案的进一步优选，所述步骤(1)中，首先对每次重复实验中各蛋白质各组分表达水平进行归一化，再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹，从而构建特征图谱；给定一个蛋白质p，存在f个组分n次重复实验，则通过差分矩阵构建的特征图谱x^p如下：

其中：

和/>

是蛋白质p第i个和第j个组分表达水平，e是超参数为1e-6，用于零值校正，tanh函数被用来约束x^p的范围，特征图谱x^p的范围为[-1,1]，当i<j时，则关注各组分之间表达水平的减数变化；i＝j时，则关注各组分表达水平与平均水平的变异情况；当i>j时，则关注各组分之间表达水平的倍数变化。

作为本方案的进一步优选，所述步骤(2)中，以特征图谱x^p为输入，使用卷积神经网络提取蛋白质特征图谱的深度图特征，其过程如下：

其中：Conv为卷积函数，BatchNorm为批量归一化函数，ReLU为整流线性函数，MaxPool为最大池化函数，x^p依次经过卷积层-池化层-卷积层得到深度图特征

作为本方案的进一步优选，所述步骤(3)中，使用卷积注意力机制模块CBAM有选择性地关注深度图特征中重要的子集并忽略不相关的信息，从而进行自适应特征优化。

作为本方案的更进一步优选，所述卷积注意力机制模块CBAM包含的通道注意力机制CA和空间注意力机制SA函数分别如下：

其中：AvgPool为平均池化函数，MLP为多层感知机函数，Sigmoid为激活函数，CBAM通过CA和SA依次处理

得到自适应优化特征/>

操作如下：

其中：

表示元素相乘，/>

是由通道注意力机制提取的通道优化特征。

作为本方案的进一步优选，所述步骤(4)中，基于自适应优化特征展开作为输入，使用深度神经网络来预测蛋白质亚细胞定位，操作如下：

其中：Flatten为展开函数，Dense为稠密网络，Dropout为丢失层，Softmax为激活函数；自适应优化特征

首先被展开，再依次通过三层深度神经网络，输出蛋白质在各亚细胞中定位的预测概率y'^p。

作为本方案的进一步优选，所述步骤(4)中，输出层使用焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响，并最小化训练误差，其定义loss_FL如下：

其中：n是蛋白质的数量，m是亚细胞定位标签的数量，bincount(y_t)是训练集中真实定位于亚细胞标签t中的蛋白质个数，蛋白质p的亚细胞定位的真实标签为t，对应的蛋白质亚细胞定位预测概率为

α_t用于缓解蛋白质亚细胞定位标签不平衡效应的权重，当少数蛋白质定位在亚细胞定位标签t时，则会产生更大的α_t和loss_FL，γ是设置为2的调节因子，使得容易预测亚细胞定位的蛋白质有更小的loss_FL。

作为本方案的进一步优选，所述步骤(5)中，为了训练和测试本方法，每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱，使用步骤(2)-(4)构建的网络框架，利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证，对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。

作为本方案的更进一步优选，训练时使用Adam优化器对模型进行100次的训练，学习率设置为0.001，小批量样本mini-batch批大小设置为64。

作为本方案的进一步优选，所述步骤(6)中，基于已知亚细胞定位的蛋白质的交叉验证预测结果，计算具有参考性的蛋白质亚细胞定位错误发现率FDR，其定义如下：

其中：TP_c和FP_c分别表示蛋白质亚细胞定位预测概率大于c时的真阳性和假阳性的数量；为了保证单调性，从下到上的第二次遍历将经验FDR改变为迄今为止观察到的最小FDR，从而得到最终的FDR估计；基于交叉验证获得FDR对应的蛋白质亚细胞定位预测概率作为阈值，来控制未知蛋白质亚细胞定位的错误发现率，从而获得可信度高的蛋白质亚细胞定位预测结果。

本发明的有益效果如下：

本发明是基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹，从而构建特征图谱，将常规的蛋白质亚细胞分离组分特征定量分布模式信息丰富为图片形式的信息特征图谱。应用本发明提供的方法，在独立测试集的蛋白质亚细胞定位预测和未知的蛋白质亚细胞定位预测的准确性和稳健性方面取得了明显的改善。本发明作为一个便捷、低成本的计算框架，能高效、准确地大规模实现基于质谱仪的空间蛋白质组学蛋白质亚细胞定位预测，并促进空间蛋白质组学的未来发展和应用。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例提供的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法的流程示意图。

图2为E14TG2aR数据集中各亚细胞器中蛋白质亚细胞分离组分特征定量信息。(A)为不同亚细胞分离组分中的蛋白质水平分布图，黑线代表不同亚细胞分离组分中的蛋白质水平的中位数；(B)为基于蛋白质水平中位数的差分矩阵的特征图。

图3为本发明无注意力(WithoutAttention)和有注意力(WithAttention)模块在五个数据集中的性能比较。使用(A)5倍交叉验证和(B)独立测试集对本方法无注意力(WithoutAttention)和有注意力(WithAttention)模块进行性能评估。

图4为本发明与其它蛋白质亚细胞定位模型的性能比较。具体为KNN、SVM、MAP、MCMC和本方法在五个数据集的独立测试中100次重复预测结果：(A)调和平均值(F1-Score)、(B)准确率(Accuracy)、(C)精准率(Precision)和(D)召回率(Recall)。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，为本发明提供的一种实施例：一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，包括

步骤(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹，从而构建特征图谱；

步骤(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征；

步骤(3)利用卷积注意力机制模块对深度图特征进行自适应特征优化；

步骤(4)以自适应优化特征为输入，使用深度神经网络来预测蛋白质亚细胞定位；

步骤(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证，对未知亚细胞定位的蛋白质进行预测；

步骤(6)控制蛋白质亚细胞定位的错误发现率，获得高可信度的蛋白质亚细胞定位预测结果。

本实施例的步骤(1)中，从相关发表论文中，收集了四个公共数据集，表1为基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据采集信息。基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，首先对每次重复实验中各蛋白质各组分表达水平进行归一化，再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹，从而构建特征图谱。给定一个蛋白质p，存在f个组分n次重复实验，则通过差分矩阵构建的特征图谱x^p如下：

其中：

和/>

是蛋白质p第i个和第j个组分表达水平，e是超参数为1e-6，用于零值校正，tanh函数被用来约束x^p的范围。特征图谱x^p的范围为[-1,1]，当i<j时，则关注各组分之间表达水平的减数变化；i＝j时，则关注各组分表达水平与平均水平的变异情况；当i>j时，则关注各组分之间表达水平的倍数变化。例如，在E14TG2aR数据集中，如图2中A所示，40S核糖体和60S核糖体中蛋白质亚细胞分离组分的特征定量分布模式十分相似，细胞膜和蛋白酶体中蛋白质组分之间分布也十分相似，这使得的PSL预测变得困难。而如图2中B所示，本发明构建利用差分矩阵方法构建的特征图谱使通过捕捉亚细胞分离组分之间的减法和倍数变化来发掘不同细胞器中蛋白质的分布差异，从而为本发明中的深度学习模型挖掘蛋白质特征图谱的深度图特征奠定基础。

表1

本实施例的步骤(2)中，以特征图谱x^p为输入，使用卷积神经网络提取蛋白质特征图谱的深度图特征，其过程如下：

其中：Conv为卷积函数，BatchNorm为批量归一化函数，ReLU为整流线性函数，MaxPool为最大池化函数。x^p依次经过卷积层-池化层-卷积层得到深度图特征

x^p被卷积(Conv)层转化为/>

该层有16个3×3卷积核。/>

由2×2大小的池化层转化为/>

再由带有32个3×3卷积核的卷积层转化为/>

本实施例的步骤(3)中，使用了卷积注意力机制模块(CBAM)有选择性地关注深度图特征中重要的子集并忽略不相关的信息，从进行自适应特征优化。CBAM包含的通道注意力机制(CA)和空间注意力机制(SA)函数分别如下：

其中：AvgPool为平均池化函数，MLP为多层感知机函数，Sigmoid为激活函数。CBAM通过CA和SA依次处理

得到自适应优化特征/>

操作如下：

其中：

表示元素相乘，/>

是由通道注意力机制提取的通道优化特征。CA中使用下降比为2的MLP层，而SA使用3×3卷积核大小的卷积层。

本实施例的步骤(4)中，基于自适应优化特征展开作为输入，使用深度神经网络来预测蛋白质亚细胞定位，操作如下：

其中：Flatten为展开函数，Dense为稠密网络，Dropout为丢失层，Softmax为激活函数。自适应优化特征

首先被展开，再依次通过三层深度神经网络，输出蛋白质在各亚细胞中定位的预测概率y'^p。前两层的神经元个数分别为512和256，且使用丢失率为0.3的Dropout层，用于防止过拟合。输出层神经元个数则为预测亚细胞标签个数。

同时在步骤(4)中，输出层使用了焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响，并最小化训练误差，其定义loss_FL如下：

其中：n是蛋白质的数量，m是亚细胞定位标签的数量，bincount(y_t)是训练集中真实定位于亚细胞标签t中的蛋白质个数。蛋白质p的亚细胞定位的真实标签为t，对应的蛋白质亚细胞定位预测概率为

α_t用于缓解蛋白质亚细胞定位标签不平衡效应的权重，当少数蛋白质定位在亚细胞定位标签t时，则会产生更大的α_t和loss_FL。γ是设置为2的调节因子，使得容易预测亚细胞定位的蛋白质有更小的loss_FL。

本实施例的步骤(5)中，为了训练和测试本方法，每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱。本方法使用步骤(2)-(4)构建的网络框架，利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证，对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。其中训练时使用Adam优化器对模型进行100次的训练，学习率设置为0.001，小批量样本(mini-batch)批大小设置为64。

本实施例的步骤(6)中，基于已知亚细胞定位的蛋白质的交叉验证预测结果，计算具有参考性的蛋白质亚细胞定位错误发现率(FDR),其定义如下：

其中：TP_c和FP_c分别表示蛋白质亚细胞定位预测概率大于c时的真阳性和假阳性的数量。为了保证单调性，从下到上的第二次遍历将经验FDR改变为迄今为止观察到的最小FDR，从而得到最终的FDR估计。基于交叉验证获得FDR对应的蛋白质亚细胞定位预测概率作为阈值，来控制未知蛋白质亚细胞定位的错误发现率，从而获得可信度高的蛋白质亚细胞定位预测结果。

为了评估注意力机制模块在本发明中的效果，已知亚细胞定位的蛋白质被划分为训练集用于交叉验证和独立测试集，由图3可知，当本发明在结合了注意机制模块来预测PSL时，效果均优于不含注意力机制的模型。本发明与KNN、SVM、采用最大后验参数估计(MAP)的TAGM，以及采用马尔科夫链蒙特卡洛参数估计(MCMC)的TAGM相比较，由图4可知，在划分的独立测试集的一百次重复实验结果表明，本发明的PSL预测性能明显优于现有方法。

此外，在nikolovski2014数据集中应用本发明预测未知亚细胞定位的蛋白质定位时，如表2所示，本发明预测的排名前10个蛋白质的PSL均有文献证明，表明本发明可以高准确地预测未知亚细胞定位的蛋白质的定位。

表2

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解，上述实施例不以任何形式限制本发明的保护范围，凡采用等同替换等方式所获得的技术方案，均落于本发明的保护范围内。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于包括以下步骤：

(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据，使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹，从而构建特征图谱；具体为：

首先对每次重复实验中各蛋白质各组分表达水平进行归一化，再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹，从而构建特征图谱；给定一个蛋白质p，存在f个组分n次重复实验，则通过差分矩阵构建的特征图谱x^p如下：

其中：f_i ^p和f_j ^p是蛋白质p第i个和第j个组分表达水平，e是超参数为1e-6，用于零值校正，tanh函数被用来约束x^p的范围，特征图谱x^p的范围为[-1,1]，当i<j时，则关注各组分之间表达水平的减数变化；i＝j时，则关注各组分表达水平与平均水平的变异情况；当i>j时，则关注各组分之间表达水平的倍数变化；

(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征；

(3)利用卷积注意力机制模块CBAM对深度图特征进行自适应特征优化；

2.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述步骤(2)中，以特征图谱x^p为输入，使用卷积神经网络提取蛋白质特征图谱的深度图特征，其过程如下：

其中：Conv为卷积函数，BatchNorm为批量归一化函数，ReLU为整流线性函数，MaxPool为最大池化函数，x^p依次经过卷积层-池化层-卷积层得到深度图特征O₃ ^p。

3.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述卷积注意力机制模块包含的通道注意力机制CA和空间注意力机制SA函数分别如下：

其中：AvgPool为平均池化函数，MLP为多层感知机函数，Sigmoid为激活函数，CBAM通过CA和SA依次处理O₃ ^p，得到自适应优化特征O₄ ^p，操作如下：

其中：

表示元素相乘，O_F ^p是由通道注意力机制提取的通道优化特征。

4.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述步骤(4)中，基于自适应优化特征展开作为输入，使用深度神经网络来预测蛋白质亚细胞定位，操作如下：

其中：Flatten为展开函数，Dense为稠密网络，Dropout为丢失层，Softmax为激活函数；自适应优化特征O₄ ^p首先被展开，再依次通过三层深度神经网络，输出蛋白质在各亚细胞中定位的预测概率y'^p。

5.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述步骤(4)中，输出层使用焦点损失函数来缓解样本不平衡和某些蛋白质难以预测的定位带来的影响，并最小化训练误差，其定义loss_FL如下：

Where

6.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述步骤(5)中，为了训练和测试本方法，每个蛋白质在不同亚细胞分离组分中的表达水平被构建成特征图谱，使用步骤(2)-(4)构建的网络框架，利用已知亚细胞定位标签的蛋白质作为训练集用于五折交叉验证，对于未知蛋白质亚细胞定位的预测概率则由五个模型预测的平均概率值表示。

7.根据权利要求6所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，训练时使用Adam优化器对模型进行100次的训练，学习率设置为0.001，小批量样本mini-batch批大小设置为64。

8.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法，其特征在于，所述步骤(6)中，基于已知亚细胞定位的蛋白质的交叉验证预测结果，计算具有参考性的蛋白质亚细胞定位错误发现率FDR，其定义如下：