CN117672353A

CN117672353A - 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

Info

Publication number: CN117672353A
Application number: CN202311738077.4A
Authority: CN
Inventors: 郭雪江; 李妍; 司徒成昊; 王兵
Original assignee: Nanjing Medical University
Current assignee: Nanjing Medical University
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-08

Abstract

本发明公开了一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其包括步骤：(1)构建大量已知蛋白质定位和迁移标签的合成数据集；(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征，合成数据集和真实数据集中蛋白质的关系混合图，以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘；(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入，以及标准化后的关系混合图作为邻接矩阵输入，使用半监督图卷积神经网络模型分别预测蛋白质的PSL标签和迁移标签。本发明可实现对基于质谱仪的时空蛋白质组学蛋白质亚细胞迁移的高效、准确预测。

Description

蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

技术领域

本发明涉及时空蛋白质组学、空间蛋白质组学、蛋白质亚细胞定位、蛋白质亚细胞迁移和人工智能技术领域，尤其涉及一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

背景技术

真核细胞可以被分隔成具有不同功能和形态结构的细胞器和亚细胞区域，而定位在不同亚细胞区域的蛋白质可能具有不同的功能。蛋白质在不同亚细胞区域之间的动态迁移在细胞过程中普遍存在，一些亚细胞功能失调的疾病与蛋白质的错误定位密切相关，如癌症、神经退行性疾病和阿尔茨海默病。因此，系统地识别细胞扰动后的蛋白质迁移事件对于理解它们的功能以及相关细胞过程的机制至关重要，并对于复杂疾病的早期诊断和药物疗法的发展具有重要价值。

近年来，基于质谱的时空蛋白质组学提供了一种系统且高通量的方法，以评估不同条件下的蛋白质亚细胞定位(PSL)和迁移。主要的实验流程涉及亚细胞分离和基于质谱的蛋白质定量，以捕获这些亚细胞组分中蛋白质相对占有率的动态变化。不同细胞器中的蛋白质会在不同的亚细胞分离组分中形成不同的特征定量分布模式，而通过比较蛋白质在对照组和实验组中组分的表达水平差异可用于判断蛋白质是否发生迁移。现有的蛋白质迁移鉴定的计算方法主要涉及传统的统计方法和复杂的机器学习算法。传统统计学方法如MR依赖于多元异常值检测得到蛋白质迁移分值M和蛋白质在多次重复实验中的再现性分值R来综合评价蛋白质是否发生迁移。MS方法则是通过比较蛋白质在对照组和实验组中组分之间的绝对差异来检测蛋白质是否发生迁移。MR和MS方法都需要实验不存在偏差从而得到无误差的数据集，然而不可避免的实验变化，如随机噪声，批量效应或再现性等问题导致这些模型的可解释性和鲁棒性较差。此外，MR中的阈值难以评估，而获得稳健的再现性分值R需要重复实验，这无疑增加了实验成本。基于机器学习的TRANSPIRE方法利用合成数据集和随机变分高斯过程分类器来预测蛋白质的PSL标签，进而判断蛋白质是否发生迁移。基于贝叶斯准则的BANDLE方法计算了每种蛋白质在两种条件下的差异定位概率，其原理是利用高斯过程对亚细胞中蛋白质的组分表达分布进行建模，进而使用贝叶斯推理计算出差异定位概率。虽然这些复杂的机器学习方法取得了不错的成绩，但它们过于依赖算法本身，而忽略了数据的固有属性。例如，过渡依赖高斯过程来模拟亚细胞中蛋白质的分布，忽略了有关蛋白质之间的复杂关系网络等重要信息。此外，多种可用于表征蛋白质迁移的统计学指标信息没有得到有效的利用。

基于质谱仪的时空蛋白质组学提供了一种高通量的方法来评估不同条件下的蛋白质易位。它有助于系统地识别蛋白质易位事件，这对于了解其相关细胞过程的功能和机制非常重要。然而，不可避免的实验变化引入了数据噪声和数据挖掘的不足，使得识别可靠的蛋白质迁移事件仍具有挑战性。蛋白质在不同细胞状态下的距离特征和构建蛋白质之间的关系联合图等信息未被很好挖掘。因此，基于扩展多种距离特征和蛋白质关系的联合图，并利用半监督图卷积神经网络(GCN)实现了对已知PSL蛋白质的有效知识转移，有望有效优化蛋白质的定位和迁移预测效果，为时空蛋白质组学进一步阐明蛋白质的功能调节和疾病的发生机制做出贡献。

发明内容

本发明的目的在于提供一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，实现对基于质谱仪的时空蛋白质组学蛋白质亚细胞迁移的高效、准确预测。

为实现上述目的，本发明采取的技术方案是：一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其包括以下步骤：

(1)基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据，选取有高质量已知蛋白质亚细胞定位(PSL)的蛋白质，将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质，从而构建大量已知蛋白质定位和迁移标签的合成数据集；

(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征，合成数据集和真实数据集中蛋白质的关系混合图，以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘；

(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入，以及标准化后的关系混合图作为邻接矩阵输入，使用半监督图卷积神经网络模型(GCN)分别预测蛋白质的PSL标签和迁移标签。

作为本方案的进一步优选，所述步骤(1)中，以每种亚细胞器定位的蛋白质为背景，通过z-score检验仅保留各个组分表达值都在一定置信区间的蛋白质作为高质量PSL的蛋白质；并且通过判断新合成蛋白质在实验组和对照组中的定位来标记新的PSL标签和迁移标签。

作为本方案的进一步优选，所述步骤(1)中，基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据，对于实验数据中的每个重复，通过获得蛋白质在每个组分中表达水平的占比对数据进行归一化。为了生成高质量的合成数据集，首先需要选择具有高置信度的PSL标记的蛋白质。Z-score检验可用于测试元素属于特定分布的概率被用于该过程。基于已知某种PSL标记的m个蛋白质，第i个亚细胞组分[f_i ¹,f_i ²,…,f_i ^m]可用于计算背景分布，进而计算得到第i个组分中每个蛋白质的统计概率。通过将该步骤应用于蛋白质的所有组分，可以确定它们各自的概率。只有当所有组分表达值的概率都在背景分布的95％以内时，该蛋白质才被认为具有高置信度的PSL标签。通过这种系统方法，可以为每个亚细胞器筛选具有高质量PSL标签的蛋白质。

作为本方案的进一步优选，所述步骤(1)中，使用差分匹配来合成数据集，即将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质。例如，为了生成具有迁移的合成蛋白质，如EndsomeToGolgi，可以将对照组中蛋白质A(定位在核内体中)和实验组中蛋白质B(定位在高尔基体中)合并，产生对照组定位在核内体中、实验组定位在高尔基体中的新蛋白质。基于具有高质量PSL标记的蛋白质，我们可以生成大量合成数据集，即产生具有PSL标签和迁移标签的合成蛋白质。根据迁移(如EndsomeToGolgi)或非迁移(如GolgiToGolgi)合成蛋白质，只有两种状态的迁移标签(YES或NO)将用于描述蛋白质是否迁移。

作为本方案的进一步优选，所述步骤(2)中，选择合成数据集子集(每种PSL标签筛选500个蛋白质)和真实数据集(实验数据集)生成混合图，该图以蛋白质为节点，蛋白质之间关系为边。相互最近邻(MNN)通过比较两蛋白质是否为最近邻用于构建混合图，即当蛋白质A和B互为最近邻时，则边为1，否则为0。通过MNN分别计算合成蛋白质与真实蛋白质之间的关系网络A^sr∈R^s×r以及真实蛋白质之间的关系网络A^rr∈R^r×r(其中s和r分别是合成数据集和真实数据集中的蛋白质数量)，进而合并两个网络构建合成数据集和真实数据集中蛋白质的关系混合图A∈R^(s+r)×(s+r)。

作为本方案的更进一步优选，构建的蛋白质在对照组和实验组中组分表达的距离特征，分为直接、分布和排序距离特征；假设一个蛋白质在一次实验中产生n个组分，在对照组和实验组中的组分表达向量分别为x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]，通过比较向量x和y，计算得到的直接距离包括：曼哈顿距离D₁、切比雪夫距离D₂、堪培拉距离D₃、欧几里得距离D₄、余弦距离D₅、Pearson相关系数D₆、马氏距离D₇、对数比和的绝对值D₈、对数比最大值的绝对值D₉，且计算如下：

式中cov(x,y)是x和y的协方差，σ_x和σ_y分别是x和y的标准差，Σ为对照组和实验组中蛋白质的协方差矩阵，x_i和y_i分别为对照组和实验组中的第i个组分的表达水平。

作为本方案的更进一步优选，计算得到的分布距离包括：巴氏距离D₁₀、海林格勒距离D₁₁、交叉熵D₁₂、Kullback-Leibler散度D₁₃、Jensen-Shannon散度D₁₄，且计算如下：

式中x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]分别为对照组和实验组中的组分表达向量，x_i和y_i分别为对照组和实验组中的第i个组分的表达水平。

作为本方案的更进一步优选，计算得到的排序距离包括：Wilcoxon秩和检验的p值D₁₅、Spearman秩相关系数D₁₆、肯德尔等级相关系数D₁₇、汉明距离D₁₈、排序距离之和D₁₉、最大排序距离D₂₀，且计算如下：

式中x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]分别为对照组和实验组中的组分表达向量，x_i和y_i分别为对照组和实验组中的第i个组分的表达水平。Wilcoxon(x,y)为计算Wilcoxon秩和检验p值的函数，rand(x_i)为获得x_i在x中排序的函数，rand(y_i)为获得y_i在y中排序的函数，P表示协调对的数量，Q表示不协调对的数量，T表示仅在x中出现的并列对的数量，U表示仅在y中出现的并列对的数量。

作为本方案的进一步优选，所述步骤(2)中，通过相互最近邻方法分别计算合成蛋白质与真实蛋白质之间的关系网络以及真实蛋白质之间的关系网络，进而合并这两个网络构建合成数据集和真实数据集中蛋白质的关系混合图；此外，以合成数据集划分训练集和测试集，使用随机森林预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。

作为本方案的进一步优选，所述步骤(3)中，为有效训练图卷积神经网络模型，将合成数据集和真实数据集中蛋白质的组分特征和距离特征合并后z-score标准化得到：X∈R^(s+r)×(f+d)作为输入特征矩阵，此外，混合图A修正为归一化邻接矩阵的计算如下：

其中A^*＝A+I

其中，f为组分特征数，d为距离特征数，I∈R^(s+r)×(s+r)是单位矩阵D是A^*的对角度矩阵；

同时，图卷积神经网络模型将节点的特征与归一化邻接矩阵相结合，通过卷积运算发现有价值的潜在特征信息，计算如下：

其中，X^l为特征矩阵，W^l为第l层的权重矩阵，ReLU为激活函数；

构建的半监督图卷积神经网络模型以特征矩阵X和邻接矩阵作为输入，计算如下：

其中MLP为多层感知函数，softmax为激活函数，表示预测标签的概率矩阵；

最终，构建的半监督图卷积神经网络模型有两个节点数为256-128的GCN层，再通过一层MLP并使用softmax激活函数用于预测蛋白质的PSL标签或迁移标签。

作为本方案的更进一步优选，所述步骤(3)中，为预测蛋白质的PSL标签和迁移标签，使用两个半监督图卷积神经网络模型分别进行预测；其中半监督图卷积神经网络模型联合有监督和无监督损失作为半监督损失函数；

在预测蛋白质迁移时，将合成数据集中的蛋白质迁移标签Y_S作为有监督损失Loss(S)的目标，将真实数据集中蛋白质迁移标签的期望概率E(Y_R)作为无监督损失Loss(U)的目标，使用的半监督损失函数如下：

其中，分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵，CE(p,q)为交叉熵损失函数，α为平衡Loss(S)和Loss(U)的权值设置为2；同样，为了预测蛋白质的PSL标签，通过修改目标训练出用于蛋白质PSL标签预测的半监督图卷积神经网络模型。

作为本方案的进一步优选，所述步骤(3)中，在模型实际应用时，合成数据集子集被随机分成训练集(80％)和验证集(20％)。真实数据集是无标签的，可以通过半监督GCN模型进行预测。其中半监督GCN模型都使用Adam优化器进行5000次的训练，学习率为0.001。早停法被用于防止过拟合，设置为当验证集和真实数据集上的半监督损失在500个训练周期内没有减少即停止训练。

作为本方案的进一步优选，为了评估预测蛋白质迁移标签的可靠性，通过计算错误发现率FDR来控制被预测为迁移蛋白质的置信度，根据预测的蛋白质迁移概率，将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序，其FDR计算如下：

其中N为真实数据集中标记蛋白质的总数，函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名；当控制FDR时，预测概率大于/>的蛋白质被鉴定为发生迁移；如果蛋白质的预测PSL标签在不同条件下未发生变化(如GolgiToGolgi)，则认为这些蛋白质没有发生迁移。

本发明的有益效果如下：

本发明是基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据，基于扩展多种距离特征和蛋白质关系的联合图，并利用半监督GCN模型实现了对已知PSL蛋白质的有效知识转移，进而实现对蛋白质定位和迁移的精准预测效果。应用本发明提供的方法，在多个仿真数据集和实验数据上明显提高了蛋白质定位和迁移预测的准确性和稳健性。本发明作为一个便捷、低成本的计算框架，能高效、准确地大规模实现基于质谱仪的时空蛋白质组学蛋白质亚细胞定位和迁移预测，并促进时空蛋白质组学的未来发展和应用。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施案例提供的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法的流程示意图。

图2为不同方法在实验数据集上预测PSL标签的正确率(Accuracy)、精密度(Precision)、召回率(Recall)、F1值(F1score)和马修斯相关系数(MCC)。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，为本发明提供的一种实施例：一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，包括步骤如下：

(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入，以及标准化后的关系混合图作为邻接矩阵输入，使用半监督图卷积神经网络(GCN)模型分别预测蛋白质的PSL标签和迁移标签。

本实施例的步骤(1)中，构建5个不同噪音的仿真数据集，分别产生100个迁移蛋白质。从相关发表论文中，收集了6个实验数据集，表1为基于时空蛋白质组学的仿真和实验质谱数据集信息。基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据，对于实验数据中的每个重复，通过获得蛋白质在每个组分中表达水平的占比对数据进行归一化。为了生成高质量的合成数据集，首先需要选择具有高置信度的PSL标记的蛋白质。Z-score检验可用于测试元素属于特定分布的概率被用于该过程。基于已知某种PSL标记的m个蛋白质，第i个亚细胞组分[f_i ¹,f_i ²,…,f_i ^m]可用于计算背景分布，进而计算得到第i个组分中每个蛋白质的统计概率。通过将该步骤应用于蛋白质的所有组分，可以确定它们各自的概率。只有当所有组分表达值的概率都在背景分布的95％以内时，该蛋白质才被认为具有高置信度的PSL标签。通过这种系统方法，可以为每个亚细胞器筛选具有高质量PSL标签的蛋白质。

表1

本实施例的步骤(1)中，使用了差分匹配来合成数据集，即将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质。例如，为了生成具有迁移的合成蛋白质，如EndsomeToGolgi，可以将对照组中蛋白质A(定位在核内体中)和实验组中蛋白质B(定位在高尔基体中)合并，产生对照组定位在核内体中、实验组定位在高尔基体中的新蛋白质。基于具有高质量PSL标记的蛋白质，我们可以生成大量合成数据集，即产生具有PSL标签和迁移标签的合成蛋白质。根据迁移(如EndsomeToGolgi)或非迁移(如GolgiToGolgi)合成蛋白质，只有两种状态的迁移标签(YES或NO)将用于描述蛋白质是否迁移。

本实施例的步骤(2)中，选择合成数据集子集(每种PSL标签筛选500个蛋白质)和真实数据集(实验数据集)生成混合图，该图以蛋白质为节点，蛋白质之间关系为边。相互最近邻(MNN)通过比较两蛋白质是否为最近邻用于构建混合图，即当蛋白质A和B互为最近邻时，则边为1，否则为0。通过MNN分别计算合成蛋白质与真实蛋白质之间的关系网络A^sr∈R^s ^×r以及真实蛋白质之间的关系网络A^rr∈R^r×r(其中s和r分别是合成数据集和真实数据集中的蛋白质数量)，进而合并两个网络构建合成数据集和真实数据集中蛋白质的关系混合图A∈R^(s+r)×(s+r)。

本实施例的步骤(2)中，假设一个蛋白质在一次实验中产生n个组分，在对照组和实验组中的表达向量分别为x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]。通过比较向量x和y产生20个距离特征，包括直接、分布和排序距离特征。因此，每个配对实验可以产生20个距离特征。其中计算得到9个直接距离：曼哈顿距离(D₁)、切比雪夫距离(D₂)、堪培拉距离(D₃)、欧几里得距离(D₄)、余弦距离(D₅)、Pearson相关系数(D₆)、马氏距离(D₇)、对数比和的绝对值(D₈)、对数比最大值的绝对值(D₉)计算如下：

本实施例的步骤(2)中，5个分布距离：巴氏距离(D₁₀)、海林格勒距离(D₁₁)、交叉熵(D₁₂)、Kullback-Leibler散度(D₁₃)、Jensen-Shannon散度(D₁₄)计算如下：

本实施例的步骤(2)中，6个排序距离：Wilcoxon秩和检验的p值(D₁₅)、Spearman秩相关系数(D₁₆)、肯德尔等级相关系数(D₁₇)、汉明距离(D₁₈)、排序距离之和(D₁₉)、最大排序距离(D₂₀)计算如下：

本实施例的步骤(2)中，以合成数据集划分训练集和验证集，使用随机森林(RF)预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。

本实施例的步骤(3)中，为了有效地训练GCN，我们将合成数据集和真实数据集中蛋白质的组分特征(特征数为f)和距离特征(特征数为d)合并后z-score标准化得到X∈R^(s ^+r)×(f+d)作为输入特征矩阵。此外，混合图A修正为归一化邻接矩阵的计算如下：

其中A^*＝A+I

其中I∈R^(s+r)×(s+r)是单位矩阵D是A^*的对角度矩阵。

本实施例的步骤(3)中，GCN可以将节点的特征与归一化邻接矩阵相结合，通过卷积运算发现有价值的潜在特征信息，计算如下：

其中X^l为特征矩阵，W^l为第l层的权重矩阵，ReLU为激活函数。

本实施例的步骤(3)中，构建的半监督GCN模型特征矩阵X和邻接矩阵作为输入，计算如下：

其中MLP为多层感知函数，softmax为激活函数，表示预测标签的概率矩阵。构建的半监督GCN模型有两个节点数为256-128的GCN层，再通过一层MLP并使用softmax激活函数用于预测蛋白质的PSL或迁移标签。

本实施例的步骤(3)中，为了预测蛋白质的PSL标签和迁移标签，可使用两个半监督GCN模型分别进行预测。其中半监督GCN模型联合了有监督和无监督损失作为半监督损失函数。在预测蛋白质迁移时，将合成数据集中的蛋白质迁移标签Y_S作为有监督损失Loss(S)的目标，将真实数据集中蛋白质迁移标签的期望概率E(Y_R)作为无监督损失Loss(U)的目标，使用的半监督损失函数如下：

其中，分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵。CE(p,q)为交叉熵损失函数，α为平衡Loss(S)和Loss(U)的权值设置为2。同样，为了预测蛋白质的PSL标签，可以通过修改目标训练出用于蛋白质PSL标签预测的半监督GCN模型。

本实施例的步骤(3)中，在模型实际应用时，合成数据集子集被随机分成训练集(80％)和验证集(20％)。真实数据集是无标签的，可以通过半监督GCN模型进行预测。其中半监督GCN模型都使用Adam优化器进行5000次的训练，学习率为0.001。早停法被用于防止过拟合，设置为当验证集和真实数据集上的半监督损失在500个训练周期内没有减少即停止训练。

本实施例的步骤(3)中，为了评估预测蛋白质迁移标签的可靠性，计算错误发现率(FDR)来控制被预测为迁移蛋白质的置信度。根据预测的蛋白质迁移概率，将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序，其FDR计算如下：

其中N为真实数据集中标记蛋白质的总数，函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名。当控制FDR时，预测概率大于/>的蛋白质被鉴定为发生迁移。此外，如果蛋白质的预测PSL标签在不同条件下未发生变化(如GolgiToGolgi)，则认为这些蛋白质没有发生迁移。

为了评估本在预测蛋白质迁移和定位方面的性能，我们应用了几种最先进的蛋白定位或迁移位鉴定方法进行比较，包括MR2016、MR2017、MS、TRANSPIRE、BANDLE(Dirichlet)和BANDLE(Pólya-Gamma)。以包含100个蛋白质迁移的仿真时空蛋白质组学数据集作为基准数据集之一。此外，由实验数据集生成的合成数据集子集被随机分为训练集(60％)、验证数据集(20％)和测试数据集(20％)(测试集被作为真实数据集)作为另一个基准数据集。表2为不同方法在仿真数据上预测蛋白质迁移的是精确度-召回率曲线下面积AUPR性能指标；表3为不同方法在实验数据上预测蛋白质迁移的受试者工作特征曲线下面积AUC性能指标。通过大量不同的仿真和实验的时空蛋白质组学质谱数据集，如图2、表2和表3所示，证明了本方法在预测蛋白质亚细胞定位和迁移的准确性和稳健性方面优于其它最先进的方法，特别是在处理具有批次效应干扰的数据集时。

表2

表3

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解，上述实施例不以任何形式限制本发明的保护范围，凡采用等同替换等方式所获得的技术方案，均落于本发明的保护范围内。本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，包括以下步骤：

(1)基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据，选取有高质量已知蛋白质亚细胞定位的蛋白质，将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质，从而构建大量已知蛋白质定位和迁移标签的合成数据集；

(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入，以及标准化后的关系混合图作为邻接矩阵输入，使用半监督图卷积神经网络模型分别预测蛋白质的PSL标签和迁移标签。

2.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(1)中，以每种亚细胞器定位的蛋白质为背景，通过z-score检验仅保留各个组分表达值都在一定置信区间的蛋白质作为高质量PSL的蛋白质；并且通过判断新合成蛋白质在实验组和对照组中的定位来标记新的PSL标签和迁移标签。

3.根据权利要求1或2所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(1)中，选择具有高置信度的PSL标记的蛋白质：通过Z-score检验测试元素属于特定分布的概率，基于已知某种PSL标记的m个蛋白质，第i个亚细胞组分[f_i ¹,f_i ²,…,f_i ^m]来计算背景分布，进而计算得到第i个组分中每个蛋白质的统计概率；通过将该步骤应用于蛋白质的所有组分，可以确定它们各自的概率，当所有组分表达值的概率都在背景分布的95％以内时，将该蛋白质认为具有高置信度的PSL标签。

4.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(2)中，构建的蛋白质在对照组和实验组中组分表达的距离特征，分为直接、分布和排序距离特征；假设一个蛋白质在一次实验中产生n个组分，在对照组和实验组中的组分表达向量分别为x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]，通过比较向量x和y，计算得到的直接距离包括：曼哈顿距离D₁、切比雪夫距离D₂、堪培拉距离D₃、欧几里得距离D₄、余弦距离D₅、Pearson相关系数D₆、马氏距离D₇、对数比和的绝对值D₈、对数比最大值的绝对值D₉，且计算如下：

5.根据权利要求4所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，计算得到的分布距离包括：巴氏距离D₁₀、海林格勒距离D₁₁、交叉熵D₁₂、Kullback-Leibler散度D₁₃、Jensen-Shannon散度D₁₄，且计算如下：

6.根据权利要求4所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，计算得到的排序距离包括：Wilcoxon秩和检验的p值D₁₅、Spearman秩相关系数D₁₆、肯德尔等级相关系数D₁₇、汉明距离D₁₈、排序距离之和D₁₉、最大排序距离D₂₀，且计算如下：

式中x＝[x₁,x₂,...,x_n]和y＝[y₁,y₂,...,y_n]分别为对照组和实验组中的组分表达向量，x_i和y_i分别为对照组和实验组中的第i个组分的表达水平；Wilcoxon(x,y)为计算Wilcoxon秩和检验p值的函数，rand(x_i)为获得x_i在x中排序的函数，rand(y_i)为获得y_i在y中排序的函数，P表示协调对的数量，Q表示不协调对的数量，T表示仅在x中出现的并列对的数量，U表示仅在y中出现的并列对的数量。

7.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(2)中，通过相互最近邻方法分别计算合成蛋白质与真实蛋白质之间的关系网络以及真实蛋白质之间的关系网络，进而合并这两个网络构建合成数据集和真实数据集中蛋白质的关系混合图；此外，以合成数据集划分训练集和测试集，使用随机森林预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。

8.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(3)中，为有效训练图卷积神经网络模型，将合成数据集和真实数据集中蛋白质的组分特征和距离特征合并后z-score标准化得到：X∈R^(s+r)×(f+d)作为输入特征矩阵，此外，混合图A修正为归一化邻接矩阵的计算如下：

其中A^*＝A+I

其中/>

其中MLP(X^l)＝X^lW^l,/>

9.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法，其特征在于，所述步骤(3)中，为预测蛋白质的PSL标签和迁移标签，使用两个半监督图卷积神经网络模型分别进行预测；其中半监督图卷积神经网络模型联合有监督和无监督损失作为半监督损失函数；

其中，和/>分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵，CE(p,q)为交叉熵损失函数，α为平衡Loss(S)和Loss(U)的权值设置为2；同样，为了预测蛋白质的PSL标签，通过修改目标训练出用于蛋白质PSL标签预测的半监督图卷积神经网络模型；

此外，通过计算错误发现率FDR来控制被预测为迁移蛋白质的置信度，根据预测的蛋白质迁移概率，将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序，其FDR计算如下：

其中N为真实数据集中标记蛋白质的总数，函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名；当控制FDR时，预测概率大于/>的蛋白质被鉴定为发生迁移；如果蛋白质的预测PSL标签在不同条件下未发生变化，则认为这些蛋白质没有发生迁移。