CN117672353A - 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 - Google Patents
蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 Download PDFInfo
- Publication number
- CN117672353A CN117672353A CN202311738077.4A CN202311738077A CN117672353A CN 117672353 A CN117672353 A CN 117672353A CN 202311738077 A CN202311738077 A CN 202311738077A CN 117672353 A CN117672353 A CN 117672353A
- Authority
- CN
- China
- Prior art keywords
- protein
- proteins
- migration
- distance
- psl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 233
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 233
- 238000013508 migration Methods 0.000 title claims abstract description 87
- 230000005012 migration Effects 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 230000014509 gene expression Effects 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 238000007418 data mining Methods 0.000 claims abstract description 5
- 230000026447 protein localization Effects 0.000 claims abstract description 5
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 34
- 230000004960 subcellular localization Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 239000013604 expression vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 6
- 108010026552 Proteome Proteins 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 5
- 238000001604 Rao's score test Methods 0.000 claims description 4
- 238000001819 mass spectrum Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 210000001768 subcellular fraction Anatomy 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims 1
- 238000004949 mass spectrometry Methods 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000001163 endosome Anatomy 0.000 description 4
- 210000003463 organelle Anatomy 0.000 description 4
- 230000033077 cellular process Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 108010042653 IgA receptor Proteins 0.000 description 2
- 102100034014 Prolyl 3-hydroxylase 3 Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010856 establishment of protein localization Effects 0.000 description 2
- 230000007398 protein translocation Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其包括步骤:(1)构建大量已知蛋白质定位和迁移标签的合成数据集;(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征,合成数据集和真实数据集中蛋白质的关系混合图,以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘;(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入,以及标准化后的关系混合图作为邻接矩阵输入,使用半监督图卷积神经网络模型分别预测蛋白质的PSL标签和迁移标签。本发明可实现对基于质谱仪的时空蛋白质组学蛋白质亚细胞迁移的高效、准确预测。
Description
技术领域
本发明涉及时空蛋白质组学、空间蛋白质组学、蛋白质亚细胞定位、蛋白质亚细胞迁移和人工智能技术领域,尤其涉及一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法
背景技术
真核细胞可以被分隔成具有不同功能和形态结构的细胞器和亚细胞区域,而定位在不同亚细胞区域的蛋白质可能具有不同的功能。蛋白质在不同亚细胞区域之间的动态迁移在细胞过程中普遍存在,一些亚细胞功能失调的疾病与蛋白质的错误定位密切相关,如癌症、神经退行性疾病和阿尔茨海默病。因此,系统地识别细胞扰动后的蛋白质迁移事件对于理解它们的功能以及相关细胞过程的机制至关重要,并对于复杂疾病的早期诊断和药物疗法的发展具有重要价值。
近年来,基于质谱的时空蛋白质组学提供了一种系统且高通量的方法,以评估不同条件下的蛋白质亚细胞定位(PSL)和迁移。主要的实验流程涉及亚细胞分离和基于质谱的蛋白质定量,以捕获这些亚细胞组分中蛋白质相对占有率的动态变化。不同细胞器中的蛋白质会在不同的亚细胞分离组分中形成不同的特征定量分布模式,而通过比较蛋白质在对照组和实验组中组分的表达水平差异可用于判断蛋白质是否发生迁移。现有的蛋白质迁移鉴定的计算方法主要涉及传统的统计方法和复杂的机器学习算法。传统统计学方法如MR依赖于多元异常值检测得到蛋白质迁移分值M和蛋白质在多次重复实验中的再现性分值R来综合评价蛋白质是否发生迁移。MS方法则是通过比较蛋白质在对照组和实验组中组分之间的绝对差异来检测蛋白质是否发生迁移。MR和MS方法都需要实验不存在偏差从而得到无误差的数据集,然而不可避免的实验变化,如随机噪声,批量效应或再现性等问题导致这些模型的可解释性和鲁棒性较差。此外,MR中的阈值难以评估,而获得稳健的再现性分值R需要重复实验,这无疑增加了实验成本。基于机器学习的TRANSPIRE方法利用合成数据集和随机变分高斯过程分类器来预测蛋白质的PSL标签,进而判断蛋白质是否发生迁移。基于贝叶斯准则的BANDLE方法计算了每种蛋白质在两种条件下的差异定位概率,其原理是利用高斯过程对亚细胞中蛋白质的组分表达分布进行建模,进而使用贝叶斯推理计算出差异定位概率。虽然这些复杂的机器学习方法取得了不错的成绩,但它们过于依赖算法本身,而忽略了数据的固有属性。例如,过渡依赖高斯过程来模拟亚细胞中蛋白质的分布,忽略了有关蛋白质之间的复杂关系网络等重要信息。此外,多种可用于表征蛋白质迁移的统计学指标信息没有得到有效的利用。
基于质谱仪的时空蛋白质组学提供了一种高通量的方法来评估不同条件下的蛋白质易位。它有助于系统地识别蛋白质易位事件,这对于了解其相关细胞过程的功能和机制非常重要。然而,不可避免的实验变化引入了数据噪声和数据挖掘的不足,使得识别可靠的蛋白质迁移事件仍具有挑战性。蛋白质在不同细胞状态下的距离特征和构建蛋白质之间的关系联合图等信息未被很好挖掘。因此,基于扩展多种距离特征和蛋白质关系的联合图,并利用半监督图卷积神经网络(GCN)实现了对已知PSL蛋白质的有效知识转移,有望有效优化蛋白质的定位和迁移预测效果,为时空蛋白质组学进一步阐明蛋白质的功能调节和疾病的发生机制做出贡献。
发明内容
本发明的目的在于提供一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,实现对基于质谱仪的时空蛋白质组学蛋白质亚细胞迁移的高效、准确预测。
为实现上述目的,本发明采取的技术方案是:一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其包括以下步骤:
(1)基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,选取有高质量已知蛋白质亚细胞定位(PSL)的蛋白质,将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质,从而构建大量已知蛋白质定位和迁移标签的合成数据集;
(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征,合成数据集和真实数据集中蛋白质的关系混合图,以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘;
(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入,以及标准化后的关系混合图作为邻接矩阵输入,使用半监督图卷积神经网络模型(GCN)分别预测蛋白质的PSL标签和迁移标签。
作为本方案的进一步优选,所述步骤(1)中,以每种亚细胞器定位的蛋白质为背景,通过z-score检验仅保留各个组分表达值都在一定置信区间的蛋白质作为高质量PSL的蛋白质;并且通过判断新合成蛋白质在实验组和对照组中的定位来标记新的PSL标签和迁移标签。
作为本方案的进一步优选,所述步骤(1)中,基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,对于实验数据中的每个重复,通过获得蛋白质在每个组分中表达水平的占比对数据进行归一化。为了生成高质量的合成数据集,首先需要选择具有高置信度的PSL标记的蛋白质。Z-score检验可用于测试元素属于特定分布的概率被用于该过程。基于已知某种PSL标记的m个蛋白质,第i个亚细胞组分[fi 1,fi 2,…,fi m]可用于计算背景分布,进而计算得到第i个组分中每个蛋白质的统计概率。通过将该步骤应用于蛋白质的所有组分,可以确定它们各自的概率。只有当所有组分表达值的概率都在背景分布的95%以内时,该蛋白质才被认为具有高置信度的PSL标签。通过这种系统方法,可以为每个亚细胞器筛选具有高质量PSL标签的蛋白质。
作为本方案的进一步优选,所述步骤(1)中,使用差分匹配来合成数据集,即将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质。例如,为了生成具有迁移的合成蛋白质,如EndsomeToGolgi,可以将对照组中蛋白质A(定位在核内体中)和实验组中蛋白质B(定位在高尔基体中)合并,产生对照组定位在核内体中、实验组定位在高尔基体中的新蛋白质。基于具有高质量PSL标记的蛋白质,我们可以生成大量合成数据集,即产生具有PSL标签和迁移标签的合成蛋白质。根据迁移(如EndsomeToGolgi)或非迁移(如GolgiToGolgi)合成蛋白质,只有两种状态的迁移标签(YES或NO)将用于描述蛋白质是否迁移。
作为本方案的进一步优选,所述步骤(2)中,选择合成数据集子集(每种PSL标签筛选500个蛋白质)和真实数据集(实验数据集)生成混合图,该图以蛋白质为节点,蛋白质之间关系为边。相互最近邻(MNN)通过比较两蛋白质是否为最近邻用于构建混合图,即当蛋白质A和B互为最近邻时,则边为1,否则为0。通过MNN分别计算合成蛋白质与真实蛋白质之间的关系网络Asr∈Rs×r以及真实蛋白质之间的关系网络Arr∈Rr×r(其中s和r分别是合成数据集和真实数据集中的蛋白质数量),进而合并两个网络构建合成数据集和真实数据集中蛋白质的关系混合图A∈R(s+r)×(s+r)。
作为本方案的更进一步优选,构建的蛋白质在对照组和实验组中组分表达的距离特征,分为直接、分布和排序距离特征;假设一个蛋白质在一次实验中产生n个组分,在对照组和实验组中的组分表达向量分别为x=[x1,x2,...,xn]和y=[y1,y2,...,yn],通过比较向量x和y,计算得到的直接距离包括:曼哈顿距离D1、切比雪夫距离D2、堪培拉距离D3、欧几里得距离D4、余弦距离D5、Pearson相关系数D6、马氏距离D7、对数比和的绝对值D8、对数比最大值的绝对值D9,且计算如下:
式中cov(x,y)是x和y的协方差,σx和σy分别是x和y的标准差,Σ为对照组和实验组中蛋白质的协方差矩阵,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
作为本方案的更进一步优选,计算得到的分布距离包括:巴氏距离D10、海林格勒距离D11、交叉熵D12、Kullback-Leibler散度D13、Jensen-Shannon散度D14,且计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
作为本方案的更进一步优选,计算得到的排序距离包括:Wilcoxon秩和检验的p值D15、Spearman秩相关系数D16、肯德尔等级相关系数D17、汉明距离D18、排序距离之和D19、最大排序距离D20,且计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平。Wilcoxon(x,y)为计算Wilcoxon秩和检验p值的函数,rand(xi)为获得xi在x中排序的函数,rand(yi)为获得yi在y中排序的函数,P表示协调对的数量,Q表示不协调对的数量,T表示仅在x中出现的并列对的数量,U表示仅在y中出现的并列对的数量。
作为本方案的进一步优选,所述步骤(2)中,通过相互最近邻方法分别计算合成蛋白质与真实蛋白质之间的关系网络以及真实蛋白质之间的关系网络,进而合并这两个网络构建合成数据集和真实数据集中蛋白质的关系混合图;此外,以合成数据集划分训练集和测试集,使用随机森林预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。
作为本方案的进一步优选,所述步骤(3)中,为有效训练图卷积神经网络模型,将合成数据集和真实数据集中蛋白质的组分特征和距离特征合并后z-score标准化得到:X∈R(s+r)×(f+d)作为输入特征矩阵,此外,混合图A修正为归一化邻接矩阵的计算如下:
其中A*=A+I
其中,f为组分特征数,d为距离特征数,I∈R(s+r)×(s+r)是单位矩阵D是A*的对角度矩阵;
同时,图卷积神经网络模型将节点的特征与归一化邻接矩阵相结合,通过卷积运算发现有价值的潜在特征信息,计算如下:
其中,Xl为特征矩阵,Wl为第l层的权重矩阵,ReLU为激活函数;
构建的半监督图卷积神经网络模型以特征矩阵X和邻接矩阵作为输入,计算如下:
其中MLP为多层感知函数,softmax为激活函数,表示预测标签的概率矩阵;
最终,构建的半监督图卷积神经网络模型有两个节点数为256-128的GCN层,再通过一层MLP并使用softmax激活函数用于预测蛋白质的PSL标签或迁移标签。
作为本方案的更进一步优选,所述步骤(3)中,为预测蛋白质的PSL标签和迁移标签,使用两个半监督图卷积神经网络模型分别进行预测;其中半监督图卷积神经网络模型联合有监督和无监督损失作为半监督损失函数;
在预测蛋白质迁移时,将合成数据集中的蛋白质迁移标签YS作为有监督损失Loss(S)的目标,将真实数据集中蛋白质迁移标签的期望概率E(YR)作为无监督损失Loss(U)的目标,使用的半监督损失函数如下:
其中,分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵,CE(p,q)为交叉熵损失函数,α为平衡Loss(S)和Loss(U)的权值设置为2;同样,为了预测蛋白质的PSL标签,通过修改目标训练出用于蛋白质PSL标签预测的半监督图卷积神经网络模型。
作为本方案的进一步优选,所述步骤(3)中,在模型实际应用时,合成数据集子集被随机分成训练集(80%)和验证集(20%)。真实数据集是无标签的,可以通过半监督GCN模型进行预测。其中半监督GCN模型都使用Adam优化器进行5000次的训练,学习率为0.001。早停法被用于防止过拟合,设置为当验证集和真实数据集上的半监督损失在500个训练周期内没有减少即停止训练。
作为本方案的进一步优选,为了评估预测蛋白质迁移标签的可靠性,通过计算错误发现率FDR来控制被预测为迁移蛋白质的置信度,根据预测的蛋白质迁移概率,将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序,其FDR计算如下:
其中N为真实数据集中标记蛋白质的总数,函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名;当控制FDR时,预测概率大于/>的蛋白质被鉴定为发生迁移;如果蛋白质的预测PSL标签在不同条件下未发生变化(如GolgiToGolgi),则认为这些蛋白质没有发生迁移。
本发明的有益效果如下:
本发明是基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,基于扩展多种距离特征和蛋白质关系的联合图,并利用半监督GCN模型实现了对已知PSL蛋白质的有效知识转移,进而实现对蛋白质定位和迁移的精准预测效果。应用本发明提供的方法,在多个仿真数据集和实验数据上明显提高了蛋白质定位和迁移预测的准确性和稳健性。本发明作为一个便捷、低成本的计算框架,能高效、准确地大规模实现基于质谱仪的时空蛋白质组学蛋白质亚细胞定位和迁移预测,并促进时空蛋白质组学的未来发展和应用。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施案例提供的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法的流程示意图。
图2为不同方法在实验数据集上预测PSL标签的正确率(Accuracy)、精密度(Precision)、召回率(Recall)、F1值(F1score)和马修斯相关系数(MCC)。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,为本发明提供的一种实施例:一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,包括步骤如下:
(1)基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,选取有高质量已知蛋白质亚细胞定位(PSL)的蛋白质,将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质,从而构建大量已知蛋白质定位和迁移标签的合成数据集;
(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征,合成数据集和真实数据集中蛋白质的关系混合图,以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘;
(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入,以及标准化后的关系混合图作为邻接矩阵输入,使用半监督图卷积神经网络(GCN)模型分别预测蛋白质的PSL标签和迁移标签。
本实施例的步骤(1)中,构建5个不同噪音的仿真数据集,分别产生100个迁移蛋白质。从相关发表论文中,收集了6个实验数据集,表1为基于时空蛋白质组学的仿真和实验质谱数据集信息。基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,对于实验数据中的每个重复,通过获得蛋白质在每个组分中表达水平的占比对数据进行归一化。为了生成高质量的合成数据集,首先需要选择具有高置信度的PSL标记的蛋白质。Z-score检验可用于测试元素属于特定分布的概率被用于该过程。基于已知某种PSL标记的m个蛋白质,第i个亚细胞组分[fi 1,fi 2,…,fi m]可用于计算背景分布,进而计算得到第i个组分中每个蛋白质的统计概率。通过将该步骤应用于蛋白质的所有组分,可以确定它们各自的概率。只有当所有组分表达值的概率都在背景分布的95%以内时,该蛋白质才被认为具有高置信度的PSL标签。通过这种系统方法,可以为每个亚细胞器筛选具有高质量PSL标签的蛋白质。
表1
本实施例的步骤(1)中,使用了差分匹配来合成数据集,即将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质。例如,为了生成具有迁移的合成蛋白质,如EndsomeToGolgi,可以将对照组中蛋白质A(定位在核内体中)和实验组中蛋白质B(定位在高尔基体中)合并,产生对照组定位在核内体中、实验组定位在高尔基体中的新蛋白质。基于具有高质量PSL标记的蛋白质,我们可以生成大量合成数据集,即产生具有PSL标签和迁移标签的合成蛋白质。根据迁移(如EndsomeToGolgi)或非迁移(如GolgiToGolgi)合成蛋白质,只有两种状态的迁移标签(YES或NO)将用于描述蛋白质是否迁移。
本实施例的步骤(2)中,选择合成数据集子集(每种PSL标签筛选500个蛋白质)和真实数据集(实验数据集)生成混合图,该图以蛋白质为节点,蛋白质之间关系为边。相互最近邻(MNN)通过比较两蛋白质是否为最近邻用于构建混合图,即当蛋白质A和B互为最近邻时,则边为1,否则为0。通过MNN分别计算合成蛋白质与真实蛋白质之间的关系网络Asr∈Rs ×r以及真实蛋白质之间的关系网络Arr∈Rr×r(其中s和r分别是合成数据集和真实数据集中的蛋白质数量),进而合并两个网络构建合成数据集和真实数据集中蛋白质的关系混合图A∈R(s+r)×(s+r)。
本实施例的步骤(2)中,假设一个蛋白质在一次实验中产生n个组分,在对照组和实验组中的表达向量分别为x=[x1,x2,...,xn]和y=[y1,y2,...,yn]。通过比较向量x和y产生20个距离特征,包括直接、分布和排序距离特征。因此,每个配对实验可以产生20个距离特征。其中计算得到9个直接距离:曼哈顿距离(D1)、切比雪夫距离(D2)、堪培拉距离(D3)、欧几里得距离(D4)、余弦距离(D5)、Pearson相关系数(D6)、马氏距离(D7)、对数比和的绝对值(D8)、对数比最大值的绝对值(D9)计算如下:
式中cov(x,y)是x和y的协方差,σx和σy分别是x和y的标准差,Σ为对照组和实验组中蛋白质的协方差矩阵,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
本实施例的步骤(2)中,5个分布距离:巴氏距离(D10)、海林格勒距离(D11)、交叉熵(D12)、Kullback-Leibler散度(D13)、Jensen-Shannon散度(D14)计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
本实施例的步骤(2)中,6个排序距离:Wilcoxon秩和检验的p值(D15)、Spearman秩相关系数(D16)、肯德尔等级相关系数(D17)、汉明距离(D18)、排序距离之和(D19)、最大排序距离(D20)计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平。Wilcoxon(x,y)为计算Wilcoxon秩和检验p值的函数,rand(xi)为获得xi在x中排序的函数,rand(yi)为获得yi在y中排序的函数,P表示协调对的数量,Q表示不协调对的数量,T表示仅在x中出现的并列对的数量,U表示仅在y中出现的并列对的数量。
本实施例的步骤(2)中,以合成数据集划分训练集和验证集,使用随机森林(RF)预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。
本实施例的步骤(3)中,为了有效地训练GCN,我们将合成数据集和真实数据集中蛋白质的组分特征(特征数为f)和距离特征(特征数为d)合并后z-score标准化得到X∈R(s +r)×(f+d)作为输入特征矩阵。此外,混合图A修正为归一化邻接矩阵的计算如下:
其中A*=A+I
其中I∈R(s+r)×(s+r)是单位矩阵D是A*的对角度矩阵。
本实施例的步骤(3)中,GCN可以将节点的特征与归一化邻接矩阵相结合,通过卷积运算发现有价值的潜在特征信息,计算如下:
其中Xl为特征矩阵,Wl为第l层的权重矩阵,ReLU为激活函数。
本实施例的步骤(3)中,构建的半监督GCN模型特征矩阵X和邻接矩阵作为输入,计算如下:
其中MLP为多层感知函数,softmax为激活函数,表示预测标签的概率矩阵。构建的半监督GCN模型有两个节点数为256-128的GCN层,再通过一层MLP并使用softmax激活函数用于预测蛋白质的PSL或迁移标签。
本实施例的步骤(3)中,为了预测蛋白质的PSL标签和迁移标签,可使用两个半监督GCN模型分别进行预测。其中半监督GCN模型联合了有监督和无监督损失作为半监督损失函数。在预测蛋白质迁移时,将合成数据集中的蛋白质迁移标签YS作为有监督损失Loss(S)的目标,将真实数据集中蛋白质迁移标签的期望概率E(YR)作为无监督损失Loss(U)的目标,使用的半监督损失函数如下:
其中,分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵。CE(p,q)为交叉熵损失函数,α为平衡Loss(S)和Loss(U)的权值设置为2。同样,为了预测蛋白质的PSL标签,可以通过修改目标训练出用于蛋白质PSL标签预测的半监督GCN模型。
本实施例的步骤(3)中,在模型实际应用时,合成数据集子集被随机分成训练集(80%)和验证集(20%)。真实数据集是无标签的,可以通过半监督GCN模型进行预测。其中半监督GCN模型都使用Adam优化器进行5000次的训练,学习率为0.001。早停法被用于防止过拟合,设置为当验证集和真实数据集上的半监督损失在500个训练周期内没有减少即停止训练。
本实施例的步骤(3)中,为了评估预测蛋白质迁移标签的可靠性,计算错误发现率(FDR)来控制被预测为迁移蛋白质的置信度。根据预测的蛋白质迁移概率,将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序,其FDR计算如下:
其中N为真实数据集中标记蛋白质的总数,函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名。当控制FDR时,预测概率大于/>的蛋白质被鉴定为发生迁移。此外,如果蛋白质的预测PSL标签在不同条件下未发生变化(如GolgiToGolgi),则认为这些蛋白质没有发生迁移。
为了评估本在预测蛋白质迁移和定位方面的性能,我们应用了几种最先进的蛋白定位或迁移位鉴定方法进行比较,包括MR2016、MR2017、MS、TRANSPIRE、BANDLE(Dirichlet)和BANDLE(Pólya-Gamma)。以包含100个蛋白质迁移的仿真时空蛋白质组学数据集作为基准数据集之一。此外,由实验数据集生成的合成数据集子集被随机分为训练集(60%)、验证数据集(20%)和测试数据集(20%)(测试集被作为真实数据集)作为另一个基准数据集。表2为不同方法在仿真数据上预测蛋白质迁移的是精确度-召回率曲线下面积AUPR性能指标;表3为不同方法在实验数据上预测蛋白质迁移的受试者工作特征曲线下面积AUC性能指标。通过大量不同的仿真和实验的时空蛋白质组学质谱数据集,如图2、表2和表3所示,证明了本方法在预测蛋白质亚细胞定位和迁移的准确性和稳健性方面优于其它最先进的方法,特别是在处理具有批次效应干扰的数据集时。
表2
表3
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解,上述实施例不以任何形式限制本发明的保护范围,凡采用等同替换等方式所获得的技术方案,均落于本发明的保护范围内。本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (9)
1.一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,包括以下步骤:
(1)基于蛋白质亚细胞分离组分定量的时空蛋白质组质谱数据,选取有高质量已知蛋白质亚细胞定位的蛋白质,将对照组中任意一个高质量已知亚细胞定位的蛋白质和实验组中另一个高质量已知亚细胞定位的蛋白质进行拼接得到新的合成蛋白质,从而构建大量已知蛋白质定位和迁移标签的合成数据集;
(2)通过分别计算蛋白质在对照组和实验组中组分表达的距离特征,合成数据集和真实数据集中蛋白质的关系混合图,以及真实数据集中蛋白质的PSL标签和迁移标签的期望概率进行数据挖掘;
(3)将合成数据集和真实数据中蛋白质的组分表达特征和距离特征合并后标准化作为特征输入,以及标准化后的关系混合图作为邻接矩阵输入,使用半监督图卷积神经网络模型分别预测蛋白质的PSL标签和迁移标签。
2.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(1)中,以每种亚细胞器定位的蛋白质为背景,通过z-score检验仅保留各个组分表达值都在一定置信区间的蛋白质作为高质量PSL的蛋白质;并且通过判断新合成蛋白质在实验组和对照组中的定位来标记新的PSL标签和迁移标签。
3.根据权利要求1或2所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(1)中,选择具有高置信度的PSL标记的蛋白质:通过Z-score检验测试元素属于特定分布的概率,基于已知某种PSL标记的m个蛋白质,第i个亚细胞组分[fi 1,fi 2,…,fi m]来计算背景分布,进而计算得到第i个组分中每个蛋白质的统计概率;通过将该步骤应用于蛋白质的所有组分,可以确定它们各自的概率,当所有组分表达值的概率都在背景分布的95%以内时,将该蛋白质认为具有高置信度的PSL标签。
4.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(2)中,构建的蛋白质在对照组和实验组中组分表达的距离特征,分为直接、分布和排序距离特征;假设一个蛋白质在一次实验中产生n个组分,在对照组和实验组中的组分表达向量分别为x=[x1,x2,...,xn]和y=[y1,y2,...,yn],通过比较向量x和y,计算得到的直接距离包括:曼哈顿距离D1、切比雪夫距离D2、堪培拉距离D3、欧几里得距离D4、余弦距离D5、Pearson相关系数D6、马氏距离D7、对数比和的绝对值D8、对数比最大值的绝对值D9,且计算如下:
式中cov(x,y)是x和y的协方差,σx和σy分别是x和y的标准差,Σ为对照组和实验组中蛋白质的协方差矩阵,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
5.根据权利要求4所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,计算得到的分布距离包括:巴氏距离D10、海林格勒距离D11、交叉熵D12、Kullback-Leibler散度D13、Jensen-Shannon散度D14,且计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平。
6.根据权利要求4所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,计算得到的排序距离包括:Wilcoxon秩和检验的p值D15、Spearman秩相关系数D16、肯德尔等级相关系数D17、汉明距离D18、排序距离之和D19、最大排序距离D20,且计算如下:
式中x=[x1,x2,...,xn]和y=[y1,y2,...,yn]分别为对照组和实验组中的组分表达向量,xi和yi分别为对照组和实验组中的第i个组分的表达水平;Wilcoxon(x,y)为计算Wilcoxon秩和检验p值的函数,rand(xi)为获得xi在x中排序的函数,rand(yi)为获得yi在y中排序的函数,P表示协调对的数量,Q表示不协调对的数量,T表示仅在x中出现的并列对的数量,U表示仅在y中出现的并列对的数量。
7.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(2)中,通过相互最近邻方法分别计算合成蛋白质与真实蛋白质之间的关系网络以及真实蛋白质之间的关系网络,进而合并这两个网络构建合成数据集和真实数据集中蛋白质的关系混合图;此外,以合成数据集划分训练集和测试集,使用随机森林预测真实数据集中蛋白质的PSL标签和迁移标签概率作为期望概率。
8.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(3)中,为有效训练图卷积神经网络模型,将合成数据集和真实数据集中蛋白质的组分特征和距离特征合并后z-score标准化得到:X∈R(s+r)×(f+d)作为输入特征矩阵,此外,混合图A修正为归一化邻接矩阵的计算如下:
其中A*=A+I
其中,f为组分特征数,d为距离特征数,I∈R(s+r)×(s+r)是单位矩阵D是A*的对角度矩阵;
同时,图卷积神经网络模型将节点的特征与归一化邻接矩阵相结合,通过卷积运算发现有价值的潜在特征信息,计算如下:
其中/>
其中,Xl为特征矩阵,Wl为第l层的权重矩阵,ReLU为激活函数;
构建的半监督图卷积神经网络模型以特征矩阵X和邻接矩阵作为输入,计算如下:
其中MLP(Xl)=XlWl,/>
其中MLP为多层感知函数,softmax为激活函数,表示预测标签的概率矩阵;
最终,构建的半监督图卷积神经网络模型有两个节点数为256-128的GCN层,再通过一层MLP并使用softmax激活函数用于预测蛋白质的PSL标签或迁移标签。
9.根据权利要求1所述的一种蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法,其特征在于,所述步骤(3)中,为预测蛋白质的PSL标签和迁移标签,使用两个半监督图卷积神经网络模型分别进行预测;其中半监督图卷积神经网络模型联合有监督和无监督损失作为半监督损失函数;
在预测蛋白质迁移时,将合成数据集中的蛋白质迁移标签YS作为有监督损失Loss(S)的目标,将真实数据集中蛋白质迁移标签的期望概率E(YR)作为无监督损失Loss(U)的目标,使用的半监督损失函数如下:
其中,和/>分别是合成数据集和真实数据集中预测的蛋白质迁移标签的概率矩阵,CE(p,q)为交叉熵损失函数,α为平衡Loss(S)和Loss(U)的权值设置为2;同样,为了预测蛋白质的PSL标签,通过修改目标训练出用于蛋白质PSL标签预测的半监督图卷积神经网络模型;
此外,通过计算错误发现率FDR来控制被预测为迁移蛋白质的置信度,根据预测的蛋白质迁移概率,将真实数据集中所有已知PSL但未迁移的标记蛋白质由大到小排序,其FDR计算如下:
其中N为真实数据集中标记蛋白质的总数,函数示标记蛋白质i基于预测概率在真实数据集中所有标记蛋白质中的排名;当控制FDR时,预测概率大于/>的蛋白质被鉴定为发生迁移;如果蛋白质的预测PSL标签在不同条件下未发生变化,则认为这些蛋白质没有发生迁移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311738077.4A CN117672353A (zh) | 2023-12-18 | 2023-12-18 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311738077.4A CN117672353A (zh) | 2023-12-18 | 2023-12-18 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117672353A true CN117672353A (zh) | 2024-03-08 |
Family
ID=90076974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311738077.4A Pending CN117672353A (zh) | 2023-12-18 | 2023-12-18 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117672353A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201300A (zh) * | 2020-10-23 | 2021-01-08 | 天津大学 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
WO2022171827A1 (en) * | 2021-02-12 | 2022-08-18 | Boehringer Ingelheim Rcv Gmbh & Co Kg | Signal peptides for increased protein secretion |
US20220293215A1 (en) * | 2017-06-27 | 2022-09-15 | The Broad Institute, Inc. | Systems and methods for mhc class ii epitope prediction |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN115206423A (zh) * | 2022-07-13 | 2022-10-18 | 重庆理工大学 | 基于标签指导的蛋白质作用关系预测方法 |
CN115295079A (zh) * | 2022-01-20 | 2022-11-04 | 云南师范大学 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
US20220383992A1 (en) * | 2018-07-17 | 2022-12-01 | Kuano Ltd. | Machine learning based methods of analysing drug-like molecules |
CN115620803A (zh) * | 2022-11-02 | 2023-01-17 | 南京理工大学 | 一种基于跨图注意力的蛋白质相互作用点位预测方法 |
CN116597895A (zh) * | 2023-05-16 | 2023-08-15 | 长春理工大学 | 一种基于图卷积神经网络的蛋白质亚细胞定位方法 |
-
2023
- 2023-12-18 CN CN202311738077.4A patent/CN117672353A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220293215A1 (en) * | 2017-06-27 | 2022-09-15 | The Broad Institute, Inc. | Systems and methods for mhc class ii epitope prediction |
US20220383992A1 (en) * | 2018-07-17 | 2022-12-01 | Kuano Ltd. | Machine learning based methods of analysing drug-like molecules |
CN112201300A (zh) * | 2020-10-23 | 2021-01-08 | 天津大学 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
WO2022171827A1 (en) * | 2021-02-12 | 2022-08-18 | Boehringer Ingelheim Rcv Gmbh & Co Kg | Signal peptides for increased protein secretion |
CN115295079A (zh) * | 2022-01-20 | 2022-11-04 | 云南师范大学 | 基于元图学习的长链非编码rna亚细胞定位预测方法 |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN115206423A (zh) * | 2022-07-13 | 2022-10-18 | 重庆理工大学 | 基于标签指导的蛋白质作用关系预测方法 |
CN115620803A (zh) * | 2022-11-02 | 2023-01-17 | 南京理工大学 | 一种基于跨图注意力的蛋白质相互作用点位预测方法 |
CN116597895A (zh) * | 2023-05-16 | 2023-08-15 | 长春理工大学 | 一种基于图卷积神经网络的蛋白质亚细胞定位方法 |
Non-Patent Citations (4)
Title |
---|
BING WANG 等: "DeepSP:A Deep Learning Framework for Spatial Proteomics", PROTEOME RESEARCH, 14 June 2023 (2023-06-14), pages 2186 - 2198 * |
XUDONG HAN 等: "scapGNN:A graph neural network-based framework for active pathway and gene module inference from single-cell multi-omics data", PMC, 13 November 2023 (2023-11-13) * |
王亚冬 等: "Ⅱ型糖尿病大鼠神经视网膜组织中差异蛋白质分析", 分析化学, no. 10, 15 October 2010 (2010-10-15), pages 89 - 95 * |
陈行健 等: "基于关系拓展的改进词袋模型研究", 小型微型计算机系统, no. 05, 14 May 2019 (2019-05-14), pages 130 - 134 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Masana et al. | Metric learning for novelty and anomaly detection | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
CN107292097B (zh) | 基于特征组的中医主症选择方法 | |
CN106874862B (zh) | 基于子模技术和半监督学习的人群计数方法 | |
Wang et al. | Graph neural networks: Self-supervised learning | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
US20220027786A1 (en) | Multimodal Self-Paced Learning with a Soft Weighting Scheme for Robust Classification of Multiomics Data | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
Tao et al. | RDEC: integrating regularization into deep embedded clustering for imbalanced datasets | |
He et al. | A multitask bee colony band selection algorithm with variable-size clustering for hyperspectral images | |
Tamilmani et al. | Cancer MiRNA biomarker classification based on improved generative adversarial network optimized with Mayfly optimization algorithm | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
Lin et al. | LLC encoded BoW features and softmax regression for microscopic image classification | |
Tian et al. | TSRN: two-stage refinement network for temporal action segmentation | |
CN110175631A (zh) | 一种基于共同学习子空间结构和聚类指示矩阵的多视图聚类方法 | |
CN105678798A (zh) | 一种结合局部空间信息的多目标模糊聚类图像分割方法 | |
Nanda et al. | A person re-identification framework by inlier-set group modeling for video surveillance | |
Poelmans et al. | Text mining with emergent self organizing maps and multi-dimensional scaling: A comparative study on domestic violence | |
CN111916143A (zh) | 基于多样子结构特征融合的分子活性预测方法 | |
CN117672353A (zh) | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 | |
Jiang et al. | A massive multi-modal perception data classification method using deep learning based on internet of things | |
Nijhawan et al. | Food classification of Indian cuisines using handcrafted features and vision transformer network | |
Peng et al. | A deep learning-based unsupervised learning method for spatially resolved transcriptomic data analysis | |
Johnpaul et al. | Representational primitives using trend based global features for time series classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |