CN116092577A

CN116092577A - 一种基于多源异质信息聚合的蛋白质功能预测方法

Info

Publication number: CN116092577A
Application number: CN202310026625.4A
Authority: CN
Inventors: 张树刚; 魏志强; 马文健
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-09
Anticipated expiration: 2043-01-09
Also published as: CN116092577B

Abstract

本发明公布了一种基于多源异质信息聚合的蛋白质功能预测方法，首先构建PPI、SSN网络用于提取蛋白特征，然后收集蛋白质结构域、亚细胞位置、信号通路等节点特征，用于蛋白质表征；进一步地，利用图掩码自动编码器（GraphMAE）融合多源特征，最后结合低维的蛋白质序列分支，实现多源异质性蛋白特征协同预测。本发明深度融合了多要素、多维度的蛋白质特征，并纳入重掩码图解器策略，克服了当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题，大大提高了蛋白质功能的预测效率。

Description

一种基于多源异质信息聚合的蛋白质功能预测方法

技术领域

本发明涉及生物信息技术领域，特别涉及一种基于多源异质信息聚合的蛋白质功能预测方法。

背景技术

近年来，人们提出了许多可自动预测蛋白质功能的计算方法，这些方法通常会对所有的蛋白质功能根据其特性进行分类，每一类对应一个基因本体论(GO)术语，这也就使得一个蛋白质可以被多个GO术语注释。因此，蛋白质功能预测就可以看作是一个与GO术语相关的多标签分类任务。得益于蛋白质GO术语的快速发展，基于深度学习的蛋白质功能预测方法在预测性能上取得了前所未有的进步。

目前，基于深度学习的蛋白质预测方法可以分为两类，即基于蛋白质固有表示的方法和基于蛋白质网络的方法。前者仅从蛋白质固有表示中提取特征，例如基于蛋白一维序列和基于蛋白质二维接触图的功能预测模型。例如，DeepSeq使用卷积神经网络(CNN)提取序列特征，以预测人类物种中最常见的五种蛋白质功能。与DeepSeq类似，TALE应用了Transformer编码器作为基础架构，引入函数标签之间的关系来辅助函数预测。然而，这种仅基于序列的方法对于功能预测存在一定的局限性。因此，代表蛋白质中残基之间相互作用的接触图逐渐被用来提升蛋白质功能预测的准确性。

例如，DeepFRI根据原子间的欧几里德距离，从蛋白质三维坐标构建相应的接触图，然后将接触图和残基级特征纳入图神经网络(GCN)进行功能预测。上述方法依赖于蛋白质固有的表示，只针对单个靶点蛋白的序列或结构进行特征提取，而忽略了蛋白质之间丰富的生物学先验知识，如蛋白质之间的相互作用和同源性信息等，功能预测准确率还需进一步提高。于是，第二类方法——基于蛋白质网络的方法相继被提出。例如，DeepNF利用Random Walk with Restarts(RWR)构建了蛋白质-蛋白质相互作用(PPI)网络，并将其应用于蛋白质功能预测。与之不同，Graph2GO没有使用RWR，而是应用图编解码器架构直接计算PPI网络中每个蛋白质节点的低维向量，并将相同的过程应用于序列相似性网络(SSN)，取得了较好的性能。尽管如此，上述两类方法中还是偏向于依赖单一的特征源，即序列、接触图或蛋白质网络。因此，需要探索一种可将蛋白质网络信息与蛋白质固有特征相结合的蛋白质功能预测方法。

在此，针对当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题，本发明依托图掩码自动编码器(GraphMAE)创新性地提出了一种可深度融合多源异质性蛋白质特征的蛋白质功能预测新方法——HIF2GO。该方法深度融合了PPI和SSN网络中的拓扑特征和节点特征，并结合利用ESM-1b充分提取的序列特征实现了特征的多要素、多维度融合，大大提高了蛋白质功能的预测效率。

发明内容

蛋白质功能对于研究疾病的发病机制和寻找新的靶点具有重要意义。然而，由于蛋白质功能预测的实验规模、设计方法和工作成本等限制的存在，大多数功能未知的蛋白质不太可能进行实验注释。因此，高通量计算方法更适合注释广阔的蛋白质空间结构，并且此类方法在注释从头设计获得的非天然蛋白质方面同样具有潜力。

随着深度学习技术的快速发展，蛋白质功能预测任务逐渐“AI”化。基于深度学习技术的蛋白质功能预测以蛋白质固有表示及其空间信息等特征为基础可快速预测蛋白质功能，从而节省了大量的实验成本并大大提高了蛋白质功能的预测效率。针对以往蛋白质功能预测模型的不足，本发明创新性的提出了一种基于多源异质信息聚合的蛋白质功能预测方法。

本发明是通过如下技术方案实现的：一种基于多源异质信息聚合的蛋白质功能预测方法，包括以下步骤：

一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于：包括以下步骤：

(1)构建PPI拓扑特征

首先，从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征，然后，利用STRING数据库提供的“综合分数”来表达一对蛋白质之间的相互作用置信度，最后，根据该相互作用记录构建一个包含若干蛋白质的PPI网络，每个结点表示一个蛋白质；

(2)构建序列相似性网络(SSN)拓扑特征

以步骤(1)中收集的蛋白质为基础，利用BLAST构造具有“相似分数”的SSN网络，与PPI网络中的“综合分数”不同，SSN中一对蛋白质之间的“相似分数”越小，则对应的两个序列越相似；

(3)确定PPI和SSN网络中的节点特征

SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系，而节点特征则表达了两个网络中单个蛋白质节点的生物学信息，将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建PPI和SSN网络中的特征矩阵；

(4)利用GraphMAE框架获取蛋白质潜在特征

PPI网络表示为无向无权图

其中

A_PPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵，邻接矩阵和征矩阵分别从步骤(1)和(3)中获得；在此基础上，随机抽取若干比例的蛋白质节点进行掩码操作，构成掩码节点集

并将该比例设置为超参数纳入模型中；经过掩码操作后，PPI网络的掩码特征矩阵中的节点特征定义为：

其中，

表示PPI网络的掩码特征矩阵，对于掩码节点集

内的节点，采用掩码处理得到节点特征x_[Mask]；对于掩码节点集

以外的节点，则仍保留其原节点特征x_i。

然后，将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中；由于GCN在节点级和图像级分类任务中具有独特的优越性，所以应用了双层GCN作为图编码器来生成PPI网络中蛋白质节点的潜在表示H：

其中，

表示PPI网络的对称归一化邻接矩阵，可由PPI的邻接矩阵D及归一化邻接矩阵A_PPI计算：

表示掩码特征矩阵；

表示PPI网络中蛋白质节点的数量；W₀及W₁表示可学习参数，GCN_enc(·)表示图卷积神经网络组成的编码器。

为了得到更高质量的蛋白质潜在表示，应用了具有重掩码策略的解码器，在重掩码操作之后，蛋白质节点信息的潜在表示定义为：

其中，h_[DMask]表示经过重掩码处理的蛋白节点特征，h_i表示无需经过重掩码处理的节点特征。

为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征，选择单层GCN作为图解码器来重建原始特征矩阵：

其中，

表示PPI网络中蛋白质节点的潜在表示；W表示可学习参数；Z∈R^N×d，表示解码器重建的特征矩阵；

为了优化GraphMAE框架中的众多可学习参数，提高功能预测的性能，将更适用于重掩蛋白特征表示的缩放余弦误差

作为损失函数纳入模型：

其中，

表示第i个掩码蛋白节点的原始特征，T代表特征转置操作；

表示解码器对应的重构特征；γ表示缩放因子。

将特征矩阵X与PPI网络的邻接矩阵A_PPI的邻接矩阵结合，得到蛋白质的潜在表示：

emb_PPI＝GCN_enc(X,A_PPI)

以上为PPI网络中蛋白质潜在表示的计算方法，因为SSN网络和PPI网络共享相同的蛋白质节点，所以二者的蛋白质潜在表示的计算方法相同。

(5)构建基于序列的蛋白质语言模型

将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取，然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与emb_PPI和emb_SSN相同的向量空间：

emb_seq＝LeakyReLU(X·W+b)

其中，W表示可学习参数；b表示是偏置项；emb_seq∈R^N×400，表示SSN或PPI网络中蛋白质节点的投影序列特征，emb_PPI和emb_SSN表示PPI、SSN网络中蛋白质节点的投影序列特征；

(6)运用全连接分类器进行功能预测

将经过上述步骤获得的emb_PPI、emb_SSN以及emb_seq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测：、

y＝Sigmoid(emb·W+b)

emb＝[emb_PPI+X_consensus,emb_SSN+X_consensus,emb_seq+X_consensus]

X_consensus＝avg(emb_SSN,emb_PPI,emb_seq)

其中，W表示分类器中的可学习参数；b表示偏置项；在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征，即X_consensus，将X_consensus添加到emb_PPI、emb_SSN和emb_seq进行特征增强以提高训练阶段的稳定性。

进一步的，所述步骤(1)中将STRING数据库提供的“综合分数”作为两个蛋白质节点的边权重用于PPI网络的构建。

进一步的，所述步骤(2)中给定“相似分数”阈值

并将其设置为10^-4，如果两个结点之间的相似分数小于阈值

则认为两个结点之间存在一条边。

进一步的，所述步骤(3)中，从Uniprot、Pfam蛋白质数据库中收集蛋白质结构域的相关注释，然后采用bag-of-words的编码方式，将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式，这样就完成了针对蛋白质结构域的特征处理。

进一步的，所述步骤(3)中，从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释，并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。

进一步的，所述步骤(3)中，从Reactome数据库中收集信号通路的相关注释，并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建SSN和PPI网络中每个蛋白质节点的信号通路的特征表示。

进一步的，所述步骤(3)中，将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。

进一步的，所述步骤(4)中，选取30％的蛋白质节点进行掩码操作，并将该比例作为超参数纳入模型中以获得蛋白质的潜在表示，此外，为获得更高质量的潜在表示，纳入了重掩码图解器对其进行了重掩码操作。

进一步的，所述步骤(5)中，在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量，并对向量进行列均值化运算以获得蛋白质水平的全局特征。

进一步的，所述步骤(6)中，在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量，并对向量进行列均值化运算以获得蛋白质水平的全局特征。

本发明创新性地提出了一种新的蛋白质功能预测的新方法——HIF2GO。本发明应用图掩码自动编码器(GraphMAE)框架深度融合了PPI和SSN网络中的拓扑特征和节点特征，并结合利用ESM-1b充分提取的序列特征实现了特征的多要素、多维度融合，大大提高了蛋白质功能的预测效率。具体的讲：

(1)本发明不局限于靶点蛋白的单一特征，通过构建PPI与SSN网络充分学习了靶点蛋白和其他蛋白之间的生物学先验知识。此外，本发明系统地收集了蛋白质结构域、亚细胞位置以及信号通路等蛋白质特征，充分考虑到了这些多源特征对蛋白质功能的影响。

(2)本发明将高维的蛋白质多源特征与低维的蛋白质序列特征进行了深度融合，保障了蛋白质功能预测的维度丰富性，实现了对蛋白质功能的多维特征协同预测。

(3)本发明依托GraphMAE图掩码自动编码器实现了多源异质性蛋白质特征融合，丰富了靶点蛋白所蕴含的生物信息，并纳入重掩码策略，大幅度提高蛋白质功能预测的准确率。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的建模流程图；

图1两侧分支中分别代表PPI和SSN网络，即蛋白质相互作用网络和序列相似性网络，同时也描述了作为蛋白质结点特征的蛋白质结构域、亚细胞位置和信号通路，GraphMAE编码器(如图2所示)将两种生物网络和蛋白质结点特征相融合，来生成蛋白质表征emb_PPI和emb_SSN，并将其与从蛋白质序列分支(图1中间分支)提取出的低维序列特征相结合，以预测蛋白质功能；

图2为GraphMAE编码器的模型架构；

图2表示了GraphMAE的模型架构，其由两部分组成：包含两个图卷积层的GCN编码器以及实施重掩码策略的GCN解码器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对当前蛋白质功能预测中存在的特征源单一以及特征维度不丰富等问题，本发明依托GraphMAE图掩码自动编码器创新性地提出了一种可深度融合多源异质性蛋白质特征的蛋白质功能预测新方法——HIF2GO。如图一所示，HIF2GO由三个分支组成，即蛋白质-蛋白质相互作用(PPI)分支、序列相似性网络(SSN)分支和蛋白质序列分支。对于PPI和SSN分支，分别构建了以蛋白质域、亚细胞位置和信号通路为节点特征的PPI和SSN网络，并应用具有掩码机制的GraphMAE框架(如图二所示)来生成每个蛋白质节点的潜在表示。对于序列分支，使用预训练的蛋白质语言模型(即ESM-1b)来提取确定每个蛋白质节点的序列特征。在此基础上，将来自PPI和SSN分支的蛋白质潜在表示与来自序列分支的序列特征连接起来以协同预测蛋白质功能。

实施例1

本发明提出的新型蛋白质功能预测方法具体包括以下步骤：

(1)构建PPI网络，并从中提取蛋白质特征用于蛋白质功能预测

本发明首先，从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征，并根据STRING数据库提供的位于0-1区间的“综合分数”来对评估蛋白质-蛋白质之间的相互作用置信度，并将其作为两个蛋白质之间的边权重用于PPI网络的构建。

(2)构建SSN网络，并从中提取蛋白质特征用于蛋白质功能预测

以步骤(1)中收集的蛋白质为基础，利用BLAST(一种寻找序列间局部相似性区域的工具)构造具有“相似分数”的SSN网络，与PPI网络中的“综合分数”不同，SSN中一对蛋白质之间的“相似分数”越小，则对应的两个序列越相似。因此，本发明给定了一个阈值

并将其设置为10^-4，如果两个结点之间的相似分数小于阈值

则认为两个结点之间存在一条边，即表示它们相连。

(3)PPI和SSN网络中节点特征的选择和预处理

SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系，而节点特征则表达了两个网络中单个蛋白质节点的生物学信息，本发明将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建SSN和PPI网络中的特征矩阵。

1)蛋白质结构域

蛋白质中存在不同的功能区域被称为蛋白质结构域。识别蛋白质结构域可以加强对蛋白质功能的解析。本发明从Uniprot、Pfam等蛋白质数据库中收集到了蛋白质结构域的相关注释，并采用bag-of-words编码方式将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式，实现了针对蛋白质结构域的特征处理。

2)亚细胞位置

亚细胞位置揭示了蛋白质在细胞内的特定位置，如质膜、核、核质等，确定蛋白质的亚细胞位置是了解蛋白质细胞功能的关键一步。本发明从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释，并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。

3)信号通路

信号通路反映了关于信号传导、转运、DNA复制和中间代谢等信息，是表征蛋白质与其分子功能联系的重要载体。本发明从Reactome数据库中收集信号通路的相关注释，并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建PPI和SSN网络中每个蛋白质节点的信号通路的特征表示。

4)将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。

(4)将GraphMAE应用于PPI和SSN网络用于获取节点潜在表示

与标准图自动编码器(GAE)不同，具有掩码机制的GraphMAE框架旨在重建掩码节点的潜在特征表示。具体来说，本发明对图的原始特征矩阵进行了掩码操作，并将其送入图编码器中以获得图中每个蛋白节点的潜在表示。然后引入重掩码策略，依靠掩码节点与其相邻节点之间的连通性实现对掩码中心节点的特征重建。

首先，构建一个用于表征PPI网络的无向无权图

其中

A_PPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵。以预处理后的3种蛋白质节点特征为基础生成PPI网络的特征矩阵，并根据步骤(1)构建PPI网络的邻接矩阵。邻接矩阵和征矩阵分别从步骤(1)和(3)中获得；在此基础上，本发明随机抽取一定比例的蛋白质节点进行掩码操作，并将该比例设置为一个范围为0到1的超参数，将该比例设置为超参数纳入模型种；经过掩码操作后，PPI网络的掩码特征矩阵中的节点特征定义为：

其中，

表示PPI网络的掩码特征矩阵，对于掩码节点集

以外的节点，则仍保留其原节点特征x_i。

然后，将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中。此外，由于GCN在节点级和图像级分类任务中具有独特的优越性，所以本发明应用了双层GCN作为图编码器来生成PPI网络中每个蛋白质节点的潜在表示：

其中，

表示掩码特征矩阵；

为了得到更高质量的蛋白质潜在表示，本发明应用了具有重掩码策略的解码器，在重掩码操作之后，蛋白质节点信息的潜在表示定义为：

为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征，本发明选择单层GCN作为图解码器来重建原始特征矩阵：

其中，

表示PPI网络中蛋白质节点的潜在表示；W表示可学习参数；Z∈R^N×d，表示解码器重建的特征矩阵，GCN_enc(·)表示图卷积神经网络组成的编码器。

作为损失函数纳入模型：

其中，

表示第i个掩码蛋白节点的原始特征，T代表特征转置操作；

表示解码器对应的重构特征；γ表示缩放因子。

最后，将特征矩阵X与PPI网络的邻接矩阵A_PPI的邻接矩阵结合，得到蛋白质的潜在表示：

emb_PPI＝GCN_enc(X,A_PPI)

(5)构建基于序列的蛋白质语言模型

本发明将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取，然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与emb_PPI和emb_SSN相同的向量空间：

emb_seq＝LeakyReLU(X·W+b)

(6)运用全连接分类器进行功能预测

将经过(1)-(5)步骤获得的emb_PPI、emb_SSN以及emb_seq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测：

y＝Sigmoid(emb·W+b)

emb＝[emb_PPI+X_consensus,emb_SSN+X_consensus,emb_seq+X_consensus]

X_consensus＝avg(emb_SSN,emb_PPI,emb_seq)

其中，W表示分类器中的可学习参数；b表示偏置项。此外，本发明在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征，即X_consensus，将X_consensus添加到emb_PPI、emb_SSN和emb_seq进行特征增强以提高训练阶段的稳定性。

实施例2

将实施例1的步骤具体应用于对蛋白质功能预测模型HIF2GO的构建，可对蛋白质进行功能预测。本实施例选取蛋白序列数据库UniProt中两个蛋白质(UniProt ID分别为O75751和Q96RD0)，预测结果如下表所示：

表1对两种蛋白质的功能预测结果

由表中可看到：对于O75751蛋白，本发明提出的HIF2GO模型成功预测了跨膜转运蛋白活性、单原子离子跨膜转运蛋白活性、有机阳离子跨膜转运蛋白活性、转运活性、单原子阳离子跨膜转运蛋白活性、氨跨膜转运蛋白活性全部六类功能标签，对于Q96RD0，本发明提出的HIF2GO模型成功预测了嗅觉受体活性、G蛋白偶联受体活性、气味结合蛋白、结合作用、分子传感器活性、跨膜信号受体活性、信号受体活性七类蛋白功能标签。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于：包括以下步骤：

(1)构建PPI拓扑特征

(2)构建序列相似性网络(SSN)拓扑特征

(3)确定PPI和SSN网络中的节点特征

(4)利用GraphMAE框架获取蛋白质潜在特征

PPI网络表示为无向无权图

其中

A_PPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵，邻接矩阵和征矩阵分别从步骤(1)和(3)中获得；在此基础上，随机抽取若干比例的蛋白质节点进行掩码操作，并将该比例设置为超参数纳入模型种；

经过掩码操作后，PPI网络的掩码特征矩阵中的节点特征定义为：

其中，

表示PPI网络的掩码特征矩阵，对于掩码节点集

以外的节点，则仍保留其原节点特征x_i。

然后，将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中；由于GCN在节点级和图像级分类任务中具有独特的优越性，所以应用了双层GCN作为图编码器来生成PPI网络中每个蛋白质节点的潜在表示H：

其中，

表示掩码特征矩阵；

其中，

作为损失函数纳入模型：

其中，

表示第i个掩码蛋白节点的原始特征，T代表特征转置操作；

表示解码器对应的重构特征；γ表示缩放因子。

emb_PPI＝GCN_enc(X,A_PPI)

以上为PPI网络中蛋白质潜在表示的计算方法，因为SSN网络和PPI网络共享相同的蛋白质节点，所以二者的蛋白质潜在表示的计算方法相同；

(5)构建基于序列的蛋白质语言模型

emb_seq＝LeakyReLU(X·W+b)

(6)运用全连接分类器进行功能预测

y＝Sigmoid(emb·W+b)

emb＝[emb_PPI+X_consensus,emb_SSN+X_consensus,emb_seq+X_consensus]

X_consensus＝avg(emb_SSN,emb_PPI,emb_seq)

其中，W表示分类器中的可学习参数；b表示偏置项；在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征，即X_consensus，将X_consensus添加到

emb_PPI、emb_SSN和emb_seq进行特征增强以提高训练阶段的稳定性。

2.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(1)中将STRING数据库提供的“综合分数”作为两个蛋白质节点的边权重用于PPI网络的构建。

3.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(2)中给定“相似分数”阈值

并将其设置为10^-4，如果两个结点之间的相似分数小于阈值

则认为两个结点之间存在一条边。

4.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(3)中，从Uniprot、Pfam蛋白质数据库中收集蛋白质结构域的相关注释，然后采用bag-of-words的编码方式，将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式，这样就完成了针对蛋白质结构域的特征处理。

5.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(3)中，从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释，并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。

6.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(3)中，从Reactome数据库中收集信号通路的相关注释，并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建SSN和PPI网络中每个蛋白质节点的信号通路的特征表示。

7.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(3)中，将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。

8.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法，其特征在于：所述步骤(4)中，选取30％的蛋白质节点进行掩码操作，并将该比例作为超参数纳入模型中以获得蛋白质的潜在表示，此外，为获得更高质量的潜在表示，纳入了重掩码图解器对其进行了重掩码操作。

9.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于：所述步骤(5)中，在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量，并对向量进行列均值化运算以获得蛋白质水平的全局特征。

10.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于：所述步骤(6)中，在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量，并对向量进行列均值化运算以获得蛋白质水平的全局特征。