CN116092577B - 一种基于多源异质信息聚合的蛋白质功能预测方法 - Google Patents

一种基于多源异质信息聚合的蛋白质功能预测方法 Download PDF

Info

Publication number
CN116092577B
CN116092577B CN202310026625.4A CN202310026625A CN116092577B CN 116092577 B CN116092577 B CN 116092577B CN 202310026625 A CN202310026625 A CN 202310026625A CN 116092577 B CN116092577 B CN 116092577B
Authority
CN
China
Prior art keywords
protein
ppi
emb
node
ssn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310026625.4A
Other languages
English (en)
Other versions
CN116092577A (zh
Inventor
张树刚
魏志强
马文健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202310026625.4A priority Critical patent/CN116092577B/zh
Publication of CN116092577A publication Critical patent/CN116092577A/zh
Application granted granted Critical
Publication of CN116092577B publication Critical patent/CN116092577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于多源异质信息聚合的蛋白质功能预测方法,首先构建PPI、SSN网络用于提取蛋白特征,然后收集蛋白质结构域、亚细胞位置、信号通路等节点特征,用于蛋白质表征;进一步地,利用图掩码自动编码器(GraphMAE)融合多源特征,最后结合低维的蛋白质序列分支,实现多源异质性蛋白特征协同预测。本发明深度融合了多要素、多维度的蛋白质特征,并纳入重掩码图解器策略,克服了当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题,大大提高了蛋白质功能的预测效率。

Description

一种基于多源异质信息聚合的蛋白质功能预测方法
技术领域
本发明涉及生物信息技术领域,特别涉及一种基于多源异质信息聚合的蛋白质功能预测方法。
背景技术
近年来,人们提出了许多可自动预测蛋白质功能的计算方法,这些方法通常会对所有的蛋白质功能根据其特性进行分类,每一类对应一个基因本体论(GO)术语,这也就使得一个蛋白质可以被多个GO术语注释。因此,蛋白质功能预测就可以看作是一个与GO术语相关的多标签分类任务。得益于蛋白质GO术语的快速发展,基于深度学习的蛋白质功能预测方法在预测性能上取得了前所未有的进步。
目前,基于深度学习的蛋白质预测方法可以分为两类,即基于蛋白质固有表示的方法和基于蛋白质网络的方法。前者仅从蛋白质固有表示中提取特征,例如基于蛋白一维序列和基于蛋白质二维接触图的功能预测模型。例如,DeepSeq使用卷积神经网络(CNN)提取序列特征,以预测人类物种中最常见的五种蛋白质功能。与DeepSeq类似,TALE应用了Transformer编码器作为基础架构,引入函数标签之间的关系来辅助函数预测。然而,这种仅基于序列的方法对于功能预测存在一定的局限性。因此,代表蛋白质中残基之间相互作用的接触图逐渐被用来提升蛋白质功能预测的准确性。
例如,DeepFRI根据原子间的欧几里德距离,从蛋白质三维坐标构建相应的接触图,然后将接触图和残基级特征纳入图神经网络(GCN)进行功能预测。上述方法依赖于蛋白质固有的表示,只针对单个靶点蛋白的序列或结构进行特征提取,而忽略了蛋白质之间丰富的生物学先验知识,如蛋白质之间的相互作用和同源性信息等,功能预测准确率还需进一步提高。于是,第二类方法——基于蛋白质网络的方法相继被提出。例如,DeepNF利用Random Walk with Restarts(RWR)构建了蛋白质-蛋白质相互作用(PPI)网络,并将其应用于蛋白质功能预测。与之不同,Graph2GO没有使用RWR,而是应用图编解码器架构直接计算PPI网络中每个蛋白质节点的低维向量,并将相同的过程应用于序列相似性网络(SSN),取得了较好的性能。尽管如此,上述两类方法中还是偏向于依赖单一的特征源,即序列、接触图或蛋白质网络。因此,需要探索一种可将蛋白质网络信息与蛋白质固有特征相结合的蛋白质功能预测方法。
在此,针对当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题,本发明依托图掩码自动编码器(GraphMAE)创新性地提出了一种可深度融合多源异质性蛋白质特征的蛋白质功能预测新方法——HIF2GO。该方法深度融合了PPI和SSN网络中的拓扑特征和节点特征,并结合利用ESM-1b充分提取的序列特征实现了特征的多要素、多维度融合,大大提高了蛋白质功能的预测效率。
发明内容
蛋白质功能对于研究疾病的发病机制和寻找新的靶点具有重要意义。然而,由于蛋白质功能预测的实验规模、设计方法和工作成本等限制的存在,大多数功能未知的蛋白质不太可能进行实验注释。因此,高通量计算方法更适合注释广阔的蛋白质空间结构,并且此类方法在注释从头设计获得的非天然蛋白质方面同样具有潜力。
随着深度学习技术的快速发展,蛋白质功能预测任务逐渐“AI”化。基于深度学习技术的蛋白质功能预测以蛋白质固有表示及其空间信息等特征为基础可快速预测蛋白质功能,从而节省了大量的实验成本并大大提高了蛋白质功能的预测效率。针对以往蛋白质功能预测模型的不足,本发明创新性的提出了一种基于多源异质信息聚合的蛋白质功能预测方法。
本发明是通过如下技术方案实现的:一种基于多源异质信息聚合的蛋白质功能预测方法,包括以下步骤:
一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:包括以下步骤:
(1)构建PPI拓扑特征
首先,从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征,然后,利用STRING数据库提供的“综合分数”来表达一对蛋白质之间的相互作用置信度,最后,根据该相互作用记录构建一个包含若干蛋白质的PPI网络,每个结点表示一个蛋白质;
(2)构建序列相似性网络(SSN)拓扑特征
以步骤(1)中收集的蛋白质为基础,利用BLAST构造具有“相似分数”的SSN网络,与PPI网络中的“综合分数”不同,SSN中一对蛋白质之间的“相似分数”越小,则对应的两个序列越相似;
(3)确定PPI和SSN网络中的节点特征
SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系,而节点特征则表达了两个网络中单个蛋白质节点的生物学信息,将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建PPI和SSN网络中的特征矩阵;
(4)利用GraphMAE框架获取蛋白质潜在特征
PPI网络表示为无向无权图其中/>APPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵,邻接矩阵和征矩阵分别从步骤(1)和(3)中获得;在此基础上,随机抽取若干比例的蛋白质节点进行掩码操作,构成掩码节点集/>并将该比例设置为超参数纳入模型中;经过掩码操作后,PPI网络的掩码特征矩阵中的节点特征定义为:
其中,表示PPI网络的掩码特征矩阵,对于掩码节点集/>内的节点,采用掩码处理得到节点特征x[Mask];对于掩码节点集/>以外的节点,则仍保留其原节点特征xi
然后,将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中;由于GCN在节点级和图像级分类任务中具有独特的优越性,所以应用了双层GCN作为图编码器来生成PPI网络中蛋白质节点的潜在表示H:
其中,表示PPI网络的对称归一化邻接矩阵,可由PPI的邻接矩阵D及归一化邻接矩阵APPI计算:/> 表示掩码特征矩阵;/>表示PPI网络中蛋白质节点的数量;W0及W1表示可学习参数,GCNenc(·)表示图卷积神经网络组成的编码器。
为了得到更高质量的蛋白质潜在表示,应用了具有重掩码策略的解码器,在重掩码操作之后,蛋白质节点信息的潜在表示定义为:
其中,h[DMask]表示经过重掩码处理的蛋白节点特征,hi表示无需经过重掩码处理的节点特征。
为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征,选择单层GCN作为图解码器来重建原始特征矩阵:
其中,表示PPI网络中蛋白质节点的潜在表示;W表示可学习参数;Z∈RN×d,表示解码器重建的特征矩阵;
为了优化GraphMAE框架中的众多可学习参数,提高功能预测的性能,将更适用于重掩蛋白特征表示的缩放余弦误差作为损失函数纳入模型:
其中,表示第i个掩码蛋白节点的原始特征,T代表特征转置操作;/>表示解码器对应的重构特征;γ表示缩放因子。
将特征矩阵X与PPI网络的邻接矩阵APPI的邻接矩阵结合,得到蛋白质的潜在表示:
embPPI=GCNenc(X,APPI)
以上为PPI网络中蛋白质潜在表示的计算方法,因为SSN网络和PPI网络共享相同的蛋白质节点,所以二者的蛋白质潜在表示的计算方法相同。
(5)构建基于序列的蛋白质语言模型
将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取,然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与embPPI和embSSN相同的向量空间:
embseq=LeakyReLU(X·W+b)
其中,W表示可学习参数;b表示是偏置项;embseq∈RN×400,表示SSN或PPI网络中蛋白质节点的投影序列特征,embPPI和embSSN表示PPI、SSN网络中蛋白质节点的投影序列特征;
(6)运用全连接分类器进行功能预测
将经过上述步骤获得的embPPI、embSSN以及embseq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测:、
y=Sigmoid(emb·W+b)
emb=[embPPI+Xconsensus,embSSN+Xconsensus,embseq+Xconsensus]
Xconsensus=avg(embSSN,embPPI,embseq)
其中,W表示分类器中的可学习参数;b表示偏置项;在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征,即Xconsensus,将Xconsensus添加到embPPI、embSSN和embseq进行特征增强以提高训练阶段的稳定性。
进一步的,所述步骤(1)中将STRING数据库提供的“综合分数”作为两个蛋白质节点的边权重用于PPI网络的构建。
进一步的,所述步骤(2)中给定“相似分数”阈值并将其设置为10-4,如果两个结点之间的相似分数小于阈值/>则认为两个结点之间存在一条边。
进一步的,所述步骤(3)中,从Uniprot、Pfam蛋白质数据库中收集蛋白质结构域的相关注释,然后采用bag-of-words的编码方式,将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式,这样就完成了针对蛋白质结构域的特征处理。
进一步的,所述步骤(3)中,从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释,并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。
进一步的,所述步骤(3)中,从Reactome数据库中收集信号通路的相关注释,并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建SSN和PPI网络中每个蛋白质节点的信号通路的特征表示。
进一步的,所述步骤(3)中,将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。
进一步的,所述步骤(4)中,选取30%的蛋白质节点进行掩码操作,并将该比例作为超参数纳入模型中以获得蛋白质的潜在表示,此外,为获得更高质量的潜在表示,纳入了重掩码图解器对其进行了重掩码操作。
进一步的,所述步骤(5)中,在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量,并对向量进行列均值化运算以获得蛋白质水平的全局特征。
进一步的,所述步骤(6)中,在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量,并对向量进行列均值化运算以获得蛋白质水平的全局特征。
本发明创新性地提出了一种新的蛋白质功能预测的新方法——HIF2GO。本发明应用图掩码自动编码器(GraphMAE)框架深度融合了PPI和SSN网络中的拓扑特征和节点特征,并结合利用ESM-1b充分提取的序列特征实现了特征的多要素、多维度融合,大大提高了蛋白质功能的预测效率。具体的讲:
(1)本发明不局限于靶点蛋白的单一特征,通过构建PPI与SSN网络充分学习了靶点蛋白和其他蛋白之间的生物学先验知识。此外,本发明系统地收集了蛋白质结构域、亚细胞位置以及信号通路等蛋白质特征,充分考虑到了这些多源特征对蛋白质功能的影响。
(2)本发明将高维的蛋白质多源特征与低维的蛋白质序列特征进行了深度融合,保障了蛋白质功能预测的维度丰富性,实现了对蛋白质功能的多维特征协同预测。
(3)本发明依托GraphMAE图掩码自动编码器实现了多源异质性蛋白质特征融合,丰富了靶点蛋白所蕴含的生物信息,并纳入重掩码策略,大幅度提高蛋白质功能预测的准确率。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的建模流程图;
图1两侧分支中分别代表PPI和SSN网络,即蛋白质相互作用网络和序列相似性网络,同时也描述了作为蛋白质结点特征的蛋白质结构域、亚细胞位置和信号通路,GraphMAE编码器(如图2所示)将两种生物网络和蛋白质结点特征相融合,来生成蛋白质表征embPPI和embSSN,并将其与从蛋白质序列分支(图1中间分支)提取出的低维序列特征相结合,以预测蛋白质功能;
图2为GraphMAE编码器的模型架构;
图2表示了GraphMAE的模型架构,其由两部分组成:包含两个图卷积层的GCN编码器以及实施重掩码策略的GCN解码器。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对当前蛋白质功能预测中存在的特征源单一以及特征维度不丰富等问题,本发明依托GraphMAE图掩码自动编码器创新性地提出了一种可深度融合多源异质性蛋白质特征的蛋白质功能预测新方法——HIF2GO。如图一所示,HIF2GO由三个分支组成,即蛋白质-蛋白质相互作用(PPI)分支、序列相似性网络(SSN)分支和蛋白质序列分支。对于PPI和SSN分支,分别构建了以蛋白质域、亚细胞位置和信号通路为节点特征的PPI和SSN网络,并应用具有掩码机制的GraphMAE框架(如图二所示)来生成每个蛋白质节点的潜在表示。对于序列分支,使用预训练的蛋白质语言模型(即ESM-1b)来提取确定每个蛋白质节点的序列特征。在此基础上,将来自PPI和SSN分支的蛋白质潜在表示与来自序列分支的序列特征连接起来以协同预测蛋白质功能。
实施例1
本发明提出的新型蛋白质功能预测方法具体包括以下步骤:
(1)构建PPI网络,并从中提取蛋白质特征用于蛋白质功能预测
本发明首先,从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征,并根据STRING数据库提供的位于0-1区间的“综合分数”来对评估蛋白质-蛋白质之间的相互作用置信度,并将其作为两个蛋白质之间的边权重用于PPI网络的构建。
(2)构建SSN网络,并从中提取蛋白质特征用于蛋白质功能预测
以步骤(1)中收集的蛋白质为基础,利用BLAST(一种寻找序列间局部相似性区域的工具)构造具有“相似分数”的SSN网络,与PPI网络中的“综合分数”不同,SSN中一对蛋白质之间的“相似分数”越小,则对应的两个序列越相似。因此,本发明给定了一个阈值并将其设置为10-4,如果两个结点之间的相似分数小于阈值/>则认为两个结点之间存在一条边,即表示它们相连。
(3)PPI和SSN网络中节点特征的选择和预处理
SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系,而节点特征则表达了两个网络中单个蛋白质节点的生物学信息,本发明将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建SSN和PPI网络中的特征矩阵。
1)蛋白质结构域
蛋白质中存在不同的功能区域被称为蛋白质结构域。识别蛋白质结构域可以加强对蛋白质功能的解析。本发明从Uniprot、Pfam等蛋白质数据库中收集到了蛋白质结构域的相关注释,并采用bag-of-words编码方式将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式,实现了针对蛋白质结构域的特征处理。
2)亚细胞位置
亚细胞位置揭示了蛋白质在细胞内的特定位置,如质膜、核、核质等,确定蛋白质的亚细胞位置是了解蛋白质细胞功能的关键一步。本发明从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释,并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。
3)信号通路
信号通路反映了关于信号传导、转运、DNA复制和中间代谢等信息,是表征蛋白质与其分子功能联系的重要载体。本发明从Reactome数据库中收集信号通路的相关注释,并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建PPI和SSN网络中每个蛋白质节点的信号通路的特征表示。
4)将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。
(4)将GraphMAE应用于PPI和SSN网络用于获取节点潜在表示
与标准图自动编码器(GAE)不同,具有掩码机制的GraphMAE框架旨在重建掩码节点的潜在特征表示。具体来说,本发明对图的原始特征矩阵进行了掩码操作,并将其送入图编码器中以获得图中每个蛋白节点的潜在表示。然后引入重掩码策略,依靠掩码节点与其相邻节点之间的连通性实现对掩码中心节点的特征重建。
首先,构建一个用于表征PPI网络的无向无权图其中/>APPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵。以预处理后的3种蛋白质节点特征为基础生成PPI网络的特征矩阵,并根据步骤(1)构建PPI网络的邻接矩阵。邻接矩阵和征矩阵分别从步骤(1)和(3)中获得;在此基础上,本发明随机抽取一定比例的蛋白质节点进行掩码操作,并将该比例设置为一个范围为0到1的超参数,将该比例设置为超参数纳入模型种;经过掩码操作后,PPI网络的掩码特征矩阵中的节点特征定义为:
其中,表示PPI网络的掩码特征矩阵,对于掩码节点集/>内的节点,采用掩码处理得到节点特征x[Mask];对于掩码节点集/>以外的节点,则仍保留其原节点特征xi
然后,将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中。此外,由于GCN在节点级和图像级分类任务中具有独特的优越性,所以本发明应用了双层GCN作为图编码器来生成PPI网络中每个蛋白质节点的潜在表示:
其中,表示PPI网络的对称归一化邻接矩阵,可由PPI的邻接矩阵D及归一化邻接矩阵APPI计算:/> 表示掩码特征矩阵;/>表示PPI网络中蛋白质节点的数量;W0及W1表示可学习参数,GCNenc(·)表示图卷积神经网络组成的编码器。
为了得到更高质量的蛋白质潜在表示,本发明应用了具有重掩码策略的解码器,在重掩码操作之后,蛋白质节点信息的潜在表示定义为:
其中,h[DMask]表示经过重掩码处理的蛋白节点特征,hi表示无需经过重掩码处理的节点特征。
为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征,本发明选择单层GCN作为图解码器来重建原始特征矩阵:
其中,表示PPI网络中蛋白质节点的潜在表示;W表示可学习参数;Z∈RN×d,表示解码器重建的特征矩阵,GCNenc(·)表示图卷积神经网络组成的编码器。
为了优化GraphMAE框架中的众多可学习参数,提高功能预测的性能,将更适用于重掩蛋白特征表示的缩放余弦误差作为损失函数纳入模型:
其中,表示第i个掩码蛋白节点的原始特征,T代表特征转置操作;/>表示解码器对应的重构特征;γ表示缩放因子。
最后,将特征矩阵X与PPI网络的邻接矩阵APPI的邻接矩阵结合,得到蛋白质的潜在表示:
embPPI=GCNenc(X,APPI)
以上为PPI网络中蛋白质潜在表示的计算方法,因为SSN网络和PPI网络共享相同的蛋白质节点,所以二者的蛋白质潜在表示的计算方法相同。
(5)构建基于序列的蛋白质语言模型
本发明将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取,然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与embPPI和embSSN相同的向量空间:
embseq=LeakyReLU(X·W+b)
其中,W表示可学习参数;b表示是偏置项;embseq∈RN×400,表示SSN或PPI网络中蛋白质节点的投影序列特征,embPPI和embSSN表示PPI、SSN网络中蛋白质节点的投影序列特征;
(6)运用全连接分类器进行功能预测
将经过(1)-(5)步骤获得的embPPI、embSSN以及embseq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测:
y=Sigmoid(emb·W+b)
emb=[embPPI+Xconsensus,embSSN+Xconsensus,embseq+Xconsensus]
Xconsensus=avg(embSSN,embPPI,embseq)
其中,W表示分类器中的可学习参数;b表示偏置项。此外,本发明在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征,即Xconsensus,将Xconsensus添加到embPPI、embSSN和embseq进行特征增强以提高训练阶段的稳定性。
实施例2
将实施例1的步骤具体应用于对蛋白质功能预测模型HIF2GO的构建,可对蛋白质进行功能预测。本实施例选取蛋白序列数据库UniProt中两个蛋白质(UniProt ID分别为O75751和Q96RD0),预测结果如下表所示:
表1对两种蛋白质的功能预测结果
由表中可看到:对于O75751蛋白,本发明提出的HIF2GO模型成功预测了跨膜转运蛋白活性、单原子离子跨膜转运蛋白活性、有机阳离子跨膜转运蛋白活性、转运活性、单原子阳离子跨膜转运蛋白活性、氨跨膜转运蛋白活性全部六类功能标签,对于Q96RD0,本发明提出的HIF2GO模型成功预测了嗅觉受体活性、G蛋白偶联受体活性、气味结合蛋白、结合作用、分子传感器活性、跨膜信号受体活性、信号受体活性七类蛋白功能标签。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:包括以下步骤:
(1)构建PPI拓扑特征
首先,从蛋白质相互作用关系数据库(STRING)中收集不同物种的PPI网络拓扑特征,然后,利用STRING数据库提供的“综合分数”来表达一对蛋白质之间的相互作用置信度,最后,根据该相互作用记录构建一个包含若干蛋白质的PPI网络,每个结点表示一个蛋白质;
(2)构建序列相似性网络(SSN)拓扑特征
以步骤(1)中收集的蛋白质为基础,利用BLAST构造具有“相似分数”的SSN网络,与PPI网络中的“综合分数”不同,SSN中一对蛋白质之间的“相似分数”越小,则对应的两个序列越相似;
(3)确定PPI和SSN网络中的节点特征
SSN和PPI网络的拓扑特征反映了一对蛋白质节点之间的两种关系,而节点特征则表达了两个网络中单个蛋白质节点的生物学信息,将蛋白质结构域、亚细胞位置和信号通路作为蛋白质的节点特征用来构建PPI和SSN网络中的特征矩阵;
(4)利用GraphMAE框架获取蛋白质潜在特征
PPI网络表示为无向无权图其中/>APPI和X分别表示蛋白质节点集、邻接矩阵和特征矩阵,邻接矩阵和征矩阵分别从步骤(1)和(3)中获得;在此基础上,随机抽取若干比例的蛋白质节点进行掩码操作,并将该比例设置为超参数纳入模型中;
经过掩码操作后,PPI网络的掩码特征矩阵中的节点特征定义为:
其中,表示PPI网络的掩码特征矩阵,对于掩码节点集/>内的节点,采用掩码处理得到节点特征x[Mask];对于掩码节点集/>以外的节点,则仍保留其原节点特征xi
然后,将包含蛋白质节点特征的掩码特征矩阵以及表示蛋白质相互作用的邻接矩阵输入到GraphMAE的图形编码器中;由于GCN在节点级和图像级分类任务中具有独特的优越性,所以应用了双层GCN作为图编码器来生成PPI网络中每个蛋白质节点的潜在表示H:
其中,表示PPI网络的对称归一化邻接矩阵,可由PPI的邻接矩阵D及归一化邻接矩阵APPI计算:/>表示掩码特征矩阵;/>表示PPI网络中蛋白质节点的数量;W0及W1表示可学习参数,GCNenc(·)表示图卷积神经网络组成的编码器;
为了得到更高质量的蛋白质潜在表示,应用了具有重掩码策略的解码器,在重掩码操作之后,蛋白质节点信息的潜在表示定义为:
其中,h[DMask]表示经过重掩码处理的蛋白节点特征,hi表示无需经过重掩码处理的节点特征;
为了利用被掩蛋白节点与其相邻节点的连通性来恢复被掩节点的特征,选择单层GCN作为图解码器来重建原始特征矩阵:
其中,表示PPI网络中蛋白质节点的潜在表示;W表示可学习参数;Z∈RN×d,表示解码器重建的特征矩阵,其中N表示PPI网络中蛋白质节点的数量,d表示每个蛋白节点的维度;
为了优化GraphMAE框架中的众多可学习参数,提高功能预测的性能,将更适用于重掩蛋白特征表示的缩放余弦误差作为损失函数纳入模型:
其中,表示第i个掩码蛋白节点的原始特征,T代表特征转置操作;/>表示解码器对应的重构特征;γ表示缩放因子;
将特征矩阵X与PPI网络的邻接矩阵APPI的邻接矩阵结合,得到蛋白质的潜在表示:
embPPI=GCNenc(X,APPI)
以上为PPI网络中蛋白质潜在表示的计算方法,因为SSN网络和PPI网络共享相同的蛋白质节点,所以二者的蛋白质潜在表示的计算方法相同;
(5)构建基于序列的蛋白质语言模型
将预训练的ESM-1b应用于SSN和PPI网络中蛋白节点的序列特征提取,然后使用两个具有LeakyReLU激活函数的全连接层将提取的序列特征投影到与embPPI和embSSN相同的向量空间:
embseq=LeakyReLU(X•W+b)
其中,W表示可学习参数;b表示是偏置项;embseq∈RN×400,表示SSN或PPI网络中蛋白质节点的投影序列特征,embPPI和embSSN表示PPI、SSN网络中蛋白质节点的投影序列特征,N表示PPI网络中蛋白质节点的数量;此外,在ESM-1b中输入一个长度为L的序列提取出大小为L×1280的特征向量,并对向量进行列均值化运算以获得蛋白质水平的全局特征;
(6)运用全连接分类器进行功能预测
将经过上述步骤获得的embPPI、embSSN以及embseq连接起来输入到具有Sigmoid激活函数的全连接分类器来执行蛋白质功能预测:
y=Sigmoid(emb•W+b)
emb=[embPPI+Xconsensus,embSSN+Xconsensus,embseq+Xconsensus]
Xconsensus=avg(embSSN,embPPI,embseq)
其中,W表示分类器中的可学习参数;b表示偏置项;在连接操作之前对三种蛋白质潜在特征进行均值化处理以获得潜在的共识表征,即Xconsensus,将Xconsensus添加到
embPPI、embSSN和embseq进行特征增强以提高训练阶段的稳定性,avg表示平均值。
2.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(1)中将STRING数据库提供的“综合分数”作为两个蛋白质节点的边权重用于PPI网络的构建。
3.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(2)中给定“相似分数”阈值并将其设置为10-4,如果两个结点之间的相似分数小于阈值/>则认为两个结点之间存在一条边。
4.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(3)中,从Uniprot、Pfam蛋白质数据库中收集蛋白质结构域的相关注释,然后采用bag-of-words的编码方式,将属于蛋白质结构域的相关注释预处理为0/1向量的特征表现形式,这样就完成了针对蛋白质结构域的特征处理。
5.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(3)中,从COMPARTMENTS、Uniprot和STRING数据库中收集亚细胞位置的相关注释,并应用与蛋白质结构域相同的预处理操作来构建亚细胞位置的特征表示。
6.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(3)中,从Reactome数据库中收集信号通路的相关注释,并应用与蛋白质结构域和亚细胞位置相同的预处理操作来构建SSN和PPI网络中每个蛋白质节点的信号通路的特征表示。
7.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(3)中,将蛋白质数据库中没有任何注释记录的蛋白质的向量表示设置为零向量。
8.根据权利要求1所述的一种基于多源异质信息聚合的蛋白质功能预测方法,其特征在于:所述步骤(4)中,选取30%的蛋白质节点进行掩码操作,并将该比例作为超参数纳入模型中以获得蛋白质的潜在表示,此外,为获得更高质量的潜在表示,纳入了重掩码图解器对其进行了重掩码操作。
CN202310026625.4A 2023-01-09 2023-01-09 一种基于多源异质信息聚合的蛋白质功能预测方法 Active CN116092577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310026625.4A CN116092577B (zh) 2023-01-09 2023-01-09 一种基于多源异质信息聚合的蛋白质功能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310026625.4A CN116092577B (zh) 2023-01-09 2023-01-09 一种基于多源异质信息聚合的蛋白质功能预测方法

Publications (2)

Publication Number Publication Date
CN116092577A CN116092577A (zh) 2023-05-09
CN116092577B true CN116092577B (zh) 2024-01-05

Family

ID=86211629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310026625.4A Active CN116092577B (zh) 2023-01-09 2023-01-09 一种基于多源异质信息聚合的蛋白质功能预测方法

Country Status (1)

Country Link
CN (1) CN116092577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117393036B (zh) * 2023-11-09 2024-07-23 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN118335201B (zh) * 2024-06-12 2024-10-01 安徽农业大学 基于可变形卷积神经网络和趋同相似性原理的预测方法

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法
CN109377624A (zh) * 2018-11-23 2019-02-22 卢伟涛 一种基于人脸图像识别的房门智能开启系统
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110660448A (zh) * 2019-09-20 2020-01-07 长沙学院 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112215408A (zh) * 2020-09-24 2021-01-12 交控科技股份有限公司 轨道交通客流量预测方法及装置
CN113436729A (zh) * 2021-07-08 2021-09-24 湖南大学 一种基于异构图卷积神经网络的合成致死相互作用预测方法
CN113590850A (zh) * 2021-01-29 2021-11-02 腾讯科技(深圳)有限公司 多媒体数据的搜索方法、装置、设备及存储介质
CN113687972A (zh) * 2021-08-30 2021-11-23 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质
CN113724790A (zh) * 2021-09-07 2021-11-30 湖南大学 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN113990386A (zh) * 2021-11-12 2022-01-28 长春工业大学 一种基于图Transformer的药物靶标交互预测方法研究
CN114092804A (zh) * 2021-11-06 2022-02-25 支付宝(杭州)信息技术有限公司 遥感图像的识别方法和装置
CN114238439A (zh) * 2021-12-14 2022-03-25 四川大学 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN114333984A (zh) * 2022-01-10 2022-04-12 青岛理工大学 一种小分子-蛋白质结合亲和力智能预测方法
CN114444664A (zh) * 2022-02-01 2022-05-06 上海图灵智算量子科技有限公司 基于量子计算的注意力模型及神经网络模型
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置
CN114724623A (zh) * 2022-04-29 2022-07-08 中国海洋大学 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法
CN114897704A (zh) * 2022-06-15 2022-08-12 东南大学 一种基于反馈机制的单图像超分辨率算法
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN115115918A (zh) * 2022-06-16 2022-09-27 上海人工智能创新中心 一种基于多知识融合的视觉学习方法
CN115115920A (zh) * 2022-05-16 2022-09-27 清华大学 一种数据训练方法及装置
CN115472221A (zh) * 2022-10-21 2022-12-13 重庆邮电大学 一种基于深度学习的蛋白质适应度预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225278B1 (ko) * 2020-01-31 2021-03-10 주식회사 스탠다임 질의되는 개체와 관련되는 질병, 유전자 또는 단백질을 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109377624A (zh) * 2018-11-23 2019-02-22 卢伟涛 一种基于人脸图像识别的房门智能开启系统
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110660448A (zh) * 2019-09-20 2020-01-07 长沙学院 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法
CN111145830A (zh) * 2019-12-26 2020-05-12 长沙学院 基于网络传播的蛋白质功能预测方法
CN111210871A (zh) * 2020-01-09 2020-05-29 青岛科技大学 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112215408A (zh) * 2020-09-24 2021-01-12 交控科技股份有限公司 轨道交通客流量预测方法及装置
CN113590850A (zh) * 2021-01-29 2021-11-02 腾讯科技(深圳)有限公司 多媒体数据的搜索方法、装置、设备及存储介质
CN113436729A (zh) * 2021-07-08 2021-09-24 湖南大学 一种基于异构图卷积神经网络的合成致死相互作用预测方法
CN113687972A (zh) * 2021-08-30 2021-11-23 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质
CN113724790A (zh) * 2021-09-07 2021-11-30 湖南大学 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN114092804A (zh) * 2021-11-06 2022-02-25 支付宝(杭州)信息技术有限公司 遥感图像的识别方法和装置
CN113990386A (zh) * 2021-11-12 2022-01-28 长春工业大学 一种基于图Transformer的药物靶标交互预测方法研究
CN114238439A (zh) * 2021-12-14 2022-03-25 四川大学 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN114333984A (zh) * 2022-01-10 2022-04-12 青岛理工大学 一种小分子-蛋白质结合亲和力智能预测方法
CN114444664A (zh) * 2022-02-01 2022-05-06 上海图灵智算量子科技有限公司 基于量子计算的注意力模型及神经网络模型
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置
CN114724623A (zh) * 2022-04-29 2022-07-08 中国海洋大学 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法
CN115115920A (zh) * 2022-05-16 2022-09-27 清华大学 一种数据训练方法及装置
CN114897704A (zh) * 2022-06-15 2022-08-12 东南大学 一种基于反馈机制的单图像超分辨率算法
CN115115918A (zh) * 2022-06-16 2022-09-27 上海人工智能创新中心 一种基于多知识融合的视觉学习方法
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN115472221A (zh) * 2022-10-21 2022-12-13 重庆邮电大学 一种基于深度学习的蛋白质适应度预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PPI-Affinity: A Web Tool for the Prediction and Optimization of Protein−Peptide and Protein−Protein Binding Affinit;Sandra Romero-Molina et al;《Proteome》;1829−1841 *
基于序列和PPI网络的蛋白质功能预测方法研究;滕志霞;《中国博士学位论文全文数据库 基础科学辑》;第2017年卷(第2期);A006-91 *
基于网络的蛋白质功能预测方法研究;谭凯;《中国优秀硕士学位论文全文数据库 基础科学辑》;第2021年卷(第12期);A006-314 *

Also Published As

Publication number Publication date
CN116092577A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN116092577B (zh) 一种基于多源异质信息聚合的蛋白质功能预测方法
Feng et al. DeepMM: Deep learning based map matching with data augmentation
Jin et al. Selective cross-city transfer learning for traffic prediction via source city region re-weighting
Yuan et al. Joint multimodal entity-relation extraction based on edge-enhanced graph alignment network and word-pair relation tagging
Wang et al. Aa-trans: Core attention aggregating transformer with information entropy selector for fine-grained visual classification
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
Wang et al. Molecular property prediction based on a multichannel substructure graph
Liu et al. Behavior2vector: Embedding users’ personalized travel behavior to vector
Gao et al. Adversarial mobility learning for human trajectory classification
Ren et al. Dynamic graph transformer for 3D object detection
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法
Liu et al. Auto-sharing parameters for transfer learning based on multi-objective optimization
Xin et al. Few-shot object detection: Research advances and challenges
Zhang et al. A Survey of Generative Techniques for Spatial-Temporal Data Mining
Cai et al. Semantic and correlation disentangled graph convolutions for multilabel image recognition
Zhang et al. Strans-gan: Spatially-transferable generative adversarial networks for urban traffic estimation
Wang et al. Abnormal trajectory detection based on geospatial consistent modeling
Yin et al. Nodetrans: A graph transfer learning approach for traffic prediction
Lin et al. Transpose: 6d object pose estimation with geometry-aware transformer
Wang et al. Doufu: a double fusion joint learning method for driving trajectory representation
Ma et al. Disjoint masking with joint distillation for efficient masked image modeling
Wang et al. Self-supervised 3D skeleton representation learning with active sampling and adaptive relabeling for action recognition
Yang et al. Classification and localization of maize leaf spot disease based on weakly supervised learning
Li et al. Patch similarity self-knowledge distillation for cross-view geo-localization
Yu et al. UnifiedTT: Visual tracking with unified transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant