CN113192559A - 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 - Google Patents

基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 Download PDF

Info

Publication number
CN113192559A
CN113192559A CN202110502536.3A CN202110502536A CN113192559A CN 113192559 A CN113192559 A CN 113192559A CN 202110502536 A CN202110502536 A CN 202110502536A CN 113192559 A CN113192559 A CN 113192559A
Authority
CN
China
Prior art keywords
protein
map
deep
network
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110502536.3A
Other languages
English (en)
Other versions
CN113192559B (zh
Inventor
杨跃东
袁乾沐
卢宇彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110502536.3A priority Critical patent/CN113192559B/zh
Publication of CN113192559A publication Critical patent/CN113192559A/zh
Application granted granted Critical
Publication of CN113192559B publication Critical patent/CN113192559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深层图卷积网络的蛋白质‑蛋白质相互作用位点预测方法,包括步骤如下:根据蛋白质的序列和结构信息,提取节点特征矩阵和包含边信息的邻接矩阵,共同构成蛋白图表征;采用基于初始残差和恒等映射的深层图卷积;深层图卷积的最后一层图卷积层的输出输入一个多层感知机,完成构建深层图卷积神经网络;将训练数据提取得到蛋白图表征,采用五折交叉验证方法对深层图卷积神经网络进行训练;将待测数据通过提取得到蛋白图表征,并输入训练好的深层图卷积神经网络,实现对蛋白‑蛋白相互作用位点的预测。本发明能更充分地利用蛋白质空间结构信息,进一步提高蛋白‑蛋白相互作用位点预测的准确率。

Description

基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测 方法
技术领域
本发明涉及生物信息技术领域,更具体的,涉及一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法。
背景技术
蛋白-蛋白相互作用(PPI)在信号传导、物质运输和新陈代谢等生理活动中扮演重要角色。识别蛋白-蛋白复合物之间参与物理接触的氨基酸(即蛋白-蛋白相互作用位点)有助于构建蛋白-蛋白相互作用网络、预测蛋白功能、揭示疾病机理和新药研发。然而,用双杂交试验和亲和力纯化等传统实验方法来识别PPI 位点成本高且耗时长。因此,研发能准确预测PPI位点的计算方法有很大的实际意义。
目前预测PPI位点的计算方法可根据方法所需的信息分为两大类:
第一类是基于蛋白序列的方法,此类方法只需蛋白质的氨基酸序列信息即可做出预测,但它们的预测准确率通常非常有限;二类是基于蛋白结构的方法,此类方法需要蛋白质中氨基酸的三维原子坐标信息来预测PPI位点,而它们的预测准确率通常更高,且由于目前结构已知但功能未知的蛋白质越来越多,基于结构的预测方法有很大实际意义。
大多数现有的PPI位点预测方法基于机器学习技术,其中蛋白质会被编码成特征矩阵。常用的蛋白特征包括独热(one-hot)编码、进化保守性信息、二级结构、相对溶解性(RSA)和氨基酸物理化学性质等。提取蛋白质特征后,各种各样的机器学习技术可被应用于PPI位点预测,如最近的基于序列的方法DELPHI 使用了包含卷积神经网络和循环神经网络的集成框架;基于结构的方法 DeepPPISP使用卷积神经网络提取蛋白质全局信息。
然而,这些方法都只将蛋白质视作一维序列,从而去学习序列上相近的氨基酸的相互关系。由于蛋白质是一个折叠的三维结构,这些方法忽略了在序列上相距很远,但在三维空间上相距很近的氨基酸带来的影响。另一方面,基于结构的方法SPPIDER考虑到了这点,并利用带权平均的方法整合空间上相距
Figure RE-GDA0003116449740000021
以内的氨基酸的特征。然而,这种选择邻居的方式基于一个较随意的距离阈值,且不能提取到空间上相距较远的氨基酸信息,而线性的平均也不能有效模拟空间相邻的氨基酸之间的复杂关系。
发明内容
现有的PPI位点预测方法大多数只提取序列上相邻的氨基酸信息,又或者是过于简单地整合空间结构信息,为了解决现有方法的以上存在的不足,本发明提出了一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其能更充分地利用蛋白质空间结构信息,进一步提高蛋白-蛋白相互作用位点预测的准确率。
为实现上述本发明目的,采用的技术方案如下:
一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,所述的方法包括步骤如下:
S1:根据蛋白质的序列和结构信息,提取节点特征矩阵和包含边信息的邻接矩阵,共同构成蛋白图表征;
S2:采用基于初始残差和恒等映射的深层图卷积,以捕获高阶空间邻近氨基酸的特征;并在深层图卷积的最后一层图卷积层的输出输入一个多层感知机,实现最终预测每一个氨基酸的蛋白相互作用概率,完成构建深层图卷积神经网络;
S3:将训练数据通过步骤S1提取得到蛋白图表征,采用五折交叉验证方法对步骤S2得到的深层图卷积神经网络进行训练;
S4:将待测数据通过步骤S1提取得到蛋白图表征,并输入步骤S3训练好的深层图卷积神经网络,实现对蛋白-蛋白相互作用位点的预测。
步骤S1,通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征;
其中所述的进化信息包括位置特异性打分矩阵和隐马尔可夫模型特征;
对于长度为n的蛋白质序列中的每个氨基酸,生成20维的位置特异性打分矩阵、20维的隐马尔可夫模型特征和14维结构信息,最终组成维度为n×54的节点特征矩阵。
进一步地,在位置特异性打分矩阵或隐马尔可夫模型特征中,每个氨基酸被编码成一个20维的向量,并利用最大-最小值归一化将特征向量中的值归一化至0-1之间;其中,最大-最小值归一化的表达式如下:
Figure RE-GDA0003116449740000031
其中,v是原始特征值;Min和Max是此特征类型在训练集中观察到的最小值和最大值。
再进一步地,所述的结构信息包括以下的蛋白质结构特征:
a)9维的one-hot二级结构特征,其中前8维代表8种不同的二级结构类型,最后一维代表未知的二级结构;
b)肽骨架扭转角的正弦值和余弦值;
c)通过对应氨基酸类型的最大溶解性表面积归一化得到的氨基酸相对溶解性;
最终,每个氨基酸生成14维的结构特征。
再进一步地,步骤S1,所述的邻接矩阵的构建具体如下:
使用维度为n×n的邻接矩阵表示蛋白图中的边,邻接矩阵的构建分为两步:
a)根据蛋白质的PDB文件,获取每个氨基酸残基的Cα原子坐标,并计算所有残基对之间的欧氏距离,得到蛋白距离图;
b)设定一个距离阈值,将蛋白距离图中大于该距离阈值的距离值转换成0,小于或等于该距离阈值的距离值转换成1,从而得到离散的邻接矩阵。
再进一步地,步骤S2,所述的基于初始残差和恒等映射的深层图卷积的表达式如下:
H(l+1)=σ(((1-α)PH(l)+αH(0))((1-βl)InlW(l)))
式中,σ表示线性整流函数;H(l)表示经过第l+1层卷积层之前的节点隐含状态;H(l +1)表示经过第l+1层卷积层之后的节点隐含状态;W(l)表示可训练的权重矩阵;α和βl为超参数;P表示归一化后的邻接矩阵。
再进一步地,所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下:
Y′=Softmax(H(L)W+b)
其中,H(L)表示第L层图卷积层的输出;W为权重矩阵;b为偏置项;
Figure RE-GDA0003116449740000032
为n个氨基酸的预测值;Softmax函数将网络的输出归一化为两个预测类别的概率分布。
再进一步地,对训练数据采用五折交叉验证方法,即训练数据被随机划分为五折,每次使用其中的四折训练深层图卷积神经网络,并利用最后一折评估深层图卷积神经网络的性能;
重复5次,并计算五折的平均性能,以此来优化特征组合和超参数选择。
再进一步地,设置
Figure RE-GDA0003116449740000041
其中λ为超参数。
再进一步地,采用8层的图卷积神经网络,网络隐含单元维度为256;α设置为0.7;λ设置为1.5;将蛋白距离图转换成离散邻接矩阵的距离阈值设置为
Figure RE-GDA0003116449740000042
本发明的有益效果如下:
(1)本发明将蛋白质看作一个无向连通图,其中节点是氨基酸,边是由氨基酸间距离计算得到的氨基酸接触信息;而蛋白-蛋白相互作用位点预测问题被视作图节点分类问题来解决。
(2)本发明利用基于初始残差连接和恒等映射的深层图卷积神经网络,以捕获高阶空间邻近氨基酸的特征,提高蛋白-蛋白相互作用预测准确率。
(3)本发明可直接推广至其他类型的蛋白质功能位点预测任务中,如蛋白- 小分子配体结合位点预测。
附图说明
图1是实施例1所述的方法的总体网络框架。
图2是实施例1根据所述的方法进行模型消融实验的实验数据。
图3是实施例1本实施例所述的方法(A)与LSTM(B)的预测结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,所述的方法包括步骤如下:
S1:根据蛋白质的序列和结构信息,提取节点特征矩阵和包含边信息的邻接矩阵,共同构成蛋白图表征;
S2:采用基于初始残差和恒等映射的深层图卷积,以捕获高阶空间邻近氨基酸的特征;并在深层图卷积的最后一层图卷积层的输出输入一个多层感知机,实现最终预测每一个氨基酸的蛋白相互作用概率,完成构建深层图卷积神经网络;
S3:将训练数据通过步骤S1提取得到蛋白图表征,采用五折交叉验证方法对步骤S2得到的深层图卷积神经网络进行训练;
S4:将待测数据通过步骤S1提取得到蛋白图表征,并输入步骤S3训练好的深层图卷积神经网络,实现对蛋白-蛋白相互作用位点的预测。
在一个具体的实施例中,步骤S1,通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征;
所述的进化信息:由于进化上保守的氨基酸通常会包含某些重要的基序,这些基序可能和蛋白质结合倾向性等重要蛋白性质有关。
本实施例所述的进化信息采用了两种进化信息:位置特异性打分矩阵 (PSSM)和隐马尔可夫模型特征(HMM);
具体来说,所述的位置特异性打分矩阵PSSM是通过运行v2.10.1版的 PSI-BLAST将目标蛋白序列与UniRef90数据库进行比对得到,其中软件中的迭代次数设置为3,E-value设置为0.001。所述的隐马尔可夫模型特征HMM是通过运行v3.0.3版的HHblits并使用软件默认参数将目标蛋白序列和UniClust30数据库进行比对得到。
在PSSM或HMM特征矩阵中,每个氨基酸被编码成一个20维的向量,并利用最大-最小值归一化(式1)将特征向量中的值归一化至0-1之间;其中,最大-最小值归一化的表达式如下:
Figure RE-GDA0003116449740000051
其中,v是原始特征值;Min和Max是此特征类型在训练集中观察到的最小值和最大值。
所述的结构信息:本实施例通过DSSP软件,对蛋白质提取了三种类型的结构特征:
a)9维的one-hot二级结构特征,其中前8维代表8种不同的二级结构类型,最后一维代表未知的二级结构。
b)肽骨架扭转角(PHI和PSI)的正弦值和余弦值(4维)。
c)通过对应氨基酸类型的最大溶解性表面积(ASA)归一化得到的氨基酸相对溶解性(RSA)。
最终通过DSSP,每个氨基酸生成14维(9+4+1)的结构特征。
综上所述,本实施例对于长度为n的蛋白质序列中的每个氨基酸,生成20 维的PSSM、20维的HMM和14维结构信息,最终组成维度为n×54的节点特征矩阵。
在一个具体的实施例中,步骤S1,所述的邻接矩阵的构建具体如下:
本实施例使用维度为n×n的邻接矩阵表示蛋白图中的边,邻接矩阵的构建分为两步:
a)根据蛋白质的PDB文件,获取每个氨基酸残基的Cα原子坐标,并计算所有残基对之间的欧氏距离,得到蛋白距离图;
b)设定一个距离阈值,将蛋白距离图中大于该距离阈值的距离值转换成0,小于或等于该距离阈值的距离值转换成1,从而得到离散的邻接矩阵。此距离阈值根据模型在训练数据集上的性能表现来确定,最终设为
Figure RE-GDA0003116449740000061
在一个具体的实施例中,如图1所示,本实施例的总体网络框架,其中带有初始残差连接和恒等映射的L层图卷积神经网络(GCN)根据邻接矩阵聚合空间上邻近氨基酸的特征,并最终通过一个多层感知机(MLP)将最后一个图卷积层的输出转换成PPI位点预测结果。
对于一个包含n个氨基酸的蛋白质,本实施例将其表示为由节点特征矩阵
Figure RE-GDA0003116449740000062
和邻接矩阵
Figure RE-GDA0003116449740000063
构成的蛋白图,其中m为每个节点的特征维度(即 54)。邻接矩阵可被归一化为P=D-1/2AD-1/2,其中D为邻接矩阵A的对角度矩阵。由此,图卷积操作便可通过以下公式计算:
H(l+1)=σ(PH(l)W(l))
其中,σ代表线性整流函数(ReLU);H(l)表示经过第l+1层卷积层之前的节点隐含状态;H(l+1)表示经过第l+1层卷积层之后的节点隐含状态;W(l)为可训练的权重矩阵。
但是浅层的GCN不能提取高阶邻居节点的信息,而简单的深层GCN又会出现过平滑问题,即经过多次节点聚合,图中每个节点的特征表示趋于一致,从而无法区分。本实施例采用基于初始残差和恒等映射的深层图卷积来解决深层 GCN的过平滑问题,从而使其有效捕获高阶邻居节点的信息:
所述的基于初始残差和恒等映射的深层图卷积的表达式如下:
H(l+1)=σ(((1-α)PH(l)+αH(0))((1-βl)InlW(l)))
式中,σ表示线性整流函数;H(l)表示经过第l+1层卷积层之前的节点隐含状态;H(l +1)表示经过第l+1层卷积层之后的节点隐含状态;W(l)表示可训练的权重矩阵;α和βl为超参数;P表示归一化后的邻接矩阵。
与普通GCN相比,有两处变化:一是平滑表示PH(l)通过初始残差连接与第一层的H(0)相连;二是第l层的权重矩阵W(l)加上了一个单位矩阵In。初始残差保证了即使网络层数很深,每个节点最后的表示都会至少保留一部分原始的输入信息,以此来减缓过平滑效应;恒等映射则通过使权重矩阵的衰减随着网络加深而自适应增加,从而使得深层的GCN模型至少达到和浅层一样的效果。本实施例设置
Figure RE-GDA0003116449740000071
其中λ为超参数。
在一个具体的实施例中,所述的深层图卷积的最后一层图卷积层的输出输入一个多层感知机(MLP),从而最终预测每一个氨基酸的蛋白相互作用概率:
所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下:
Y′=Softmax(H(L)W+b)
其中,H(L)表示第L层图卷积层的输出;W为权重矩阵;b为偏置项;
Figure RE-GDA0003116449740000072
为n个氨基酸的预测值;Softmax函数将网络的输出归一化为两个预测类别的概率分布(非蛋白相互作用位点及蛋白相互作用位点)。
综上,本实施例主要分为两步:第一步是蛋白质特征提取,根据蛋白质的序列和结构信息生成节点特征矩阵和包含边信息的邻接矩阵,共同构成蛋白图;第二步是利用带有初始残差连接和恒等映射的L层图卷积网络聚合空间上邻近氨基酸的特征,并最终通过一个多层感知机将图卷积层的输出转换成PPI位点预测。本方法的总体流程如图1所示。
在一个具体的实施例中,对深层图卷积神经网络训练方面,本实施例对训练数据采取五折交叉验证,即训练数据被随机划分为五折,每次使用其中的四折训练模型,并利用最后一折评估模型的性能。此过程重复五次,并计算五折的平均性能,以此来优化特征组合和超参数选择。最终,本实施例采用了8层的图卷积神经网络,网络隐含单元维度为256,α设置为0.7,λ设置为1.5,学习率为0.001,权重衰减(weight decay)为0,批次大小(batchsize)为1。网络单元随机丢弃率(dropout rate)设置为0.1,用以避免出现过拟合。将蛋白距离图转换成离散邻接矩阵的距离阈值设置为
Figure RE-GDA0003116449740000081
本实施例使用1.6.0版的Pytorch搭建模型,并使用交叉熵损失函数(cross-entropy loss)和Adam优化器优化模型的内部参数。本方法使用一个英伟达GeForce GTX 1080Ti GPU进行训练,训练最多持续50 个周期,大约花费15分钟。
为了进一步验证本实施例所述的方法的技术效果,本实施例采用了三个公开且被广泛使用的数据集用于模型的训练和测试:Dset_186,Dset_164和Dset_72,其中Dset_186和Dset_164是由蛋白数据库(PDB)中的蛋白-蛋白复合物提取并整理过滤得到的;而Dset_72是由蛋白-蛋白对接基准数据集提取得到的。在这些数据集中,蛋白相互作用位点被定义为在形成蛋白-蛋白复合物的过程中丢失绝对溶解表面积大于的
Figure RE-GDA0003116449740000082
的蛋白表面氨基酸。将这三个数据集合并为一个数据集,并使用BLASTClust软件去除序列相似性大于25%的冗余蛋白,最终得到395 条蛋白链。随机选择335条蛋白链作为训练集,并使用剩下的60条蛋白链作为独立测试。
和其他方法一样,我们使用准确率(ACC)、精确度(Precision)、召回率 (Recall)、F1值、马修斯相关系数(MCC)、接收者操作特征曲线下面积(AUROC) 和精确度-召回率曲线下面积(AUPRC)作为评估本实施例所述的方法性能的指标(指标越大,表示模型预测越准确)。其中AUROC和AUPRC与预测概率转换成二元预测结果所用的阈值无关,故反映了本实施例所述的方法的总体性能。对于其他与阈值相关的指标,我们通过最大化每个模型的F1值得到对应的最佳阈值,从而计算相应指标。
下面具体介绍三组实验结果,以证明本实施例的优势:
(1)模型消融实验
为了证明本实施例所使用的初始残差连接和恒等映射的作用,以及使用深层图卷积神经网络的优势,我们进行了如图2所示的模型消融实验。由此可见,仅使用初始残差和恒等映射,都只能部分减缓过平滑效应;然而当初始残差和恒等映射同时使用时(即本发明),本实施例深层图卷积神经网络的性能会随着网络的加深而提升,并在8层时达到最好的性能,且继续加深网络并不会导致性能下降。
(2)与现有其他方法的对比
将本实施例所述的方法与四种基于序列的方法(PSIVER、SCRIBER、DLPred 和DELPHI)以及两种基于结构的方法(DeepPPISP和SPPIDER)进行比较。此外,还使用相同的节点特征搭建了一个两层的双向长短期记忆(LSTM)模型用以控制变量,评估空间信息和深层图卷积神经网络的作用。
如表1所示,本发明在测试集上AUPRC达到0.429,相比四种基于序列的方法(AUPRC0.190到0.319)性能提升很大。基于结构的方法DeepPPISP性能较差,这是因为它在氨基酸表征上没有使用RSA这个重要特征。另一方面, SPPIDER简单地考虑了空间邻居的信息,这使得它的性能达到仅此于本发明的水平,并且略高于LSTM。然而,通过利用深层图网络架构充分提取空间信息,本发明在AUPRC和MCC指标上分别超越LSTM 18.2%和21.5%;并超越SPPIDER 15.0%和16.8%。
表1.与其他方法的性能对比。DeepPPISP的结果通过使用它的源代码来重新训练得到;PSIVER和 SPPIDER的预测结果由它们的网络服务器生成;星号(*)标记的方法的预测结果从https://delphi.csd.uwo.ca/ 处获取。
Figure RE-GDA0003116449740000091
(3)假阳性位点的空间分布
为了进一步阐明空间信息和深层图卷积对于预测PPI位点的作用,我们选取了一个具体的例子(人类鸟嘌呤核苷酸交换因子,PDB ID:1R8S_E)来测试对比本发明(A)与LSTM(B)的预测结果,结果如图3所示,其中假阴性、真阳性和假阳性分别显示为浅灰色、深灰色和黑色。在这个例子中,一共有187个氨基酸,其中40个是蛋白结合位点。本发明预测了47个结合位点,其中32个为真阳性,MCC为0.660。相比之下,LSTM预测了52个结合位点,其中仅25个为真阳性,MCC为0.404,且其预测的假阳性数量比本发明方法多80%。
由图3可见,本发明预测的假阳性位点大部分都位于真实的PPI位点周围,而LSTM预测了很多空间上孤立散布且离真实PPI位点很远的假阳性位点。可见,由于空间信息的约束,本发明不仅预测准确率更高,且其错误预测的结合位点也会更靠近真实位点,也就更有可能是潜在的蛋白结合位点。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:所述的方法包括步骤如下:
S1:根据蛋白质的序列和结构信息,提取节点特征矩阵和包含边信息的邻接矩阵,共同构成蛋白图表征;
S2:采用基于初始残差和恒等映射的深层图卷积,以捕获高阶空间邻近氨基酸的特征;并在深层图卷积的最后一层图卷积层的输出输入一个多层感知机,实现最终预测每一个氨基酸的蛋白相互作用概率,完成构建深层图卷积神经网络;
S3:将训练数据通过步骤S1提取得到蛋白图表征,采用五折交叉验证方法对步骤S2得到的深层图卷积神经网络进行训练;
S4:将待测数据通过步骤S1提取得到蛋白图表征,并输入步骤S3训练好的深层图卷积神经网络,实现对蛋白-蛋白相互作用位点的预测。
2.根据权利要求1所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:步骤S1,通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征;
其中所述的进化信息包括位置特异性打分矩阵和隐马尔可夫模型特征;
对于长度为n的蛋白质序列中的每个氨基酸,生成20维的位置特异性打分矩阵、20维的隐马尔可夫模型特征和14维结构信息,最终组成维度为n×54的节点特征矩阵。
3.根据权利要求2所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在位置特异性打分矩阵或隐马尔可夫模型特征中,每个氨基酸被编码成一个20维的向量,并利用最大-最小值归一化将特征向量中的值归一化至0-1之间;其中,最大-最小值归一化的表达式如下:
Figure RE-FDA0003116449730000011
其中,v是原始特征值;Min和Max是此特征类型在训练集中观察到的最小值和最大值。
4.根据权利要求2所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:所述的结构信息包括以下的蛋白质结构特征:
a)9维的one-hot二级结构特征,其中前8维代表8种不同的二级结构类型,最后一维代表未知的二级结构;
b)肽骨架扭转角的正弦值和余弦值;
c)通过对应氨基酸类型的最大溶解性表面积归一化得到的氨基酸相对溶解性;
最终,每个氨基酸生成14维的结构特征。
5.根据权利要求1所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:步骤S1,所述的邻接矩阵的构建具体如下:
使用维度为n×n的邻接矩阵表示蛋白图中的边,邻接矩阵的构建分为两步:
a)根据蛋白质的PDB文件,获取每个氨基酸残基的Cα原子坐标,并计算所有残基对之间的欧氏距离,得到蛋白距离图;
b)设定一个距离阈值,将蛋白距离图中大于该距离阈值的距离值转换成0,小于或等于该距离阈值的距离值转换成1,从而得到离散的邻接矩阵。
6.根据权利要求1~5任一项所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:步骤S2,所述的基于初始残差和恒等映射的深层图卷积的表达式如下:
H(l+1)=σ(((1-α)PH(l)+αH(0))((1-βl)InlW(l)))
式中,σ表示线性整流函数;H(l)表示经过第l+1层卷积层之前的节点隐含状态;H(l+1)表示经过第l+1层卷积层之后的节点隐含状态;W(l)表示可训练的权重矩阵;α和βl为超参数;P表示归一化后的邻接矩阵。
7.根据权利要求6所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下:
Y′=Softmax(H(L)W+b)
其中,H(L)表示第L层图卷积层的输出;W为权重矩阵;b为偏置项;
Figure RE-FDA0003116449730000021
为n个氨基酸的预测值;Softmax函数将网络的输出归一化为两个预测类别的概率分布。
8.根据权利要求7所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:对训练数据采用五折交叉验证方法,即训练数据被随机划分为五折,每次使用其中的四折训练深层图卷积神经网络,并利用最后一折评估深层图卷积神经网络的性能;
重复5次,并计算五折的平均性能,以此来优化特征组合和超参数选择。
9.根据权利要求8所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:设置
Figure RE-FDA0003116449730000031
其中λ为超参数。
10.根据权利要求9所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法,其特征在于:采用8层的图卷积神经网络,网络隐含单元维度为256;α设置为0.7;λ设置为1.5;将蛋白距离图转换成离散邻接矩阵的距离阈值设置为
Figure RE-FDA0003116449730000032
CN202110502536.3A 2021-05-08 2021-05-08 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法 Active CN113192559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110502536.3A CN113192559B (zh) 2021-05-08 2021-05-08 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110502536.3A CN113192559B (zh) 2021-05-08 2021-05-08 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Publications (2)

Publication Number Publication Date
CN113192559A true CN113192559A (zh) 2021-07-30
CN113192559B CN113192559B (zh) 2023-09-26

Family

ID=76988689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110502536.3A Active CN113192559B (zh) 2021-05-08 2021-05-08 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Country Status (1)

Country Link
CN (1) CN113192559B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537409A (zh) * 2021-09-13 2021-10-22 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN113707213A (zh) * 2021-09-08 2021-11-26 上海交通大学 基于深度学习的蛋白质-配体结合位点预测方法
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114530205A (zh) * 2021-08-31 2022-05-24 天津工业大学 一种用于人工智能算法的器官芯片数据库向量化方案
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN115295072A (zh) * 2022-10-10 2022-11-04 山东大学 基于图神经网络的蛋白质相互作用位点预测方法及系统
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN116106461A (zh) * 2022-11-03 2023-05-12 西湖大学 一种基于深层图网络的预测液相色谱保留时间的方法和装置
CN117437975A (zh) * 2023-12-19 2024-01-23 粤港澳大湾区数字经济研究院(福田) 一种蛋白质结合位点预测方法、装置、终端及存储介质
CN117912540A (zh) * 2024-03-20 2024-04-19 山东科技大学 基于图神经网络的可解释性蛋白质间相互作用预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022817A2 (en) * 2012-08-03 2014-02-06 Novartis Ag Methods to identify amino acid residues involved in macromolecular binding and uses therefor
US20190311811A1 (en) * 2018-04-07 2019-10-10 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111863121A (zh) * 2020-07-06 2020-10-30 枣庄学院 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN112331257A (zh) * 2020-10-26 2021-02-05 徐州医科大学 一种基于图卷积神经网络的病毒-宿主相互作用预测方法
CN112382411A (zh) * 2020-11-13 2021-02-19 大连理工大学 一种基于异质图的药物-蛋白质靶向作用预测方法
CN112530514A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014022817A2 (en) * 2012-08-03 2014-02-06 Novartis Ag Methods to identify amino acid residues involved in macromolecular binding and uses therefor
US20190311811A1 (en) * 2018-04-07 2019-10-10 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111863121A (zh) * 2020-07-06 2020-10-30 枣庄学院 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN112331257A (zh) * 2020-10-26 2021-02-05 徐州医科大学 一种基于图卷积神经网络的病毒-宿主相互作用预测方法
CN112382411A (zh) * 2020-11-13 2021-02-19 大连理工大学 一种基于异质图的药物-蛋白质靶向作用预测方法
CN112530514A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MING CHEN ETAL: "Simple and Deep Graph Convolutional Networks", 《ARXIV - CS - MACHINE LEARNING,HTTPS://ARXIV.ORG/PDF/2007.02133.PDF》 *
MING CHEN ETAL: "Simple and Deep Graph Convolutional Networks", 《ARXIV - CS - MACHINE LEARNING,HTTPS://ARXIV.ORG/PDF/2007.02133.PDF》, 4 July 2020 (2020-07-04), pages 1 - 13 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN113593633B (zh) * 2021-08-02 2023-07-25 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN113593631B (zh) * 2021-08-09 2022-11-29 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114530205A (zh) * 2021-08-31 2022-05-24 天津工业大学 一种用于人工智能算法的器官芯片数据库向量化方案
CN113707213B (zh) * 2021-09-08 2024-03-08 上海交通大学 基于对比图神经网络的蛋白质结构快速分类方法
CN113707213A (zh) * 2021-09-08 2021-11-26 上海交通大学 基于深度学习的蛋白质-配体结合位点预测方法
CN113537409A (zh) * 2021-09-13 2021-10-22 烟台双塔食品股份有限公司 一种豌豆蛋白数据特征提取方法
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN113851192B (zh) * 2021-09-15 2023-06-30 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN114927165B (zh) * 2022-07-20 2022-12-02 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN115312119B (zh) * 2022-10-09 2023-04-07 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
US11908140B1 (en) 2022-10-09 2024-02-20 Zhejiang Lab Method and system for identifying protein domain based on protein three-dimensional structure image
CN115295072A (zh) * 2022-10-10 2022-11-04 山东大学 基于图神经网络的蛋白质相互作用位点预测方法及系统
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN115620803B (zh) * 2022-11-02 2023-10-20 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN116106461A (zh) * 2022-11-03 2023-05-12 西湖大学 一种基于深层图网络的预测液相色谱保留时间的方法和装置
CN116106461B (zh) * 2022-11-03 2024-02-06 西湖大学 一种基于深层图网络的预测液相色谱保留时间的方法和装置
CN117437975A (zh) * 2023-12-19 2024-01-23 粤港澳大湾区数字经济研究院(福田) 一种蛋白质结合位点预测方法、装置、终端及存储介质
CN117912540A (zh) * 2024-03-20 2024-04-19 山东科技大学 基于图神经网络的可解释性蛋白质间相互作用预测方法

Also Published As

Publication number Publication date
CN113192559B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN113192559B (zh) 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN111798935A (zh) 基于神经网络的普适性化合物结构-性质相关性预测方法
CN112215259B (zh) 基因选择方法和装置
Wang et al. Predicting protein interactions using a deep learning method-stacked sparse autoencoder combined with a probabilistic classification vector machine
CN112348090A (zh) 一种基于近邻自编码器的近邻异常检测系统
Kumar et al. Future of machine learning (ml) and deep learning (dl) in healthcare monitoring system
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
Hoang et al. Splice sites detection using chaos game representation and neural network
CN115908112A (zh) 一种面向低重叠率的点云配准方法
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN110414562B (zh) X光片的分类方法、装置、终端及存储介质
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN115661498A (zh) 一种自优化单细胞聚类方法
WO2022142084A1 (zh) 匹配筛选方法及装置、电子设备、存储介质和计算机程序
CN114722273A (zh) 基于局部结构特征增强的网络对齐方法、装置及设备
Bellot Pujalte Study of gene regulatory networks inference methods from gene expression data
Rambhatla et al. I-SEA: Importance Sampling and Expected Alignment-Based Deep Distance Metric Learning for Time Series Analysis and Embedding
CN113096828B (zh) 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台
CN110795591A (zh) 一种基于离散梯度反向传播的图像检索方法
CN116070120B (zh) 一种多标签时序电生理信号的自动识别方法及系统
US20230253076A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
US20220334205A1 (en) Detection of Bio-Markers in Functional MRI Scans
CN116110593A (zh) 一种癌症患者聚类与生存分析方法及相关设备
CN116363455A (zh) 一种基于无监督学习的回环检测方法
CN113128587A (zh) 基于位置学习图卷积神经网络的图分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant