CN113257357A - 蛋白质残基接触图预测方法 - Google Patents

蛋白质残基接触图预测方法 Download PDF

Info

Publication number
CN113257357A
CN113257357A CN202110664113.1A CN202110664113A CN113257357A CN 113257357 A CN113257357 A CN 113257357A CN 202110664113 A CN202110664113 A CN 202110664113A CN 113257357 A CN113257357 A CN 113257357A
Authority
CN
China
Prior art keywords
protein
residue contact
features
predicting
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110664113.1A
Other languages
English (en)
Other versions
CN113257357B (zh
Inventor
李重
虞敏哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110664113.1A priority Critical patent/CN113257357B/zh
Publication of CN113257357A publication Critical patent/CN113257357A/zh
Application granted granted Critical
Publication of CN113257357B publication Critical patent/CN113257357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于深度神经网络框架的蛋白质残基接触图预测方法,包括搭建集成深度神经网络框架、数据集的选取、使用一维特征和二维特征作为网络的输入特征、使用搭建的集成深度神经网络框架在数据集上学习预测模型、模型参数设置、将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。该蛋白质残基接触图预测方法对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。

Description

蛋白质残基接触图预测方法
技术领域
本发明涉及生物信息学与计算机应用领域,尤其涉及一种基于集成深度神经网络框架的蛋白质残基接触图预测方法。
背景技术
蛋白质是生物学中最重要的大分子之一,其功能与结构有着紧密的联系,即蛋白质的功能基本上由其特定的三维结构决定。蛋白质残基接触图包含蛋白质空间结构的重要信息,是蛋白质三维结构的一种二维表达形式。随着越来越多的基因组被测序,大量的蛋白质序列也已获得,然而已知的蛋白质结构数却远远少于已知的序列数。基于实验的蛋白质三维结构测定方法既耗时又昂贵,因此基于蛋白质残基接触图的结构预测方法得到了广泛的重视和研究。尤其对于同源性较低的蛋白质序列,如何提高接触图的预测精度是急需解决的问题。
现阶段,基于蛋白质残基接触图对蛋白质进行结构预测的方法可分类两类:基于直接耦合分析方法与基于机器学习的方法。其中,基于机器学习的方法已被广泛用于对各种蛋白质进行结构预测,随着人工神经网络的发展,深度学习方法已成为生物学预测程序的主流框架,如Betacon,CMAPPro,DeepConPred,NNCon,MetaPSICOV,RaptorX-Contact,DNCON2,PconsC4和ResNet and DensNet。
调研文献发现(S.Wang,S.Sun,Z.Li,R.Zhang,and J.Xu,“Accurate de novoprediction of protein contact map by ultra-deep learning model,”PLoSComputational Biology,vol.13,no.1,pp.e1005324–e1005334,2017.),深度学习方法RaptorX-Contact采用ResNet结构进行蛋白质残基接触图预测,通过残差映射特征,可以解决梯度消失和爆炸的问题,但参数的数量与深度成正比,该方法并未做到在一定程度上减少参数数量。
调研文献发现(M.Michel,D.Menéndez Hurtado,and A.Elofsson,“PconsC4:fast,accurate and hassle-free contact predictions,”Bioinformatics,vol.35,no.15,pp.2677–2679,2018.),深度学习方法PconsC4由ResNet和U-net网络结构组成。它可以获取1D和2D蛋白质特征以预测接触图。但是U-net网络的特征图大小在输入和输出之间有所不同,意味着上采样数据无法在下采样之前完全恢复,这会对预测准确性产生负面影响。
调研文献发现(Li,Zhong,et al."Protein Contact Map Prediction Based onResNet and DenseNet,"BioMed Research International 2020.5(2020):1-12.),深度学习方法ResNet and DenseNet采用ResNet网络对特征处理,然后特征通过DenseNet对蛋白质接触图预测。应用此种网络框架输入的1D特征与2D特征之间存在相互干扰,不同数据集下的预测精度会受到影响。
综上所述,尽管现有技术可以用于预测蛋白质残基接触图,但并不能保证其预测精度是最优的,现有技术在计算代价、预测精度两个方面距离实际应用的要求还有一定差距。现有技术并未做到重复利用特征,进而增强特征的传递;并未做到在一定程度上减少参数数量;并未使得有效特征的权重增大,低效特征的权重减小;并未降低不同输入特征之间的干扰;并不能保留更多的残基对特征,从而提高蛋白质接触图的预测精度。
发明内容
为克服现有技术中存在的缺陷,本发明提供了一种基于集成深度神经网络框架的蛋白质残基接触图预测方法,尤其对于同源性较低的蛋白质序列,该方法能够有效地提高蛋白质接触图的预测精度、降低计算成本。
为实现以上目的,本发明提供了一种基于深度神经网络框架的集成方法来预测蛋白质残基接触图,所述方法包括以下步骤:
(1)、搭建集成深度神经网络框架:由1DResNet、2DDilatedSe-ResNet和2DDenseNet三种网络集成得到集成深度神经网络框架。
具体地,该框架首先使用1DResNet处理由多序列比对生成的序列特征,其中包括PSSM、PSFM、SS3、溶剂可及性。除此以外还加入氨基酸8种理化性质的矩阵作为输入。通过1DResNet的残差映射以及恒等映射能够有效的处理序列特征。然后再使用外连接函数处理序列特征,再与成对特征相结合。为了使得有效的特征权重增大,将合并的特征通过2DDilated SE-ResNet网络。最后通过2DDenseNet的稠密连接特性充分处理数据特征,从而提高蛋白质接触图的预测精度。
(2)、数据集的选取:将PDB25的子集作为训练集,将ASP12、CASP13、CAMEO和mems400作为测试集。
具体地,本发明的训练集是PDB25的子集,其中任何两种蛋白质的序列同一性都小于25%。本发明还将把满足以下条件之一的蛋白质从序列排除:(Ⅰ)序列长度小于26或大于700;(Ⅱ)分辨率低于
Figure BDA0003116571220000021
(Ⅲ)具有多个蛋白质链组成的结构域。为消除训练集的冗余,本发明把训练集中序列同一性大于25%的蛋白质都排除掉。本发明训练集中共有6767种蛋白质,本发明从训练集中随机抽取6000个蛋白质来训练模型并使用剩余蛋白质来验证模型。本发明使用了四个被广泛使用的公共数据集来评估本发明的网络模型,就是CASP12、CASP13、CAMEO和mems400。在这些测试集中,任何两个蛋白质序列之间的序列同一性都小于25%。另外在难易预测方面(easy and hard targets),本发明通过设置HHblits中E-value等于或小于0.1的条件来筛选训练集和测试集,从而产生了一个难预测的测试子集。
(3)、使用一维特征(序列特征)和二维特征(成对特征)作为网络的输入特征。
具体地,一维特征包括位置特异性计分矩阵(PSSM)、位置特异性频率矩阵(PSFM)、3态的蛋白质二级结构(SS3)、3态的溶剂可及性(ACC)和氨基酸理化性质特征(CP)。
具体地,二维特征包括直接协同进化信息,MSA矩阵以及成对电势。
具体地,位置特异性计分矩阵(PSSM)和位置特异性频率矩阵(PSFM)是通过HHblits程序(设置E-value为0.001与3次迭代)在uniprot_sprot database搜索同源序列,然后构建出多序列比对(MSA),最后计算得出。
具体地,3态的蛋白质二级结构(SS3)和3态的溶剂可及性(ACC)分别来自于Bi-LSTM和DSPRED。直接协同进化信息来自于CCMPred、MSA信息矩阵和成对电势。
具体地,氨基酸理化性质(CP)由L×8的二维矩阵表示,其中L为蛋白质序列长度
具体地,氨基酸理化性质(CP)包括疏水性,Grapn形状指数,极化率,范德华规范化体积,无规卷曲Ca化学位移,局部电效应,PK(RCOOH)和Information measure for loop。
(4)、使用步骤(1)搭建的集成深度神经网络框架在数据集上学习预测模型。
具体地,1D残差网络是由一系列残差块组成。一个残差块可以用表示为:
y=F(x+wi)+x ①
其中的x与y分别表示为输入层与输出层的vector。wi是权重矩阵中的权重,F表示要学习的残差映射。本发明的1D残差块由两层卷积构成,对于两层的残差块可以表示为:
y=w2f(w1x+b1)+b2
f(x)=max(0,x) ③
其中f表示线性单位激活函数,w1,w2,b1和b2分别是第一层和第二层的权重和偏差。
具体地,1DResNet的输出为L×n的矩阵,其中n为网络最后一个卷积层生成的新特征数量。1DResNet模块可有效地减少梯度消失,增强特征传递,并在一定程度上减少参数数量。
具体地,2D残差网络是由一系列dilatedse-residualblock组成。
具体地,在本发明中共设计了四种残差模块。第一种是由两层卷积层构成,卷积层之间为批处理归一化层和ReLU激活;第二种是在第一种基础上将第二次卷积替换为空洞率为2的空洞卷积。空洞卷积可以使得网络在不做池化损失残基对信息的情况下,加大感受视野,让每个卷积输出都包含较大范围的残基对信息;第三种是在第一种基础上在最前面添加了SE模块。SE模块首先对卷积得到的特征图进行Squeeze操作,得到channel级的全局特征,然后对全局特征进行Excitation操作,学习各个channel间的关系,也得到不同channel的权重,最后乘以原来的特征图得到最终特征。本质上,SE模块是在channel维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的channel特征,而抑制那些不重要的channel特征。从生物信息和特征处理上来说,序列特征和成对特征经过SE模块学习到各个特征之间的非线性关系,从而减少直接将序列特征和成对特征结合所导致两者之间的干扰;第四种是在第1种基础上添加了SE模块并且在第二次卷积采用了空洞率为2的膨胀卷积。通过多次实验,申请人最终选取了第四种残差模块。
具体地,DenseNet网络结构主要由DenseBlock和Transition组成。相比Resnet,DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入。对于一个N层的网络,DenseNet共包含
Figure BDA0003116571220000041
个连接,相比ResNet,这是一种密集连接。而且DenseNet是直接融合来自不同层的特征图,这可以实现特征重用,提升效率,这一特点是DenseNet与ResNet最主要的区别。如果用公式表示:
xn=Hn([x0,x1,x2,…,xn-1]) ④
其中,上面的Hn()代表是非线性转化函数,它是一个组合操作,其可能包括一系列的BN,ReLU,Pooling及Conv操作。这里n层与n-1层之间可能实际上包含多个卷积层。
CNN网络一般要经过Pooling或者stride>1的Conv来降低特征图的大小,而DenseNet的密集连接方式需要特征图大小保持一致。为了解决这个问题,DenseNet网络中使用DenseBlock+Transition的结构,其中DenseBlock是包含很多层的模块,每个层的特征图大小相同,层与层之间采用密集连接方式。而Transition模块是连接两个相邻的DenseBlock,并且通过Pooling使特征图大小降低。2DdilatedSE-ResNet的输出经过2DDenseNet生成的新的特征图,是从denseblock中之前每层的特征图里学习到的序列特征和成对特征,这使得网络可以减小梯度消失问题从而传递更多序列特征和成对特征信息,最终提升接触图预测精度。
将特征图输入到2DDilatedSE-ResNet可获取更多残基对信息,使得有效的特征权重增大,低效的特征权重减小,并可以减少不同输入特征之间的干扰。此外,由于2DDenseNet输入和输出特征图格式保持不变,通过该模块保留更多的残基对特征,从而提高蛋白质接触图的预测精度。
(5)、模型参数设置:将SEmodule的ratio设定为0.2,空洞卷积的空洞率设定为2。
具体地,本发明使用最大似然函数来训练模型参数,也就是说本发明将最大化训练蛋白质的天然接触发生概率。因此,将损失函数定义为在训练蛋白质的所有残基对上的平均负对数似然函数,即交叉熵函数。具体如下:
E(t,y)=-∑itilog yi
其中,ti是标签,yi是预测的结果。由于所有残基对之间的接触比例很小,为使训练算法快速收敛,本发明将较大的权重分配给了形成接触的残基对。为了防止网络过拟合,本发明采用L2正则化来减少参数空间。也就是说,本发明希望找到一组具有较小L2正则化参数以最小化损失函数。本发明使用随机梯度下降算法来最小化目标函数,这是一种有效的随机优化算法,本发明设置学习率为0.01。每次迭代20-30个周期以获得较好的结果。本发明使用了dropout函数来随机丢弃神经元,初始值设为0.4。
(6)、将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。
本发明提供了一种基于集成深度神经网络框架的蛋白质残基接触图预测方法,对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。网络框架由1DResNet、2DDilatedSE-ResNet和2DDenseNet集合而成。其中,1DResNet模块可有效地减少梯度消失,增强特征传递,并在一定程度上减少参数数量。另外将特征图输入到2DDilatedSE-ResNet可获取更多残基对信息,使得有效的特征权重增大,低效的特征权重减小,并可以减少不同输入特征之间的干扰。此外,由于2DDenseNet输入和输出特征图格式保持不变,通过该模块保留更多的残基对特征,从而提高蛋白质接触图的预测精度。
附图说明
图1所示为本发明的深度神经网络框架示意图。
图2所示为本发明网络框架的全部输入特征示意图。
图3所示为2D残差模块示意图。
图4所示为SE模块示意图。
图5所示为DenseNet网络的密集连接机制。
图6所示为不同方法在easyCASP12数据集上获得的长接触结果预测精度柱状图,其中,
每组图标从左到右依次代表Ours、ResNet and Dense、Net RaptorX-Contact、PconsC4和CCMPred。
图7所示为不同方法在hardCASP13数据集上获得的长接触结果预测精度柱状图,其中,
每组图标从左到右依次代表Ours、ResNet and Dense、Net RaptorX-Contact、PconsC4和CCMPred。
图8(A)所示为9CASP13数据集的目标蛋白质T0982D2的预测结果。
图8(B)CASP13数据集的目标蛋白质T1000D2的预测结果。
图9(A)为通过I-TASSER得到的5ko9三级结构。
图9(B)为蛋白质数据库上的5ko9三级结构。
图10(A)为通过I-TASSER得到的5jmu三级结构。
图10(B)为蛋白质数据库上的5jmu三级结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
1.1一种基于深度神经网络框架的蛋白质残基接触图预测方法的具体步骤
一种基于深度神经网络框架的蛋白质残基接触图预测方法,所述方法包括如下步骤:
(1)、搭建集成深度神经网络框架:由1DResNet、2DDilatedSe-ResNet和2DDenseNet三种网络集成得到集成深度神经网络框架。图1所示为本发明的深度神经网络框架示意图。具体地,该框架首先使用1DResNet处理由多序列比对生成的序列特征,其中包括PSSM、PSFM、SS3、溶剂可及性。除此以外还加入氨基酸8种理化性质的矩阵作为输入。通过1DResNet的残差映射以及恒等映射能够有效的处理序列特征。然后再使用外连接函数处理序列特征,再与成对特征相结合。为了使得有效的特征权重增大,将合并的特征通过2DDilated SE-ResNet网络。最后通过2DDenseNet的稠密连接特性充分处理数据特征,从而提高蛋白质接触图的预测精度。ResNet由于其具有恒等映射与残差映射两种映射的特点,使其能在一定程度上解决蛋白质接触图预测中梯度消失与梯度爆炸的问题,并且能够训练很深的网络结构,但ResNet的参数数量与其深度成正比。DenseNet由于其稠密连接的特点,使得其能够有效减小梯度消失的问题,并且能够重复利用特征,进而加强特征的传递以及在一定程度上减少了参数数量。同时DenseNet输入与输出的特征图格式保持一样,这样能够较好的保持特征。在2D残差块中加入SE模块可以让模型可以更加关注信息量最大的channel特征,而抑制那些不重要的channel特征。此外,我们还在2D残差块中加入了空洞卷积,可以在不丢失空间分辨率的情况下扩大感受野,从而减少不同输入特征之间的干扰。本发明采用了三种网络的集成结构,其中更好发挥各自神经网络模块的优点,有助于提升蛋白质残基接触图的预测精度。
(2)、数据集的选取:将PDB25的子集作为训练集,将ASP12、CASP13、CAMEO和mems400作为测试集。
具体地,本发明的训练集是PDB25的子集,其中任何两种蛋白质的序列同一性都小于25%。本发明还将把满足以下条件之一的蛋白质从序列排除:(Ⅰ)序列长度小于26或大于700;(Ⅱ)分辨率低于
Figure BDA0003116571220000071
(Ⅲ)具有多个蛋白质链组成的结构域。为了消除训练集的冗余,本发明把训练集中序列同一性大于25%的蛋白质都排除掉。本发明训练集中共有6767种蛋白质,本发明从训练集中随机抽取6000个蛋白质来训练模型并使用剩余蛋白质来验证模型。本发明使用了四个被广泛使用的公共数据集来评估本发明的网络模型,就是CASP12、CASP13、CAMEO和mems400。在这些测试集中,任何两个蛋白质序列之间的序列同一性都小于25%。另外在难易预测方面(easy and hard targets),本发明通过设置HHblits中E-value等于或小于0.1的条件来筛选训练集和测试集,从而产生了一个难预测的测试子集。
(3)、使用一维特征(序列特征)和二维特征(成对特征)作为网络的输入特征。图2为本发明网络框架的全部输入特征示意图,其中一维特征由L×54的二维矩阵表示,L是蛋白质序列的长度,54表示特征的维度,二维特征由L×L×5的三维矩阵表示。
具体地,一维特征包括位置特异性计分矩阵(PSSM)、位置特异性频率矩阵(PSFM)、3态的蛋白质二级结构(SS3)、3态的溶剂可及性(ACC)和氨基酸理化性质特征(CP)。
具体地,二维特征包括直接协同进化信息,MSA矩阵以及成对电势。
具体地,位置特异性计分矩阵(PSSM)和位置特异性频率矩阵(PSFM)是通过HHblits程序(设置E-value为0.001与3次迭代)在uniprot_sprot database搜索同源序列,然后构建出多序列比对(MSA),最后计算得出。
具体地,3态的蛋白质二级结构(SS3)和3态的溶剂可及性(ACC)分别来自于Bi-LSTM和DSPRED。直接协同进化信息来自于CCMPred、MSA信息矩阵和成对电势。
具体地,氨基酸理化性质(CP)由L×8的二维矩阵表示,其中L为蛋白质序列长度
具体地,氨基酸理化性质(CP)包括疏水性,Grapn形状指数,极化率,范德华规范化体积,无规卷曲Ca化学位移,局部电效应,PK(RCOOH)和Information measure for loop。
(4)、使用步骤(1)搭建的集成深度神经网络框架在数据集上学习预测模型。
具体地,1D残差网络是由一系列残差块组成。一个残差块可以用表示为:
y=F(x+wi)+x ①
其中的x与y分别表示为输入层与输出层的vector。wi是权重矩阵中的权重,F表示要学习的残差映射。本发明的1D残差块由两层卷积构成,对于两层的残差块可以表示为:
y=w2f(w1x+b1)+b2
f(x)=max(0,x) ③
其中f表示线性单位激活函数,w1,w2,b1和b2分别是第一层和第二层的权重和偏差。
具体地,1DResNet的输出为L×n的矩阵,其中n为网络最后一个卷积层生成的新特征数量。1DResNet模块可有效地减少梯度消失,增强特征传递,并在一定程度上减少参数数量。
具体地,2D残差网络是由一系列dilatedse-residualblock组成。图3所示为2D残差模块示意图。
具体地,在本发明中我们设计了四种残差模块。第一种是由两层卷积层构成,卷积层之间为批处理归一化层和ReLU激活;第二种是在第一种基础上将第二次卷积替换为空洞率为2的空洞卷积。空洞卷积可以使得网络在不做池化损失残基对信息的情况下,加大感受视野,让每个卷积输出都包含较大范围的残基对信息;第三种是在第一种基础上在最前面添加了SE模块。图4所示为SE模块示意图。SE模块首先对卷积得到的特征图进行Squeeze操作,得到channel级的全局特征,然后对全局特征进行Excitation操作,学习各个channel间的关系,也得到不同channel的权重,最后乘以原来的特征图得到最终特征。本质上,SE模块是在channel维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的channel特征,而抑制那些不重要的channel特征。从生物信息和特征处理上来说,序列特征和成对特征经过SE模块学习到各个特征之间的非线性关系,从而减少直接将序列特征和成对特征结合所导致两者之间的干扰;第四种是在第1种基础上添加了SE模块并且在第二次卷积采用了空洞率为2的膨胀卷积。通过多次实验,我们选取了第四种残差模块。
具体地,DenseNet网络结构主要由DenseBlock和Transition组成。图5所示为DenseNet网络的密集连接机制。相比Resnet,DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入。对于一个N层的网络,DenseNet共包含
Figure BDA0003116571220000081
个连接,相比ResNet,这是一种密集连接。而且DenseNet是直接融合来自不同层的特征图,这可以实现特征重用,提升效率,这一特点是DenseNet与ResNet最主要的区别。如果用公式表示:
xn=Hn([x0,x1,x2,…,xn-1]) ④
其中,上面的Hn()代表是非线性转化函数,它是一个组合操作,其可能包括一系列的BN,ReLU,Pooling及Conv操作。这里n层与n-1层之间可能实际上包含多个卷积层。
CNN网络一般要经过Pooling或者stride>1的Conv来降低特征图的大小,而DenseNet的密集连接方式需要特征图大小保持一致。为了解决这个问题,DenseNet网络中使用DenseBlock+Transition的结构,其中DenseBlock是包含很多层的模块,每个层的特征图大小相同,层与层之间采用密集连接方式。而Transition模块是连接两个相邻的DenseBlock,并且通过Pooling使特征图大小降低。2DdilatedSE-ResNet的输出经过2DDenseNet生成的新的特征图,是从denseblock中之前每层的特征图里学习到的序列特征和成对特征,这使得网络可以减小梯度消失问题从而传递更多序列特征和成对特征信息,最终提升接触图预测精度。
将特征图输入到2DDilatedSE-ResNet可获取更多残基对信息,使得有效的特征权重增大,低效的特征权重减小,并可以减少不同输入特征之间的干扰。此外,由于2DDenseNet输入和输出特征图格式保持不变,通过该模块保留更多的残基对特征,从而提高蛋白质接触图的预测精度。
(5)、模型参数设置:将SEmodule的ratio设定为0.2,空洞卷积的空洞率设定为2。
具体地,本发明使用最大似然函数来训练模型参数,也就是说本发明将最大化训练蛋白质的天然接触发生概率。因此,将损失函数定义为在训练蛋白质的所有残基对上的平均负对数似然函数,即交叉熵函数。具体如下:
E(t,y)=-∑iti log yi
其中,ti是标签,yi是预测的结果。由于所有残基对之间的接触比例很小,为使训练算法快速收敛,本发明将较大的权重分配给了形成接触的残基对。为了防止网络过拟合,本发明采用L2正则化来减少参数空间。也就是说,本发明希望找到一组具有较小L2正则化参数以最小化损失函数。本发明使用随机梯度下降算法来最小化目标函数,这是一种有效的随机优化算法,本发明设置学习率为0.01。每次迭代20-30个周期以获得较好的结果。本发明使用了dropout函数来随机丢弃神经元,初始值设为0.4。
(6)、将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。
1.2本发明的神经网络结构的有效性验证
分别构建2D ResNet神经网络结构,即Residual Block,Dilated ResidualBlock,SE-Residual Block和本发明采用的Dilated SE-Residual Block。申请人发现采用本发明的网络结构Dilated SE-Residual Block预测的准确性要高于其他四个网络结构。具体的实验结果参见表1。
表1.本发明的残差块与其他三个残差块之间的精度比较
Figure BDA0003116571220000091
Figure BDA0003116571220000101
1.3本发明输入的理化特征的有效性验证
为了验证理化特征输入的有效性,设计了两个特征组合(加入理化特征和未加入理化特征的特征组合)进行实验比较。申请人发现加入理化特征组合比未加入理化特征组合可以获得更好的精度。具体的实验结果参见表2。
表2.不同特征组合的精度比较
Figure BDA0003116571220000102
1.4基于不同数据集,评估多种蛋白质接触图预测方法的精确率
本发明采取三种不同的接触(长程接触、中程接触、短程接触)在前L/10、L/5、L/2和L上的预测精度作为主要评价指标,其中L为序列长度,具体评估方式如下。
预测的结果可以分为四类:真阳性(TP)和假阳性(FP)。其中TP是指正确预测的阳性样品的组;FP是指实际为阴性样品组,但被错误预测为阳性样品组。基于这些指标,本发明将使用以下评估标准来预测性能,以及与其它方法的比较。
精确率(precision):是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
Figure BDA0003116571220000111
本发明使用L/k(k=1,2,5,10)来评估预测的精确率,L是序列的长度,并且分别在三种接触上给出了它们的预测精确率。为了验证本发明模型的有效性,本发明在PDB25,CAMEO,Mems400以及CASP12和CASP13的easy和hard的测试目标上测试了本发明预测的精度。本发明选择了几种比较典型的DCA方法和机器学习的方法进行比较。其中包括基于DCA方法的CCMPred,基于ResNet的RaptorX-Contact,基于U-net和ResNet的PconsC4以及ResNet和DenseNet方法。在实验过程中,测试集中的蛋白质序列与训练集中的蛋白质序列不一样,且蛋白质序列同一性都在25%以下,并且对所有的五个预测模型都在相同的数据集下进行测试。
申请人使用不同方法在PDB25数据集进行了实验比较,预测精度如表3,本发明的长程接触在L/k(k=10,5,2,1)的预测精度分别为81.8%,74.6%,63.4%,47.9%,在三种接触中都优于另外四种方法。其中,与ResNet and DenseNet方法相比,在长接触L/k(k=10,5,2,1)上分别有2.2%,1.1%,0.3%,0.1%的提高;本发明与RaptorX-Contact方法相比,在长接触L/k(k=10,5,2,1)上分别有4.1%,1.5%,2.1%,0.1%的提高;本发明与PconsC4方法相比,在长接触L/k(k=10,5,2,1)上分别有7.7%,5.1%,6.2%,3.8%的提高;本发明与CCMPred方法相比,在长接触L/k(k=10,5,2,1)上分别有16.7%,13.4%,14.1%,15.5%的提高。提升的原因可能是因为添加了氨基酸理化性质特征,使得网络学习到更多的接触图有关的信息。
表3.不同方法在PDB25数据集上获得的长,中和短程接触结果
Figure BDA0003116571220000112
接着,申请人使用不同方法在76hard CAMEO数据集上进行测试和比较,预测准确率如表4。本发明的长程接触在L/k(k=10,5,2,1)的预测精度分别为73.2%,68.5%,56.5%,42.0%。与ResNet and DenseNet方法相比,在长接触L/k(k=10,5,2)上分别有2.1%,1.3%,0.2%的提高;与RaptorX-Contact方法相比,在长接触L/k(k=10,5,2)上分别有4.1%,3.3%,1.7%的提高;与PconsC4方法相比,在长接触L/k(k=10,5,2,1)上分别有6.7%,3.8%,2.2%,0.9%的提高;与CCMPred方法相比,在长接触上有较大提升。本发明的方法在76hard CAMEO数据集上精确度在三中接触的L/k(k=10,5,2)都优于另外四种方法,在三种接触中的L上,提升不明显,原因可能是在2D dilated SE-ResNet网络中的dilated卷积使得网络相比较L/k((k=10,5,2)而言,丢失了较多的残基局部信息。
表4.不同方法在76hard CAMEO数据集上获得的长,中和短程接触结果
Figure BDA0003116571220000121
申请人也将上述方法在Mems400数据集上进行了测试和比较,预测准确率如表5,本发明的长程接触在L/k(k=10,5,2,1)的预测精度分别为82.8%,76.2%,64.8%,47.3%,在三种接触中都优于另外四种方法。与ResNet and DenseNet方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有2.7%,1.0%,0.3%,0.1%的提高;与RaptorX-Contact方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有4.8%,3.1%,2.5%,0.3%的提高;与PconsC4方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有7.2%,5.4%,5.2%,2.6%的提高;与CCMPred方法相比,本发明方法在长接触L/k(k=10,5,2,1)上有较大提高。提升的原因可能是因为2DDensnet的在减小网络梯度消失的同时还能够重复利用残基对信息。
表5.不同方法在Mems400数据集上获得的长,中和短程接触结果
Figure BDA0003116571220000122
Figure BDA0003116571220000131
对于CASP12数据集,申请人首先将其划分成easy和hard目标,然后将上述方法在easy CASP12数据集上进行测试和比较,如图6(详细数据参见表6),本发明的长程接触在L/k(k=10,5,2,1)的预测精度分别为69.7%,62.0%,53.1%,41.6%。与ResNet andDenseNet方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有4.8%,1.9%,1.7%,1.3%的提高;与RaptorX-Contact方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有5.8%,3.1%,2.9%,1.4%的提高;与PconsC4方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有7.4%,7.3%,4.5%,1.9%的提高;与CCMPred方法相比,本发明方法在长接触L/k(k=10,5,2,1)上有较大提高。本发明方法在三种接触中都优于另外四种方法,特别是在长接触预测提升较高,原因可能是特征经过2D dilated SE-ResNet网络使得有效特征的权重提升。
表6.不同方法在easyCASP12数据集上获得的长,中和短程接触结果
Figure BDA0003116571220000132
最后,申请人把CASP13数据集划分为hard CASP13和easy CASP13(如表7表8所示)。申请人将不同方法在hard CASP13数据集上进行测试和比较,预测准确率如图7所示(详细数据参见表9),本发明的长程接触在L/k(k=10,5,2,1)的预测精度分别为77.1%,68.2%,57.6%,43.2%。与ResNet and DenseNet方法相比,本发明方法在长接触L/k(k=10,5,2)上分别有2.6%,0.7%,0.1%的提高;与RaptorX-Contact方法相比,本发明方法在长接触L/k(k=10,5,2,1)上分别有3.3%,1.3%,0.7%,0.1%的提高;与PconsC4方法和CCMPred方法相比,本发明方法在长接触L/k(k=10,5,2,1)上有较大提高。我们的方法在三种接触中的L上,提升不明显,原因可能是在2D dilated SE-ResNet网络中的dilated卷积使得网络相比较L/k((k=10,5,2)而言,远距离获取的信息没有相关性。
表7.hardCASP13的PDB编码
Figure BDA0003116571220000141
表8.easyCASP13的PDB编码
Figure BDA0003116571220000142
表9.不同方法在hardCASP13数据集上获得的长,中和短程接触结果
Figure BDA0003116571220000143
1.5蛋白质接触图预测实例
为了进一步分析本发明的网络框架的功能,申请人针对相关测试集的蛋白质序列做了预测接触与真实接触的对比图。T0982D2是CASP13数据集发布的蛋白质,它是一条长度为139的α螺旋、β折叠与无规蜷曲结合的蛋白质。图8(A)显示了该蛋白质的正确(错误)预测接触以及真实接触。T1000D2是CASP13数据集发布的蛋白质,它是一条长度为423的α螺旋、β折叠与无规蜷曲结合的蛋白质。图8(B)显示了该蛋白质的正确(错误)预测接触以及真实接触。红(绿)点表示正确(错误)预测,银点表示真实接触。从结果可以发现申请人的方法可以正确预测大部分接触。
1.6蛋白质接触图运用实例
为了进一步分析本发明接触图预测的准确性,申请人通过I-TASSER软件输入残基之间的距离、接触关系和蛋白质序列生成了蛋白质的三级结构。通过生成的5ko9蛋白质以及和与蛋白质数据库中的三维结构做比较如图9和10所示。
综上,本发明提出了一种基于空洞卷积的SE-ResNet与DenseNet集合框架的网络模型用于预测蛋白质接触图。该方法结合了ResNet的恒等映射以及残差映射和DenseNet稠密连接的特性,充分发挥了其在减小梯度消失问题的作用以及特征的可重复利用性,进而减少参数数量,并能够处理复杂的序列-接触关系以及特征之间的相关性。同时在2D残差块中加入SE模块以及空洞卷积可以让模型更加关注信息量最大的channel特征,而抑制那些不重要的channel特征并且在不丢失空间分辨率的情况下仍然扩大感受野。实验结果表明,与常用方法相比,本发明的构建的模型更优,对接触图的预测更有效。
以上阐述是本发明给出的一个实施的预测效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims (10)

1.一种基于深度神经网络框架的蛋白质残基接触图预测方法,其特征在于,所述预测方法包括以下步骤:
(1)搭建集成深度神经网络框架:由1DResNet、2DDilatedSe-ResNet和2DDenseNet三种网络集成得到集成深度神经网络框架;
(2)数据集的选取:将PDB25的子集作为训练集,将ASP12、CASP13、CAMEO和mems400作为测试集;
(3)使用一维特征和二维特征作为网络的输入特征;
(4)使用步骤(1)搭建的集成深度神经网络框架在数据集上学习预测模型;
(5)模型参数设置:
(6)将待测蛋白质序列输入模型,得到该蛋白质序列的残基接触图。
2.根据权利要求1所述的蛋白质残基接触图预测方法,其特征在于,所述的训练集和测试集中任何两种蛋白质的序列同一性都小于25%,并且将满足以下条件之一的蛋白质从序列排除:(Ⅰ)序列长度小于26或大于700;(Ⅱ)分辨率低于
Figure FDA0003116571210000011
(Ⅲ)具有多个蛋白质链组成的结构域。
3.根据权利要求1所述的蛋白质残基接触图预测方法,其特征在于,所述的一维特征包括位置特异性计分矩阵(PSSM)、位置特异性频率矩阵(PSFM)、3态的蛋白质二级结构(SS3)、3态的溶剂可及性(ACC)和氨基酸理化性质特征(CP)。
4.根据权利要求1所述的蛋白质残基接触图预测方法,其特征在于,所述的二维特征包括直接协同进化信息,MSA矩阵以及成对电势。
5.根据权利要求3所述的蛋白质残基接触图预测方法,其特征在于,所述的位置特异性计分矩阵(PSSM)和位置特异性频率矩阵(PSFM)是通过HHblits程序在uniprot_sprotdatabase搜索同源序列,然后构建出多序列比对(MSA),最后计算得出。
6.根据权利要求3所述的蛋白质残基接触图预测方法,其特征在于,所述的3态的蛋白质二级结构(SS3)和3态的溶剂可及性(ACC)分别来自于Bi-LSTM和DSPRED。
7.根据权利要求3所述的蛋白质残基接触图预测方法,其特征在于,所述的氨基酸理化性质(CP)包括疏水性,Grapn形状指数,极化率,范德华规范化体积,无规卷曲Ca化学位移,局部电效应,PK(RCOOH)和Information measure for loop。
8.根据权利要求4所述的蛋白质残基接触图预测方法,其特征在于,所述的直接协同进化信息来自于CCMPred、MSA信息矩阵和成对电势。
9.根据权利要求1所述的蛋白质残基接触图预测方法,其特征在于,所述的2DDilatedSe-ResNet和2DDenseNet网络是由一系列dilatedse-residualblock组成,优选地,所述的2DDilatedSe-ResNet和2DDenseNet网络由两层卷积层和SE模块构成,卷积层之间为批处理归一化层和ReLU激活,第二次卷积采用空洞率为2的膨胀卷积。
10.根据权利要求1所述的蛋白质残基接触图预测方法,其特征在于,所述的DenseNet网络结构主要由DenseBlock和Transition组成。
CN202110664113.1A 2021-06-16 2021-06-16 蛋白质残基接触图预测方法 Active CN113257357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110664113.1A CN113257357B (zh) 2021-06-16 2021-06-16 蛋白质残基接触图预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110664113.1A CN113257357B (zh) 2021-06-16 2021-06-16 蛋白质残基接触图预测方法

Publications (2)

Publication Number Publication Date
CN113257357A true CN113257357A (zh) 2021-08-13
CN113257357B CN113257357B (zh) 2024-02-23

Family

ID=77188120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110664113.1A Active CN113257357B (zh) 2021-06-16 2021-06-16 蛋白质残基接触图预测方法

Country Status (1)

Country Link
CN (1) CN113257357B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN114724630A (zh) * 2022-04-18 2022-07-08 厦门大学 用于预测蛋白质翻译后修饰位点的深度学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020058177A1 (en) * 2018-09-21 2020-03-26 Deepmind Technologies Limited Machine learning for determining protein structures
CN112233723A (zh) * 2020-10-26 2021-01-15 上海天壤智能科技有限公司 基于深度学习的蛋白质结构预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020058177A1 (en) * 2018-09-21 2020-03-26 Deepmind Technologies Limited Machine learning for determining protein structures
CN112585684A (zh) * 2018-09-21 2021-03-30 渊慧科技有限公司 确定蛋白结构的机器学习
CN112233723A (zh) * 2020-10-26 2021-01-15 上海天壤智能科技有限公司 基于深度学习的蛋白质结构预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINBO XU: "Distance-based protein folding powered by deep learning", 《PNAS》, vol. 116, no. 34, pages 16857 - 16864 *
林约勒: "基于ResNet与DenseNet的蛋白质接触图预测研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 02, pages 21 - 27 *
蒋建辉: "基于改进卷积神经网络的文本检测技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, pages 29 - 31 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN114724630A (zh) * 2022-04-18 2022-07-08 厦门大学 用于预测蛋白质翻译后修饰位点的深度学习方法

Also Published As

Publication number Publication date
CN113257357B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN110689920B (zh) 一种基于深度学习的蛋白质-配体结合位点预测方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN113257357A (zh) 蛋白质残基接触图预测方法
Zhang et al. An efficient lightweight convolutional neural network for industrial surface defect detection
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
CN113744799A (zh) 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
CN114765063A (zh) 基于图神经网络表征的蛋白质与核酸结合位点预测方法
CN112885415A (zh) 基于分子表面点云的雌激素活性快速筛查方法
CN106599610A (zh) 预测长链非编码rna和蛋白质联系的方法及系统
Feng et al. Accurate de novo prediction of RNA 3D structure with transformer network
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Cao et al. Prediction of transcription factor binding sites using a combined deep learning approach
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN114678083A (zh) 一种化学品遗传毒性预测模型的训练方法及预测方法
Termritthikun et al. Evolutionary neural architecture search based on efficient CNN models population for image classification
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
KR20230170679A (ko) 심층 학습을 위한 효율적인 복셀화
KR20230171930A (ko) 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
CN112634993A (zh) 化学品雌激素受体激活活性的预测模型及筛查方法
Pan et al. Multi-Head Attention Mechanism Learning for Cancer New Subtypes and Treatment Based on Cancer Multi-Omics Data
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
CN113851192B (zh) 氨基酸一维属性预测模型训练方法、装置及属性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant