CN112085245A - 一种基于深度残差神经网络的蛋白质残基接触预测方法 - Google Patents

一种基于深度残差神经网络的蛋白质残基接触预测方法 Download PDF

Info

Publication number
CN112085245A
CN112085245A CN202010704130.9A CN202010704130A CN112085245A CN 112085245 A CN112085245 A CN 112085245A CN 202010704130 A CN202010704130 A CN 202010704130A CN 112085245 A CN112085245 A CN 112085245A
Authority
CN
China
Prior art keywords
sequence
file
residue
sequence alignment
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010704130.9A
Other languages
English (en)
Inventor
张贵军
卢升荣
刘俊
熊章宗
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010704130.9A priority Critical patent/CN112085245A/zh
Publication of CN112085245A publication Critical patent/CN112085245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Analytical Chemistry (AREA)

Abstract

一种基于深度残差神经网络的蛋白质残基接触预测方法,首先,通过蛋白质数据库构建数据集;其次,利用HHblits构建所有序列的MSA,根据进化信息提取序列谱特征、香农熵特征、协方差特征,作为神经网络的输入,生成神经网络的标签文件;然后,将数据集输入到神经网络中训练神经网络;最后,将测试序列输入到神经网络中进行预测。本发明提供一种能够有效辅助蛋白质结构预测的蛋白质残基接触预测方法,能够提高蛋白质结构预测的精度。

Description

一种基于深度残差神经网络的蛋白质残基接触预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度残差神经网络的蛋白质残基接触预测方法。
背景技术
蛋白质是生命系统中最丰富的有机分子。这些分子在结构和功能上比其他种类的大分子更加多样化。一个细胞内的生命系统都包含数千种蛋白质,每一种都有独特的功能。蛋白质在细胞或有机体中起着广泛的作用。蛋白质结构是一个有着几百上千种残基的复杂系统,残基之间通过相互作用形成稳定的三维结构,以实现特定的功能。在生物体内,基因序列决定了氨基酸序列的构成,氨基酸序列决定了蛋白质的空间结构,而蛋白质的功能与蛋白质的空间结构有着密不可分的联系。因此要研究蛋白质的功能就要从蛋白质的结构入手。然而目前已知的蛋白质结构的数量相对于基因序列的数量少之又少,蛋白质的三维结构可以通过实验的方式求解,但是过程复杂,比较繁琐。通过x射线晶体学的解决可以产生非常好的结果,但是它需要一个纯净的蛋白质样品来形成相对无瑕疵的晶体。核磁共振的解决局限于小的可溶性蛋白。因此,从氨基酸序列预测蛋白质结构是缩小蛋白质结构数量与氨基酸序列数量之间差距的关键。
接触图是表示蛋白质残基在一定距离阈值内接触状况的矩阵,为蛋白质的三维结构预测提供了信息。因此蛋白质残基接触预测是蛋白质结构预测的重要环节之一。
蛋白质残基接触图预测能为蛋白质结构预测提供精度保障,因此需要对蛋白质残基接触图预测方法进行研究。
发明内容
为了提高现有的蛋白质结构预测方法的精度,本发明提出了一种基于深度残差神经网络的蛋白质残基接触预测方法,用来辅助蛋白质结构预测,提高预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
Figure BDA0002594072060000021
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},Pi m表示多序列比对中第m行第i列残基的类型,
Figure BDA0002594072060000022
表示
Figure BDA0002594072060000023
和A是否相等,相等则为1,不等则为0;
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
Figure BDA0002594072060000024
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},
Figure BDA0002594072060000025
表示多序列比对中第m行第i列中的残基类型;
Figure BDA0002594072060000026
表示多序列比对中第m行第j列残基的类型;
Figure BDA0002594072060000027
表示
Figure BDA0002594072060000028
和A是否相等,相等则为1,不等则为0;
Figure BDA0002594072060000029
表示
Figure BDA00025940720600000210
和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
Figure BDA0002594072060000031
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
Figure BDA0002594072060000032
其中
Figure BDA0002594072060000033
表示第i号残基为A、第j号残基为B情况下的协方差,其中i和j均∈{1,2,…,L};
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以
Figure BDA0002594072060000034
为阈值判断残基对是否接触,当距离小于
Figure BDA0002594072060000035
表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
本发明的技术构思为:首先,通过蛋白质数据库构建数据集;其次,利用HHblits构建所有序列的MSA,根据进化信息提取序列谱特征、香农熵特征、协方差特征,作为神经网络的输入,生成神经网络的标签文件;然后,将数据集输入到神经网络中训练神经网络;最后,将测试序列输入到神经网络中进行预测。
本发明的有益效果为:基于深度残差神经网络的蛋白质残基接触预测方法能够利用大量的已测定蛋白质序列信息,提取待预测蛋白质序列的共同进化信息,进而预测蛋白质残基接触,用于辅助蛋白质结构预测,提高蛋白质结构预测精度。
附图说明
图1是一种基于深度残差神经网络的蛋白质残基接触预测方法总流程图。
图2是一种基于深度残差神经网络的蛋白质残基接触预测方法神经网络架构图。
图3是一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图结果。
图4是利用一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图辅助蛋白质结构预测得到的蛋白质三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
Figure BDA0002594072060000051
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},
Figure BDA0002594072060000052
表示多序列比对中第m行第i列残基的类型,
Figure BDA0002594072060000053
表示
Figure BDA0002594072060000054
和A是否相等,相等则为1,不等则为0;
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
Figure BDA0002594072060000055
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},
Figure BDA0002594072060000056
表示多序列比对中第m行第i列中的残基类型;
Figure BDA0002594072060000057
表示多序列比对中第m行第j列残基的类型;
Figure BDA0002594072060000058
表示
Figure BDA0002594072060000059
和A是否相等,相等则为1,不等则为0;
Figure BDA00025940720600000510
表示
Figure BDA00025940720600000511
和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
Figure BDA00025940720600000512
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
Figure BDA00025940720600000513
其中
Figure BDA0002594072060000061
表示第i号残基为A、第j号残基为B情况下的协方差,其中i和j均∈{1,2,…,L};
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以
Figure BDA0002594072060000062
为阈值判断残基对是否接触,当距离小于
Figure BDA0002594072060000063
表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
本实例以一个蛋白质序列1B4B为例,一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
Figure BDA0002594072060000071
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},
Figure BDA0002594072060000072
表示多序列比对中第m行第i列残基的类型,
Figure BDA0002594072060000073
表示
Figure BDA0002594072060000074
和A是否相等,相等则为1,不等则为0;
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
Figure BDA0002594072060000075
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},
Figure BDA0002594072060000076
表示多序列比对中第m行第i列中的残基类型;
Figure BDA0002594072060000077
表示多序列比对中第m行第j列残基的类型;
Figure BDA0002594072060000078
表示
Figure BDA0002594072060000079
和A是否相等,相等则为1,不等则为0;
Figure BDA00025940720600000710
表示
Figure BDA00025940720600000711
和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
Figure BDA00025940720600000712
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
Figure BDA0002594072060000081
其中
Figure BDA0002594072060000082
表示第i号残基为A、第j号残基为B情况下的协方差,其中i和j均∈{1,2,…,L};
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以
Figure BDA0002594072060000083
为阈值判断残基对是否接触,当距离小于
Figure BDA0002594072060000084
表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测蛋白质1B4B的接触图:利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索1B4B的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
以氨基酸序列长度为72的蛋白质1B4B为实施例,运用以上方法预测得到该蛋白质的接触图,其接触图如图3所示;将该接触图加入到蛋白质结构预测软件Rosetta中辅助结构预测,预测的蛋白质的均方根偏差为
Figure BDA0002594072060000085
预测结构图如图4所示。
以上阐述的是本发明给出的一个实施例表现出来的良好效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims (1)

1.一种基于深度残差神经网络的蛋白质残基接触预测方法,其特征在于:所述残基接触预测方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
Figure FDA0002594072050000011
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,...,M},
Figure FDA0002594072050000012
表示多序列比对中第m行第i列残基的类型,
Figure FDA0002594072050000013
表示
Figure FDA0002594072050000014
和A是否相等,相等则为1,不等则为0;
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,....,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
Figure FDA0002594072050000015
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,...,M},
Figure FDA0002594072050000016
表示多序列比对中第m行第i列中的残基类型;
Figure FDA0002594072050000017
表示多序列比对中第m行第j列残基的类型;
Figure FDA0002594072050000018
表示
Figure FDA0002594072050000021
和A是否相等,相等则为1,不等则为0;
Figure FDA0002594072050000022
表示
Figure FDA0002594072050000023
和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
Figure FDA0002594072050000024
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
Figure FDA0002594072050000025
其中
Figure FDA0002594072050000026
表示第i号残基为A、第j号残基为B情况下的协方差,其中i和j均∈{1,2,...,L};
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以
Figure FDA0002594072050000027
为阈值判断残基对是否接触,当距离小于
Figure FDA0002594072050000028
表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
CN202010704130.9A 2020-07-21 2020-07-21 一种基于深度残差神经网络的蛋白质残基接触预测方法 Pending CN112085245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704130.9A CN112085245A (zh) 2020-07-21 2020-07-21 一种基于深度残差神经网络的蛋白质残基接触预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704130.9A CN112085245A (zh) 2020-07-21 2020-07-21 一种基于深度残差神经网络的蛋白质残基接触预测方法

Publications (1)

Publication Number Publication Date
CN112085245A true CN112085245A (zh) 2020-12-15

Family

ID=73735167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704130.9A Pending CN112085245A (zh) 2020-07-21 2020-07-21 一种基于深度残差神经网络的蛋白质残基接触预测方法

Country Status (1)

Country Link
CN (1) CN112085245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837741A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于循环神经网络的蛋白质二级结构预测方法
CN113571126A (zh) * 2021-07-06 2021-10-29 浙江工业大学 一种基于多损失训练的蛋白质残基接触预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215301A1 (en) * 2006-05-22 2008-09-04 Yeda Research And Development Co. Ltd. Method and apparatus for predicting protein structure
CA2872234A1 (en) * 2012-05-09 2013-11-14 Memorial Sloan-Kettering Cancer Research Methods and apparatus for predicting protein structure
CN109637580A (zh) * 2018-12-06 2019-04-16 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215301A1 (en) * 2006-05-22 2008-09-04 Yeda Research And Development Co. Ltd. Method and apparatus for predicting protein structure
CA2872234A1 (en) * 2012-05-09 2013-11-14 Memorial Sloan-Kettering Cancer Research Methods and apparatus for predicting protein structure
CN109637580A (zh) * 2018-12-06 2019-04-16 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法
CN111063389A (zh) * 2019-12-04 2020-04-24 浙江工业大学 一种基于深度卷积神经网络的配体绑定残基预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张蕾;李征;郑逢斌;杨伟;: "基于深度学习的八类蛋白质二级结构预测算法", 计算机应用, no. 05, 10 May 2017 (2017-05-10) *
陆克中, 黄可望, 须文波: "基于神经网络的多聚脯氨酸二型结构预测", 食品与生物技术学报, no. 01, 30 January 2005 (2005-01-30) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837741A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于循环神经网络的蛋白质二级结构预测方法
CN112837741B (zh) * 2021-01-25 2024-04-16 浙江工业大学 一种基于循环神经网络的蛋白质二级结构预测方法
CN113571126A (zh) * 2021-07-06 2021-10-29 浙江工业大学 一种基于多损失训练的蛋白质残基接触预测方法
CN113571126B (zh) * 2021-07-06 2024-03-22 浙江工业大学 一种基于多损失训练的蛋白质残基接触预测方法

Similar Documents

Publication Publication Date Title
Wang et al. SBSM-Pro: support bio-sequence machine for proteins
Li et al. Protein contact map prediction based on ResNet and DenseNet
US20230207054A1 (en) Deep learning network for evolutionary conservation
CN112085247A (zh) 一种基于深度学习的蛋白质残基接触预测方法
CN112837741A (zh) 一种基于循环神经网络的蛋白质二级结构预测方法
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN114708903A (zh) 一种基于自注意力机制的蛋白质残基间距离预测方法
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
CN113257357B (zh) 蛋白质残基接触图预测方法
Suquilanda-Pesántez et al. NIFtHool: an informatics program for identification of NifH proteins using deep neural networks
Ding et al. Dance: A deep learning library and benchmark for single-cell analysis
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Sun et al. ICTC-RAAC: An improved web predictor for identifying the types of ion channel-targeted conotoxins by using reduced amino acid cluster descriptors
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
Iqbal et al. A distance-based feature-encoding technique for protein sequence classification in bioinformatics
Gupta et al. DAVI: Deep learning-based tool for alignment and single nucleotide variant identification
Kurniawan et al. Prediction of protein tertiary structure using pre-trained self-supervised learning based on transformer
Kroll et al. Drug-target interaction prediction using a multi-modal transformer network demonstrates high generalizability to unseen proteins
Mo et al. Applications of Machine Learning in Phylogenetics
Liu et al. An overview of biological data generation using generative adversarial networks
US20230223100A1 (en) Inter-model prediction score recalibration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination