CN112085245A - 一种基于深度残差神经网络的蛋白质残基接触预测方法 - Google Patents
一种基于深度残差神经网络的蛋白质残基接触预测方法 Download PDFInfo
- Publication number
- CN112085245A CN112085245A CN202010704130.9A CN202010704130A CN112085245A CN 112085245 A CN112085245 A CN 112085245A CN 202010704130 A CN202010704130 A CN 202010704130A CN 112085245 A CN112085245 A CN 112085245A
- Authority
- CN
- China
- Prior art keywords
- sequence
- file
- residue
- sequence alignment
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 57
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000000455 protein structure prediction Methods 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 238000002864 sequence alignment Methods 0.000 claims description 40
- 238000002887 multiple sequence alignment Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 20
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 5
- 150000001413 amino acids Chemical class 0.000 claims description 4
- 229910002056 binary alloy Inorganic materials 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000012467 final product Substances 0.000 claims description 4
- 238000011423 initialization method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Analytical Chemistry (AREA)
Abstract
一种基于深度残差神经网络的蛋白质残基接触预测方法,首先,通过蛋白质数据库构建数据集;其次,利用HHblits构建所有序列的MSA,根据进化信息提取序列谱特征、香农熵特征、协方差特征,作为神经网络的输入,生成神经网络的标签文件;然后,将数据集输入到神经网络中训练神经网络;最后,将测试序列输入到神经网络中进行预测。本发明提供一种能够有效辅助蛋白质结构预测的蛋白质残基接触预测方法,能够提高蛋白质结构预测的精度。
Description
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度残差神经网络的蛋白质残基接触预测方法。
背景技术
蛋白质是生命系统中最丰富的有机分子。这些分子在结构和功能上比其他种类的大分子更加多样化。一个细胞内的生命系统都包含数千种蛋白质,每一种都有独特的功能。蛋白质在细胞或有机体中起着广泛的作用。蛋白质结构是一个有着几百上千种残基的复杂系统,残基之间通过相互作用形成稳定的三维结构,以实现特定的功能。在生物体内,基因序列决定了氨基酸序列的构成,氨基酸序列决定了蛋白质的空间结构,而蛋白质的功能与蛋白质的空间结构有着密不可分的联系。因此要研究蛋白质的功能就要从蛋白质的结构入手。然而目前已知的蛋白质结构的数量相对于基因序列的数量少之又少,蛋白质的三维结构可以通过实验的方式求解,但是过程复杂,比较繁琐。通过x射线晶体学的解决可以产生非常好的结果,但是它需要一个纯净的蛋白质样品来形成相对无瑕疵的晶体。核磁共振的解决局限于小的可溶性蛋白。因此,从氨基酸序列预测蛋白质结构是缩小蛋白质结构数量与氨基酸序列数量之间差距的关键。
接触图是表示蛋白质残基在一定距离阈值内接触状况的矩阵,为蛋白质的三维结构预测提供了信息。因此蛋白质残基接触预测是蛋白质结构预测的重要环节之一。
蛋白质残基接触图预测能为蛋白质结构预测提供精度保障,因此需要对蛋白质残基接触图预测方法进行研究。
发明内容
为了提高现有的蛋白质结构预测方法的精度,本发明提出了一种基于深度残差神经网络的蛋白质残基接触预测方法,用来辅助蛋白质结构预测,提高预测精度。
本发明解决其技术问题所采用的技术方案是:
一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},表示多序列比对中第m行第i列中的残基类型;表示多序列比对中第m行第j列残基的类型;表示和A是否相等,相等则为1,不等则为0;表示和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以为阈值判断残基对是否接触,当距离小于表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
本发明的技术构思为:首先,通过蛋白质数据库构建数据集;其次,利用HHblits构建所有序列的MSA,根据进化信息提取序列谱特征、香农熵特征、协方差特征,作为神经网络的输入,生成神经网络的标签文件;然后,将数据集输入到神经网络中训练神经网络;最后,将测试序列输入到神经网络中进行预测。
本发明的有益效果为:基于深度残差神经网络的蛋白质残基接触预测方法能够利用大量的已测定蛋白质序列信息,提取待预测蛋白质序列的共同进化信息,进而预测蛋白质残基接触,用于辅助蛋白质结构预测,提高蛋白质结构预测精度。
附图说明
图1是一种基于深度残差神经网络的蛋白质残基接触预测方法总流程图。
图2是一种基于深度残差神经网络的蛋白质残基接触预测方法神经网络架构图。
图3是一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图结果。
图4是利用一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图辅助蛋白质结构预测得到的蛋白质三维结构。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},表示多序列比对中第m行第i列中的残基类型;表示多序列比对中第m行第j列残基的类型;表示和A是否相等,相等则为1,不等则为0;表示和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以为阈值判断残基对是否接触,当距离小于表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
本实例以一个蛋白质序列1B4B为例,一种基于深度残差神经网络的蛋白质残基接触预测方法,所述方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,…,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,…,M},表示多序列比对中第m行第i列中的残基类型;表示多序列比对中第m行第j列残基的类型;表示和A是否相等,相等则为1,不等则为0;表示和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,…,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以为阈值判断残基对是否接触,当距离小于表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测蛋白质1B4B的接触图:利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索1B4B的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
以氨基酸序列长度为72的蛋白质1B4B为实施例,运用以上方法预测得到该蛋白质的接触图,其接触图如图3所示;将该接触图加入到蛋白质结构预测软件Rosetta中辅助结构预测,预测的蛋白质的均方根偏差为预测结构图如图4所示。
以上阐述的是本发明给出的一个实施例表现出来的良好效果,本发明不仅适合上述实施例,在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。
Claims (1)
1.一种基于深度残差神经网络的蛋白质残基接触预测方法,其特征在于:所述残基接触预测方法包括以下步骤:
1)构建数据集:从蛋白质数据库PDB中选择序列相似度低于20%、序列长度在40-500之间的4000个氨基酸序列,从中随机选择300个序列作为测试集,剩余的序列作为训练集;
2)氨基酸序列进化信息分析,操作如下:
2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件;
2.2)基于生成的多序列比对文件,计算多序列比对文件中第i号残基为A类型氨基酸的概率fi(A),其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,fi(A)计算公式如下:
2.3)计算多序列比对文件中第i号残基为A,且第j号残基为B的概率fij(A,B),其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},其中i和j均∈{1,2,....,L},L为多序列比对文件中单条序列的长度,fij(A,B)计算公式如下:
其中M表示多序列比对文件中序列的条数,m表示当前序列是多序列比对文件中的第几条,m∈{1,2,...,M},表示多序列比对中第m行第i列中的残基类型;表示多序列比对中第m行第j列残基的类型;表示和A是否相等,相等则为1,不等则为0;表示和B是否相等,相等则为1,不等则为0;
2.4)根据步骤2.2)和2.3)中得到的fi(A)和fij(A,B)计算香农熵Si,i表示多序列比对文件中的第i列,i∈{1,2,...,L},L为多序列比对文件中单条序列的长度,Si计算公式如下:
其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-};
3)构建神经网络输入特征及标签文件,过程如下:
3.1)计算协方差矩阵Q,协方差矩阵的每个特征计算公式如下:
3.2)构建输入特征集:由fi(A)公式生成的序列谱特征的维度为L*21维,L为多序列比对文件中单条序列的长度,由Si公式生成的香农熵特征的维度为L*1维,通过条带化的方式将序列谱特征的维度转换为L*L*42维,将香农熵特征的维度转换为L*L*2维,然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征;
3.3)建立数据集样本标签:在PDB数据库中搜索每一个训练蛋白的结构文件,并计算每个结构内部两两残基间的欧式距离,以为阈值判断残基对是否接触,当距离小于表明该残基对接触,接触图相应位置置1,否则表明该残基对不接触,接触图相应位置置0;
4)神经网络训练:本发明采用的是残差网络,采用二进制交叉熵函数作为损失函数;采用He initialization初始化网络权重,He initialization是网络权重初始化方法;开发平台采用Pytorch,学习率设置为0.001,批处理大小为7个训练样本为一个批次;训练过程使用马修斯相关系数作为评价指标,记录马修斯相关系数的最大值,如果记录了最大值之后,连续10代的最大值都保持不变,则停止训练;
5)预测测试集序列接触图,利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件,然后根据3.1)中序列特征生成步骤生成测试序列的序列特征,输入到神经网络中进行预测,最终生成一个contact文件,contact文件中包含神经网络生成的接触信息,然后根据contact文件中的置信度进行排序,用于辅助蛋白质结构预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704130.9A CN112085245A (zh) | 2020-07-21 | 2020-07-21 | 一种基于深度残差神经网络的蛋白质残基接触预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704130.9A CN112085245A (zh) | 2020-07-21 | 2020-07-21 | 一种基于深度残差神经网络的蛋白质残基接触预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085245A true CN112085245A (zh) | 2020-12-15 |
Family
ID=73735167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010704130.9A Pending CN112085245A (zh) | 2020-07-21 | 2020-07-21 | 一种基于深度残差神经网络的蛋白质残基接触预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085245A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837741A (zh) * | 2021-01-25 | 2021-05-25 | 浙江工业大学 | 一种基于循环神经网络的蛋白质二级结构预测方法 |
CN113571126A (zh) * | 2021-07-06 | 2021-10-29 | 浙江工业大学 | 一种基于多损失训练的蛋白质残基接触预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215301A1 (en) * | 2006-05-22 | 2008-09-04 | Yeda Research And Development Co. Ltd. | Method and apparatus for predicting protein structure |
CA2872234A1 (en) * | 2012-05-09 | 2013-11-14 | Memorial Sloan-Kettering Cancer Research | Methods and apparatus for predicting protein structure |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
CN110689920A (zh) * | 2019-09-18 | 2020-01-14 | 上海交通大学 | 一种基于深度学习的蛋白质-配体结合位点预测算法 |
CN111063389A (zh) * | 2019-12-04 | 2020-04-24 | 浙江工业大学 | 一种基于深度卷积神经网络的配体绑定残基预测方法 |
-
2020
- 2020-07-21 CN CN202010704130.9A patent/CN112085245A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215301A1 (en) * | 2006-05-22 | 2008-09-04 | Yeda Research And Development Co. Ltd. | Method and apparatus for predicting protein structure |
CA2872234A1 (en) * | 2012-05-09 | 2013-11-14 | Memorial Sloan-Kettering Cancer Research | Methods and apparatus for predicting protein structure |
CN109637580A (zh) * | 2018-12-06 | 2019-04-16 | 上海交通大学 | 一种蛋白质氨基酸关联矩阵预测方法 |
CN110689920A (zh) * | 2019-09-18 | 2020-01-14 | 上海交通大学 | 一种基于深度学习的蛋白质-配体结合位点预测算法 |
CN111063389A (zh) * | 2019-12-04 | 2020-04-24 | 浙江工业大学 | 一种基于深度卷积神经网络的配体绑定残基预测方法 |
Non-Patent Citations (2)
Title |
---|
张蕾;李征;郑逢斌;杨伟;: "基于深度学习的八类蛋白质二级结构预测算法", 计算机应用, no. 05, 10 May 2017 (2017-05-10) * |
陆克中, 黄可望, 须文波: "基于神经网络的多聚脯氨酸二型结构预测", 食品与生物技术学报, no. 01, 30 January 2005 (2005-01-30) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837741A (zh) * | 2021-01-25 | 2021-05-25 | 浙江工业大学 | 一种基于循环神经网络的蛋白质二级结构预测方法 |
CN112837741B (zh) * | 2021-01-25 | 2024-04-16 | 浙江工业大学 | 一种基于循环神经网络的蛋白质二级结构预测方法 |
CN113571126A (zh) * | 2021-07-06 | 2021-10-29 | 浙江工业大学 | 一种基于多损失训练的蛋白质残基接触预测方法 |
CN113571126B (zh) * | 2021-07-06 | 2024-03-22 | 浙江工业大学 | 一种基于多损失训练的蛋白质残基接触预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SBSM-Pro: support bio-sequence machine for proteins | |
Li et al. | Protein contact map prediction based on ResNet and DenseNet | |
US20230207054A1 (en) | Deep learning network for evolutionary conservation | |
CN112085247A (zh) | 一种基于深度学习的蛋白质残基接触预测方法 | |
CN112837741A (zh) | 一种基于循环神经网络的蛋白质二级结构预测方法 | |
CN112085245A (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
CN114708903A (zh) | 一种基于自注意力机制的蛋白质残基间距离预测方法 | |
CN116013428A (zh) | 基于自监督学习的药物靶标通用预测方法、设备及介质 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
Suquilanda-Pesántez et al. | NIFtHool: an informatics program for identification of NifH proteins using deep neural networks | |
Ding et al. | Dance: A deep learning library and benchmark for single-cell analysis | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN111048145A (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
Sun et al. | ICTC-RAAC: An improved web predictor for identifying the types of ion channel-targeted conotoxins by using reduced amino acid cluster descriptors | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
Iqbal et al. | A distance-based feature-encoding technique for protein sequence classification in bioinformatics | |
Gupta et al. | DAVI: Deep learning-based tool for alignment and single nucleotide variant identification | |
Kurniawan et al. | Prediction of protein tertiary structure using pre-trained self-supervised learning based on transformer | |
Kroll et al. | Drug-target interaction prediction using a multi-modal transformer network demonstrates high generalizability to unseen proteins | |
Mo et al. | Applications of Machine Learning in Phylogenetics | |
Liu et al. | An overview of biological data generation using generative adversarial networks | |
US20230223100A1 (en) | Inter-model prediction score recalibration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |