CN113257341A - 一种基于深度残差网络的蛋白质残基间距离分布预测方法 - Google Patents

一种基于深度残差网络的蛋白质残基间距离分布预测方法 Download PDF

Info

Publication number
CN113257341A
CN113257341A CN202110483806.0A CN202110483806A CN113257341A CN 113257341 A CN113257341 A CN 113257341A CN 202110483806 A CN202110483806 A CN 202110483806A CN 113257341 A CN113257341 A CN 113257341A
Authority
CN
China
Prior art keywords
sequence
proteins
residue
residues
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110483806.0A
Other languages
English (en)
Inventor
张贵军
杨涛
刘俊
侯铭桦
郭赛赛
冯琼琼
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110483806.0A priority Critical patent/CN113257341A/zh
Publication of CN113257341A publication Critical patent/CN113257341A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于深度残差网络的蛋白质残基间距离分布预测方法,首先构建数据集,制作标签数据,获取多序列比对文件,以序列相似度为60%提取多序列比对文件;对20种氨基酸类型和gap进行编码;按照随机分配三张残基接触图权重合成一张新的接触图特征;搭建深度残差神经网络模型,将提取出的特征信息维度规范化处理,合并成一个491维L*L大小的输入特征;输入到深度残差网络模型中,经过数据降维,特征提取和反向传播参数,迭代50次后获得训练模型;将待测的蛋白质序列和特征信息输入到训练的模型中得到残基间的距离在每个距离区间的概率;本发明提供了一种基于深度残差网络的蛋白质残基间距离分布预测方法。

Description

一种基于深度残差网络的蛋白质残基间距离分布预测方法
技术领域
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度残差网络的蛋白质残基间距离分布预测方法
背景技术
残差网络模型刚被提出时,就在图像识别领域引起了极大的关注,在图像检测问题的特征提取表现出色,比人类的分辨能力出色。近年来,这种残差网络结构已经应用到生物信息学领域,可以用来预测蛋白质序列残基与残基间的接触信息和距离分布信息,从蛋白质序列定义在单个残基和残基对之间的特征先验信息来预测氨基酸之间的接触信息和距离概率分布。同时,利用深度卷积神经网络,在对蛋白质序列上每对残基进行计算得分时,通过扩大感受野,能够考虑到更多的先验信息;在对蛋白质序列的一些特征矩阵做数据处理时,通过卷积参数共享,对所有的残基对同时预测,大大节约了预测时间。
蛋白质残基间的距离分布提供了丰富的蛋白质空间几何约束信息,可以引导蛋白质向天然态折叠,提高结构预测精度。蛋白质残基间距离的精确预测将为高精度的蛋白质结构预测提供重要保障,对蛋白质功能的理解、靶向药物的设计、改造和合成蛋白质都有着关键的作用。
传统方法通过生物实验来测定蛋白质三维结构,耗时费力,代价极高。随着基因测序技术的快速发展和人工智能的兴起,利用深度学习技术,从氨基酸序列预测蛋白质残基间距离概率分布引导蛋白质折叠,成为实现高通量获取蛋白质三维结构关键手段。
发明内容
针对以上技术问题。本发明提出了一种基于深度残差网络的蛋白质残基间距离分布预测方法,提高了蛋白质残基间距离的预测精度,可用于辅助蛋白质三维结构预测。
本发明解决其技术问题所采用的技术方案是:
一种基于深度残差网络的蛋白质残基间距离分布预测方法,所述方法包括以下步骤:
1)构建数据集:先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到设定数量蛋白质;进一步过滤掉SPACI分数低于设定分值的低质量蛋白质,选择序列长度在设定长度之间的蛋白质,得到数据集;从构建的数据集中随机挑出一部分蛋白作为测试集,另一部分蛋白作为验证集,剩余蛋白用作训练集;
2)制作标签数据:对数据集中的每一个蛋白质,根据序列每个残基中Cβ原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含Cβ原子,以Cα原子代替;根据残基对之间的距离信息划分16个距离区间,分别为
Figure BDA0003049497150000024
Figure BDA0003049497150000025
Figure BDA0003049497150000026
大于
Figure BDA0003049497150000027
表示最后一个区间,对这16个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15;残基对间的距离落入哪个区间取对应的标号作为标签值;
3)获取多序列比对文件:利用HHblits工具,设定最大序列相似度90%、覆盖率75%对Uniclust30序列数据库搜索,得到目标序列的同源序列组成的多序列比对文件;以序列相似度为60%过滤多序列比对文件,计算有效序列数Sval,公式如下:
Figure BDA0003049497150000021
Figure BDA0003049497150000022
其中S为多序列比对文件中序列的数目,
Figure BDA0003049497150000023
为1表示序列m和n的第i号残基相同,否则为0,L表示序列的长度;
4)对20种氨基酸类型和gap进行编码,分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21;
5)计算残基间平均接触势能,过程如下:
5.1)采用Miyazawa和Jernigan等效接触势能,其数值表示不同种类的氨基酸之间相互作用的强度,接触势能数值越大,残基相互作用越不稳定,容易偏离平衡位置,数值越小,残基之间的相互作用越稳定,越难偏离平衡位置,残基间相互接触势能值如图3所示;
5.2)利用残基对之间相互接触势能计算多序列比对文件中每对残基之间的平均接触势能Mcp,公式如下:
Figure BDA0003049497150000031
其中
Figure BDA0003049497150000032
表示多序列比对中第S条序列的第i号残基A,第j号残基B之间的接触势能值,其中A和B表示20种常见的氨基酸,特征数据维度为1*L*L,L表示多序列比对文件中一条序列的残基数目;
6)根据多序列比对文件计算序列氨基酸频率谱特征,过程如下:
6.1)计算氨基酸在序列某个位置出现的概率,公式如下:
Figure BDA0003049497150000033
其中NA为氨基酸A在有效的MSA中某一列出现次数。
6.2)为了防止出现矩阵数据稀疏的情况,做如下转化:
Figure BDA0003049497150000034
获得21*L的数据特征文件,对序列频率谱信息做水平遍历和垂直遍历处理将序列谱特征维度变成42*L*L,L表示多序列比对文件中某条序列的残基数目;
7)根据有效多序列比对文件计算在残基间协方差特征,过程如下:
Covij=fij(A,B)-fi(A)fj(B)
其特征数据维度为441*L*L,L表示多序列比对文件中某条序列的残基数目。
8)将目标蛋白质序列输入到PSIPRED二级结构预测器中,得到序列在某个区域二级结构信息(螺旋、片层、卷曲);根据氨基酸编码方式处理数据,对二级结构特征信息做水平条带化、垂直条带化处理,将序列的二级结构特征维度转换成6*L*L,L表示多序列比对文件中某条序列的残基数目;
9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器,分别获得目标蛋白质是接触图X1,X2和X3,将3个残基的接触图合成一张新的残基接触图。按照如下方式进行合成:
X=m1X1+m2X2+m3X3
其中m1、m2、m3∈(0,1),且m1+m2+m3=1,X即为合成的目标序列残基接触图;
10)搭建残差网络模型:
10.1)深度残差网络由输入层、30个残差块结构和输出层组成;输入层由1个1×1滤波器的二维卷积层;残差块由两个卷积层、一个归一化层组成;输出层由一个1×1滤波器的二维卷积核和一个Softmax非线性函数组成;
10.2)使用Xavier均匀分布初始化,使用Adam Optimizer方法对网络权重进行优化,依照设定的初始学习率,使用多元交叉熵CrossEntropyLoss作为损失函数;
11)训练模型参数:将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中,经过数据降维,特征提取,反向传播,总共训练设定次数得到训练模型参数;
12)提取测试集序列特征信息,输入到训练的模型中,可以得到每对残基落入每个区间的概率的分布情况,可用于约束蛋白质的折叠。
进一步,所述步骤1)中,先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到10596个蛋白质;进一步过滤掉SPACI分数低于0.4分的低质量蛋白质,选择序列长度在30至300之间的蛋白质,得到包含6791个蛋白质作为数据集;从构建的数据集中随机挑出91个蛋白作为测试集,700个蛋白作为验证集,剩余6000个蛋白用作训练集。
本发明的有益效果主要表现在:利用深度残差网络强大的信息提取能力提高了蛋白质残基间距离分布的效率与准确性,利用序列残基的特征先验信息,提高了预测的可靠性,蛋白质残基间距离信息用于引导蛋白质折叠,大大提高了结构预测精度。
附图表说明
图1是一种基于深度残差网络的蛋白质残基间距离分布预测方法的整体流程图。
图2是一种基于深度残差网的络蛋白质残基间距离分布预测方法对蛋白3ZXQ_A预测得到的距离分布图。
图3是Miyazawa和Jernigan残基等效接触势能值。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2和图3,一种基于深度残差网络的蛋白质残基间距离分布预测方法,包括以下步骤:
1)构建数据集:先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到设定数量蛋白质;进一步过滤掉SPACI分数低于设定分值的低质量蛋白质,选择序列长度在设定长度之间的蛋白质,得到数据集;从构建的数据集中随机挑出一部分蛋白作为测试集,另一部分蛋白作为验证集,剩余蛋白用作训练集;
2)制作标签数据:对数据集中的每一个蛋白质,根据序列每个残基中Cβ原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含Cβ原子,以Cα原子代替;根据残基对之间的距离信息划分16个距离区间,分别为
Figure BDA0003049497150000051
Figure BDA0003049497150000052
Figure BDA0003049497150000053
大于
Figure BDA0003049497150000054
表示最后一个区间,对这16个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15;残基对间的距离落入哪个区间取对应的标号作为标签值;
3)获取多序列比对文件:利用HHblits工具,设定最大序列相似度90%、覆盖率75%对Uniclust30序列数据库搜索,得到目标序列的同源序列组成的多序列比对文件;以序列相似度为60%过滤多序列比对文件,计算有效序列数Sval,公式如下:
Figure BDA0003049497150000055
Figure BDA0003049497150000056
其中S为多序列比对文件中序列的数目,
Figure BDA0003049497150000057
为1表示序列m和n的第i号残基相同,否则为0,L表示序列的长度;
4)对20种氨基酸类型和gap进行编码,分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21;
5)计算残基间平均接触势能,过程如下:
5.1)采用Miyazawa和Jernigan等效接触势能,其数值表示不同种类的氨基酸之间相互作用的强度,接触势能数值越大,残基相互作用越不稳定,容易偏离平衡位置,数值越小,残基之间的相互作用越稳定,越难偏离平衡位置,残基间相互接触势能值如图3所示;
5.2)利用残基对之间相互接触势能计算多序列比对文件中每对残基之间的平均接触势能Mcp,公式如下:
Figure BDA0003049497150000061
其中
Figure BDA0003049497150000062
表示多序列比对中第S条序列的第i号残基A,第j号残基B之间的接触势能值,其中A和B表示20种常见的氨基酸,特征数据维度为1*L*L,L表示多序列比对文件中一条序列的残基数目;
6)根据多序列比对文件计算序列氨基酸频率谱特征,过程如下:
6.1)计算氨基酸在序列某个位置出现的概率,公式如下:
Figure BDA0003049497150000063
其中NA为氨基酸A在有效的MSA中某一列出现次数。
6.2)为了防止出现矩阵数据稀疏的情况,做如下转化:
Figure BDA0003049497150000064
获得21*L的数据特征文件,对序列频率谱信息做水平遍历和垂直遍历处理将序列谱特征维度变成42*L*L,L表示多序列比对文件中某条序列的残基数目;
7)根据有效多序列比对文件计算在残基间协方差特征,过程如下:
Covij=fij(A,B)-fi(A)fj(B)
其特征数据维度为441*L*L,L表示多序列比对文件中某条序列的残基数目。
8)将目标蛋白质序列输入到PSIPRED二级结构预测器中,得到序列在某个区域二级结构信息(螺旋、片层、卷曲);根据氨基酸编码方式处理数据,对二级结构特征信息做水平条带化、垂直条带化处理,将序列的二级结构特征维度转换成6*L*L,L表示多序列比对文件中某条序列的残基数目;
9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器,分别获得目标蛋白质是接触图X1,X2和X3,将3个残基的接触图合成一张新的残基接触图。按照如下方式进行合成:
X=m1X1+m2X2+m3X3
其中m1、m2、m3∈(0,1),且m1+m2+m3=1,X即为合成的目标序列残基接触图;
10)搭建残差网络模型:
10.1)深度残差网络由输入层、30个残差块结构和输出层组成;输入层由1个1×1滤波器的二维卷积层;残差块由两个卷积层、一个归一化层组成;输出层由一个1×1滤波器的二维卷积核和一个Softmax非线性函数组成;
10.2)使用Xavier均匀分布初始化,使用Adam Optimizer方法对网络权重进行优化,依照设定的初始学习率,使用多元交叉熵CrossEntropyLoss作为损失函数;
11)训练模型参数:将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中,经过数据降维,特征提取,反向传播,总共训练设定次数得到训练模型参数;
12)提取测试集序列特征信息,输入到训练的模型中,可以得到每对残基落入每个区间的概率的分布情况,可用于约束蛋白质的折叠。
所述步骤1)中,先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到10596个蛋白质;进一步过滤掉SPACI分数低于0.4分的低质量蛋白质,选择序列长度在30至300之间的蛋白质,得到包含6791个蛋白质作为数据集;从构建的数据集中随机挑出91个蛋白作为测试集,700个蛋白作为验证集,剩余6000个蛋白用作训练集。
以序列长度为124残基的蛋白质3ZXQ_A为实施例,一种基于深度残差网络的蛋白质残基间距离分布预测方法,包括以下步骤:
1)构建数据集:先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到10596个蛋白质;进一步过滤掉SPACI分数低于0.4分的低质量蛋白质,选择序列长度在30至300之间的蛋白质,得到包含6791个蛋白质作为数据集;从构建的数据集中随机挑出91个蛋白作为测试集,700个蛋白作为验证集,剩余6000个蛋白的用作训练集;
2)制作标签数据:对数据集中的每一个蛋白质,根据序列每个残基中Cβ原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含Cβ原子,以Cα原子代替;根据残基对之间的距离信息划分16个距离区间,分别为
Figure BDA0003049497150000081
Figure BDA0003049497150000082
Figure BDA0003049497150000083
大于
Figure BDA0003049497150000084
表示最后一个区间,对这16个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15;残基对间的距离落入哪个区间取对应的标号作为标签值;
3)获取多序列比对文件:利用HHblits工具,设定最大序列相似度90%、覆盖率75%对Uniclust30序列数据库搜索,得到目标序列的同源序列组成的多序列比对文件;以序列相似度为60%过滤多序列比对文件,计算有效序列数Sval,公式如下:
Figure BDA0003049497150000085
Figure BDA0003049497150000086
其中S为多序列比对文件中序列的数目,
Figure BDA0003049497150000087
为1表示序列m和n的第i号残基相同,否则为0,L表示序列的长度;
4)对20种氨基酸类型和gap进行编码,分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21;
5)计算残基间平均接触势能,过程如下:
5.1)采用Miyazawa和Jernigan等效接触势能,其数值表示不同种类的氨基酸之间相互作用的强度,接触势能数值越大,残基相互作用越不稳定,容易偏离平衡位置,数值越小,残基之间的相互作用越稳定,越难偏离平衡位置,残基间相互接触势能值如图3所示;
5.2)利用残基对之间相互接触势能计算多序列比对文件中每对残基之间的平均接触势能Mcp,公式如下:
Figure BDA0003049497150000091
其中
Figure BDA0003049497150000092
表示多序列比对中第S条序列的第i号残基A,第j号残基B之间的接触势能值,其中A和B表示20种常见的氨基酸,特征数据维度为1*L*L,L表示多序列比对文件中一条序列的残基数目;
6)根据多序列比对文件计算序列氨基酸频率谱特征,过程如下:
6.1)计算氨基酸在序列某个位置出现的概率,公式如下:
Figure BDA0003049497150000093
其中NA为氨基酸A在有效的MSA中某一列出现次数。
6.2)为了防止出现矩阵数据稀疏的情况,做如下转化:
Figure BDA0003049497150000094
获得21*L的数据特征文件,对序列频率谱信息做水平遍历和垂直遍历处理将序列谱特征维度变成42*L*L,L表示多序列比对文件中某条序列的残基数目;
7)根据有效多序列比对文件计算在残基间协方差特征,过程如下:
Covij=fij(A,B)-fi(A)fj(B)
其特征数据维度为441*L*L,L表示多序列比对文件中某条序列的残基数目。
8)将目标蛋白质序列输入到PSIPRED二级结构预测器中,得到序列在某个区域二级结构信息(螺旋、片层、卷曲);根据氨基酸编码方式处理数据,对二级结构特征信息做水平条带化、垂直条带化处理,将序列的二级结构特征维度转换成6*L*L,L表示多序列比对文件中某条序列的残基数目;
9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器,分别获得目标蛋白质是接触图X1,X2和X3,将3个残基的接触图合成一张新的残基接触图。按照如下方式进行合成:
X=m1X1+m2X2+m3X3
其中m1、m2、m3∈(0,1),且m1+m2+m3=1,X即为合成的目标序列残基接触图;
10)搭建残差网络模型:
10.1)深度残差网络由输入层、30个残差块结构和输出层组成;输入层由1个1×1滤波器的二维卷积层;残差块由两个卷积层、一个归一化层组成;输出层由一个1×1滤波器的二维卷积核和一个Softmax非线性函数组成;
10.2)使用Xavier均匀分布初始化,使用Adam Optimizer方法对网络权重进行优化,初始学习率为0.01,使用多元交叉熵CrossEntropyLoss作为损失函数;
11)训练模型参数:将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中,经过数据降维,特征提取,反向传播,总共训练50次得到训练模型参数;
12)提取测试集序列特征信息,输入到训练的模型中,可以得到每对残基落入每个区间的概率的分布情况,可用于约束蛋白质的折叠。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,而且在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于深度残差网络的蛋白质残基间距离分布预测方法,其特征在于,所述方法包括以下步骤:
1)构建数据集:先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到设定数量蛋白质;进一步过滤掉SPACI分数低于设定分值的低质量蛋白质,选择序列长度在设定长度之间的蛋白质,得到数据集;从构建的数据集中随机挑出一部分蛋白作为测试集,另一部分蛋白作为验证集,剩余蛋白用作训练集;
2)制作标签数据:对数据集中的每一个蛋白质,根据序列每个残基中Cβ原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含Cβ原子,以Cα原子代替;根据残基对之间的距离信息划分16个距离区间,分别为
Figure FDA0003049497140000011
Figure FDA0003049497140000012
Figure FDA0003049497140000013
大于
Figure FDA0003049497140000014
表示最后一个区间,对这16个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15;残基对间的距离落入哪个区间取对应的标号作为标签值;
3)获取多序列比对文件:利用HHblits工具,设定最大序列相似度90%、覆盖率75%对Uniclust30序列数据库搜索,得到目标序列的同源序列组成的多序列比对文件;以序列相似度为60%过滤多序列比对文件,计算有效序列数Sval,公式如下:
Figure FDA0003049497140000015
Figure FDA0003049497140000016
其中S为多序列比对文件中序列的数目,
Figure FDA0003049497140000017
为1表示序列m和n的第i号残基相同,否则为0,L表示序列的长度;
4)对20种氨基酸类型和gap进行编码,分别表示为:丙氨酸A:1,半胱氨酸C:2,天冬氨酸D:3,谷氨酸E:4,苯丙氨酸F:5,甘氨酸G:6,组氨酸H:7,异亮氨酸I:8,赖氨酸K:9,亮氨酸L:10,甲硫氨酸M:11,天冬酰胺N:12,脯氨酸P:13,谷氨酰胺Q:14,精氨酸R:15,丝氨酸S:16,苏氨酸T:17,缬氨酸V:18,色氨酸W:19,酪氨酸Y:20,gap:21;
5)计算残基间平均接触势能,过程如下:
5.1)采用Miyazawa和Jernigan等效接触势能,其数值表示不同种类的氨基酸之间相互作用的强度,接触势能数值越大,残基相互作用越不稳定,容易偏离平衡位置,数值越小,残基之间的相互作用越稳定,越难偏离平衡位置,残基间相互接触势能值如图3所示;
5.2)利用残基对之间相互接触势能计算多序列比对文件中每对残基之间的平均接触势能Mcp,公式如下:
Figure FDA0003049497140000021
其中
Figure FDA0003049497140000022
表示多序列比对中第S条序列的第i号残基A,第j号残基B之间的接触势能值,其中A和B表示20种常见的氨基酸,特征数据维度为1*L*L,L表示多序列比对文件中一条序列的残基数目;
6)根据多序列比对文件计算序列氨基酸频率谱特征,过程如下:
6.1)计算氨基酸在序列某个位置出现的概率,公式如下:
Figure FDA0003049497140000023
其中NA为氨基酸A在有效的MSA中某一列出现次数;
6.2)为了防止出现矩阵数据稀疏的情况,做如下转化:
Figure FDA0003049497140000024
获得21*L的数据特征文件,对序列频率谱信息做水平遍历和垂直遍历处理将序列谱特征维度变成42*L*L,L表示多序列比对文件中某条序列的残基数目;
7)根据有效多序列比对文件计算在残基间协方差特征,过程如下:
Covij=fij(A,B)-fi(A)fj(B)
其特征数据维度为441*L*L,L表示多序列比对文件中某条序列的残基数目;
8)将目标蛋白质序列输入到PSIPRED二级结构预测器中,得到序列在某个区域二级结构信息,即螺旋、片层或卷曲;根据氨基酸编码方式处理数据,对二级结构特征信息做水平条带化、垂直条带化处理,将序列的二级结构特征维度转换成6*L*L,L表示多序列比对文件中某条序列的残基数目;
9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器,分别获得目标蛋白质是接触图X1,X2和X3,将3个残基的接触图合成一张新的残基接触图,按照如下方式进行合成:
X=m1X1+m2X2+m3X3
其中m1、m2、m3∈(0,1),且m1+m2+m3=1,X即为合成的目标序列残基接触图;
10)搭建残差网络模型:
10.1)深度残差网络由输入层、30个残差块结构和输出层组成;输入层由1个1×1滤波器的二维卷积层;残差块由两个卷积层、一个归一化层组成;输出层由一个1×1滤波器的二维卷积核和一个Softmax非线性函数组成;
10.2)使用Xavier均匀分布初始化,使用Adam Optimizer方法对网络权重进行优化,按照设定的初始学习率,使用多元交叉熵CrossEntropyLoss作为损失函数;
11)训练模型参数:将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中,经过数据降维,特征提取,反向传播,总共训练设定次数得到训练模型参数;
12)提取测试集序列特征信息,输入到训练的模型中,得到每对残基落入每个区间的概率的分布情况,用于约束蛋白质的折叠。
2.如权利要求1所述的基于深度残差网络的蛋白质残基间距离分布预测方法,其特征在于,所述步骤1)中,先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30%聚类,选取每个类的代表蛋白质得到10596个蛋白质;进一步过滤掉SPACI分数低于0.4分的低质量蛋白质,选择序列长度在30至300之间的蛋白质,得到包含6791个蛋白质作为数据集;从构建的数据集中随机挑出91个蛋白作为测试集,700个蛋白作为验证集,剩余6000个蛋白用作训练集。
CN202110483806.0A 2021-04-30 2021-04-30 一种基于深度残差网络的蛋白质残基间距离分布预测方法 Withdrawn CN113257341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110483806.0A CN113257341A (zh) 2021-04-30 2021-04-30 一种基于深度残差网络的蛋白质残基间距离分布预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110483806.0A CN113257341A (zh) 2021-04-30 2021-04-30 一种基于深度残差网络的蛋白质残基间距离分布预测方法

Publications (1)

Publication Number Publication Date
CN113257341A true CN113257341A (zh) 2021-08-13

Family

ID=77223482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110483806.0A Withdrawn CN113257341A (zh) 2021-04-30 2021-04-30 一种基于深度残差网络的蛋白质残基间距离分布预测方法

Country Status (1)

Country Link
CN (1) CN113257341A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037913A (zh) * 2023-10-07 2023-11-10 之江实验室 一种蛋白质多序列比对方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037913A (zh) * 2023-10-07 2023-11-10 之江实验室 一种蛋白质多序列比对方法、装置、存储介质及电子设备
CN117037913B (zh) * 2023-10-07 2024-01-26 之江实验室 一种蛋白质多序列比对方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111667884B (zh) 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN110289050B (zh) 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN112085247B (zh) 一种基于深度学习的蛋白质残基接触预测方法
Hoffmann et al. Combining peak-and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets
CN106529207B (zh) 一种与核糖核酸结合的蛋白质的预测方法
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
Yang et al. Image-based classification of protein subcellular location patterns in human reproductive tissue by ensemble learning global and local features
CN114708903A (zh) 一种基于自注意力机制的蛋白质残基间距离预测方法
CN109599149A (zh) 一种rna编码潜能的预测方法
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
CN113257341A (zh) 一种基于深度残差网络的蛋白质残基间距离分布预测方法
CN118038995A (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
CN113823356A (zh) 一种甲基化位点识别方法及装置
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN104462817A (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN112541328B (zh) 一种笔迹的存储方法、装置、设备及存储介质
CN114861940A (zh) 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法
CN117746997B (zh) 一种基于多模态先验信息的顺式调控模体识别方法
Van Berlo et al. Protein complex prediction using an integrative bioinformatics approach
CN112908418B (zh) 一种基于字典学习的氨基酸序列特征提取方法
CN117421386B (zh) 基于gis的空间数据处理方法及系统
Yang et al. Recovering hidden diagonal structures via non-negative matrix factorization with multiple constraints
Wu et al. An expert system to identify co-regulated gene groups from time-lagged gene clusters using cell cycle expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210813