CN113611354A - 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 - Google Patents
一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 Download PDFInfo
- Publication number
- CN113611354A CN113611354A CN202110759327.7A CN202110759327A CN113611354A CN 113611354 A CN113611354 A CN 113611354A CN 202110759327 A CN202110759327 A CN 202110759327A CN 113611354 A CN113611354 A CN 113611354A
- Authority
- CN
- China
- Prior art keywords
- protein
- torsion angle
- predicting
- psi
- torsion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 154
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 13
- 150000001413 amino acids Chemical class 0.000 claims abstract description 9
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 4
- 230000004913 activation Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000002887 multiple sequence alignment Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100379081 Emericella variicolor andC gene Proteins 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004429 atom Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,包括:基于PISCES服务器构建蛋白质扭转角数据集;从RCSB PDB数据库中抽取各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi,并加入数据集中;将uniref90数据库与各蛋白质序列进行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,基于PSSM谱矩阵及氨基酸的物理化学特性,构造蛋白质序列特征;设计残差模块,并基于该模块构建预测蛋白质扭转角的深度卷积网络模型;构建训练网络模型的损失函数;基于构建的损失函数训练网络模型;基于训练后的网络模型进行蛋白质扭转角的预测。本发明不仅能精确地预测蛋白质扭转角,还具有模型小,预测速度快的优点。
Description
技术领域
本发明属于生物信息学技术领域,尤其涉及一种基于轻量级深度卷积网络的蛋白质扭转角预测方法。
背景技术
基于蛋白质的氨基酸序列预测扭转角是计算分子生物学中的一个重要任务。蛋白质的功能是由其结构决定的。然而采用实验方法如X射线晶体衍射和核磁共振确定蛋白质结构是极其昂贵和耗时的。因此,通过计算的方式确定蛋白质的结构是非常有必要的。对于一个由L个氨基酸残基组成的蛋白质链,其蛋白质骨架是由氮原子,α-碳原子和碳原子组成的重复序列:N(1)、C(1)、N(2)、C(2)、…、N(L)、C( α L)、C(L)。特别地,扭转角Psi是由N(i),和C(i)确定的平面与C(i)和N(i+1)确定的平面之间的二面角。扭转角Phi是由C(i)、N(i +1)和确定的平面与N(i+1),和C(i+1)确定的平面之间的二面角。由于相邻骨架原子之间的键长和角度是固定的,唯一不确定的只有其扭转角,所以确定了其扭转角,就确定了其骨架结构。因此,精确地预测蛋白质的扭转角是非常重要的,扭转角的预测结果不仅可用于基于模板的三级结构预测和折叠识别,而且还可用于确定蛋白质结构的类别。
目前,一些深度学习方法如堆叠的稀疏自编码器、深度循环受限玻尔兹曼机[H.Li,J.Hou,B.Adhikari,Q.Lyu,and J.Cheng,“Deep learning methods for proteintorsion angle prediction,”BMC Bioinf.,vol.18,no.1,p.417,2017.]和双向循环神经网络[Heffernan,R.,Yang,Y.,Paliwal,K.&Zhou,Y.Capturing non-local interactionsby long short-term memory bidirectional recurrent neural networks forimproving prediction of protein secondary structure,backbone angles,contactnumbers and solvent accessibility.Bioinformatics 33,2842–2849(2017).]等已经被成功地应用于蛋白质扭转角的预测。然而这些模型都存在参数多、网络模型大和预测时间长的缺点。
发明内容
本发明针对现有蛋白质扭转角预测模型存在的参数多、网络模型大和预测时间长的问题,提出一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,该方法采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征,基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测,本发明提出的方法不仅能够精确地预测蛋白质扭转角,而且具有模型小,预测速度快的优点。
为了实现上述目的,本发明采用以下技术方案:
一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,包括:
步骤1:基于PISCES服务器构建蛋白质扭转角数据集,所述蛋白质扭转角数据集包括多个蛋白质序列;
步骤2:采用BioPython从RCSB PDB数据库中抽取所述蛋白质扭转角数据集中各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi,并将所述扭转角Phi和Psi加入蛋白质扭转角数据集中;
步骤3:将uniref90数据库与蛋白质扭转角数据集中的各蛋白质序列进行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,基于蛋白质序列的PSSM谱矩阵及氨基酸的物理化学特性,构造蛋白质序列特征;
步骤4:设计残差模块,并基于设计的残差模块构建预测蛋白质扭转角的深度卷积网络模型;所述残差模块涉及的计算操作包括:一维卷积、一维批处理归一化、Hard-Swish激活函数、平均池化、全连接和残差连接;
步骤5:构建训练预测蛋白质扭转角的深度卷积网络模型的损失函数;
步骤6:基于构建的损失函数训练预测蛋白质扭转角的深度卷积网络模型;
步骤7:基于训练后的预测蛋白质扭转角的深度卷积网络模型进行蛋白质扭转角的预测。
进一步地,所述步骤1包括:
进一步地,在所述步骤2之后,还包括:
将蛋白质扭转角数据集划分为训练集、验证集和测试集。
进一步地,所述步骤3包括:
对于蛋白质扭转角数据集中的每个蛋白质序列,通过调用PSI-BLAST程序将其与uniref90数据库中的蛋白质序列执行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,在PSSM谱矩阵中,每个氨基酸残基对应一个20维的数值向量;将该向量与表示蛋白质序列对应的氨基酸物理化学特性的7维数值向量进行拼接,获得蛋白质序列的最终特性表示。
进一步地,所述残差模块中一维卷积运算的表达式为:
进一步地,所述残差模块使用的Hard-Swish激活函数的表达式为:
其中x为输入数据;relu6(x+3)表示把x+3小于0的变成0,大于6的取6。
进一步地,所述残差模块使用的一维卷积为深度可分离一维卷积。
进一步地,构建的预测蛋白质扭转角的深度卷积网络模型中,对于给定的蛋白质序列,卷积网络为每个氨基酸残基输出四个值:sin(φ),cos(φ),sin(ψ)和cos(ψ);则扭转角Phi和Psi的值分别通过φ=arctan(sin(φ)/cos(φ))和ψ=arctan(sin(ψ)/cos(ψ))进行计算。
进一步地,所述步骤5中的损失函数为:
其中N是mini-batch中的蛋白质序列个数,L是蛋白质序列的长度,4表示扭转角Psi和Phi的正弦值及余弦值组成的向量长度,λ是权值衰减的正则化参数,W为卷积网络的权值参数,是预测网络的输出,Y∈RN×L×4为对应的真实张量。
与现有技术相比,本发明具有的有益效果:
本发明采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征,基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测,本发明提出的方法不仅能够精确地预测蛋白质扭转角,而且具有模型小,预测速度快的优点。
附图说明
图1为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法的基本流程图;
图2为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法中构建的残差模块结构示意图;
图3为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法中构建的预测蛋白质扭转角的深度卷积网络模型结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,包括:
步骤S101:基于PISCES服务器构建蛋白质扭转角数据集,所述蛋白质扭转角数据集包括多个蛋白质序列;具体地,PISCES服务器是蛋白质序列挑选服务器,能够根据用户指定的结构质量和最大序列一致性从蛋白质结构数据库(PDB)中挑选满足标准的数据集;
步骤S102:采用BioPython从RCSB PDB数据库中抽取所述蛋白质扭转角数据集中各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi,并将所述扭转角Phi和Psi加入蛋白质扭转角数据集中;
步骤S103:将uniref90数据库与蛋白质扭转角数据集中的各蛋白质序列进行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,基于蛋白质序列的PSSM谱矩阵及氨基酸的物理化学特性,构造蛋白质序列特征;
步骤S104:设计残差模块,并基于设计的残差模块构建预测蛋白质扭转角的深度卷积网络模型;所述残差模块涉及的计算操作包括:一维卷积、一维批处理归一化、Hard-Swish激活函数、平均池化、全连接和残差连接;
步骤S105:构建训练预测蛋白质扭转角的深度卷积网络模型的损失函数;
步骤S106:基于构建的损失函数训练预测蛋白质扭转角的深度卷积网络模型;
步骤S107:基于训练后的预测蛋白质扭转角的深度卷积网络模型进行蛋白质扭转角的预测。
进一步地,所述步骤S101包括:
基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于和序列一致性低于25%的蛋白质序列m个,加入蛋白质扭转角数据集中。作为一种可实施方式,基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于和序列一致性低于25%的蛋白质序列10701个。
进一步地,所述步骤S102包括:
基于构建的数据集中的PDBID,首先从RCSB PDB数据库中下载pdb文件;然后使用BioPython工具包中的PDBParser处理pdb文件;对应蛋白质序列中的扭转角值可以通过调用Polypeptide类中的函数get_phi_psi_list()获得。每个氨基酸残基对应一个Phi和Psi。
具体地,在所述步骤S102之后,还包括:
将蛋白质扭转角数据集划分为训练集、验证集和测试集。作为一种可实施方式,对于蛋白质扭转角数据集中的10701个蛋白质序列及各蛋白质序列对应的扭转角数据,随机选择9677个蛋白质序列及其对应的扭转角数据作为训练集,512个蛋白质序列及其对应的扭转角数据作为验证集,剩余的512个蛋白质序列及其对应的扭转角数据作为测试集。
进一步地,所述步骤S103包括:
首先从链接ftp://ftp.ebi.ac.uk/pub/databases/uniprot/current_release/uniref/中下载uniref90数据库;然后,对于蛋白质扭转角数据集中的每个蛋白质序列,通过调用PSI-BLAST程序将其与uniref90数据库中的蛋白质序列执行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,在PSSM谱矩阵中,每个氨基酸残基对应一个20维的数值向量;将该向量与表示蛋白质序列对应的氨基酸物理化学特性(包括亲水性、疏水性、带电性、分子量、可及性、体积和比容)的7维数值向量进行拼接,获得蛋白质序列的最终特征表示。例如,对于一个长度为N的蛋白质序列,其对应的特征矩阵大小为N×27。
进一步地,所述步骤S104中:
残差模块中卷积运算的表达式为:
批处理归一化的目的是将每一个通道中的特征都归一化到标准正态分布。通过引入批处理归一化,不仅能够提高网络的训练速度,而且能够防止网络过拟合到某个特定样本并因此提高网络的泛化能力。
残差模块使用的Hard-Swish激活函数的表达式为:
其中x为输入数据,relu6(x+3)表示把x+3小于0的变成0,大于6的取6,即relu6(x+3)=min(max(0,x+3),6)。Hard-Swish激活函数与Swish激活函数相比能够在性能不变的情况下保持较低的计算量。特别地,Hard-Swish函数在输入值小于零的区间依然能进行梯度更新。具体地,对于预测蛋白质扭转角的深度卷积网络模型中的第一个残差模块的输入数据为蛋白质序列特征向量。
为了降低运算量,本发明使用深度可分离一维卷积。深度可分离卷积通过将普通卷积拆分为逐通道卷积(即分组卷积,组数量与输入通道数相同,一个卷积核负责一个通道,一个通道只被一个卷积核卷积)和逐点卷积(卷积核大小为1的卷积)显著减少了卷积计算所需要的参数量并因此降低了计算量。
在输入数据进入模块时,由于使用了深度可分离卷积降低运算量,所以本发明先将通道数增加,再进行批处理归一化、Hard-Swish非线性激活和逐通道卷积操作。这是因为数据通过激活函数层时,会不可避免的丢失部分通道中的信息。如果有更多的通道,那么信息可能仍然保存在其他通道中。而由于使用了可分离卷积降低运算量,可以在通道数增加的情况下保持运算量不增加,所以可以将通道数增加后再进行后续处理。本发明选择将输入通道数增加为输入通道的k倍。
此外,为了挖掘通道之间的关联性,本发明为残差模块引入了通道注意力操作,即依次进行平均池化,全连接,Hard-Swish非线性激活,全连接,Sigmoid非线性激活,将输出结果作为权重与深度卷积的结果逐通道依次相乘。该操作通过对通道的依赖性进行建模可以提高网络的表示能力。特别地,通过逐通道调整特征,可以让重要的通道特征得到更多关注,并抑制那些不重要的通道特征。
基于设计的残差模块,本发明构建了用于扭转角预测的深度卷积网络模型(如图3所示)。特别地,本发明采用n个连续的残差模块来捕获蛋白质序列中氨基酸残基之间的局部和非局部相互作用。对于给定的蛋白质序列,卷积网络将为每个氨基酸残基输出四个值:即sin(φ),cos(φ),sin(ψ)和cos(ψ),其中φ为扭转角Phi,ψ为扭转角Psi。则扭转角Phi和Psi的值可分别通过φ=a r c t a n(φs i n()φ/和ψ=arctan(sin(ψ)/cos(ψ))进行计算。
进一步地,所述步骤S105中:
令是预测网络的输出,其中N是mini-batch中的蛋白质序列个数,L是蛋白质序列的长度,4表示扭转角Psi和Phi的正弦值及余弦值组成的向量长度。此外,令与对应的真实张量为Y∈RN×L×4。则基于均方误差可定义如下的损失函数:
其中λ是权值衰减的正则化参数,W为卷积网络的权值参数。
进一步地,所述步骤S106中:
为了训练预测蛋白质扭转角的深度卷积网络模型,本发明首先采用kaiming_normal方法初始化卷积层中的权值参数,同时将偏置参数设置为0;然后采用Adam优化器基于步骤S105中的损失函数训练预测蛋白质扭转角的深度卷积网络;作为一种可实施方式,训练时mini-batch大小(N)为32,Adam的学习率为0.001。特别地,为了防止网络过拟合训练数据,我们在每个卷积层中引入了p值为0.1的Dropout,并且采用基于验证集的早停法终止网络训练,具体地,早停法的容忍值(patience)为8。
综上,本发明采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征,基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测,本发明提出的方法不仅能够精确地预测蛋白质扭转角,而且具有模型小,预测速度快的优点。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,其特征在于,包括:
步骤1:基于PISCES服务器构建蛋白质扭转角数据集,所述蛋白质扭转角数据集包括多个蛋白质序列;
步骤2:采用BioPython从RCSB PDB数据库中抽取所述蛋白质扭转角数据集中各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi,并将所述扭转角Phi和Psi加入蛋白质扭转角数据集中;
步骤3:将uniref90数据库与蛋白质扭转角数据集中的各蛋白质序列进行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,基于蛋白质序列的PSSM谱矩阵及氨基酸的物理化学特性,构造蛋白质序列特征;
步骤4:设计残差模块,并基于设计的残差模块构建预测蛋白质扭转角的深度卷积网络模型;所述残差模块涉及的计算操作包括:一维卷积、一维批处理归一化、Hard-Swish激活函数、平均池化、全连接和残差连接;
步骤5:构建训练预测蛋白质扭转角的深度卷积网络模型的损失函数;
步骤6:基于构建的损失函数训练预测蛋白质扭转角的深度卷积网络模型;
步骤7:基于训练后的预测蛋白质扭转角的深度卷积网络模型进行蛋白质扭转角的预测。
3.根据权利要求2所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,其特征在于,在所述步骤2之后,还包括:
将蛋白质扭转角数据集划分为训练集、验证集和测试集。
4.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,其特征在于,所述步骤3包括:
对于蛋白质扭转角数据集中的每个蛋白质序列,通过调用PSI-BLAST程序将其与uniref90数据库中的蛋白质序列执行多序列比对,生成对应蛋白质序列的PSSM谱矩阵,在PSSM谱矩阵中,每个氨基酸残基对应一个20维的数值向量;将该向量与表示蛋白质序列对应的氨基酸物理化学特性的7维数值向量进行拼接,获得蛋白质序列的最终特性表示。
7.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,其特征在于,所述残差模块使用的一维卷积为深度可分离一维卷积。
8.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法,其特征在于,构建的预测蛋白质扭转角的深度卷积网络模型中,对于给定的蛋白质序列,卷积网络为每个氨基酸残基输出四个值:sin(φ),cos(φ),sin(ψ)和cos(ψ);则扭转角Phi和Psi的值分别通过φ=arctan(sin(φ)/cos(φ))和ψ=arctan(sin(ψ)/cos(ψ))进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759327.7A CN113611354B (zh) | 2021-07-05 | 2021-07-05 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759327.7A CN113611354B (zh) | 2021-07-05 | 2021-07-05 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611354A true CN113611354A (zh) | 2021-11-05 |
CN113611354B CN113611354B (zh) | 2023-06-02 |
Family
ID=78337290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110759327.7A Active CN113611354B (zh) | 2021-07-05 | 2021-07-05 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611354B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596913A (zh) * | 2022-02-25 | 2022-06-07 | 河南大学 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
CN115017945A (zh) * | 2022-05-24 | 2022-09-06 | 南京林业大学 | 基于增强型卷积神经网络的机械故障诊断方法和诊断系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093117A (zh) * | 2013-01-16 | 2013-05-08 | 湖州师范学院 | 一种蛋白质侧链预测的层次化建模方法 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN110310698A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 基于蛋白质长度和dcnn的分类建模方法及系统 |
CN110390995A (zh) * | 2019-07-01 | 2019-10-29 | 上海交通大学 | α螺旋跨膜蛋白质拓扑结构预测方法及装置 |
CN110689918A (zh) * | 2019-09-24 | 2020-01-14 | 上海宽慧智能科技有限公司 | 蛋白质三级结构的预测方法及系统 |
CN112447265A (zh) * | 2020-11-25 | 2021-03-05 | 太原理工大学 | 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法 |
-
2021
- 2021-07-05 CN CN202110759327.7A patent/CN113611354B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093117A (zh) * | 2013-01-16 | 2013-05-08 | 湖州师范学院 | 一种蛋白质侧链预测的层次化建模方法 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN110390995A (zh) * | 2019-07-01 | 2019-10-29 | 上海交通大学 | α螺旋跨膜蛋白质拓扑结构预测方法及装置 |
CN110310698A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 基于蛋白质长度和dcnn的分类建模方法及系统 |
CN110689918A (zh) * | 2019-09-24 | 2020-01-14 | 上海宽慧智能科技有限公司 | 蛋白质三级结构的预测方法及系统 |
CN112447265A (zh) * | 2020-11-25 | 2021-03-05 | 太原理工大学 | 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法 |
Non-Patent Citations (3)
Title |
---|
ANDREW HOWARD 等: "Searching for MobileNetV3" * |
HAIOU LI 等: "Deep learning methods for protein torsion angle prediction" * |
RHYS HEFFERNAN 等: "Capturing non-local interactions by long short-term memory bidirectional recurrent neural networks for improving prediction of protein secondary structure, backbone angles,contact numbers and solvent accessibility" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596913A (zh) * | 2022-02-25 | 2022-06-07 | 河南大学 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
CN114596913B (zh) * | 2022-02-25 | 2023-03-31 | 河南大学 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
CN115017945A (zh) * | 2022-05-24 | 2022-09-06 | 南京林业大学 | 基于增强型卷积神经网络的机械故障诊断方法和诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113611354B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680494B (zh) | 相似文本的生成方法及装置 | |
CN112488183B (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
CN113611354A (zh) | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 | |
CN111723914A (zh) | 一种基于卷积核预测的神经网络架构搜索方法 | |
CN114023376B (zh) | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN115563610B (zh) | 入侵检测模型的训练方法、识别方法和装置 | |
Sarkar et al. | An algorithm for DNA read alignment on quantum accelerators | |
CN114358216B (zh) | 基于机器学习框架的量子聚类方法及相关装置 | |
CN114582420B (zh) | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 | |
CN116052792A (zh) | 一种分子最优构象预测模型的训练方法及装置 | |
EP4272216A1 (en) | Protein structure prediction | |
CN116779044A (zh) | 基于多标签特征选择的基因分类方法、系统及设备 | |
CN117095753A (zh) | 一种蛋白质稳定性预测方法及网络app | |
CN107944045B (zh) | 基于t分布哈希的图像检索方法及系统 | |
CN116189776A (zh) | 一种基于深度学习的抗体结构生成方法 | |
CN115527626A (zh) | 分子处理方法、装置、电子设备、存储介质及程序产品 | |
Johnson et al. | Sensitive remote homology search by local alignment of small positional embeddings from protein language models | |
Dong et al. | An optimization method for pruning rates of each layer in CNN based on the GA-SMSM | |
CN113688989A (zh) | 深度学习网络加速方法、装置、设备及存储介质 | |
CN115511070A (zh) | 模型训练方法、装置及可读存储介质 | |
CN110147804A (zh) | 一种不平衡数据处理方法、终端及计算机可读存储介质 | |
CN115019101B (zh) | 图像分类网络中基于信息瓶颈算法的图像分类方法 | |
WO2024153239A1 (zh) | 预测模型的训练方法、基因表达数据的校正方法和下游任务执行方法 | |
CN115640336B (zh) | 业务大数据挖掘方法、系统及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240725 Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province Patentee after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd. Country or region after: China Address before: Shunhe District in Henan province 475001 City Minglun Street No. 85 Patentee before: Henan University Country or region before: China |