CN112185466B - 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 - Google Patents

直接利用蛋白质多序列联配信息构建蛋白质结构的方法 Download PDF

Info

Publication number
CN112185466B
CN112185466B CN202011016871.4A CN202011016871A CN112185466B CN 112185466 B CN112185466 B CN 112185466B CN 202011016871 A CN202011016871 A CN 202011016871A CN 112185466 B CN112185466 B CN 112185466B
Authority
CN
China
Prior art keywords
protein
sequence
residue
encoder
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011016871.4A
Other languages
English (en)
Other versions
CN112185466A (zh
Inventor
卜东波
鞠富松
朱建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202011016871.4A priority Critical patent/CN112185466B/zh
Publication of CN112185466A publication Critical patent/CN112185466A/zh
Application granted granted Critical
Publication of CN112185466B publication Critical patent/CN112185466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统,包括:使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。本发明直接从多序列联配学习残基间距离,因此可以提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。

Description

直接利用蛋白质多序列联配信息构建蛋白质结构的方法
技术领域
本发明属于生物和计算机技术领域,并特别涉及一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统。
背景技术
蛋白质结构预测系统(例如AlphaFold,RaptorX-Contact和trRosetta)最近取得的飞跃,
其中的核心技术之一是残基间接触或距离的预测。近期的进展表明:准确的残基间距离可用于为构建高精度的蛋白质三级结构。
现有的残基间距离预测都是基于残基间的“共进化”现象,即:在蛋白质进化过程中,有相互作用的两个残基中的一个残基发生变异时,另一个残基也要发生相应的变异,以维持相互作用,进而维持整体空间结构以及生物学功能。基于上述生物学观察,研究者提出了多种统计模型和算法以预测残基间的相互作用,并进一步预测残基间距离。
现有的残基间相互作用预测方法,大多使用直接关联性分析技术:直接关联性分析尝试建模和测量两个氨基酸之间直接关联性的强度,并排除间接关联性。虽然直接关联性分析很有效,但它具有如下两方面的不足:
(1)直接关联性分析不是直接使用目标蛋白质的多序列联配(Multiple sequencealignment,MSA),而是基于其进一步处理后的数据(例如协方差),从而造成多序列联配中原始信息的丢失;
(2)直接关联性分析基于的前提是:残基间协方差阵包含残基间直接关联关系;然而,此前提并不总是成立。如图1所示,两个蛋白的多序列联配非常不同;从条件分布可以看出,第一个多序列联配中残基1和2之间的直接关联性更强。然而,从上述两个多序列联配计算出的协方差矩阵完全相同;这意味着基于协方差矩阵无法区分这两个蛋白质。实际上,由于任意两个位置上的残基具有相同的联合分布,导致二体统计量都无法区分这两个多序列联配。
计算两个残基的条件分布是推断直接相关性的一条可行途径,但由于样本空间大且数据不足,导致难以实施。
发明内容
本发明的目的是解决上述现有技术的间接利用多序列联配导致信息丢失的缺陷,提出了一种直接从多序列联配学习残基间距离的方法及系统。本发明的核心和重点是基于蛋白质多序列联配信息,先预测蛋白质残基间距离,最终预测蛋白质的三级结构。本发明由于直接从多序列联配学习残基间距离的神经网络模型CopulaNet和系统ProFOLD;因此可以显著提高残基间距离预测的精度,显著提高了蛋白质空间结构的预测精度。
针对现有技术的不足,本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中包括:
步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该步骤1包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中该步骤2包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
本申请还提出了一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中包括:
第一编码器,用于为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
聚合器,用于根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;
第一编码器,用于根据所有残基对的全局上下文,细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该聚合器包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
由以上方案可知,本发明的优点在于:
在第13届国际蛋白质结构预测竞赛(Critical assessment of proteinstructure prediction,CASP)所使用的数据集CASP13上将ProFOLD与包括AlphaFold和trRosetta等最新技术进行了比较。为了公平起见,本发明使用相同的多序列联配重现了trRosetta的结果。从CASP13下载了AlphaFold的预测结果任务,并以与ProFOLD和trRosetta相同的方式进行评估。
图4显示了CASP13数据集的总体性能。在所有104个蛋白中,ProFOLD的平均得分达到0.742,高于AlphaFold(A7D)的0.699。
无模板类别的蛋白通常被认为比有模板的蛋白更难预测。如图3a所示,在31个无模板类别的蛋白上,ProFOLD的平均得分为0.658,优于trRosetta(0.582)和AlphaFold(0.580)。本发明的方法在31个蛋白中的18个达到了0.7以上的打分,相比之下,AlphaFold(A7D)和trRosetta分别仅在12个和7个蛋白中达到了上述精度。
在有模板的蛋白上,即使不使用模板,ProFOLD也可以达到与同源建模方法相当的水平。对在61个蛋白上,ProFOLD的平均得分达到0.785,和CASP13上表现最佳的组Zhang-server(0.787)在同一水平。本发明的方法也优于AlphaFold(0.761)和trRosetta(0.719)。
ProFOLD能生成更准确的残基接触预测。本发明将ProFOLD与三种基于最新神经网络的方法(RaptorX-Contact,AlphaFold和trRosetta)进行了比较。图3c显示了CASP13上远距离残基接触(序列中至少有24个残基隔开的残基对)预测的性能。结果表明ProFOLD和显著优于现有的预测方法。例如对于前L/5,L/2和L个远程接触预测结果,ProFOLD的精度为0.808、0.673和0.536,优于CASP13的的最好结果AlphaFold(分别高出0.117、0.100和0.088)。
附图说明
图1为本发明方法优势示意图;
图2为本发明方法流程图;
图3为方法效果比较图;
图4为不同方法在数据集CASP13上预测性能的比较图表。
具体实施方式
发明人在进行残基间距离预测研究时,发现现有技术中该项缺陷是由传统统计模型间接使用多序列联配造成的信息丢失导致的,发明人经过神经网络研究发现,解决该项缺陷可以通过使用深度神经网络直接从多序列联配学习残基间距离来实现。其中训练该深度神经网络的过程为从蛋白质结构数据库(Protein DataBank,PDB)抽取出的蛋白质结构组成训练集,并在此训练集上训练神经网络。神经网络的输入是蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
本发明提出CopulaNet神经网络模型,使用神经网络直接处理多序列联配,目标是学习残基间的条件分布,即直接关联性(图2)。首先,本发明使用编码器(一维残差网络)为每个待预测蛋白质中的某个残基提取上下文结构环境有关的表示,以描述该位置残基在所处结构环境下的突变倾向性;然后,本发明使用聚合器计算残基对之间的条件联合概率(即:Copula),从而提取残基对的关联性;最后,本发明通过考虑所有残基对的全局上下文,使用二维残差网络进一步细化得到的关联性,并进而预测出残基间距离。
为使得预测结果与多序列联配中的序列顺序无关,编码器以相同且独立的方式处理多序列联配中的每条同源序列。假设待预测的目标蛋白序列包含L个残基,编码器会将每条同源序列编码为64*L的特征向量。为了使每个位置的特征向量可以表示该位置的上下文信息,本发明将编码器构造为一维残差网络。该网络包含8个残差块,每个残差块包括两个具有64个通道的卷积层和两个批量标准化层,并使用指数线性单元激活函数。
聚合器的目的是聚合每个残基对编码特征向量。具体地说,考虑一个有L个残基的蛋白序列,以及一个包含K个同源序列的多序列联配。通过对多序列联配中的第k条同源序列应用编码器模块,本发明获得了C×L个特征,记为Xk∈RC*L,其中C代表编码器模块的输出通道数目。对于任何两个位置i和j,本发明将其聚合特征表示为h∈RD×L×L,其中D是聚合器模块的输出通道数目,计算公式如下:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。
一维特征f∈RC×L计算公式为:
Figure BDA0002699346110000061
其中Xk代表第k条同源序列在位置i处的编码特征,wk表示此序列的权重,即:与第k条序列等同度大于80%的序列数的倒数。
Figure BDA0002699346110000062
所有序列权重之和。
二维特征g∈RC×C×L×L的计算公式为:
Figure BDA0002699346110000063
其中g(i,j)表示位置i和j之间的聚合二维特征,
Figure BDA0002699346110000064
表示外积运算。
总结来说,聚合特征具有C×2(一维特征)+C×C(二维特征)通道。本发明将编码器模块的输出通道数目C设为64,因此通过聚合器模块,本发明可以对任意残基对获得4224个聚合特征。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
图2以目标蛋白质(序列为AAEEKTEFDVILK,共13个残基)为例,展示本项专利所提方法ProFOLD的预测过程。
第一步:使用多序列联配工具寻找此蛋白质的同源序列,并建立多序列联配。图中展示目标蛋白质与4条同源序列的联配。
第二步:使用编码器计算目标蛋白质每个位置的一维特征向量,形成13x64的特征矩阵;
第三步:使用聚合器计算每个残基对之间的聚合特征(共4224个特征);
第四步:计算残基间直接相关关系强度,并进而计算出残基间距离;
第五步:依据残基对之间的距离估计值,预测出蛋白质三级结构。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本申请还提出了一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中包括:
第一编码器,用于为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
聚合器,用于根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;
第一编码器,用于根据所有残基对的全局上下文,细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器为一维残差网络,该第二编码器为二维残差网络。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该第一编码器包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中该聚合器包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征。
所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。

Claims (6)

1.一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,包括:
步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;根据所有残基对的全局上下文,使用第二编码器细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构;
其中该第一编码器包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息;
该步骤2包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征;
一维特征f∈RC×L计算公式为:
Figure FDA0004057147010000011
其中Xk代表第k条同源序列在位置i处的编码特征,wk表示与第k条序列等同度大于80%的序列数的倒数;
Figure FDA0004057147010000012
代表所有序列权重之和;
二维特征g∈RC×C×L×L的计算公式为:
Figure FDA0004057147010000013
其中g(i,j)表示位置i和j之间的聚合二维特征,
Figure FDA0004057147010000021
表示外积运算。
2.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,该第一编码器为一维残差网络,该第二编码器为二维残差网络。
3.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法,其特征在于,训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
4.一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其特征在于,包括:
第一编码器,用于为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境;
聚合器,用于根据该结构环境聚合每个残基对编码特征向量,将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性;
第二编码器,用于根据所有残基对的全局上下文,细化该初始关联性,得到该蛋白质多序列联配信息中每一个残基对的最终关联性,根据该最终关联性生成该蛋白质多序列联配信息中残基间距离,基于该残基间距离构建蛋白质的三级结构;
其中该第一编码器包括:使用多序列联配工具寻找蛋白质的同源序列,以建立该蛋白质的蛋白质多序列联配信息;
该步骤2包括:
对于由两个残基位置i和j构成的残基对,将其聚合特征表示为h∈RD×L×L,其中D是聚合器的输出通道数目,L为该蛋白质序列的残基总数,残基对的聚合特征为:
h(i,j)=CONCAT{f(i),f(j),g(i,j)}
其中f(i)表示位置i的一维特征,f(j)表示位置j的一维特征,g(i,j)表示位置i和j的二维特征;
一维特征f∈RC×L计算公式为:
Figure FDA0004057147010000031
其中Xk代表第k条同源序列在位置i处的编码特征,wk表示与第k条序列等同度大于80%的序列数的倒数;
Figure FDA0004057147010000032
代表所有序列权重之和;
二维特征g∈RC×C×L×L的计算公式为:
Figure FDA0004057147010000033
其中g(i,j)表示位置i和j之间的聚合二维特征,
Figure FDA0004057147010000034
表示外积运算。
5.如权利要求4所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其特征在于,该第一编码器为一维残差网络,该第二编码器为二维残差网络。
6.如权利要求4所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统,其特征在于,训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集,并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络,该神经网络的输入为蛋白质的多序列联配,输出是残基间距离;损失函数是交叉熵;优化器是Adam。
CN202011016871.4A 2020-09-24 2020-09-24 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 Active CN112185466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011016871.4A CN112185466B (zh) 2020-09-24 2020-09-24 直接利用蛋白质多序列联配信息构建蛋白质结构的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011016871.4A CN112185466B (zh) 2020-09-24 2020-09-24 直接利用蛋白质多序列联配信息构建蛋白质结构的方法

Publications (2)

Publication Number Publication Date
CN112185466A CN112185466A (zh) 2021-01-05
CN112185466B true CN112185466B (zh) 2023-05-23

Family

ID=73956616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011016871.4A Active CN112185466B (zh) 2020-09-24 2020-09-24 直接利用蛋白质多序列联配信息构建蛋白质结构的方法

Country Status (1)

Country Link
CN (1) CN112185466B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118057542A (zh) * 2022-11-18 2024-05-21 中国科学院深圳先进技术研究院 一种蛋白残基接触预测方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5436850A (en) * 1991-07-11 1995-07-25 The Regents Of The University Of California Method to identify protein sequences that fold into a known three-dimensional structure
US5878373A (en) * 1996-12-06 1999-03-02 Regents Of The University Of California System and method for determining three-dimensional structure of protein sequences
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN108549794A (zh) * 2018-03-29 2018-09-18 中国林业科学研究院资源昆虫研究所 一种蛋白质二级结构预测方法
CN111508556A (zh) * 2019-11-04 2020-08-07 南京理工大学 基于单序列和全卷积神经网络的蛋白质接触图预测方法
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5436850A (en) * 1991-07-11 1995-07-25 The Regents Of The University Of California Method to identify protein sequences that fold into a known three-dimensional structure
US5878373A (en) * 1996-12-06 1999-03-02 Regents Of The University Of California System and method for determining three-dimensional structure of protein sequences
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN108549794A (zh) * 2018-03-29 2018-09-18 中国林业科学研究院资源昆虫研究所 一种蛋白质二级结构预测方法
CN111508556A (zh) * 2019-11-04 2020-08-07 南京理工大学 基于单序列和全卷积神经网络的蛋白质接触图预测方法
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蛋白质三级结构预测算法综述;王超 等;《计算机学报》;20180430;第41卷(第04期);全文 *
蛋白质中残基远程相互作用预测算法研究综述;张海仓 等;《计算机研究与发展》;20171229;第54卷(第01期);全文 *

Also Published As

Publication number Publication date
CN112185466A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN113593631B (zh) 一种预测蛋白质-多肽结合位点的方法及系统
CN109165664B (zh) 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN112233723B (zh) 基于深度学习的蛋白质结构预测方法及系统
CN111798921A (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111917785A (zh) 一种基于de-gwo-svr的工业互联网安全态势预测方法
CN110070914B (zh) 一种基因序列识别方法、系统和计算机可读存储介质
Chen et al. Cascaded bidirectional recurrent neural networks for protein secondary structure prediction
CN115131557A (zh) 一种基于活性污泥图像的轻量化分割模型构建方法及系统
CN113257337A (zh) 一种基于宏基因组的蛋白质多序列比对方法
CN112185466B (zh) 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN113257357A (zh) 蛋白质残基接触图预测方法
CN115527605A (zh) 基于深度图模型的抗体结构预测方法
CN118155746A (zh) 一种预测分子性质的双通道对比模型
CN113707213A (zh) 基于深度学习的蛋白质-配体结合位点预测方法
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN116403713A (zh) 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法
Fokianos et al. Biological applications of time series frequency domain clustering
CN115881211B (zh) 蛋白质序列比对方法、装置、计算机设备以及存储介质
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN115620046A (zh) 一种基于半监督性能预测器的多目标神经架构搜索方法
CN115472229A (zh) 一种嗜热蛋白预测方法及装置
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN112365924B (zh) 双向三核苷酸位置特异性偏好和点联合互信息dna/rna序列编码方法
CN114625886A (zh) 基于知识图谱小样本关系学习模型的实体查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant