CN110689918A - 蛋白质三级结构的预测方法及系统 - Google Patents

蛋白质三级结构的预测方法及系统 Download PDF

Info

Publication number
CN110689918A
CN110689918A CN201910907112.8A CN201910907112A CN110689918A CN 110689918 A CN110689918 A CN 110689918A CN 201910907112 A CN201910907112 A CN 201910907112A CN 110689918 A CN110689918 A CN 110689918A
Authority
CN
China
Prior art keywords
information
angle
distance
output
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910907112.8A
Other languages
English (en)
Other versions
CN110689918B (zh
Inventor
薛雅琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guanghui Intelligent Technology Co Ltd
Original Assignee
Shanghai Guanghui Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guanghui Intelligent Technology Co Ltd filed Critical Shanghai Guanghui Intelligent Technology Co Ltd
Priority to CN201910907112.8A priority Critical patent/CN110689918B/zh
Publication of CN110689918A publication Critical patent/CN110689918A/zh
Application granted granted Critical
Publication of CN110689918B publication Critical patent/CN110689918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Evolutionary Computation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种蛋白质三级结构的预测方法及系统,包括:网络结构搭建步骤;两个头输出设置步骤;距离概率分布获取步骤;角度概率分布获取步骤;损失函数l构造步骤;参数集获取步骤;拟合步骤;神经网络的学习步骤;预测结果计算步骤。共同预测的双头共享神经网络架构不仅仅能够解决距离和角度预测的不一致性,提升角度和距离预测的精确度,同时也大幅度减少计算的时间,加速预测速度。

Description

蛋白质三级结构的预测方法及系统
技术领域
本发明涉及计算机软件和生物信息学领域,具体地,涉及一种蛋白质三级结构的预测方法及系统,尤其是蛋白质结构预测中距离和角度共同预测的双头共享神经网络架构。
背景技术
蛋白质是一切生命系统的物质基础。蛋白质的三级结构形态取决于它所含氨基酸的序列。蛋白质在机体中的功能取决于它的三级结构。例如,心脏细胞蛋白质的折叠方式可以使血流中的任何肾上腺素都粘在它们上面,以加速心率。免疫系统中的抗体是折叠成特定形状的蛋白质,以锁定入侵者。几乎身体的每一种功能——从收缩肌肉和感受光线到将食物转化为能量——都和蛋白质的形状及运动相关。进一步,生命体的功能基本是由正确折叠的蛋白质来执行的。蛋白质的错误折叠不仅会使其失去原有生物学功能,也会引起一系列重大疾病,如阿尔茨海默病、帕金森病等神经退行性疾病。因此,了解蛋白质的三级结构可以为人类理解这些疾病提供重要的基础,进而帮助科学家设计出新的蛋白质来对抗疾病。除此之外,科学家还可以对细菌进行工程改造,使其分泌特殊的蛋白质帮助塑料等污染物或废物的生物降解等。因此,预测蛋白质三级结构有非常重要的价值。传统蛋白质三级结构的测定主要使用生物学手段,测定方法主要包括:X-晶体衍射实验、核磁共振(NMR)和冷冻电子显微镜技术等,但以上蛋白质结构测定方法的速度远远跟不上DNA测序以及基因预测的速度,因而无法满足蛋白质组规模上(Proteome-Scale)结构预测的需求。一般情况下,生物学手段测定一个蛋白质通常需要10万美元以及大约6个月的时间。单就人体而言就能够产生数万甚至数百万的蛋白质。每个蛋白质都是一个氨基酸链,而后者的类型就有20种。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10的300次方)的结构类型。因此,通过算法来进行蛋白质三级结构的预测(结构预测)是目前在这个领域的一大重点研究方向。该领域的发展有助于对蛋白质折叠机理的认识具有重要的理论价值。更进一步,结构预测对于新蛋白质设计有着根本性的意义--要设计出具有某种特定结构的新蛋白质,结构预测无疑是缩短设计过程的一件利器。因此,迫切需要更加有效的方法来填补蛋白质结构测定速度与基因序列测定速度之间的鸿沟。
自Anfinsen提出蛋白质的高级空间结构由蛋白质的氨基酸序列决定(因此获得1972年诺奖)后,人们慢慢就开始寻找一种蛋白质结构预测算法,可以精确地从蛋白质的氨基酸序列,由计算机算法预测出其复杂的空间结构。蛋白质三级结构预测有多种方法,“从头开始(ab initio或者de novo)”的预测方法是目前相对新颖的预测方法,该类算法借助最新的深度学习(Deep Learning)技术来预测蛋白质的三级结构。利用深度学习来预测蛋白质氨基酸三级结构主要是预测蛋白质结构中的氨基酸的距离和角度这两个关键属性。距离(Distance)就是蛋白质氨基酸序列中任意两个氨基酸残基i和j间的直线距离D(i,j),一般情况下,它采用(埃)作为距离单位。角度(Angle)是蛋白质主链(Back bone)上的一个氨基酸残基与其它氨基酸残基结合时所产生的扭转角(Torsion Angle),其主要为C-Alpha与N-terminus、C-terminus之间的扭转角,一般情况下用(φ,ψ)来分别来表示对应角的Sin和Cos值。距离预测的网络模型采用2D的ResNet结构。它的输入张量(Tensor)是一个L*L*M的结构,其中L为蛋白质的残基氨基酸的个数,一般设为64或者200,M为输入的特征维度。输入的特征可以为一种或者多种特征的组合,比如Potts Model的441维特征,PSSM(PositionSpecific Scoring Matrix)的20维特征,二级结构SS(Secondary Structure)的3维或8维特征,以及氨基酸亲水性SA(Solvent Accessibility)的3维特征。结果的输出为L*L*C,其中C为输出的类别个数。我们将距离分为C个类,C的取值范围为在2到40之间。
同样,角度预测主要是对主链上的氨基酸的C-Alpha与N-terminus、C-terminus之间的扭转角来进行分析。角度预测网络结构也是基于ResNet网络,它采用的是1D-ResNet架构,输入为L*W*M,其中L为氨基酸的数量,W为窗口大小,M为输入的特征维度。输入的特征可以为一种或者多种特征的组合,比如PSSM(Position Specific Scoring Matrix)的20维特征,二级结构SS(Secondary Structure)的3/8维特征,以及氨基酸亲水性SA(SolventAccessibility)的3维特征等。最终特征维度为W*M。结果的输出为L*C,其中C为输出的类别个数。我们将预测的角度(φ,ψ)也分为C个类,C的取值范围为在10~20之间。角度的计算是根据每个主链的氨基酸的N-terminus,C-alpha和C-terminus之间来表达来计算两个2面扭转角的φ和ψ值。上述蛋白质三级结构预测方法主要有两种:第一种就是预测蛋白质链中的任意两个氨基酸残基对的距离(Residual Distance);第二种就是预测蛋白质链中任意一个氨基酸残基的扭转角(Torsion Angle)。目前的做法一般用两个神经网络分别去学习残基对的距离和扭转角,得到两个输出,然后根据两个输出来得到蛋白质三级结构。传统的方法有两个缺陷。第一个缺陷是:对于一个蛋白质,它的距离和扭转角度是相互依存的,也就是说距离和扭转角中一个值的变化也会涉及到另外一个值的变化,分开训练会将这两者的相互关系给弱化。第二个缺陷是:独立训练会对最终的三级结构生成产生冲突,距离和扭转角因为模型的不一致导致结果偏差比较大。这两个缺陷会导致蛋白质三级结构的预测准确度受到大的影响。
专利文献文献109979533A公开了一种与蛋白质或小分子结合的核酸结合位点的预测方法,属于生物分子相互作用预测研发领域。本发明方法包括如下步骤:以核酸分子结构中的核苷酸作为网络模型中的节点,核酸分子序列上两个非连续的核苷酸重原子之间的最短距离小于时则形成网络模型的边,将核酸分子结构转化为核酸分子网络模型,通过计算核酸网络的节点中心性来判断核酸分子中核苷酸的重要性,若某个节点的接近中心性和度中心性高于整个网络中所有节点的平均值和标准偏差之和,则认为该节点对应的核苷酸为核酸结合位点。该专利并未考虑到蛋白质三级结构的距离和扭转角度是相互依存的,该专利在蛋白质三级结构的预测准确度上仍有待提高的空间。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种蛋白质三级结构的预测方法及系统。
根据本发明提供的一种蛋白质三级结构的预测方法,包括:网络结构搭建步骤:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;两个头输出设置步骤:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;距离概率分布获取步骤:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;角度概率分布获取步骤:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;损失函数l构造步骤:-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;参数集获取步骤:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合步骤:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;神经网络的学习步骤:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;预测结果计算步骤:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
优选地,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
优选地,还包括:特征输入步骤:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;所述L为蛋白质的残基氨基酸的个数,L一般设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
优选地,还包括:距离输出结果获取步骤:根据L*L*C1信息,输出距离的预测结果输出信息;其中,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
优选地,还包括:角度输出结果获取步骤:根据L*C2信息,获取角度的预测结果输出信息;对于角度的预测结果输出为L*C2,其中C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
根据一种蛋白质三级结构的预测系统,包括:网络结构搭建模块:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;两个头输出设置模块:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;距离概率分布获取模块:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;角度概率分布获取模块:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;损失函数l构造模块:-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;
参数集获取模块:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合模块:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;
神经网络的学习模块:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;预测结果计算模块:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
优选地,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
优选地,还包括:特征输入模块:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;所述L为蛋白质的残基氨基酸的个数,L一般设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
优选地,还包括:距离输出结果获取模块:根据L*L*C1信息,输出距离的预测结果输出信息;其中,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
优选地,还包括:角度输出结果获取模块:根据L*C2信息,获取角度的预测结果输出信息;对于角度的预测结果输出为L*C2,其中C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提高了蛋白质三级结构的距离和角度预测一致性,也可以分别提升模型的准确度;
2、本发明通过共享神经网络一次可以同时训练蛋白质距离和角度的两个网络,减少训练成本;
3、本发明通过共享神经网络一次可以同时输出蛋白质距离和角度两个预测结果,节约在线预测时间。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的流程示意图图。
图2为本发明的框架示意图。
图3为本发明实施例中的双头共享的神经网络的结构示意图。
图4为本发明实施例中的双头网络中距离预测的示意图。
图5为本发明实施例中的双头网络中角度预测示意图。
图6为本发明实施例中的双头共享神经网络的损失函数在架构上表示示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1、图2、图3、图4、图5、图6所示,根据本发明提供的一种蛋白质三级结构的预测方法,包括:网络结构搭建步骤:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;两个头输出设置步骤:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;距离概率分布获取步骤:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;角度概率分布获取步骤:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;损失函数l构造步骤:-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;参数集获取步骤:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合步骤:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;神经网络的学习步骤:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;预测结果计算步骤:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
传统的预测方法分别进行距离预测和角度预测,需要训练两个独立的神经网络模型。独立的两个模型因为网络结构的不一样,最终也会带来最终蛋白质结构预测的不一致性,弱化蛋白质本身结构中的距离和扭转角度的相互依存关系;同时分别训练两个网络也加大了计算量和最终预测的时长。共同预测的双头共享神经网络架构不仅仅能够解决距离和角度预测的不一致性,提升角度和距离预测的精确度,同时也大幅度减少计算的时间,加速预测速度。
优选地,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
优选地,还包括:特征输入步骤:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;所述L为蛋白质的残基氨基酸的个数,L一般设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
优选地,还包括:距离输出结果获取步骤:根据L*L*C1信息,输出距离的预测结果输出信息;其中,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
优选地,还包括:角度输出结果获取步骤:根据L*C2信息,获取角度的预测结果输出信息;对于角度的预测结果输出为L*C2,其中C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
具体地,在一个实施例中,基于距离和角度共预测的双头网络的蛋白质氨基酸三级结构预测的新型算法如下:
采用这种网络模型的考虑就是为了解决以上传统的两个独立网络缺陷,在一个模型中既考虑距离因素,又考虑扭转角度。同一个模型的参数训练同时优化这两个目标,让网络能够更加真实地拟合蛋白质三级结构。
本发明方法采用如下网络结构,具体方法介绍如下:
采用“双头”的神经网络架构。它的前N(N在100~200之间)层是常见的神经网络结构。这些层后面有“两个头”输出:其中一个头,利用前N层的输出,产生两个氨基酸残基对的距离的概率分布d(i,j),另一个头利用前N层的输出,产生一个氨基酸残基的扭转角角度概率分布a(i)。
神经网络(d,a)=fθ(seq)通过最小化在距离d和真实距离zd与角度a和真实角度za。具体来说,参数θ在损失函数l上通过梯度下降来进行拟合,
(d,a)=fθ(seq) l=(d-zd)2+(a-za)2+c||θ||2
其中c是控制L2权重正则化,防止过拟合的参数。
接下来就是网络学习的技术实现。因为神经网络通过大量的有标注的数据来来学习网络中的大量参数,从而决定预测的结果;通过反复向神经网络灌输“正确答案”,让它不断的更新参数,拟合到正确答案。通过上万个蛋白质及其三级结构来学习神经网络(d,a)。
输入的特征同样可以为一种或者多种特征的组合,比如针对氨基酸残基i和氨基酸残基j的Potts Model的441维特征,以及i或者j的独立特征如PSSM(Position SpecificScoring Matrix)的20维特征,二级结构SS(Secondary Structure)的3维或8维特征,以及氨基酸亲水性SA(Solvent Accessibility)的3维特征。网络的输入张量(Tensor)是一个L*L*M的结构,其中L为蛋白质的残基氨基酸的个数,一般设为64或者200,M为输入的特征维度。这里的M包括氨基酸残基i和氨基酸残基j的相关特征,氨基酸i的特征,氨基酸j的特征。
对于距离的预测结果输出为L*L*C,其中C为输出的类别个数。将距离分为C个类,C的取值范围为在2到40之间。对于角度的预测结果输出为L*C,其中C为输出的类别个数。将预测的角度(φ,ψ)也分为C个类,C的取值范围为在10~20之间。
本领域技术人员可以将本发明提供的蛋白质三级结构的预测方法,理解为本发明提供的蛋白质三级结构的预测系统的一个实施例。即,所述蛋白质三级结构的预测系统可以通过执行所述蛋白质三级结构的预测方法的步骤流程实现。
根据一种蛋白质三级结构的预测系统,包括:网络结构搭建模块:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;两个头输出设置模块:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;距离概率分布获取模块:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;角度概率分布获取模块:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;损失函数l构造模块:-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;
参数集获取模块:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合模块:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;
神经网络的学习模块:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;预测结果计算模块:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
优选地,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
优选地,还包括:特征输入模块:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;所述L为蛋白质的残基氨基酸的个数,L一般设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
优选地,还包括:距离输出结果获取模块:根据L*L*C1信息,输出距离的预测结果输出信息;其中,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
优选地,还包括:角度输出结果获取模块:根据L*C2信息,获取角度的预测结果输出信息;对于角度的预测结果输出为L*C2,其中C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
本发明提高了蛋白质三级结构的距离和角度预测一致性,也可以分别提升模型的准确度;本发明通过共享神经网络一次可以同时训练蛋白质距离和角度的两个网络,减少训练成本;本发明通过共享神经网络一次可以同时输出蛋白质距离和角度两个预测结果,节约在线预测时间。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种蛋白质三级结构的预测方法,其特征在于,包括:
网络结构搭建步骤:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;
两个头输出设置步骤:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;
距离概率分布获取步骤:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;
角度概率分布获取步骤:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;
损失函数l构造步骤:
-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;
-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;
参数集获取步骤:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集θ的计算:
(d,a)=fθ(seq);
拟合步骤:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;
神经网络的学习步骤:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;
预测结果计算步骤:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;
蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
2.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,za为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
3.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
特征输入步骤:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;
所述L为蛋白质的残基氨基酸的个数,L设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
4.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
距离输出结果获取步骤:根据L*L*C1信息,输出距离的预测结果输出信息;
其中,所述L为蛋白质的残基氨基酸的个数,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
5.根据权利要求1所述的蛋白质三级结构的预测方法,其特征在于,还包括:
角度输出结果获取步骤:根据L*C2信息,获取角度的预测结果输出信息;
对于角度的预测结果输出为L*C2,其中,所述L为蛋白质的残基氨基酸的个数,C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
6.一种蛋白质三级结构的预测系统,其特征在于,包括:
网络结构搭建模块:搭建距离和角度预测的双头共享神经网络结构,获取神经网络建模结构信息、残差网络模型信息;
两个头输出设置模块:根据神经网络建模结构信息,前N层后设置两个头的输出,分别获取距离输出头信息、角度输出头信息;
距离概率分布获取模块:根据距离输出头信息,输入特征,利用前N层的共享残差网络模型,距离输出头产生两个氨基酸残基对的距离的概率分布d(i,j)的输出,获取距离概率分布信息;
角度概率分布获取模块:根据角度输出头信息,输入特征,利用前N层的共享残差网络模型,角度输出头产生一个氨基酸残基的扭转角角度概率分布a(i)的输出,获取角度概率分布信息;
损失函数l构造模块:
-根据距离概率分布信息、角度概率分布信息,获取预测距离信息、预测角度信息;
-根据预测距离信息、预测角度信息,构造双头共享神经网络的损失函数l;
参数集获取模块:将最终训练好的共同距离和角度预测的共享神经网络表示为(d,a),则其函数f表示为给定蛋白质序列seq上的共享神经网络的参数集P的计算:
(d,a)=fθ(seq);
拟合模块:通过在损失函数l上利用梯度下降来进行计算共享神经网络的参数集θ,获取共享神经网络的参数集θ信息;
神经网络的学习模块:根据共享神经网络的参数集θ信息,将设定数量的蛋白质及其三级结构数据作为输入,学习双头共享神经网络(d,a)中的共享神经网络的参数集θ;
预测结果计算模块:根据训练好的fθ(seq),计算预测结果,获取蛋白质三级结构预测结果信息;
蛋白质三级结构预测结果信息拟合真实蛋白质三级结构的真实度大于设定阈值。
7.根据权利要求6所述的蛋白质三级结构的预测系统,其特征在于,所述损失函数l为下述的公式:
l=(d-zd)2+(a-za)2+c||θ||2
其中,d为预测距离,zd为真实距离,a为预测角度,zd为真实的角度,参数θ为共享神经网络的参数集,c是控制L2权重正则化,防止过拟合的参数。
8.根据权利要求6所述的蛋白质三级结构的预测系统,其特征在于,还包括:
特征输入模块:根据L*L*M的结构信息,输入任一种或者任多种特征的组合;
所述L为蛋白质的残基氨基酸的个数,L一般设为64或者200,M为输入的特征维度;M包括:氨基酸残基i的相关特征、氨基酸残基j的相关特征、氨基酸i的特征以及氨基酸j的特征。
9.根据权利要求6所述的蛋白质三级结构的预测系统,其特征在于,还包括:
距离输出结果获取模块:根据L*L*C1信息,输出距离的预测结果输出信息;
其中,所述L为蛋白质的残基氨基酸的个数,C1为输出的类别个数,将距离分为C1个类,C的取值范围为在2到40之间。
10.根据权利要求6所述的蛋白质三级结构的预测系统,其特征在于,还包括:
角度输出结果获取模块:根据L*C2信息,获取角度的预测结果输出信息;
对于角度的预测结果输出为L*C2,其中,所述L为蛋白质的残基氨基酸的个数,C2为输出的类别个数;将预测的角度(φ,ψ)分为C2个类,C的取值范围为在10到20之间。
CN201910907112.8A 2019-09-24 2019-09-24 蛋白质三级结构的预测方法及系统 Active CN110689918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907112.8A CN110689918B (zh) 2019-09-24 2019-09-24 蛋白质三级结构的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907112.8A CN110689918B (zh) 2019-09-24 2019-09-24 蛋白质三级结构的预测方法及系统

Publications (2)

Publication Number Publication Date
CN110689918A true CN110689918A (zh) 2020-01-14
CN110689918B CN110689918B (zh) 2022-12-09

Family

ID=69110090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907112.8A Active CN110689918B (zh) 2019-09-24 2019-09-24 蛋白质三级结构的预测方法及系统

Country Status (1)

Country Link
CN (1) CN110689918B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233723A (zh) * 2020-10-26 2021-01-15 上海天壤智能科技有限公司 基于深度学习的蛋白质结构预测方法及系统
CN113223608A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 双层互强化的蛋白质三维结构预测方法及系统
CN113611354A (zh) * 2021-07-05 2021-11-05 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050355A2 (en) * 2000-01-05 2001-07-12 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules
WO2003096223A1 (fr) * 2002-05-10 2003-11-20 Celestar Lexico-Sciences, Inc. Analyseur de sequences mutantes
US20050090991A1 (en) * 2003-10-27 2005-04-28 Wayne Dawson Novel method for predicting the spatial-arrangement topology of an amino acid sequence using free energy combined with secondary structural information
US20050130224A1 (en) * 2002-05-31 2005-06-16 Celestar Lexico- Sciences, Inc. Interaction predicting device
JP2008090777A (ja) * 2006-10-05 2008-04-17 Matsushita Electric Ind Co Ltd タンパク質折り畳み順序予測法
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
WO2017196963A1 (en) * 2016-05-10 2017-11-16 Accutar Biotechnology Inc. Computational method for classifying and predicting protein side chain conformations
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN108986798A (zh) * 2018-06-27 2018-12-11 百度在线网络技术(北京)有限公司 语音数据的处理方法、装置及设备
CN109360600A (zh) * 2018-08-28 2019-02-19 浙江工业大学 一种基于残基特征距离的蛋白质结构预测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050355A2 (en) * 2000-01-05 2001-07-12 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules
WO2003096223A1 (fr) * 2002-05-10 2003-11-20 Celestar Lexico-Sciences, Inc. Analyseur de sequences mutantes
US20050130224A1 (en) * 2002-05-31 2005-06-16 Celestar Lexico- Sciences, Inc. Interaction predicting device
US20050090991A1 (en) * 2003-10-27 2005-04-28 Wayne Dawson Novel method for predicting the spatial-arrangement topology of an amino acid sequence using free energy combined with secondary structural information
JP2008090777A (ja) * 2006-10-05 2008-04-17 Matsushita Electric Ind Co Ltd タンパク質折り畳み順序予測法
CN101794351A (zh) * 2010-03-09 2010-08-04 哈尔滨工业大学 一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法
WO2017196963A1 (en) * 2016-05-10 2017-11-16 Accutar Biotechnology Inc. Computational method for classifying and predicting protein side chain conformations
US20170329892A1 (en) * 2016-05-10 2017-11-16 Accutar Biotechnology Inc. Computational method for classifying and predicting protein side chain conformations
CN107622182A (zh) * 2017-08-04 2018-01-23 中南大学 蛋白质局部结构特征的预测方法及系统
CN108986798A (zh) * 2018-06-27 2018-12-11 百度在线网络技术(北京)有限公司 语音数据的处理方法、装置及设备
CN109360600A (zh) * 2018-08-28 2019-02-19 浙江工业大学 一种基于残基特征距离的蛋白质结构预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGYIZHOU等: "GOAP: A Generalized Orientation-Dependent, All-Atom Statistical Potential for Protein Structure Prediction", 《BIOPHYSICAL JOURNAL》 *
吕庆章等: "蛋白质二级结构预测的结构表达方法研究", 《河南师范大学学报(自然科学版)》 *
马栋萍等: "基于改进BP神经网络预测蛋白质二级结构", 《北京联合大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233723A (zh) * 2020-10-26 2021-01-15 上海天壤智能科技有限公司 基于深度学习的蛋白质结构预测方法及系统
CN112233723B (zh) * 2020-10-26 2022-10-25 上海天壤智能科技有限公司 基于深度学习的蛋白质结构预测方法及系统
CN113223608A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 双层互强化的蛋白质三维结构预测方法及系统
CN113611354A (zh) * 2021-07-05 2021-11-05 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN113611354B (zh) * 2021-07-05 2023-06-02 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法

Also Published As

Publication number Publication date
CN110689918B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Abueidda et al. Prediction and optimization of mechanical properties of composites using convolutional neural networks
Jiang et al. Protein secondary structure prediction: A survey of the state of the art
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
Huang et al. Convolutional neural network based on complex networks for brain tumor image classification with a modified activation function
CN110689918B (zh) 蛋白质三级结构的预测方法及系统
Bishara et al. A state-of-the-art review on machine learning-based multiscale modeling, simulation, homogenization and design of materials
Wang et al. Multi-body effects in a coarse-grained protein force field
US11030275B2 (en) Modelling ordinary differential equations using a variational auto encoder
Baldi et al. Matching protein beta-sheet partners by feedforward and recurrent neural networks
Babej et al. Coarse-grained lattice protein folding on a quantum annealer
CN108764280A (zh) 一种基于症状向量的医学数据处理方法和系统
CN105975806A (zh) 一种基于距离约束副本交换的蛋白质结构预测方法
Nguyen et al. Counterfactual explanation with multi-agent reinforcement learning for drug target prediction
Koeppe et al. Explainable artificial intelligence for mechanics: physics-informing neural networks for constitutive models
Kviman et al. Cooperation in the latent space: The benefits of adding mixture components in variational autoencoders
CN116343911B (zh) 基于三维空间生物反应的药物靶标亲和度预测方法及系统
Steeg Neural networks, adaptive optimization, and RNA secondary structure prediction
Xu et al. DeepRank-GNN-esm: a graph neural network for scoring protein–protein models using protein language model
Suder et al. Bayesian Transfer Learning
Woicik et al. Gemini: memory-efficient integration of hundreds of gene networks with high-order pooling
Zhang et al. Protein secondary structure prediction using machine learning
Vose et al. PharML. Bind: pharmacologic machine learning for protein-ligand interactions
Angadi et al. Fuzzyart neural network for protein classification
Cao Methods towards precision bioinformatics in single cell era
Plewczynski BRAINSTORMING: consensus learning in practice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant