CN107622182B - 蛋白质局部结构特征的预测方法及系统 - Google Patents

蛋白质局部结构特征的预测方法及系统 Download PDF

Info

Publication number
CN107622182B
CN107622182B CN201710660908.9A CN201710660908A CN107622182B CN 107622182 B CN107622182 B CN 107622182B CN 201710660908 A CN201710660908 A CN 201710660908A CN 107622182 B CN107622182 B CN 107622182B
Authority
CN
China
Prior art keywords
protein
residue
layer
predicting
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710660908.9A
Other languages
English (en)
Other versions
CN107622182A (zh
Inventor
邓磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201710660908.9A priority Critical patent/CN107622182B/zh
Publication of CN107622182A publication Critical patent/CN107622182A/zh
Application granted granted Critical
Publication of CN107622182B publication Critical patent/CN107622182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及生物信息学领域,公开一种蛋白质局部结构特征的预测方法及系统,以利用深度学习技术来提高预测准确度,为蛋白质的三级结构预测提供关键的参考信息,解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下问题。本发明方法统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;并通过训练集优化训练模型的权重参数,使得所构造的损失函数的值达到最小,进而根据训练好的网络模型相应进行蛋白质序列中各残基的溶剂可及性或残基接触数预测。

Description

蛋白质局部结构特征的预测方法及系统
技术领域
本发明涉及生物信息学领域,尤其涉及一种蛋白质局部结构特征的预测方法及系统。
背景技术
蛋白质是一切生命活动的物质基础,参与体内主要的生理活动。人体内的酶、激素、抗体等活性物质都是由蛋白质构成。因此,了解蛋白质的功能对理解体内蛋白质作用机理有着非常重要的意义。然而,蛋白质的功能和蛋白质分子的空间结构有着非常紧密的联系。不同的蛋白质,正是因为其具有不同的空间结构,因此显示出不同的理化特性和生理功能。因此,理解蛋白质的空间结构有利于对蛋白质功能和作用机理的理解。
随着生物测序技术的迅猛发展,已知序列的蛋白质数量远远高于已知结构的蛋白质数量。直接从一维的氨基酸序列预测蛋白质的三级结构是目前生物信息领域的一个非常具有挑战性的问题。解决这个问题的有效途径是首先预测蛋白质的局部结构。例如,蛋白质二级结构、蛋白质溶剂可及性、残基接触数、蛋白质骨架扭转角等等。
蛋白质溶剂可及性是研究最多和用途最广泛的结构特征之一。预测蛋白质溶剂可及性有助于精确的预测蛋白质的三维结构和加深对蛋白质功能的理解。除此之外,蛋白质溶剂可及性对蛋白质结构域识别、折叠域识别、结合域识别等方面都提供了重要的信息。
在对溶剂可及性的研究中,一般把它当成是一个分类问题,即对一个给定的残基,计算出相对溶剂可及表面积。如果相对溶剂可及性大于某个状态阈值,就将其分为一类。根据给定的状态阈值不同,可以分为二状态分类(暴露或隐藏)或三状态分类(暴露、中间或隐藏)问题。
与蛋白质溶剂可及性类似,残基接触数是另外一种重要的结构特征。残基接触数是指蛋白质序列中,一个残基与其他残基相互接触的数目。如果两个残基的Cβ原子(甘氨酸为Cα原子)之间的距离小于一个给定的阈值,这个阈值一般为6到
Figure BDA0001370546290000011
就认为这两个残基是相互接触的。如果一个蛋白质序列中每个残基的接触数都是已知的,那么这个蛋白质可能的空间构象也能被限定。因此,预测残基的接触数对从头预测法预测蛋白质结构提供了非常关键的信息。
发明内容
本发明目的在于公开一种蛋白质局部结构特征的预测方法及系统,以利用深度学习技术的优势来提高预测准确度,进而为蛋白质的三级结构预测提供关键的参考信息,从而解决由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。
为实现上述目的,本发明公开了一种蛋白质局部结构特征的预测方法,包括:
从蛋白质数据库中提取序列,组成训练集和独立测试集;
计算样本集中的每个蛋白质序列中各残基的溶剂可及性;
统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;
通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:
Figure BDA0001370546290000021
其中,m为样本数,W是整个网络的连接权重矩阵,Wji (l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β控制稀疏性惩罚因子的权重;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制
Figure BDA0001370546290000022
Figure BDA0001370546290000023
Figure BDA0001370546290000024
是指第l层第j个神经元的输出值;
根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。
优选地,上述权重衰减参数取值为0.003,稀疏性参数取值为0.2。本发明中,根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测具体包括:
将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态,对每一个蛋白质残基,将进行特征编码之后的向量记为x,预测的类标记为y,因此y∈{1,2,3},y的概率值可以表示为:
p(y|x;W,b)=sigmoid(Wx+b)
其中,sigmoid函数为神经网络输出层的分类器;
根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
本发明中,上述方法同样可用于预测残基接触数,具体包括:
从蛋白质数据库中提取序列,组成训练集和独立测试集;
计算样本集中的每个蛋白质序列中各残基的残基接触数;
统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;
通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:
Figure BDA0001370546290000031
其中,m为样本数,W是整个网络的连接权重矩阵,Wji (l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β是控制稀疏性惩罚因子的权重或称为稀疏性参数;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制
Figure BDA0001370546290000032
Figure BDA0001370546290000033
Figure BDA0001370546290000034
是指第l层第j个神经元的输出值;
根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测。
优选地,上述权重衰减参数取值为0.003,稀疏性参数取值为0.2。本发明中,根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测包括:
考虑到绝大多数的残基接触数是小于或等于14,将残基接触数当作一个15状态的分类问题,因此y∈{0,1,…,14};y的概率值可以表示为:
p(y|x;W,b)=sigmoid(Wx+b)
其中,sigmoid函数为神经网络输出层的分类器;
根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
与上述方法相对应的,本发明可针对上述方法分别开发一套针对残基溶剂可及性和/或残基接触数等局部结构特征进行预测的执行系统。
本发明具有以下有益效果:
采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;降低了数据处理复杂度的同时确保了数据处理的精度。而且,通过引入更多的蛋白质序列的特征,即扩大特征序列的覆盖度,如引入一些诸如蛋白质的固有不规则、蛋白质骨架扭转角等新的结构特征,可进一步提高预测的整体性能。
综上,本发明方法及系统,是一种完全基于序列的蛋白质溶剂可及性和残基接触数预测方法。它能够预测未知同源结构的溶剂可及性和接触数,有效提高了预测的覆盖度,利用改进的深度学习技术的优势,显著的提高了预测准确度。为蛋白质的三级结构预测提供了非常关键的信息,从而有效的解决了由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的处理流程示意图;
图2本发明实施例训练模型示意图;
图3是本发明实施例方法在溶剂可及性预测结果与其他方法的对比图;
图4是本发明实施例方法在残基接触数预测结果与其他方法的对比图;
图5是本发明实施例采用从CASP11数据集中抽取的蛋白组氨酸磷酸酶(histidinol-phosphate aminotransferase protein)作为案例,对其进行预测的结果示意图;其中,这个蛋白质中的A链由376个残基组成,黑色虚线代表观测值,灰色实线代表预测值。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种蛋白质局部结构特征的预测方法,参照图1,首先是数据准备阶段,从蛋白质数据库中提取所有属于单体、球形、非膜结构的蛋白质序列组成训练数据集。接下来是特征编码阶段,即将蛋白质序列文本中的字符串转化成数值特征,通过不同的软件和程序可以编码出不同的特征,本发明将所有的原始特征分为三大类:序列进化谱、预测的相关结构属性和氨基酸理化性质,然后将所有的特征组合在一起作为模型的原始输入。最后是模型的训练和预测阶段,将第二阶段编码出来的数值作为输入,训练栈式稀疏自编码神经网络(SSAE-DNN)。对于给定的已知序列的蛋白质,可以使用训练好的SSAE-DNN模型预测最终的结果,通过与实验值进行比较,来评估模型的预测性能。
更具体的,上述方法可进一步细分为如下关键步骤:
步骤S1、从蛋白质数据库中提取序列,组成训练集和独立测试集。
该步骤即确定数据集,包括训练集和测试集。从蛋白质数据库(PDB,Protein DataBank)中提取所有属于单体、球形、非膜结构的蛋白质序列,去除序列相似性,可得到5719个蛋白质序列组成训练集。从CASP11数据库中提取所有已知序列的蛋白质,去除冗余性,得到69个蛋白质序列组成独立测试集。
步骤S2、计算样本集中的每个蛋白质序列中各残基的溶剂可及性。蛋白质的溶剂可及性(solvent accessibility)主要描述蛋白质的分子是暴露在外,还是隐藏在内的。其中,每个分子与水的接触面积就可认为是溶剂可及性面积,如果和水分子接触面积较大,则认为是暴露的(exposed),从蛋白质的pdb文件中可以直接读出蛋白质序列中每个分子的溶剂可及性面积(ACC)。
本实施例中,将蛋白质溶剂可及性分类为暴露、中间或隐藏共三个状态。
步骤S3、统一构造样本集中各蛋白质序列的特征序列以作为训练模型(对应图1中的SSAE-DNN模型)的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合。
统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入及对应如图1所示的第二阶段的序列特征编码,即对从数据库中提取的蛋白质序列进行特征编码,通过使用不同的软件和程序编码出不同的数值特征,然后对特征进行归一化和窗口滑动。
本实施例中,栈式自编码神经网络的思想是先对多层神经网络一层一层的单独训练,每一层的训练都可以看成是一个自编码的过程,将前一层训练得到的输出单元作为后一层的输入神经元;通过反复试验,当隐藏层数为3时,无论是对溶剂可及性预测还是残基接触数预测,都能达到最佳的预测性能。
步骤S4、通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:
Figure BDA0001370546290000061
其中,m为样本数,W是整个网络的连接权重矩阵,Wji (l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β控制稀疏性惩罚因子的权重;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制
Figure BDA0001370546290000062
Figure BDA0001370546290000063
Figure BDA0001370546290000064
是指第l层第j个神经元的输出值。
在该步骤中,参照图2,自编码神经网络(Auto-encoder)是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值。让隐藏层的神经元数目小于输入数据的个数,这样迫使隐藏层去学习输入数据,可以看作是对输入数据的压缩表示。在这个网络中,输出层中各个神经元的输出值是输入层中相应值的近似表达,因此隐藏层中的神经元就可以近似的代表输入数据的信息。一般将隐藏层中神经元的数目设置的比输入层中输入单元的数量要少,这样能够压缩信息并不会使信息量减少,从而达到降维的目的。优选的,本实施例中,当权重衰减参数取值为0.003、稀疏性参数取值为0.2时的预测性能最好。3个隐藏层的神经元个数优选的分布情况分别为500、300和200。
步骤S5、根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测。
与上述步骤S2中的分类相对应的,该步骤将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态,对每一个蛋白质残基,将进行特征编码之后的向量记为x,预测的类标记为y,因此y∈{1,2,3},y的概率值可以表示为:
p(y|x;W,b)=sigmoid(Wx+b)
其中,sigmoid函数为神经网络输出层的分类器;然后根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
当用本发明方法对残基接触数进行预测时,上述步骤S2被替换为“计算样本集中的每个蛋白质序列中各残基的残基接触数”,在具体计算时,序列中第i个残基的Cβ原子和第j个残基的Cβ原子之间的欧几里得距离小于距离阈值则将残基接触数记为1,遍历整个蛋白质序列长度得到各残基最终累加的残基接触数;当所述蛋白质序列为甘氨酸时,所述Cβ原子被替换为Cα原子。同时,上述步骤S5被替换为“根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测”,且考虑到绝大多数的残基接触数是小于14,将残基接触数当作一个15状态的分类问题,因此y∈{0,1,…,14};y的概率值可以表示为:
p(y|x;W,b)=sigmoid(Wx+b)
然后根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
【有效性验证】
参照附图3至图5,本发明方法(对应图中的DeepSacon)分别在训练集和独立测测试集上与其它蛋白质结构特征预测方法进行了比较。训练集由5719个蛋白质链组成,独立测试集从CASP11数据集中获得,由69个蛋白质链组成。首先将DeepSacon与传统的机器学习方法进行比较,本发明选择了与两个经典的模型——支持向量机(SVM)和常规神经网络(NN)方法,在相同的数据集上对这些方法建模,训练参数并做比较。表1显示不同方法在训练集和测试集上的预测精度:
表1:
Figure BDA0001370546290000071
从表1中可以看出,DeepSacon方法在训练集和独立测试集上都比SVM和NN的预测精度高。对于残基接触数的预测,在独立测试集上,DeepSacon获得了0.31的15-状态预测精度和0.74的PCC。进一步,在Yuan的数据集上,本发明比较了Kinjos的方法和Yuan的方法,实验结果表明,DeepSacon方法获得和0.69的PCC,显著的超过了Kinjos的方法(0.63的PCC)和Yuan的方法(0.64的PCC)。
对于溶剂可及性的预测,本发明与其他的溶剂可及性方法(SPINE-X,SANN,Accpro5和AcconPred)在独立测试集上进行比较。表2显示了不同的方法在CASP11上的预测性能。
方法 SPINE-X SANN ACCpro5 AcconPred DeepSacon
3分类精度 0.57 0.61 0.58 0.64 0.68
此外,参照图3至图5,图3是本实施例(DeepSacon)与AcconPred方法对3状态溶剂可及性在不同类型特征之间的性能比较,图4是本实施例(DeepSacon)与AcconPred方法对15状态残基接触数在不同类型特征之间的性能比较,图5是A链由376个残基组成的蛋白组氨酸磷酸酶案例说明;由图示对比试验数据可知,本实施例方法利用改进的深度学习技术的优势,显著的提高了预测准确度。
与上述方法相对应的,本领域技术人员可针对上述方法分别开发一套针对残基溶剂可及性和残基接触数金字那个结构特征预测的执行系统。
综上,本实施例所公开的蛋白质局部结构特征的预测方法及系统,具有以下有益效果:
采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;降低了数据处理复杂度的同时确保了数据处理的精度。而且,通过引入更多的蛋白质序列的特征,即扩大特征序列的覆盖度,如引入一些诸如蛋白质的固有不规则、蛋白质骨架扭转角等新的结构特征,可进一步提高预测的整体性能。
藉此,本发明方法及系统,是一种完全基于序列的蛋白质溶剂可及性和残基接触数预测方法。它能够预测未知同源结构的溶剂可及性和接触数,有效提高了预测的覆盖度,利用改进的深度学习技术的优势,显著的提高了预测准确度。为蛋白质的三级结构预测提供了非常关键的信息,从而有效的解决了由生物实验方法测定蛋白质三级结构带来的成本高昂和效率低下的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种蛋白质局部结构特征的预测方法,其特征在于,包括:
从蛋白质数据库中提取序列,组成训练集和独立测试集;
计算样本集中的每个蛋白质序列中各残基的溶剂可及性;
统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;
通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:
Figure FDA0002615632440000011
其中,m为样本数,W是整个网络的连接权重矩阵,Wji (l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β控制稀疏性惩罚因子的权重;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制
Figure FDA0002615632440000012
Figure FDA0002615632440000013
Figure FDA0002615632440000014
是指第l层第j个神经元的输出值;
根据训练好的网络模型进行蛋白质序列中各残基的溶剂可及性预测,包括:
将蛋白质溶剂可及性预测结果分类为暴露、中间或隐藏共三个状态,对每一个蛋白质残基,将进行特征编码之后的向量记为x,预测的类标记为y,因此y∈{1,2,3},y的概率值表示为:
p(y|x;W,b)=sigmoid(Wx+b)
其中,sigmoid函数为神经网络输出层的分类器;
根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
2.根据权利要求1所述的蛋白质局部结构特征的预测方法,其特征在于,所述权重衰减参数取值为0.003,稀疏性参数取值为0.2。
3.一种执行上述权利要求1至2任一所述方法的蛋白质局部结构特征的预测系统。
4.一种蛋白质局部结构特征的预测方法,其特征在于,包括:
从蛋白质数据库中提取序列,组成训练集和独立测试集;
计算样本集中的每个蛋白质序列中各残基的残基接触数;
统一构造样本集中各蛋白质序列的特征序列以作为训练模型的输入,所述训练模型采用隐藏层数为3的基于栈式稀疏自编码的深度神经网络模型,并将dropout方法应用在整个网络的隐藏层中,随机的让隐藏层中的某些神经元不工作以降低模型的过拟合;
通过训练集优化所述训练模型的权重参数,使得下述的损失函数的值达到最小,所述损失函数为:
Figure FDA0002615632440000021
其中,m为样本数,W是整个网络的连接权重矩阵,Wji (l)表示第l-1层中第i个神经元与第l层中第j个神经元之间的连接权值;b是偏置项,是一个向量;s是某一隐藏层的神经元个数,sl是指第l层的神经元个数;x(i)和y(i)分别是训练集中对应的一组实测的输入和输出,hW,b(x(i))是神经网络的拟合函数;nl表示网络的层数;λ是权重衰减参数;β是控制稀疏性惩罚因子的权重或称为稀疏性参数;ρ是稀疏性参数,为了能用最少的隐藏单元来表示输入层的特征,限制
Figure FDA0002615632440000022
Figure FDA0002615632440000023
Figure FDA0002615632440000024
是指第l层第j个神经元的输出值;
根据训练好的网络模型进行蛋白质序列中各残基的残基接触数预测,包括:
考虑到绝大多数的残基接触数是小于或等于14,将残基接触数当作一个15状态的分类问题,因此y∈{0,1,…,14};y的概率值表示为:
p(y|x;W,b)=sigmoid(Wx+b)
其中,sigmoid函数为神经网络输出层的分类器;
根据各状态的概率分布情况,选取概率最大的值作为最后的预测值。
5.根据权利要求4所述的蛋白质局部结构特征的预测方法,其特征在于,所述权重衰减参数取值为0.003,稀疏性参数取值为0.2。
6.根据权利要求4或5所述的蛋白质局部结构特征的预测方法,其特征在于,在计算样本集中的每个蛋白质序列中各残基的残基接触数时,序列中第i个残基的Cβ原子和第j个残基的Cβ原子之间的欧几里得距离小于距离阈值则将残基接触数记为1,遍历整个蛋白质序列长度得到各残基最终累加的残基接触数;当所述蛋白质序列为甘氨酸时,所述Cβ原子被替换为Cα原子。
7.一种执行上述权利要求4至6任一所述方法的蛋白质局部结构特征的预测系统。
CN201710660908.9A 2017-08-04 2017-08-04 蛋白质局部结构特征的预测方法及系统 Active CN107622182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710660908.9A CN107622182B (zh) 2017-08-04 2017-08-04 蛋白质局部结构特征的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710660908.9A CN107622182B (zh) 2017-08-04 2017-08-04 蛋白质局部结构特征的预测方法及系统

Publications (2)

Publication Number Publication Date
CN107622182A CN107622182A (zh) 2018-01-23
CN107622182B true CN107622182B (zh) 2020-10-09

Family

ID=61088876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710660908.9A Active CN107622182B (zh) 2017-08-04 2017-08-04 蛋白质局部结构特征的预测方法及系统

Country Status (1)

Country Link
CN (1) CN107622182B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033744B (zh) * 2018-06-19 2021-08-03 浙江工业大学 一种基于残基距离和接触信息的蛋白质结构预测方法
CN108830043B (zh) * 2018-06-21 2021-03-30 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN109086565B (zh) * 2018-07-12 2021-11-23 浙江工业大学 一种基于残基间接触约束的蛋白质结构预测方法
JP7132430B2 (ja) * 2018-09-21 2022-09-06 ディープマインド テクノロジーズ リミテッド 予測タンパク質構造と実際のタンパク質構造との間の類似性を推定するジオメトリニューラルネットワークを使用してタンパク質構造を予測すること
KR102165734B1 (ko) * 2018-10-15 2020-10-14 일루미나, 인코포레이티드 심층 컨볼루션 신경망을 사전 훈련시키기 위한 심층 학습 기반 기술
CN109637580B (zh) * 2018-12-06 2023-06-13 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN109671469B (zh) * 2018-12-11 2020-08-18 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109739950B (zh) * 2018-12-25 2020-03-31 中国政法大学 筛选适用法律条文的方法及装置
CN110729024B (zh) * 2019-08-27 2021-12-17 浙江工业大学 一种基于拓扑结构相似性的蛋白质结构模型质量评估方法
CN110689918B (zh) * 2019-09-24 2022-12-09 上海宽慧智能科技有限公司 蛋白质三级结构的预测方法及系统
CN111667880A (zh) * 2020-05-27 2020-09-15 浙江工业大学 一种基于深度残差神经网络的蛋白质残基接触图预测方法
CN112116949B (zh) * 2020-09-10 2022-08-16 南京理工大学 基于三元组损失的蛋白质折叠识别方法
CN112185466B (zh) * 2020-09-24 2023-05-23 中国科学院计算技术研究所 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
CN112837742B (zh) * 2021-01-22 2024-03-26 浙江工业大学 一种基于循环网络的蛋白质与蛋白质相互作用预测方法
CN113611354B (zh) * 2021-07-05 2023-06-02 河南大学 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN115312119B (zh) * 2022-10-09 2023-04-07 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2352601A (en) * 2000-01-05 2001-07-16 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules
CN104331642B (zh) * 2014-10-28 2017-04-12 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN105069400B (zh) * 2015-07-16 2018-05-25 北京工业大学 基于栈式稀疏自编码的人脸图像性别识别系统
CN105930686B (zh) * 2016-07-05 2019-05-07 四川大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法

Also Published As

Publication number Publication date
CN107622182A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
Navarin et al. Universal readout for graph convolutional neural networks
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN110717617A (zh) 一种基于深度图网络自编码器的无监督关系预测方法
CN111276187B (zh) 一种基于自编码器的基因表达谱特征学习方法
Mohammadi et al. Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN115732034A (zh) 一种空间转录组细胞表达模式的识别方法及系统
CN113362963A (zh) 基于多源异构网络的预测药物之间副作用的方法及系统
CN114692732A (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN117153268A (zh) 一种细胞类别确定方法及系统
CN111371611A (zh) 一种基于深度学习的加权网络社区发现方法及装置
CN114819056A (zh) 一种基于域对抗和变分推断的单细胞数据整合方法
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
CN114241564A (zh) 一种基于类间差异强化网络的人脸表情识别方法
CN114037014A (zh) 基于图自编码器的引用网络聚类方法
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN111402953B (zh) 基于层次注意力网络的蛋白质序列分类方法
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法
Du et al. Deep neural networks with parallel autoencoders for learning pairwise relations: Handwritten digits subtraction
Yu et al. Auto graph encoder-decoder for model compression and network acceleration
CN109726510B (zh) 一种蛋白质糖化位点鉴定方法
CN112735604A (zh) 一种基于深度学习算法的新型冠状病毒分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant