CN112289370B - 一种蛋白质结构预测方法及装置 - Google Patents

一种蛋白质结构预测方法及装置 Download PDF

Info

Publication number
CN112289370B
CN112289370B CN202011585063.XA CN202011585063A CN112289370B CN 112289370 B CN112289370 B CN 112289370B CN 202011585063 A CN202011585063 A CN 202011585063A CN 112289370 B CN112289370 B CN 112289370B
Authority
CN
China
Prior art keywords
protein
neural network
amino acid
time domain
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011585063.XA
Other languages
English (en)
Other versions
CN112289370A (zh
Inventor
华权高
赵海义
舒芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Genecreate Biological Engineering Co ltd
Original Assignee
Wuhan Genecreate Biological Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Genecreate Biological Engineering Co ltd filed Critical Wuhan Genecreate Biological Engineering Co ltd
Priority to CN202011585063.XA priority Critical patent/CN112289370B/zh
Publication of CN112289370A publication Critical patent/CN112289370A/zh
Application granted granted Critical
Publication of CN112289370B publication Critical patent/CN112289370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置,其方法包括:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,训练所述多任务时域卷积神经网络;利用蛋白质的统计深度特征预测蛋白质结构。本发明将蛋白质的统计深度特征与多任务时域卷积神经网络结合,减少模型的复杂度,提高了泛化性、拟合度。

Description

一种蛋白质结构预测方法及装置
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置。
背景技术
目前生物学中公认的是:蛋白质的生物功能由蛋白质的三维结构所决定;蛋白质的三维结构是由其一级结构决定的;功能相似的蛋白质在结构上也是相似的。
研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有α-螺旋(α-helix)、β-折叠(β-sheet)、β-转角(β-turn)和无规卷曲(random coil),其中α螺旋和β折叠这两个蛋白质二级结构仅依赖于主链骨架,即所有氨基酸的共同部分,所以这两个蛋白质的二级结构会频繁地出现于大多数的蛋白质结构中。蛋白质的氨基酸序列决定了它的二级结构,二级结构又决定了它的空间结构,蛋白质的空间结构又决定了它生理功能的多样性。可见,序列、结构和功能之间的关系密不可分。
而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。随着蛋白质测序工作的进展,越来越多的蛋白质的氨基酸序列(即蛋白质一级结构)被测定并存储于各种不同的生物数据库中。蛋白质一级结构的数量以指数级别增长,这为蛋白质空间结构的研究带来了更大的便利与挑战。这样,由一级结构预测二级结构成了蛋白质组学的重要研究方向。
目前的蛋白质结构的预测技术中,并没有与相关的基因序列进行绑定,导致模型生成或预测蛋白质结构准确率不高;另一方面现有预测方法中大都通过综合蛋白质的多个特征经过一系列的复杂运算,特征在提取中丢失信息,从而导致预测蛋白质结构的准确率低和鲁棒性差。
发明内容
本发明现有蛋白质结构预测的准确率低和鲁棒性差的问题,在本发明的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:获取目的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
在本发明的一些实施例中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X 1+1.095X 2-0.856X 3+2.745X 4-1.735X 5+4.618X6-2.199X 7-9.985X 8+1.275X 9,其中,ŷ为蛋白质的统计深度特征,X 1X 2分别表示氨基酸的带电性和极性,X 3X 4表示氨基酸的化学分类,X 5X 9分别表示5种疏水值。
在本发明的一些实施例中,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。
在本发明的一些实施例中,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。
进一步的,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。
在本发明的一些实施例中,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。
在本发明的第二方面,提供了基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,包括获取模块、提取模块、映射模块、训练模块、预测模块,所述获取模块,用于获取目的基因序列,以及蛋白质数据库;所述提取模块,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
进一步的,所述预测模块包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。
在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。
有益效果:
1.本发明通过根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,减少特征向量的维度,进而减少模型输入的复杂度和模型拟合时间;
2.通过对氨基酸序列的聚类,得到具有一定时序性、变长的氨基酸序列集合,经过时域卷积神经网络的处理,相比于其他卷积神经网络,提高了模型生成的氨基酸序列的拟合度;
3.由于多维向量中带有同源信息、进化速率,使得输入的样本中带有一定量的负样本,从而提高了模型的泛化能力、鲁棒性和准确率。
附图说明
图1为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测方法的基本流程图;
图2为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测方法流程示意图;
图3为氨基酸的密码子表;
图4为氨基酸的物理化学性质与蛋白质的统计深度特征的相关性示意图;
图5为本发明的一些实施例中的时域卷积神经网络的残差模块结构示意图;
图6为本发明的一些实施例中的基于多任务时域卷积神经网络的蛋白质结构预测装置的结构示意图;
图7为本发明的电子设备的基本结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1至图3,在本发明的第一方面提供了一种基于多任务时域卷积神经网络的蛋白质结构预测方法,包括如下步骤:S101.获取目的基因序列,以及蛋白质数据库;S102.根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;S103.将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;S104.将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;S105.将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
在本发明的一些实施例的步骤S102中,所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X 1+1.095X 2-0.856X 3+2.745X 4-1.735X 5+4.618X6-2.199X 7-9.985X 8+1.275X 9,其中,ŷ为蛋白质的统计深度特征,X 1X 2分别表示氨基酸的带电性和极性,X 3X 4表示氨基酸的化学分类,X 5X 9分别表示5种疏水值。
参考图4,具体地,图中的第一列为氨基酸的单字符表示,Cl列表示氨基酸在数据集中出现的频率;C2列表示氨基酸的带电性,1表示带正电,表示带负电,0为不带电;C3列为极性,+1表示有极性,而-1为无极性;C4列是氨基酸的化学分类,(1,1)表示脂肪羟基类,(1,1)表示含碱性基类,(1,1)表示含酸性基类,(0,0)表示含羟基和硫类,(1,1)表示含芳基和环类;C5-C9分别为下列标准的疏水值:KD(Kyte and Doolittle,1982),Eisenberg(Eisenberg et al,1984),Meek(Meek, 1980),F-P Hl Wolfenden(Wolfenden et al,1981)。C11为蛋白质统计深度特征,C10、C12为与C11的关联参数。
在本发明的一些实施例的步骤S104中,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。
参考图5,上述时域卷积神经网络(Temporal Convolutional Network)可以将一维卷积层改为膨胀系数d为2、内核大小k为3的层,两个卷积层的输出将被添加到残差模块(residual block)的输入中,从而产生下一个块的输入。对于网络的所有内部块,即除了第一个和最后一个之外的所有内部块,输入和输出通道宽度是相同的,即num_filters。由于第一个残差模块的第一卷积层和最后一个残差模块的第二卷积层可能有不同的输入和输出通道宽度。除此之外,可通过引入dropout、Relu等方式规范隐含层的输入、防止模型的过拟合。可选的,由上一个残差模块直接经过1×1卷积(optional 1×1 convolution)与最后一层输入叠加之后输出到下层残差模块中(input for next residual block )。
在本发明的一些实施例的步骤S105中,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。
进一步的,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。
在本发明的一些实施例中,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。
可以理解,核酸的替换速率(Substitution rate)是指在单位时间内在特定位置上的核酸发生替换的次数。一般来说,第三个密码子位置的核酸的替换率远远大于前两个位置,第一个密码子位置的核酸的替换率又大于第二个密码子位置。在密码子模型中,每一个密码子被看作一个突变单元。这样,密码子的替换可以分为两类,第一类为同义替换,即替换前和替换后的密码子表达同一种氨基酸(比如GAG->GAA,它们都翻译为Glu);第二类为非同义替换,即替换前和替换后的密码子表达不同的氨基酸(比如GAG->GAC,它们分别翻译为Glu和Asp;
2.转换/颠换率(transition/ transversion ratio)。转换(Transition)是由嘌呤置换嘌呤或嘧啶置换嘧啶(TC,A-G);颠换(Transversion)是指嘌呤置换嘧啶或嘧淀置换嘌呤(TA,TG,CA,CG),一般来说,在进化过程中,碱基的转换要远多于颠换;
3.核酸和密码子的平衡频率(Equilibrium frequency)。密码子的平衡频率是指在进化的平稳马尔可夫过程中,序列中各个核酸的含量(即组分百分比),密码子的平衡频率这样估计:把这个密码子中三个碱基在两个序列的中的含量相乘。
可以理解,在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系,是重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)。蛋白质和DNA的同源性常常通过它们序列的相似性(Sequencesimilarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percentidentity)来表示。相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确定其是否具有同源性。可选地,利用Phylip软件绘制进化树,通过Treeview对进化树处理软件,通过Genetree来比较基因与种系进化树。
参考图6,在本发明的第二方面,提供了基于多任务时域卷积神经网络的蛋白质结构预测装置1,包括获取模块11、提取模块12、映射模块13、训练模块14、预测模块15,所述获取模块11,用于获取目的基因序列,以及蛋白质数据库;所述提取模块12,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述映射模块13,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块14,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测模块15,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
进一步的,所述预测模块15包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
参考图7,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,包括如下步骤:
获取目的基因序列,以及蛋白质数据库;
根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X 1+1.095X 2-0.856X 3+2.745X 4-1.735X 5+4.618X6-2.199X 7-9.985X 8+1.275X 9,其中,ŷ为蛋白质的统计深度特征,X 1X 2分别表示氨基酸的带电性和极性,X 3X 4表示氨基酸的化学分类,X 5X 9分别表示5种疏水值;
将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;
将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;
将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
2.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。
3.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:
根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;
根据已有蛋白质形态构建基本骨架;
根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。
4.根据权利要求3所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。
5.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:
根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。
6.一种基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,包括获取模块、提取模块、映射模块、训练模块、预测模块,
所述获取模块,用于获取目的基因序列,以及蛋白质数据库;
所述提取模块,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA-RNA-氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X 1+1.095X 2-0.856X 3+2.745X 4-1.735X 5+4.618X6-2.199X 7-9.985X 8+1.275X 9,其中,ŷ为蛋白质的统计深度特征,X 1X 2分别表示氨基酸的带电性和极性,X 3X 4表示氨基酸的化学分类,X 5X 9分别表示5种疏水值;
所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;
所述训练模块,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;
所述预测模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
7.根据权利要求6所述的基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,所述预测模块包括第一预测子模块、第二预测子模块,
所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;
所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
8.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202011585063.XA 2020-12-28 2020-12-28 一种蛋白质结构预测方法及装置 Active CN112289370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011585063.XA CN112289370B (zh) 2020-12-28 2020-12-28 一种蛋白质结构预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011585063.XA CN112289370B (zh) 2020-12-28 2020-12-28 一种蛋白质结构预测方法及装置

Publications (2)

Publication Number Publication Date
CN112289370A CN112289370A (zh) 2021-01-29
CN112289370B true CN112289370B (zh) 2021-03-23

Family

ID=74426536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011585063.XA Active CN112289370B (zh) 2020-12-28 2020-12-28 一种蛋白质结构预测方法及装置

Country Status (1)

Country Link
CN (1) CN112289370B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115312119B (zh) * 2022-10-09 2023-04-07 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
CN116230074A (zh) * 2022-12-14 2023-06-06 粤港澳大湾区数字经济研究院(福田) 蛋白质结构预测方法、模型训练方法、装置、设备及介质
CN115691669B (zh) * 2023-01-03 2023-03-17 北京中科弧光量子软件技术有限公司 一种基于量子卷积神经网络的蛋白质结构分类系统
CN115910220B (zh) * 2023-01-03 2023-05-09 北京中科弧光量子软件技术有限公司 一种基于量子计算机的蛋白质氨基酸性质的编码方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779240A (zh) * 2012-06-21 2012-11-14 哈尔滨工程大学 基于核典型相关分析的固有不规则蛋白质结构预测方法
CN104951668A (zh) * 2015-04-07 2015-09-30 上海大学 基于级联神经网络结构的蛋白质关联图的预测方法
WO2017196963A1 (en) * 2016-05-10 2017-11-16 Accutar Biotechnology Inc. Computational method for classifying and predicting protein side chain conformations
CN108549794A (zh) * 2018-03-29 2018-09-18 中国林业科学研究院资源昆虫研究所 一种蛋白质二级结构预测方法
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置
CN112116950A (zh) * 2020-09-10 2020-12-22 南京理工大学 基于深度度量学习的蛋白质折叠识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779240A (zh) * 2012-06-21 2012-11-14 哈尔滨工程大学 基于核典型相关分析的固有不规则蛋白质结构预测方法
CN104951668A (zh) * 2015-04-07 2015-09-30 上海大学 基于级联神经网络结构的蛋白质关联图的预测方法
WO2017196963A1 (en) * 2016-05-10 2017-11-16 Accutar Biotechnology Inc. Computational method for classifying and predicting protein side chain conformations
CN108549794A (zh) * 2018-03-29 2018-09-18 中国林业科学研究院资源昆虫研究所 一种蛋白质二级结构预测方法
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110070909A (zh) * 2019-03-21 2019-07-30 中南大学 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN110706738A (zh) * 2019-10-30 2020-01-17 腾讯科技(深圳)有限公司 蛋白质的结构信息预测方法、装置、设备及存储介质
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN112116950A (zh) * 2020-09-10 2020-12-22 南京理工大学 基于深度度量学习的蛋白质折叠识别方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置

Also Published As

Publication number Publication date
CN112289370A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289370B (zh) 一种蛋白质结构预测方法及装置
CN109902186B (zh) 用于生成神经网络的方法和装置
Zhou et al. Deep supervised and convolutional generative stochastic network for protein secondary structure prediction
EP3723095B1 (en) Latent space exploration using linear-spherical interpolation region method
Li et al. Protein loop modeling using deep generative adversarial network
CN113168568A (zh) 用于具有深度特征化的主动迁移学习的系统和方法
CN111260774A (zh) 生成3d关节点回归模型的方法和装置
CN114974397A (zh) 蛋白质结构预测模型的训练方法和蛋白质结构预测方法
CN113764037A (zh) 模型训练、抗体改造和结合位点预测的方法与装置
US20240120022A1 (en) Predicting protein amino acid sequences using generative models conditioned on protein structure embeddings
US20230360734A1 (en) Training protein structure prediction neural networks using reduced multiple sequence alignments
Yan et al. A review about RNA–protein-binding sites prediction based on deep learning
CN116564401A (zh) 一种模型训练、细胞分割系统、方法及存储介质
CN110956127A (zh) 用于生成特征向量的方法、装置、电子设备和介质
CN115662517A (zh) 序列预测方法、装置、介质及电子设备
CN116525006A (zh) 单细胞分类方法、装置、设备及存储介质
Pollastri et al. Prediction of protein topologies using generalized IOHMMs and RNNs
CN117037917A (zh) 细胞类型预测模型训练方法、细胞类型预测方法和装置
US20220172055A1 (en) Predicting biological functions of proteins using dilated convolutional neural networks
CN112148865B (zh) 信息推送方法和装置
CN111526054B (zh) 用于获取网络的方法及装置
WO2023216065A1 (en) Differentiable drug design
US20230420070A1 (en) Protein Structure Prediction
Anteghini et al. P-PPI: accurate prediction of peroxisomal protein-protein interactions (P-PPI) using deep learning-based protein sequence embeddings
CN118016162A (zh) Dna序列转录因子结合强度预测模型的生成方法与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant