CN112289372B - 一种基于深度学习的蛋白质结构设计方法及装置 - Google Patents

一种基于深度学习的蛋白质结构设计方法及装置 Download PDF

Info

Publication number
CN112289372B
CN112289372B CN202011477681.2A CN202011477681A CN112289372B CN 112289372 B CN112289372 B CN 112289372B CN 202011477681 A CN202011477681 A CN 202011477681A CN 112289372 B CN112289372 B CN 112289372B
Authority
CN
China
Prior art keywords
protein
neural network
network model
geometric
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011477681.2A
Other languages
English (en)
Other versions
CN112289372A (zh
Inventor
华权高
舒芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cusabio Biotech Co ltd
Original Assignee
Cusabio Biotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cusabio Biotech Co ltd filed Critical Cusabio Biotech Co ltd
Priority to CN202011477681.2A priority Critical patent/CN112289372B/zh
Publication of CN112289372A publication Critical patent/CN112289372A/zh
Application granted granted Critical
Publication of CN112289372B publication Critical patent/CN112289372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/25Design optimisation, verification or simulation using particle-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Geometry (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及一种基于深度学习的蛋白质结构设计方法及装置,其方法包括:根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;利用训练好的几何图神经网络模型生成氨基酸序列;根据生成氨基酸序列和同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。本发明通过蛋白质数据与对应的DNA序列、mRNA序列绑定,一方面提高生成氨基酸序列的可解释性和有效性,另一方面减少蛋白质设计或验证的筛选、反复吸附、洗脱、扩增的过程,通过几何图神经网络减少了模型的计算量。

Description

一种基于深度学习的蛋白质结构设计方法及装置
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于深度学习的蛋白质结构设计方法及装置。
背景技术
蛋白质作为生命体重要组成部分,参与了生命体多数生物功能。特别是人体内重要的生理活动都是由蛋白质来完成的,蛋白质是生命活动的重要物质基础。作为生物体内分布最广,功能最复杂的一类大分子,对蛋白质的研究一直是生物学的重要组成部分。
蛋白质的分子结构包括四级,其中氨基酸序列的排列顺序称为蛋白质的一级结构(primary structure);蛋白质的多肽链中有依靠氧基之间的氢键来调节的、规则的并且具有周期性的稳定结构,称为蛋白质的二级结构(secondrystructure);在二级结构的基础上,蛋白质中的多肽链通过在三维空间的排列进一步形成了更复杂的三级结构(tertiarystructure);具有三级结构的多肽链之间互相作用,按一定的排列方式进行空间排列并结合在一起形成具有功能的蛋白质聚集体称为蛋白质的四级结构(quaterntystructure)。
研究发现,尽管蛋白质的一级结构千变万化,即一条多肽链中的氨基酸排列组合种类非常多,但是其二级结构的种类却是有限的,主要包括有α-螺旋(α-helix)、β-折叠(β-sheet)、β-转角(β-turn)和无规卷曲(random coil),其中α螺旋和β折叠这两个蛋白质二级结构仅依赖于主链骨架,即所有氨基酸的共同部分,所以这两个蛋白质的二级结构会频繁地出现于大多数的蛋白质结构中。蛋白质的氨基酸序列决定了它的二级结构,二级结构又决定了它的空间结构,蛋白质的空间结构又决定了它生理功能的多样性。可见,序列、结构和功能之间的关系密不可分。
而二级结构就是通过蛋白质的氨基酸序列来研究其空间结构的重要过渡。蛋白质的二级结构预测是指,给定蛋白质的氨基酸序列,将序列映射为其对应的二级结构,判断每个氨基酸分别处于哪一种二级结构的状态。蛋白质二级结构的预测对于正确预测蛋白质的空间结构具有非常重要的意义,同时也有利于了解蛋白质的功能及其作用机制。理论上,序列与结构之间的关系应该可以通过某种数学方法表示出来,一旦确定这种关系,就可以预测蛋白质的二级结构。所以,目前对于蛋白质结构的研究中,蛋白质二级结构预测的研究有很多,并且一些预测的算法模型己经取得了很高的精确率。
上述这些预测方法是一种判断行为,反过来,如果有模型可以做到根据需要的结构来设计氨基酸序列,即蛋白质二级结构序列的生成,这将是一种新的蛋白质结构研究的思路,同时也会有比预测更大的理论意义与实际意义。
另外,一些利用自然语言处理(NLP)模型将氨基酸序列视为文本,而基本氨基酸的词库(即氨基酸库)只有20个,这样使得利用NLP模型会生成重复率很高的氨基酸序列。
吉林大学在ICLR2020的一篇论文“Geom-Gcn:Geometric Graph ConvolutionalNetworks”,该研究针对MPNN现存的一些问题提出了一种新的图神经网络的几何聚合方式,该方法分别在欧几里得(Euclidean)和双曲嵌入(hyperbolic embedded)空间中设计具有特定几何关系的结构邻域。针对具体应用,使用不同的embedding方法将graph映射到合适的latent space之中,并保留了合适的graph topology模型,简单而少量的层级图模型在图像处理、NLP等相关的数据集上达到了较好的性能。
发明内容
本发明为解决基于模型的现有蛋白质设计中生成的氨基酸序列重复度高、有效性低、可解释性差的问题,在本发明的第一方面提供了基于深度学习的蛋白质结构设计方法,包括如下步骤:根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;利用训练好的几何图神经网络模型生成氨基酸序列;根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
在本发明的一个可能的实施方式中,所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列。
进一步的,所述第一几何图神经网络模型通过以下方法进行训练:
根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;
将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;
将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量;
将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型。
更进一步的,所述将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量包括如下步骤:根据Damerau–莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量。
在本发明的一个可能的实施方式中,所述第二几何图神经网络模型通过以下方法进行训练:将表征蛋白质分子晶体结构的形态学图像融合,构成第二多维向量;将第二多维向量作为第二几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第二几何图神经网络模型。
在本发明的一个可能的实施方式中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
在本发明的第二方面,提供了一种基于深度学习的蛋白质结构设计装置,包括确定模块、输入模块、生成模块、构建模块、优化模块,所述确定模块,用于根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;所述输入模块,用于将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;所述生成模块,用于利用训练好的几何图神经网络模型生成氨基酸序列;所述构建模块,用于根据生成氨基酸序列和同源蛋白质构建蛋白质骨架模型;所述优化模块,用于根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
进一步的,所述生成模块包括第一生成模块、第二生成模块,所述第一生成模块,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二生成模块,用于根据分子晶体结构信息生成氨基酸序列。
在本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面所述的方法。
在本发明的第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面所述的方法。
有益效果:
1.本发明通过蛋白质数据与对应的DNA序列、mRNA序列绑定,一方面提高由模型生成氨基酸序列的可解释性和有效性,另一方面减少蛋白质设计或验证的筛选、反复吸附、洗脱、扩增的过程;
2.由于几何图神经网络基于多层级和层级之间存在多重关系的数据结构,相较于卷积神经网络、循环神经网络与蛋白质的数据结构更加匹配,同时减少了模型的网络层数,进而一定程度上减少了计算量;
3.通过蛋白质组学和分子动力学对蛋白质模型,进一步提高了模型的有效性;
4.适用于多种场景,既可用于实验或教学的验证,也可用于探索或预测未知蛋白质结构。
附图说明
图1为本发明的一些实施例中的基于深度学习的蛋白质结构设计方法的基本流程图;
图2为蛋白质的PDB数据结构示意图;
图3为本发明的一些实施例中的基于深度学习的蛋白质结构设计装置的结构示意图;
图4为本发明的电子设备的基本结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
参考图1,在本发明的第一方面提供了基于深度学习的蛋白质结构设计方法,包括如下步骤:S101.根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;S102.将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;S103.利用训练好的几何图神经网络模型(GGCN,Geometric Graph Convolutional Networks)生成氨基酸序列;S104.根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;S105.根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
为提高模型的处理速度,根据输入的不同,在本发明的一些实施方式中,所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列。
参考图2,在本发明的一些实施例中的步骤S103中,所述第一几何图神经网络模型通过以下方法进行训练:根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量;将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型。
示例性地,蛋白质数据库有:UniProtKB、PDB、Pfam、CATH、SCOP2、KEGG、OMIM,其中UniProtKB、PDB为一级蛋白质数据库,Pfam、CATH为二级蛋白质数据库,KEGG属于一个专用数据库,关于基因、蛋白质、生化反应以及通路的综合生物信息数据库,OMIM为专用数据库,提供遗传疾病及相关基因位点的信息。本发明采用的数据集包括但不限于以上数据库。
可以理解,中心法则揭示了DNA、RNA、蛋白质三者之间的遗传信息的流向和转换关系,即:1.从DNA流向DNA(DNA自我复制);2.从DNA流向RNA,进而流向蛋白质(转录和翻译);3.从RNA流向RNA(RNA自我复制);4.从RNA流向DNA(逆转录)。
更进一步的,所述将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量包括如下步骤:根据Damerau–莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量。
其中,残基,即为氨基酸序列的连续片段,可以由n(n>1)个氨基酸组成。n=1时称为一肽,n=2时称为二肽,以此类推;示例性地,同样的,可以统计蛋白质中任意两种氨基酸连续出现的频数,形成一个20x20维矩阵,即为该蛋白质的二肽频数。比如蛋白质S的二肽频数(ET)可以表示为:
Figure 156780DEST_PATH_IMAGE001
物化属性包括氨基酸有疏水性指数和亲水性指数两个物化属性。特异位置得分矩阵(简称PSSM),是一种基于蛋白质进化信息的打分矩阵,表示20种氨基酸在蛋白质中特定位置出现的概率。
需要说明的是,将上述氨基酸序列或基因序列是将序列中的每一编码视为字符串,利用字符串的编辑距离度量即可度量序列的差异性。例如Damerau–莱文斯坦距离(Damerau–Levenshtein distance)允许插入、删除、替换和交换两个相邻字符;最长公共子序列(longest common subsequence)只允许插入和删除操作;汉明距离(Hammingdistance)只允许替换操作,因此本发明采用Damerau–莱文斯坦距离作为度量,对数据集进行聚类。而聚类常见方法有K-means、KNN、SVM等,优选K-means进行聚类。embedding、PCA(Principal Component Analysis,主成分分析)过程仅改变多维向量的表现形式不改变特征,在某些应用场景下其顺序可以相互调换。
在本发明的一个可能的实施方式中,所述第二几何图神经网络模型通过以下方法进行训练:将表征蛋白质分子晶体结构的形态学图像融合,构成第二多维向量;将第二多维向量作为第二几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第二几何图神经网络模型。
可以理解,上述形态学图像包括通过普通光镜、特殊光镜、电镜等装置下获得的表征蛋白质晶体结构的图像,其中,特殊光镜包括荧光显微镜、相差显微镜、暗视野显微镜;激光扫描共聚焦显微镜等;电镜包括透射电镜、扫描电镜、冷冻电镜等。
在上述可能的实施方式中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。其中低聚合层的输入为上述实施例中的第一多维特征向量或第二特征向量。
在一些实施例的步骤S104或S105中,根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;根据蛋白质组学和分子动力学优化所述蛋白质骨架模型包括如下步骤:使用未知序列作为查询来搜索已知蛋白质结构;产生未知序列和模版序列最可能的完整比对;以模版结构骨架作为模型,建立蛋白质骨架模型;在靶序列或者模版序列的有空位区域,使用环建模过程代替合适长度的片段;给骨架模型加上侧链;优化侧链的位置;使用能量最小和已知的优化知识来优化结构。
参考图3,在本发明的第二方面,提供了一种基于深度学习的蛋白质结构设计装置1,包括确定模块11、输入模块12、生成模块13、构建模块14、优化模块15,所述确定模块11,用于根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;所述输入模块12,用于将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;所述生成模块13,用于利用训练好的几何图神经网络模型生成氨基酸序列;所述构建模块14,用于根据生成氨基酸序列和同源蛋白质构建蛋白质骨架模型;所述优化模块15,用于根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
进一步的,所述生成模块13包括第一生成模块、第二生成模块,所述第一生成模块,用于根据靶向蛋白质的基因序列生成氨基酸序列;所述第二生成模块,用于根据分子晶体结构信息生成氨基酸序列。
参考图4,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的蛋白质结构设计方法,其特征在于,包括如下步骤:
根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;
将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;
利用训练好的几何图神经网络模型生成氨基酸序列;所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;且所述第一几何图神经网络模型通过以下方法进行训练:根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量:根据Damerau–莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量;将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列;
根据所述生成的氨基酸序列及其同源蛋白质构建蛋白质骨架模型;
根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
2.根据权利要求1所述的基于深度学习的蛋白质结构设计方法,其特征在于,所述第二几何图神经网络模型通过以下方法进行训练:
将表征蛋白质分子晶体结构的形态学图像融合,构成第二多维向量;
将第二多维向量作为第二几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第二几何图神经网络模型。
3.根据权利要求1所述的基于深度学习的蛋白质结构设计方法,其特征在于,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,
所述低聚合层用于聚合节点在一种关系下的邻居信息;
所述高聚合层用于聚合所述低聚合层的邻居信息;
所述非线性变换 层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。
4.一种基于深度学习的蛋白质结构设计装置,其特征在于,包括确定模块、输入模块、生成模块、构建模块、优化模块,
所述确定模块,用于根据生物标志物确定靶向蛋白质的基因序列或分子晶体结构信息;
所述输入模块,用于将靶向蛋白质的基因序列或分子晶体结构信息输入到几何图神经网络模型中;
所述生成模块,用于利用训练好的几何图神经网络模型生成氨基酸序列;所述几何图神经网络模型包括第一几何图神经网络模型、第二几何图神经网络模型,所述第一几何图神经网络模型,用于根据靶向蛋白质的基因序列生成氨基酸序列;且所述第一几何图神经网络模型通过以下方法进行训练:根据中心法则建立DNA-mRNA-蛋白质相互对应的第一数据集;将所述第一数据集和天然蛋白质数据库合并去重得到第二数据集;将所述第二数据集中的蛋白质数据进行聚类、归一化,然后经过PCA降维得到第一多维向量:根据Damerau–莱文斯坦距离将所述第二数据集的样本中的基因序列、氨基酸序列进行聚类,然后按照蛋白质的残基统计信息、物化属性、进化信息进行特征提取、embedding、PCA降维得到第一多维向量;将第一多维向量作为第一几何图神经网络模型的输入,直至误差低于阈值且趋于稳定时停止训练,得到所述训练好的第一几何图神经网络模型;所述第二几何图神经网络模型,用于根据分子晶体结构信息生成氨基酸序列;
所述构建模块,用于根据生成氨基酸序列和同源蛋白质构建蛋白质骨架模型;
所述优化模块,用于根据蛋白质组学和分子动力学优化所述蛋白质骨架模型。
5.根据权利要求4所述的基于深度学习的蛋白质结构设计装置,其特征在于,所述生成模块包括第一生成模块、第二生成模块,
所述第一生成模块,用于根据靶向蛋白质的基因序列生成氨基酸序列;
所述第二生成模块,用于根据分子晶体结构信息生成氨基酸序列。
6.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN202011477681.2A 2020-12-15 2020-12-15 一种基于深度学习的蛋白质结构设计方法及装置 Active CN112289372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011477681.2A CN112289372B (zh) 2020-12-15 2020-12-15 一种基于深度学习的蛋白质结构设计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011477681.2A CN112289372B (zh) 2020-12-15 2020-12-15 一种基于深度学习的蛋白质结构设计方法及装置

Publications (2)

Publication Number Publication Date
CN112289372A CN112289372A (zh) 2021-01-29
CN112289372B true CN112289372B (zh) 2022-04-22

Family

ID=74426925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011477681.2A Active CN112289372B (zh) 2020-12-15 2020-12-15 一种基于深度学习的蛋白质结构设计方法及装置

Country Status (1)

Country Link
CN (1) CN112289372B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241128B (zh) * 2021-04-29 2022-05-13 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113255770B (zh) * 2021-05-26 2023-10-27 北京百度网讯科技有限公司 化合物属性预测模型训练方法和化合物属性预测方法
CN114049922B (zh) * 2021-11-09 2022-06-03 四川大学 基于小规模数据集和生成模型的分子设计方法
CN114927168B (zh) * 2022-05-31 2023-08-29 四川大学 一种生物力学调控骨改建文本挖掘交互网站构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102617726A (zh) * 2012-03-31 2012-08-01 广州医学院第二附属医院 一种重组马过敏原与突变体及其制备方法和应用
CN103703022A (zh) * 2011-04-18 2014-04-02 庆北大学校产学协力团 使活性多肽的结合亲和力和结合特异性增强的蛋白质骨架模块
CN110767266A (zh) * 2019-11-04 2020-02-07 山东省计算中心(国家超级计算济南中心) 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103703022A (zh) * 2011-04-18 2014-04-02 庆北大学校产学协力团 使活性多肽的结合亲和力和结合特异性增强的蛋白质骨架模块
CN102617726A (zh) * 2012-03-31 2012-08-01 广州医学院第二附属医院 一种重组马过敏原与突变体及其制备方法和应用
CN110767266A (zh) * 2019-11-04 2020-02-07 山东省计算中心(国家超级计算济南中心) 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Geom-GCN: Geometric Graph Convolutional Networks;Hongbin Pei等;《arXiv》;20200212;第1-14页 *

Also Published As

Publication number Publication date
CN112289372A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289372B (zh) 一种基于深度学习的蛋白质结构设计方法及装置
Xu et al. Deep learning for molecular generation
CN111755078B (zh) 药物分子属性确定方法、装置及存储介质
Piri et al. Feature selection using artificial gorilla troop optimization for biomedical data: A case analysis with COVID-19 data
Wang et al. Predicting protein–peptide binding residues via interpretable deep learning
Deb et al. Surrogate modeling approaches for multiobjective optimization: methods, taxonomy, and results
Yan et al. The rise of machine learning in polymer discovery
CN115104105A (zh) 用于图到序列模型方法的对抗性自动编码器架构
Mao et al. AmoebaContact and GDFold as a pipeline for rapid de novo protein structure prediction
CN114283878B (zh) 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
Bohnsack et al. Alignment-free sequence comparison: A systematic survey from a machine learning perspective
Görmez et al. IGPRED: Combination of convolutional neural and graph convolutional networks for protein secondary structure prediction
WO2024086143A1 (en) Native expansion of a sparse training dataset into a dense training dataset for supervised training of a synonymous variant sequence generator
Dong et al. A multi-objective multi-label feature selection algorithm based on shapley value
Stewart et al. Optimising hardware accelerated neural networks with quantisation and a knowledge distillation evolutionary algorithm
Lee et al. Deep single-cell RNA-seq data clustering with graph prototypical contrastive learning
Alam et al. Deep learning in LncRNAome: contribution, challenges, and perspectives
Han et al. Computational prediction of protein intrinsically disordered region related interactions and functions
Nambiar et al. Transformer neural networks for protein family and interaction prediction tasks
US20230420070A1 (en) Protein Structure Prediction
WO2022245737A1 (en) Function guided in silico protein design
Lall et al. A copula based topology preserving graph convolution network for clustering of single-cell RNA-seq data
Green et al. PCI-SS: MISO dynamic nonlinear protein secondary structure prediction
Mohanty et al. A Review on Planted (l, d) Motif Discovery Algorithms for Medical Diagnose
US20240136020A1 (en) Rna-protein interaction prediction method and apparatus, and medium and electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant