CN116153435B - 基于上色与三维结构的多肽预测方法及系统 - Google Patents

基于上色与三维结构的多肽预测方法及系统 Download PDF

Info

Publication number
CN116153435B
CN116153435B CN202310429545.3A CN202310429545A CN116153435B CN 116153435 B CN116153435 B CN 116153435B CN 202310429545 A CN202310429545 A CN 202310429545A CN 116153435 B CN116153435 B CN 116153435B
Authority
CN
China
Prior art keywords
polypeptide
dimensional
coloring
amino acid
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310429545.3A
Other languages
English (en)
Other versions
CN116153435A (zh
Inventor
王悦
李延青
龚海帆
李理想
李晓娟
左秀丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu Hospital of Shandong University
Original Assignee
Qilu Hospital of Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu Hospital of Shandong University filed Critical Qilu Hospital of Shandong University
Priority to CN202310429545.3A priority Critical patent/CN116153435B/zh
Publication of CN116153435A publication Critical patent/CN116153435A/zh
Application granted granted Critical
Publication of CN116153435B publication Critical patent/CN116153435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种基于上色与三维结构的多肽预测方法及系统,其属于计算机辅助药物研发技术领域,所述方案包括:获取待预测的多肽数据;对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。

Description

基于上色与三维结构的多肽预测方法及系统
技术领域
本发明属于计算机辅助药物研发技术领域,尤其涉及一种基于上色与三维结构的多肽预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
多肽(Polypeptide)是一组通过肽键相连而成的氨基酸序列,可以被广泛用于心血管疾病、细胞因子模拟以及抗菌等诸多领域。然而,自然界中现存的多肽存在数量较为有限、功能较为单一等特点。因此,设计并人工合成的多肽也受到了越来越广泛的关注。为了合成具有特定功能的多肽序列,目前主要存在以下两类方法:第一类是基于物理和化学方法的数值模拟与计算,这类方法往往计算量大且效率较低,准确率也不够理想,因此难以用于大规模的多肽工程;第二类方法是基于机器学习的方法,这类方法通过从海量的带有功能标注的数据集中进行学习,从而实现快速的多肽功能预测,但是这类基于机器学习的方法,其预测的表现高度依赖于数据特征的选取与处理(即特征工程),以及特征学习方法,如果构建的特征不够合适,则会严重影响模型对于多肽功能的预测性能。
近年来,随着机器学习中深度学习领域的不断发展,许多研究人员通过构建图神经网络来实现氨基酸序列的表示与学习,从而实现对多肽功能的预测。具体来说,各类基于图神经网络(Graph Neural Network)的方法大多以氨基酸作为图神经网络的节点,利用氨基酸的理化特性作为节点的特征,氨基酸中alpha碳原子之间的距离作为连接氨基酸的边,但是,发明人发现,上述方法忽略了多肽序列长度往往呈现长尾分布的特点,即随着序列长度的增加,属于该长度的序列的数量在不断减少,因为图神经网络的邻接矩阵的维度是和最大氨基酸数量一致的,因此,会带来图神经网络的邻接矩阵过于稀疏的问题;除此之外,由于多肽序列之间的氨基酸往往是前后相连的,其大多依靠单一的路径进行特征变换,导致距离过远的氨基酸特征往往难以互相传递。因此,现在亟需一种更加合理的多肽序列表示与学习方法,克服上述负面影响,实现对多肽功能更加准确的预测。
发明内容
本发明为了解决上述问题,提供了一种基于上色与三维结构的多肽预测方法及系统,有效提高了多肽预测的效率和精度。
根据本发明实施例的第一个方面,提供了一种基于上色与三维结构的多肽预测方法,包括:
获取待预测的多肽数据;
对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;
基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
进一步的,所述将整个多肽表示为一个由若干三维体素组成的立方体结构,具体为:以多肽的重心为原点,构建三维空间坐标系以及包含整个多肽的立方体结构;以预设单位距离作为三维体素的边长,将包含整个多肽的立方体结构划分为若干三维体素。
进一步的,每个三维体素的上色基于RGB多通道成像的思想,利用三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性分别对每个通道进行赋值,获得每个三维体素颜色的多通道表示。
进一步的,对于不包含原子的三维体素,其用于颜色表示的各通道赋值为零。
进一步的,所述三维神经网络模型的训练,具体为;
获取预设数量的多肽数据样本进行训练集的构建,其中,所述多肽数据样本包括多肽序列及当前多肽序列对应的功能信息;
对每个样本进行解析,获得多肽数据的三维空间结构信息;
基于多肽数据的三维空间结构信息,采用多肽多通道上色方法获取每个样本的多肽结构特征表示;
以每个多肽数据样本的多肽结构特征表示作为三维神经网络模型的输入,每个多肽数据样本对应的功能信息作为三维神经网络模型的输出,实现对所述三维神经网络模型的训练。
进一步的,对于训练集中的每个多肽数据样本采用竖直翻转、水平翻转以及任意随机角度的旋转,进行训练集的扩展。
进一步的,所述多肽序列对应的功能信息为活性、毒性或理化性质。
进一步的,所述氨基酸的溶解度划分为亲水和疏水,对于亲水氨基酸和疏水氨基酸设置不同的取值;所述氨基酸的酸碱性划分为酸性、中性和碱性,其中,酸性氨基酸、中性氨基酸以及酸性氨基酸设置不同的取值。
进一步的,所述多肽的功能预测为活性预测、毒性预测或理化性质预测。
根据本发明实施例的第二个方面,提供了一种基于上色与三维结构的多肽预测系统,包括:
数据获取单元,其用于获取待预测的多肽数据;
解析单元,其用于对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;
特征表示单元,其用于基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
预测单元,其用于基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
与现有技术相比,本发明的有益效果是:
(1)本发明提供了一种基于上色与三维结构的多肽预测方法及系统,所述方案基于多肽多通道上色方法对多肽序列的三维空间信息进行表示,将每个多肽视为一个由若干包含三个通道颜色的三维体素(3D Voxel)组成的立方体结构,进而获得多肽结构特征表示;基于多肽结构特征表示,并结合预先训练的三维神经网络模型进行多肽功能特性的预测,本实施例中通过采用三维神经网络模型,相对于传统的图神经网络,克服了过大的邻接矩阵带来的特征稀疏,以及特征变换路径单一的特点,从而大幅度提升下游任务(即多肽功能特征的预测,包括活性、毒性以及理化性质)的预测准确率,从而实现更加精确的计算机辅助药物研发(Compute Aided Drug Design, CADD);
(2)所述方案通过多肽多通道上色方法对多肽的三维空间信息进行表示,能够获取额外的有效特征,并且缓解由于序列长度本身存在长尾分布现象所带来的深度学习模型性能衰减的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中所述的一种基于上色与三维结构的多肽预测方法实施过程示意图;
图2为本发明实施例中所述的一种基于上色与三维结构的多肽预测方法流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应当说明的是,本申请实施例中,涉及到包括多肽序列和多肽序列对应的功能特性的多肽数据,当本申请的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
实施例一:
本实施例的目的是提供一种基于上色与三维结构的多肽预测方法。
为了解决现有技术存在的问题,本实施例提供了一种基于上色与三维结构的多肽预测方法,所述方法的主要技术构思为:提出一种多肽多通道上色方法,并将所述上色方法应用于多肽序列的表示过程中,所述多肽多通道上色方法将每个多肽视为一个由若干包含三个通道的三维体素(3D Voxel)组成的立方体结构,其中,对于不包含原子区域的三维体素,其对应三个通道的值设置为0,对于包含原子区域结构的三维体素,根据原子自身属性进行三维体素三个通道的赋值,进而获得多肽结构特征表示;基于多肽结构特征表示,利用预先训练的三维神经网络模型进行多肽功能特性的预测,本实施例中通过采用三维神经网络模型,相对于传统的图神经网络,克服了过大的邻接矩阵带来的特征稀疏,以及特征变换路径单一的特点,从而大幅度提升下游任务(即多肽功能特征的预测,包括活性、毒性以及理化性质)的预测准确率,从而实现更加精确的计算机辅助药物研发(Compute Aided DrugDesign, CADD)。
具体的,如图1和图2所示,一种基于上色与三维结构的多肽预测方法,具体包括如下步骤:
步骤1:获取待预测的多肽数据;其中,所述多肽数据为多肽序列,所述多肽序列由若干氨基酸组成,多肽需要预测的下游任务可以为:多肽活性、多肽毒性以及多肽的理化性质预测;基于多肽活性、毒性以及理化性质的预测结果,可以实现更加精确的计算机辅助药物的研发。
步骤2:对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;其中,多肽的结构解析可以采用Alphafold2模型进行预测,通过该模型可以预测得到多肽的三维空间结构信息,对于获得的三维空间结构信息,本实施例中采用PDB(protein data bank)文件格式进行存储。
步骤3:基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
具体的,所述多肽多通道上色方法基于多肽中各个原子的三维空间坐标与范德华半径,以及原子的质量、氨基酸的溶解度、氨基酸的酸碱性这些已知信息,实现多通道的多肽结构上色,具体包括如下过程:
本实施例中利用多肽序列各个原子的空间结构,来确定多肽所占据的空间位置,具体的:以多肽的重心为原点,构建(包括x轴、y轴、与z轴)三维空间坐标系,并构建包含整个多肽的立方体结构;其中,本实施例中采用的三维空间坐标系为三维笛卡尔坐标系,每个坐标轴的单位距离设置为1埃(埃为公制长度单位,1埃等于0.1纳米);
以预设单位距离(本实施例设置为1埃)作为三维体素的边长,将包含整个多肽的立方体结构划分为若干三维体素;
在一个或多个实施例中,所述立方体区域还可以仅覆盖整个多肽的一部分,例如:假定只考虑各个坐标轴正负方向上距离在L埃范围内的原子,整个立方体区域应表示为一个长、宽、高均为L*2埃的立方体,其中,L可以是任何正整数,为了便于后续的特征提取,通常设置为8的倍数。每个原子根据其以埃为单位取整后的范德华半径(各个原子取整信息如下:'H'(氢): 1, 'C'(碳): 1.5, 'N'(氮): 1.5, 'O'(氧): 1.5, 'S'(硫): 2),作为其在该立方体中占据的空间位置,基于每个原子的范德华半径,可以有效明确原子被包含在哪些体素中。
在具体的实施方式中,每个三维体素的上色基于RGB多通道成像的思想,利用三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性分别对每个通道进行赋值,获得每个三维体素颜色的多通道表示。其中,对于不包含原子的三维体素,其颜色表示的各通道赋值为零。具体的:
多肽上色分别将原子自身属性(即三维体素所属原子的质量)、原子构成的氨基酸的溶解度以及原子构成的氨基酸的酸碱性视为三个不同的通道,对于每个三维体素,根据三维体素中涉及的原子分别进行颜色填充。在原子自身属性通道中,本实施例将原子的质量取整后直接作为三维体素颜色第一通道的值进行填充;对于氨基酸溶解度以及氨基酸酸碱性对应的通道,我们认为多个原子的空间位置可以代表一个氨基酸的位置,因此,本实施例中将不同氨基酸的溶解度分为疏水氨基酸和亲水氨基酸,考虑到每个三维体素各通道的取值范围为0至255,为了便于区分上述两类氨基酸,同时考虑到背景(即不包含任何原子的三维空间区域)的取值为0,本实施例将疏水氨基酸赋值为128,将亲水氨基酸的各个原子赋值为255,进而根据三维体素中原子构成的氨基酸溶解度分类进行三维体素颜色第二通道的赋值。类似的,对于氨基酸酸碱度,本实施例中将其划分为酸性、中性和碱性,并依次赋值为86,168及255,进而根据三维体素中原子构成的氨基酸酸碱度分类进行三维体素颜色第三通道的赋值。
步骤4:基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
在一个或多个实施例中,本实施例所述方案中采用的三维神经网络模型可以为三维的卷积神经网络,如三维残差卷积神经网络(3D Residual Convolution NeuralNetwork,3D Res-Conv Net),V型神经网络(V-Net);也可以为三维的基于变换器(Transformer)的神经网络,如三维窗口偏移网络(3D-Shift window network,3D-SwinNet);可以理解的,所述三维神经网络模型也可以是其它的任意结构的三维神经网络模型。
在具体的实施方式中,所述三维神经网络模型的训练,具体为;
获取预设数量的多肽数据样本进行训练集的构建,并选择部分多肽数据样本作为测试集,其中,所述多肽数据样本包括多肽序列及当前多肽序列对应的功能信息(例如活性、毒性或理化性质);所述多肽数据可以从现有的多肽数据库中进行获取;
对每个样本进行解析,获得多肽数据的三维空间结构信息;其中,有些数据库中的多肽数据提供已经解析处结构的多肽,可直接下载其PDB(protein data bank)文件;对于尚未解析出结构的多肽,可利用Alphafold2模型,预测各个多肽的三维空间结构,并以PDB文件的形式进行存储。
基于多肽数据的三维空间结构信息,采用多肽多通道上色方法获取每个样本的多肽结构特征表示;
以每个多肽数据样本的多肽结构特征表示作为三维神经网络模型的输入,每个多肽数据样本对应的功能信息作为三维神经网络模型的输出,实现对所述三维神经网络模型的训练,并通过测试集中的样本对训练后的模型进行检验,获得符合预设要求的训练好三维神经网络模型。
在一个或多个实施方式中,所述三维神经网络模型的训练基于本实施例所述方案具体的应用场景(即下游任务)进行实施,所述应用场景包括活性预测、毒性预测或理化性质预测,其中,对于活性预测,则需要构建的训练集中的多肽数据样本需要包括多肽序列以及该序列对应的活性信息;
同理,对于毒性预测,则需要构建的训练集中的多肽数据样本需要包括多肽序列以及该序列对应的毒性信息;
同理,对于理化性质预测,则需要构建的训练集中的多肽数据样本需要包括多肽序列以及该序列对应的理化性质信息。
在具体的实施方式中,在所述三维神经网络模型的训练中,基于具体的应用场景,选择不同的损失函数,例如:若为分类任务(例如判断是否具有活性或是否具有毒性),选择交叉熵损失函数进行模型训练;若为回归任务,则使用均方误差损失函数进行训练。
在具体的实施方式中,为了保证训练样本足够充分,通过对于训练集中的每个多肽数据样本采用竖直翻转、水平翻转以及任意随机角度的旋转,进行训练集的扩展。
为了证明本实施例所述方案的有效性,本实施例进行了具体的实验验证:
表1 对比结果
以多肽的机制预测为例,本实施例选取了1200个多肽样本与三种机制(包括磷脂层的破坏机制、DNA/RNA的破坏机制以及跨膜蛋白的机制,分别对应于类别1、类别2、类别3),对这三种机制通过不同方法(GNN(Graph Neural Networks)以及本发明所述方案的两种不同实施方案)进行分类,并以分类的F1-score(即F1分数)作为评价指标,各个多肽的预测结果如表1所示。
如表1所示,各个方法的第一行为五次交叉验证的平均值,第二行为五次交叉验证的标准差。其中:
GNN(Graph Neural Networks)代表以氨基酸作为图神经网络的节点,利用氨基酸的理化特性作为节点的特征,氨基酸中alpha碳原子之间的距离作为连接氨基酸的边的方法。本发明尝试了不同的图神经网络,如图卷积神经网络,图偏置归纳网络,图注意力网络,图同构神经网络,最终选取了表现最好的图同构神经网络作为上表中的结果。
CNN(Convolutional Neural Network)代表本实施例中提出的基于上色与三维结构的多肽预测方法所使用的三维神经网络模型。“SC”代表仅使用原子质量作为单一通道的表示方法;“MC”代表考虑额外氨基酸的溶解度和酸碱度的表示方法。结合表1可以发现,本发明所述方案仅仅使用最基础的三维残差图卷积神经网络,即显著的超过了之前最优秀的基于图神经网络的方法,并且多通道的表示,能够进一步大幅提高预测的性能。
实施例二:
本实施例的目的是提供一种基于上色与三维结构的多肽预测系统。
一种基于上色与三维结构的多肽预测系统,包括:
数据获取单元,其用于获取待预测的多肽数据;
解析单元,其用于对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;
特征表示单元,其用于基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
预测单元,其用于基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
进一步的,本实施例所述系统与实施例一中所述方法相对应,其技术细节在实施例一中已经进行了详细说明,故此处不再赘述。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
上述实施例提供的一种基于上色与三维结构的多肽预测方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于上色与三维结构的多肽预测方法,其特征在于,包括:
获取待预测的多肽数据;
对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;
基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
2.如权利要求1所述的一种基于上色与三维结构的多肽预测方法,其特征在于,所述将整个多肽表示为一个由若干三维体素组成的立方体结构,具体为:以多肽的重心为原点,构建三维空间坐标系以及包含整个多肽的立方体结构;以预设单位距离作为三维体素的边长,将包含整个多肽的立方体结构划分为若干三维体素。
3.如权利要求1所述的一种基于上色与三维结构的多肽预测方法,其特征在于,每个三维体素的上色基于RGB多通道成像的思想,利用三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性分别对每个通道进行赋值,获得每个三维体素颜色的多通道表示。
4.如权利要求3所述的一种基于上色与三维结构的多肽预测方法,其特征在于,对于不包含原子的三维体素,其颜色表示的各通道赋值为零。
5.如权利要求1所述的一种基于上色与三维结构的多肽预测方法,其特征在于,所述三维神经网络模型的训练,具体为;
获取预设数量的多肽数据样本进行训练集的构建,其中,所述多肽数据样本包括多肽序列及当前多肽序列对应的功能信息;
对每个样本进行解析,获得多肽数据的三维空间结构信息;
基于多肽数据的三维空间结构信息,采用多肽多通道上色方法获取每个样本的多肽结构特征表示;
以每个多肽数据样本的多肽结构特征表示作为三维神经网络模型的输入,每个多肽数据样本对应的功能信息作为三维神经网络模型的输出,实现对所述三维神经网络模型的训练。
6.如权利要求5所述的一种基于上色与三维结构的多肽预测方法,其特征在于,对于训练集中的每个多肽数据样本采用竖直翻转、水平翻转以及任意随机角度的旋转,进行训练集的扩展。
7.如权利要求5所述的一种基于上色与三维结构的多肽预测方法,其特征在于,所述多肽序列对应的功能信息为活性、毒性或理化性质。
8.如权利要求1所述的一种基于上色与三维结构的多肽预测方法,其特征在于,所述氨基酸的溶解度划分为亲水和疏水,对于亲水氨基酸和疏水氨基酸设置不同的取值;所述氨基酸的酸碱性划分为酸性、中性和碱性,其中,酸性氨基酸、中性氨基酸以及酸性氨基酸设置不同的取值。
9.如权利要求1所述的一种基于上色与三维结构的多肽预测方法,其特征在于,所述多肽的功能预测为活性预测、毒性预测或理化性质预测。
10.一种基于上色与三维结构的多肽预测系统,其特征在于,包括:
数据获取单元,其用于获取待预测的多肽数据;
解析单元,其用于对获得的多肽数据进行结构解析,获得多肽的三维空间结构信息;
特征表示单元,其用于基于多肽的三维空间结构信息,采用多肽多通道上色方法获得多肽结构特征表示;其中,所述多肽多通道上色方法具体为:将整个多肽表示为一个由若干三维体素组成的立方体结构,每个三维体素的颜色由三维体素所属原子的质量、原子所属氨基酸的溶解度以及原子所属氨基酸的酸碱性三个通道的值进行确定;
预测单元,其用于基于获得的多肽结构特征表示以及预先训练的三维神经网络模型,获得多肽的功能预测结果。
CN202310429545.3A 2023-04-21 2023-04-21 基于上色与三维结构的多肽预测方法及系统 Active CN116153435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310429545.3A CN116153435B (zh) 2023-04-21 2023-04-21 基于上色与三维结构的多肽预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310429545.3A CN116153435B (zh) 2023-04-21 2023-04-21 基于上色与三维结构的多肽预测方法及系统

Publications (2)

Publication Number Publication Date
CN116153435A CN116153435A (zh) 2023-05-23
CN116153435B true CN116153435B (zh) 2023-08-11

Family

ID=86339256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310429545.3A Active CN116153435B (zh) 2023-04-21 2023-04-21 基于上色与三维结构的多肽预测方法及系统

Country Status (1)

Country Link
CN (1) CN116153435B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101647022A (zh) * 2007-01-31 2010-02-10 桑迪亚医药技术(上海)有限责任公司 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
CN111627494A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 基于多维特征的蛋白质性质预测方法、装置和计算设备
CN112001218A (zh) * 2020-06-19 2020-11-27 中国科学院计算技术研究所 一种基于卷积神经网络的三维颗粒类别检测方法及系统
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN114283878A (zh) * 2021-08-27 2022-04-05 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
WO2022221587A1 (en) * 2021-04-15 2022-10-20 Illumina, Inc. Artificial intelligence-based analysis of protein three-dimensional (3d) structures
CN115331728A (zh) * 2022-08-12 2022-11-11 杭州力文所生物科技有限公司 一种稳定折叠的富含二硫键的多肽设计方法及其电子设备
CN115410644A (zh) * 2022-08-12 2022-11-29 苏州浪潮智能科技有限公司 一种蛋白质相互作用的预测方法、系统、设备以及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183473A1 (en) * 2017-11-08 2021-06-17 Stc.Unm. System and methods for graphic encoding of macromolecules for efficient high-throughput analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101647022A (zh) * 2007-01-31 2010-02-10 桑迪亚医药技术(上海)有限责任公司 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
CN111627494A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 基于多维特征的蛋白质性质预测方法、装置和计算设备
CN112001218A (zh) * 2020-06-19 2020-11-27 中国科学院计算技术研究所 一种基于卷积神经网络的三维颗粒类别检测方法及系统
WO2022221587A1 (en) * 2021-04-15 2022-10-20 Illumina, Inc. Artificial intelligence-based analysis of protein three-dimensional (3d) structures
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN114283878A (zh) * 2021-08-27 2022-04-05 腾讯科技(深圳)有限公司 训练匹配模型、预测氨基酸序列和设计药物的方法与装置
CN115331728A (zh) * 2022-08-12 2022-11-11 杭州力文所生物科技有限公司 一种稳定折叠的富含二硫键的多肽设计方法及其电子设备
CN115410644A (zh) * 2022-08-12 2022-11-29 苏州浪潮智能科技有限公司 一种蛋白质相互作用的预测方法、系统、设备以及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yosi Shibberu ; Allen Holder.A Spectral Approach to Protein Structure Alignment.《 IEEE/ACM Transactions on Computational Biology and Bioinformatics》.2011,第867-875页. *

Also Published As

Publication number Publication date
CN116153435A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
US6868420B2 (en) Method for traversing quadtrees, octrees, and N-dimensional bi-trees
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
US8773422B1 (en) System, method, and computer program product for grouping linearly ordered primitives
Greß et al. GPU‐based collision detection for deformable parameterized surfaces
CN105718996B (zh) 细胞阵列计算系统以及其中的通信方法
TWI767233B (zh) 用於使用基於機器學習的編碼在電子電路佈局中的圖案分類之方法、非暫時性電腦可讀媒體、及系統
CN106709503A (zh) 一种基于密度的大型空间数据聚类算法k‑dbscan
CN111047682A (zh) 一种三维车道模型生成方法及系统
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN103871086B (zh) 基于fpga构建的分层次栅格转矢量处理方法
CN116153435B (zh) 基于上色与三维结构的多肽预测方法及系统
CN112528428B (zh) 对工程结构的物理参数展示的方法、装置和计算机设备
CN116206690B (zh) 一种抗菌肽生成和识别方法及系统
CN102254093B (zh) 基于泰森多边形的连通域统计相关算法
CN113257352A (zh) 一种基因测序数据排序方法、集成电路及排序设备
CN117292750A (zh) 细胞类型占比的预测方法、装置、设备及存储介质
CN107894992A (zh) 一种gis点缓冲区分析方法及系统
CN114882247A (zh) 图像的处理方法、装置和电子设备
Hu et al. Voronoi cells of non-general position spheres using the GPU
CN113989671A (zh) 基于语义感知与动态图卷积的遥感场景分类方法及系统
CN114496068A (zh) 蛋白质二级结构预测方法、装置、设备及存储介质
CN111210870A (zh) 蛋白质分类方法
CN117132738B (zh) 一种球面离散格网多尺度等距模式量化方法和系统
CN116227585B (zh) 集群任务的并行执行方法、装置、计算机设备和存储介质
Erbes Efficient parallel proximity queries and an application to highly complex motion planning problems with many narrow passages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant