CN116884473B - 一种蛋白质功能预测模型生成方法及装置 - Google Patents

一种蛋白质功能预测模型生成方法及装置 Download PDF

Info

Publication number
CN116884473B
CN116884473B CN202310581243.8A CN202310581243A CN116884473B CN 116884473 B CN116884473 B CN 116884473B CN 202310581243 A CN202310581243 A CN 202310581243A CN 116884473 B CN116884473 B CN 116884473B
Authority
CN
China
Prior art keywords
protein
amino acid
dimensional
feature matrix
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310581243.8A
Other languages
English (en)
Other versions
CN116884473A (zh
Inventor
李君一
焦沛舜
王贝贝
王轩
刘博�
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202310581243.8A priority Critical patent/CN116884473B/zh
Publication of CN116884473A publication Critical patent/CN116884473A/zh
Application granted granted Critical
Publication of CN116884473B publication Critical patent/CN116884473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种蛋白质功能预测模型生成方法及装置,包括获取训练蛋白质的氨基酸三维原子坐标,并根据其进行图论方法生成蛋白质二维接触图;对训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,对蛋白质二维接触图进行算法处理获取第二特征矩阵,第一特征矩阵与训练蛋白质的氨基酸三维原子坐标中序列作用位点对应,第二特征矩阵与训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;根据第一特征矩阵和第二特征矩阵分别对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。通过将训练蛋白质的氨基酸结构和序列作为信息源提取特征,提高了预测模型对蛋白质功能的预测精度。

Description

一种蛋白质功能预测模型生成方法及装置
技术领域
本发明涉及生物信息技术领域,特别涉及一种蛋白质功能预测模型生成方法及装置。
背景技术
蛋白质作为基因表达产物与生物体内的大分子,是生命活动的主要物质基础,普遍存在于多种细胞中,提供诸如催化、细胞信号和结构支持等诸多功能,在生命活动和功能执行中起着关键作用。因此,蛋白质功能的研究可以更好的从分子水平理解生命活动,同时,蛋白质功能的预测在疾病治疗、新药研发以及农作物改良等方面也具有重要的现实意义。
目前,在预测蛋白质的功能时,通常通过DeepGOPlus模型(一种基于深度学习的生物信息学工具,用于蛋白质功能注释),不依赖蛋白质相互作用网络节点的嵌入向量,再结合Diamond序列比对工具(一种高效的比对工具,用于快速将DNA和蛋白质序列比对到大规模数据库中)捕获序列相似性信息,结合卷积神经网络(CNN)提取序列特征提高预测性能。DeepGraphGO[6]使用序列的家族和结构域信息作为节点的初始特征,然后通过图卷积网络来学习蛋白质互作网络(Protein-Protein Interaction Networks,PPI)中的结构信息,从而完成蛋白质功能的预测。
实际上,蛋白质结构决定了蛋白质功能是自然界的普遍法则,而当蛋白质通过折叠呈现一定的三维结构获得对应的功能时,即当两个蛋白质的三维结构相似而两个蛋白质的序列不同时,两个蛋白质可能具有相似的功能,因此,在对蛋白质功能进行预测时,利用蛋白质序列作为信息源提取特征的预测方法预测精度较低。
为了能提高对蛋白质功能的预测精度,有必要提出一种一种蛋白质功能预测模型生成方法及装置。
发明内容
针对现有技术的不足,本发明提供一种蛋白质功能预测模型生成方法及装置,提高对蛋白质功能的预测精度。
为了解决上述技术问题,本申请实施例第一方面提供了一种蛋白质功能预测模型生成方法,所述方法包括:
获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图;
对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应;
对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;
根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
所述的一种蛋白质功能预测模型生成方法,其中,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图,具体包括:
基于三维原子坐标计算任意两氨基酸残基相对距离,若所述相对距离小于1纳米则两氨基酸残基通过连边相连,并生成以蛋白质的氨基酸三维原子坐标展开为二维矩阵以邻接矩阵的方式存储蛋白质的蛋白质二维接触图。
所述的一种蛋白质功能预测模型生成方法,其中,对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,具体包括:
基于训练蛋白质的氨基酸三维原子坐标,根据自然语言模型获取氨基酸局部特征,再结合神经网络模型从所述氨基酸局部特征中获取单个氨基酸特征,生成第一特征矩阵。
所述的一种蛋白质功能预测模型生成方法,其中,对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,具体包括:
基于蛋白质二维接触图和训练蛋白质的氨基酸三维原子坐标,并根据图卷积和自注意力机制的层次化图池输出第二特征矩阵。
本申请实施例第二方面提供了一种蛋白质功能预测模型生成装置,所述装置包括:第一获取模块、第二获取模块、第三获取模块和模型训练模块;
所述第一获取模块,用于获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图;
所述第二获取模块,用于对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应;
所述第三获取模块,用于对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;
所述模型训练模块,用于根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
本申请实施例第三方面提供了一种计算机可读存储介质,其上储存有计算机程序,当该计算机程序被处理器执行时,实现一种蛋白质功能预测模型生成方法。
本申请实施例第四方面提供了一种数据处理设备,所述设备包括处理器及存储器:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行一种蛋白质功能预测模型生成方法。
有益效果:与现有技术相比,本发明提供了一种蛋白质功能预测模型生成方法及装置,包括获取训练蛋白质的氨基酸三维原子坐标,并根据其进行图论方法生成蛋白质二维接触图;对训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,对蛋白质二维接触图进行算法处理获取第二特征矩阵,第一特征矩阵与训练蛋白质的氨基酸三维原子坐标中序列作用位点对应,第二特征矩阵与训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;根据第一特征矩阵和第二特征矩阵分别对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。通过将训练蛋白质的氨基酸结构和序列作为信息源提取特征,提高了预测模型对蛋白质功能的预测精度。
附图说明
图1为本发明提供的一种蛋白质功能预测模型生成方法的流程示意图;
图2为本发明提供的一种蛋白质功能预测模型生成装置的结构示意图。
具体实施方式
本发明提供一种蛋白质功能预测模型生成方法及装置,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
首先,为了便于理解,先介绍本申请实施例涉及的多个技术术语。
蛋白质的功能:具体表达为蛋白质与蛋白质、蛋白质与糖类、蛋白质与脂质、蛋白质与DNA/RNA、蛋白质与金属离子(如铁离子、镁离子等)间的相互作用能力。例如,二磷酸鸟苷(Guanosine Diphosphate,GDP)是细胞生物学中的一个重要的多功能分子,它能够与蛋白质相互作用,在膜运输、细胞运动、肌肉收缩、DNA的信令、复制和转录等各种代谢过程中起着重要作用。又例如,蛋白激酶(protein kinase)与其他蛋白质分子接触,具有改变其他蛋白质分子活性的作用。
氨基酸序列:是氨基酸相互连接形成肽链(如蛋白质)或多肽的顺序。一般可以以字符串的形式存在,每个字符可以为一种氨基酸的氨基酸缩写码。氨基酸有100多种不同类型,其中20种常用于生产蛋白质。
氨基酸残基(简称为残基):组成多肽的氨基酸在相互结合时,由于其部分基团参与了肽键的形成而失去一分子水,因此把多肽中的氨基酸单位称为氨基酸残基。
作用位点:也可称为残基作用位点,是氨基酸序列中与其他生物大分子或金属离子等物质相互作用的残基,是判断蛋白质是否具有与其他物质相互作用能力,即是否具有某些功能的重要依据。相互作用位点与其他物质相互作用的能力不仅与其本身相关,还受到该相互作用位点周围残基的影响。
AlphaFold2:是由DeepMind团队开发的深度学习模型,在CASP14蛋白质结构预测竞赛中表现出色。该模型使用了深度神经网络和注意力机制来预测蛋白质的三维结构,并在多个蛋白质结构预测任务中取得了比较好的结果。AlphaFold2的预测准确率大大超过了传统的计算方法,并解决了许多具有挑战性的结构预测问题,且为本申请的蛋白质功能预测模型提供了充足的高分辨率结构信息,使蛋白质功能预测模型可以感知更多的同源信息,有效提高了预测的准确率。
Seqvec:Seqvec(Sequence vector)是一个高效的序列嵌入方法,旨在将蛋白质和基因组序列转换为固定长度的向量表示。Seqvec使用了类似于Google的word2vec的思想,通过对序列上的k-mer进行编码来捕获序列的特征,同时使用一个深度卷积神经网络(CNN)将这些编码有效地组合在一起。其次,Seqvec可以将序列嵌入应用于各种生物信息学任务,例如序列分类、序列对齐、序列聚类等。Seqvec的一个优点是它的处理速度非常快,因此它可以很容易地应用于大规模的序列数据集。最后,Seqvec还提供了一个预训练的模型,该模型在多个数据集上进行了训练,包括UniProt、RefSeq和ENCODE等生物信息学数据库。预训练的模型可以用于快速生成蛋白质和基因组序列的嵌入向量,从而简化各种生物信息学任务的实现。
随着社会的发展,科技的进步,计算机算力与储存性能的不断提升,深度学习算法在蛋白质攻功能预测领域取的较大进展。且在2017年提出DeepGOPlus[4]模型,并首次将深度学习应用于蛋白质功能预测,通过卷积神经网络从蛋白质序列矩阵中学习特征,并结合蛋白质相互作用网络中蛋白质节点的嵌入向量进行功能预测。次年提出DeepGOPlus[4]模型,不依赖蛋白质相互作用网络节点的嵌入向量,通过Diamond[5]序列比对工具捕获序列相似性信息,结合CNN提取序列特征提高预测性能。DeepGraphGO[6]使用序列的家族和结构域信息作为节点的初始特征,然后通过图卷积网络来学习PPI网络中的结构信息。
而在现有的蛋白质功能预测任务中,通常是以蛋白质序列作为唯一的信息源提取特征的预测方法为主导,而这种纯粹以蛋白质序列作为信息源提取特征的预测方法不能很好的揭示蛋白质功能之间的关系,因为,蛋白质结构决定蛋白质功能是自然界的普遍法则,而蛋白质通过折叠呈现一定的三维结构也能获得对应的功能,因此,两个结构相似的蛋白质,即使序列不同也可能具有相似的功能,所以只以蛋白质序列作为信息源提取特征的蛋白质功能预测方法的具有一定的预测盲区,造成该种预测方法的精度有待提高。
为此,本申请实施例提供了一种蛋白质功能预测模型生成方法,基于自注意力机制的图池化模型,通过AlphaFold2预测的蛋白质三维结构提取结构特征,并融合了Seqvec提取的序列特征训练蛋白质功能分类器。通过对蛋白质的结构与序列进行有效快速的注释蛋白质功能,进而对蛋白质的氨基酸序列提取氨基酸序列特征,以及对蛋白质三维原子坐标结构特征两种特征作为蛋白质预测的依据,排除了蛋白质的氨基酸序列不相同时,蛋白质三维结构通过折叠呈现一定结构所带来相似蛋白质功能的漏洞,从而提高了对蛋白质功能预测的准确度和精度。
另外,AlphaFold2预测蛋白质的三维结构数据为我们功能预测提供了强有力的支持,可以使得我们摒弃之前工作中蛋白质相互作用网络的束缚,有效的提高模型的通用型,同时,与之前基于实验测定蛋白质结构预测功能的方法相比,AlphaFold2提供了充足的高分辨率结构信息,使蛋白质功能预测模型可以感知更多的同源信息,有效提高了预测的准确率。在大量实验中表明,我们的方案在多个指标上都达到了最先进性能,充分证明了结构信息对蛋白质功能预测的有效支持。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
本实施例提供的一种蛋白质功能预测模型生成方法,所述方法具体如图1所示:
步骤S100、获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图。
具体的,通过利用AlphaFold2深度学习模型对蛋白质数据库中的训练蛋白质进行学习,得到蛋白质的氨基酸三维原子坐标,进而通过计算氨基酸残基两两之间的相对距离建立蛋白质二维接触图,进一步具体的,采用图表示学习方法学习节点在蛋白质网络中的结构信息,进行氨基酸残基级别的水平嵌入,从而根据氨基酸残基两两之间的相对距离间里蛋白质二维接触图,从而为后续获取第一特征矩阵和第二特征矩阵做好铺垫。
在一个实施例中,步骤S100具体包括,基于三维原子坐标计算任意两氨基酸残基相对距离,若所述相对距离小于1纳米则两氨基酸残基通过连边相连,并生成以蛋白质的氨基酸三维原子坐标展开为二维矩阵以邻接矩阵的方式存储蛋白质的蛋白质二维接触图。通过对两两氨基酸残基之间的相对距离进行计算,从而将两两氨基酸残基之间的相对距离大于等于11纳米的氨基酸结构进行排出,从而提高对提取特征的信息源准确度。
需要解释的,采用图表示学习方法是一种将图形结构转换为连续型向量的方法。该方法通常包含以下几个步骤:
第一、构建图形结构:将数据转换成一个图形结构,其中节点表示对象,边表示对象之间的关系;
第二、生成节点表示:通过对节点和边进行一系列计算,生成每个节点的向量表示;
第三、生成图表示:将所有节点向量累加得到整个图的向量表示;
第四、应用于机器学习:将生成的向量用于机器学习任务,如分类、聚类等;
在氨基酸残基级别的水平嵌入中,可以将氨基酸残基看作图中的节点,将它们之间的相互作用看作边。然后通过图表示学习方法生成每个残基的向量表示,从而实现对氨基酸残基之间关系的理解和分析。
另外,在具体算法上,还通过Node2vec[8]的偏随机游走的方式获取顶点的近邻序列,其中,Node2vec是一种图表示学习方法,可以将图中的节点表示为低维向量,以便于应用于各种机器学习任务。与传统的图表示学习方法不同,Node2vec考虑了节点在其邻近节点中的结构性。首先,Node2vec使用随机游走来探索图中的节点,并使用它们的相邻节点作为上下文来捕获节点的语义。这个方法可以产生一个类似于Word2vec中的词向量的图形向量表示形式。这些向量可以用于各种任务,如节点分类、链接预测和社区检测等。
在本实施例中,是基于腾讯开源分布式机器学习平台Spark-On-Angel,利用Spark提供的高效数据存储、更新、共享服务实现Node2vec算法进行图计算,从而得到蛋白质二维接触图。
步骤S200、对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应。从而获得训练蛋白质的氨基酸序列特征,为后续模型中结合结构特征用于下游蛋白质功能预测。
在一个实施例中,步骤S200具体包括,基于训练蛋白质的氨基酸三维原子坐标,根据自然语言模型获取氨基酸局部特征,再结合神经网络模型从所述氨基酸局部特征中获取单个氨基酸特征,生成第一特征矩阵。
具体的,采用自然语言模型Seqvec,利用CharCNN[9]算法提取氨基酸局部特征,然后使用两层双向长短期记忆网络(BiLSTM)构建语言模型,通过平均聚合字段特征和语言模型来获取单个氨基酸特征,即对于第k个氨基酸,其表示为:
其中是CharCNN层输出的上下文无关的1024维字符特征,/>分别表示第j层前向和后向LSTM层输出的512维向量,这两个输出向量通过拼接构成1024维特征作为第j层BiLSTM模型的输出/>最后,SeqVec模型将残基级别特征拼接成1024×N的矩阵,并通过主成分分析方法将该矩阵降维生成1×1024维的单条蛋白质序列的特征向量,在一些实施例中,通过主成分平均聚合方法将该矩阵降维生成1×1024维的单条蛋白质序列的特征向量。
最后,SeqVec模型将残基级别特征拼接成1024×N的矩阵,并通过主成分分析或平均聚合等方法将该矩阵降维生成1×1024维的单条蛋白质序列的特征向量。在具体实现上,本实验使用的是基于ELMo(Embeddings from Language Models)[10]部署的SeqVec模型,该模型首先使用UniRef50数据库中大约33M条序列进行预训练。然后将人类和小鼠的蛋白质序列作为输入,对于其每一条蛋白质序列,我们可以得到一个1×1024的特征向量作为蛋白质序列特征,其中,第一特征矩阵为本实施例中的蛋白质序列特征。
步骤S300、对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应。
在一个实施例中,步骤S300具体包括,基于蛋白质二维接触图和训练蛋白质的氨基酸三维原子坐标,并根据图卷积和自注意力机制的层次化图池输出第二特征矩阵。
具体的,蛋白质二维接触图作为邻接矩阵,氨基酸残基特征作为图中节点特征,通过图卷积在结构与结构相近的残基之间传播其特征。在每一层中,通过邻居消息传播与聚合得到新的隐含表示:
其中h(l)代表第l层节点的表示,Θ∈RF×F′是可学习的卷积权重,是/>的度矩阵,/>是具有自连接的邻接矩阵。
同时,本实施例中利用基于自注意力机制的层次化图池化方案得到蛋白质结构最终特征,其中,第二特征矩阵具体的为本实施例中的蛋白质结构最终特征。
需要解释的是,在每层中叠加卷积层并将输出特征转化为一维得到各个节点的重要性得分Z,然后保留部分得分较高的节点和边生成子图作为下一层的输入,其中池化比k∈(0,1)是决定保留节点数量的参数,我们基于自注意力卷积层得到的各节点重要性得分来选择个节点。
Xout=X′⊙Zmask,Aout=Aidx,idx
其中X′是保留节点的原始特征,Xout是保留节点的生成特征,Zmask是保留节点对应的重要性得分,Aout是保留节点生成子图的邻接矩阵。
在每层的图读出过程中,采用sum-pooling与max-pooling的方式提取该层的图特征,最终将多层的图特征求和作为蛋白质结构特征。
另外,将蛋白质的接触图作为邻接矩阵,氨基酸残基特征作为图中节点特征,通过图卷积在结构与结构相近的残基之间传播其特征。在每一层中,通过邻居消息传播与聚合得到新的隐含表示:
其中h(l)代表第l层节点的表示,Θ∈RF×F′是可学习的卷积权重,是/>的度矩阵,/>是具有自连接的邻接矩阵。
同时,本实施例利用基于自注意力机制的层次化图池化方案得到蛋白质结构的最终特征。
具体的,在每层中叠加卷积层并将输出特征转化为一维得到各个节点的重要性得分Z,然后保留部分得分较高的节点和边生成子图作为下一层的输入,其中池化比k∈(0,1)是决定保留节点数量的参数,基于自注意力卷积层得到的各节点重要性得分来选择个节点。
Xout=X′⊙Zmask,Aout=Aidx,idx
其中X′是保留节点的原始特征,Xout是保留节点的生成特征,Zmask是保留节点对应的重要性得分,Aout是保留节点生成子图的邻接矩阵。
在每层的图读出过程中,采用sum-pooling与max-pooling的方式提取该层的图特征,最终将多层的图特征求和作为蛋白质的结构特征。每层图池化公示如下:
其中N为该层中节点的个数,Xi代表第i个节点的特征,||代表特征拼接。
步骤S400、根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
具体的,将上述提取的第一特征矩阵和第二特征矩阵融合作为分类器的输入,相当于将上述提取的蛋白质序列特征与结构特征融合作为分类器的输入,得到蛋白质功能的预测模型,从而输出不同蛋白质功能的概率。
需要解释的,将第一特征矩阵和第二特征矩阵融合采用的是多源数据融合方法,其中,多源数据融合是指将来自不同数据源的信息进行整合和综合,以提高数据信息的可靠性和精度,同时支持更广泛的数据应用和分析。
进一步具体的,在本实施例中,多源数据融合可以通过整合来自蛋白质序列、结构、残基、进化信息等不同类型的数据来提高预测结果的准确性和鲁棒性。AlphaFold2模型中就利用了多种结构和序列信息,包括PDB中的大量蛋白质结构数据,通过transformer和MRF等多种算法进行集成预测。
参见图2,该图为本申请实施例提供的一种蛋白质功能预测模型生成装置的结构示意图。
本申请实施例提供的蛋白质功能预测模型生成装置,包括:第一获取模块501、第二获取模块502、第三获取模块503和模型训练模块504;
所述第一获取模块501,用于获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图;
所述第二获取模块502,用于对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应;
所述第三获取模块503,用于对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;
所述模型训练模块504,用于根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
在本申请实施例一些可能的实现方式中,第一获取模块501,具体可以包括:基于三维原子坐标计算任意两氨基酸残基相对距离,若所述相对距离小于1纳米则两氨基酸残基通过连边相连,并生成以蛋白质的氨基酸三维原子坐标展开为二维矩阵以邻接矩阵的方式存储蛋白质的蛋白质二维接触图。
在本申请实施例一些可能的实现方式中,第二获取模块502,具体可以包括:基于训练蛋白质的氨基酸三维原子坐标,根据自然语言模型获取氨基酸局部特征,再结合神经网络模型从所述氨基酸局部特征中获取单个氨基酸特征,生成第一特征矩阵。
在本申请实施例一些可能的实现方式中,第三获取模块503,具体可以包括:基于蛋白质二维接触图和训练蛋白质的氨基酸三维原子坐标,并根据图卷积和自注意力机制的层次化图池输出第二特征矩阵。
基于上述实施例提供的蛋白质功能预测模型生成方法,本申请实施例还提供了一种计算机可读存储介质,其上储存有计算机程序,当该计算机程序被处理器执行时,实现一种蛋白质功能预测模型生成方法。
基于上述实施例提供的蛋白质功能预测模型生成方法,本申请实施例还提供了一种数据处理设备,所述设备包括处理器及存储器:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行一种蛋白质功能预测模型生成方法。
综上所述,与现有技术相比,本发明具有以下有益效果:一种蛋白质功能预测模型生成方法及装置,包括获取训练蛋白质的氨基酸三维原子坐标,并根据其进行图论方法生成蛋白质二维接触图;对训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,对蛋白质二维接触图进行算法处理获取第二特征矩阵,第一特征矩阵与训练蛋白质的氨基酸三维原子坐标中序列作用位点对应,第二特征矩阵与训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;根据第一特征矩阵和第二特征矩阵分别对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。基于自注意力机制的图池化模型,通过AlphaFold2预测的蛋白质三维结构提取结构特征,并融合了Seqvec提取的序列特征训练蛋白质功能分类器。通过对蛋白质的结构与序列进行有效快速的注释蛋白质功能,进而对蛋白质的氨基酸序列提取氨基酸序列特征,以及对蛋白质三维原子坐标结构特征两种特征作为蛋白质功能预测的依据,提高了对蛋白质功能预测的准确度和精度。
另外,AlphaFold2预测蛋白质的三维结构数据为本申请蛋白质功能预测模型提供了强有力的支持,可以使得我们摒弃之前工作中蛋白质相互作用网络的束缚,有效的提高模型的通用型,同时,与之前基于实验测定蛋白质结构预测功能的方法相比,AlphaFold2提供了充足的高分辨率结构信息,使蛋白质功能预测模型可以感知更多的同源信息,有效提高了预测的准确率。在大量实验中表明,我们的方案在多个指标上都达到了最先进性能,充分证明了结构信息对蛋白质功能预测的有效支持。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种蛋白质功能预测模型生成方法,其特征在于,所述方法包括:
获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图;
具体包括:
基于三维原子坐标计算任意两氨基酸残基相对距离,若所述相对距离小于1纳米则两氨基酸残基通过连边相连,并生成以蛋白质的氨基酸三维原子坐标展开为二维矩阵以邻接矩阵的方式存储蛋白质的蛋白质二维接触图;
对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应;
对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;
根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
2.根据权利要求1所述的一种蛋白质功能预测模型生成方法,其特征在于,对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,具体包括:
基于训练蛋白质的氨基酸三维原子坐标,根据自然语言模型获取氨基酸局部特征,再结合神经网络模型从所述氨基酸局部特征中获取单个氨基酸特征,生成第一特征矩阵。
3.根据权利要求1所述的一种蛋白质功能预测模型生成方法,其特征在于,对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,具体包括:
基于蛋白质二维接触图和训练蛋白质的氨基酸三维原子坐标,并根据图卷积和自注意力机制的层次化图池输出第二特征矩阵。
4.一种蛋白质功能预测模型生成装置,其特征在于,所述装置包括:第一获取模块、第二获取模块、第三获取模块和模型训练模块;
所述第一获取模块,用于获取训练蛋白质的氨基酸三维原子坐标,基于蛋白质的氨基酸三维原子坐标图论方法生成蛋白质二维接触图;
具体包括:
基于三维原子坐标计算任意两氨基酸残基相对距离,若所述相对距离小于1纳米则两氨基酸残基通过连边相连,并生成以蛋白质的氨基酸三维原子坐标展开为二维矩阵以邻接矩阵的方式存储蛋白质的蛋白质二维接触图;
所述第二获取模块,用于对所述训练蛋白质的氨基酸三维原子坐标进行算法处理获取第一特征矩阵,所述第一特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中序列作用位点对应;
所述第三获取模块,用于对所述蛋白质二维接触图进行算法处理获取第二特征矩阵,所述第二特征矩阵与所述训练蛋白质的氨基酸三维原子坐标中结构作用折叠结构对应;
所述模型训练模块,用于根据所述第一特征矩阵和所述第二特征矩阵对应的数据标签,并结合所述第一特征矩阵和所述第二特征矩阵对应的数据标签训练预先构建的蛋白质功能分类器,得到蛋白质功能预测模型。
5.一种计算机可读存储介质,其特征在于,其上储存有计算机程序,当该计算机程序被处理器执行时,实现如权利要求1-3任意一项所述的一种蛋白质功能预测模型生成方法。
6.一种数据处理设备,其特征在于,所述设备包括处理器及存储器:
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行如权利要求1-3任意一项所述的一种蛋白质功能预测模型生成方法。
CN202310581243.8A 2023-05-22 2023-05-22 一种蛋白质功能预测模型生成方法及装置 Active CN116884473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310581243.8A CN116884473B (zh) 2023-05-22 2023-05-22 一种蛋白质功能预测模型生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310581243.8A CN116884473B (zh) 2023-05-22 2023-05-22 一种蛋白质功能预测模型生成方法及装置

Publications (2)

Publication Number Publication Date
CN116884473A CN116884473A (zh) 2023-10-13
CN116884473B true CN116884473B (zh) 2024-04-26

Family

ID=88261092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310581243.8A Active CN116884473B (zh) 2023-05-22 2023-05-22 一种蛋白质功能预测模型生成方法及装置

Country Status (1)

Country Link
CN (1) CN116884473B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637580A (zh) * 2018-12-06 2019-04-16 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN109817275A (zh) * 2018-12-26 2019-05-28 东软集团股份有限公司 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN115116559A (zh) * 2022-06-21 2022-09-27 北京百度网讯科技有限公司 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
CN115312118A (zh) * 2022-08-09 2022-11-08 湘潭大学 一种基于图神经网络的单序列蛋白质接触图预测方法
WO2023014912A1 (en) * 2021-08-05 2023-02-09 Illumina, Inc. Transfer learning-based use of protein contact maps for variant pathogenicity prediction
CN116030883A (zh) * 2021-10-27 2023-04-28 华为云计算技术有限公司 蛋白质结构预测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563150B (zh) * 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
US20230045003A1 (en) * 2021-08-05 2023-02-09 Illumina, Inc. Deep learning-based use of protein contact maps for variant pathogenicity prediction

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637580A (zh) * 2018-12-06 2019-04-16 上海交通大学 一种蛋白质氨基酸关联矩阵预测方法
CN109817275A (zh) * 2018-12-26 2019-05-28 东软集团股份有限公司 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
WO2023014912A1 (en) * 2021-08-05 2023-02-09 Illumina, Inc. Transfer learning-based use of protein contact maps for variant pathogenicity prediction
CN113593631A (zh) * 2021-08-09 2021-11-02 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN116030883A (zh) * 2021-10-27 2023-04-28 华为云计算技术有限公司 蛋白质结构预测方法、装置、设备及存储介质
CN115116559A (zh) * 2022-06-21 2022-09-27 北京百度网讯科技有限公司 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
JP2023062080A (ja) * 2022-06-21 2023-05-02 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体
CN115312118A (zh) * 2022-08-09 2022-11-08 湘潭大学 一种基于图神经网络的单序列蛋白质接触图预测方法

Also Published As

Publication number Publication date
CN116884473A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Peng et al. Pocket2mol: Efficient molecular sampling based on 3d protein pockets
JP7182021B2 (ja) キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统
CN114999565B (zh) 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN116092577B (zh) 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
Sarkar et al. An algorithm for DNA read alignment on quantum accelerators
Liu et al. Joint graph learning and matching for semantic feature correspondence
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
Wang et al. Improving deep learning on point cloud by maximizing mutual information across layers
Bhardwaj et al. Computational biology in the lens of CNN
Yan et al. A systematic review of state-of-the-art strategies for machine learning-based protein function prediction
CN118093911A (zh) 用于医学图像检索目标攻击的模糊Transformer哈希方法
Li et al. Mutual structure learning for multiple kernel clustering
Wei et al. Diff-rntraj: A structure-aware diffusion model for road network-constrained trajectory generation
Yang et al. Graph Contrastive Learning for Clustering of Multi-layer Networks
CN116884473B (zh) 一种蛋白质功能预测模型生成方法及装置
Nurlanov et al. Universe points representation learning for partial multi-graph matching
Bajcsy et al. Survey of biodata analysis from a data mining perspective
CN117321692A (zh) 用于从分子图生成任务相关的结构嵌入的方法和系统
Qu et al. MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space
CN116758978A (zh) 基于蛋白质结构的可控属性全新活性小分子设计方法
Peng et al. Pocket-specific 3d molecule generation by fragment-based autoregressive diffusion models
Goundar Improved deep learning model based on integrated convolutional neural networks and transfer learning for shoeprint image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant