CN115588463A - 基于深度学习挖掘蛋白质相互作用类型的预测方法 - Google Patents

基于深度学习挖掘蛋白质相互作用类型的预测方法 Download PDF

Info

Publication number
CN115588463A
CN115588463A CN202211320402.0A CN202211320402A CN115588463A CN 115588463 A CN115588463 A CN 115588463A CN 202211320402 A CN202211320402 A CN 202211320402A CN 115588463 A CN115588463 A CN 115588463A
Authority
CN
China
Prior art keywords
protein
string
interaction
network
protein interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211320402.0A
Other languages
English (en)
Inventor
黄剑平
方杨越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202211320402.0A priority Critical patent/CN115588463A/zh
Publication of CN115588463A publication Critical patent/CN115588463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及基于深度学习挖掘蛋白质相互作用类型的预测方法。本发明通过构建蛋白质相互作用类型预测模型SE3NET‑PPI,仅需要蛋白质序列信息即可完成端到端的训练,将蛋白质3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取;根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络,然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。将上述特征经特征融合后输入到MLP中,输出蛋白质对对应的作用类别的预测结果;融合了蛋白质的序列信息、结构信息以及PPI网络的拓扑信息来预测蛋白质相互作用类型,提高了预测准确率。

Description

基于深度学习挖掘蛋白质相互作用类型的预测方法
技术领域
本发明属于计算机辅助药物设计技术领域,涉及一种基于深度学习挖掘蛋白质相互作用类型的预测方法。
背景技术
作为细胞中常见的分子之一,蛋白质在生物体内各种生物过程的调节中起到至关重要的作用。生物细胞的活性由相互作用的蛋白质通过代谢途径和非复合物来控制,蛋白质-蛋白质相互作用(PPI)网络和转录调节网络对于调节细胞及其信号起非常重要的作用。此外,从实用角度来看,PPI的监测和研究能够为具有医学适用性的诊断和治疗靶点提供有趣和重要的候选者,从而促进新药的设计。因此,预测PPI是系统生物学的一个基础研究课题,近年来受到了越来越多的关注。
预测PPI的方法大致有两种,基于实验的方法和基于计算的方法。然而,基于实验室的方法通常存在耗时和劳动密集的缺点,所获得的结果通常不可靠,且具有很大的不确定性。此外,由于近年来高通量技术的发展,产生了大量蛋白质组学数据,迫切需要从累积的PPI数据中学习可靠的计算方法来准确预测未知的PPI。基于计算方法地发展大概分为两个阶段。早期研究基于机器学习(ML),这些方法提供了可行的解决方案,但其性能受到PPI特征表示和模型表达能力的限制。随着深度学习在计算机视觉和自然语言处理领域取得了巨大成功,深度学习(DL)作为一种可以自动学习具有多个抽象层次的数据表示且无需先验知识的强大工具收到了广泛的关注。最近深入学习在预测PPI中的应用已经引起了详细讨论,许多研究表明,深度学习已然成为作为预测PPI的强大工具,从而带来科学发现和实用解决方案。例如在Chen等人的工作,其提出了一个仅用蛋白质序列信息的端到端框架PIPR,其采用孪生架构,使用带残差连接深度双向递归卷积神经网络,在三个蛋白质预测问题上①蛋白质分类类别问题,②蛋白质二分类分体,③蛋白质亲和度问题取得了不错的成绩,但该模型并未融合蛋白质的结构信息以及网络拓扑信息。基于此,本发明设计一个基于深度学习的SE3NET-PPI模型,通过融合PPI网络的拓扑结构和蛋白质结构特征以提升模型预测蛋白质相互作用类型的准确性。
发明内容
本发明的目的就是针对现有蛋白质相互作用类型预测方法的评估框架不合理、准确率低的缺点,提出一种基于深度学习、融合蛋白质结构信息和蛋白质相互作用网络拓扑信息,能提高蛋白质之间相互作用类型预测的准确率的方法。
本发明具体包括如下步骤:
步骤一、构建数据集,具体为:
首先,获取现有公开数据库中蛋白质序列信息以及对应的蛋白质结构信息,筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库。
然后,根据蛋白质序列结构数据库中蛋白质编号在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID,根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型,构建蛋白质相互作用数据库。
最后,从蛋白质相互作用数据库中随机选择3000个、9000个以及使用该数据库全部蛋白质生成3个数据量不一的数据集String_3000、String_9000和String_all;
并将所述3个数据集进行同源性聚类,设置为小于等于40%。
步骤二、构建蛋白质相互作用网络,并划分测试集和训练集:
根据数据集String_3000、String_9000和String_all中的所有蛋白质相互作用对构建蛋白质相互作用网络;然后使用随机游走Random、深度优先算法DFS以及广度优先算法BFS将三个数据集划分为训练集和测试集,其中训练集占该数据集的80%,剩下20%为测试集。完成上述操作后,将有九个数据集(三个数据集以三种划分方式划分,分别为String_3000-BFS、String_3000-DFS、String_3000-Random、String_9000-BFS、String_9000-DFS、String_9000-Random、String_all-BFS、String_all-DFS以及String_all-Random)。
步骤三:构建蛋白质相互作用类型预测模型SE3NET-PPI,并对模型进行训练;
蛋白质相互作用类型预测模型SE3NET-PPI包括结构模块、蛋白质网络模块和预测模块;
结构模块采用孪生架构,即由两个结构相同,且权重共享的神经网络拼接而成。
在结构模块中,将蛋白质信息结构数据库中的蛋白质结构信息转化为SE(3)不变矩阵图,然后将SE(3)不变矩阵图输入到卷积神经网络CNN中并得到卷积后的特征向量;将卷积后的特征向量经金字塔池化层SPP进行平均池化操作,得到池化后的特征向量;最后,将所有经过池化操作后的特征向拼接在一起得到蛋白质结构特征向量,并使用多层感知机(MLP)将蛋白质结构特征向量转化为特定长度的特征向量。
具体为:从蛋白质结构文件中获取每个氨基酸残基的Cα原子坐标并表示为C∈RL ×3,其中L为蛋白质序列长度,ci是第i个残基的Cα原子的三维坐标,并通过||ci-cj||2公式计算其之间的欧式距离来构建SE(3)不变矩阵图D∈RL×L;将SE(3)不变矩阵图D∈RL×L输入到CNN中并得到卷积后的特征向量Dconv;使用三个不同大小的池化窗口
Figure BDA0003910102450000021
对卷积后的特征向量Dconv进行不同视野上的特征进行平均池化操作得到池化后的特征向量
Figure BDA0003910102450000022
最后将所有经过池化操作后的特征向量
Figure BDA0003910102450000023
拼接在一起即
Figure BDA0003910102450000024
将Fspp输入到多层感知机MLP得到S∈R256
基于孪生架构,输入一对蛋白质结构信息文件,经过上述步骤后,得到一对蛋白质结构特征Si∈R256、Sj∈R256
在蛋白质网络模块中,使用ProtT5蛋白质预训练模型将蛋白质序列信息转化为对应的蛋白质序列特征向量;通过蛋白质序列特征向量得到蛋白质相互作用网络的蛋白质节点特征,将蛋白质相互作用网络的蛋白质节点特征和蛋白质相互作用网络的相互作用关系特征(边特征)输入同构图神经网络GIN层;蛋白质相互作用网络的相互作用关系特征(边特征)通过蛋白质相互作用网络获得。
具体为:将某一蛋白质的节点特征与其度值为1的邻居蛋白质的节点特征进行求和操作,即
Figure BDA0003910102450000025
使用MLP来更新当前蛋白质节点,即
Figure BDA0003910102450000026
Figure BDA0003910102450000027
输入节点特征和边特征得到数据集中所有蛋白质的网络拓扑信息特征G,然后筛选出预测的蛋白质对特征Gi∈R256、Gj∈R256
在预测模块中,采用特征融合将结构模块输出的一对蛋白质结构特征和蛋白质网络模块输出的蛋白质对特征拼接起来得到特征融合向量,将特征融合向量输入到MLP中,输出是一个1*7维的0,1矩阵,表示蛋白质对其对应的作用类别的预测;
具体为:采用特征融合将结构模块输出的一对蛋白质结构特征Si∈R256以及Sj∈R256和蛋白质网络模块输出的蛋白质对特征Gi∈R256以及Gj∈R256拼接起来得到一对信息丰富的潜在向量分别表示为Fi∈R512,Fj∈R512,即Fi=[Si;Gi],Fj=[Sj;Gj],然后通过以下公式来计算蛋白质对的特征信息Fij
Figure BDA0003910102450000031
muli,j=FC⊙Fj;Fij=[diffi,j,muli,j];
其中,
Figure BDA0003910102450000032
代表对每个元素进行差值计算,diffi,j代表差值计算的结果;⊙代表阿达玛积,muli,j代表阿达玛积计算的结果。
将特征融合向量Fij输入到一层MLP层中,输出是一个1*7维的0,1矩阵,表示蛋白质对其对应的作用类别的预测,即yij=MLP(Fij)。
使用训练集中数据对SE3NET-PPI模型进行训练,得到蛋白质相互作用类型预测模型SE3NET-PPI,对未知相互作用关系类型进行预测。
本方法对比现有的方法,通过构建蛋白质相互作用类型预测模型SE3NET-PPI,仅需要蛋白质序列信息即可完成端到端的训练,将蛋白质3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取;根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络,然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。将上述特征经特征融合后输入到MLP中,输出蛋白质对对应的作用类别的预测结果;融合了蛋白质的序列信息、结构信息以及PPI网络的拓扑信息来预测蛋白质相互作用类型,提高了预测准确率。
附图说明
图1为本发明的流程图;
图2为蛋白质相互作用类型预测模型的结构图。
具体实施方式
下面结合附图及具体实施例,进一步阐述本发明。应理解,实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,一种基于深度学习挖掘蛋白质相互作用类型的预测方法,具体包括如下步骤:
步骤一、构建数据集,具体为:
首先,获取蛋白质的结构文件(其中包含蛋白质序列信息以及蛋白质结构信息),构建蛋白质序列结构数据库;
本实施例中通过检索Uniport网站中所有的人类子集蛋白质并下载对应蛋白质的序列信息,将前述的序列信息输入到AlphaFold2模型中获得人类子集的所有蛋白质结构文件,然后筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库;
然后,根据蛋白质序列结构数据库中蛋白质编号(Uniport ID)在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID,根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型,构建蛋白质相互作用数据库。
最后,从蛋白质相互作用数据库中随机选择3000个、9000个以及使用该数据库全部蛋白质生成3个数据量不一的数据集String_3000、String_9000和String_all,并将所述3个数据集进行同源性聚类(消除蛋白质序列的一部分相似性),设置为小于等于40%。
通过以上步骤获得蛋白质序列结构数据库和模型训练评估用的三个数据集(该数据集中包含了数量不同的蛋白质相互作用对以及该相互作用对的对应作用类型)。
步骤二、将步骤一得到三个数据集String_3000、String_9000以及String_all分别按照深度优先搜索算法BFS、广度优先搜索算法DFS和随机划分算法Random三种划分方式来划分成9个数据集用于后续模型效果的科学评估;
9个数据集中,每个数据集用80%的蛋白质相互作用对进行训练,剩余20%用于测试。训练集的每一个样本都是由一个对蛋白质相互作用对组成,对于每一个蛋白质相互作用对,有7种类别的标签,分别对应7种蛋白质相互作用类型(反应、结合、翻译后修饰、激活、抑制、催化和表达),如果这对蛋白有相应类型的相互作用则标记为1,否则标记为0,值得注意的是一对蛋白质可能有多个相互作用类型。测试集则是一个对蛋白质相互作用对组成,它们的相互作用关系类型是未知的。
步骤三、构建如图2所示的蛋白质相互作用类型预测模型SE3NET-PPI,并对模型进行训练;具体步骤如下:
(1)蛋白质结构特征提取:将蛋白质序列经过AlphaFold2预测输出的3D结构信息;3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取。
(2)蛋白质相互作用网络拓扑信息特征提取:根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络,然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。
(3)特征融合:通过将结构模块输出的一对蛋白质结构特征Si∈R256以及Sj∈R256和蛋白质网络模块输出的一对蛋白质特征Gi∈R256以及Gj∈R256拼接起来得到一对信息丰富的潜在向量分别表示为Fi∈R512,Fj∈R512,即Fi=[Si;Gi],Fj=[Sj;Gj],然后通过以下公式来计算蛋白质对的特征信息Fij
Figure BDA0003910102450000041
muli,j=FC⊙Fj
Fij=[diffi,j,muli,j]
其中,
Figure BDA0003910102450000042
代表对每个元素进行差值计算,diffi,j代表差值计算的结果;⊙代表阿达玛积,muli,j代表阿达玛积计算的结果。
所述预测层用于给出相互作用类型的预测结果;具体为将前述的特征融合向量Fij输入到一层MLP层中,输出是一个1*7维的0,1矩阵,表示蛋白质对其对应的作用类别的预测,即yij=MLP(Fij)。
使用训练集中数据对SE3NET-PPI模型进行训练,训练参数如下:Learning rate:0.001、Optimizer:AdamW、Batch_size:256、Dropout0.5。
对于给定一个训练集Xtrain及其蛋白质相互作用类型Ytrain,使用多任务二进制交叉熵作为损失函数进行训练:
损失函数:
Figure BDA0003910102450000043
其中,
Figure BDA0003910102450000051
表示真实的蛋白质相互作用类型;
Figure BDA0003910102450000052
表示模型预测出来的蛋白质相互作用类型;n表示参与训练的蛋白质对的个数。
步骤四:利用不同的测试集对已训练好的蛋白质相互作用类型预测模型SE3NET-PPI进行预测,获取模型在不同测试集的测试效果并给出评价。
本发明扩展了AlphaFold2的工作,引入SE(3)不变矩阵图以及金字塔池化层技术来提取蛋白质的结构信息用于预测蛋白;融合蛋白质的结构和蛋白质之间的相互作用网络信息来提升蛋白质相互作用类型预测模型的预测准确率。

Claims (5)

1.基于深度学习预测蛋白质相互作用类型的方法,其特征在于:具体包括如下步骤:
步骤一、构建数据集,具体为:
首先,获取现有公开数据库中蛋白质序列信息以及对应的蛋白质结构信息,筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库;
然后,根据蛋白质序列结构数据库中蛋白质编号在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID,根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型,构建蛋白质相互作用数据库;
最后,从蛋白质相互作用数据库中随机选择3000个、9000个以及使用该数据库全部蛋白质生成3个数据量不一的数据集String_3000、String_9000和String_all;
步骤二、构建蛋白质相互作用网络,并划分测试集和训练集:
根据步骤一数据集String_3000、String_9000和String_all中所有蛋白质相互作用对构建蛋白质相互作用网络;使用随机游走Random、深度优先算法DFS以及广度优先算法BFS将数据集String_3000、String_9000和String_all演变为九个数据集,分别为String_3000-BFS、String_3000-DFS、String_3000-Random、String_9000-BFS、String_9000-DFS、String_9000-Random、String_all-BFS、String_all-DFS以及String_all-Random;并将所有数据集中数据划分为训练集和测试集;
步骤三、构建蛋白质相互作用类型预测模型SE3NET-PPI,并对模型进行训练;
蛋白质相互作用类型预测模型SE3NET-PPI包括结构模块、蛋白质网络模块和预测模块;
结构模块采用孪生架构,即由两个结构相同,且权重共享的神经网络拼接而成;
在结构模块中,将蛋白质信息结构数据库中的蛋白质结构信息转化为SE(3)不变矩阵图,然后将SE(3)不变矩阵图输入到卷积神经网络CNN中并得到卷积后的特征向量;将卷积后的特征向量经金字塔池化层SPP进行平均池化操作,得到池化后的特征向量;最后,将所有经过池化操作后的特征向拼接在一起得到蛋白质结构特征向量,并使用多层感知机MLP将蛋白质结构特征向量转化为特定长度的特征向量;
基于孪生架构,输入一对蛋白质结构信息文件,经过上述步骤后,得到一对蛋白质结构特征向量;
在蛋白质网络模块中,使用ProtT5蛋白质预训练模型将蛋白质序列信息转化为对应的蛋白质序列特征向量;通过蛋白质序列特征向量得到蛋白质相互作用网络的蛋白质节点特征,将蛋白质相互作用网络的蛋白质节点特征和蛋白质相互作用网络的相互作用关系特征输入同构图神经网络GIN层;蛋白质相互作用网络的相互作用关系特征通过蛋白质相互作用网络获得;
在预测模块中,采用特征融合将结构模块输出的一对蛋白质结构特征和蛋白质网络模块输出的蛋白质对特征拼接起来得到特征融合向量,将特征融合向量输入到MLP中,输出是一个1*7维的0,1矩阵,表示蛋白质对其对应的作用类别的预测;
使用训练集中数据对SE3NET-PPI模型进行训练,得到蛋白质相互作用类型预测模型SE3NET-PPI,对未知相互作用关系类型进行预测。
2.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法,其特征在于:步骤一所述3个数据集同源性聚类小于等于40%。
3.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法,其特征在于:
在结构模块中,从蛋白质结构文件中获取每个氨基酸残基的Cα原子坐标并表示为C∈RL ×3,其中L为蛋白质序列长度,ci是第i个残基的Cα原子的三维坐标,并通过||ci-cj||2公式计算其之间的欧式距离来构建SE(3)不变矩阵图D∈RL×L;将SE(3)不变矩阵图D∈RL×L输入到CNN中并得到卷积后的特征向量Dconv;使用三个不同大小的池化窗口
Figure FDA0003910102440000021
对卷积后的特征向量Dconv进行不同视野上的特征进行平均池化操作得到池化后的特征向量
Figure FDA0003910102440000022
最后将所有经过池化操作后的特征向量
Figure FDA0003910102440000023
拼接在一起即
Figure FDA0003910102440000024
Figure FDA0003910102440000025
将Fspp输入到多层感知机MLP得到S∈R256
基于孪生架构,输入一对蛋白质结构信息文件,经过上述步骤后,得到一对蛋白质结构特征Si∈R256以及Sj∈R256
4.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法,其特征在于:
在蛋白质网络模块中,将某一蛋白质的节点特征与其度值为1的邻居蛋白质的节点特征进行求和操作,即
Figure FDA0003910102440000026
使用MLP来更新当前蛋白质节点,即
Figure FDA0003910102440000027
Figure FDA0003910102440000028
输入节点特征和边特征得到数据集中所有蛋白质的网络拓扑信息特征G,然后筛选出预测的蛋白质对特征Gj∈R256、Gj∈R256
5.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法,其特征在于:
在预测模块中,采用特征融合将结构模块输出的一对蛋白质结构特征Si∈R256以及Sj∈R256和蛋白质网络模块输出的蛋白质对特征Gi∈R256以及Gj∈R256拼接起来得到一对信息丰富的潜在向量分别表示为Fi∈R512,Fj∈R512,即Fi=[Si;Gi],Fj=[Sj;Gj],然后通过以下公式来计算蛋白质对的特征信息
Figure FDA0003910102440000029
其中,
Figure FDA00039101024400000210
代表对每个元素进行差值计算,diffi,j代表差值计算的结果;⊙代表阿达玛积,muli,j代表阿达玛积计算的结果;
将特征融合向量Fij输入到MLP中,输出是一个1*7维的0,1矩阵,表示蛋白质对其对应的作用类别的预测。
CN202211320402.0A 2022-10-26 2022-10-26 基于深度学习挖掘蛋白质相互作用类型的预测方法 Pending CN115588463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211320402.0A CN115588463A (zh) 2022-10-26 2022-10-26 基于深度学习挖掘蛋白质相互作用类型的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211320402.0A CN115588463A (zh) 2022-10-26 2022-10-26 基于深度学习挖掘蛋白质相互作用类型的预测方法

Publications (1)

Publication Number Publication Date
CN115588463A true CN115588463A (zh) 2023-01-10

Family

ID=84782716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211320402.0A Pending CN115588463A (zh) 2022-10-26 2022-10-26 基于深度学习挖掘蛋白质相互作用类型的预测方法

Country Status (1)

Country Link
CN (1) CN115588463A (zh)

Similar Documents

Publication Publication Date Title
Zhang et al. Pathologist-level interpretable whole-slide cancer diagnosis with deep learning
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN109979541B (zh) 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
CN114724623A (zh) 一种蛋白质多源特征融合的药物-靶点亲和力预测的方法
CN112489769A (zh) 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统
Cheng et al. IIFDTI: predicting drug–target interactions through interactive and independent features based on attention mechanism
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN115985520A (zh) 基于图正则化矩阵分解的药物疾病关联关系的预测方法
Ghualm et al. Identification of pathway-specific protein domain by incorporating hyperparameter optimization based on 2D convolutional neural network
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN112259157B (zh) 一种蛋白质相互作用预测方法
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
Chen et al. DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data
CN114021584A (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN112270950B (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
Nimmy et al. Investigation of DNA discontinuity for detecting tuberculosis
Murphy et al. Self-supervised learning of cell type specificity from immunohistochemical images
CN115588463A (zh) 基于深度学习挖掘蛋白质相互作用类型的预测方法
CN114944191A (zh) 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法
CN117546241A (zh) 基于迁移学习的蛋白质接触图谱用于变体致病性预测的用途
Amanatidis et al. Deep Neural Network Applications for Bioinformatics
Tizhoosh et al. On image search in histopathology
Song et al. Bio-Inspired Computing Models and Algorithms
Nagaraju et al. Automated Diabetic Foot Ulcer Detection and Classification Using Deep Learning
Wang et al. Hypergraph-based Gene Ontology Embedding for Disease Gene Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination