CN113593633A - 基于卷积神经网络的药物-蛋白相互作用预测模型 - Google Patents

基于卷积神经网络的药物-蛋白相互作用预测模型 Download PDF

Info

Publication number
CN113593633A
CN113593633A CN202110878705.3A CN202110878705A CN113593633A CN 113593633 A CN113593633 A CN 113593633A CN 202110878705 A CN202110878705 A CN 202110878705A CN 113593633 A CN113593633 A CN 113593633A
Authority
CN
China
Prior art keywords
protein
neural network
convolutional neural
drug
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110878705.3A
Other languages
English (en)
Other versions
CN113593633B (zh
Inventor
王爽
宋弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202110878705.3A priority Critical patent/CN113593633B/zh
Publication of CN113593633A publication Critical patent/CN113593633A/zh
Application granted granted Critical
Publication of CN113593633B publication Critical patent/CN113593633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提出了一种基于卷积神经网络的药物‑蛋白相互作用预测模型,该预测模型的构建方法如下:步骤1、为靶点蛋白质的结合位点构建包围盒描述符,利用三层3D卷积神经网络提取多通道的结合位点空间结构特征;步骤2、基于靶点蛋白质的氨基酸序列,利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征;步骤3、为待筛选的药物分子构建分子图,利用三层图卷积神经网络提取药物分子特征;步骤4、将得到的所有特征进行组合得到整体特征后,输入至两层全连接网络预测药物‑蛋白的相互作用,借此,本发明具有不仅考虑了与对接过程密切相关的结合位点的局部特征,还考虑了蛋白质的全局特征,并将这些特征预测化合物‑蛋白质相互作用的优点。

Description

基于卷积神经网络的药物-蛋白相互作用预测模型
技术领域
本发明属于药物-蛋白相互作用预测技术领域,特别涉及一种基于卷积神经网络的药物-蛋白相互作用预测模型。
背景技术
药物发现包含多个步骤,需要很长时间并花费大量资金。预测和识别化合物-蛋白质相互作用(CPI)在安全有效的新药的发现和开发中起着至关重要的作用。在药物发现的初期,筛选出与靶蛋白相互作用的化合物,可以大大提高药物发现的成功率。大量研究表明,深度学习的优势在于它可以在非线性变换后获得原始数据的鲁棒描述符,这可以促进模型从数据中学习与任务相关的特征。随着越来越多的蛋白质结构和化合物-蛋白质相互作用数据集的建立,越来越多的研究试图将深度学习方法引入药物发现和化合物-蛋白质相互作用的预测任务中。
这些方法通常将蛋白质和分子的信息整合到一个框架中进行二元分类。现有的化合物-蛋白质相互作用的深度学习方法可以概括为三类:
1.基于一维结构的预测模型。
蛋白质由多个氨基酸组成,每个氨基酸用一个字符或多个字符表示。蛋白质可以表示为多个字符的字符串。蛋白质的一维序列与自然语言处理领域的文本相似。因此,一些研究人员尝试应用端到端的表示学习方法来学习蛋白质序列的特征。
DeepDTA建立了一个模型来预测配体和蛋白质之间的结合亲和力,其中蛋白质表示为一维氨基酸序列。结果表明,基于深度学习的模型的性能优于基于传统机器学习的模型。MFDR模型使用多尺度蛋白质序列描述符来提取一维氨基酸序列的特征,并结合分子指纹的特征来预测化合物-蛋白质的相互作用。椿等人应用1DCNN和GCN分别从一维氨基酸和分子图中学习特征,以预测化合物-蛋白质相互作用。CGBVS-DNN和DBN模型也从一维氨基酸序列中提取了蛋白质的特征。
2.基于二维结构的预测模型。
最近,一些研究通过蛋白质序列构建了一个二维结构描述符,并在各种任务中基于它或基于原始二级结构提取特征。Fout等人将蛋白质图引入化合物-蛋白质相互作用的预测中,其中图中的基本节点对应于残基。DrugVQA是一种化合物-蛋白质相互作用预测模型,其中蛋白质被描述为通过氨基酸序列的距离矩阵。DGraph-DTA建立了一个接触图来表示基于蛋白质序列的蛋白质,以预测结合亲和力。ProteinGCN没有将残基视为节点,而是根据原子之间的距离构建蛋白质图,并以原子为基本节点。iProStruct2D基于从3D结构中获取的2D结构执行蛋白质分类。SSnet从蛋白质的二级结构中提取特征以预测化合物-蛋白质相互作用,这是基于蛋白质的原始二维信息。
3.基于3D结构的预测模型。
活性蛋白质的结构不是氨基酸的简单组合,而是蛋白质折叠形成的3D结构。3D结构的稳定性得益于氨基酸之间的相互作用,这也会影响化合物-蛋白质的相互作用。研究人员试图从化合物-蛋白质复合物结构中了解相互作用。AtomNet是第一个利用深度学习方法基于3D结构信息预测分子和蛋白质的结合亲和力的模型。在AtomNet中,从复合蛋白质复合物的3D网格中提取特征。3DCNN和Se-OnionNet也基于复合物预测了蛋白质和分子的结合亲和力,这是从对接软件中获得的。ACNN使用原子坐标和基于复合物的距离构建了一个邻居距离矩阵,以预测自由能。然而,蛋白质-配体的生物分子复合物只有17679个。由于对接软件的计算存在一定的偏差,基于从该软件获得的复杂构象预测相互作用不够准确。虽然研究人员通过3D结构预测了蛋白质和化合物之间的相互作用,但准确性需要提高。
结合位点的空间结构特征为蛋白质与化合物之间的结合提供了精确的信息,但蛋白质的全局特征也可能影响结合过程。主要体现在两个方面。首先,考虑到蛋白质的形状和体积,结合位点只占蛋白质体积很小的空间比例。化合物的选择受蛋白质全局特征的影响。其次,在结合过程中,蛋白质构象的折叠方式较为复杂。结合位点的形成是多种因素综合作用的结果。不属于结合位点的原子也可能影响结合。
基于对上述因素的考虑,本发明不仅考虑了与对接过程密切相关的结合位点的局部特征,还考虑了蛋白质的全局特征。由于蛋白质体积大,空间结构复杂,计算复杂度高,整个蛋白质的3D空间结构被丢弃。一维氨基酸序列用于表示全局特征。在这项工作中,结合位点的局部特征和氨基酸序列的全局特征由两个卷积神经网络处理,以提取蛋白质的信息。此外,图卷积网络用于提取化合物的特征。所有这些特征结合起来预测化合物-蛋白质相互作用。
发明内容
本发明提出一种基于卷积神经网络的药物-蛋白相互作用预测模型,用以解决上述问题。
本发明的技术方案是这样实现的:基于卷积神经网络的药物-蛋白相互作用预测模型,该预测模型的构建方法如下:
步骤1、为靶点蛋白质的结合位点构建包围盒描述符,利用三层3D卷积神经网络提取多通道的结合位点空间结构特征;
步骤2、基于靶点蛋白质的氨基酸序列,利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征;
步骤3、为待筛选的药物分子构建分子图,利用三层图卷积神经网络提取药物分子特征;
步骤4、将步骤1、步骤2和步骤3中得到的特征进行组合得到整体特征后,输入至两层全连接网络预测药物-蛋白的相互作用。
本发明中步骤1、步骤2、步骤3并不存在先后关系,可以独立进行或是几个步骤同时进行。
作为一种优选的实施方式,步骤1中为靶点蛋白质的结合位点构建包围盒描述符的操作方法如下:
步骤10、通过遍历结合位点的pdb文件,找到每个坐标轴上所有原子坐标的最大值和最小值,以三个坐标轴的最大值和最小值作为界限,为结合位点建立包围盒;
步骤11、用包围盒将结合位点包裹后,在3D空间距离中,以埃米
Figure BDA0003191179530000041
为基本单位,为蛋白质构建大小为
Figure BDA0003191179530000042
的体素网格,将蛋白质结合位点的空间结构用体素网格进行划分和表示;
步骤12、蛋白质和小分子通过非共价键相互作用结合,结合位置主要在蛋白质结合位点中,将和非共价键相互作用有关的八种蛋白质通道特征进行提取,形成八通道,八通道分别为:疏水性通道、芳香性通道、氢键受体通道、氢键供体通道、正电离通道、负电离通道、金属性通道和体积通道;
步骤13、沿用AutoDock的规则对蛋白质原子的类型进行划分,分别将蛋白质结合位点原子划分到八个通道中,形成包围盒构建的八通道特征描述符,作为结合位点的描述符。
作为一种优选的实施方式,步骤1中利用三层3D卷积神经网络提取多通道的结合位点空间结构特征的方法如下:
步骤14、为包围盒选择一个3D卷积核,包围盒的大小为
Figure BDA0003191179530000043
3D卷积核的大小设置为
Figure BDA0003191179530000044
利用3D卷积核对结合位点空间结构特征进行提取;
步骤15、利用池化层对提取后的结合位点空间结构特征进行3D特征降维。
作为一种优选的实施方式,步骤2中利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征的方法如下:
步骤20、采用一个字符的表示方法对蛋白质进行表示,每个蛋白质分子用1000个字符进行表示,不够1000的填充,大于1000个氨基酸的对其进行截取;
步骤21、采用Embedding方法将每种氨基酸表示为128维的特征向量,由此,蛋白质氨基酸序列描述符变成128×1000的特征向量矩阵;
步骤22、输入该特征向量矩阵,经1D卷积神经网络进行卷积处理后,输出为1×4000的特征向量。
作为一种优选的实施方式,步骤22中卷积处理的方法如下:
步骤220、对输入的特征向量矩阵进行padding操作;
步骤221、将卷积核按照序列长度的方向进行移动,步长为1,每移动一次卷积核的值与矩阵相应位置的数值相乘并相加,1个卷积核移动1次得到1个输出值;
步骤222、将卷积核得到的值拼接起来,即得到最后输出的特征向量。
作为一种优选的实施方式,蛋白序列的卷积计算如下:
Figure BDA0003191179530000051
其中
Figure BDA0003191179530000052
代表氨基酸序列在l层(k-j)处的特征值,
Figure BDA0003191179530000053
代表l层对应的卷积核权重,bl代表l层的偏置,N代表卷积核大小,
Figure BDA0003191179530000054
代表氨基酸序列在(l+1)层k处的特征值。
作为一种优选的实施方式,步骤3中为待筛选的药物分子构建分子图的方法如下:
步骤30、将分子视作拓扑连接图,图结构中的每个节点对应分子中的原子,连接边对应分子中原子间的化学键,分子被描述为以原子为节点的分子图,分子图中每个原子相连的邻接原子数量用度矩阵表示;
步骤31、采用频率域卷积对分子图结构进行特征提取,每一层的卷积操作如下所示:
Figure BDA0003191179530000055
其中
Figure BDA0003191179530000056
是指包含了原子自连接的无向分子图的邻接矩阵,D为分子图的度矩阵,
Figure BDA0003191179530000057
Wl为权重矩阵,σ(.)对应于激活函数,Hl为l层的激活矩阵。
作为一种优选的实施方式,步骤4中进行组合得到整体特征的方法如下:
XCPI=[XL,XG,XM]
其中XL代表蛋白质结合位点3D空间结构特征,XG代表蛋白质序列特征,XM代表化合物分子特征。[.]代表连接操作。XCPI代表融合后的蛋白和小分子对的整体特征。
作为一种优选的实施方式,步骤4中输入至两层全连接网络预测药物-蛋白的相互作用的计算如下:
Y=σ(Ws×XCPI+bs)
其中XCPI为蛋白和小分子对的整体特征,Ws为多层感知机神经网络的参数,bs为偏置,Y为输出值,σ为sigmoid()激活函数;
当Y值大于0.5,为有效对接,标记为正样本,当Y值小于0.5,为无效对接,标记为负样本。
作为一种优选的实施方式,步骤4中的预测模型引入了Focal Loss作为损失函数,用于调整预测模型对不同类别样本训练的平衡能力,其计算如下:
Figure BDA0003191179530000061
其中α为调节正负样本占比的平衡因子,y'为模型预测值,y为模型真实样本,log为取对数操作。
采用了上述技术方案后,本发明的有益效果是:
本发明不仅考虑了与对接过程密切相关的结合位点的局部特征,还考虑了蛋白质的全局特征。由于蛋白质体积大,空间结构复杂,计算复杂度高,整个蛋白质的3D空间结构被丢弃,一维氨基酸序列用于表示全局特征。在这项工作中,结合位点的局部特征和氨基酸序列的全局特征由两个卷积神经网络处理,以提取蛋白质的信息,此外,图卷积网络用于提取化合物的特征,所有这些特征结合起来预测化合物-蛋白质相互作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的模型构建示意图;
图2为结合位点描述符创建过程的示意图;
图3为基于多通道3D卷积神经网络的结合位点特征提取示意图;
图4为蛋白质氨基酸序列embedding向量的示意图;
图5为基于1D卷积神经网络的氨基酸序列特征提取的示意图;
图6为分子图与其对应的邻接矩阵和度矩阵的示意图;
图7为药物-蛋白相互作用预测的示意图;
图8为模型在不同蛋白上的表现示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,基于卷积神经网络的药物-蛋白相互作用预测模型,该预测模型的构建方法如下:
步骤1、为靶点蛋白质的结合位点构建包围盒描述符,利用三层3D卷积神经网络提取多通道的结合位点空间结构特征;
步骤2、基于靶点蛋白质的氨基酸序列,利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征;
步骤3、为待筛选的药物分子构建分子图,利用三层图卷积神经网络提取药物分子特征;
步骤4、将步骤1、步骤2和步骤3中得到的特征进行组合得到整体特征后,输入至两层全连接网络预测药物-蛋白的相互作用。
本发明中步骤1、步骤2、步骤3并不存在先后关系,可以独立进行或是几个步骤同时进行。
如图2中(a)所示,结合位点在蛋白质整体中占据较小的空间。而在靶点蛋白质与配体分子的结合过程中,主要依靠结合位点与配体小分子间的相互作用。两者之间通过非共价键作用力得以连接,与靶点蛋白质其余位置的原子关系较小。若给靶点蛋白质的所有原子构建八通道描述符,一方面,由于未捕捉精确的结合位点信息,导致特征提取不精准从而对两者相互作用的判断造成影响。另一方面,由于贡献较小的非结合位点的蛋白质原子占的体积较大,搭建八通道的体素网格在特征计算环节造成计算资源的浪费。因此,本发明只提取蛋白质结合位点的信息,构建相应的结合位点描述符。
由于结合位点的表面形状不规则。目前,针对此类表面不规则的物体,较难找到完全贴合的构建方式,使其更便利地输入到深度学习模型中。为了方便结合位点的特征提取,围绕结合位点构建了包围盒,通过包围盒将结合位点的所有原子囊括进去。具体实现方法通过遍历结合位点的pdb文件(pdb格式是存储蛋白结构信息的通用文件格式),找到每个坐标轴上所有原子坐标的最大值与最小值,以三个坐标轴的最大值和最小值作为界限,为结合位点建立包围盒。如图2中(c)所示。
用包围盒将结合位点包裹后,构建蛋白质的八通道描述符。
靶点蛋白质与药物分子的结合是关系药物分子是否发挥作用的关键,而在结合的过程中起重要作用的是结合位点。两者结合的本质是药物分子与靶点蛋白质的结合位点相互作用,而在靶点蛋白质中寻找合适的结合位点位置是具有一定挑战性的,已经有较多的研究关注于蛋白质的结合位点位置的预测,例如Deepsite,对于结合位点位置预测的问题,本发明中不再做详细探讨。本发明主要研究在给定结合位点后,能否为该结合位点找到与其产生相互作用的配体分子。因此,在对靶点蛋白质的描述中,主要提取的是结合位点特征,由于关于蛋白质活性的讨论都是在3D状态下进行,氨基酸序列通过自身键的相互作用形成稳定的3D蛋白质结构,结合位点的形成也是基于其3D结构的。因此,在本发明中对结合位点的3D结构进行特征提取。
在3D空间结构中,如何构建结合位点的空间描述符以便于更有效的提取特征是需要首要解决的问题。在3D空间距离中,以埃米
Figure BDA0003191179530000081
作为基本单位,受图像处理领域中图像像素的启发,为蛋白质构建了大小为
Figure BDA0003191179530000091
的体素网格,将蛋白质的空间结构用体素网格进行划分和表示,用体素表示蛋白质结合位点的方法应用较为广泛,已在虚拟筛选环节的对接打分AutoDock Vina和预测结合位点位置的Deepsite中有所应用,模型沿用了Deepsite中的方法并针对药物-蛋白的结合任务做了改良。
小分子内部依靠化学键将相邻的原子进行结合,而在靶点蛋白质与配体分子构成的药物-蛋白复合物中,主要依靠非共价键的作用。常见的非共价键的相互作用包括范德华力、氢键、疏水作用力、芳香堆积、卤键等。非共价键相互作用对于蛋白质构象的生成、蛋白质构象的稳定、蛋白质和分子结合的稳定性和活性方面发挥了重要作用。基于此,与Deepsite类似,与这些非共价键相互作用有关的八种蛋白质通道特征也被相应的提取出来,作为蛋白质立体描述符的重要组成部分。八通道分别为:疏水性通道、芳香性通道、氢键受体通道、氢键供体通道、正电离通道、负电离通道、金属性通道、体积通道。每个通道只关注与本通道相关的蛋白质原子特性。对于蛋白质原子的类型划分沿用了AutoDock中的规则,将原子按照此规则划分到八个通道中,具体的划分规则如下表所示:
Figure BDA0003191179530000092
Figure BDA0003191179530000101
不同通道单个原子对体素网格的贡献值计算如下:
Figure BDA0003191179530000102
其中rvdw代表范德华原子半径,r是原子与当前体素网格中心的距离。exp是指数运算。
在以体素划分的蛋白质网格中,单个通道中每个体素的填充值计算方式,以当前体素网格为中心,统计相应单个通道中对此体素网格做出的贡献值,并将所有的贡献值加和即为当前通道当前体素网格的值。具体算法如下所示:
Figure BDA0003191179530000103
上述分子描述符的计算方式已经集成到HTMDs中,并且提供了Python包,与Deepsite不同的是,Deepsite为所有蛋白质原子都计算了八个通道的值,以用于预测结合位点的位置。蛋白质是大分子有机物,根据氨基酸序列的折叠方式不同,可能出现的结合位点位置也不同,蛋白质的3D空间结构也变得复杂多样。而在药物-蛋白复合物中,靶点蛋白质和药物分子的相互作用主要发生在结合位点中。而我们更专注于研究结合位点和配体小分子的作用,因此,在本发明的蛋白质3D描述符中,仅为属于蛋白质结合位点的原子提取了相应的八通道值。根据构建的蛋白质的八通道描述符,每个通道对应于蛋白质不同性质的原子的体素表示,模型为包围盒构建八通道特征描述符,作为结合位点的描述符。
如图3所示,通过对结合位点的描述符构建,将属于结合位点的蛋白质原子按其属性划分到八个不同的通道。每个通道内只展示属于本通道类型的原子,并依据原子的坐标位置为每个通道创立了3D体素网格。在单个通道内,依照结合位点原子坐标构建了一个大的立方体包围盒。由此,蛋白质结合位点的描述符由八个体素网格构成的立方体包围盒表示。对结合位点多个通道的包围盒进行处理,将包围盒的体素类比于图像中的像素,模型采用3D卷积神经网络处理这些立方体包围盒以得到结合位点的特征。
其处理方式为:首先为包围盒选择一个大小固定的3D卷积核,包围盒的大小取值为
Figure BDA0003191179530000111
所选择的3D卷积核的大小设置为
Figure BDA0003191179530000112
(1)3D卷积层
假设一个3D卷积核的大小为(P,Q,R),通常在三维卷积层l的3D特征立方体的位置(x,y,z)处的输出计算如下:
Figure BDA0003191179530000113
其中
Figure BDA0003191179530000114
代表第l层3D卷积核中(i,j,k)位置的权重,
Figure BDA0003191179530000115
代表上一层(l-1)层在特征立方体位置(x+p,y+q,z+r)处的特征值,bl代表第l层的偏差。
Figure BDA0003191179530000116
表示在第l层3D特征立方体中(x,y,z)处的取值。其中每一层的偏差和权重通过训练得到。
(2)3D池化层
在深度学习中,池化层负责对特征进行压缩、降维。本发明的模型中,利用池化层进行3D特征降维。假设池化内核大小为(g,g,g),对特征层进行3D最大池化,则池化后在l层特征立方体位置(x,y,z)处的输出形式化表示为:
Figure BDA0003191179530000121
其中
Figure BDA0003191179530000122
表示在池化层(l-1)层的特征立方体上位于(x+i)(y+j)(z+k)处的池化后特征值。Max表示在一定范围内取最大值操作。
如图4所示,蛋白质结合位点的空间结构特征为靶点蛋白质和配体分子的结合提供了精准的信息,但对于识别蛋白质和配体分子的结合信息仍然有所欠缺。主要体现在三个方面:一,在形状体积的比较方面,在蛋白质中,由于结合位点空间结构较小,只占蛋白质空间体积很小的比例。相同的结合位点可能出现在不同的蛋白质结构中;二,在蛋白质结合位点空间形成的过程中,蛋白质构象的折叠方式较为复杂。结合位点的形成是较多因素综合作用的结果,除结合位点之外的蛋白质结构也会影响药物分子与靶点蛋白质的相互作用;三,在生命体活动机理方面,药物分子在进入蛋白质腔体与结合位点结合的过程中,当分子逐渐靠近靶点蛋白质时,由于两者之间存在相互作用力,靶点蛋白质和药物分子的3D构象都会发生不同程度的诱导契合。诱导契合的过程有可能发生在结合位点内,也有可能发生在靶点蛋白质的其他位置。
基于上述几种因素的考虑,本发明不仅考虑了与靶点蛋白质和药物对接过程紧密相关的结合位点空间特征,也考虑了靶点蛋白质的整体特征。由于靶点蛋白质的分子量较大,空间结构复杂,且其整体结构在靶点蛋白质和药物分子的对接过程中的贡献小于结合位点的空间特征。同时,处理蛋白质的整体空间结构所需的计算资源也较大。因此,关于蛋白质的整体特征提取方面,舍弃3D空间结构,采用1D的氨基酸序列。
蛋白质氨基酸序列是蛋白质的一级结构表示,其由多种氨基酸的线性排列构成。已知的氨基酸种类有20多种,每一种氨基酸通常用三个字母代表的字符串或者一个字符表示。本节采用一个字符的表示方法。由于蛋白质是生物大分子,单个蛋白质中包含的氨基酸较多,每个蛋白质分子用1000个字符进行表示,不够1000的填充,大于1000个氨基酸的对其进行截取。
用字符表示的蛋白质氨基酸序列与文本类似,本发明采用与文本处理相似的方式将蛋白质氨基酸序列向量化。用Embedding的方法将每种氨基酸表示为128维的特征向量,由此,蛋白质氨基酸序列描述符变成128×1000的特征向量矩阵。
如图5所示,展示了蛋白质1D序列的特征提取过程,给定一个蛋白质氨基酸序列,经上节操作后将每个氨基酸序列转变为一个128×1000的特征向量矩阵,其中128是单个氨基酸的特征向量维度,1000对应氨基酸序列长度。蛋白质序列的1D卷积神经网络是由三个1D卷积块构成的深度卷积神经网络。三个卷积块包含的卷积核数量分别为64,32,16,输入的特征向量矩阵经其处理输出为1×4000的特征向量。其中每个卷积块都包含1个卷积层、1个LeakyRelu神经元、1个最大池化层。以第一个卷积块中的1D卷积层的为例。卷积核大小为5×128,64个卷积核分别对128×1000的特征向量进行卷积。首先对输入矩阵进行padding操作,其次将卷积核按照序列长度的方向进行移动,步长为1,每移动一次卷积核的值与矩阵相应位置的数值相乘并相加。1个卷积核移动1次得到1个输出值。最后64个卷积核得到的值拼接起来,得到大小为64×1000的特征向量。
蛋白质序列的卷积操作计算如下:
Figure BDA0003191179530000131
其中
Figure BDA0003191179530000132
是氨基酸序列在l层(k-j)处的特征值,
Figure BDA0003191179530000133
代表l层对应的卷积核权重,bl代表l层的偏置。N代表卷积核大小,
Figure BDA0003191179530000134
代表氨基酸序列在(l+1)层k处的特征值。
本发明对分子的处理同样基于分子的图结构数据。在靶点蛋白质和药物分子的结合过程中,主要依靠非共价键的相互作用力,而非原子之间的共价键。在化学分子中,共价键的形成依赖于同分子中相邻原子的电子对的共享,而非共价键的形成主要来源于正负电荷间的吸引力。与共价键形成的分子内作用力相比,由电荷吸引形成的分子间作用力相对较弱。由于正负电荷依附于原子而存在,在对接活性的任务中,非共价键的作用力计算以原子为单位。因此,关于分子的特征描述符本节采用以原子为单位的分子图,更关注于分子的细粒度特征。
将分子视作拓扑连接图,图结构中的每个节点对应分子中的原子,连接边对应分子中原子间的化学键。原子本身具有多种属性,例如原子类型、原子度数、连接的氢原子数量等。由于原子之间的连接受到化合价的约束,部分原子之间可以形成共用电子对。形成共用电子对的原子间用化学键进行连接,在图结构中相连的原子有拓扑关联关系。而原子是否能够提供电子以形成电子对以及哪些类型的原子之间可以连接等是由原子的属性决定的。将相关的原子属性于列表中进行表示,根据表中原子的属性建立原子的特征,作为分子图中原子节点的特征,其列表如下所示:
Figure BDA0003191179530000141
分子被描述为以原子为节点的分子图。一个分子被描述为G=(V,E),其中V为分子中的所有原子代表的节点,E为分子中连接原子节点的边。在本发明的分子图中,E代表化学键。通过对分子描述符的表示过程可知,原子节点的特征由One-Hot向量表示。对于原子节点i,其特征表示为xi。分子图的特征表示为XN×L,其中N表示分子图中的原子节点数量,L代表每个原子节点的特征向量维度。作为图结构的一种,分子也有其拓扑连接关系。分子的拓扑连接关系用邻接矩阵AN×N表示,若原子节点i和原子节点j之间有连接,则对应的邻接矩阵中A(i,j)=1,若原子节点i和原子节点j之间没有化学键相连,则对应的邻接矩阵中A(i,j)=0。此外,分子图中每个原子相连的邻接原子数量用度矩阵表示。如图6所示,展示了分子图与其对应的邻接矩阵和度矩阵的关系。
得到分子图后,对分子图进行卷积操作,提取分子图特征。常用的卷积方法分为两大类:空间域卷积和频率域卷积。在空间域卷积中,依据节点之间的拓扑连接关系,通过消息传递等方式不断地汇集邻居节点的信息,扩大节点的“感受野”。最后将不同节点的特征进行融合得到最终的分子图特征表达。在频率域卷积中,将图结构数据通过拉普拉斯变换到另一个域中,借鉴卷积的思想对图结构数据进行处理,本发明采用频率域卷积对分子图结构做特征提取。
每一层的卷积操作如下所示:
Figure BDA0003191179530000151
其中
Figure BDA0003191179530000152
是指包含了原子自连接的无向分子图的邻接矩阵。D为分子图的度矩阵,
Figure BDA0003191179530000153
Wl是权重矩阵,σ(.)对应于激活函数。Hl是l层的激活矩阵。
在药物-蛋白相互作用预测任务中,通过多通道3D卷积神经网络得到结合位点3D空间结构特征、通过1D卷积神经网络得到蛋白质1D氨基酸序列特征、通过图卷积神经网络得到药物分子特征后,通过下面公式将三者特征进行结合。并用结合后的特征进行药物-蛋白相互作用预测,判断化合物分子是否能与靶点蛋白质进行有效对接,整体过程如图7所示。
XCPI=[XL,XG,XM]
其中XL代表蛋白质结合位点3D空间结构特征,XG代表蛋白质序列特征,XM代表化合物分子特征。[.]代表连接操作。XCPI代表融合后的蛋白和小分子对的整体特征。
融合后的整体特征输入两个多层感知机神经网络,通过两个多层感知机神经网络计算蛋白质和小分子是否有效结合。
Y=σ(Ws×XCPI+bs)
其中XCPI为融合后的蛋白和小分子对的整体特征,Ws为多层感知机神经网络的参数,bs为偏置,Y为输出值,σ为sigmoid()激活函数。
Y值大于0.5为有效,小于0.5为无效。
在蛋白质和分子相互作用预测问题中,能与靶点蛋白质结合的药物小分子即为有效,标记为正样本,不能有效结合的药物分子即为无效,标记为负样本。自然界中的分子种类以及借助计算机辅助技术产生的虚拟分子种类数以亿计,然而其中能与特定靶点蛋白质有效结合的分子少之又少。在给出的DUD-E数据集中也存在正负样本不平衡的问题。对于模型来说,检测稀有样本(少数类别的样本)比检测大量样本(多数类别的样本)困难的多,这种现象导致模型通常将输入样本预测为具有较高输出概率的多数类别。为了尽可能减小类别不平衡给模型训练带来的干扰,模型引入了Focal Loss作为损失函数。Focal loss损失函数代表预测值与真实值的差距,用来指导模型的训练,使模型朝着Focal loss损失函数越小的方向训练参数,Focal Loss损失函数最初的提出是针对目标检测领域的数据不平衡问题,它对具有高输出概率的易检测的类别加了惩罚项,以此平衡模型学习和检测两种类别的能力。
由于在DUD-E数据库中,负样本并非随机选择,而是针对每一个有结合活性的配体分子,选取性质与其接近的化合物分子作为诱饵分子。这些诱饵分子与靶点蛋白质不能有效结合。这对模型提出了更高的挑战,对模型提取的靶点蛋白质特征和小分子特征提出了更高的要求,其特征应能充分挖掘两者的深层次性质。由于诱饵分子与药物分子的性质相似性,诱饵分子中存在较难区分的分子,为正负样本的区分增加了挑战。而Focal Loss损失函数不仅对正负样本之间加了权重限制,同时对较难区分样本和较易区分的样本之间添加了限制系数,更进一步调整了模型对不同类别样本训练的平衡能力。
Focal Loss计算如下:
Figure BDA0003191179530000171
其中α为调节正负样本占比的平衡因子。γ的设置促使模型更关注于较难检测的样本,y′模型预测值,y模型真实样本。log为取对数操作。
在Focal Loss损失函数中普遍设置为α=0.2,γ=2。但在蛋白小分子互作用预测任务上,正负样本比例较为悬殊,因此,本发明对Focal Loss稍作修改,使其更适用于蛋白小分子互作用预测任务。
假设正样本个数为P,负样本个数为N。则正样本占比为
Figure BDA0003191179530000172
负样本在数据集中的占比为
Figure BDA0003191179530000173
若样本预测为正样本,则在Focal Loss关于正样本的项前面乘以
Figure BDA0003191179530000174
若样本预测为负样本,则在Focal Loss关于负样本的项前面乘以
Figure BDA0003191179530000175
具体表示如下:
Figure BDA0003191179530000176
Directory of Useful Decoys Enhanced(DUD-E)是一个数据集,提供102种独特的蛋白质,平均对应于124个对接分子。对于每个对接分子,准备了50个诱饵。这些诱饵具有与活性物质相似的特性。在我们的实验中,91个目标蛋白及其相应的化合物构成了一个数据集,因为很难从其余目标中提取精确的通道信息。对于每个目标蛋白,有多个对接分子被记录为阳性样本,其他则被标记为阴性样本。在实验中,一对样品包含一种蛋白质、一种化合物和一种标记。为了更客观地将我们的模型与其他模型进行比较,数据集的拆分遵循Lim等人的相同实验设置。根据蛋白质的类型划分训练集和测试集。对于每个蛋白质目标,配体(阳性)和诱饵(阴性)的比例设置为1:1。
DUD-E中训练数据集的目标详细信息以及每个目标的正样本数(P)的详情如下表所示:
ID P ID P ID P ID P ID P
adrb1 247 adrb2 231 akt2 117 Ampc 48 andr 269
aofb 122 bace1 283 Braf 152 cah2 492 cdk2 474
cp2c9 120 csf1r 166 cxcr4 40 Def 102 dhi1 330
drd3 480 dyr 231 esr1 383 esr2 367 fa7 114
fabp4 47 fak1 100 fkb1a 111 fpps 85 gcr 258
glcm 54 hdac2 185 Hivint 100 hivpr 536 hivrt 338
hmdh 170 hs90a 88 hxk4 92 igf1r 148 inha 43
ital 138 jak2 107 kif11 116 Lck 420 mapk2 101
mcr 94 mk01 79 mk10 104 mk14 578 mmp13 572
nos1 100 nram 98 pde5a 398 pgh2 435 plk1 107
pnph 103 ppara 373 Ppard 240 pparg 484 prgr 293
pur2 50 reni 104 rock1 100 rxra 131 sahh 63
src 524 thb 103 try1 449 tryb1 148 tysy 109
urok 162 vgfr2 409 Xiap 100
DUD-E中测试数据集的目标详细信息以及每个目标的正样本数(P)的详情如下表所示:
ID P ID P ID P ID P ID P
aa2ar 482 abl1 182 Aces 453 ada 93 casp3 199
cp3a4 170 egfr 542 fa10 537 fgfr1 139 fnta 592
grik1 101 hdac8 170 Kit 166 kith 57 kpcb 135
pa2ga 99 parp1 508 pgh1 195 ptn1 130 pygm 77
pyrd 111 tgfr1 133 wee1 102
训练数据集中共有29030个样本对,测试数据集中共有10746个样本对,其中样本对的数量包含正负样本对。
在DUD-E数据集中,每个样本对都包含一个蛋白质、一个分子和一个标签。标签显示样品对中的蛋白质和分子是否可以对接。如果是对接,对应的标签为1;否则为0。对于测试集,给定一个蛋白质和一个分子,模型需要预测对接的可能性,这是一个分类任务。用一般的ROC AUC作为测量指标。AUC值越高表示性能越好。
为了客观评估所提出模型的性能,我们将其与其他七个模型进行了比较。这些模型包含广泛用于虚拟筛选任务的开源分子对接程序(AutoDock Vina和Smina)、深度学习模型(Tsubaki的模型、AtomNet、3D-CNN)和最新的基于图的模型(L+LP+R和Lim的模型)。
Tsubaki的模型应用1DCNNs提取蛋白质特征并使用GCN提取分子特征。AtomNet使用3D卷积神经网络从化合物-蛋白质复合物的3D网格中提取组合特征以进行相互作用预测。与AtomNet类似,3D-CNN方法也提取了复合体的特征。对接姿势是从对接软件中获得的。L+LP+R模型根据蛋白质和分子的结合结构构建了两个拓扑图L和LP。此外,作者将对接姿势的排序R合并到模型中。Lim的模型[30]将绑定姿势的结构信息嵌入到图中,并在预测中引入了注意机制。
下表显示了多个模型在DUD-E数据集上区分活动物和诱饵的性能比较。表中其他模型的AUC值来自AtomNet、3D-CNN、L+LP+R、Tsubaki的模型和Lim的模型。如表中所示,所提出的模型获得了最好的结果。我们模型的AUC值(0.975)高于深度学习模型,例如AtomNet(0.895)、3D-CNN(0.868)、L+LP+R(0.93)和Lim的模型(0.968)。与上述四种模型不同的是,在所提出的模型中,没有提取蛋白质和分子的对接结构。分别提取蛋白质和分子的特征。一般来说,通过化合物-蛋白质复合物的对接结构提取的特征可以包含更精确的信息。然而,实验结果表明所提出的模型优于从对接复杂结构中提取特征的模型,这进一步表明所提出的模型能够预测化合物-蛋白质相互作用。
Figure BDA0003191179530000191
为了进一步评估模型预测不同蛋白质和分子间相互作用的能力,本发明将不同蛋白质的AUC值如图8所示。蛋白质按表2和表3的顺序排序。由于91个蛋白质的名称较长,列出了相应的索引。总共随机选择了23866个样本对进行测试(平均每个蛋白质262个样本对),其中包含3987个活性物质和19879个诱饵。
大多数蛋白质的AUC值都高于0.9,有的甚至达到了1。另外,还统计了不同模型中AUC值超过预定阈值的蛋白质数量。这些模型的对比结果如下表所示。值得注意的是,AtomNet和Smina的模型中蛋白质的数量为102。从表中可以看出,Smina的预测准确率最低,为53蛋白质超过0.7,只有1个超过0.9。AtomNet模型优于Smina,其中99个目标的AUC值高于0.7,59个目标的AUC值超过0.9。然而,所提出模型中88个目标的AUC值超过0.9,这表明所提出的模型在预测化合物-蛋白质相互作用方面更加稳健。
Model >0.7 >0.8 >0.9
AtomNet 99 88 59
Smina 53 17 1
Our model 90 90 88
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,该预测模型的构建方法如下:
步骤1、为靶点蛋白质的结合位点构建包围盒描述符,利用三层3D卷积神经网络提取多通道的结合位点空间结构特征;
步骤2、基于靶点蛋白质的氨基酸序列,利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征;
步骤3、为待筛选的药物分子构建分子图,利用三层图卷积神经网络提取药物分子特征;
步骤4、将步骤1、步骤2和步骤3中得到的特征进行组合得到整体特征后,输入至两层全连接网络预测药物-蛋白的相互作用。
2.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤1中为靶点蛋白质的结合位点构建包围盒描述符的操作方法如下:
步骤10、通过遍历结合位点的pdb文件,找到每个坐标轴上所有原子坐标的最大值和最小值,以三个坐标轴的最大值和最小值作为界限,为结合位点建立包围盒;
步骤11、用包围盒将结合位点包裹后,在3D空间距离中,以埃米
Figure FDA0003191179520000011
为基本单位,为蛋白质构建大小为
Figure FDA0003191179520000012
的体素网格,将蛋白质结合位点的空间结构用体素网格进行划分和表示;
步骤12、蛋白质和小分子通过非共价键相互作用结合,结合位置主要在蛋白质结合位点中,将和非共价键相互作用有关的八种蛋白质通道特征进行提取,形成八通道,八通道分别为:疏水性通道、芳香性通道、氢键受体通道、氢键供体通道、正电离通道、负电离通道、金属性通道和体积通道;
步骤13、沿用AutoDock的规则对蛋白质原子的类型进行划分,分别将蛋白质结合位点原子划分到八个通道中,形成包围盒构建的八通道特征描述符,作为结合位点的描述符。
3.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤1中利用三层3D卷积神经网络提取多通道的结合位点空间结构特征的方法如下:
步骤14、为包围盒选择一个3D卷积核,包围盒的大小为
Figure FDA0003191179520000021
3D卷积核的大小设置为
Figure FDA0003191179520000022
利用3D卷积核对结合位点空间结构特征进行提取;
步骤15、利用池化层对提取后的结合位点空间结构特征进行3D特征降维。
4.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤2中利用三层1D卷积神经网络提取蛋白质的氨基酸构成特征的方法如下:
步骤20、采用一个字符的表示方法对蛋白质进行表示,每个蛋白质分子用1000个字符进行表示,不够1000的填充,大于1000个氨基酸的对其进行截取;
步骤21、采用Embedding方法将每种氨基酸表示为128维的特征向量,由此,蛋白质氨基酸序列描述符变成128×1000的特征向量矩阵;
步骤22、输入该特征向量矩阵,经1D卷积神经网络进行卷积处理后,输出为1×4000的特征向量。
5.根据权利要求4所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤22中卷积处理的方法如下:
步骤220、对输入的特征向量矩阵进行padding操作;
步骤221、将卷积核按照序列长度的方向进行移动,步长为1,每移动一次卷积核的值与矩阵相应位置的数值相乘并相加,1个卷积核移动1次得到1个输出值;
步骤222、将卷积核得到的值拼接起来,即得到最后输出的特征向量。
6.根据权利要求5所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述蛋白序列的卷积计算如下:
Figure FDA0003191179520000031
其中
Figure FDA0003191179520000032
代表氨基酸序列在l层(k-j)处的特征值,
Figure FDA0003191179520000033
代表l层对应的卷积核权重,bl代表l层的偏置,N代表卷积核大小,
Figure FDA0003191179520000034
代表氨基酸序列在(l+1)层k处的特征值。
7.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤3中为待筛选的药物分子构建分子图的方法如下:
步骤30、将分子视作拓扑连接图,图结构中的每个节点对应分子中的原子,连接边对应分子中原子间的化学键,分子被描述为以原子为节点的分子图,分子图中每个原子相连的邻接原子数量用度矩阵表示;
步骤31、采用频率域卷积对分子图结构进行特征提取,每一层的卷积操作如下所示:
Figure FDA0003191179520000035
其中
Figure FDA0003191179520000036
是指包含了原子自连接的无向分子图的邻接矩阵,D为分子图的度矩阵,
Figure FDA0003191179520000037
Wl为权重矩阵,σ(.)对应于激活函数,Hl为l层的激活矩阵。
8.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤4中进行组合得到整体特征的方法如下:
XCPI=[XL,XG,XM]
其中XL代表蛋白质结合位点3D空间结构特征,XG代表蛋白质序列特征,XM代表化合物分子特征。[.]代表连接操作。XCPI代表融合后的蛋白和小分子对的整体特征。
9.根据权利要求1所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤4中输入至两层全连接网络预测药物-蛋白的相互作用的计算如下:
Y=σ(Ws×XCPI+bs)
其中XCPI为蛋白和小分子对的整体特征,Ws为多层感知机神经网络的参数,bs为偏置,Y为输出值,σ为sigmoid()激活函数;
当Y值大于0.5,为有效对接,标记为正样本,当Y值小于0.5,为无效对接,标记为负样本。
10.根据权利要求9所述的基于卷积神经网络的药物-蛋白相互作用预测模型,其特征在于,所述步骤4中的预测模型引入了Focal Loss作为损失函数,用于调整预测模型对不同类别样本训练的平衡能力,其计算如下:
Figure FDA0003191179520000041
其中α为调节正负样本占比的平衡因子,y'为模型预测值,y为模型真实样本。
CN202110878705.3A 2021-08-02 2021-08-02 基于卷积神经网络的药物-蛋白相互作用预测模型 Active CN113593633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878705.3A CN113593633B (zh) 2021-08-02 2021-08-02 基于卷积神经网络的药物-蛋白相互作用预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878705.3A CN113593633B (zh) 2021-08-02 2021-08-02 基于卷积神经网络的药物-蛋白相互作用预测模型

Publications (2)

Publication Number Publication Date
CN113593633A true CN113593633A (zh) 2021-11-02
CN113593633B CN113593633B (zh) 2023-07-25

Family

ID=78253466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878705.3A Active CN113593633B (zh) 2021-08-02 2021-08-02 基于卷积神经网络的药物-蛋白相互作用预测模型

Country Status (1)

Country Link
CN (1) CN113593633B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121148A (zh) * 2021-11-11 2022-03-01 苏州大学 一种基于簇模型计算蛋白-配体结合自由能的方法
CN114386694A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于对比学习的药物分子性质预测方法、装置及设备
CN114446383A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN114496303A (zh) * 2022-01-06 2022-05-13 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法
CN114512180A (zh) * 2022-02-15 2022-05-17 哈尔滨工业大学 基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法及装置
CN114550824A (zh) * 2022-01-29 2022-05-27 河南大学 基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN115631786A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选方法、装置和执行设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112489722A (zh) * 2020-11-27 2021-03-12 江苏理工学院 药物靶点结合能预测方法及装置
CN112599187A (zh) * 2020-12-18 2021-04-02 武汉大学 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN112489722A (zh) * 2020-11-27 2021-03-12 江苏理工学院 药物靶点结合能预测方法及装置
CN112599187A (zh) * 2020-12-18 2021-04-02 武汉大学 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114121148A (zh) * 2021-11-11 2022-03-01 苏州大学 一种基于簇模型计算蛋白-配体结合自由能的方法
CN114121148B (zh) * 2021-11-11 2023-01-06 苏州大学 一种基于簇模型计算蛋白-配体结合自由能的方法
CN114496303A (zh) * 2022-01-06 2022-05-13 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法
CN114386694A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于对比学习的药物分子性质预测方法、装置及设备
CN114386694B (zh) * 2022-01-11 2024-02-23 平安科技(深圳)有限公司 基于对比学习的药物分子性质预测方法、装置及设备
CN114446383B (zh) * 2022-01-24 2023-04-21 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN114446383A (zh) * 2022-01-24 2022-05-06 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN114550824A (zh) * 2022-01-29 2022-05-27 河南大学 基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统
CN114550824B (zh) * 2022-01-29 2022-11-22 河南大学 基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统
CN114512180A (zh) * 2022-02-15 2022-05-17 哈尔滨工业大学 基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法及装置
CN114512180B (zh) * 2022-02-15 2023-07-21 哈尔滨工业大学 基于蛋白质表面低熵水合层识别的蛋白质-蛋白质对接方法及装置
CN114927165B (zh) * 2022-07-20 2022-12-02 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN114927165A (zh) * 2022-07-20 2022-08-19 深圳大学 泛素化位点的识别方法、装置、系统和存储介质
CN115620803A (zh) * 2022-11-02 2023-01-17 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN115620803B (zh) * 2022-11-02 2023-10-20 南京理工大学 一种基于跨图注意力的蛋白质相互作用点位预测方法
CN115620807B (zh) * 2022-12-19 2023-05-23 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115620807A (zh) * 2022-12-19 2023-01-17 粤港澳大湾区数字经济研究院(福田) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN115631786A (zh) * 2022-12-22 2023-01-20 中国中医科学院中医药信息研究所 一种基于3d蛋白质结构卷积神经网络的虚拟筛选方法、装置和执行设备
CN115631786B (zh) * 2022-12-22 2023-04-07 中国中医科学院中医药信息研究所 一种虚拟筛选方法、装置和执行设备

Also Published As

Publication number Publication date
CN113593633B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN113593633B (zh) 基于卷积神经网络的药物-蛋白相互作用预测模型
Jin et al. Application of deep learning methods in biological networks
Zitnik et al. Predicting multicellular function through multi-layer tissue networks
Arora et al. Classification of Maize leaf diseases from healthy leaves using Deep Forest
Kozlovskii et al. Spatiotemporal identification of druggable binding sites using deep learning
Higham et al. Fitting a geometric graph to a protein–protein interaction network
Dutkowski et al. Identification of functional modules from conserved ancestral protein–protein interactions
JP2019534525A (ja) サンプルトラッキングチェーンを介したサンプルトラッキングシステムおよび方法
Matsubara et al. Convolutional neural network approach to lung cancer classification integrating protein interaction network and gene expression profiles
Sael et al. Detecting local ligand‐binding site similarity in nonhomologous proteins by surface patch comparison
Shi et al. Feature selection for object-based classification of high-resolution remote sensing images based on the combination of a genetic algorithm and tabu search
Ullah et al. PScL-HDeep: image-based prediction of protein subcellular location in human tissue using ensemble learning of handcrafted and deep learned features with two-layer feature selection
CN110957002A (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN110327018A (zh) 稀疏度自适应组正交匹配追踪的激发荧光断层重建方法
Abudalfa et al. K-means algorithm with a novel distance measure
Yu et al. Quantization-based clustering algorithm
Tavanaei et al. A deep learning model for predicting tumor suppressor genes and oncogenes from PDB structure
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
Kepner et al. Mathematics of Big Data
Wu et al. AttentionMGT-DTA: A multi-modal drug-target affinity prediction using graph transformer and attention mechanism
Wang et al. An ensemble learning framework for detecting protein complexes from PPI networks
Kim et al. Discover protein complexes in protein-protein interaction networks using parametric local modularity
Wong et al. PLW: Probabilistic Local Walks for detecting protein complexes from protein interaction networks
Ko et al. Grouping matrix based graph pooling with adaptive number of clusters
Noviandy et al. Classifying Beta-Secretase 1 Inhibitor Activity for Alzheimer’s Drug Discovery with LightGBM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant