CN112599187B - 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 - Google Patents

一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 Download PDF

Info

Publication number
CN112599187B
CN112599187B CN202011510053.XA CN202011510053A CN112599187B CN 112599187 B CN112599187 B CN 112599187B CN 202011510053 A CN202011510053 A CN 202011510053A CN 112599187 B CN112599187 B CN 112599187B
Authority
CN
China
Prior art keywords
drug
target protein
neural network
convolution
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011510053.XA
Other languages
English (en)
Other versions
CN112599187A (zh
Inventor
刘娟
张健
朱学凯
冯晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011510053.XA priority Critical patent/CN112599187B/zh
Publication of CN112599187A publication Critical patent/CN112599187A/zh
Application granted granted Critical
Publication of CN112599187B publication Critical patent/CN112599187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,包括:S1、根据药物的SMILES序列生成药物的指纹向量;S2、根据靶标蛋白的氨基酸序列生成靶标蛋白的指纹向量;S3、将蛋白指纹和药物指纹输入非卷积神经网络,将蛋白序列与药物序列输入卷积神经网络;S4、利用attention机制融合两种神经网络提取的特征;S5、将融合的特征输入多层感知机,得到最终的双流神经网络,进而得到药物与靶标蛋白结合分数。本发明通过融合两种类别神经网络的方法,来提取单一神经网络难以提取完全的特征,再通过多层感知机预测药物与靶标蛋白结合分数,提升模型在药物与靶标蛋白结合分数预测上的准确率。

Description

一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
技术领域
本发明涉及生物信息学中药物与靶标蛋白的结合分数预测领域,适用于药物筛选、老药新用、新药发现等场景。
背景技术
通过湿实验来筛选可以结合靶标蛋白的药物分子是新药发现研究的重要手段,然而湿实验的工作量大、耗时长,依赖运气的成分大,以科学的方法指导实验则显得尤为重要。目前常用的筛选药物的手段有三种:(1)建立高通量的药物筛选系统,批次性进行大量对比实验,例如通过生物传感器或流式细胞仪等技术来大批量筛选药物分子,这些技术使得实验变得规模小、可并行且容易比较。(2)基于计算机分子对接模拟来预测药物分子与靶标蛋白的可能结合位点,为进一步生化实验提供理论依据。(3)通过建立机器学习模型来学习大量已有的药物与靶标蛋白结合数据,预测可能未被发现的药物与靶标蛋白结合潜力,此方法又被称为药物重定向或老药新用。
随着人工智能、神经网络等技术的发展,利用海量药物与靶标蛋白结合数据来发现潜在药物的研究越来越多,但在模型预测准确度方面依然有较大的提升空间,通过建立神经网络模型来指导药物研发仍然有很长的一段路要走。
近些年,利用卷积神经网络模型来预测药物与靶标蛋白结合分数的方法已经被证明比传统的基于非卷积神经网络模型预测的方法更为准确。而同时整合卷积神经网络提取特征与非卷积神经网络提取特征来建立模型预测药物与靶标蛋白结合分数的方法还没有报道。单纯通过卷积神经网络提取特征会缺失部分有效数据,其可能原因有二:第一,蛋白序列较长,没有合适的提取蛋白指纹的方法。第二,以往输入非卷积神经网络模型的大多是蛋白的物化特征,而物化特征不能完全反应一个蛋白的整体性质。因此我们需要提出一种新的有效提取蛋白指纹的方法来构建这样的双流模型,提高药物与靶标蛋白结合分数预测的准确度。
发明内容
本发明目的在于提供一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其主要解决的问题是建立更有效的药物与靶标蛋白结合分数预测的神经网络模型,提高预测准确度,为药物筛选、老药新用、新药发现等提供科学指导,提高药物筛选效率,降低药物筛选成本。
具体地,一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其包括以下步骤:
步骤一,基于药物的SMILES序列,使用RDKit工具生成该药物的ECFP指纹向量;
步骤二,基于靶标蛋白的氨基酸序列,利用滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,根据模型训练的结果将每个片段的编码向量进行层次聚类,根据靶标蛋白所拥有的片段类别生成该蛋白的指纹;
步骤三,将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出,将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出;
步骤四,将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征,将以上得到的四组特征合并为一个向量;
步骤五,将融合的特征输入多层全连接层组成的多层感知机,得到最终的双流神经网络模型,双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。
进一步的,步骤二的具体实现方式如下,
基于靶标蛋白的氨基酸序列,用长度为5的滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,sg参数取0,窗口大小设为4,去除出现次数小于3的片段,迭代1000次,根据模型训练的结果将每个片段的32维编码向量进行层次聚类,将在序列上多次按相同顺序出现,且只在个别片段上有差异的片段视为一类片段,共1024类片段,根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量,即该蛋白的指纹,它反映了该蛋白中拥有的子结构。
进一步的,步骤三中非卷积神经网络包括两层全连接层,两层全连接层的神经元个数分别为512、96,且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能;
卷积神经网络由三个一维dense卷积块串联而成,每个一维dense块由四层卷积层组成,每一层的输出与该一维dense卷积块中前几层的输出相连,作为下一卷积层的输入,每一层的通道数随着层数的增加而线性增加,四层的输出合并在一起经过relu函数激活,作为此一维 dense卷积块的输出,三个一维dense块中的卷积层使用相同的参数,卷积核的大小分别为1、3、 5、7,边缘补齐的padding值分别为0、1、2、3,三个一维dense卷积块的输出通道数分别为128、 256、96。
进一步的,步骤五中多层感知机由4个卷积层组成,其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能,全连接层的神经元个数分别为1024、1024、512、 1。
进一步的,步骤四的具体实现方式如下,
S401,对步骤三 中得到的药物的卷积输出xi与靶标蛋白的卷积输出xj分别经过线性变换用tanh函数做非线性激活,公式为yi=tanh(wixi+bi),yj=tanh(wjxj+bj),其中wi、wj为线性变换的权重向量,bi、bj为线性变换的偏置向量;
S402,对步骤S401中得到的yi和yj做relu激活,再相互做叉乘操作,得到一个attention矩阵,反映该药物的某个子结构对该蛋白的某个子结构的作用分数,其公式为attenij=relu(yi)×relu(yj);
S403,对步骤S402中得到的相互作用分数对列求和,得作用于药物的attention分数,其公式为atteni=∑jattenij,再对步骤S402中得到的相互作用分数对行求和,得作用于靶标蛋白的 attention分数,其公式为attenj=∑iattenij
S404,将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出,经过最大池化得到两组特征xd、xp,其公式分别为xd=maxpooli(xi*atteni)和 xp=maxpoolj(xj*attenj);
S405、将步骤S403中得到的作用于药物的attention分数atteni在药物序列维度上求和,作为作用于药物指纹d的attention分数,其公式为d*=d*∑iatteni;将步骤S403中得到的作用于蛋白的attention分数attenj在蛋白序列维度上求和,作为作用于蛋白指纹p的attention分数,其公式为p*=p*∑jattenj;这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散。
进一步的,步骤五中所述双流神经网络模型所使用的损失函数为方差损失函数,损失函数定义如下所示,
Cost=(affinity-predict)2
其中affinity为实际药物与靶标蛋白的结合分数,predict为预测的药物与靶标蛋白的结合分数。
进一步的,步骤五中所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法,训练过程中每个批次输入n个样本,所有批次训练完成为一轮,每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数,训练m轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。
本发明与现有技术相比,具有以下优点:
1.本发明提出了一种有效生成可以表示蛋白质子结构有无的指纹方法,利用自然语言模型word2vec能将经常同时出现的片段编码为距离相近的向量的特点,将蛋白片段分类,每种类别可解释为一种蛋白的子结构,解决了长序列蛋白难以编码成指纹的问题。
2.本发明改进了经典的卷积神经网络模型,利用参数相同的一维dense卷积块构建网络,提取的特征在拟合药物与蛋白结合分数方面更加有效。
3.本发明使用了attention机制来提高提取特征的有效性,其步骤有可解释的生物学意义。
4.本发明提出了结合卷积神经网络与非卷积神经网络提取特征构建双流神经网络模型的方法,相比于单纯利用卷积神经网络构建模型的方法,提高了模型的准确率,为药物筛选、老药新用、新药发现等提供科学的指导。
附图说明
图1为本发明的工作流程示意图;
图2为本发明生成蛋白指纹的流程示意图;
图3为本发明的双流神经网络模型示意图。
具体实施方式
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
具体地,本发明提供一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,如图 1所示,其包括以下步骤:
步骤一:基于药物的SMILES序列,使用RDKit工具生成药物的ECFP指纹向量。
步骤二:基于靶标蛋白的氨基酸序列,用长度为5的滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,sg参数取0,窗口大小设为4,去除出现次数小于3的片段,迭代1000次,根据模型训练的结果将每个片段的32维编码向量进行层次聚类,将在序列上多次按相同顺序出现,且只在个别片段上有差异的片段视为一类片段,共1024类片段,根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量,即该蛋白的指纹,它反映了该蛋白中拥有的子结构。
步骤三:将药物的ECFP指纹和靶标蛋白指纹分别输入相应的两层全连接层组成的非卷积神经网络,得到药物与靶标蛋白的非卷积输出,两层全连接层的神经元个数分别为512、96,且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能。
将药物序列字符串与靶标蛋白序列字符串编码成one-hot的矩阵,分别输入相应的由三个一维dense卷积块串联而成的卷积神经网络,每个一维dense块由四层卷积层组成,每一层的输出与该一维dense块中前几层的输出相连,作为下一卷积层的输入,每一层的通道数随着层数的增加而线性增加,四层的输出合并在一起经过relu函数激活,作为此一维dense块的输出,三个一维dense块中的卷积层使用相同的参数,卷积核的大小分别为1、3、5、7,边缘补齐的 padding值分别为0、1、2、3,三个一维dense卷积块的输出通道数分别为128、256、96。
步骤四:将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化步骤得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention 操作得到一组特征,将以上得到的四组特征合并为一个向量。
步骤五:将融合的特征输入四层全连接层组成的多层感知机,其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能,全连接层的神经元个数分别为1024、 1024、512、1,得到本专利所提出的双流神经网络模型,模型的输出即为拟合得到药物与靶标蛋白的结合分数。
进一步,步骤四的具体实现方式如下:
S401、对步骤三 中得到的药物的卷积输出xi与靶标蛋白的卷积输出xj分别经过线性变换用tanh函数做非线性激活,公式为yi=tanh(wixi+bi),yj=tanh(wjxj+bj),其中wi、wj为线性变换的权重向量,bi、bj为线性变换的偏置向量;
S402、对步骤S401中得到的yi和yj做relu激活,再相互做叉乘操作,得到一个attention矩阵,反映该药物的某个子结构对该蛋白的某个子结构的作用分数,其公式为attenij=relu(yi)×relu(yj);
S403、对步骤S402中得到的相互作用分数对列求和,得作用于药物的attention分数,公式分别为atteni=∑jattenij,再对步骤S402中得到的相互作用分数对行求和,得作用于靶标蛋白的attention分数,其公式为attenj=∑iattenij
S404、将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出,经过最大池化步骤得到两组特征xd、xp,其公式分别为xd=maxpooli(xi*atteni)和xp=maxpoolj(xj*attenj);
S405、将步骤S403中得到的作用于药物的attention分数atteni在药物序列维度上求和,作为作用于药物指纹d的attention分数,公式为d*=d*∑iatteni;将步骤S403中得到的作用于蛋白的attention分数attenj在蛋白序列维度上求和,作为作用于蛋白指纹p的attention分数, p*=p*∑jattenj,这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散;
进一步,所述双流神经网络模型预测药物与靶标蛋白结合分数的能力可以使用KIBA数据集(kinase inhibitor bioactivity data sets)进行验证,该数据集整合了Davis、Taipale、 Anastassiadis、Metz四种数据集的数据,涉及229种靶标蛋白,2111种药物小分子,118254种药物与靶标蛋白的结合分数。
进一步,所述双流神经网络模型所使用的损失函数为方差损失函数,损失函数定义如下所示,其中affinity为实际药物与靶标蛋白的结合分数,predict为预测的药物与靶标蛋白的结合分数:
Cost=(affinity-predict)2
进一步,所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法,训练过程中每个批次输入256个样本,所有批次训练完成为一轮,每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数,训练300轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。
本发明实施案例在KIBA数据集上五倍交叉验证的测试结果如表1所示,结果的格式为“平均值(标准差)”:
表1本发明模型与单独使用卷积或非卷积模型在KIBA数据集的预测对比
标准差(MSE) 一致性指数(CI) 回归系数(r2)
单独卷积神经网络模型 0.169(0.001) 0.874(0.002) 0.693(0.013)
单独非卷积神经网络模型 0.158(0.001) 0.879(0.001) 0.723(0.003)
本发明模型 0.150(0.001) 0.887(0.001) 0.759(0.012)
本模型预测药物与靶标蛋白结合分数的能力比单独使用卷积神经网络模型和单独使用非卷积神经网络模型更好,标准差更小,一致性指数与回归系数更高。
本发明与经典单独使用非卷积神经网络构建模型的五倍交叉验证测试结果如表2所示,结果的格式为“平均值(标准差)”:
表2本发明模型与现有卷积模型在KIBA数据集的预测对比
标准差(MSE) 一致性指数(CI) 回归系数(r2)
本发明模型 0.150(0.001) 0.887(0.001) 0.759(0.012)
DeepDTA 0.186(0.003) 0.854(0.002) 0.677(0.005)
AttentionDTA 0.174(0.002) 0.861(0.002) 0.697(0.004)
本模型预测药物与靶标蛋白结合分数的能力比单独使用卷积神经网络的标准模型更好,标准差更小,一致性指数与回归系数更高。
本发明中利用基于自然语言处理方法提取的蛋白的指纹,为模型预测药物与靶标蛋白结合分数提供了新的特征。将从药物与靶标蛋白的序列提取的指纹输入非卷积神经网络得到的特征,与药物与靶标蛋白的序列one-hot矩阵输入由一维dense卷积块组成的卷积网络提取的特征,通过attention机制整合,其预测药物与靶标蛋白结合分数的效果比以往单纯利用卷积网络提取特征的效果要好很多,为辅助药物研发人员进行分子筛选、药物重定位以及新药发现提供了科学的依据,据有一定的指导意义,本发明提出的模型可以提高药物筛选效率,降低药物筛选成本。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于,包括如下步骤:
步骤一,基于药物的SMILES序列,生成药物的ECFP指纹向量;
步骤二,基于靶标蛋白的氨基酸序列,利用滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,根据模型训练的结果将每个片段的编码向量进行层次聚类,根据靶标蛋白所拥有的片段类别生成该蛋白的指纹;
步骤三,将药物的ECFP指纹和靶标蛋白指纹输入由全连接层组成的非卷积神经网络得到非卷积输出,将药物序列与靶标蛋白序列对应的one-hot编码向量输入由一维dense卷积块组成的卷积神经网络得到卷积输出;
步骤四,将从药物序列与靶标蛋白序列的卷积输出互相做attention操作,经过最大池化得到两组特征,将药物的卷积输出在通道维度上求和后对药物非卷积输出做attention操作得到一组特征,将靶标蛋白的卷积输出在通道维度上求和后对靶标蛋白非卷积输出做attention操作得到一组特征,将以上得到的四组特征合并为一个向量;
步骤四的具体实现方式如下,
S401,对步骤三 中得到的药物的卷积输出xi与靶标蛋白的卷积输出xj分别经过线性变换用tanh函数做非线性激活,公式为yi=tanh(wixi+bi),yj=tanh(wjxj+bj),其中wi、wj为线性变换的权重向量,bi、bj为线性变换的偏置向量;
S402,对步骤S401中得到的yi和yj做relu激活,再相互做叉乘操作,得到一个attention矩阵,反映该药物的某个子结构对该蛋白的某个子结构的作用分数,其公式为attenij=relu(yi)×relu(yj);
S403,对步骤S402中得到的相互作用分数对列求和,得作用于药物的attention分数,其公式为atteni=∑jattenij,再对步骤S402中得到的相互作用分数对行求和,得作用于靶标蛋白的attention分数,其公式为attenj=∑iattenij
S404,将步骤S403中得到的attention分数作用于药物的卷积输出与靶标蛋白的卷积输出,经过最大池化得到两组特征xd、xp,其公式分别为xd=maxpooli(xi*atteni)和xp=maxpoolj(xj*attenj);
S405、将步骤S403中得到的作用于药物的attention分数atteni在药物序列维度上求和,作为作用于药物指纹d的attention分数,其公式为d*=d*∑iatteni;将步骤S403中得到的作用于蛋白的attention分数attenj在蛋白序列维度上求和,作为作用于蛋白指纹p的attention分数,其公式为p*=p*∑jattenj;这一步的目的是使卷积得到的特征分布与非卷积得到的特征分布不要过于分散;
步骤五,将融合的特征输入多层全连接层组成的多层感知机,得到最终的双流神经网络模型,双流神经网络模型的输出即为拟合得到的药物与靶标蛋白的结合分数。
2.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤二的具体实现方式如下,
基于靶标蛋白的氨基酸序列,用长度为n1的滑动窗口生成一系列片段,将数据集中所有片段视为单词,训练word2vec模型,sg参数取0,窗口大小设为n2,去除出现次数小于n3的片段,迭代若干次,根据模型训练的结果将每个片段的n3维编码向量进行层次聚类,将在序列上多次按相同顺序出现,且只在个别片段上有差异的片段视为一类片段,共n4类片段,根据这些片段在蛋白序列中的有无将该蛋白编码为one-hot向量,即该蛋白的指纹,它反映了该蛋白中拥有的子结构。
3.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤三中非卷积神经网络包括两层全连接层,两层全连接层的神经元个数分别为512、96,且两层全连接层之间使用丢失率为0.5的dropout层来提升泛化性能;
卷积神经网络由三个一维dense卷积块串联而成,每个一维dense块由四层卷积层组成,每一层的输出与该一维dense卷积块中前几层的输出相连,作为下一卷积层的输入,每一层的通道数随着层数的增加而线性增加,四层的输出合并在一起经过relu函数激活,作为此一维dense卷积块的输出,三个一维dense块中的卷积层使用相同的参数,卷积核的大小分别为1、3、5、7,边缘补齐的padding值分别为0、1、2、3,三个一维dense卷积块的输出通道数分别为128、256、96。
4.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤五中多层感知机由4个卷积层组成,其中前三层全连接层两两之间有一个丢失率为0.5的dropout层用于提高泛化性能,全连接层的神经元个数分别为1024、1024、512、1。
5.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤五中所述双流神经网络模型所使用的损失函数为方差损失函数,损失函数定义如下所示,
Cost=(affinity-predict)2
其中affinity为实际药物与靶标蛋白的结合分数,predict为预测的药物与靶标蛋白的结合分数。
6.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤五中所述双流神经网络模型的训练算法为学习率为0.0001的adam反向传播算法,训练过程中每个批次输入n个样本,所有批次训练完成为一轮,每一轮训练视测试集上的方差损失函数的大小来决定是否保留这一次的训练参数,训练m轮后得到的参数最优的模型为最终使用的药物与靶标蛋白结合分数的预测模型。
7.如权利要求1所述的一种基于双流神经网络预测药物与靶标蛋白结合分数的方法,其特征在于:步骤一中使用RDKit工具生成药物的ECFP指纹向量。
CN202011510053.XA 2020-12-18 2020-12-18 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 Active CN112599187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011510053.XA CN112599187B (zh) 2020-12-18 2020-12-18 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011510053.XA CN112599187B (zh) 2020-12-18 2020-12-18 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法

Publications (2)

Publication Number Publication Date
CN112599187A CN112599187A (zh) 2021-04-02
CN112599187B true CN112599187B (zh) 2022-03-15

Family

ID=75200057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011510053.XA Active CN112599187B (zh) 2020-12-18 2020-12-18 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法

Country Status (1)

Country Link
CN (1) CN112599187B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160894B (zh) * 2021-04-23 2023-10-24 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113284553B (zh) * 2021-05-28 2023-01-10 南昌大学 一种用于治疗药物成瘾的药物靶点结合能力测试方法
CN113593633B (zh) * 2021-08-02 2023-07-25 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
CN114496303B (zh) * 2022-01-06 2024-06-04 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298674A (zh) * 2010-06-25 2011-12-28 清华大学 基于蛋白质网络的药物靶标确定和/或药物功能确定方法
CN102930169A (zh) * 2012-11-07 2013-02-13 景德镇陶瓷学院 基于灰色理论和分子指纹的药物-靶标结合预测方法
CN106446607A (zh) * 2016-09-26 2017-02-22 华东师范大学 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200392178A1 (en) * 2019-05-15 2020-12-17 International Business Machines Corporation Protein-targeted drug compound identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298674A (zh) * 2010-06-25 2011-12-28 清华大学 基于蛋白质网络的药物靶标确定和/或药物功能确定方法
CN102930169A (zh) * 2012-11-07 2013-02-13 景德镇陶瓷学院 基于灰色理论和分子指纹的药物-靶标结合预测方法
CN106446607A (zh) * 2016-09-26 2017-02-22 华东师范大学 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Toward Explainable Anticancer Compound Sensitivity Prediction via Multimodal Attention-Based Convolutional Encoders》;Matteo Manica,et al;《Molecular Pharmaceutics》;20191016;第4797-4806页 *
《基于机器学习的药物—靶标相互作用预测研究》;王磊;《中国优秀博硕士学位论文全文数据库(博士)医药卫生科技辑》;20190115(第1期);第E079-18页 *

Also Published As

Publication number Publication date
CN112599187A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN113362963B (zh) 基于多源异构网络的预测药物之间副作用的方法及系统
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
Wu et al. Classification of a DNA microarray for diagnosing cancer using a complex network based method
CN114420310A (zh) 基于图转换网络的药物ATCCode预测方法
Mitra et al. Genetic networks and soft computing
CN113257357B (zh) 蛋白质残基接触图预测方法
Zaki et al. Identifying protein complexes in protein-protein interaction data using graph convolutional network
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN112652355A (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
CN113178232A (zh) 一种circRNA和疾病关联关系的高效预测方法
CN113436729A (zh) 一种基于异构图卷积神经网络的合成致死相互作用预测方法
CN115376704A (zh) 一种融合多邻域关联信息的药物-疾病相互作用预测方法
CN110534153B (zh) 基于深度学习的靶标预测系统及其方法
Wang et al. LDS-CNN: A deep learning framework for drug-target interactions prediction based on large-scale drug screening
CN116798652A (zh) 一种基于多任务学习的抗癌药物反应预测方法
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
Koca et al. Graph convolutional network based virus-human protein-protein interaction prediction for novel viruses
Iraji et al. Druggable protein prediction using a multi-canal deep convolutional neural network based on autocovariance method
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant