CN110689965A - 一种基于深度学习的药物靶点亲和力预测方法 - Google Patents

一种基于深度学习的药物靶点亲和力预测方法 Download PDF

Info

Publication number
CN110689965A
CN110689965A CN201910956294.8A CN201910956294A CN110689965A CN 110689965 A CN110689965 A CN 110689965A CN 201910956294 A CN201910956294 A CN 201910956294A CN 110689965 A CN110689965 A CN 110689965A
Authority
CN
China
Prior art keywords
protein
compound
sequence
deep learning
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910956294.8A
Other languages
English (en)
Other versions
CN110689965B (zh
Inventor
李巧勤
刘勇国
杨尚明
李杨
兰荻
蔡茁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910956294.8A priority Critical patent/CN110689965B/zh
Publication of CN110689965A publication Critical patent/CN110689965A/zh
Application granted granted Critical
Publication of CN110689965B publication Critical patent/CN110689965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Toxicology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习的药物靶点亲和力预测方法,涉及药物靶点亲和力预测技术领域,其包括:从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据;对化合物进行编码,使用位置特异性打分矩阵表示蛋白质;将化合物标签编码输入CNN模型中,对化合物进行特征提取,得到化合物的分子表示;将蛋白质的位置特异性打分矩阵输入LSTM模型中,对蛋白质序列进行特征提取,学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系,得到蛋白质的序列表示;将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中,对化合物和蛋白质相互作用的亲和力进行预测。该方法能更准确地预测药物和靶点之间的亲和力关系。

Description

一种基于深度学习的药物靶点亲和力预测方法
技术领域
本发明涉及药物靶点亲和力预测技术领域,具体而言,涉及一种基于深度学习的药物靶点亲和力预测方法。
背景技术
药物的靶点是指药物与机体生物大分子的结合部位,药物作用靶点涉及受体、酶、离子通道、转运体、免疫系统、基因等。药物分子大多通过与人体内靶标分子的相互作用产生疗效,因此靶点选择是药物研发中十分关键的一个步骤。新的药物作用靶点发现往往是新药发现的突破口。药物-靶点相互作用(drug-target interactions,DTI)预测是药物发现过程中重要的部分。随着生物信息学的发展和公开数据集的不断扩充,使用不同的计算方法进行药物-靶点相互作用预测成为可能,这不仅大大缩短了药物研发的时间,减少了药物研发的费用,也降低了在研究早期阶段由于靶点错误定位给新药研发带来的损失。
长期以来,药物-靶点相互作用预测被认为是二元分类问题,即预测药物和靶点之间有无相互作用,这种建模问题的方法忽略了药物-靶点相互作用之间的结合亲和力。结合亲和力提供了药物-靶点对之间相互作用强度的信息,通常以解离常数(Kd)、抑制常数(Ki)、半数抑制浓度(IC50)进行度量。将药物-靶点相互作用预测的任务转化为药物-靶点相互作用亲和力预测,能预测出更精确的结果。
目前在药物-靶点相互作用亲和力预测任务中,SimBoost模型使用梯度增强机器预测药物-靶点对的结合亲和力,包括特征工程、梯度增强和预测药物-靶点对的结合亲和力区间三个步骤,是一种基于特征的预测方法。DeepDTA模型目前对药物进行SMILES分子指纹编码,对靶点使用标签进行编码,分别输入到卷积神经网络中提取药物和靶点的向量表示,输入到全连接层,最后输出药物-靶点的相互作用亲和力。
上述的药物-靶点相互作用预测取得一定进展,但仍存在以下问题:
1、将药物-靶点相互作用预测任务建模成二元分类问题,这种建模问题的方法忽略了药物-靶点相互作用之间的结合亲和力,造成最后预测药物-靶点相互作用准确度不高;
2、将药物-靶点相互作用预测任务转化成药物-靶点相互作用亲和力预测,目前存在的方法可以学习到药物和蛋白质的一维结构特征,不能学习到靶点蛋白结构中氨基酸之间的次序关系,影响预测精度。
发明内容
本发明在于提供一种基于深度学习的药物靶点亲和力预测方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
本发明提供了一种基于深度学习的药物靶点亲和力预测方法,包括以下步骤:
S1、数据准备,从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据;
S2、数据处理,对化合物进行编码,使用分子指纹表示,生成标签编码,对蛋白质进行序列表示,使用位置特异性打分矩阵表示蛋白质;
S3、化合物特征提取,构建CNN模型,将标签编码输入CNN模型中,对化合物进行特征提取,得到化合物的分子表示;
S4、蛋白质特征提取,构建LSTM模型,将蛋白质的位置特异性打分矩阵输入LSTM模型中,对蛋白质序列进行特征提取,学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系,得到蛋白质的序列表示;
S5、结果预测,将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中,对化合物和蛋白质相互作用的亲和力进行预测,并输出化合物和蛋白质相互作用的亲和力表示,完成药物和靶点的亲和力预测。
本技术方案的技术效果是:针对蛋白质序列,使用位置特异性打分矩阵表示蛋白质,不仅描述了顺序信息,而且还保留了足够的先验信息,使用LSTM模型,学习靶点蛋白结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系,使得蛋白质的序列表示更好的代表了蛋白质的特征,最终更准确地预测药物和靶点之间的亲和力关系。
可选地,所述步骤S2中,对化合物进行编码具体包括:通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码,每一项ASCII编码代表化合物的一个子结构特征。
本技术方案的技术效果是:化合物的化学结构式能够抓住化学结构信息表述问题的实质、体现化学结构主要特征,使用化学结构进行分子的SMILES编码,可以简明而准确地表达出整个分子的化学结构特性,便于输入到CNN模型中。
可选地,所述步骤S2中,位置特异性打分矩阵PSSM表示为n×20矩阵M={Mi→j,i=1…n,j=1…20},矩阵元素Mi→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸i的可能性,数字越大,在进化过程中被取代的可能性越高,n表示给定蛋白质序列中残基总数。
本技术方案的技术效果是:使用位置特异性打分矩阵表示蛋白质不仅描述了蛋白质序列中氨基酸之间的顺序信息,而且还保留了足够的先验信息,引入蛋白质进化信息,因此它可以从给定的蛋白质序列中获取丰富的信息。
可选地,所述步骤S3中,CNN模型包括三个连续的卷积层和一个最大池化层。
本技术方案的技术效果是:卷积层使用卷积核提取化合物的特征,经过三个卷积层的特征提取,得到不同尺度的化合物的抽象表达,同时也发生了维度增加的情况。使用最大池化层进行特征降维,可以压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。
可选地,所述步骤S4中,LSTM模型具有输入门、忘记门和输出门三种门结构,保持和更新记忆单元状态的公式如下:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+bo)
ht=ottanh(ct)
其中,σ和tanh表示sigmoid激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,o表示输出门,ht表示时间步t时的LSTM隐藏单元输出,W和b分别表示训练的权重矩阵和偏置参数。
本技术方案的技术效果是:对于蛋白质序列氨基酸之间的复杂的远程相互作用,由于LSTM通过训练过程可以学习记忆和遗忘信息,使用LSTM模型不仅可以处理序列之间的远程依赖的问题,还可以避免梯度消失的问题。
可选地,所述LSTM模型为双向模型,设一个递归神经网络从前往后计算隐向量为
Figure BDA0002227413600000031
另一个递归神经网络从后往前计算隐向量为
Figure BDA0002227413600000032
Figure BDA0002227413600000041
本技术方案的技术效果是:为了更有效地提取并强化蛋白质序列的氨基酸残基之间复杂的长距离依赖信息,采用双向LSTM模型自动提取蛋白质序列的氨基酸残基之间的远程依赖关系;双向LSTM模型基于前面氨基酸残基和后面氨基酸残基提取特征,减少丢失前后氨基酸残基信息的情况。
可选地,所述步骤S5中,全连接层从前至后依次有三层,前两层中使用1024个节点,每个节点后面跟着一个速率为0.1的dropout层,第三层由512个节点组成。
本技术方案的技术效果是:全连接层则起到将学习到的特征表示映射到样本标记空间的作用。由于在全连接层之前,神经元数目过大,有可能出现过拟合的情况,因此,引入的dropout层可以随机删除神经网络中的部分神经元,解决过拟合的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中所述基于深度学习的药物靶点亲和力预测方法流程示意图;
图2是本发明实施例中所述基于深度学习的药物靶点亲和力预测方法的预测模型结构图;
图3是本发明实施例中展开的双向LSTM图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参照图1和图2,本发明提供了一种基于深度学习的药物靶点亲和力预测方法,包括以下步骤:
S1、数据准备,从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据;
S2、数据处理,对化合物进行编码,使用分子指纹表示,生成标签编码,对蛋白质进行序列表示,使用位置特异性打分矩阵表示蛋白质;
S3、化合物特征提取,构建CNN模型,将标签编码输入CNN模型中,对化合物进行特征提取,得到化合物的分子表示;
S4、蛋白质特征提取,构建LSTM模型,将蛋白质的位置特异性打分矩阵输入LSTM模型中,对蛋白质序列进行特征提取,学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系,得到蛋白质的序列表示;
S5、结果预测,将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中,对化合物和蛋白质相互作用的亲和力进行预测,并输出化合物和蛋白质相互作用的亲和力表示,完成药物和靶点的亲和力预测。
在本实施例中,所采用的原始数据来自于两个不同的数据集,Davis数据集和KIBA数据集,其中,Davis数据集包含442种蛋白质,68种化合物和30056条相互作用关系;KIBA数据集包含229种蛋白质,2111种化合物和118254条相互作用关系。Davis数据集来源于论文Davis M I,Hunt JP,Herrgard S,et al.Comprehensive analysis of kinase inhibitorselectivity[J].Nature Biotechnology,2011,29(11):1046-1051。KIBA数据集来源于论文Tang J,Szwajda A,Shakyawar S,et a1.Making Sense of Large-Scale KinaseInhibitor Bioactivity Data Sets:A Comparative and Integrative Analysis[J].Journal of Chemical Information and Modeling,2014,54(3):735-743。
在本实施例中,对化合物进行编码,便于更好地处理化合物结构数据。
在本实施例中,将位置特异性打分矩阵(PSSM)作为蛋白质序列的编码方法,可以将蛋白质数据库中蛋白质序列与公开的已知结构和功能的蛋白质进行比对并打分,将蛋白质原始序列进行PSSM表示后可以包含蛋白质序列和蛋白质进化信息。公开的已知结构和功能的蛋白质从nr数据库获取,可以从https://卸.ncbi.nlm.nih.gov/blast/db/FASTA/获取。使用位置特异性打分矩阵表示蛋白质不仅描述了蛋白质序列中氨基酸之间的顺序信息,而且还保留了足够的先验信息,因此它可以从给定的蛋白质序列中获取有用的信息
在本实施例中,提出了基于CNN+LSTM的预测模型,分成一个CNN模型,一个LSTM模型,使用全连接层进行预测,预测模型结构如图2所示。
在本实施例中,使用CNN模型对化合物结构进行特征提取,能够从分子指纹中学习到化合物的高维结构特征。
在本实施例中,使用LSTM模型对蛋白质序列进行特征提取,有效捕获蛋白质序列的次序关系的特征、进化信息的特征,从蛋白质序列中学习表示。LSTM是对传统递归神经网络的改进,它用记忆单元替换了传统递归神经网络的隐函数。这样的改进使LSTM可以记忆比传统递归神经网络更长范围的上下文。
实施例2
针对实施例1中的步骤S2,对化合物进行编码具体包括:通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码,每一项ASCII编码代表化合物的一个子结构特征。
在本实施例中,是从TCMSP数据库下载保存化学结构信息的.mol格式文件,使用Openbabel处理.mol格式文档,计算出化合物的SMILES分子结构规范,再使用R语言的“rcdk”包中的“get.fingerprint”函数可以对药物分子的SMILES编码进行计算。
化合物的SMILES分子指纹表示示例:SMILES分子指纹carbon dioxide‘O=C=O’。化合物是由字母和符号表示,为了算法更好的进行操作处理,将字母和符号标记转化为数值形式,使用整数表示字母和符号,用整数和SMILES分子指纹进行一一对应,例如,‘C’:1,‘O’:2,’=:63,则‘O=C=O’的标签编码如下:[O=C=O]=[2 63 1 63 2]。
实施例3
针对实施例1中的步骤S2,由于天然蛋白质水解得到的氨基酸有30多种,基本氨基酸有20种,每种蛋白质一般都由这20种常见的氨基酸组成,因此位置特异性打分矩阵PSSM可表示为n×20矩阵M={Mi→j,i=1…n,j=1…20},矩阵元素Mi→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸j的可能性,数字越大,在进化过程中被取代的可能性越高,n表示给定蛋白质序列中残基总数。
在本实施例中,PSSM的获取要通过PSI-BLAST软件在nr数据库(非冗余蛋白质数据库)中进行氨基酸多序列对比来寻找同源序列,形式化定义如下式:
Figure BDA0002227413600000071
PSSM中每一行的数字加起来和为1。
实施例4
针对实施例1中的步骤S3,CNN模型包括三个连续的卷积层和一个最大池化层。
在本实施例中,CNN模型的第二层具有二倍于第一层中的滤波器数量,第三层具有三倍于第一层中的滤波器数量;在卷积层之后是最大池化层,最大池化层的最终特征被连接并送入FC层;多层卷积层和池化层交替排列自主学习,在保留训练样本主要特征的同时防止过拟合,并提高模型泛化能力。激活函数选择ReLU,g(x)=max(0,x)。
实施例5
针对实施例1中的步骤S4,LSTM模型具有输入门、忘记门和输出门三种门结构,保持和更新记忆单元状态的公式如下:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+bo)
ht=ottanh(ct)
其中,σ和tanh表示sigmoid激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,o表示输出门,ht表示时间步t时的LSTM隐藏单元输出,W和b分别表示训练的权重矩阵和偏置参数。
传统的递归神经网络是从序列的一端向另一端逐个读取输入数据,所以任意时刻递归神经网络里存储的数据只有当前和过去时间的信息。然而像蛋白质序列上的一个残基,它是与序列上其它所有残基相关的,也就是这个残基即与它前面的残基相关,也与它后面残基相关。针对传统单向递归神经网络的缺点,在本实施例中,LSTM模型采用双向模型,结构如图3所示,设一个递归神经网络从前往后计算隐向量为
Figure BDA0002227413600000072
另一个递归神经网络从后往前计算隐向量为
Figure BDA0002227413600000073
然后把两个隐向量按下列公式进行结合:
Figure BDA0002227413600000074
实施例6
针对实施例1中的步骤S5,所述全连接层从前至后依次有三层,三层全连接层用于预测药物-靶点相互作用亲和力;前两层中使用1024个节点,每个节点后面跟着一个速率为0.1的dropout层,Dropout是一种正则化技术,用于通过将某些神经元的激活设置为0来避免过度拟合。第三层由512个节点组成,后面是输出层。
学习模型试图最小化期望(真实)值和训练中的预测值的差别。因此,用均方误差(MSE)作为损失函数:
Figure BDA0002227413600000081
其中Pi是第i个预测向量,Yi是对应的实际输出向量,n表示样本数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的药物靶点亲和力预测方法,其特征在于,包括以下步骤:
S1、数据准备,从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据;
S2、数据处理,对化合物进行编码,使用分子指纹表示,生成标签编码,对蛋白质进行序列表示,使用位置特异性打分矩阵表示蛋白质;
S3、化合物特征提取,构建CNN模型,将标签编码输入CNN模型中,对化合物进行特征提取,得到化合物的分子表示;
S4、蛋白质特征提取,构建LSTM模型,将蛋白质的位置特异性打分矩阵输入LSTM模型中,对蛋白质序列进行特征提取,学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系,得到蛋白质的序列表示;
S5、结果预测,将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中,对化合物和蛋白质相互作用的亲和力进行预测,并输出化合物和蛋白质相互作用的亲和力表示,完成药物和靶点的亲和力预测。
2.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述步骤S2中,对化合物进行编码具体包括:通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码,每一项ASCII编码代表化合物的一个子结构特征。
3.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述步骤S2中,位置特异性打分矩阵PSSM表示为n×20矩阵M={Mi→j,i=1…n,j=1…20},矩阵元素Mi→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸j的可能性,数字越大,在进化过程中被取代的可能性越高,n表示给定蛋白质序列中残基总数。
4.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述步骤S3中,CNN模型包括三个连续的卷积层和一个最大池化层。
5.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述步骤S4中,LSTM模型具有输入门、忘记门和输出门三种门结构,保持和更新记忆单元状态的公式如下:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+bo)
ht=ottanh(ct)
其中,σ和tanh表示sigmoid激活函数,i表示输入门,f表示遗忘门,c表示记忆单元,o表示输出门,ht表示时间步t时的LSTM隐藏单元输出,W和b分别表示训练的权重矩阵和偏置参数。
6.根据权利要求5所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述LSTM模型为双向模型,设一个递归神经网络从前往后计算隐向量为
Figure FDA0002227413590000021
另一个递归神经网络从后往前计算隐向量为
Figure FDA0002227413590000022
Figure FDA0002227413590000023
7.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法,其特征在于,所述步骤S5中,全连接层从前至后依次有三层,前两层中使用1024个节点,每个节点后面跟着一个速率为0.1的dropout层,第三层由512个节点组成。
CN201910956294.8A 2019-10-10 2019-10-10 一种基于深度学习的药物靶点亲和力预测方法 Active CN110689965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910956294.8A CN110689965B (zh) 2019-10-10 2019-10-10 一种基于深度学习的药物靶点亲和力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910956294.8A CN110689965B (zh) 2019-10-10 2019-10-10 一种基于深度学习的药物靶点亲和力预测方法

Publications (2)

Publication Number Publication Date
CN110689965A true CN110689965A (zh) 2020-01-14
CN110689965B CN110689965B (zh) 2023-03-24

Family

ID=69111764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910956294.8A Active CN110689965B (zh) 2019-10-10 2019-10-10 一种基于深度学习的药物靶点亲和力预测方法

Country Status (1)

Country Link
CN (1) CN110689965B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370073A (zh) * 2020-02-27 2020-07-03 福州大学 一种基于深度学习的药物互作规则预测方法
CN111627493A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 一种激酶抑制剂的选择性预测方法和计算设备
CN112201314A (zh) * 2020-09-18 2021-01-08 北京望石智慧科技有限公司 分子指纹的提取及基于其的相关度的计算的方法及装置
CN112270958A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN112331261A (zh) * 2021-01-05 2021-02-05 北京百度网讯科技有限公司 药物预测方法及模型的训练方法、装置、电子设备及介质
CN112382347A (zh) * 2020-11-17 2021-02-19 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN112562790A (zh) * 2020-12-09 2021-03-26 中国石油大学(华东) 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质
CN112599186A (zh) * 2020-12-30 2021-04-02 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
CN112652358A (zh) * 2020-12-29 2021-04-13 中国石油大学(华东) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
CN112735535A (zh) * 2021-04-01 2021-04-30 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113409883A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息预测及信息预测模型的训练方法、装置、设备及介质
CN113450870A (zh) * 2021-06-11 2021-09-28 北京大学 一种药物与靶点蛋白的匹配方法及系统
CN113823352A (zh) * 2021-09-26 2021-12-21 南开大学 药物-靶蛋白亲和力预测方法及系统
CN113870945A (zh) * 2021-09-01 2021-12-31 南京中医药大学 一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法
CN114464247A (zh) * 2022-01-30 2022-05-10 腾讯科技(深圳)有限公司 基于抗原和抗体序列的结合亲和力预测方法和装置
CN114649054A (zh) * 2020-12-18 2022-06-21 深圳吉诺因生物科技有限公司 基于深度学习的抗原亲和力预测方法和系统
CN114765060A (zh) * 2021-01-13 2022-07-19 四川大学 预测药物靶标相互作用的多注意力方法
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN115035956A (zh) * 2022-04-13 2022-09-09 北京大学 一种基于端到端模型的蛋白质序列特征信息学习方法
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115497554A (zh) * 2022-09-29 2022-12-20 电子科技大学 预测药物化合物与作用靶点之间亲和力大小的量子系统
CN115910196A (zh) * 2022-10-26 2023-04-04 广东技术师范大学 一种药物-靶点蛋白质相互作用预测的方法及系统
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法
CN117393036A (zh) * 2023-11-09 2024-01-12 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN118658528A (zh) * 2024-08-20 2024-09-17 电子科技大学长三角研究院(衢州) 一种特异性肌红蛋白质预测模型的构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
US20190303535A1 (en) * 2018-04-03 2019-10-03 International Business Machines Corporation Interpretable bio-medical link prediction using deep neural representation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN105160206A (zh) * 2015-10-08 2015-12-16 中国科学院数学与系统科学研究院 一种预测药物的蛋白质相互作用靶点的方法和系统
US20190303535A1 (en) * 2018-04-03 2019-10-03 International Business Machines Corporation Interpretable bio-medical link prediction using deep neural representation
CN109559781A (zh) * 2018-10-24 2019-04-02 成都信息工程大学 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹成远等: ""使用双向LSTM的深度神经网络预测蛋白质残基相互作用"", 《小型微型计算机系统》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370073B (zh) * 2020-02-27 2023-04-07 福州大学 一种基于深度学习的药物互作规则预测方法
CN111370073A (zh) * 2020-02-27 2020-07-03 福州大学 一种基于深度学习的药物互作规则预测方法
CN111627493A (zh) * 2020-05-29 2020-09-04 北京晶派科技有限公司 一种激酶抑制剂的选择性预测方法和计算设备
CN112201314A (zh) * 2020-09-18 2021-01-08 北京望石智慧科技有限公司 分子指纹的提取及基于其的相关度的计算的方法及装置
CN112201314B (zh) * 2020-09-18 2024-05-03 北京望石智慧科技有限公司 分子指纹的提取及基于其的相关度的计算的方法及装置
CN112270958A (zh) * 2020-10-23 2021-01-26 大连民族大学 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN112270958B (zh) * 2020-10-23 2023-06-20 大连民族大学 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112331273B (zh) * 2020-10-28 2023-12-15 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112382347B (zh) * 2020-11-17 2022-09-06 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN112382347A (zh) * 2020-11-17 2021-02-19 南京理工大学 基于分子指纹和多靶点蛋白的协同抗癌药物组合识别方法
CN112562790A (zh) * 2020-12-09 2021-03-26 中国石油大学(华东) 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质
CN114649054A (zh) * 2020-12-18 2022-06-21 深圳吉诺因生物科技有限公司 基于深度学习的抗原亲和力预测方法和系统
CN112652358A (zh) * 2020-12-29 2021-04-13 中国石油大学(华东) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
CN112599186A (zh) * 2020-12-30 2021-04-02 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
CN112599186B (zh) * 2020-12-30 2022-09-27 兰州大学 基于多深度学习模型共识的化合物靶蛋白绑定预测方法
CN112331261A (zh) * 2021-01-05 2021-02-05 北京百度网讯科技有限公司 药物预测方法及模型的训练方法、装置、电子设备及介质
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN114765060B (zh) * 2021-01-13 2023-12-08 四川大学 预测药物靶标相互作用的多注意力方法
CN114765060A (zh) * 2021-01-13 2022-07-19 四川大学 预测药物靶标相互作用的多注意力方法
CN112735535A (zh) * 2021-04-01 2021-04-30 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质
CN113327644B (zh) * 2021-04-09 2024-05-14 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113327644A (zh) * 2021-04-09 2021-08-31 中山大学 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN113450870A (zh) * 2021-06-11 2021-09-28 北京大学 一种药物与靶点蛋白的匹配方法及系统
CN113450870B (zh) * 2021-06-11 2024-05-14 北京大学 一种药物与靶点蛋白的匹配方法及系统
CN113409883A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息预测及信息预测模型的训练方法、装置、设备及介质
CN113409883B (zh) * 2021-06-30 2022-05-03 北京百度网讯科技有限公司 信息预测及信息预测模型的训练方法、装置、设备及介质
CN113870945A (zh) * 2021-09-01 2021-12-31 南京中医药大学 一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法
CN113870945B (zh) * 2021-09-01 2024-05-24 南京中医药大学 一种基于衰减系数的动态蛋白质网络模型预测蛋白质之间链接的方法
CN113823352B (zh) * 2021-09-26 2023-09-08 南开大学 药物-靶蛋白亲和力预测方法及系统
CN113823352A (zh) * 2021-09-26 2021-12-21 南开大学 药物-靶蛋白亲和力预测方法及系统
CN114464247A (zh) * 2022-01-30 2022-05-10 腾讯科技(深圳)有限公司 基于抗原和抗体序列的结合亲和力预测方法和装置
CN115035956A (zh) * 2022-04-13 2022-09-09 北京大学 一种基于端到端模型的蛋白质序列特征信息学习方法
CN114999565B (zh) * 2022-04-20 2024-07-26 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN114999565A (zh) * 2022-04-20 2022-09-02 大连海事大学 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN115497554A (zh) * 2022-09-29 2022-12-20 电子科技大学 预测药物化合物与作用靶点之间亲和力大小的量子系统
CN115497554B (zh) * 2022-09-29 2024-07-19 电子科技大学 预测药物化合物与作用靶点之间亲和力大小的量子系统
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115458061B (zh) * 2022-10-13 2024-01-23 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115910196A (zh) * 2022-10-26 2023-04-04 广东技术师范大学 一种药物-靶点蛋白质相互作用预测的方法及系统
CN116994644B (zh) * 2023-07-28 2024-02-02 天津大学 基于预训练模型的药靶亲和力预测方法
CN116994644A (zh) * 2023-07-28 2023-11-03 天津大学 基于预训练模型的药靶亲和力预测方法
CN117393036A (zh) * 2023-11-09 2024-01-12 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN117393036B (zh) * 2023-11-09 2024-07-23 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN118658528A (zh) * 2024-08-20 2024-09-17 电子科技大学长三角研究院(衢州) 一种特异性肌红蛋白质预测模型的构建方法

Also Published As

Publication number Publication date
CN110689965B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN110689965B (zh) 一种基于深度学习的药物靶点亲和力预测方法
Xie et al. Supervised variational autoencoders for soft sensor modeling with missing data
CN106021990B (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN115862747B (zh) 一种序列-结构-功能耦合的蛋白质预训练模型构建方法
CN114530258A (zh) 一种深度学习药物相互作用预测方法、装置、介质和设备
CN115187610A (zh) 基于图神经网络的神经元形态分析方法、设备及存储介质
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN115312118A (zh) 一种基于图神经网络的单序列蛋白质接触图预测方法
Wang et al. DeepDNA: A hybrid convolutional and recurrent neural network for compressing human mitochondrial genomes
Wei et al. Neurotis: Enhancing the prediction of translation initiation sites in mrna sequences via a hybrid dependency network and deep learning framework
CN117194763A (zh) 基于用户偏好与时空上下文信息的下一个poi推荐方法
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
Wu et al. AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder
CN113450870B (zh) 一种药物与靶点蛋白的匹配方法及系统
KR20230043071A (ko) 변이체 병원성 채점 및 분류 그리고 이의 사용
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN115563312A (zh) 一种药物-疾病-靶点三元组靶点实体补全方法及应用
KR20230043072A (ko) 변이체 병원성 채점 및 분류 그리고 이의 사용
Plötz Advanced stochastic protein sequence analysis
CN112735604A (zh) 一种基于深度学习算法的新型冠状病毒分类方法
CN108427867A (zh) 一种基于灰色bp神经网络蛋白互作关系预测方法
CN117672407B (zh) 基于图神经网络预测化合物p450酶代谢位点和代谢产物的方法
Ema et al. Protein secondary structure prediction by a neural network architecture with simple positioning algorithm techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant