CN110689965A

CN110689965A - 一种基于深度学习的药物靶点亲和力预测方法

Info

Publication number: CN110689965A
Application number: CN201910956294.8A
Authority: CN
Inventors: 李巧勤; 刘勇国; 杨尚明; 李杨; 兰荻; 蔡茁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-14
Anticipated expiration: 2039-10-10
Also published as: CN110689965B

Abstract

本发明公开了一种基于深度学习的药物靶点亲和力预测方法，涉及药物靶点亲和力预测技术领域，其包括：从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据；对化合物进行编码，使用位置特异性打分矩阵表示蛋白质；将化合物标签编码输入CNN模型中，对化合物进行特征提取，得到化合物的分子表示；将蛋白质的位置特异性打分矩阵输入LSTM模型中，对蛋白质序列进行特征提取，学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系，得到蛋白质的序列表示；将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中，对化合物和蛋白质相互作用的亲和力进行预测。该方法能更准确地预测药物和靶点之间的亲和力关系。

Description

一种基于深度学习的药物靶点亲和力预测方法

技术领域

本发明涉及药物靶点亲和力预测技术领域，具体而言，涉及一种基于深度学习的药物靶点亲和力预测方法。

背景技术

药物的靶点是指药物与机体生物大分子的结合部位，药物作用靶点涉及受体、酶、离子通道、转运体、免疫系统、基因等。药物分子大多通过与人体内靶标分子的相互作用产生疗效，因此靶点选择是药物研发中十分关键的一个步骤。新的药物作用靶点发现往往是新药发现的突破口。药物-靶点相互作用(drug-target interactions，DTI)预测是药物发现过程中重要的部分。随着生物信息学的发展和公开数据集的不断扩充，使用不同的计算方法进行药物-靶点相互作用预测成为可能，这不仅大大缩短了药物研发的时间，减少了药物研发的费用，也降低了在研究早期阶段由于靶点错误定位给新药研发带来的损失。

长期以来，药物-靶点相互作用预测被认为是二元分类问题，即预测药物和靶点之间有无相互作用，这种建模问题的方法忽略了药物-靶点相互作用之间的结合亲和力。结合亲和力提供了药物-靶点对之间相互作用强度的信息，通常以解离常数(Kd)、抑制常数(Ki)、半数抑制浓度(IC50)进行度量。将药物-靶点相互作用预测的任务转化为药物-靶点相互作用亲和力预测，能预测出更精确的结果。

目前在药物-靶点相互作用亲和力预测任务中，SimBoost模型使用梯度增强机器预测药物-靶点对的结合亲和力，包括特征工程、梯度增强和预测药物-靶点对的结合亲和力区间三个步骤，是一种基于特征的预测方法。DeepDTA模型目前对药物进行SMILES分子指纹编码，对靶点使用标签进行编码，分别输入到卷积神经网络中提取药物和靶点的向量表示，输入到全连接层，最后输出药物-靶点的相互作用亲和力。

上述的药物-靶点相互作用预测取得一定进展，但仍存在以下问题：

1、将药物-靶点相互作用预测任务建模成二元分类问题，这种建模问题的方法忽略了药物-靶点相互作用之间的结合亲和力，造成最后预测药物-靶点相互作用准确度不高；

2、将药物-靶点相互作用预测任务转化成药物-靶点相互作用亲和力预测，目前存在的方法可以学习到药物和蛋白质的一维结构特征，不能学习到靶点蛋白结构中氨基酸之间的次序关系，影响预测精度。

发明内容

本发明在于提供一种基于深度学习的药物靶点亲和力预测方法，其能够缓解上述问题。

为了缓解上述的问题，本发明采取的技术方案如下：

本发明提供了一种基于深度学习的药物靶点亲和力预测方法，包括以下步骤：

S1、数据准备，从Davis数据集和KIBA数据集中获取药物化合物和靶点蛋白质数据；

S2、数据处理，对化合物进行编码，使用分子指纹表示，生成标签编码，对蛋白质进行序列表示，使用位置特异性打分矩阵表示蛋白质；

S3、化合物特征提取，构建CNN模型，将标签编码输入CNN模型中，对化合物进行特征提取，得到化合物的分子表示；

S4、蛋白质特征提取，构建LSTM模型，将蛋白质的位置特异性打分矩阵输入LSTM模型中，对蛋白质序列进行特征提取，学习蛋白质结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系，得到蛋白质的序列表示；

S5、结果预测，将化合物的分子表示和蛋白质的序列表示同时输入到全连接层中，对化合物和蛋白质相互作用的亲和力进行预测，并输出化合物和蛋白质相互作用的亲和力表示，完成药物和靶点的亲和力预测。

本技术方案的技术效果是：针对蛋白质序列，使用位置特异性打分矩阵表示蛋白质，不仅描述了顺序信息，而且还保留了足够的先验信息，使用LSTM模型，学习靶点蛋白结构中氨基酸之间的次序关系以及蛋白质序列上的残基之间的关系，使得蛋白质的序列表示更好的代表了蛋白质的特征，最终更准确地预测药物和靶点之间的亲和力关系。

可选地，所述步骤S2中，对化合物进行编码具体包括：通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码，每一项ASCII编码代表化合物的一个子结构特征。

本技术方案的技术效果是：化合物的化学结构式能够抓住化学结构信息表述问题的实质、体现化学结构主要特征，使用化学结构进行分子的SMILES编码，可以简明而准确地表达出整个分子的化学结构特性，便于输入到CNN模型中。

可选地，所述步骤S2中，位置特异性打分矩阵PSSM表示为n×20矩阵M＝{M_i→j，i＝1…n，j＝1…20}，矩阵元素M_i→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸i的可能性，数字越大，在进化过程中被取代的可能性越高，n表示给定蛋白质序列中残基总数。

本技术方案的技术效果是：使用位置特异性打分矩阵表示蛋白质不仅描述了蛋白质序列中氨基酸之间的顺序信息，而且还保留了足够的先验信息，引入蛋白质进化信息，因此它可以从给定的蛋白质序列中获取丰富的信息。

可选地，所述步骤S3中，CNN模型包括三个连续的卷积层和一个最大池化层。

本技术方案的技术效果是：卷积层使用卷积核提取化合物的特征，经过三个卷积层的特征提取，得到不同尺度的化合物的抽象表达，同时也发生了维度增加的情况。使用最大池化层进行特征降维，可以压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。

可选地，所述步骤S4中，LSTM模型具有输入门、忘记门和输出门三种门结构，保持和更新记忆单元状态的公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_ttanh(c_t)

其中，σ和tanh表示sigmoid激活函数，i表示输入门，f表示遗忘门，c表示记忆单元，o表示输出门，h_t表示时间步t时的LSTM隐藏单元输出，W和b分别表示训练的权重矩阵和偏置参数。

本技术方案的技术效果是：对于蛋白质序列氨基酸之间的复杂的远程相互作用，由于LSTM通过训练过程可以学习记忆和遗忘信息，使用LSTM模型不仅可以处理序列之间的远程依赖的问题，还可以避免梯度消失的问题。

可选地，所述LSTM模型为双向模型，设一个递归神经网络从前往后计算隐向量为

另一个递归神经网络从后往前计算隐向量为

则

本技术方案的技术效果是：为了更有效地提取并强化蛋白质序列的氨基酸残基之间复杂的长距离依赖信息，采用双向LSTM模型自动提取蛋白质序列的氨基酸残基之间的远程依赖关系；双向LSTM模型基于前面氨基酸残基和后面氨基酸残基提取特征，减少丢失前后氨基酸残基信息的情况。

可选地，所述步骤S5中，全连接层从前至后依次有三层，前两层中使用1024个节点，每个节点后面跟着一个速率为0.1的dropout层，第三层由512个节点组成。

本技术方案的技术效果是：全连接层则起到将学习到的特征表示映射到样本标记空间的作用。由于在全连接层之前，神经元数目过大，有可能出现过拟合的情况，因此，引入的dropout层可以随机删除神经网络中的部分神经元，解决过拟合的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例中所述基于深度学习的药物靶点亲和力预测方法流程示意图；

图2是本发明实施例中所述基于深度学习的药物靶点亲和力预测方法的预测模型结构图；

图3是本发明实施例中展开的双向LSTM图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参照图1和图2，本发明提供了一种基于深度学习的药物靶点亲和力预测方法，包括以下步骤：

在本实施例中，所采用的原始数据来自于两个不同的数据集，Davis数据集和KIBA数据集，其中，Davis数据集包含442种蛋白质，68种化合物和30056条相互作用关系；KIBA数据集包含229种蛋白质，2111种化合物和118254条相互作用关系。Davis数据集来源于论文Davis M I，Hunt JP，Herrgard S，et al.Comprehensive analysis of kinase inhibitorselectivity[J].Nature Biotechnology，2011，29(11)：1046-1051。KIBA数据集来源于论文Tang J，Szwajda A，Shakyawar S，et a1.Making Sense of Large-Scale KinaseInhibitor Bioactivity Data Sets：A Comparative and Integrative Analysis[J].Journal of Chemical Information and Modeling，2014，54(3)：735-743。

在本实施例中，对化合物进行编码，便于更好地处理化合物结构数据。

在本实施例中，将位置特异性打分矩阵(PSSM)作为蛋白质序列的编码方法，可以将蛋白质数据库中蛋白质序列与公开的已知结构和功能的蛋白质进行比对并打分，将蛋白质原始序列进行PSSM表示后可以包含蛋白质序列和蛋白质进化信息。公开的已知结构和功能的蛋白质从nr数据库获取，可以从https：//卸.ncbi.nlm.nih.gov/blast/db/FASTA/获取。使用位置特异性打分矩阵表示蛋白质不仅描述了蛋白质序列中氨基酸之间的顺序信息，而且还保留了足够的先验信息，因此它可以从给定的蛋白质序列中获取有用的信息

在本实施例中，提出了基于CNN+LSTM的预测模型，分成一个CNN模型，一个LSTM模型，使用全连接层进行预测，预测模型结构如图2所示。

在本实施例中，使用CNN模型对化合物结构进行特征提取，能够从分子指纹中学习到化合物的高维结构特征。

在本实施例中，使用LSTM模型对蛋白质序列进行特征提取，有效捕获蛋白质序列的次序关系的特征、进化信息的特征，从蛋白质序列中学习表示。LSTM是对传统递归神经网络的改进，它用记忆单元替换了传统递归神经网络的隐函数。这样的改进使LSTM可以记忆比传统递归神经网络更长范围的上下文。

实施例2

针对实施例1中的步骤S2，对化合物进行编码具体包括：通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码，每一项ASCII编码代表化合物的一个子结构特征。

在本实施例中，是从TCMSP数据库下载保存化学结构信息的.mol格式文件，使用Openbabel处理.mol格式文档，计算出化合物的SMILES分子结构规范，再使用R语言的“rcdk”包中的“get.fingerprint”函数可以对药物分子的SMILES编码进行计算。

化合物的SMILES分子指纹表示示例：SMILES分子指纹carbon dioxide‘O＝C＝O’。化合物是由字母和符号表示，为了算法更好的进行操作处理，将字母和符号标记转化为数值形式，使用整数表示字母和符号，用整数和SMILES分子指纹进行一一对应，例如，‘C’：1，‘O’：2，’＝：63，则‘O＝C＝O’的标签编码如下：[O＝C＝O]＝[2 63 1 63 2]。

实施例3

针对实施例1中的步骤S2，由于天然蛋白质水解得到的氨基酸有30多种，基本氨基酸有20种，每种蛋白质一般都由这20种常见的氨基酸组成，因此位置特异性打分矩阵PSSM可表示为n×20矩阵M＝{M_i→j，i＝1…n，j＝1…20}，矩阵元素M_i→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸j的可能性，数字越大，在进化过程中被取代的可能性越高，n表示给定蛋白质序列中残基总数。

在本实施例中，PSSM的获取要通过PSI-BLAST软件在nr数据库(非冗余蛋白质数据库)中进行氨基酸多序列对比来寻找同源序列，形式化定义如下式：

PSSM中每一行的数字加起来和为1。

实施例4

针对实施例1中的步骤S3，CNN模型包括三个连续的卷积层和一个最大池化层。

在本实施例中，CNN模型的第二层具有二倍于第一层中的滤波器数量，第三层具有三倍于第一层中的滤波器数量；在卷积层之后是最大池化层，最大池化层的最终特征被连接并送入FC层；多层卷积层和池化层交替排列自主学习，在保留训练样本主要特征的同时防止过拟合，并提高模型泛化能力。激活函数选择ReLU，g(x)＝max(0，x)。

实施例5

针对实施例1中的步骤S4，LSTM模型具有输入门、忘记门和输出门三种门结构，保持和更新记忆单元状态的公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_ttanh(c_t)

传统的递归神经网络是从序列的一端向另一端逐个读取输入数据，所以任意时刻递归神经网络里存储的数据只有当前和过去时间的信息。然而像蛋白质序列上的一个残基，它是与序列上其它所有残基相关的，也就是这个残基即与它前面的残基相关，也与它后面残基相关。针对传统单向递归神经网络的缺点，在本实施例中，LSTM模型采用双向模型，结构如图3所示，设一个递归神经网络从前往后计算隐向量为

另一个递归神经网络从后往前计算隐向量为

然后把两个隐向量按下列公式进行结合：

实施例6

针对实施例1中的步骤S5，所述全连接层从前至后依次有三层，三层全连接层用于预测药物-靶点相互作用亲和力；前两层中使用1024个节点，每个节点后面跟着一个速率为0.1的dropout层，Dropout是一种正则化技术，用于通过将某些神经元的激活设置为0来避免过度拟合。第三层由512个节点组成，后面是输出层。

学习模型试图最小化期望(真实)值和训练中的预测值的差别。因此，用均方误差(MSE)作为损失函数：

其中Pi是第i个预测向量，Yi是对应的实际输出向量，n表示样本数。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的药物靶点亲和力预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述步骤S2中，对化合物进行编码具体包括：通过分子的SMILES编码将每个化合物的化学结构均表示成一组ASCII编码，每一项ASCII编码代表化合物的一个子结构特征。

3.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述步骤S2中，位置特异性打分矩阵PSSM表示为n×20矩阵M＝{M_i→j，i＝1…n，j＝1…20}，矩阵元素M_i→j表示在一条氨基酸的第i个位置上的氨基酸在进化过程中变化成氨基酸j的可能性，数字越大，在进化过程中被取代的可能性越高，n表示给定蛋白质序列中残基总数。

4.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述步骤S3中，CNN模型包括三个连续的卷积层和一个最大池化层。

5.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述步骤S4中，LSTM模型具有输入门、忘记门和输出门三种门结构，保持和更新记忆单元状态的公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_ttanh(c_t)

6.根据权利要求5所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述LSTM模型为双向模型，设一个递归神经网络从前往后计算隐向量为

另一个递归神经网络从后往前计算隐向量为

则

7.根据权利要求1所述基于深度学习的药物靶点亲和力预测方法，其特征在于，所述步骤S5中，全连接层从前至后依次有三层，前两层中使用1024个节点，每个节点后面跟着一个速率为0.1的dropout层，第三层由512个节点组成。