CN113393911A

CN113393911A - 一种基于深度学习的配体化合物快速预筛选模型

Info

Publication number: CN113393911A
Application number: CN202110697840.8A
Authority: CN
Inventors: 张树科; 靳彦召; 王琪; 贾庆忠; 赵书良; 赵金金; 陈明
Original assignee: Shijiazhuang Xianyu Digital Biotechnology Co ltd; Hebei Medical University; Hebei Normal University; Hebei Institute for Drug and Medical Device Control
Current assignee: Shijiazhuang Xianyu Digital Biotechnology Co ltd; Hebei Medical University; Hebei Normal University; Hebei Institute for Drug and Medical Device Control
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-14
Anticipated expiration: 2041-06-23
Also published as: CN113393911B

Abstract

本发明提供一种基于深度学习的配体化合物快速预筛选模型。包括如下步骤：S1、构建数据集，将配体化合物与受体蛋白质结合位点的氨基酸序列信息进行编码；S2、将配体与受体结构向量结合起来，输入到深度神经网络，输出亲和力评分，模型采用监督学习的方式进行训练；S3、按照亲和力评分结果进行排序，筛选出阳性化合物，剔除大量阴性化合物；S4、获取阳性化合物分子指纹(分子特征)，基于相似度或距离度量方法进行聚类；S5、取每个簇中评分最高的化合物，作为潜在活性化合物。本发明实现了配体化合物的快速预筛选，通过对阳性化合物的聚类分析，可以去除冗余，保证配体化合物的结构多样性，提高预测速度和准确性。

Description

一种基于深度学习的配体化合物快速预筛选模型

技术领域

本发明属于计算机应用技术领域，具体涉及一种基于深度学习的配体化合物快速预筛选模型，

背景技术

作为药物研发的起点，苗头化合物的发现对整个药物研发过程至关重要，虚拟筛选作为发现苗头化合物的一项重要技术，是计算机辅助药物设计的核心技术，即从大量分子数据库中快速筛选出少量的目标化合物，先进行配体化合物的预筛选可以提升科研步伐，减少进入生物化学实验阶段的化合物数量，可有效提高药物研发的成功率和效率，

配体化合物的预筛选最常用的方法是分子对接，通过分子对接可以模拟蛋白质-配体的结合模式，预测配体结合构象，并对亲和力进行打分，进而确定潜在活性化合物，然而，现有分子对接理论本身并不完善，分子对接对蛋白-小分子结合模式及亲和力预测准确率较低，加上可供选择的对接程序众多，并且性能各异，导致在实际使用中的成功率千差万别，

随着深度学习的迅猛发展，以及蛋白质晶体结构、小分子活性数据越来越多地积累和开放，将深度学习技术应用到配体化合物的预筛选方法当中，通过真实数据提取信息，可以有效提高药物筛选命中率、缩短研发周期、降低成本，有较好的发展前景，

发明内容

本发明提出一种基于深度学习的配体化合物快速预筛选模型，其主要解决的问题是建立更有效的配体化合物快速预筛选模型，提高药物筛选速度，缩短药物研发流程，降低成本，以实现更高效的药物筛选，

本发明利用深度学习算法模型从化合物库中快速筛选出潜在活性化合物，剔除大量阴性样本，为避免预筛选出的活性化合物在结构上出现冗余的类似化合物，引入聚类思想，对筛选出的阳性化合物进行聚类分析，将结构相似的化合物聚类到一簇，并从每个簇中选择少量分子，

具体包括以下步骤：

S1、基于小分子数据库以及生成模型生成的小分子数据集中获取配体小分子化合物，并将化合物分子进行编码；

S2、通过蛋白质数据库获取受体蛋白质结构，提取受体结合位点(口袋)部分氨基酸序列信息，并将其进行编码；

S3、设定对接空间范围，将配体与受体结构向量通过某种方法结合起来，作为神经网络模型的输入；

S4、模型为深度神经网络模型，将样本数据分成独立的训练集、验证集和测试集；

S5、基于二进制交叉熵损失构建目标函数，目标函数形式为：

E(W,b)＝L(W,b)+λΩ(W)

其中，L(W,b)为二进制交叉熵损失，Ω(W)为正则项；

S6、基于训练样本集对神经网络模型进行监督式训练，通过梯度下降法迭代更新得到模型参数：

S7、通过验证集对模型超参数进行优化，测试集用来评价模型的泛化能力；

S8、将待筛选的配体和受体结合向量进行归一化处理，作为模型输入，经过多层神经网络进行特征提取，最后基于Sigmoid函数

输出小分子化合物与蛋白质亲和力评分；

S9、按照S8中得到的亲和力评分结果进行排序，筛选出亲和力得分大于设定阈值或者排名前K的阳性化合物，剔除大量阴性化合物；

S10、通过一定的方法获取S9中得到的阳性化合物的分子指纹(分子特征)；

S11、基于分子指纹利用相似度(或距离)度量方法对筛选出的阳性化合物进行聚类，采用可增量更新的聚类方法，设定阈值，将相似度不小于(或距离不大于)设定阈值的化合物归为一类，即一个簇；

S12、模型每次读取一个样本，计算该样本与当前所有簇中心点的相似度(或距离)，将其加入到相似度最高(或距离最小)的簇中，更新簇和簇中心点；

S13、若样本与现有簇中心点的相似度都低于(或距离都高于)设定阈值，该样本不属于任何一簇，将其作为一个新簇中心点；

S14、迭代步骤S12、S13，直至所有样本都聚类完成，更新簇和簇中心点；

S15、将S14中已经聚类完成的簇中心点基于相似度(或距离)再次进行比较，对于相似度较高(或距离较小)的簇，取簇中所有样本，重复步骤S12-S14，更新簇和簇中心点；

S16、迭代步骤S15，直到聚类簇基本稳定，聚类完成后使同一簇内的分子结构具有高相似性，不同簇间的分子结构具有低相似性；

S17、分别对不同簇中的小分子化合物按照亲和力评分进行排序；

S18、取每个簇中评分最高的化合物，作为潜在活性化合物，实现配体化合物的快速预筛选；

本发明有益效果体现在：

1.首先使用深度神经网络模型从海量化合物库中快速剔除大量阴性化合物，有效提高预筛选速度；

2.对筛选出的阳性化合物进行聚类分析，有效去除结构相似的冗余化合物，保证配体化合物结构的多样性，提高预测速度及准确性；

3.采用可增量更新的聚类方法，每次模型只读取一个样本，基于相似度(或距离)的计算仅在少量簇中心点之间进行比较，不仅可以有效处理动态增量数据集，提高相似度(或距离)的计算速度，提高聚类效率和资源的利用率,同时，通过将数据集分割，逐步动态聚类，能实现对大型数据库的聚类分析，

附图说明

图1：本发明基于深度学习的配体化合物快速预筛选模型的框架结构示意图

具体实施方法

以下将结合附图1，对本发明的技术方案进行清楚、完整的描述，

具体地，本发明提供一种基于深度学习的配体化合物快速预筛选模型，如图1所示，其包括以下步骤：

S1、通过DrugSpaceX数据库或ZINC数据库以及生成模型生成的小分子数据集中获取配体小分子化合物，通过RCSB PDB数据库和PDBbind数据库获取受体蛋白质结构；

S2、利用RDKit生成化合物分子的SMILES字符串，应用word2vec或类似算法将化合物分子进行编码；

S3、提取受体蛋白质结合位点(口袋)部分的氨基酸序列信息，应用word2vec或类似算法将其进行编码；

S4、设定对接空间范围，将配体与受体结构向量通过某种方法结合起来，作为神经网络模型输入；

S5、模型为深度神经网络模型，将样本数据分成独立的训练集、验证集和测试集，

S6、基于二进制交叉熵损失构建目标函数:

E(W,b)＝L(W,b)+λΩ(W)

其中，L(W,b)为二进制交叉熵损失，Ω(W)为正则项；

S7、基于训练样本集对神经网络模型进行监督式训练，通过梯度下降法迭代更新得到模型参数：

S8、通过验证集对模型超参数进行优化，通过测试集评价模型的泛化能力，本发明所述的方法中,使用了多个评估指标来评价模型的性能，包括准确率(Accuracy)、精度(Precision)、召回率(Recall)、特异度(Specificity)、AUC等；

S9、其中：

准确率

精度

召回率

特异度

S10、将待筛选的配体和受体结合向量进行归一化处理，作为模型输入，经过多层神经网络进行特征提取，最后基于Sigmoid函数

输出小分子化合物与蛋白质亲和力评分；

S11、按照S10中得到的亲和力得分结果进行排序，筛选出亲和力排名前K(如前五十万个)的阳性化合物，剔除大量阴性化合物；

S12、通过一定的方法获取S11中得到的阳性化合物的分子指纹(分子特征)；

S13、基于分子指纹利用相似度(或距离)度量方法对筛选出的阳性化合物进行聚类，设定阈值，将相似度不小于(或距离不大于)设定阈值的化合物归为一类，即一个簇，无需预先设定类的个数；

S14、采用可增量更新的聚类方法，模型每次读取一个样本，首先将第1个样本作为第1个簇中心点；

S15、输入第i(i>＝2)个样本时，将其与之前所有簇中心点进行比较，计算相似度(或距离)，将其加入到相似度最高(或距离最小)的簇中，若样本与现有簇中心点的相似度都低于(或距离都高于)设定阈值，该样本不属于任何一簇，将其作为一个新簇中心点，更新簇和簇中心点，直至所有样本都完成聚类；

S16、将S15中已经聚类完成的簇的中心点基于相似度(或距离)再次进行比较；

S17、对于相似度较高(或距离较小)的簇，取出簇中所有样本，重复步骤S14、S15,更新簇和簇中心点；

S18、迭代S17，直到聚类簇基本稳定，聚类完成后使同一簇内的分子结构具有高相似性，不同簇间的分子结构具有低相似性；

S19、分别对不同簇中的小分子化合物按照亲和力评分进行排序；

S20、取每个簇中评分最高的化合物，作为潜在活性化合物，实现配体化合物的快速预筛选，

以上所描述的具体实施例仅仅是对本发明精神作举例说明，本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于深度学习的配体化合物快速预筛选模型，其特征在于，包括如下步骤：

S1、通过生成方法生成或已有的小分子库获取配体小分子化合物，通过蛋白质数据库获取受体蛋白质结构，提取受体结合位点(口袋)部分氨基酸序列信息，将配体-受体结构进行编码；

S2、设定对接空间范围，将配体与受体结构向量通过某种方法结合起来，输入到神经网络模型，采用监督学习的方式对模型进行训练，输出小分子化合物与蛋白质亲和力评分；

S3、按照亲和力评分结果进行排序，筛选出亲和力评分大于设定阈值或者排名前K的阳性化合物，剔除大量阴性化合物；

S4、通过一定的方法获取阳性化合物的分子指纹(分子特征)；

S5、基于分子指纹利用相似度(或距离)度量方法对筛选出的阳性化合物进行聚类，采用可增量更新的聚类方法，设定阈值，将相似度不小于(或距离不大于)设定阈值的化合物归为一类，即一个簇；

S6、将已经聚类完成的簇再进行比较，更新簇和簇中心点，直至聚类簇基本稳定，聚类完成后使同一簇内的分子结构具有高相似性，不同簇间的分子结构具有低相似性；

S7、分别对不同簇中的小分子化合物按照亲和力评分进行排序，取每个簇中评分最高的化合物，作为潜在活性化合物，实现配体化合物的快速预筛选。

2.如权力要求1所述的基于深度学习的配体化合物快速预筛选模型，其特征在于：S1中所述小分子数据库包括DrugSpaceX数据库、ZINC数据库以及生成模型生成的小分子库，蛋白质数据库包括RCSB PDB数据库及PDBbind数据库，利用Mol2vec或类似算法将配体-受体复合物结构进行编码。

3.如权力要求1所述的基于深度学习的配体化合物快速预筛选模型，其特征在于：S2中所述神经网络模型采用深度全连接神经网络和深度卷积神经网络，将样本数据分成独立的训练集、验证集和测试集，构建目标函数E，基于二进制交叉熵损失L，如下式所示：

E(W,b)＝L(W,b)+λΩ(W)

其中，y_i表示样本i的标签，p_i表示样本i预测为阳性的概率，Ω(W)为正则项，

基于训练样本集对神经网络模型进行监督式训练，通过梯度下降法迭代更新，得到模型参数：

验证集用来对模型超参数进行优化；测试集用来评价模型的泛化能力，将待筛选的配体和受体结合向量进行归一化处理，作为模型输入，经过多层神经网络进行特征提取，最后基于Sigmoid层,输出小分子化合物与蛋白质亲和力评分，Sigmoid函数如下：

4.如权力要求1所述的基于深度学习的配体化合物快速预筛选模型，其特征在于：S5中所述可增量更新的聚类方法，具体包括：模型每次读取一个样本，计算该样本与当前所有簇中心点的相似度(或距离)，将其加入到相似度最高(或距离最小)的簇中，更新簇和簇中心点，若样本与现有簇中心点相似度都低于(或距离都高于)设定阈值，该样本不属于任何一簇，将其作为一个新簇中心点，直至所有样本都聚类完成，更新簇和簇中心点。

5.如权力要求1所述的基于深度学习的配体化合物快速预筛选模型，其特征在于：S6中所述簇之间的比较是基于相似度(或距离)对不同簇中心点进行比较，对于相似度较高(或距离较小)的簇，取出簇中所有样本，对其进行权力要求5中所述聚类方法聚类。

6.如权力要求1所述的基于深度学习的配体化合物快速预筛选模型，其特征在于：S8中所述小分子化合物排序是簇内进行排序，取每个簇中评分最高的化合物，作为潜在活性化合物，有效去除冗余，保证配体化合物结构的多样性，提高预测速度及准确性。