CN114842923A

CN114842923A - 一种基于深度主动学习的高通量虚拟筛选方法

Info

Publication number: CN114842923A
Application number: CN202210538543.3A
Authority: CN
Inventors: 柯颂; 杨晨星; 陈俊; 郭谦
Original assignee: Shanghai Tiandu Technology Co ltd
Current assignee: Shanghai Tiandu Technology Co ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-02

Abstract

本发明公开了一种基于深度主动学习的高通量虚拟筛选方法，将化合物分子的SMILES字符串的每一个ASCII字符转换成对应的数字作为其起始编码向量，然后使用深度学习模型自动学习SMILES字符串中化合物的隐含的特征，并结合主动学习技术，极大地降低了模型训练所需标注的数据量大小，只需要对整个化合物库中的0.1％～0.5％的样本进行标注，可以极大降低标注数据集以及模型训练的时间和训练成本，而且本发明采用深度学习模型作为虚拟筛选引擎虚拟筛选准确性高。

Description

一种基于深度主动学习的高通量虚拟筛选方法

技术领域

本发明属于药物研发技术领域，具体涉及一种基于深度主动学习的高通量虚拟筛选方法。

背景技术

药物研发具有投入大、风险高、周期长的特点。一般而言，一个药物研发周期在10年以上，研发投入在数亿美金，并且呈现逐年上升趋势。随着按需商业库的出现，可用于虚拟筛选和分析的化合物数量爆炸性增长，几个库超过了10亿个化合物。由于筛选文库规模更大、更多样化，应用基于物理的筛选方法，即文库中的每个分子都必须独立枚举和评估，成本越来越高。

近年来深度学习的重大进步为药物研发提供了巨大的机会。深度学习技术在生物医药领域也取得了重要进展，如AlphaFold2可实现蛋白质三级结构原子精度级别预测。制药工业界已经开始利用深度学习技术加速药物研发，降低研发成本。

前期研究表明深度学习技术在优化合成路线、预测药物的药代性质、预测药物靶点、虚拟筛选等方面，相比传统机器学习方法方面具有优势。但是深度学习对数据比较依赖，需要大量的数据供给来优化海量的参数。

发明内容

针对上述现有技术中描述的不足，本发明提供一种基于深度主动学习的高通量虚拟筛选方法，结合主动学习技术降低模型训练所需标注的数据量大小，以较少数量的标注样本就可以训练出深度学习模型，降低标注数据集以及模型训练的时间和训练成本。

本发明所采用的技术方案为：

一种基于深度主动学习的高通量虚拟筛选方法，包括：

获取筛选学习库I：

从大型化合物数据库中下载大量已知的以SMILES表征的化合物分子存入筛选学习库I；所述的大型化合物数据库可以为ZINC，也可以是其他含SMILES的化合物数据库，每个化合物分子都具有SMILES以及对应的ID，每一个唯一的ID对应1个唯一的SMILES。

获取标注分子库：

从筛选学习库I中随机筛选化合物分子，对每个化合物分子使用DOCK分子对接软件与给定的靶点进行对接打分标注，并存入标注分子库；筛选的数量根据所使用设备的处理能力有关。优选是从筛选学习库I中随机筛选0.1％～0.5％化合物分子。百分比是以筛选数据库I的总量为基准。

标注分子库进行数据集划分，划分为总训练集和测试集，划分比例为8:2或9:1。

构造可预测分子对接分数的深度学习模型：输入为128维的向量，输出是1个预测分数。

深度学习模型可以是任意预测分子对接分数的深度学习模型。

优选为深度卷积神经网络模型，包括3个卷积Block单元和1个多层感知机(Multi-Layer perceptron，MLP)单元；每个卷积Block单元由5个Conv1d、2层BatchNorm1d和2个PReLU非线性激活层组成；

MLP单元由3层全连接层(Linear)、2层Dropout和2层PReLU非线性激活层组成。

训练深度学习模型：

采用K重交叉验证将总训练集随机划分K等份，其中1份为验证集，其余K-1份均为训练子集，各训练子集组合为训练集；得到K个不同的训练集和验证集的组合；将每个组合的训练集和验证集都进行数据预处理后按批次以嵌入向量形式输入到深度学习模型中训练和评估，得到K个训练后深度学习模型；优选采用5重交叉验证。

测试集对深度学习模型进行预测评估：

将测试集的化合物分子进行数据预处理后按批次以嵌入向量形式分别输入到K个训练后深度学习模型，并将每个化合物分子的K个预测对接分数的平均值作为该化合物分子的最终预测对接分数；嵌入向量的维度为128。

计算各化合物分子的最终预测对接分数与该化合物分子的标注分数的均方根误差和皮尔森系数；当均方根误差<0.7且皮尔森系数>0.6时，说明训练的K个深度学习模型符合基本要求；是否需要进行模型参数的调整，根据实际进行改动，均方根误差<0.7且皮尔森系数>0.6只是最低标准，可以根据实际要求训练到更优结果。

主动学习：

对筛选学习库I中剩余的化合物分子预测打分；

更新总训练集；

根据预测打分情况按照设定的筛选规则筛选出更新总训练集的化合物分子并存入选定训练集中；

对选定训练集，用DOCK分子对接软件打分标注后与原总训练集融合构成更新总训练集；

更新训练；

更新总训练集再次对K个训练后深度学习模型进行训练，得到主动学习后的K个深度学习模型；

测试集对主动学习后的深度学习模型进行预测评估；

使用测试集对主动学习后的K个深度学习模型进行评估，评估结果合适则停止主动学习，得到最终深度学习模型，反之继续主动学习。

作为本发明的一种优选方案，对于一个总训练集中任意一个组合的训练过程为：

训练集中属于同一批次的各数据列表在输入深度学习模型之前，先转换为嵌入向量；嵌入向量的维度为128。

使用torch.nn.Embedding将当前批次中的所有的数字列表转换成嵌入向量；

将同一批次的嵌入向量输入到深度学习模型中训练得到当前批次的预测对接分数；将当前批次的预测对接分数与对应的标注分数进行损失函数计算并进行梯度回传，更新深度学习模型参数；

完成1个Epoch训练后，得到一个训练后的深度学习模型；

验证集对深度学习模型预测评估；

将验证集进行数据预处理后，按批次以嵌入向量形式输入到该深度学习模型，得到验证集的预测对接分数，通过预测对接分数和对应的标注分数计算均方根误差和皮尔森系数，判断当前深度学习模型的训练效果；

当均方根误差<0.7，且皮尔森系数>0.6，将该深度学习模型作为当前组合训练得到的深度学习模型。

作为本发明的一种优选方案，在进行预测打分后所采用的筛选规则为双重筛选，先以最终预测对接分数为依据从筛选学习库I中剩余的化合物分子中筛选并存入待选训练集；再以预测打分方差为依据从待选训练集中筛选。

优选是选择设定量的最终预测对接分数好的化合物分子，作为待选训练集；所述最终预测分数越小越好；该设定量可以是以筛选学习库I的总量为基准，优选是选择最终预测对接分数好的前5％的化合物分子；

从待选训练集中选择设置量的预测打分方差大的化合物分子作为选定训练集,所述预测打分方差越大越好；该设置量也可以是以筛选学习库I的总量为基准，优选是选择预测打分方差大的前0.1％的化合物分子。

作为本发明的一种优选方案，所述测试集对主动学习后的深度学习模型进行预测评估为：

将测试集的化合物分子进行数据预处理后按批次以嵌入向量形式分别输入到主动学习后的K个深度学习模型，并将每个化合物分子的K个预测对接分数的平均值作为该化合物分子的最终预测对接分数；

并计算各化合物分子的最终预测对接分数与该化合物分子的标注分数的均方根误差和皮尔森系数；

当均方根误差<0.7，且皮尔森系数>0.6时，说明主动学习后的K个深度学习模型符合基本要求，并根据设定条件停止主动学习。

作为本发明的一种优选方案，所述的数据预处理包括：

将化合物分子的SMILES转换数字列表：

将化合物分子的SMILES字符串的字符逐一按照字典转换为对应的数字，进而将化合物分子的SMILES转换为一个设定长度的数字列表；超出数字列表最大长度的只保留最大长度部分，少于数字列表最大长度的进行填补占位。

集合类型转换；

将进行数据转换后的数据集先转换为TensorDataset类型，再转换为DataLoader类型，在输入到深度学习模型中用Dataloader按批次输入。

本发明将化合物分子的SMILES字符串的每一个ASCII字符转换成对应的数字作为其起始编码向量，然后使用深度学习模型自动学习SMILES字符串中化合物的隐含的特征，并结合主动学习技术，极大地降低了模型训练所需标注的数据量大小，只需要对整个化合物库中的0.1％～0.5％的样本进行标注，可以极大降低标注数据集以及模型训练的时间和训练成本，而且本发明采用深度学习模型作为虚拟筛选引擎虚拟筛选准确性高，本发明中使用的卷积神经网络模型可以换成其他深度学习模型，该方法也可以适应其他的虚拟筛选任务。本发明以批次输入到深度学习模型中，可以快速实现高通量虚拟筛选，从建模训练到虚拟筛选，可以在两天内完成上亿化合物库的全部对接打分与筛选，相较于传统DOCK软件1～20s/个的打分速度，该方法在预测时速度比其高6个数量级。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明卷积神经网络模型概览图。

图3为本发明卷积神经网络中卷积Block单元的组成图。

图4为本发明卷积神经网络中MLP单元的组成图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于深度主动学习的高通量虚拟筛选方法，如图1所示，包括：

获取筛选学习库I：

从大型化合物数据库中筛选大量已知的以SMILES表征的类药性分子存入筛选学习库I；本实施例中，以一个靶点为例，从ZINC中获取4亿个化合物分子。

获取标注分子库：

从筛选学习库I中随机筛选0.1％化合物分子，即随机筛选40万个化合物分子，对每个化合物分子使用DOCK分子对接软件与给定的靶点进行对接打分标注，并存入标注分子库；当然所选择的化合物分子数量还可以是0.2％、0.3％、0.4％或0.5％等，筛选的数量根据所使用设备的处理能力有关。

并且所采用的DOCK分子对接软件可以是Glide、GOLD、MOE Dock、Ledock、Surflex-Dock、LigandFit等专业软件，在实例中使用的是Ledock。

标注分子库进行数据集划分，划分为总训练集和测试集，划分比例为8:2或9:1；本实施例选择8:2。

构造可预测分子对接分数的深度学习模型：所述的深度学习模型输入为128维的向量，输出是1个预测分数；

本实施例构造的是深度卷积神经网络模型，如图2所示，包括3个卷积Block单元和1个多层感知机(MLP)单元；如图3所示，每个卷积Block单元由5个Conv1d、2层BatchNorm1d和2个PReLU非线性激活层组成；

如图4所示，多层感知机(MLP)单元由3层全连接层(Linear)、2层Dropout和2层PReLU非线性激活层组成，Dropout层中的Dropout参数设置为0.5。

并且Conv1d、BatchNorm1d、PReLU与Linear层的代码实现都来源于Torch.nn库。

训练深度学习模型：

为了提高模型预测准确性，本申请采用5重交叉验证将总训练集随机划分5等份，其中1份为验证集，其余4份均为训练子集，各训练子集组合为训练集；得到5个不同的训练集和验证集的组合，分别用于训练构造的深度卷积神经网络模型；

将每个组合的训练集和验证集都先进行数据预处理，即将训练集和验证集中化合物分子的SMILES转换数字列表：

将化合物分子的SMILES字符串的字符逐一按照固定的字典转换为对应的数字，进而将化合物分子的SMILES转换为一个设定长度的数字列表；该数字列表的最大长度设置为100，转换的字典大小为64，即包含64种SMILES中可以出现的ASCII字符。超出数字列表最大长度的只保留最大长度部分,少于数字列表最大长度的进行填补占位。

将转换后训练集和验证集进行集合类型转换，转换为DataLoader类型：

具体是先转换为torch.utils.data.TensorDataset类型，再转为torch.utils.data.DataLoader类型。其中Dataloader的BatchSize参数设置为2560，shuffle设置为True，num_worker设置为4。

将数据预处理后的训练集用Dataloader按照批次大小依次输入到所述深度学习模型中进行训练，并且一个训练集的一个批次先用torch.nn.Embedding将该批次中的所有的数字列表的每一个数字转换成对应的嵌入向量，嵌入向量维度设置为128，化合物分子的字符长度为100，则该化合物分子对应的初始嵌入向量大小为(100，128)，整个批次的大小为(2560，100，128)。

将同一批次的嵌入向量依次通过3个卷积Block单元与多层感知机MLP单元，最后得到整个批次的预测分数，大小为(2560,1)；将当前批次的预测对接分数与对应的标注分数进行损失函数计算并进行梯度回传，更新深度学习模型参数；本实施例中，训练的最大Epoch数设置为100，BatchSize设置为2560，初始学习率为0.001，优化器使用的是Adam，损失函数使用的是torch.nn.MSELoss。

其他批次训练过程与之相同，当整个训练集都训练一次后就完成1个Epoch训练。

验证集对深度学习模型预测评估；

当均方根误差<0.7，且皮尔森系数>0.6，表明当前深度学习模型的预测性能达基到基本要求,将该深度学习模型作为当前组合训练得到的深度学习模型。

测试集对深度学习模型进行预测评估：

将测试集的化合物分子进行数据预处理后按批次以嵌入向量形式分别输入到5个训练后深度学习模型，并将每个化合物分子的5个预测对接分数的平均值作为该化合物分子的最终预测对接分数。

计算各化合物分子的最终预测对接分数与该化合物分子的标注分数的均方根误差和皮尔森系数；当均方根误差<0.7且皮尔森系数>0.6时说明训练的5个深度学习模型符合基本要求；是否需要进行模型参数的调整，根据实际进行改动，均方根误差<0.7且皮尔森系数>0.6只是最低标准，可以根据实际要求训练到更优结果。本实施例中，经过一轮训练后，测试集的均方根误差为0.3699,皮尔森系数为0.8028。

主动学习：

对筛选学习库I中剩余的化合物分子预测打分；预测打分的过程与训练过程一样，也需要进行数据预处理和向量转换并分批次输入到5个深度学习模型中；

更新总训练集；

在进行预测打分后所采用的筛选规则为双重筛选，先以最终预测对接分数为依据从筛选学习库I中剩余的化合物分子中筛选并存入待选训练集；再以预测打分方差为依据从待选训练集中筛选。

本实施例中，是选择最终预测对接分数好的前5％化合物分子作为待选训练集；因为最终预测分数越小越好，并且此处的5％是以筛选学习库I的总量为基准；

再从待选训练集中选择预测打分方差大的前0.1％的化合物分子作为选定训练集,此处的0.1％是以筛选学习库I的总量为基准；并且预测打分方差越大越好。对选定训练集，用Ledock分子对接软件打分标注后与原总训练集融合构成更新总训练集；

更新训练；

更新总训练集再次对5个训练后深度学习模型进行训练，训练过程与总训练集训练过程相同，得到主动学习后的5个深度学习模型；

测试集对主动学习后的深度学习模型进行预测评估；

使用测试集对主动学习后的5个深度学习模型进行评估，将测试集的化合物分子进行数据预处理后按批次已嵌入向量形式分别输入到主动学习后的5个深度学习模型，并将每个化合物分子的5个预测对接分数的平均值作为该化合物分子的最终预测对接分数；

当均方根误差<0.7，且皮尔森系数>0.6时说明主动学习后的5个深度学习模型符合要求，并根据实际情况选择是停止主动学习还是再进行依次主动学习。一般最多主动学习2次，评估结果合适则停止主动学习，得到最终深度学习模型。该5个最终深度学习模型可以快速对化合物分子和靶点进行预测打分，本实施例中经过一次主动学习后得到的深度学习模型在测试集上的均方根误差为0.3933，皮尔森系数为0.8986，表明模型预测性能出色，具有很好的虚拟筛选效果。

本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度主动学习的高通量虚拟筛选方法，其特征在于，包括：

获取筛选学习库I：

从化合物数据库中获取以SMILES表征的化合物分子存入筛选学习库I；筛选学习库I中化合物分子均以SMILES表征；

获取标注分子库：

从筛选学习库I中随机筛选化合物分子，对每个化合物分子使用分子对接软件与给定的靶点进行对接打分标注，并存入标注分子库；

标注分子库进行数据集划分，划分为总训练集和测试集；

构造和训练深度学习模型：

采用K重交叉验证将总训练集随机划分K等份，其中1份为验证集，其余K-1份均为训练子集，各训练子集组合为训练集；得到K个不同的训练集和验证集的组合；将每个组合的训练集和验证集都进行数据预处理后按批次以嵌入向量形式输入到深度学习模型中训练和评估，得到K个训练后深度学习模型；

测试集对深度学习模型进行预测评估，评估结果合适则进行主动学习；

主动学习：

对筛选学习库I中剩余的化合物分子预测打分；

更新总训练集；

对选定训练集，用分子对接软件打分标注后与原总训练集融合构成更新总训练集；

更新训练；

测试集对主动学习后的深度学习模型进行预测评估；

2.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，所述测试集对深度学习模型进行预测评估包括：

将测试集的化合物分子进行数据预处理后按批次以嵌入向量形式分别输入到K个训练后深度学习模型，并将每个化合物分子的K个预测对接分数的平均值作为该化合物分子的最终预测对接分数；

计算各化合物分子的最终预测对接分数与该化合物分子的标注分数的均方根误差和皮尔森系数；当均方根误差<0.7且皮尔森系数>0.6时，说明训练的K个深度学习模型符合基本要求。

3.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于：所述深度学习模型为深度卷积神经网络模型，包括3个卷积Block单元和1个多层感知机单元；每个卷积Block单元由5个Conv1d、2层BatchNorm1d和2个PReLU非线性激活层组成；

多层感知机单元由3层全连接层、2层Dropout和2层PReLU非线性激活层组成。

4.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，一个组合的训练过程为：

训练集中属于同一批次的各数据列表在输入深度学习模型之前，先转换为嵌入向量；

完成1个Epoch训练后，得到一个训练后的深度学习模型；

验证集对深度学习模型预测评估；

5.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，所述的筛选规则为双重筛选，先以最终预测对接分数为依据从筛选学习库I中剩余的化合物分子中筛选并存入待选训练集；再以预测打分方差为依据从待选训练集中筛选。

6.根据权利要求5所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于：选择设定量的最终预测对接分数好的化合物分子，作为待选训练集；所述最终预测分数越小越好；

从待选训练集中选择设置量的预测打分方差大的化合物分子作为选定训练集，所述预测打分方差越大越好。

7.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，所述测试集对主动学习后的深度学习模型进行预测评估为：

当均方根误差<0.7，且皮尔森系数>0.6时，说明主动学习后的K个深度学习模型符合基本要求，根据设定条件停止主动学习。

8.根据权利要求1-7中任一所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，所述的数据预处理包括：

将化合物分子的SMILES转换数字列表：

将化合物分子的SMILES字符串的字符逐一按照字典转换为对应的数字，进而将化合物分子的SMILES转换为一个设定长度的数字列表；

集合类型转换；

将进行数据转换后的数据集先转换为TensorDataset类型，再转换为DataLoader类型。

9.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，所述嵌入向量的维度为128。

10.根据权利要求1所述的基于深度主动学习的高通量虚拟筛选方法，其特征在于，从筛选学习库I中随机筛选0.1％～0.5％化合物分子。