CN113192572A

CN113192572A - 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置

Info

Publication number: CN113192572A
Application number: CN202110478484.0A
Authority: CN
Inventors: 吴建盛; 徐华健; 胡海峰; 朱燕翔
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-30
Anticipated expiration: 2041-04-29
Also published as: CN113192572B

Abstract

本发明揭示了一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置，该方法包括以下步骤：S1：收集数据集，得到有生物活性值的配体分子样本和无生物活性值的配体分子样本；S2：使用S1步骤中得到的有生物活性值的配体分子样本构建回归模型；S3：计算数据集中分子间的相似度；S4：利用S3步骤中得到的分子相似度和S2步骤中得到的回归模型，计算三元组损失；S5：根据S2步骤和S4步骤得到的损失函数训练模型。基于半监督学习方法，在模型训练中引入大量的无实验生物活性值样本，使用分子相似度和三元组损失对无实验生物活性值样本的模型预测值进行约束，解决实际应用场景中大量无生物活性值的样本无法有效参与模型训练的难题。

Description

一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置

技术领域

本发明涉及一一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置，可用于人工智能药物设计技术领域。

背景技术

药物研发具有投入大，风险高，周期长的特点，一般而言，一个药物研发周期在10年以上，研发投入在数亿美金，并且呈现逐年上升的趋势。药物虚拟筛选是药物发现的重要环节，能大大地降低筛选的时间和成本，对于加速药物研发具有重要意义。近年来，随着人工智能药物设计领域的发展，机器学习算法在药物设计领域得到了大量的应用，基于机器学习的药物虚拟筛选方法已成为其主流的方法，它首先通过有已知活性值的数据集有监督训练机器学习模型，再使用模型预测未知活性的配体分子的活性值，从而筛选出预测活性值较高的配体分子做进一步的先导化合物筛选。

然而，好的机器学习模型往往需要使用大量的已知活性值的配体分子数据来进行训练，然而在实际的应用场景中，通过实验获取已知生物活性的数据集通常耗时耗力。因此，在已知生物活性样本量不足的情况下，如何构建一个性能好的回归预测模型是运用机器学习方法做药物虚拟筛选面临的一个实际问题。

和通过实验得到的生物活性值的数据相比，无生物活性值的小分子数据获取就简单很多，只需要从相应的化学物数据库中下载即可。因此，为解决上述问题，我们使用半监督学习方法，仅需较少的有生物活性值的分子样本，同时使用大量的无生物活性值的分子样本，来完成模型的训练。对于无生物活性值的样本，计算其与有生物活性值的样本的相似度，引入三元组损失，对其模型预测值进行有效约束。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置。

本发明的目的将通过以下技术方案得以实现：一种基于分子相似性和半监督学习的药物虚拟筛选方法，该方法包括以下步骤：

S1：收集数据集，得到有生物活性值的配体分子样本和无生物活性值的配体分子样本；

S2：使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型；

S3：计算数据集中分子间的相似度；

S4：利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型，计算三元组损失；

S5：根据S2步骤和S4步骤得到的损失函数训练模型。

优选地，在所述S1步骤中，从公开数据集中收集对特定药物靶标作用的配体分子的活性值Y_i及配体分子的SMILES分子式X_i，构建有生物活性值的配体分子数据集；另外对于无生物活性值的样本，只收集配体分子的SMILES分子式X′_j，构建无生物活性值的配体分子数据集。

优选地，在所述S2步骤中，构建回归预测模型对有生物活性值的样本做监督回归学习，对配体分子X_i预测的结果记为

真实生物活性值值为Y_i，计算出均方误差损失L_MSE：

优选地，在所述S3步骤中，首先使用rdkit化学信息包对配体分子的SMILES分子式X_i、X′_j做解析处理生成分子指纹Fp_i、Fp′_j，对得到的分子指纹Fp_i、Fp′_j计算两分子X_i、X′_j间的相似度S_ij，公式如下：

其中c为两个分子指纹中相同的位数，a为分子指纹Fp_i的长度，b为分子指纹Fp′_j的长度。

优选地，在所述S4步骤中，对有生物活性值的样本X_i，其生物活性值为Y_i，按1：2的比例，取无生物活性值的样本X′_j、X′_k，经过S2步骤的回归网络模型得到的预测值为

引入三元组损失对无生物活性值样本的活性值进行约束；其中三元组损失：

其中[.]₊的含义为：若括号内的值大于0，则[.]₊等于括号内的值；若括号内的值小于0，则[.]₊等于0，a和S_t分别是活性值差值和相似度差值的阈值。

优选地，在所述S5步骤中，根据损失函数更新模型参数，使用均方误差损失和三元组损失之和做总的模型损失函数：

使用梯度下降算法，反向传播更新回归预测模型参数，从而训练回归预测模型。

本发明还揭示了一种基于分子相似性和半监督学习的药物虚拟筛选装置，该装置包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。

优选地，所述数据集的获取和划分模块从公开数据库或者实验等其他途径中，获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值构建有生物活性值数据集，另外只收集SMILES分子式构建无生物活性值数据集

优选地，所述回归模型预测模块能够根据需要选用任意一种回归预测模型，对于有生物活性值样本X_i，经过回归预测模型输出预测值

真实的生物活性值为Y_i，计算其均方误差L_mse；对于无生物活性值样本X′_j，经过回归预测模型输出预测值

优选地，所述三元组损失模块包括相似度计算模块，三元组损失计算模块；相似度计算模块，用于计算有生物活性值样本和无生物活性值样本对之间的相似性，对于每一个输入回归预测模块的有生物活性值样本，按1∶2的比例，对每一个有生物活性值样本X_i，选取两个无生物活性值样本X′_j、X′_k，使用相似度计算公式分别计算X_i和X′_j、X_i和X′_k的分子相似度S_ij、S_ik；

所述三元组损失计算模块，用于约束无生物活性值样本通过回归模型得到的预测值。使用公式：

计算三元组损失L_tri。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：该技术方案充分利用没有生物活性值的样本进行训练，在已知生物活性值样本少的实际虚拟筛选场景下具有一定的应用价值。该技术方案可以很好地利用大量无生物活性值的样本来训练模型，具有较好的理论和工程应用价值，它在有活性值样本不足的情况下，有助于提升药物虚拟筛选模型的性能。

基于半监督学习方法，在模型训练中引入大量的无实验生物活性值样本。使用分子相似度和三元组损失对无实验生物活性值样本的模型预测值进行约束，解决实际应用场景中大量无生物活性值的样本无法有效参与模型训练的难题。

附图说明

图1为本发明的一种基于分子相似性和半监督学习的药物虚拟筛选方法的算法流程图。

图2为本发明的一种基于分子相似性和半监督学习的药物虚拟筛选装置的流程图。

图3为本发明的训练模型的流程图。

图4为本发明的预测模型的流程图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置，内容主要涉及利用小分子间的相似性，引入半监督学习，来进行药物的虚拟筛选。

一种基于分子相似性和半监督学习的药物虚拟筛选方法，如图1所示，该方法包括以下步骤：

S3：计算数据集中分子间的相似度；对有生物活性值的配体分子样本和无生物活性值的配体分子样本计算相似度；

S5：根据S2步骤和S4步骤得到的损失函数训练模型。

在所述S1步骤中，获取对特定药物靶标作用的配体分子的活性值Y_i及配体分子的SMILES分子式X_i，对于无生物活性值的样本获取其SMILES分子式X′_j即可。

在所述S2步骤中，基于回归预测模型对有生物活性值的样本做监督回归学习，对配体分子X_i预测的结果记为

真实生物活性值值为Y_i，计算出均方误差损失L_MSE：

在所述S3步骤中，首先使用rdkit化学信息包对配体分子的SMILES分子式X_i、X′_j做解析处理生成分子指纹Fp_i、Fp′_j，对得到的分子指纹Fp_i、Fp′_j计算两分子X_i、X′_j间的相似度S_ij，公式如下：

在所述S4步骤中，对有生物活性值的样本X_i，其生物活性值为Y_i，按1：2的比例，取无生物活性值的样本X′_j、X′_k，经过S2步骤的回归网络模型得到的预测值为

该三元组损失的含义为当样本X_i和样本X′_j的相似度大于样本X_i和样本X′_k的相似度时，说明样本X_i和样本X′_j的活性值差异应该小于样本X_i和样本X′_k的活性值差异，如果样本X_i的真实生物活性值和样本X_i预测的活性值差值大于样本X_i和样本X′_k的活性值差异，则有三元组损失。通过使用三元组损失约束，在模型训练过程中引入无生物活性值样本的数据，根据其与有活性样本间的相似度来约束其预测活性值大小，用于辅助模型训练。

在所述S5步骤中，根据损失函数更新模型参数，使用均方误差损失和三元组损失之和做总的模型损失函数：

本发明还揭示了一种基于分子相似性和半监督学习的药物虚拟筛选装置，如图2所示，该装置主要包括模型训练模块和模型预测模块，模型训练模块包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。

所述数据集的获取和划分模块从公开数据库或者实验等其他途径中，获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值，构建有生物活性值数据集。另外只收集SMILES分子式，构建无生物活性值数据集，将构建好的有实验生物活性值和无实验生物活性值数据集分别输入该装置。

所述回归模型预测模块能够根据需要选用任意一种回归预测模型，对于有生物活性值样本X_i，经过回归预测模型输出预测值

所述三元组损失模块包括分子指纹的生成模块，相似度计算模块，三元组损失计算模块；所述分子指纹的生成模块，使用rdkit化学解析包，将SMILES分子式转换成相应的2D分子指纹。

所述相似度计算模块，用于计算有生物活性值样本和无生物活性值样本对之间的相似性，对于每一个输入回归预测模块的有生物活性值样本，按1∶2的比例，对每一个有生物活性值样本X_i，选取两个无生物活性值样本X′_j、X′_k，使用相似度计算公式分别计算X_i和X′_j、X_i和X′_k的分子相似度S_ij、S_ik；

所述三元组损失计算模块，于约束无生物活性值样本通过回归模型得到的预测值，根据回归预测模块得到的无生物活性值样本的预测活性值

和相似度计算模块得到的相似度S_ij、S_ik，以及有生物活性值样本的真实活性值Y_i，使用公式：

计算三元组损失L_tri。

所述模型参数更新模块具体包括：根据模型总的损失函数，计算其对回归模型参数的梯度，使用梯度下降算法，对梯度进行反向传播，更新模型参数，不断迭代，训练回归预测模型。所述模型预测模块具体包括：输入待预测分子的SMILES分子式，调用上述模型训练模块中训练好的回归模型，即可进行活性值预测，根据预测得出的活性值做进一步的筛选得到可能成药的配体小分子，用于后续药物设计。

第一步，构建数据集。

从公开数据库或者实验等其他途径中，收集配体分子的SMILES分子式X_i和其对特定药物靶标作用的活性值Y_i，构建有实验生物活性值数据集。收集SMILES分子式构建无实验生物活性值数据集。

第二步，使用有实验生物活性值样本。

对于有实验生物活性值样本X_i，使用任意一种回归预测模型对样本进行活性值预测，得到预测活性值

并根据数据集的真实实验活性值Y_i，计算均方误差损失：

第三步，使用无生物活性值样本。

对于无生物活性值样本，在第二步使用有生物活性值样本训练模型的同时，按1∶2的比例，每输入一个有生物活性值样本X_i，输入两个无生物活性值样本X′_j、X′_k，经过上述回归预测模型，得到预测的活性值Y_j、Y_k。并计算X_i和X′_j、X_i和X′_k的分子相似度S_ij、S_ik。最后使用无生物活性值样本的Y_j、Y_k和有生物活性值样本的真实活性值Y_i，以及相似度S_ij、S_ik计算三元组损失，用于约束无生物活性值样本的预测活性值，试图达到相似度越大的两个配体分子其活性值差异也越小的约束效果。

第四步，根据损失函数训练回归预测模型。

将第二、第三步中得出的两个损失函数求和作为模型总的损失函数，计算损失函数对模型参数的梯度，对梯度进行反向传播，使用梯度下降算法更新回归预测模型参数，从而训练模型。

第五步，模型测试及使用。

将经过上述步骤训练好的回归预测模型保存，用于测试及预测。输入待预测的配体分子的SMILES分子式，调用回归预测模型，输出其预测活性值，根据预测得出的活性值做进一步的筛选得到可能成药的配体小分子，用于后续药物设计。

需要说明的是，本发明中的回归预测模块是可替换的任何回归预测模型，本发明的主要思想是引入半监督学习机制，通过计算分子间相似性和三元组损失，将大量的无生物活性值样本也用于训练模型，更加符合实际药物虚拟筛选的实际应用场景和需求。

该技术方案可以充分利用大量无生物活性值的样本，更符合实际应用场景中存在大量无生物活性值的小分子样本的情况，有助于解决因缺乏有生物活性值样本而不好训练回归预测模型的难题；相比于单纯的有监督的回归预测，预测的性能可以得到进一步提升；额外使用分子相似性做约束，加入领域知识，能够更好的训练模型。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：该方法包括以下步骤：

S3：计算数据集中分子间的相似度；

S5：根据S2步骤和S4步骤得到的损失函数训练模型。

2.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：在所述S1步骤中，从公开数据集中收集对特定药物靶标作用的配体分子的活性值Y_i及配体分子的SMILES分子式X_i，构建有生物活性值的配体分子数据集；另外对于无生物活性值的样本，只收集配体分子的SMILES分子式X′_j，构建无生物活性值的配体分子数据集。

3.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：在所述S2步骤中，构建回归预测模型对有生物活性值的样本做监督回归学习，对配体分子X_i预测的结果记为

真实生物活性值值为Y_i，计算出均方误差损失

4.根据权利要求1所述的一一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：在所述S3步骤中，首先使用rdkit化学信息包对配体分子的SMILES分子式X_i、X′_j做解析处理生成分子指纹Fp_i、Fp′_j，对得到的分子指纹Fp_i、Fp′_j计算两分子X_i、X′_j间的相似度S_ij，公式如下：

5.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：在所述S4步骤中，对有生物活性值的样本X_i，其生物活性值为Y_i，按1∶2的比例，取无生物活性值的样本X′_j、X′_k，经过S2步骤的回归网络模型得到的预测值为

6.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法，其特征在于：在所述S5步骤中，根据损失函数更新模型参数，使用均方误差损失和三元组损失之和做总的模型损失函数：

7.一种基于分子相似性和半监督学习的药物虚拟筛选装置，其特征在于：该装置包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。

8.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置，其特征在于：所述数据集的获取和划分模块从公开数据库或者实验等其他途径中，获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值构建有生物活性值数据集，另外只收集SMILES分子式构建无生物活性值数据集。

9.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置，其特征在于：所述回归模型预测模块能够根据需要选用任意一种回归预测模型，对于有生物活性值样本X_i，经过回归预测模型输出预测值

真实的生物活性值为Y_i，计算其均方误差L_mse；对于无生物活性值样本X′_j，经过回归预测模型输出预测值Y_j。

10.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置，其特征在于：所述三元组损失模块包括相似度计算模块，三元组损失计算模块；相似度计算模块，用于计算有生物活性值样本和无生物活性值样本对之间的相似性，对于每一个输入回归预测模块的有生物活性值样本，按1∶2的比例，对每一个有生物活性值样本X_i，选取两个无生物活性值样本X′_j、X′_k，使用相似度计算公式分别计算X_i和X′_j、X_i和X′_k的分子相似度S_ij、S_ik；

计算三元组损失L_tri。