CN116013428A

CN116013428A - 基于自监督学习的药物靶标通用预测方法、设备及介质

Info

Publication number: CN116013428A
Application number: CN202310097306.2A
Authority: CN
Inventors: 李敏; 卢长利
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-04-25

Abstract

本发明公开了一种基于自监督学习的药物靶标通用预测方法、设备及介质，方法包括：使用化合物特征提取模块提取药物特征向量：将药物分子结构拆分成子结构序列，并将每个子结构转换为向量编码得到序列向量，输入到编码器中进行特征提取；其中，利用掩码语言模型预测、分子描述符预测和分子官能团预测并基于药物样本的特征向量对化合物特征提取模块及这三个预测模型进行自监督训练，得到所述化合物特征提取模块；提取靶标的特征向量；基于药物和靶标的特征向量，使用自动机器学习模型进行药物与靶标之间的任务预测。本发明适用于包括药物‑靶标相互作用、结合亲和力和作用机制等预测任务，且在各个任务上的预测准度都优于同类型的预测方法。

Description

基于自监督学习的药物靶标通用预测方法、设备及介质

技术领域

本发明属于深度学习领域，具体涉及一种基于自监督学习的药物靶标通用预测方法、设备及介质。

背景技术

药物-靶标相互作用的鉴定是药物发现和药物研发中最关键的一环，其可以帮助从系统层面上理解药物的作用机制，也对药物重定位有着重要的临床指导意义。传统的实验方法进行药物-靶标相互作用的测定存在耗时且昂贵的问题，因此，研究人员提出了各种计算方法来预测药物和靶标之间的潜在相互作用。如果能够准确预测药物小分子与靶蛋白之间的相互作用，就可以实现化合物的高效筛选，减少大量不必要的生化实验，从而加快药物研发的进程以及降低研发成本。然而，现有计算方法的泛化能力还有待进一步提高，其在已知的药物或靶标中可以得到较好的预测效果，但是在未知药物或靶标中的预测效果则表现较差。而且，目前绝大多数计算方法只能用于药物-靶标相互作用的二分类预测或者结合亲和力的回归预测，而无法预测二者之间相互作用的作用机制。事实上，作用机制的识别在临床用药中有着重要的指导意义。

目前，提高模型泛化能力最直接有效的方法就是增加训练数据。然而，现有的有标签数据显然不足以训练一个高精度的药物靶标预测模型，因其已知的相互作用数据较少，这也是目前方法泛化能力不足的主要原因，尤其在新药和新靶标上的预测。

发明内容

本发明所要解决的技术问题是，针对已有的药物-靶标相互作用预测方法中泛化能力不足，且无法预测作用机制的缺点，提供一种基于自监督学习的药物靶标通用预测方法、设备及介质，扩展性强，且预测性能好。

为实现上述技术目的，本发明采用如下技术方案：

一种基于自监督学习的药物靶标通用预测方法，包括：

(1)使用化合物特征提取模块提取药物的特征向量：将药物分子结构拆分成若干个子结构的序列，并将每个子结构转换为向量编码得到序列向量，输入到Transformer编码器中进行特征提取，得到药物的特征向量；

其中，所述化合物特征提取模块的预训练方法为：提取药物样本集中各药物样本的特征向量，利用提取的药物样本特征向量分别进行掩码语言模型预测、分子描述符预测和分子官能团预测，通过加权融合这三个预测模型的损失并进行反向传播来更新化合物特征提取模块以及这三个预测模型的所有参数；

(2)使用蛋白质预训练模型提取靶标的特征向量；

(3)基于药物和靶标的特征向量，使用自动机器学习模型进行药物与靶标之间的任务预测。

进一步地，步骤(1)具体过程为：

首先，通过RDKit工具包将药物分子结构切分成n个半径为1的子结构序列S：

S＝(x₁；x₂；...；x_n)

式中x_i表示药物分子结构切分得到的第i个子结构；

随后，对每个子结构进行向量编码映射到d维的向量空间：

其中

是第i个子结构x_i经向量编码得到的d维向量表示；

最后，将药物的d维向量表示集X输入到多层Transformer编码器中，进行多头自注意力的特征提取。

进一步地，在化合物特征提取模块的预训练方法中，掩码语言模型的损失函数定义为：

式中，loss_MLM表示掩码语言模型的预测损失，mask表示药物被掩盖的子结构集合，i表示mask中的子结构索引，p(x_i)表示预测输出为真实子结构x_i的概率。

进一步地，在化合物特征提取模块的预训练方法中，分子描述符预测模型的损失函数定义为：

式中，loss_MDP表示分子描述符预测模型的预测损失，n为药物的分子描述符个数，y_i为药物第i个分子描述符的真实值，由RDKit计算得到，

为第i个分子描述符的预测值。

进一步地，在化合物特征提取模块的预训练方法中，分子官能团预测模型的损失函数定义为：

式中，loss_MFGP表示分子官能团预测模型的预测损失，m为官能团个数，z_i为药物包含第i个官能团的二元标签，1表示药物包含对应官能团，0则表示没有，该标签通过RDKit计算得到，

表示药物包含第i个官能团的预测概率。

进一步地，所述通过加权融合这三个预测模型的损失并进行反向传播，加权融合表达式为：

loss＝loss_MLM+α·loss_MDP+β·loss_MFGP

式中，loss为加权融合的总损失，loss_MLM表示掩码语言模型的预测损失，loss_MDP表示分子描述符预测模型的预测损失，loss_MFGP表示分子官能团预测模型的预测损失，α和β为加权系数。

进一步地，药物与靶标之间的任务预测，包括：药物与靶标之间是否存在相互作用、药物与靶标之间相互作用的强度或药物与靶标之间的相互作用是激活作用还是抑制作用。

进一步地，所述蛋白质预训练模型采用现有的蛋白质语言模型ESM-2。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如上述任一项所述的药物靶标通用预测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的药物靶标通用预测方法。

有益效果

现有的数据库存有海量的无标签数据，包括药物化合物和靶标蛋白质，因此本发明使用海量的无标签数据预训练一个大规模的自监督模型，该模型通过从海量数据中挖掘化合物子结构之间或蛋白质子序列之间的隐含关系，能够准确提取药物分子和靶标蛋白的特征向量，从而在下游的各种药物靶标预测任务中，对于未知的药物或靶标也能根据学到的子结构和子序列信息得到较好的预测效果，有效提高下游任务预测模型的泛化能力，并且扩展性较强，能够应用于包括药物-靶标相互作用、结合亲和力和作用机制在内的多个药物靶标相关预测任务。

附图说明

图1是本申请实施例所述方法的整体架构图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实施例提供一种基于自监督学习的药物靶标通用预测方法，参考图1所示，包括以下步骤：

一、药物化合物的预训练

预训练模型的输入为化合物的SMILES串，使用RDKit将化合物切分成半径为1的子结构的序列，然后将化合物的子结构编码成特征向量并输入到Transformer编码器，提取子结构之间的隐含关系和特征，最后利用提取到的特征向量分别进行掩码语言模型预测、分子描述符预测和分子官能团预测，加权融合这些模型的预测损失并通过反向传播来更新所有模型的参数。

更具体的，对于一个输入的药物化合物，假设其SMILES串为“CCCON”，使用RDKit的摩根算法提取其半径为1的所有子结构，得到子结构序列(“CC”，“CCC”，“CCO”，“CON”，“ON”)，然后将这些子结构编码成可学习的Embedding向量，每个子结构都有一个对应的Embedding向量，相同的子结构共享同一个Embedding向量。然后将编码后的序列Embedding向量输入到Transformer编码器计算子结构之间的自注意力并进行特征提取。其中自注意力的计算如下所示：

其中Q,K,V是输入序列的线性变换，其维度都为d。Transformer编码器加入了多个自注意力机制并堆叠了多个相同的模块来提高模型的表达能力。

接下来，利用Transformer编码器提取到的特征向量分别进行掩码语言模型预测、分子描述符预测和分子官能团预测，这三个模型都是简单的神经网络模型。其中掩码语言模型是一个多分类预测问题，通过随机掩盖输入子结构序列中的部分子结构并根据未掩盖的子结构的上下文信息预测出掩盖的部分原来是哪些子结构。分子描述符预测是一个回归任务，旨在预测输入化合物的所有分子描述符的真实值。分子官能团预测是一个多标签分类问题，旨在预测输入的化合物包含哪些官能团。最后通过加权融合这三个模型的预测损失并进行反向传播来更新模型的所有参数，包括Embedding向量、Transformer编码器以及三个预测模型的参数。通过不断迭代训练直至模型收敛，得到训练好的化合物预训练模型。本实施例中，掩码语言模型对于每个化合物都掩盖了15％的子结构作为预测标签，而分子描述符预测则使用了123个分子描述符作为预测真实值，分子官能团预测使用了60个官能团作为预测标签。

二、靶标蛋白质的预训练

关于靶标蛋白质的预训练部分，本实施例直接使用Meta AI研究团队训练好的蛋白质模型ESM-2，该模型的输入为蛋白质序列，同样也使用了Transformer编码器进行氨基酸之间的自注意力计算和特征提取，预测模型只有掩码语言模型。ESM-2使用一亿多条蛋白质序列训练了多个规模不同的蛋白质语言模型，本实施例使用其中一个参数量为6.5亿的模型作为靶标的特征提取模型。

三、下游任务的预测

预训练好的化合物和蛋白质模型学到了子结构和子序列之间丰富的语义信息，能够提取准确的化合物和蛋白质特征向量，可以广泛的应用于下游药物靶标相关的预测任务。本发明主要涉及了药物-靶标相互作用、结合亲和力和作用机制的预测。首先使用化合物和蛋白质预训练模型分别提取药物和靶标的特征向量。然后将二者的特征向量拼接起来作为自动机器学习模型AutoGluon的输入，AutoGluon通过融合多个无需超参数搜索的模型来提高模型的准确度和稳定性。最后分别进行药物-靶标相互作用、结合亲和力和作用机制的预测。其中药物-靶标相互作用预测是一个二分类问题，即预测给定的药物-靶标对是否存在相互作用，预测的标签为1和0,1表示对应的药物-靶标对存在已知的相互作用，0则表示不存在相互作用。结合亲和力预测则用来评估二者相互作用的强度，预测标签是经过log变换的连续值，表示对应的药物-靶标对之间的结合亲和力大小。作用机制的预测主要用于判别药物与靶标之间的相互作用是激活作用还是抑制作用，本发明将作用机制的预测分为了两个模型，一个模型用于预测给定的药物-靶标对是否存在激活作用，另一个模型则用于预测二者是否存在抑制作用，两个模型都为二分类预测。

四、实验验证

为了验证使用本发明【以下称为GFDTI】进行药物靶标预测的有效性和相比于其他方法的性能优越性，本部分通过广泛的实验来评估GFDTI的性能。以下分别在药物-靶标相互作用、结合亲和力和作用机制三个预测任务中的6个数据集上进行了对比实验，每个预测任务包含2个不同的数据集，且每个对比实验都进行了热启动、药物冷启动和靶标冷启动三种设置的实验对比。其中热启动设置表示测试集中的药物和靶标都在训练集中出现了，药物冷启动表示测试集中的药物未在训练集中出现，靶标冷启动则表示测试集中的靶标未在训练集中出现。对于每一个预测任务，均选取对应的一些经典模型作为实验对比的基线模型，且为了保证实验对比的公平性，使用相同的随机种子对所有数据集进行交叉验证，每个数据集都划分为了训练集和测试集，各方法在相同的训练集上进行训练，得到的模型在测试集上测试结果。另外，药物-靶标相互作用预测和作用机制预测都使用AUC和AUPR作为评估指标，结合亲和力预测则使用均方误差MSE和一致性指数CI作为评估指标。

各预测任务的实验结果分别如表1、2、3所示。

表1 GFDTI和其它基线模型在药物-靶标相互作用预测上的性能比较

表2 GFDTI和其它基线模型在结合亲和力预测上的性能比较

表3 GFDTI和其它基线模型在作用机制预测上的性能比较

如表1所示，在药物-靶标相互作用预测任务上，GFDTI在所有数据集上的各个实验设置下都取得了最好的预测性能。尤其在数据规模较小的yamanishi08数据集上，GFDTI的预测性能显著超越其他基线模型，这表明预训练模型从大量的无标签数据上提取到了准确的隐含特征，从而在下游任务中只需少量有标签数据就能训练出准确的模型。另外，可以看到其他基线模型在两个冷启动实验设置下的性能下降明显，而GFDTI依然能保持较高的预测性能，这表明预训练学到的子结构和子序列信息能够有效的应用于未知药物和靶标的预测。然而在数据规模较大的hetionet数据集上，GFDTI的性能优势并不明显，其他基线模型在数据量充足的情况下也能训练出精准的模型。

从表2的结果可以看出，在结合亲和力预测任务上，GFDTI在所有数据集上的各个实验设置下同样也取得了最优的预测性能。同样也是在数据规模较小的davis数据集上的性能优势更为显著，在数据规模较大的kiba数据集上的性能优势不明显。在冷启动实验设置下，所有模型的预测性能均大幅下降，但与其他基线模型相比，GFDTI依然能保持其性能优势。

在作用机制预测任务上，可以从表3看出，GFDTI在所有数据集上的各个实验设置下的预测性能均大幅领先与另一个基线模型。与前两个预测任务得出的结论一样，GFDTI同样在数据量较少的activator数据集上性能优势更明显。在药物冷启动实验设置下，GFDTI在两个数据集上的预测性能几乎与热启动实验设置上的性能保持一致。而在靶标冷启动实验设置下，两个方法的预测性能均下降明显，但与另一个基线模型相比，GFDTI的预测性能依然大幅领先。

以上的实验结果表明，本发明提出的基于自监督学习的方式进行药物和靶标的预训练能够有效提高下游预测任务的性能，尤其在有标签数据不足的下游预测任务中，经过预训练的模型能够显著提高预测性能。同时，在未知的药物和靶标上的预测，GFDTI也能有效提高模型的泛化能力和预测性能。这也进一步说明了GFDTI方法从大量的无标签数据中学到了药物子结构和靶蛋白子序列之间丰富的隐含特征和关联关系，即使对数据不足的预测任务或对未知的药物和靶标进行预测，GFDTI依然能够依靠预训练时学到的隐含特征进行准确的预测。此外，GFDTI在以上的三个预测任务中均取得了最优的预测性能，体现了其强大的扩展性，能够通用于药物靶标相关的下游预测任务。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请专利构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。