CN116994644B

CN116994644B - 基于预训练模型的药靶亲和力预测方法

Info

Publication number: CN116994644B
Application number: CN202310946122.9A
Authority: CN
Inventors: 郭菲; 宋楠; 徐君海
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2024-02-02
Anticipated expiration: 2043-07-28
Also published as: CN116994644A

Abstract

本申请涉及生物信息领域，公开了基于预训练模型的药靶亲和力预测系统，包括蛋白语言嵌入表示模块，用于生成丰富的蛋白语义特征表示；蛋白质序列表示学习模块，用于生成蛋白序列的连续性表示，并获得蛋白序列的深层表示；化合物序列表示学习模块，用于生成化合物结构信息表示；克罗内克积的融合模块，用于通过克罗内克积计算蛋白与化合物特征向量的共同表示，来明确捕获化合物和蛋白质特征的重要相互作用。通过预训练的蛋白语言模型(如ESM、TAPE等)对蛋白序列进行编码，可以获得丰富的蛋白序列的语料表示并加快模型收敛。通过整合多种化合物中的原子特征，本模型能够更全面地捕获化合物的特征。

Description

基于预训练模型的药靶亲和力预测方法

技术领域

本发明涉及生物信息技术领域，具体为基于预训练模型的药靶亲和力预测方法。

背景技术

在药物研发领域，实验方法已积累了大量的蛋白质与化合物数据，为蛋白质与化合物相互作用预测研究提供了丰富的数据支持。对于蛋白质-化合物互相作用预测，现有的实现方案主要包括基于结构的方法和基于序列的方法。基于结构的方法如分子对接、复合物3D-CNN神经网络等，这些方法依赖于蛋白质以及化合物的3D结构，然而自然界存在大量尚未获得结构信息的蛋白质，这限制了模型的适用性。另一方面，基于序列的方法如递归神经网络、图神经网络、注意力机制等已成功应用于提取蛋白质和化合物序列的语义特征操作，为了更准确地描述蛋白质的特性，他们使用了SPS(Structural Property Sequence)表示方法对蛋白序列进行编码，并通过融合了注意力机制的递归神经网络对大量无标签的SPS序列和化合物序列进行预训练。该方法得通过蛋白质的序列和结构信息共同表示，从而更准确地预测蛋白质和化合物之间的相互作用，另外也有人提出一种基于自注意力机制的蛋白质-化合物互相作用模型框架(TransformerCPI)。该框架采用图卷积网络和图神经网络对蛋白序列和化合物序列分别进行编码，并将蛋白序列视为编码器输入、化合物序列视为解码器输入，由解码器输出包含交互特征的序列并将序列通过全连接层以获得最终的预测结果，然而上述方法均存在以下不足之处；(1)它们通常基于数据集内的蛋白序列实现蛋白质的嵌入表达，可能无法充分捕获蛋白序列的深层语义信息；(2)这些方法关注了蛋白序列与化合物序列互相作用的机制，但只针对某个特定任务训练模型(如预测是否接触或预测亲和力值)，不便于人们使用，为此本领域技术人员提出基于预训练模型的药靶亲和力预测方法来解决上述问题。

发明内容

针对现有技术的不足，本发明提供了基于预训练模型的药靶亲和力预测方法，解决了的问题。

为实现以上目的，本发明通过以下技术方案予以实现：基于预训练模型的药靶亲和力预测系统，包括：

蛋白语言嵌入表示模块，用于生成丰富的蛋白语义特征表示；

蛋白质序列表示学习模块，用于生成蛋白序列的连续性表示，并获得蛋白序列的深层表示；

化合物序列表示学习模块，用于用于生成化合物结构信息表示；

克罗内克积的融合模块，用于通过克罗内克积计算蛋白与化合物特征向量的共同表示，来明确捕获化合物和蛋白质特征的重要相互作用；

多任务的解码器模块，用于共享特征学习和表示学习的过程；

蛋白质-化合物互相作用多任务预测模块，用于明确捕获化合物和蛋白质特征的重要相互作用。

优选地，所述化合物序列表示学习模块包括：

RDKit工具包单元，用于通过RDKit工具包生成每个化合物的拓扑结构；

图神经网络学习单元，用于通过图神经网络学习分子图的拓扑表示信息；

整合单元，用于将多种化合物中原子特征进行整合，构建化合物拓扑图；

采样聚合图神经网络单元，用于学习图中各节点表示。

优选地，所述多任务的解码器模块包括

回归任务解码单元、用于采用交叉熵损失函数计算预测值和真实值的损失；

分类任务解码单元、用于采用均方误差损失函数计算预测值和真实值的损失。

优选的，还包括搜集模块，用于从BindingDB数据库中搜集数据，构建数据集。

基于预训练模型的药靶亲和力预测方法，具体使用步骤如下：

步骤一：首先通过搜集模块从BindingDB数据库中构建数据集，其中BindingDB数据库收集和记录了蛋白质-小分子化合物相互作用的实验数据，之后通过蛋白语言嵌入表示模块生产丰富的蛋白特征表示，其次通过蛋白质序列表示学习模块生成蛋白序列的连续性表示，并获得蛋白序列的深层表示，之后通过化合物序列表示学习模块用于生成化合物结构信息表示；

步骤二：通过长短期记忆网络学习蛋白信息深层表示，其次，通过整合单元对将多种化合物中原子特征进行整合，构建化合物拓扑图，并通过采样聚合图神经网络学习图中节点表示，通过克罗内克积的融合模块特计算了每个化合物特征与蛋白特征的互相作用情况，提高模型的预测准确性；

步骤三：此外，通过克罗内克积的融合模块特计算了每个化合物特征与蛋白特征的互相作用情况，提高模型的预测准确性。

本发明提供了基于预训练模型的药靶亲和力预测方法。具备以下

有益效果：

1、本发明通过预训练的蛋白语言模型(如ESM、TAPE等)对蛋白序列进行编码，可以获得丰富的蛋白序列的语料表示并加快模型收敛。通过整合多种化合物中的原子特征，本模型能够更全面地捕获化合物的特征。我们进一步设计了基于克罗内克积的蛋白与化合物融合特征编码器，从而更好地捕捉化合物与蛋白质互相作用关系。通过不同的解码器，可以分别实现对回归任务以及分类任务的预测。

2、本发明通过蛋白语言模型的嵌入表达与长短期记忆网络结合，能够有效学习蛋白序列特征信息，充分捕捉蛋白上下文信息以及注释信息，其次，通过采样聚合图神经网络可以有效地学习化合物分子特征。此外，通过设计了多任务预测功能，可以比单任务模型在训练时更好地学习和利用共同的特征信息，可以使已学习到的特征表示更加丰富和泛化，为预测蛋白质-化合物的互相作用提供了更为准确和有效的解决方案。

附图说明

图1为本发明的主流程图；

图2为本发明的蛋白语言嵌入表示模块流程图；

图3为本发明的蛋白质序列表示学习模块流程图；

图4为本发明的多任务的解码器模块流程图；

图5为本发明的不同的药物选择性数据集上微调表现显示图；

图6为本发明的蛋白质-化合物互相作用多任务预测模块工作示意图；

图7为本发明的技术路线图；

图8为本发明模型对比示意图；

图9为本发明在分类数据集上不同模型的比较示意图；

图10为本发明不同模块的比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅附图1－附图10，本发明实施例提供基于预训练模型的药靶亲和力预测系统，包括蛋白语言嵌入表示模块，用于生成丰富的蛋白语义特征表示；

蛋白语言生成模块包括：长短期记忆网络学习单元，用于学习蛋白序列的上下文信息；

蛋白质序列表示学习模块，用于生成蛋白序列的连续性表示，并获得蛋白序列的深层表示。

蛋白质序列表示学习模块包括长短期记忆网络学习单元，用于学习蛋白序列的上下文信息。

化合物序列表示学习模块包括：

采样聚合图神经网络单元，用于学习图中各节点表示。

多任务的解码器模块包括：

还包括搜集模块，用于BindingDB数据库中搜集数据，构建数据集

此外本发明回归任务实验对这376751个蛋白质-化合物对进行了实验，实验结果如图8所示，为了体现模型的有效性，比较了其他三个蛋白－化合物亲和力预测模型，与其他模型相比，PMF-CPI在MSE，Pearson上取得了最好的表现。此外我们还在BindingDB的分类数据集上进行了测试(如图9所示)。与其他方法相比，本发明的模型在AUC，AUPR上取得了最好的表现。

其中为了强调模型在多任务下药物选择性研究中的作用，本实施例针对四个数据集进行了一系列实验，其中三个为回归数据集(图5a、b和c)，一个为分类数据集(图5d)，与从头开始训练选择性预测模型相比，微调可以节省时间并在有限的训练数据下达到良好的预测性能。微调使用了不同比例的缺失数据，随着缺失条目的比例下降，预测性能得到了明显改善。AR数据集在仅训练5％的数据时均方误差(MSE)为1.005，当可见数据达到30％时，其MSE值将下降至0.482。在JAK和CYP数据集上，我们的模型在仅使用每个数据集的30％的训练数据时也能够实现约0.2的MSE和约0.8的Pearson相关系数。对于分类任务，PMF-CPI的预测结果AUC达到了0.864，AUPR达到了0.896。这表明我们的模型可以为选择性靶向类似目标的药物提供准确和直接的结合亲和力和相互作用关系预测，其中图5中(a)为测试集在模型最后一层的可视化结果，(b)为模型与其他方法的比较，从图5(a)中可以看出模型能很清晰区分出正负样本。

请参阅附图10，图10是模型各个模块选取不同策略的比较，结果表明，使用蛋白语言模型作为蛋白序列嵌入可以有效提高预测性能。此外，与直接串联蛋白、化合物特征相比，本发明的特征融合方法能有效地捕捉蛋白－化合物的互相作用信息，并提升预测性能。

本发明通过这些模块共同作用，实现了基于预训练模型的药靶亲和力预测(PMF-CPI)模型。模型能够充分捕获蛋白和化合物互相作用关系，多任务模型在训练时共享特征学习和表示学习的过程，可以比单任务模型更好地学习和利用共同的特征信息。这可以在训练时减少计算和存储开销，同时可以使已学习到的特征表示更加丰富和泛化，从而提高蛋白质-化合物互相作用预测的准确性和泛化能力，同时通过蛋白语言模型的嵌入表达与长短期记忆网络结合，能够有效学习蛋白序列特征信息，充分捕捉蛋白上下文信息以及注释信息，其次，通过采样聚合图神经网络可以有效地学习化合物分子特征。此外，通过设计了多任务预测功能，可以比单任务模型在训练时更好地学习和利用共同的特征信息，可以使已学习到的特征表示更加丰富和泛化，为预测蛋白质-化合物的互相作用提供了更为准确和有效的解决方案。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于预训练模型的药靶亲和力预测系统，其特征在于，包括：

化合物序列表示学习模块，用于生成化合物结构信息表示；

2.根据权利要求1所述的基于预训练模型的药靶亲和力预测系统，其特征在于，所述蛋白质序列表示学习模块包括长短期记忆网络学习单元，用于学习蛋白序列的上下文信息。

3.根据权利要求1所述的基于预训练模型的药靶亲和力预测系统，其特征在于，所述化合物序列表示学习模块包括：

采样聚合图神经网络单元，用于学习图中各节点表示。

4.根据权利要求1所述的基于预训练模型的药靶亲和力预测系统，其特征在于，所述多任务的解码器模块包括

5.根据权利要求1所述的基于预训练模型的药靶亲和力预测系统，其特征在于，还包括搜集模块，用于从BindingDB数据库中搜集数据，构建数据集。

6.基于预训练模型的药靶亲和力预测方法，依据权利要求1-5任一项所述基于预训练模型的药靶亲和力预测系统，其特征在于，具体使用步骤如下：