CN113571124B

CN113571124B - 一种配体-蛋白质相互作用的预测方法及装置

Info

Publication number: CN113571124B
Application number: CN202010356774.3A
Authority: CN
Inventors: 蒋华良; 郑明月; 陈立凡
Original assignee: Shanghai Institute of Materia Medica of CAS
Current assignee: Shanghai Institute of Materia Medica of CAS
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2024-04-23
Anticipated expiration: 2040-04-29
Also published as: WO2021218791A1; CN113571124A

Abstract

本发明公开了一种配体‑蛋白质相互作用的预测方法及装置，包括：对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列；基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列；基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率。本发明实施例中当需要预测某个蛋白质和某个配体能否进行相互作用时，只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列，通过利用预测模型，就能预测出蛋白中哪些氨基酸片段能和配体中哪些原子进行相互作用，由此能够计算出该蛋白质和该配体相互作用的概率。

Description

一种配体-蛋白质相互作用的预测方法及装置

技术领域

本发明涉及药物筛选领域，特别涉及一种配体-蛋白质相互作用的预测方法及装置。

背景技术

虚拟筛选是早期药物研发的一项重要的工作，分为三类：基于结构的虚拟筛选，基于配体的虚拟筛选和基于化学基因组学的虚拟筛选。基于结构的虚拟筛选需要蛋白质的晶体结构，很多潜在靶标蛋白并没有解出晶体结构，因此基于结构的虚拟筛选不能解决这类靶点的药物筛选工作。基于配体的虚拟筛选需要较多的配体信息，许多靶点报道的活性小分子数目太少，无法准确可靠的建立模型。此外，基于配体的虚拟筛选也限制了新型结构的活性小分子的发现与设计工作。鉴于基于结构的虚拟筛选和基于配体的虚拟筛选存在的局限性，许多基于化学基因组的机器学习的方法被提出以用来预测配体-蛋白质相互作用，这些方法的缺陷是需要人工定义蛋白质和小分子的描述符。

由于机器学习模型需要定义蛋白质和小分子的描述符。模型不能够端到端地自主从数据中学习到蛋白质和小分子的特征，同时机器学习对于大样本的学习能力欠佳。

并且，已现有的深度学习模型没有提取到真正的相互作用特征，导致模型被与任务无关的统计规律所误导，从而无法在实际应用中取得良好的效果，无法准确的预测出配体-蛋白质相互作用关系。

发明内容

本发明实施例的目的在于提供一种配体-蛋白质相互作用的预测方法及装置，用于解决现有技术中无法准确的预测出配体蛋白质相互作用关系的问题。

为了解决上述技术问题，本申请的实施例采用了如下技术方案：一种配体-蛋白质相互作用的预测方法，包括如下步骤：

对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列；

基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列；

基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率。

可选的，所述对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列，具体包括：

以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段；

采用预定的算法对各所述序列片段进行编码，获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。

可选的，所述基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列，具体包括：

使用化学信息包对所述目标配体的SMILES分子式进行处理，得到所述目标配体的分子指纹图谱；

利用图卷积网络对所述分子指纹图谱进行处理，获得所述目标配体的若干原子特征序列。

可选的，所述基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，以获得所述目标蛋白质和所述目标配体相互作用的概率，具体包括：

采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理，以确定出能够进行相互作用的目标特征序列；

基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。

可选的，所述方法还包括：采用深度学习的方法训练获得所述预测模型，具体包括：

获取实验数据；

基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值；

获取样本蛋白质的若干蛋白质特征序列，并获取样本配体的若干原子特征序列；

基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练，获得所述预测模型。

可选的，所述基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练，获得所述预测模型，具体包括：

采用自注意力机制对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理，获得包含相互作用信息的若干样本序列；

利用预设的计算公式对所述若干样本序列进行计算，获得相互作用特征；

利用全连接神经网络对所述相互作用特征进行处理，获得样本蛋白质-样本配体相互作用的预测值；

基于所述预测值以及所述真实值计算交叉熵；

将所述交叉熵作为预测模型的损失函数，以采用随机梯度下降法进行训练，获得所述预测模型。

为了解决上述技术问题，本申请的实施例采用了如下技术方案：一种配体-蛋白质相互作用的预测装置，包括：

第一获取模块，用于对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列；

第二获取模块，用于基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列；

预测模块，用于基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率

可选的，所述第一获取模块具体用于：

可选的，所述第二获取模块具体用于：使用化学信息包对所述目标配体的SMILES分子式进行处理，得到所述目标配体的分子指纹图谱；

可选的，所述预测模块具体用于：

本发明实施例的有益效果在于：通过预先训练获得预测模型，这样当需要预测某个蛋白质和某个配体能否进行相互作用时，只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列，通过利用预测模型，就能预测出蛋白中哪些蛋白质特征序列能和配体中哪些原子特征序列进行相互作用，由此能够计算出该蛋白质和该配体相互作用的概率，使得蛋白质和配体相互作用的预测更加准确。

附图说明

图1为本发明实施例中配体-蛋白质相互作用的预测方法的流程图。

图2为本法明实施例中配体-蛋白质相互作用的预测的原理图；

图3为本发明实施例中获取相互作用特征序列的具体流程图；

图4为本发明实施例中配体-蛋白质相互作用的预测装置的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本发明实施例提供一种配体-蛋白质相互作用的预测方法，如图1所示，包括如下步骤：

步骤S101，对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列。

本步骤在具体实施过程中，可以利用自然语言处理中的词向量嵌入方法(word2vec)，将蛋白质的氨基酸序列处理成一组由特征向量组成的序列，即获得若干蛋白质特征序列p₁,p₂,…,p_b。

步骤S102，基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列。

本步骤在具体实施例过程中，具体可以使用化学信息包RDkit编码目标配体的图分子指纹，再通过图卷积网络学习到目标配体的若干原子特征序列c₁,c₂,…,c_a。

步骤S103，基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率。

本步骤在具体实施过程中，在得到蛋白质的若干特征序列(蛋白质特征序列)p₁,p₂,…,p_b和配体的若干原子特征序列c₁,c₂,…,c_a之后，就可以通过自然语言处理中的Transformer框架进行编码和解码(预测模型中的)，输出相互作用的目标特征序列x₁,x₂,…,x_a；然后基于所述目标特征序列进行计算，就可以获得所述目标蛋白质与所述目标配体结合的概率。

本发明实施例中当需要预测某个蛋白质和某个配体能否进行相互作用时，只需要获得该蛋白质的各蛋白质特征序列以及该配体的原子特征序列，通过利用预测模型，就能预测出哪些蛋白质特征序列能和哪些原子特征序列进行相互作用，由此能够计算出该蛋白质和该配体相互作用的概率。

本发明另一实施例提供一种配体-蛋白质相互作用的预测方法，包括如下步骤：

步骤S201，以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段；采用预定的算法对各所述序列片段进行编码，获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。

本步骤在具体实施例过程中，具体可以以连续的三个氨基酸为一组，将目标蛋白质的氨基酸序列分割成b个片段(b＝氨基酸长度-2)然后使用word2vec算法将这b个氨基酸片段编码成特征序列p₁,p₂,…,p_b。

步骤S202，使用化学信息包对所述目标配体的SMILES分子式进行处理，得到所述目标配体的分子指纹图谱；利用图卷积网络对所述分子指纹图谱进行处理，获得所述目标配体的若干原子特征序列。

本步骤在具体实施过程中，可以采用RDKit包对分子的SMILES式进行处理，每个原子编码34维的特征向量，得到小分子的图分子指纹；通过图卷积神经网络对图分子指纹进行处理，得到原子特征序列c₁,c₂,…,c_a(a＝分子的非氢原子数目)。

步骤S203，采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理，以确定出能够进行相互作用的目标特征序列；基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。

本步骤在具体实施过程中是利用预设的计算公式对所述若干目标特征序列进行计算，获得相互作用特征；然后利用全连接神经网络对所述相互作用特征进行处理，获得样本蛋白质-样本配体相互作用的预测值(概率)。更加具体的，在得到蛋白质的若干特征序列(蛋白质特征序列)p₁,p₂,…,p_b和配体的若干原子特征序列c₁,c₂,…,c_a之后，可以通过自然语言处理中的Transformer框架进行编码和解码，输出相互作用的目标特征序列x₁,x₂,…,x_a；然后利用预设的计算公式对所述目标特征序列进行计算，获得相互作用特征；最后利用全连接神经网络对所述相互作用特征进行处理，就可以获得目标蛋白质-目标配体结合的概率。

本实施例提供一种配体-蛋白质相互作用的预测方法，在对目标蛋白质和目标配体之间的相互作用进行预测之前，还包括采用深度学习的方法训练获得预测模型。在实施时具体包括如下步骤：

步骤S301，获取实验数据；

步骤S302，基于所述实验数据确定样本蛋白质-样本配体相互作用的真实值；

本步骤在具体实施过程中可以根据实际的实验数据及结果获得相互作用的真实值y，真实值y具体为“1”或“0”，其中1表示能够进行相互作用，用0表示不能进行相互作用。

步骤S303，获取样本蛋白质的若干蛋白质特征序列，并获取样本配体的若干原子特征序列；

本步骤在具体实施例过程中，可以对样本蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列。比如以连续的三个氨基酸为一组，将样本蛋白质的氨基酸序列分割成b个片段(b＝氨基酸长度-2)然后使用自然语言处理中的词向量嵌入方法(word2vec)将这b个氨基酸片段编码成一组由特征向量组成的序列p₁,p₂,…,p_b，该组序列即包含有若干个蛋白质特征序列，比如p₁即表示一个蛋白质特征序列。具体的可以从实验数据中选取一个氨基酸长度为200的蛋白质，即获得维度为：198×100的蛋白质特征序列。

本步骤在获取样本配体的原子特征序列时，具体可以基于样本配体的分子指纹图谱获取样本配体的若干原子特征序列。更加具体的，可以使用化学信息包RDkit对样本配体的SMILES式进行处理，每个原子编码34维的特征向量(如表1所示)，得到配体的图分子指纹图谱，再通过图卷积网络对分子指纹图谱进行处理，得到样本配体若干原子特征序列c₁,c₂,…,c_a(a＝分子的非氢原子数目)。具体的可以从实验数据中选取一个非氢原子数为20的样本配体，即获得维度为：20×64的原子特征序列。

表1

步骤S304，基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练，获得所述预测模型。

本步骤在具体实施例过程中，具体又可分为如下步骤：

步骤S3041，采用自注意力机制来对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理，预测获得能够进行相互作用的若干样本序列。

更加具体的，可以如图2所示，将样本蛋白质特征序列(即样本蛋白质的蛋白质特征序列)，即维度为b×100的p₁,p₂,…,p_b输入编码器中进行编码，输出编码后的样本蛋白质特征序列，即维度为b×64的p₁,p₂,…,p_b。再将样本配体的原子特征序列，即维度为a×64的c₁,c₂,…,c_a和(编码后的样本蛋白质特征序列)维度为b×64的p₁,p₂,…,p_b输入到解码器进行学习，经过Transformer解码器的学习，最后输出相互作用特征序列(即若干样本序列)维度为a×64的x₁,x₂,…,x_a；

步骤S3042，利用预设的计算公式对所述若干样本序列进行计算，获得相互作用特征；

本步骤中在具体实施时是采用如下三个计算公式来计算获得相互作用特征的：

其中，其中x′_i是向量x_i的模，α_i是向量x_i的权重。x_i表示第i个相互作用特征序列，y_interaction表示相互作用特征。

步骤S3043，利用全连接神经网络对所述相互作用特征进行处理，获得样本蛋白质-样本配体相互作用的预测值；

本步骤中在获得了相互作用特征y_inteeaction后，就可以将y_interaction输入到全连接神经网络，最后输出预测值

步骤S3044，基于所述预测值以及所述真实值计算交叉熵；

本步骤在获得预测值后，计算预测值/>和真实值y的交叉熵。

步骤S3045，将所述交叉熵作为预测模型的损失函数，以采用随机梯度下降法进行训练，获得所述预测模型。

本步骤中采用随机梯度下降法来训练模型是一种常见的模型训练方法，在此不再赘述。

本实施例中，在将样本蛋白质特征序列(即样本蛋白质的蛋白质特征序列)，即维度为b×100的p₁,p₂,…,p_b输入编码器中进行编码，输出编码后的样本蛋白质特征序列时，具体是利用编码器中的公式来进行处理的，其中是h_l层的输入，/> W₁、s、W₂、t是可学习的参数，n是序列的长度，m₁，m₂分别是输入和隐藏层特征的维度，k是卷积核的大小，σ是sigmoid函数，/>是矩阵的Hadamard积。参数设置：k＝7,m₁＝100(m₁表示输入层特征的维度)，m₂＝64(m₂表示隐藏层特征的维度)。即输入X＝p₁,p₂,…,p_b，然后通过一维卷积和门控线性单元计算h_l(X)＝p₁,p₂,…,p_b，/>并更新蛋白特征序列p₁,p₂,…,p_b，最后输出编码后蛋白质特征序列p₁,p₂,…,p_b。

本实施例中，在将样本配体的原子特征序列(维度为a×64的c₁,c₂,…,c_a)和编码后的样本蛋白质特征序列(维度为b×64的p₁,p₂,…,p_b)输入到解码器进行学习，输出相互作用特征序列(即若干样本序列)x₁,x₂,…,x_a，具体可以采用如下方式实现，即通过自注意力层的计算公式：来计算注意力值(attention)。其中，d_k表示一个缩放因子，为隐藏层特征的维度，本实施例中为64；T表示矩阵的转置符号。具体如图3所示，可以先将样本配体的原子特征序列作为自注意力层(即公式/>)的输入，计算原子特征序列的注意力值，进行加权求和以及归一化计算，此时Q,K,V＝c₁,c₂,…,c_a。然后将该计算结果作为第二层(自注意力层)的输入，同时将蛋白质的特征序列(蛋白质特征序列)作为第二层的输入，通过自注意力机制计算原子特征序列和蛋白质特征序列的注意力值，加权求和，归一化，此时Q＝c₁,c₂,…,c_a，K＝V＝p₁,p₂,…,p_b。最后将获得的结果作为第三层的输入(即输入到卷积神经网络)进行第三次的加权求和以及归一化计算，这样就可以获得相互作用的特征序列(即若干样本序列)x₁,x₂,…,x_a。

本发明实施例中利用端到端的深度学习模型TransformerCPI，在三个公开基准数据集上取得当前最优的结果。本实施例中的深度学习模型TransformerCPI在标签反转实验(label reversal experiments)取得当前最优的结果，对比其他模型，提升的效果十分显著，证明该方法可以学习到真正的相互作用特征。同时，由于深度学习模型TransformerCPI有很好的可解释性，既可以给出蛋白质中哪些氨基酸片段与配体中哪些原子特征序列结合的概率大，也可以给出配体分子中哪些原子(原子特征序列)对结合的贡献大，为进一步的分子结构改造给出指导建议。

本发明另一实施提供一种配体-蛋白质相互作用的预测装置，如图4所示，包括：

本实施中，所述第一获取模块具体用于：以连续预定个数的氨基酸为一组将所述目标蛋白质的一级序列分隔成若干各序列片段；采用预定的算法对各所述序列片段进行编码，获得与各序列片段对应的特征向量组成的若干蛋白质特征序列。

本实施例中，所述第二获取模块具体用于：使用化学信息包对所述目标配体的SMILES分子式进行处理，得到所述目标配体的分子指纹图谱；利用图卷积网络对所述分子指纹图谱进行处理，获得所述目标配体的若干原子特征序列。

具体的，所述预测模块具体用于：采用自注意力机制对所述若干蛋白质特征序列以及所述若干原子特征序列进行处理，以确定出能够进行相互作用的目标特征序列；基于所述目标特征序列进行计算获得所述目标蛋白质与所述目标配体结合的概率。

本实施例中还包括用于训练获得所述预测模型的训练模块，所述训练模块采用深度学习的方法训练获得所述预测模型，所述训练模型用于：

获取实验数据；

在具体实施过程中，所述训练模块具体用于：

采用自注意力机制对所述样本蛋白质的若干蛋白质特征序列以及所述样本配体的若干原子特征序列进行处理，预测获得能够进行相互作用的若干样本序列；

基于所述预测值以及所述真实值计算交叉熵；

本发明实施例中，不仅能准确的预测出蛋白质和配体相互作用的概率，还能知道具体是通过蛋白质中的哪些氨基酸序列和配体中的哪些原子进行结合的，为进一步的分子结构改造给出指导建议。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种配体-蛋白质相互作用的预测方法，其特征在于，包括如下步骤：

基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列，a为分子的非氢原子数目；

基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率；

所述预测模型至少基于自注意力机制获得若干样本序列的相互作用特征而配置，配置方式至少包括：

采用自注意力机制对样本蛋白质的若干蛋白质特征序列以及样本配体的若干原子特征序列进行处理，经过Transformer解码器的学习，获得包含相互作用信息的维度为a×64的若干样本序列；

利用计算公式

对所述若干样本序列进行计算，获得相互作用特征；其中是向量/>的模，/>是向量/>的权重，/>表示第i个相互作用特征序列，/>表示相互作用特征。

2.如权利要求1所述的方法，其特征在于，所述对目标蛋白质的一级序列进行处理，获得由特征向量组成的若干蛋白质特征序列，包括：

3.如权利要求1所述的方法，其特征在于，所述基于目标配体的分子指纹图谱获取目标配体的若干原子特征序列，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述若干蛋白质特征序列以及所述若干原子特征序列利用预设的预测模型进行预测，以获得所述目标蛋白质和所述目标配体相互作用的概率，包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：采用深度学习的方法训练获得所述预测模型，包括：

获取实验数据；

6.如权利要求5所述的方法，其特征在于，所述基于所述样本蛋白质的若干蛋白质特征序列、所述样本配体的若干原子特征序列以及所述真实值进行模型训练，获得所述预测模型，包括：

基于所述预测值以及所述真实值计算交叉熵；

7.一种配体-蛋白质相互作用的预测装置，其特征在于，包括：

预测模块，用于基于所述若干蛋白质特征序列以及所述若干原子特征序列利用如权利要求1所述的预测方法中所述预设的预测模型进行预测，获得所述目标蛋白质和所述目标配体相互作用的概率。

8.如权利要求7所述的装置，其特征在于，所述第一获取模块用于：

9.如权利要求7所述的装置，其特征在于，所述第二获取模块用于：使用化学信息包对所述目标配体的SMILES分子式进行处理，得到所述目标配体的分子指纹图谱；

10.如权利要求7所述的装置，其特征在于，所述预测模块用于：