CN114822684B

CN114822684B - 一种化合物-靶蛋白绑定关系预测方法及系统

Info

Publication number: CN114822684B
Application number: CN202210539056.9A
Authority: CN
Inventors: 郑光; 吕诚; 石亚蓉; 陆小虎; 茹佳奇; 赵君梅; 李立; 赵宁
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2024-06-25
Anticipated expiration: 2042-05-18
Also published as: CN114822684A

Abstract

本发明涉及一种化合物‑靶蛋白绑定关系预测方法及系统，该方法包括：获取多对靶蛋白‑化合物绑定数据，将绑定关系作为标签构建原始样本数据；根据各化合物信息进行化合物相似度计算，并基于化合物相似度对原始样本数据分类，得到多组靶蛋白‑化合物绑定数据，采用每组靶蛋白‑化合物绑定数据对深度学习网络模型训练，得到多组靶蛋白‑化合物绑定关系预测模型；根据待测数据与原始样本数据化合物相似度，确定待测数据对应靶蛋白‑化合物绑定关系预测模型；通过对应预测模型对待测化合物与待测靶蛋白的绑定关系进行预测。本发明基于待测数据化合物相似度对待测数据分类，构建对应类绑定关系预测模型，降低化合物‑靶蛋白绑定关系预测的假阳性率。

Description

一种化合物-靶蛋白绑定关系预测方法及系统

技术领域

本发明涉及医药研发技术领域，特别是涉及一种化合物-靶蛋白绑定关系预测方法及系统。

背景技术

利用现在已有的主流深度学习模型(ANN，CNN，DNN、RNN、LSTM、Transformer以及GAN等)，抽取化合物-靶蛋白绑定关系的特征，从而预测新的化合物-靶蛋白绑定关系，对于新药发现/研发和中药作用机理的研究具有重要的现实意义。然而，尽管这些模型可以达到很高的正确率(>90％)，但是高企的假阳性率阻止了深度学习模型在该领域的进一步应用。但是，如何进一步降低化合物-靶蛋白绑定关系预测的假阳性率，到目前为止仍是一个世界级的问题。

发明内容

本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统，能够降低化合物-靶蛋白绑定关系预测的假阳性率。

为实现上述目的，本发明提供了如下方案：

本发明提供了一种化合物-靶蛋白绑定关系预测方法，所述方法包括：

获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；

根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算，确定化合物相似度，并基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；

构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

根据待测数据与原始样本数据的化合物相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；

通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

可选地，所述“基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据”，具体包括：

选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据；遍历原始样本数据，将与所述目标绑定数据的化合物相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。

可选地，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括3个长短时记忆网络层。

可选地，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括2个长短时记忆网络层。

可选地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括1个长短时记忆网络层。

可选地，在所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前，还包括：

对所述原始样本数据进行字符串匹配，剔除缺损数据，并将化合物以及靶蛋白序列进行数字化编码。

可选地，使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。

为实现上述目的，本发明还提供了一种化合物-靶蛋白绑定关系预测系统，所述系统包括：

数据获取单元，用于获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；

相似度计算和分类单元，用于根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算，确定化合物相似度，并基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；

模型确定单元，用于构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

模型选取单元，用于根据待测数据与原始样本数据的化合物相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；

预测单元，用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种化合物-靶蛋白绑定关系预测方法及系统，所述方法包括：获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；根据各化合物原子信息、化合物化学键信息进行化合物相似度计算，确定化合物相似度，并基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；然后构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；根据待测数据与原始样本数据的化合物相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。本发明预先基于待测数据的化合物相似度对待测数据进行分类，构建对应类别的靶蛋白-化合物绑定关系预测模型，能够降低化合物-靶蛋白绑定关系预测的假阳性率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明化合物-靶蛋白绑定关系预测方法的流程图；

图2为本发明化合物-靶蛋白绑定关系预测系统的模块结构示意图；

图3为本发明具体实施例中化合物相似度的计算方法示意图。

符号说明：

数据获取单元-1，相似度计算和分类单元-2，模型确定单元-3，模型选取单元-4，预测单元-5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种化合物-靶蛋白绑定关系预测方法，所述方法包括以下步骤：

S1：获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。

S2：根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算，确定化合物相似度，并基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据。

其中，基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据，具体包括：

选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据；遍历原始样本数据，将与所述目标绑定数据的化合物相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。若与目标绑定数据的化合物相似度大于设定阈值，则说明两对绑定数据中的化合物属于同一类化合，表明其可以作用于同一类靶蛋白。

S3：构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型。

S4：根据待测数据与原始样本数据的化合物相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据。

S5：通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

进一步地，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括2个长短时记忆网络层。

更进一步地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括1个长短时记忆网络层。

进一步地，在步骤S2所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前，还包括：

S6：对所述原始样本数据进行字符串匹配，剔除缺损数据，并将化合物以及靶蛋白序列进行数字化编码。

具体地，使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。

为实现上述目的，如图2所示，本发明还提供了一种化合物-靶蛋白绑定关系预测系统，所述系统包括：数据获取单元1、相似度计算和分类单元2、模型确定单元3、模型选取单元4和预测单元5。

数据获取单元1，用于获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；

相似度计算和分类单元2，用于根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算，确定化合物相似度，并基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；

模型确定单元3，用于构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

模型选取单元4，用于根据待测数据与原始样本数据的化合物相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；

预测单元5，用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

具体实施例：

1)数据获取：

所有的绑定数据来源于BingdingDB，下载的文件格式为SDF(Structure DataFile)，SDF中包含Molfile格式的化合物-靶蛋白绑定数据，每对绑定数据分为三部分：(1)化合物原子信息(2)化合物化学键个数(3)靶蛋白序列信息。

由于其中一部分绑定数据存在信息缺失，比如化合物化学键缺失，靶蛋白序列缺失等，所以需要对原数据进行预处理，将缺失数据删除，留下完整的化合物-靶蛋白绑定数据，此外，还要将非数字表示的化学键、元素和靶蛋白序列编码成数字。原始数据中的化合物-靶蛋白绑定数据作为正样本,它们是人类在科研活动中已经发现的化合物-靶蛋白绑定数据，负样本是在化合物-靶蛋白组合空间中除去化合物-靶蛋白绑定的部分，即非绑定数据，正负样本以1:1输入模型进行训练。

2)化合物相似度计算：

通过计算来自BingdingDB数据库的所有化合物之间的相似度，按照相似度阈值0.5～0.9对BingdingDB数据库的化合物-靶蛋白绑定数据分类，分类方法如图3所示(图中相似度阈值取0.9进行分类)。

其中，RDKit是开源的化学信息Python工具包，它将SMILE格式数据生成RDKit分子对来计算化合物之间的相似度，化合物来源于BingdingDB，下载的文件中有化合物的相关信息，取出对应的SMILE格式数据生成RDKit分子对象，完成化合物相似度计算。

3)提取化合物-靶蛋白绑定特征

I：构建深度学习网络模型，包含：LSTM模块、Attention模块、全连接模块和二分类输出模块。

其中，将原子数据处理为原子行数乘以6～48的二维数组格式，化学键数据处理成化学键行数乘以4～32的二维数组格式，靶蛋白序列处理成行数乘以10～80的二维数组格式，然后输入深度学习网络模型。由于的化合物和靶蛋白长度不定，采用LSTM能够充分提取特征，使用3个1～2层LSTM神经网络，分别提取化合物原子、化合物化学键和靶蛋白序列的特征，将3个LSTM的三维输出按照第一个维度拼接，作为Attention的输入，继续提取化合物-靶蛋白绑定数据的特征，输出的特征是三维的，将三维数据作为全连接模块的输入，全连接模块包含2～5层全连接，每层的全连接单元分别是256～1024，继续提取化合物-靶蛋白绑定数据的特征，最后一层进行绑定预测，使用Softmax函数对全连接输出的数据进行分类，绑定标签使用one-hot格式，[0,1]表示绑定，[1,0]表示不绑定。

II：深度学习网络模型还可以为如下形式，包括：LSTM模块、Attention模块、全连接模块和二分类输出模块。绑定数据处理为化合物信息和靶蛋白信息，分别输入两个1～2层的LSTM神经网络提取化合物和靶蛋白特征，将两个LSTM的三维输出按照第一个维度拼接，作为Attention模块的输入，继续提取化合物-靶蛋白绑定数据的特征，输出的特征是三维的，将三维数据作为全连接模块的输入，全连接模块包含2～5层全连接，每层的全连接单元分别是256～1024，继续提取化合物-靶蛋白绑定数据的特征，最后一层进行绑定预测，使用Softmax函数对全连接输出的数据进行分类。

III.深度学习网络模型还可以为如下形式，包括：LSTM模块、Attention模块、全连接模块和二分类输出模块。绑定数据处理为化合物信息和靶蛋白信息，合起来输入一个1～2层的LSTM神经网络提取化合物-靶蛋白绑定特征，将LSTM的三维输出按照第一个维度拼接，作为Attention模块的输入，继续提取化合物-靶蛋白绑定数据的特征，输出的特征是三维的，将三维数据作为全连接模块的输入，全连接模块包含2～5层全连接，每层的全连接单元分别是256～1024，继续提取化合物-靶蛋白绑定数据的特征，最后一层进行绑定预测，使用Softmax函数对全连接输出的数据进行分类。

进一步地，在本实施例中，BindingDB的所有绑定数据共3279480条，分类结果的前三类绑定数据分别是152496，66717，12708条，将三类数据分别输入对应类别的深度学习模型预测化合物-靶蛋白绑定关系，最优参数组合训练结果如表1：

表1

分类结果	化合物	靶蛋白	绑定数目	准确率	假阳性率
						第1类	48	3177	152496	99.14％	0.47％
第2类	21	3177	66717	98.82％	0.94％
						第3类	4	3177	12708	98.80％	0

本发明通过计算化合物之间的相似度将绑定关系数据集按照化合物相似度阈值进行分类，对前三大类数据集利用对应类别的深度学习模型抽取化合物-靶蛋白能够绑定的特征，进行化合物-靶蛋白绑定预测，从而极大压缩生成的化合物-靶蛋白绑定关系数量，解决化合物-靶蛋白绑定关系预测的假阳性高的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种化合物-靶蛋白绑定关系预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述“基于所述化合物相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据”，具体包括：

3.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括3个长短时记忆网络层。

4.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括2个长短时记忆网络层。

5.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括长短时记忆网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述长短时记忆网络模块包括1个长短时记忆网络层。

6.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，在所述根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算之前，还包括：

7.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，使用RDKit工具包根据各所述化合物原子信息、化合物化学键信息进行化合物相似度计算。

8.一种化合物-靶蛋白绑定关系预测系统，其特征在于，所述系统包括：