CN114974407A

CN114974407A - 一种化合物-靶蛋白绑定关系预测方法及系统

Info

Publication number: CN114974407A
Application number: CN202210539057.3A
Authority: CN
Inventors: 郑光; 吕诚; 陆小虎; 石亚蓉; 茹佳奇; 赵君梅; 李立; 赵宁
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-30

Abstract

本发明涉及一种化合物‑靶蛋白绑定关系预测方法及系统，该方法包括：获取多对靶蛋白‑化合物绑定数据，将绑定关系作为标签构建原始样本数据；对各靶蛋白序列进行蛋白质相似度计算，并基于蛋白质相似度对原始样本数据分类，得到多组靶蛋白‑化合物绑定数据，采用每组靶蛋白‑化合物绑定数据对深度学习网络模型训练，得到多组靶蛋白‑化合物绑定关系预测模型；根据待测数据与原始样本数据蛋白质相似度，确定待测数据对应靶蛋白‑化合物绑定关系预测模型；通过对应预测模型对待测化合物与待测靶蛋白的绑定关系进行预测。本发明基于待测数据蛋白质相似度对待测数据分类，构建对应类绑定关系预测模型，降低了化合物‑靶蛋白绑定关系预测的假阳性率。

Description

一种化合物-靶蛋白绑定关系预测方法及系统

技术领域

本发明涉及医药研发技术领域，特别是涉及一种化合物-靶蛋白绑定关系预测方法及系统。

背景技术

目前，现有技术中，利用已有的主流深度学习模型(ANN，CNN，DNN、RNN、LSTM、Transformer以及GAN等)，抽取化合物-靶蛋白绑定关系的特征，从而预测新的化合物-靶蛋白绑定关系，对于新药发现/研发和中药作用机理的研究具有重要的现实意义。然而，尽管这些模型可以达到很高的正确率(>90％)，但是高企的假阳性率阻止了深度学习模型在该领域的进一步应用。如何降低化合物-靶蛋白绑定关系预测的假阳性率，到目前为止仍是一个世界级的问题。

发明内容

本发明的目的是提供一种化合物-靶蛋白绑定关系预测方法及系统，能够降低化合物-靶蛋白绑定关系预测的假阳性率。

为实现上述目的，本发明提供了如下方案：

本发明提供了一种化合物-靶蛋白绑定关系预测方法，所述方法包括：

获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；

对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；

构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；

通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

可选地，所述“基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据”，具体包括：

选取任意一对靶蛋白-化合物绑定数据作为目标绑定数据；遍历原始样本数据，将与所述目标绑定数据的蛋白质相似度大于设定阈值的靶蛋白-化合物绑定数据划分为一组。

可选地，所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括3个长短时记忆网络层。

可选地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括2个长短时记忆网络层。

可选地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述递归神经网络模块包括1个长短时记忆网络层。

可选地，在所述对各所述靶蛋白序列进行蛋白质相似度计算之前，还包括：

对所述原始样本数据进行字符串匹配，剔除缺损数据，并将化合物以及靶蛋白序列进行数字化编码。

可选地，使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。

为实现上述目的，本发明还提供了一种化合物-靶蛋白绑定关系预测系统，所述系统包括：

数据获取单元，用于获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息；

相似度计算和分类单元，用于对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；

模型确定单元，用于构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

模型选取单元，用于根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据；

预测单元，用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种化合物-靶蛋白绑定关系预测方法及系统，所述方法包括：获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；然后构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。本发明预先基于待测数据的蛋白质相似度对待测数据进行分类，构建对应类别的靶蛋白-化合物绑定关系预测模型，能够降低化合物-靶蛋白绑定关系预测的假阳性率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明化合物-靶蛋白绑定关系预测方法的流程图；

图2为本发明化合物-靶蛋白绑定关系预测系统的模块结构示意图；

图3为本发明具体实施例中基于蛋白质相似度分类的原理图。

符号说明：

数据获取单元-1，相似度计算和分类单元-2，模型确定单元-3，模型选取单元-4，预测单元-5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种化合物-靶蛋白绑定关系预测方法，所述方法包括以下步骤：

S1：获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。

S2：对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；其中，基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据，具体包括：

S3：构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型。

S4：根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据。

S5：通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

优选地，所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括3个长短时记忆网络层。

进一步地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括2个长短时记忆网络层。

更进一步地，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述递归神经网络模块包括1个长短时记忆网络层。

进一步地，在步骤S2所述对各所述靶蛋白序列进行蛋白质相似度计算之前，还包括：

S6：对所述原始样本数据进行字符串匹配，剔除缺损数据，并将化合物以及靶蛋白序列进行数字化编码。

进一步地，使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。

为实现上述目的，如图2所示，本发明还提供了一种化合物-靶蛋白绑定关系预测系统，所述系统包括：数据获取单元1、相似度计算和分类单元2、模型确定单元3、模型选取单元4和预测单元5。

数据获取单元1，用于获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；每对靶蛋白-化合物绑定数据包括化合物原子信息、化合物化学键信息以及靶蛋白序列信息。

相似度计算和分类单元2，用于对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据。

模型确定单元3，用于构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型。

模型选取单元4，用于根据待测数据与原始样本数据的蛋白质相似度，确定所述待测数据对应的靶蛋白-化合物绑定关系预测模型；所述待测数据包括待测化合物和待测靶蛋白数据。

预测单元5，用于通过对应的靶蛋白-化合物绑定关系预测模型对所述待测化合物与所述待测靶蛋白的绑定关系进行预测。

具体实施例：

1)获取多对靶蛋白-化合物绑定数据，并将靶蛋白-化合物绑定关系作为标签构建原始样本数据；其中，化合物以及靶蛋白数据来自于BindingDB数据库中的BindingDB_All_2021m9.tsv.zip压缩包，此外还补充了NCBI数据库中的灵长类蛋白质数据(从gbpri1.seq.gz至gbpri55.seq.gz)。BindingDB的数据目前约为110万个测量的蛋白质小分子亲和力，涉及约49万个小分子和数千个蛋白质。除少数例外情况外，每个BindingDB数据条目均源自一份出版物(如科学文章或专利)，并包含至少一个蛋白质靶标、至少一种化合物、至少一种相关化合物-蛋白质亲和力，以及源出版物的信息，BindingDB工作人员直接从文献中收集的条目还包括有关温度、pH值和缓冲液组成等实验条件的扩展信息。BindingDB还包含一个适度的蛋白质-蛋白质、蛋白质-肽和主客体亲和力测量集合。相比国内外经常使用的Davis以及KIBA数据库，BindingDB数据库在数据量上拥有绝对的优势，很适合需要大量训练样本的深度学习模型。

对下载数据文件进行分析，观察到在BindingDB数据库中下载的文件格式为SDF(Structure Data File)，用文本编辑软件打开，可见SDF中包含Molfile格式的数据，其中一条Molfile格式的数据包含了所需要的化合物以及蛋白质的三类信息：(1)化合物原子信息、(2)化合物化学键信息以及(3)靶蛋白序列信息，也就是一对绑定的化合物与靶蛋白数据。

进一步地，对所述原始样本数据进行预处理，具体为：对Molfile格式的文本进行字符串匹配，过滤出以上三类字符串，剔除缺损数据，并将非数字表示的化学键、元素和靶蛋白序列编码成数字化合物以及靶蛋白序列。

模型的数据输入分为7部分：化合物原子个数、化合物原子、化合物化学键个数、化合物化学键、靶蛋白序列长度、靶蛋白序列和绑定标签。现将BindingDB中给定的化合物与蛋白质绑定关系在数据库中标记为1，记为正样本，并组合未绑定的蛋白质和化合物，生成负样本，标记为0，记为负样本。最后选定正负样本比例按照一比一组合生成数据集。

2)对各所述靶蛋白序列进行蛋白质相似度计算，确定蛋白质相似度，并基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据；其中，基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据，具体包括：

Python针对生物信息学提供了一个工具包Bio包，使用Bio包的PairwiseAligner对象对蛋白质的氨基酸序列进行相似度对比，可以手动设置match_score范围为0.5至10.0、mismatch_score范围为-1至-5和gap_score范围为-0.1至-10等来建立赏罚分规则，计算得到蛋白质相似度表。

开始时，随机从化合物-靶蛋白绑定数据中选择一条记录，并将其记为一个新的独立的类，取出这条记录的蛋白质信息，之后查询所有记录，根据蛋白质相似度表，将与该蛋白质相似度大于0.9(或0.8、0.7、0.5等)的那个蛋白质所在的记录加入到当前类中，之后再对新加入的记录中的蛋白质进行上述查询，并重复循环这个过程，直至没有新的记录被加入到当前类。此时当前类算作分类完毕。重复上述过程，直至所有记录都被分类。基于蛋白质相似度的分类原理如图3所示。

3)构建深度学习网络模型，分别采用每组靶蛋白-化合物绑定数据对所述深度学习网络模型进行训练，得到多组靶蛋白-化合物绑定关系预测模型；

I：构建深度学习网络模型，包含：LSTM模块、Attention模块、CNN模块、全连接模块和二分类输出模块。

由于化合物和靶蛋白长度不定，采用递归神经网络(Recurrent Neural Network，RNN)能够充分提取特征，RNN模块使用3个1～5层长短时记忆网络(Long Short-TermMemory，LSTM)，分别提取化合物原子、化合物化学键和靶蛋白序列信息，输出结果经过自注意力学习模块(Attention层或Transformer层)，同时还使用了卷积神经网络(Convolutional Neural Network，CNN)进行特征提取，然后将3个RNN的输出特征与CNN输出结果进行拼接作为全连接模块的输入，全连接模块包含1～5层全连接，每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类，绑定标签使用one-hot格式，[1,0]表示绑定，[0,1]表示不绑定。

II：深度学习网络模型还可以为如下形式，包括：LSTM模块、Attention模块、CNN模块、全连接模块和二分类输出模块。

其中，还可以为在RNN模块中使用2个1～5层LSTM神经网络，分别提取化合物信息(原子信息以及化学键信息)和蛋白质的信息，输出结果经过自注意力学习模块，同时还使用CNN进行靶蛋白序列的特征提取，将2个RNN的输出特征进行拼接作为全连接模块的输入，全连接模块包含1～5层全连接，每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类。

III.深度学习网络模型还可以为如下形式，包括：LSTM模块、Attention模块、全连接模块和二分类输出模块。

进一步地，还可以为在RNN模块使用1个1～5层LSTM神经网络，将化合物原子、化合物化学键和靶蛋白序列整体输入至LSTM中，输出结果经过自注意力学习模块，然后将RNN的输出特征作为全连接模块的输入，全连接模块包含1～5层全连接，每层的全连接单元范围从1024-1不等。二分类输出模块使用Softmax函数对全连接输出的数据进行分类。

针对不同的类，训练出不同的神经网络权重，从而降低每种类预测结果的假阳性率。

本实施例中，在蛋白质相似度阈值设定为0.9的情况下，在第一大类的计算结果中，假阳性数量从原来的12538降到了21，降低了99.84％。第二大类的计算结果中，假阳性数量从原来的12476降低至6，降低了99.96％。在第三大类的计算结果中，假阳性的数量从原来的13765降低至49，降低了99.64％。在蛋白质阈值设定为0.7的情况下，假阳性数量从原来的12310降到了8，降低了99.94％。

技术效果：

本发明专利根据蛋白质的相似度对原数据集进行分类，并针对每一类数据集构建并训练其对应的深度学习模型，从而可以很好的掌握该蛋白质家族的特征点，做到对不同的蛋白质家族(大于相似度阈值)，其对应的神经网络都能够学习到该家族绑定类药小分子化合物的特征，从而很好的找到化合物-靶蛋白绑定关系，并进而解决目前化合物-靶蛋白绑定预测假阳性高率的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种化合物-靶蛋白绑定关系预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述“基于所述蛋白质相似度对所述原始样本数据进行分类，得到若干组靶蛋白-化合物绑定数据”，具体包括：

3.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括依次相连的递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括3个长短时记忆网络层。

4.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、卷积神经网络模块、全连接模块和二分类输出模块；所述递归神经网络模块包括2个长短时记忆网络层。

5.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，所述深度学习网络模型包括递归神经网络模块、自注意力学习模块、全连接模块和二分类输出模块；所述递归神经网络模块包括1个长短时记忆网络层。

6.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，在所述对各所述靶蛋白序列进行蛋白质相似度计算之前，还包括：

7.根据权利要求1所述的化合物-靶蛋白绑定关系预测方法，其特征在于，使用PairwiseAligner工具包对各所述靶蛋白序列进行蛋白质相似度计算。

8.一种化合物-靶蛋白绑定关系预测系统，其特征在于，所述系统包括：