CN112966702A

CN112966702A - 蛋白质-配体复合物的分类方法及分类装置

Info

Publication number: CN112966702A
Application number: CN201911275518.5A
Authority: CN
Inventors: 张海平; 魏彦杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2021-06-15

Abstract

本发明公开了蛋白质‑配体复合物的分类方法，针对蛋白质‑配体复合物分类的实际运用中负样本数据主导，引入非结合蛋白质‑配体复合物的信息作为负样本，进行本发明基于深度学习神经网络所开发构建的残基神经网络二分类模型DeepBindBC的训练，以该模型实现分类。由于结合负样本所构建的模型能更全面学习数据，训练数据分布更接近实际运用，因此能够准确地完成分类，实现帮助在现实药物虚拟筛选上识别天然的蛋白质‑小分子复合物，有利于药物开发中早期步骤的进行；该模型具备充足深度；数据中蛋白质和配体的种类足够多，可靠性强；该方法包含空间信息，能与不基于结构的其他模型配合；其使用复杂的原子类型表示方法能够有效保留物理化学关键信息。

Description

蛋白质-配体复合物的分类方法及分类装置

技术领域

本发明涉及蛋白质-配体复合物的技术领域，尤其是涉及蛋白质-配体复合物的分类方法及分类装置。

背景技术

小分子药物通过与疾病相关蛋白高强度高特异性结合，成为治疗疾病的重要手段之一，因此，在计算分子生物学中，识别天然的蛋白质-配体复合物(蛋白质-小分子复合物)是基于结构的药物设计的重要步骤。一些现有方法主要依靠实验性结合数据，用实验方法测定蛋白与小分子配体是否作用，需要花费大量经费，并且耗时长。

后来人们开发了一系列计算机辅助方法加速药物筛选，特别是，随着蛋白-小分子复合物的实验数据增多以及机器学习的发展，尤其是深度神经网络模型的迅速发展，不少研究人员运用机器学习或者深度学习模型预测蛋白质-小分子相互作用。其模型相对传统模型具有不少优势，一方面，深度学习模型不需要提前固定公式形式，可以随着训练过程演化，另一方面，深度学习能自动提前与目标相关的特征。较多地，现有技术基于结构的蛋白小分子对接被广泛运用于寻找小分子最佳空间作用位点以及作用方位，最后通过打分函数决定可能的最优复合物结构，构建并训练基于结构的蛋白小分子相互作用打分深度学习模型来实现分类筛选。

但是，目前这些用于蛋白与小分子相互作用的机器学习或者深度学习模型直接借助已有实验结构及实验结合来训练模型，往往缺乏负极信息(缺乏非结合蛋白质-配体复合物，或者说缺乏无作用的蛋白-小分子复合物)，导致其表现在现实运用中表现欠佳。因为，现实药物虚拟筛选中，大部分复合物是无作用的蛋白质-小分子复合物(非结合蛋白质-小分子复合物)，所以训练数据与实际应用数据之间的差异导致许多当前方法的性能较差，尤其是结合蛋白小分子组合在大规模虚拟筛选的实际应用中占绝大多数。

综上所述，现有技术还有待改进。

发明内容

有鉴于此，本发明的目的在于提供蛋白质-配体复合物的分类方法及分类装置，来解决上述问题。

为了实现上述的目的，本发明采用了如下的技术方案：

本发明提供了一种蛋白质-配体复合物的分类方法，包括：S1、获取结合蛋白质-配体复合物的信息作为正样本，获取非结合蛋白质-配体复合物的信息作为负样本，以所述正样本和负样本构造类图片矩阵作为输入数据；S2、构建残基神经网络二分类模型，所述残基神经网络二分类模型以所述输入数据按预设比例划分出的训练集进行训练；S3、所述残基神经网络二分类模型根据所述输入数据按预设比例划分出的验证集和测试集选择超参数，获得训练完成的残基神经网络二分类模型；S4、采用训练完成的残基神经网络二分类模型执行蛋白质-配体复合物的二分类。

优选地，从蛋白质数据库中获取结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息，采用独热编码表示维度对应蛋白质的原子类型数目的蛋白质原子类型向量和维度对应配体的原子类型数目的配体原子类型向量，以构造所述类图片矩阵。

优选地，所述结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息包括蛋白质与配体的界面接触信息，以所述正样本和负样本构造类图片矩阵作为输入数据前，采用空间聚类法对正样本和负样本中的蛋白质原子进行分类，根据聚类和原子类型选择数据输入的排列。

优选地，所述残基神经网络二分类模型包括依序连接的第一conv_block、连接在所述第一conv_block以后的一个以上的identity_block、第二conv_block、连接在所述conv_block以后的一个以上的identity_block以及全连接层。

优选地，所述全连接层包括依序连接的最大池化层、平坦层以及密集层，所述密集层对应的激活函数为sigmoid函数。

优选地，所述第一conv_block包括第一个二维卷积层、第二个二维卷积层以及第三个二维卷积层，其中，所述第一个二维卷积层的卷积核大小为1×1，步长为1；所述第二个二维卷积层的卷积核大小为3×3，步长为1；所述第二个二维卷积层的卷积核大小为1×1，步长为1，所述第二conv_block包括第四个二维卷积层、第五个二维卷积层以及第六个二维卷积层，其中，所述第四个二维卷积层的卷积核大小为1×1，步长为2；所述第五个二维卷积层的卷积核大小为3×3，步长为1；所述第六个二维卷积层的卷积核大小为1×1，步长为1。

优选地，连接在所述第一conv_block以后的最后一个identity_block与所述第二conv_block之间设置有dropout层，连接在所述conv_block以后的最后一个identity_block与最大池化层之间设置有dropout层。

优选地，所述结合蛋白质-配体复合物为天然蛋白质-小分子复合物，所述非结合蛋白质-配体复合物为对接蛋白质-小分子复合物。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有蛋白质-配体复合物的分类程序，所述蛋白质-配体复合物的分类程序用于被处理器执行以实现如上所述的蛋白质-配体复合物的分类方法。

本发明还提供了一种蛋白质-配体复合物的分类装置，包括处理器和存储器，所述存储器存储有可在所述处理器上运行的蛋白质-配体复合物的分类程序，所述蛋白质-配体复合物的分类程序用于被所述处理器执行以实现如上所述的蛋白质-配体复合物的分类方法。

本发明提供的蛋白质-配体复合物的分类方法及分类装置，针对蛋白质-配体复合物分类的实际运用中负样本数据占主导地位，通过结合作为负样本的非结合蛋白质-配体复合物的信息，训练所开发构建的残基神经网络二分类模型，从而使其能准确地对蛋白质-配体复合物二分类为结合蛋白质-配体复合物与非结合蛋白质-配体复合物，可以通过准确识别天然的蛋白质-配体复合物来帮助药物开发过程的早期步骤；所述残基神经网络二分类模型通过学习大量蛋白质-配体接触面数据，潜在地考虑了熵效应和结合模式，能够准确地预测亲和力，为蛋白质-配体复合物相对强度进行更精确的预测；所述残基神经网络二分类模型足够复杂且具备充足深度，而且不会像现有技术中的柔性对接或者基于分子动力学的一些准确度略有提高的方法，其对计算资源要求相对较低，十分适合大规模运用；所述蛋白质-配体复合物的分类方法包含空间信息，能与不基于结构的其他模型配合，实现优势互补；所述蛋白质-配体复合物的分类方法使用复杂的原子类型表示方法，能够有效保留物理化学关键信息。

附图说明

图1是本发明提供的蛋白质-配体复合物的分类方法的流程示意图；

图2是所述蛋白质-配体复合物的分类方法的流程次序框图；

图3是本发明提供的残基神经网络二分类模型的结构示意图；

图4是所述残基神经网络二分类模型随着Epoch数目变化的Accuracy Value或Loss Value曲线图；

图5是所述残基神经网络二分类模型随着辍学率变化的AUC或Accuracy Value曲线图；

图6是本发明实施例提出在CASF-2013数据集被autodock vina所低估的10个数据案例；

图7是本发明实施例提出在CASF-2013数据集被autodock vina所高估的11个数据案例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明并不限于这些实施方式。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了关系不大的其他细节。

本发明提供了一种蛋白质-配体复合物的分类方法，参照图1和图2所示，所述蛋白质-配体复合物的分类方法包括：

S1、获取结合蛋白质-配体复合物的信息作为正样本(正极)，获取非结合蛋白质-配体复合物的信息作为负样本(负极)，以所述正样本和负样本构造类图片矩阵作为输入数据；

S2、构建残基神经网络二分类模型，所述残基神经网络二分类模型以所述输入数据按预设比例划分出的训练集进行训练；

S3、所述残基神经网络二分类模型根据所述输入数据按预设比例划分出的验证集和测试集选择超参数，获得训练完成的残基神经网络二分类模型；

S4、采用训练完成的残基神经网络二分类模型执行蛋白质-配体复合物的二分类。

本发明提供的所述蛋白质-配体复合物的分类方法，通过引入非结合蛋白质-配体复合物的信息作为负样本，进行所开发的残基神经网络二分类模型的训练，所述残基神经网络二分类模型将蛋白质-配体复合物二分类为结合蛋白质-配体复合物与非结合蛋白质-配体复合物。由于残基神经网络二分类模型在训练过程中结合了负面数据(即非结合数据)，残基神经网络二分类模型能更全面学习数据，因此训练数据分布更接近实际运用，能够准确地对配体结合和非结合复合物进行二分类。

而且，因为现实药物虚拟筛选等应用场景下，大部分复合物是无作用的蛋白配体复合物，而目前用于蛋白配体相互作用的机器学习或者深度学习模型缺乏负极信息，造成训练与现实数据分布存在较大差异进而引发分类效果较差的问题，但是，采用本发明提供的所述蛋白质-配体复合物的分类方法，所构建的残基神经网络二分类模型能够解决这些问题。

示例性地，本实施例中，所述结合蛋白质-配体复合物为天然蛋白质-小分子复合物，所述非结合蛋白质-配体复合物为非结合的对接蛋白质-小分子复合物。在现实药物虚拟筛选上运用，本发明的残基神经网络二分类模型能够准确且快速地识别天然的蛋白质-小分子复合物以去除与天然结合蛋白质-小分子复合物不同的配体构象，从而协助药物开发过程中早期步骤的进行。

所述步骤S1中，关于数据来源，是从蛋白质数据库中获取结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息，所述蛋白质数据库具体为PDBbind数据集，PDBbind数据集全面地收集了PDB数据库中的高质量蛋白-小分子结构，本实施例中示例性地将数据集中包含罕见原子类型例如SE、SX的数据去除，并且祛除了与额外测试集CASF-2013,CSAR_HiQ_NRC_set,Astex Diverse Set重合的数据，最终获取了15425个实验结晶复合物结构，本实施例按自行选定的预设比例将包含正负样本的数据划分为训练集、验证集以及测试集，具体对应地，按自行选定的预设比例将包含正负样本的数据划分为样本数量为13500的训练集、样本数量为1000的验证集以及样本数量为925的测试集。

本发明实施例中所选用的上述数据集，蛋白质和小分子的种类具有充足的数目，尤其是相比于现有技术中基于DUD.E数据集而缺乏已知天然复合物构象信息且构建的数据准确性过于依赖现有对接软件的模型方法，本发明的方法能够有效地提高所述构建的模型的可靠性。

关于数据中虚拟蛋白质-配体复合物的制备，为了统一PDB(Protein Data Bank)结构文件中的原子名称和类型，使用ambertool工具将配体转换为mol2格式，并将蛋白质转换为PDB格式。其中，除B原子类型外，配体中的所有其他原子类型均取自广义amber通用力场，广义amber通用力场详细定义了每种原子类型。算上B原子类型，总共有84种原子类型用于配体。小分子的99种类型来自amber通用力场，蛋白原子类型有41种类型来自amber99SB力场。具体地，原子类型参照下表1所示：

表1 DeepBindRG模型中小分子和蛋白质所使用的原子类型(来源于amber力场)以及对比元素模型(Element only Model)中使用的元素种类

本实施例中，采用独热编码(onehot)表示维度对应蛋白质的原子类型数目的蛋白质原子类型向量和维度对应配体的原子类型数目的配体原子类型向量，以构造所述类图片矩阵。具体地，根据上述数据中蛋白质的原子类型数目和配体的原子类型数目，分别使用一种独热编码来编码配体类型和蛋白质原子类型，从而每种配体原子类型都具有84维的独热编码，而每种蛋白质原子类型都具有41维的独热编码。进一步地，计算配体原子和蛋白质原子之间的接触，以保持接触信息，优选地，配体原子和蛋白质原子之间的接触距离的阈值为0.4nm。

通过采用复杂的原子类型表示方法，本发明的分类方法能够尽可能有效地保留物理化学关键信息。

所述结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息包括蛋白质与配体的界面接触信息，其中，以所述正样本和负样本构造类图片矩阵作为输入数据前，为了保持相互作用对之间的空间信息，采用空间聚类法对正样本和负样本中的蛋白质原子进行分类。具体地，利用sklearn软件包中kmeans方法的空间聚类，基于空间聚类将蛋白质原子分为五个组。进一步地，准备输入文件期间，根据聚类和原子类型选择数据输入的排列，通过将属于同一聚类的原子对写入相邻行，由此可以部分保留蛋白质原子的邻居信息，并将原子对中原子类型通过独热编码串联写在同一行，逐行将原子对写入文件。其中，最大行号定义为1000，可以覆盖大多数蛋白的界面原子对总数。为了统一输入格式，如果对数小于1000，则将填充全为0的行；而尽管较少会出现，假如对数大于1000，则将切除后面的部分内容。基于上述设计，本发明所提供的蛋白质-配体复合物的分类方法包含空间信息，因此可以与不基于结构的模型配合使用，实现优势互补。例如与会丢失空间信息的IVS2Vec模型配合，利用其能准确识别蛋白质-小分子作用界面物理化学性质，与本发明的残基神经网络二分类模型有很强的互补性。

结合图3所示，所述步骤S2中构建的残基神经网络二分类模型是基于深度学习神经网络原理开发的新型深度学习二进制分类模型，为DeepBindBC(DeepBind BinaryClassifier)，其是在现有的残基网络模型ResNet的基础上进行了改进，所述残基神经网络二分类模型包括依序连接的第一conv_block(卷积块)、连接在所述第一conv_block以后的一个以上的identity_block、第二conv_block、连接在所述conv_block以后的一个以上的identity_block以及全连接层。其中，通过使用带有tensorflow的keras软件包作为后端，用python语言构建所述残基神经网络二分类模型。示例性地，连接在所述第一conv_block以后的identity_block为两个，连接在所述conv_block以后的identity_block为两个。

具体地，所述第一conv_block包括第一个二维卷积层、第二个二维卷积层以及第三个二维卷积层，其中，所述第一个二维卷积层的卷积核大小为1×1，步长为1；所述第二个二维卷积层的卷积核大小为3×3，步长为1；所述第二个二维卷积层的卷积核大小为1×1，步长为1。所述第二conv_block包括第四个二维卷积层、第五个二维卷积层以及第六个二维卷积层，其中，所述第四个二维卷积层的卷积核大小为1×1，步长为2；所述第五个二维卷积层的卷积核大小为3×3，步长为1；所述第六个二维卷积层的卷积核大小为1×1，步长为1。它们被用作瓶颈结构以降低计算成本。

进一步地，所述全连接层包括依序连接的最大池化层(AveragePoolingDrop)、平坦层(Flatten)以及密集层(Dense)，所述最大池化层和平坦层用于将二维特征图转换为一维向量，所述一维向量用作所述密集层的输入，并输出单个单元，所述单元视为最终的分类预测，所述密集层对应的激活函数为sigmoid函数，产生值0～1。

现有技术中用于蛋白配体相互作用的机器学习或者深度学习模型往往存在过拟合问题，代表训练数据时的性能比测试和验证数据时的性能过高，当采用复杂的网络模型进行训练而可以使用的数据相对有限时，时常会产生该问题，本发明的残基神经网络二分类模型中，连接在所述第一conv_block以后的最后一个identity_block与所述第二conv_block之间设置有dropout层，连接在所述conv_block以后的最后一个identity_block与最大池化层之间设置有dropout层，利用辍学实现对过拟合现象的控制。

上述残基神经网络二分类模型DeepBindBC具有复杂的结构，依靠具有足够深度的神经网络能够学习更加抽象的规律，不易过拟合，能够有效地学习隐形蛋白质-小分子作用信息。而且不会像柔性对接或者基于分子动力学的一些准确度略有提高的方法，其对计算资源要求相对较低，十分适合大规模运用。

本实施例中，选用交叉熵优化器以0.001的学习率和每个小批量64个示例的速度训练所述残基神经网络二分类模型，并且采用常规的CNN(卷积神经网络)模型进行比较，所选的常规CNN模型结构及参数如下表2所示。

表2用作对比的常规CNN模型结构及参数

所述步骤S2的训练过程中，权重调整到使损失函数最小的方向，据此对输入参数的选择、训练，输入参数包括且不限于氢的影响、原子类型的影响以及原子对的影响距离信息。而所述步骤S3中，根据所述输入数据按预设比例划分出的测试集指导超参数的选择，例如epoch(时期)，dropout(辍学)。进一步地，利用验证集和测试集，通过与上述常规CNN模型的性能比较来评估模型复杂性影响，使用曲线下面积(AUC)、准确度、真阳性率(TPR)以及精度等参数来评估所述残基神经网络二分类模型的性能。

在深度学习界面联系信息期间监控丢失的准确性和AUC，模型的性能是通过AUC，TPR和准确性进行衡量，通过观察训练次数和测试集随着时间数的增加而准确性和损失值的变化来检查收敛性。参照图4所示，其示出了具有不同历元编号的最终模型的性能，由此可以看出，在验证集达到最佳性能约在第20个epoch，并且在后续没有显着改善，由于持续的训练会导致过拟合，所以优选地，选用20个epoch作为最佳时期数用于最终模型训练。

而为了避免过拟合，利用上述dropout层，基于AUC和准确性作为指标来监控训练和验证集中不同辍学百分比的绩效差异，参照图5所示，对于epoch数为20的模型采用不同的辍学率的性能表现，辍学率20％的性能最佳，更高的辍学率会降低准确性，而更低的辍学率会导致过拟合。由此，优选地，最终使用epoch数为20而辍学率为20％来构建最终的残基神经网络二分类模型DeepBindBC。

所述残基神经网络二分类模型DeepBindBC在训练集、验证集、测试集、增加的额外测试集CASF-2013、额外测试集CSAR_HiQ_NRC_set以及额外测试集Astex_diverse_set上的表现数据参照下表3所示：

表3 DeepBindBC分别在不同数据集上的表现数据

验证集和测试集的AUC值大于0.92，准确度达到～0.85，TPR～0.85，精度～0.84。上述性能指标均表明所述残基神经网络二分类模型DeepBindBC具有准确区分非结合和结合配体的潜力。通过验证，使用元素作为原子类型的DeepBindBC_ele模型的性能(AUC～0.86)不如所述残基神经网络二分类模型DeepBindBC好，结果表明，力场中的原子类型隐含比元素更关键的物理化学性质，更全面的信息有助于提高深度学习的准确性。选用的常规4层CNN模型在训练和测试数据上的性能(AUC～0.88)同样不如所述残基神经网络二分类模型，而且正常的CNN模型严重过拟合，而增加较大的落差则会同时降低测试集和训练集的性能。因此证明了，与普通的CNN模型相比，基于ResNet模型改进的所述残基神经网络二分类模型DeepBindBC具备更深、更复杂的结构，可以从相同的输入数据中学习更多的抽象信息和复杂的规则。

所述残基神经网络二分类模型DeepBindBC在数据集CASF-2013的表现良好，AUC约为0.92，准确度约为0.82，TPR约为0.90，精度约为0.78，一部分可能归因于数据集本身的高质量以及CASF-2013和训练数据的相似特征分布。所述残基神经网络二分类模型DeepBindBC在数据集Astex_diverse_set上的性能具有AUC～0.87，精度～0.78，TPR～0.81和精度～0.77。所述残基神经网络二分类模型DeepBindBC在数据集CSAR_HiQ_NRC_set上的性能的AUC值为～0.7204，精度为0.7099，TPR为0.5364，稍劣于在其他额外测试集上的表现，但是在数据集CASF-2013上的精度为0.82，这表明大多数预测的类似自然的复合体都是真实的自然复合体。

以下通过现有的autodock vina在上述相同数据集上的表现来进一步验证所述残基神经网络二分类模型DeepBindBC的优势，参照下表4示出的以正极和负极均选取对接最优打分构象的autodock vina对接在三个额外测试集上的表现，以及参照表5示出的以正极为实验复合物构象，而负极为最优对接构象的autodock vina对接在三个额外测试集上的表现。

表4 autodock vina对接在三个额外测试集上的表现数据(正极和负极均选取对接最优打分构象)

表5 autodock vina对接在三个额外测试集上的表现数据(正极为实验复合物构象，负极为最优对接构象)

autodock vina分数是线性预测，因此，为了将其转换为二进制分类问题，分别使用-8.5和-9.5作为阀值，对正和负蛋白-配体复合物进行了对接，并且将最高的DeepbindBC分数作为最终预测，参照上表4所示，AUC～0.6，cutoff值为-8.5kJ/mol。当使用-9.5kJ/mol作为截止值时，精度从～0.7提高到～0.8，而TPR从0.3～0.5降低到0.2～0.3。通过使用了已知实验蛋白质-配体复合物的autodock vina重打分作为阳性预测，将交叉对接构象(选取分数最优构象)作阴性预测，性能指标如表5所示，表明AUC和精度在0.5～0.6左右，TPR在0.1～0.3左右。精确度约为0.5～0.6，截止值为-8.5kJ/mol，约为0.7～0.8，阀值为-9.5kJ/mol。对比结果表明，本发明所提供的所述残基神经网络二分类模型DeepBindBC具有不同的临界值和不同的积极选择方案，与所述残基神经网络二分类模型DeepBindBC在额外测试数据集上的表现相比，autodock打分函数的表现较差。

参照图6所示，示例性地，在CASF-2013数据集中存在有10个案例被autodock vina(即autodock vina的预测存在假阴性预测)的评分所低估，而本发明的所述残基神经网络二分类模型DeepBindBC已成功将其识别为类似天然复合物。该10种案例的分子量相对较小，并且包含强极性或带电基团。这表明传统方法不适用于涉及极性/电相互作用的情况。基于电荷或极性分子与极性水有很强的相互作用这一事实，可以认为本发明的所述残基神经网络二分类模型DeepBindBC具有更好的估计溶剂化和离子效应的能力(例如，水介导的相互作用)，因此性能更好，而传统的计分功能无法准确估算。

而参照图7所示，示例性地，在CASF-2013数据集中还存在有11个案例被autodockvina(即autodock的预测存在假阳性预测)的评分所高估，通过将蛋白质与非PDB结构中的配体对接来生成构象，对于以上情况，蛋白质来自第一个PDBID的结构，配体来自第二个PDBID的结构，而本发明的所述残基神经网络二分类模型DeepBindBC已成功将其识别为类似非天然复合物。该11种案例的分子量相对较大，并且包含许多苯环或其他疏水基团。这表明传统方法倾向于高估疏水相互作用，特别是高估了Pi相关的相互作用，autodock分数高估了大分子量分子的结合亲和力，而低估了小分子量分子的结合亲和力，而本发明的所述残基神经网络二分类模型DeepBindBC则不存在这些问题。

另外，还进行了NNscore和dlscore在上述的三个额外数据集上的表现对比，如下表6所示：

表6 NNscore和dlscore在上述三个额外测试集上的表现数据

其中，选用的阈值为4、5、6，其中在都使用相同的数据集情况下，在大多数绩效指标方面，NNscore和dlscore的任何一个截止值的平均性能都不如本发明的所述残基神经网络二分类模型DeepBindBC好，例如，NNscore的精度为0.5～0.7，精度为0.5～0.7，而残基神经网络二分类模型DeepBindBC的精度为0.7～0.8，精度为0.7～0.8。NNsocre的TPR值为0.5～0.9，而大多数情况下残基神经网络二分类模型DeepBindBC性能的TPR值为0.8～0.9，但CSAR_HiQ_NRC_set数据集的TPR为0.5364。而且，与NNscore相比，dlscore在所有三个额外测试集中的性能都很差。它表明了模型善于估算具有实验结构的蛋白质-配体的亲和力，并不能保证能够准确区分蛋白质和配体的对接构象，尤其是包含了大量不结合复合物构象。

因为传统的评分功能是完全基于实验已知可结合蛋白质-配体数据集开发的，蛋白质-配体数据集均具有已知的结合构型和结合强度，导致大多数回归模型都严重高估了对非结合蛋白-配体的亲和力。而由于在实际应用中，负极数据占主导地位，因此本发明提供的残基神经网络二分类模型DeepBindBC将比仅学习已知亲和力的复合物的回归模型可靠得多。在某些应用中，亲和力值预测可以提供有关蛋白质-配体复合物相对强度的更精确的预测。使用类似的数据进动技术和略微修改，残基神经网络二分类模型DeepBindBC可以预测准确的亲和力值。通过这个研究，证明了DeepBindBC在蛋白质-配体天然识别方面的潜力，其性能优于当前方法。还有许多可能的途径可以针对特定应用改进或重新设计模型。例如包含更多蛋白质和配体之间界面的空间信息，通过对蛋白质-配体相互作用进行多分类来预测亲和力。本发明所提供的分类方法具有识别正确的结合姿势并确定配体是否可以结合蛋白质的潜力。

下面利用本发明的残基神经网络二分类模型DeepBindBC估算无蛋白-配体实验结构复合物的结合亲和力以进行进一步测试，所选用的数据来自DUD.E数据库，因为其不包含实验已知的蛋白质-配体复合物，非常接近实际应用，对模型具有挑战性，能够有力地验证模型的应用性能。具体地，从DUD.E数据库中选择3个数据集，示例性地随机选择为kith、jak2以及egfr数据集，这些数据集都包含蛋白质结构以及大量的活性配体和未知活性人造(decoy)化合物。接着通过使用autodock vina对接方法来生成蛋白质-配体结合复合物，通过来自AutoDockTools的名为“prepare_receptor4.py”和“prepare_ligand4.py”的脚本分别用于转换蛋白质和配体格式，来准备autodock vina输入文件。口袋大小设定为包括活性结合位点，约为25、25、25nm。对接中心定义为蛋白质袋的中心。每个蛋白质-配体对接最多生成20个构象。如果存在类似自然的构象，则每个构象都将通过残基神经网络二分类模型DeepBindBC模型进行预测。然后，通过将-9.5或-8.5的临界值设置为比较，基于autodockvina分数进行二进制分类。如下表7所示：

表7残基神经网络二分类模型DeepBindBC在来源于上述DUD.E数据库的3个数据集上的表现

*using the inactive as the negative data

而作为对比，对上述相同的kith、jak2以及egfr数据集，以autodock vina进行评分，如下表8所示：

表8 autodock vina在来源于上述DUD.E数据库的3个数据集上的表现(正极和负极基于最优对接构象)

*using the inactive as the negative data

最终的预测结果是通过以下策略确定的：本发明提供的残基神经网络二分类模型DeepBindBC预测了autodock vina生成的构象，如果有任何构象被预测为阳性，则预测为阳性，并且还使用了实验已知的非活性化合物作为足够大的egfr数据集的阴性结果，结果表明，在大多数情况下，本发明提供的残基神经网络二分类模型DeepBindBC的表现都优于autodock vina评估的分数，临界值为0.8，尤其是在TPR方面的表现。当然，如上所述，DUD.E数据库因为其不包含实验已知的蛋白质-配体复合物，非常接近实际应用，对模型具有挑战性，因此本发明提供的残基神经网络二分类模型DeepBindBC的准确性仍存在进一步提高的改进空间。

进一步地，采用上述相同的DUD.E数据库的3个数据集：kith、jak2以及egfr数据集，还测试了pafnucy、NNscore以及dlscore在这3个数据集上的性能，如下表9和表10所示：

表9 pafnucy在来源于上述DUD.E数据库的3个数据集上的表现(正极和负极来自基于pafnucy打分的最优预测构象)

*using the inactive as the negative data

表10 NNscore和dlscore在来源于上述DUD.E数据库的3个数据集上的表现

根据以上结果可以得出，pafnucy很难区分类天然的结合物和非天然结合物，在没有实验结构的实际应用中，pafnucy具有局限性。并且pafnucy更适合于有结合的复合物结合力打分，然而在虚拟筛选中大部分蛋白-小分子是不结合的。这是因为，pafnucy在训练期间没有学习非结合信息，也没有学习过分辨率更低的对接构象。而关于NNscore和dlscore的表现，可以发现在大多数情况下，使用0.8作为阀值时本发明提供的残基神经网络二分类模型DeepBindBC较之具备更优异的性能。在Kith数据集上，dlscore表现特别差。另外，在没有实验结构的三个数据集上，NNscore相对于pafnucy也具有一定优势。可能的原因是使用要素作为输入表示并不太依赖准确的空间信息，依赖准确空间信息的模型将对天然蛋白质-配体构象过于敏感。为了克服这个问题，有必要开发一种可以生成和选择当前结合构象的对接方法。而本发明的残基神经网络二分类模型DeepBindBC还依赖于正确的空间信息(例如正确的对接构象)，并且在训练过程中并入了大量的负极数据，这使本发明在接近真实的应用中仍然优于基于特征的NNscore和dlscore。

更进一步地，为验证所述残基神经网络二分类模型DeepBindBC能通过准确识别天然的蛋白质-配体复合物来帮助药物开发过程的早期步骤，本发明选用来自chimdiv公司配体数据库中包含的约1000,000种可购入的化合物作为输入数据，首先，第一阶段使用DFCNN模型对输入数据进行不依赖于结构的大规模虚拟筛选，然后选择FCNN模型进行的最高预测进行对接，再使用所述残基神经网络二分类模型DeepBindBC评估每个对接构象，其中，对接结果通过MOE进行可视化和检查，以说明原子细节中的绑定。最后，通过选择具有较高DeepbindBC得分的化合物作为候选对象。在本发明所获的候选对象中，再综合预测分数和物理化学相互作用的经验知识，从中选出3个候选对象进行实验验证。在这3个候选对象中，本发明发现一种新型的人类胰腺α淀粉酶抑制剂，该抑制剂可以结合并具有活性，由此验证了本发明能用于准确识别天然的蛋白质-配体复合物来帮助药物开发过程的早期步骤。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有蛋白质-配体复合物的分类程序，所述蛋白质-配体复合物的分类程序用于被处理器执行以实现如上所述的蛋白质-配体复合物的分类方法。

综上所述，本发明提供的蛋白质-配体复合物的分类方法，通过引入非结合蛋白质-配体复合物的信息作为负样本，进行残基神经网络二分类模型DeepBindBC的训练，该模型将蛋白质-配体复合物二分类为结合蛋白质-配体复合物与非结合蛋白质-配体复合物，由于该模型结合了负面数据(即非结合蛋白质-配体复合物数据)，而在实际应用中负极数据占主导地位，残基神经网络二分类模型能更全面学习数据，相比于现有技术的其他回归分类模型，所述残基神经网络二分类模型DeepBindBC能够准确地进行二分类，更适合实际应用。

本发明所构建的残基神经网络二分类模型DeepBindBC通过使用蛋白质-配体界面联系信息进行二分类，学习大量的蛋白小分子接触面数据，潜在地考虑了熵效应和结合模式，能够准确地预测亲和力，为蛋白质-配体复合物相对强度进行更精确的预测，证明了本发明的模型在蛋白质配体天然识别方面的性能优于现有技术的经典方法。进一步，在输入数据过程中，物理化学关键信息已保留，并确保输入简单且适合深度学习。对于验证集和测试集，所述残基神经网络二分类模型DeepBindBC分别实现了0.8以上的准确性和0.9的AUC准确性。所述残基神经网络二分类模型DeepBindBC在上述3个额外测试集上的性能也显示出优于现有技术中有名的autodock vina、pafnucy以及dlscore所获得的结果，在没有实验复合物的DUD.E数据上其表现优异。此外，在所述残基神经网络二分类模型DeepBindBC的帮助下，本发明成功地发现了一种新型的人类胰腺α淀粉酶抑制剂，实验证明该抑制剂可以结合并具有活性，证明了其能通过准确识别天然的蛋白质-配体复合物来帮助药物开发过程的早期步骤。而且在无天然构象的情况下，所述残基神经网络二分类模型DeepBindBC在预测蛋白质-配体的结合方面表现优于其他预测模型。

还需要说明的是，本发明所构建的残基神经网络二分类模型DeepBindBC还具备能够针对特定应用进行改进的适配性，比如可以增加更多蛋白质和配体之间界面的空间信息，又比如可以通过对蛋白质-配体相互作用进行多分类来预测亲和力。本发明所提供的蛋白质-配体复合物的分类方法具有识别正确的结合姿势并确定配体是否可以结合蛋白质的潜力。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。例如：采用相同的负样本准备方法等数据处理方式，采用相似蛋白小分子输入格式，而仅仅修改残基神经网络二分类模型的层数或者参数；采用相同的数据处理方式，采用相似蛋白小分子输入格式，而仅仅将所述残基神经网络二分类模型替换为相似的深度学习网络模型；采用相同的负样本准备方法等数据处理方式，采用相似蛋白小分子输入格式，采用相似的深度学习网络模型，而仅仅修改训练的数据量；采用相同的数据处理方式，采用相似的深度学习网络模型，仅仅变更蛋白小分子输入格式；或者采用所述残基神经网络二分类模型为内核进行反向靶点搜寻，或者采用所述残基神经网络二分类模型为内核进行虚拟药物筛选。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种蛋白质-配体复合物的分类方法，其特征在于，包括：

获取结合蛋白质-配体复合物的信息作为正样本，获取非结合蛋白质-配体复合物的信息作为负样本，以所述正样本和负样本构造类图片矩阵作为输入数据；

构建残基神经网络二分类模型，所述残基神经网络二分类模型以所述输入数据按预设比例划分出的训练集进行训练；

所述残基神经网络二分类模型根据所述输入数据按预设比例划分出的验证集和测试集选择超参数，获得训练完成的残基神经网络二分类模型；

采用训练完成的残基神经网络二分类模型执行蛋白质-配体复合物的二分类。

2.根据权利要求1所述的蛋白质-配体复合物的分类方法，其特征在于，从蛋白质数据库中获取结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息，采用独热编码表示维度对应蛋白质的原子类型数目的蛋白质原子类型向量和维度对应配体的原子类型数目的配体原子类型向量，以构造所述类图片矩阵。

3.根据权利要求2所述的蛋白质-配体复合物的分类方法，其特征在于，所述结合蛋白质-配体复合物和非结合蛋白质-配体复合物的空间结构信息包括蛋白质与配体的界面接触信息，以所述正样本和负样本构造类图片矩阵作为输入数据前，采用空间聚类法对正样本和负样本中的蛋白质原子进行分类，根据聚类和原子类型选择数据输入的排列。

4.根据权利要求1所述的蛋白质-配体复合物的分类方法，其特征在于，所述残基神经网络二分类模型包括依序连接的第一conv_block、连接在所述第一conv_block以后的一个以上的identity_block、第二conv_block、连接在所述conv_block以后的一个以上的identity_block以及全连接层。

5.根据权利要求4所述的蛋白质-配体复合物的分类方法，其特征在于，所述全连接层包括依序连接的最大池化层、平坦层以及密集层，所述密集层对应的激活函数为sigmoid函数。

6.根据权利要求4所述的蛋白质-配体复合物的分类方法，其特征在于，所述第一conv_block包括第一个二维卷积层、第二个二维卷积层以及第三个二维卷积层，其中，所述第一个二维卷积层的卷积核大小为1×1，步长为1；所述第二个二维卷积层的卷积核大小为3×3，步长为1；所述第二个二维卷积层的卷积核大小为1×1，步长为1，

所述第二conv_block包括第四个二维卷积层、第五个二维卷积层以及第六个二维卷积层，其中，所述第四个二维卷积层的卷积核大小为1×1，步长为2；所述第五个二维卷积层的卷积核大小为3×3，步长为1；所述第六个二维卷积层的卷积核大小为1×1，步长为1。

7.根据权利要求4所述的蛋白质-配体复合物的分类方法，其特征在于，连接在所述第一conv_block以后的最后一个identity_block与所述第二conv_block之间设置有dropout层，连接在所述conv_block以后的最后一个identity_block与最大池化层之间设置有dropout层。

8.根据权利要求1所述的蛋白质-配体复合物的分类方法，其特征在于，所述结合蛋白质-配体复合物为天然蛋白质-小分子复合物，所述非结合蛋白质-配体复合物为对接蛋白质-小分子复合物。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有蛋白质-配体复合物的分类程序，所述蛋白质-配体复合物的分类程序用于被处理器执行以实现如权利要求1至8任一项所述的蛋白质-配体复合物的分类方法。

10.一种蛋白质-配体复合物的分类装置，其特征在于，包括处理器和存储器，所述存储器存储有可在所述处理器上运行的蛋白质-配体复合物的分类程序，所述蛋白质-配体复合物的分类程序用于被所述处理器执行以实现如权利要求1至8任一项所述的蛋白质-配体复合物的分类方法。