CN109887541A

CN109887541A - 一种靶点蛋白质与小分子结合预测方法及系统

Info

Publication number: CN109887541A
Application number: CN201910117693.5A
Authority: CN
Inventors: 张海平; 廖麟卜; 王昊; 魏彦杰; 吴序栎
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2019-06-14

Abstract

本发明提供了一种靶点蛋白质与小分子结合预测方法及系统，通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。本发明所提供的方法及系统，提取了相互作用直接相关的活性口袋部分表示蛋白，有利于去除非相关信息，减少噪音，进而提高准确性。另外，设计了适合学习向量的神经全连接层网络模型更容易保留更全的信息，通过向量保留了蛋白小分子作用的关键信息，但是又不依赖于蛋白小分子复合物构象，为高速准确预测奠定了基础。

Description

一种靶点蛋白质与小分子结合预测方法及系统

技术领域

本发明涉及计算生物技术领域，尤其涉及的是一种靶点蛋白质与小分子结合预测方法及系统。

背景技术

蛋白质为生物体的基本功能单元，小分子药物可以通过与蛋白相互作用影响疾病相关生理通路。设计针对疾病靶点的小分子药物成为治疗疾病的最重要手段之一。实验方法预测或者筛选针对蛋白质的活性候选小分子，需要花费大量经费，并且耗时长。因此人们开发了一系列计算机辅助方法加速药物筛选，其中蛋白-小分子大规模对接被广泛运用于寻找药物-蛋白最佳空间作用位点以及作用方位，最后通过打分函数决定可能的最优复合物结构。然而研究者发现仅仅通过基于经验或者物理的打分函数对复合物进行准确评价一直是难点。另一方面基于结构的打分函数，依赖于获取准确蛋白小分子相互作用构象。传统打分函数局限也包括难以有效预测特异性，以及水效应等。目前研究蛋白药物相互作用的手段相对有限。刚性小分子蛋白对接用了假定分子骨架和侧链固定不变，这个巨大近似导致结果不够可靠。基于蒙特卡洛算法的柔性蛋白对接以及分子动力学模拟等常规方法在计算水效应，熵效应，多体效应时，极其耗时，而且并不能很好保证其准确性。近年来的报道中，运用metadyanmic分子动力模拟方法估算蛋白小分子相互作用，取得了相对准确的结果。其主要原因是其模拟中显性的包含了水分子，能很好的反应水效应，熵效应，并且运用了加速采样技术。但是该技术需要人工选取综合特征变量(collective variable)，操作较为复杂，并且相对对接，仍然非常耗计算资源。

近年来，随着蛋白小分子复合物实验数据的增多，以及机器学习的发展，尤其是深度神经网络模型的迅速发展，不少研究人员运用机器学习或者深度学习模型预测蛋白小分子相互作用。其模型相对传统模型具有不少优势，一方面，深度学习模型不需要提前固定公式形式，可以随着训练过程演化，另一方面，深度学习能自动提前与相关的特征。但是，目前用于蛋白小分子相互作用的机器学习或者深度学习模型往往依赖于准确的蛋白 -小分子复合物结构。而大部分实际运用中，通过对接或者模拟方法较难获取准确的蛋白小分子复合物结构，并且增加了额外的计算时间。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种靶点蛋白质与小分子结合预测方法及系统，用于克服现有技术中由于依赖准确的蛋白小分子复合结构进行蛋白与小分子之间相互作用预测的模型或机器学习算法无法准确预测出结合结果的缺陷。

本发明解决技术问题所采用的技术方案如下：

本发明提供的第一实施例为一种靶点蛋白质与小分子结合预测方法，其中，包括：

获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；

将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；

将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。

可选的，所述方法还包括：

获取蛋白-小分子复合物结构数据，并将所述蛋白-小分子复合物结构数据作为正样本集，以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集，对所述预测模型进行训练，并结合输出结果，对预测模型进行参数调整。

可选的，所述对所述预测模型进行训练的步骤还包括：

将所述正样本集和所述负样本集的数据分成训练集、验证集和测试集；

使用所述训练集对预测模型进行训练得到预测模型的参数；

使用所述验证集对所述预测模型进行验证得到优化后的模型参数；

使用测试集对训练后得到的预测模型进行测试，得到预测模型的输出结果与真实结果之间的误差值。

可选的，所述预测模型为基于密集全连接神经网络构建的预测模型，其输出层的激活函数为线性整流函数。

可选的，所述将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果的步骤包括：

根据预测输出的结合概率值对所述结合蛋白进行概率值排名，以及根据所述概率值排列名次得到小分子最佳结合靶点蛋白。

可选的，所述获取蛋白-小分子复合物结构数据的步骤包括：

提取蛋白-小分子复合物结构中距离小分子一纳米以内的蛋白质氨基酸作为蛋白质口袋，或者利用Fpocket软件提取未知蛋白-小分子复合物结构中潜在的蛋白质口袋并进行打分，并将打分高于预设值的活性口袋作为蛋白质口袋。

可选的，获取蛋白-小分子复合物结构数据的步骤还包括：

将所述蛋白质口袋和小分子的物理化学特征数据分别转化为口袋向量和小分子向量；组成向量化后的蛋白-小分子复合物数据库。

本发明提供的第二实施例为一种靶点蛋白质与小分子结合预测系统，其中，包括：

数据获取模块，用于获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；

向量化模块，用于将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；

预测处理模块，用于将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。

可选的，所述系统还包括：

模型训练模块，用于获取蛋白-小分子复合物结构数据，并将所述蛋白 -小分子复合物结构数据作为正样本集，以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集，对所述预测模型进行训练，并结合输出结果，对预测模型进行参数调整。

有益效果，本发明提供了一种靶点蛋白质与小分子结合预测方法及系统，通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。本发明所提供的方法及系统，提取了相互作用直接相关的活性口袋部分表示蛋白，有利于去除非相关信息，减少噪音，进而提高准确性。另外，设计了适合学习向量的神经全连接层网络模型更容易保留更全的信息，通过向量保留了蛋白小分子作用的关键信息，但是又不依赖于蛋白小分子复合物构象，为高速准确预测奠定了基础。

附图说明

图1是本发明提供的一种靶点蛋白质与小分子结合预测方法的步骤流程图；

图2是本发明所述方法中预测模型建立及训练的步骤流程图；

图3是本发明所述方法具体应用实施的步骤流程图；

图4a是本发明所述方法中预测模型的结构示意图；

图4b是本发明所述方法所提供的密集全连接神经网络结构中密集模块之间的连接示意图；

图5a是本发明所述方法在进行预测模型训练时提取活性口袋的第一种方法的原理示意图；

图5b是本发明所述方法在进行预测模型训练时提取活性口袋的第二种方法的原理示意图；

图6是本发明所述系统的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

由于现有技术中所使用的蛋白-小分子相互作用的预测方法均无法得到预测准确且计算量低的需求，因此提供了一种将蛋白质口袋表示成为能反应其物理化学特性的向量，将小分子表示成成能反应其物理化学特性的向量。将口袋向量合并小分子向量来表示蛋白小分子相互作用信息，进而对蛋白与小分子之间相互作用的结果进行预测。具体的本发明所提供的方法及系统如下：

实施例1

本发明提供的第一实施例为一种靶点蛋白质与小分子结合预测方法，如图1所示，包括：

步骤S1、获取待结合蛋白质口袋和待查询小分子的物理化学特征数据。

获取用于预测的各个靶点蛋白质和待查询的与所述靶点蛋白质进行结合的小分子的物理化学特征数据。上述数据可以从各个已知含有蛋白靶点及与所述蛋白靶点相结合的小分子数据库中直接获取。

步骤S2、将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量。

对上述步骤S1中获取的蛋白质口袋和小分子的相关数据转向量化，具体的，为了提高预测的精确度，本步骤中蛋白质口袋使用氨基酸实现，而氨基酸向量以及小分子向量都可以使用开源软件mol2vec获取。

步骤S3、将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果。

将转化为向量的口袋向量和小分子向量输入预测模型，得到口袋向量与小分子向量之间的结合概率值。由于结合概率值越高越说明该小分子对该活性蛋白质口袋之间的相互作用越强，也越能有效的治疗靶点所在的疾病，因此本步骤中选出结合概率值最高的前几位蛋白质口袋，以得到与该待查询小分子结合效果最佳的蛋白质。因此本步骤中还包括：根据预测输出的结合概率值对所述结合蛋白进行概率值排名，以及根据所述概率值排列名次得到小分子最佳结合靶点蛋白。

可以想到的，针对上述步骤S3中使用的预测模型，还需要对其进行建模和训练。

结合图2所示，获取蛋白-小分子复合物结构数据，并将所述蛋白-小分子复合物结构数据作为正样本集，以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集，对所述预测模型进行训练，并结合输出结果，对预测模型进行参数调整。

进一步的，所述获取蛋白-小分子复合物结构数据的步骤包括：

提取蛋白-小分子复合物结构中距离小分子一纳米以内的蛋白质氨基酸作为蛋白质口袋，或者利用Fpocket软件提取未知蛋白-小分子复合物结构中潜在的蛋白质口袋并进行打分，并将打分高于预设值的活性口袋作为蛋白质口袋。使用两种不同的方法均可以得到较佳的提取蛋白质口袋的结果。

可以想到的是，为了获取蛋白-小分子复合物结构数据的步骤还包括：

具体的，为了得到较为准确的预测模型，所述对所述预测模型进行训练的步骤还包括：

使用所述训练集对预测模型进行训练得到预测模型的参数；

较佳的，所述预测模型为基于密集全连接神经网络构建的预测模型，其输出层的激活函数为线性整流函数。

对于任何输入预测模型的小分子以及蛋白质,预测模型可以判断可能结合的概率，从而找出该分子的潜在蛋白靶点。具体实施时，将输入小分子预先与库中的蛋白组成600维度的向量。预测出的概率值越高，结合的可能性越高，最高排名的蛋白可以优先用于后续研究。本发明所提供的方法基于深度神经网络的预测模型进行预测，不同于现有技术方法中使用蛋白和小分子对接进行预测，也不需要进行构象搜索，因此减少模拟时产生的计算量，且通过向量保留了蛋白小分子作用的关键信息，可以获取较为准确的预测结果。

下面以具体应用实施例为例，对本发明所提供的方法做更为详细的解析。

结合图2和图3所示，在实际应用中，本发明所述的方法包括以下几个部分：

1.1训练验证以及测试数据准备

蛋白及小分子的数据准备，使用PDBbind数据库(2017年版本)中的数据来训练的预测模型。PDBbind数据库包含有14万多个来源于PDB结构数据库的蛋白-小分子复合物结构数据。小分子配体使用mol2vec软件转化成300维度的向量表示。对应的受体蛋白活性口袋用mol2vec转化成为300 维度的向量表示。对应同一个复合物的小分子和口袋向量合并成为一个600 维度的向量表示，这个600维度的向量将用于模型的最终输入。

来源于PDBBind数据库的14371个蛋白小分子复合物将定义为训练，验证，和测试的正样品。人为制造负样品，方法是每个蛋白随机组合一个小分子，但是保证组合蛋白小分子不是存在于原有的复合物中。假设是随机的蛋白小分子大概率不会相互作用。最终用于训练、验证和测试的正样品负样品总数是35,402。

为了训练更可靠的模型，数据被分成了各自独立的训练集、验证集和测试集。训练集用于产生模型参数，验证集用于优化可调参数 (hyper-parameters)，测试集用来检验模型的可靠性，正负样品数量一致，以保证训练数据平衡。

表1. PDBbind数据分成独立的训练集、验证机和测试集，各自数量分配如下。

	总数	正样本	负样本
				训练集	23000	11500	11500
验证集	6200	1435	4765
				测试集	6202	1436	4766

1.2. IVS2vec运用实例数据准备

本发明所提供的方法中，将用于进行反向靶点搜索的系统称为 IVS2Vec，将用做正向小分子筛选的系统称为VS2Vec。其中，IVS2vec系统是个二分类器，将潜在靶点分为两组：潜在靶点和非潜在靶点。

进一步的，实施中使用了来源于DUD.E，ADReCS-Targ和Therapeutic TargetsDatabase(TTD)数据对IVS2vec系统在不同情况下的表现进行了测试。

DUD.E是一个旨在提高测试蛋白小分子模型的开源数据库，包含了 22，886活性小分子和102个它们对应的靶点.平均每个蛋白包含有224活性小分子.另外它也提供了大量针对这些蛋白的人造(decoy)小分子(总数大于100万).另外也提供了一些蛋白靶点的实验已知的非结合小分子，这次研究中选取了3个最重要靶点：JAK2，EGFR and CDK2来验证IVS2vec。表格2列出了它们每个靶点对应的活性小分子，以及非活性小分子数目。模型训练中，将活性小分子用作正样品，非活性小分子当作负样品。

表2：测试中靶点JAK2，EGFR和CDK2各自对应的活性和非活性小分子数量。

	活性小分子	非活性小分子
			JAK2	153	6590
EGFR	832	35442
			CDK2	798	28328

ADReCS-target提供了已知副作用相关靶点的信息，其中，有1710个蛋白副作用的信息。使用IVS2vec来预测小分子可能结合的副作用相关靶点，从而预测药物副作用。基于ADReCS-target提供的信息，收集了318蛋白结构，用来预测1个草药成分小分子(quercetin)的作用。

治疗靶点数据库(TTD)提供了一系列疾病治疗相关靶点，这个数据库包含了3101靶点信息，基于这些信息，获取了1514蛋白结构，并以此构建了治疗靶点结构库，使用IVS2vec系统对quercetin与靶点库中靶点结合进行了类天然结合判别预测，通过预测值找出潜在治疗靶点。

1.3结合口袋提取

结合口袋与小分子转化成了600维度的向量表示。这里设计了两套获取蛋白结合口袋的方案。方案一，如图5a所示，对于有小分子蛋白结构的复合物，口袋定义为距离小分子一纳米以内的蛋白质氨基酸.然后所有的氨基酸用Mol2vec转化成向量。PDBbinddatabase和DUD.E中的口袋就是按方案一定义。方案2中,如图5b所示，ADReCS-Target和TTD中蛋白，很多没有已知蛋白小分子结构，统一用Fpocket件提取,这个软件可以提取潜在口袋，并进行打分。分数最高的最有可能是活性口袋。方案2 中将分数最高的fpocket定义成口袋，然后口袋氨基酸用Mol2vec转化成为向量。

1.4机器学习及深度学习方法

本研究中,分类模型主要要来选取能与靶点高度结合的候选分子。为了获取鲁棒的预测模型,选用了五种机器学习/深度学习模型来预测蛋白- 小分子结合。这些方法是：支持向量机(SVM)、随机森林(random forest)、 XGBoost、卷积神经网络(ConvolutionalNeural Network)、密集全连接神经网络(Dense Fully Connected Neural Network)。SVM和RF是用python scikit-learn kit工具构建。采用的随机森林有1500颗树，用信息熵函数来衡量分叉质量。支持向量机的核是径向基函数，惩罚系数为1.0，核系数为1/特征数量。XGBoost采用了梯度增强树(gradient boost tree)，损失函数为二元逻辑损失(binarylogistic loss)，树的最大深度为100。

结合图4a所示，在具体实施例中，本发明所提供的密集全连接神经网络含有多个全连接层，较佳的，设置有10层全连接层，蛋白向量和小分子向量输入所述密集全连接神经网络组建的预测模型，得到输出的预测结果，该预测结构为0和1之间的数值。进一步的，如图4b所示，每一层都将其之前的所有层的输入连接成一个新的向量，作为其输入，这种方法一定程度上使得预测结果更为稳定和准确，解决了梯度消失的问题，最后一层输出一个节点，输出值由sigmoid函数归一到了0和1之间，作为最后的预测结果，除此之外的每一层都输出100个节点，采用的激活函数是relu(线性整流函数，Rectified Linear Unit)。

1.5表现评估

本发明所述的方法中,使用了多个评估指标来评价和对比不同预测模型的表现，包括准确率、Area Under receiver operating characteristic Curve(AUC)、MatthewsCorrelation Coefficient(MCC)、特异性 (Specificity)和敏感性(Sensitivity)。

敏感度(Sensitivity)表示在阳性样本中，预测为出阳性的几率(检测出确实结合的能力)。特异性(Specificity)在负样品样本中，检测出阴性的几率(检测出确实不结合的能力)。MCC能综合评估模型表现，避免对正负存在偏差。AUC对模型的评估相较于准确率在样本不均衡时更为稳定。

其中，

1.6 IVS2vec流程

IVS2vec是基于word2vec技术，应用于虚拟筛选。Mol2vec利用 Word2vec原理用来将化学结构转化成向量。由于PDBbind database包含全面的蛋白-小分子结合结构数据,这个数据库用来构建IVS2vec预测模型的训练集、验证集和测试集。其中小分子和蛋白口袋通过Mol2vec分别被转化成为300维度向量,然后小分子向量和蛋白口袋向量结合成为600维度的向量表示蛋白小分子结合特征。因为口袋部分氨基酸与结合相关度最高，因为只有蛋白活性口袋而不是整个蛋白转化为向量，这样可以去除不必要噪音。通过本方法,将来源于PDBbind数据库中的14,371蛋白质小分子复合物转化成了600维度的向量表示，作为训练的正样品。另外，21031个负样品转化成了600维度向量表示。

2.1对PDBbind数据库的预测

本发明所公开的方法中PDBbind数据库分成了3部分：训练集，验证集和测试集，训练集用于构建预测模型：验证集用于算法的经验参数调节；测试集用于验证最终模型的表现，基于这个训练集，对多种方法：SVM， RandomForest，Xgboost，CNN and DFCNN，分别进行了分类模型的构造。

在验证集和测试集中的小分子蛋白相互作用的预测，是基于对训练集的学习得到。小分子和蛋白口袋结合信息使用600维度向量表示，基于这个输入信息，预测模型需要自动判断小分子蛋白的相互关系，从而得出准确预测。

以AUC为表现指标，深度学习算法DFCNN(AUC：0.9106)明显优于其他算法，另一种深度学习算法普通CNN，表现与机器学习方法XGB和RF 接近，如表3所示。

表3，五种机器学习方法预测结果。

	准确度	AUC	MCC	敏感度	特异性
						SVM	0.7681	0.6729	0.2497	0.2897	0.9123
RandomForest	0.7261	0.8444	0.4361	0.8085	0.7012
						xgboost	0.7569	0.8601	0.4809	0.8175	0.7386
CNN	0.7817	0.8642	0.5181	0.8231	0.7692
						DFCNN	0.7954	0.9106	0.566	0.883	0.769

他们测试集上AUC值分别是0.8642，0.8601和0.8444.SVM的表现最差，AUC值为0.6729，另外，表3中提供了更多统计指标来衡量这五种机器学习方法的表现，准确度上看，表现也与AUC值一致，然而MCC(0.2497)，敏感度(0.2897)和特异性的值(0.9123)反应出SVM明显偏向于将数据预测成负样品，传统的SVM方法似乎不太适合运用于大规模数据的模型构造，除了SVM,其他算法没有出现明显的预测偏好，需要注意的是，深度学习算法包括CNN和DFCNN相对传统机器学习方法具有一定优势。基于大数据集的深度模型可以比传统机器学习表现更为优异，而且省去了特征提取的繁琐步骤。本研究中，CNN和DFCNN模型在测试集上的MCC指标(MCC: 0.5660)(MCC:0.5181)超过了0.500，并且他们的准确度大于0.7800，因为DFCNN的优异预测能力,最终决定用它作为IVS2vec预测模型的内核，另外发现DFCNN在敏感度(真阳性)的预测上优于其他模型(敏感度:0.8830)。高敏感度预测在大规模药物筛选过程中意义重大。

基于以上结果，我相信IVS2vec能在反向靶点筛选上表现优异。另外，它具有极快预测速度。平均来说，机器算法(NVIDA Titan V 12GB HBM2) 预测一个蛋白-小分子相互作用只需要花费0.00024s的时间。甚至使用普通机器都能表现进行完成大规模反向筛选任务。基于结合方法的反向筛选几乎不可能达到类似速度。

这套方法适用于前期药物开发过程中研究小分子潜在靶点。

2.2 DUD.E案例测试结果

DUD.E数据库包含102蛋白靶点以及2,886与靶点结合的小分子，这些活性小分子都经过了实验验证，适合用于模型预测。从DUD.E数据库中随机选择JAK2,EGFR和CDK2用以验证。

JAK2是一个non-receptor tyrosine kinase,属于janus kinase家族，在JAK2基因上的突变多种疾病相关(polycythemia vera,essentialthrombocythemiamyelofibrosis and other myeloproliferative disorders)，在DUD.E数据库JAK2包含有153活性小分子和6590decoys 小分子。

EGFR是一个跨膜蛋白受体，在癌症治疗中起着重要作用，目前有多个针对EGFR的上市药物例如：erlotinib，gefitinib，icotinib。抑制EGRF 结合口袋能够防止癌症生长，对于EGFR，DUD.E有832已知的活性小分子，和35442decoys小分子。

CDK2与细胞分裂相关激酶，主要在细胞分裂的G1-S时期起关键作用。抑制CDK2的化合物能够降低肿瘤细胞的繁殖速度，DUD.E有798已知的活性小分子作为测试正样品和28328decoys小分子作为测试负样品.

在具体实施例时，较佳的，将每一对蛋白-小分子对都转化成为600维度的向量表示，作为输入项，因此对于DUD.E中的3个例子，数据集中的每个小分子都需要与其对应的靶点形成600维度的向量：JAK2、EGFR或者 CDK2。预测结果展示在表4。

表4. IVS2vec对于来着DUD.E数据库3个结果的预测情况。

	准确度	AUC	MCC	敏感度	特异性
						EGFR	0.5368	0.7320	0.1110	0.8410	0.5300
JAK2	0.6724	0.8268	0.1640	0.8560	0.6680
						CDK2	0.6925	0.7635	0.1330	0.6870	0.6930

如在表格4中所示，IVS2vec能够对正样品给出准确的预测。正样品中的数据都是实验验证可以结合的蛋白小分子，因此敏感度的结果反应出 IVS2ves能够有效预测针对某个蛋白的潜在靶点。另外，看到3个例子中AUC值比较理想。然而，值得注意的是MCC相对较差，主要原因是负样品数据远远大于正样品数据。平均下来负样品数据是正样品数据的50倍。这些decoys小分子是人为制造的，并且没有经过实验验证。因此不可避免会有一些假阳性结果。对于这些假阳性结果，相信如果进一步测试有可能有一些其实是可以结合的小分子。

2.3药物治疗靶点库(TTD)测试结果

TTD整合了大量治疗靶点相关信息，本发明实施例中，选择使用治疗靶点信息来评估IVS2vec表现，草药成分小分子Quercetin被用来测试 IVS2vec搜寻蛋白靶点的能力。表5显示了Quercetin的预测靶点结果。

表5列出了vina和IVS2vec的预测分数。Vina分数来自于autodock vina对接软件，分数负值越大,也有可能可以结合。AutoDock vina的对接结果用来与IVS2vec对比，IVS2vec分数是DFCNN model的输出，DFCNN model的输出层使用sigmoid激活函数将值输出为0到1范围，一般情况下,将0.5定义为阀值。在之前对PDBbind database and DUD.Edatabase 分类任务中,如果IVS2vec的返回值高于0.5，那么被测试的蛋白-化合物将归为正样品，这里假定IVS2vec分数高于0.98的蛋白为潜在靶点，以这个标准，Quercetin 7个已知靶点，另外9个蛋白与Quercetin的功能相关，例如,Quercetin能够下调CCR5表达。虽然没有直接报道Quercetin和 CCR5可以结合,推测CCR5和Quercetin的结合，诱发了下游反馈机制，导致CCR5自身表达下降。因此，认为Quercetin功能相关的蛋白可以做进一步实验测试，另外CRP和TNF具有相对差的vina分数(CRP:-7.5and TNF:-6.4)，这两个已知靶点如果用结合分数进行判断，很容易被当作无作用而丢失.从这个角度来看，IVS2vec在某些情况下，预测小分子的潜在靶点方面具有更大优势.

2.4.副作用相关靶点预测结果

不良副作用反应在药物安全上影响重大.副作用大部分是由脱靶导致的.虽然药物脱靶靶点对药物疗效影响重大,但是脱靶信息对药物设计有重要意义.小分子涉及的综合生物通路决定其药效.能够帮助药理学家药物组合，有利于药物研究者药物重运用.本实施例中，运用来自于 ADReCS-Target数据库的靶点来评价IVS2vec预测副作用相关靶点的能力。

ADReCS-Targe记录了大量蛋白和及其副作用相关信息(方法部分)。一共318ADR-related靶点被选取用来搜寻脱靶靶点，Quercetin的预测结果显示在表6。

表格6 Quercetin小分子在ADReCS-targets数据库中发现的潜在副作用靶点.这些潜在靶点用IVS2vec分数排序，并且只保留了分数大于 0.99的预测结果。

预测结果显示在表6(只保留有IVS2vec的预测值高于0.98的结果) 另外，副作用靶点被报道表达量会被Quercetin影响，这些也可能是结合蛋白以后反馈条件，导致的表达量改变，因此可以优先实验进一步研究是否能结合。

本发明所提供的方法将mol2vec运用到了蛋白小分子相互作用上，用合并的小分子向量，蛋白质活性口袋向量作为深度学习的输入，蛋白口袋以及小分子关键物理化学信息被保留到了合并的向量中。通过大数据的学习，模型能不断优化神经网络各层权重，最终重要特征将被识别，从而使输出的预测值接近于标签，即真实值。不同于其他方法，提取了相互作用直接相关的活性口袋部分表示蛋白，这样有利于去除非相关信息，减少噪音，进而提高准确性。另外，本方法专门设计了适合学习向量的神经全连接Densenet网络模型DFCNN，全连接层神经网络相对CNN模型容易保留更全的信息，这对于向量学习至关重要，另外使用了Densenet中的密集跨层连接，使得梯度消失问题大大减少，加强特征传播，有利于特征重复使用，参数量减少，能够用更深的神经网络模型，学习到数据更加复杂和抽象的特征及规律。

实施例2

本发明提供的第二实施例为一种靶点蛋白质与小分子结合预测系统，如图6所示，包括：

数据获取模块610，用于获取待结合蛋白质口袋和待查询小分子的物理化学特征数据；其功能如步骤S1所述。

向量化模块620，用于将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量；其功能如步骤S2所述。

预测处理模块630，用于将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果，其功能如步骤S3所述。

具体的，所述系统还包括：

在运用方面，本发明所提供的系统为内核运用于小分子大规模虚拟筛选，以及反向靶点搜寻。示例数据的准备方式具有创新，通过向量保留了蛋白小分子作用的关键信息，但是又不依赖于蛋白小分子复合物构象，为高速准确预测奠定了基础。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种靶点蛋白质与小分子结合预测方法，其特征在于，包括：

2.根据权利要求1所述的靶点蛋白质与小分子结合预测方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的靶点蛋白质与小分子结合预测方法，其特征在于，所述对所述预测模型进行训练的步骤还包括：

使用所述训练集对预测模型进行训练得到预测模型的参数；

使用测试集对所述预测模型进行测试，得到预测模型的输出结果与真实结果之间的误差值。

4.根据权利要求1-3任一项所述的靶点蛋白质与小分子结合预测方法，其特征在于，所述预测模型为基于密集全连接神经网络构建的预测模型，其输出层的激活函数为线性整流函数。

5.根据权利要求1所述的靶点蛋白质与小分子结合预测方法，其特征在于，所述将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型，得到结合概率的预测结果的步骤包括：

6.根据权利要求2所述的靶点蛋白质与小分子结合预测方法，其特征在于，所述获取蛋白-小分子复合物结构数据的步骤包括：

7.根据权利要求6所述的靶点蛋白质与小分子结合预测方法，其特征在于，获取蛋白-小分子复合物结构数据的步骤还包括：

8.一种靶点蛋白质与小分子结合预测系统，其特征在于，包括：

9.根据权利要求8所述的靶点蛋白质与小分子结合预测系统，其特征在于，所述系统还包括：

模型训练模块，用于获取蛋白-小分子复合物结构数据，并将所述蛋白-小分子复合物结构数据作为正样本集，以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集，对所述预测模型进行训练，并结合输出结果，对预测模型进行参数调整。

10.根据权利要求8所述的靶点蛋白质与小分子结合预测系统，其特征在于，所述预测模型为基于密集全连接神经网络构建的预测模型，其输出层的激活函数为线性整流函数。