CN111402967A

CN111402967A - 一种基于机器学习算法提升对接软件虚拟筛选能力的方法

Info

Publication number: CN111402967A
Application number: CN202010169152.XA
Authority: CN
Inventors: 曹东升; 熊国丽; 叶文玲
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10
Anticipated expiration: 2040-03-12
Also published as: CN111402967B

Abstract

本发明公开一种机器学习算法提升对接软件虚拟筛选能力的方法，依照实施虚拟筛选的目标靶点，收集该靶点下小分子数据构成模型训练的数据集，从PDB数据集中下载靶点蛋白；确定实施筛选的对接软件和打分函数，将数据集中的全部分子对接到靶点蛋白中，输出全部能量辅助项作为机器学习分类模型的输入特征；对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中保持相同；选择XGBoost算法作为分类模型方法，保留最佳参数组作为最终参数输出该分类模型；将外部小分子数据集与靶点蛋白对接，输出每一化合物的全部能量辅助项作为测试的输入特征；将所有分子的能量辅助项输入到已经训练好的模型输出预测结果。

Description

一种基于机器学习算法提升对接软件虚拟筛选能力的方法

技术领域

本发明涉及生物信息学分析技术领域，尤其涉及一种基于机器学习算法提升对接软件虚拟筛选能力的方法。

背景技术

早期药物发现通常依赖于高通量筛选，其筛选表现相对可靠但是费用较高且命中率低。随着计算化学和计算机技术的快速发展，虚拟筛选逐渐成为药物研发的核心技术之一。作为计算机辅助药物设计(CADD)的重要分支，虚拟筛选能够从大的化合物数据库中富集潜在的活性分子，从而加速药物研发过程并且极大地降低时间和资源成本。按照筛选起点的不同，虚拟筛选可以分为基于配体的虚拟筛选(LBVS)和基于结构的虚拟筛选(SBVS)。其中基于结构的虚拟筛选(SBVS)充分考虑了配体和受体的结合效果，能够避免局部作用，整体结合欠佳的情况，是虚拟筛选中发现新颖活性分子更为可靠的策略。

分子对接是最广泛使用的基于结构药物设计方法，常用的对接软件包括MOE-Dock,DOCK,Glide,GOLD和AutoDock Vina等。蛋白配体对接的一般过程是把配体小分子放在受体的活性口袋中，通过不断优化小分子的位置以及分子内部柔性键的二面角，寻找小分子化合物和靶标大分子相互作用的最佳构象，然后使用打分函数进行打分或结合亲和力预测。因此对接的可靠性依赖于构象搜索的覆盖度以及使用打分函数的预测准确度。实际上，目前使用的大部分对接软件在构象采样方面的研究已经相当完善，而打分函数难以准确预测蛋白配体结合亲和力仍然是限制对接可靠性的主要因素。

打分函数从方法学的角度可以粗略地分为经典打分函数(力场、经验、知识)和机器学习打分函数。目前广泛使用的分子对接软件内置的打分函数均为经典打分函数，这些打分函数通常预设表征复合物的变量与其结合亲和力之间的关系是基于理论的函数关系。实践中是选取少量专家挑选的特征与亲和力值进行线性回归，实际上这种线性关系可能并不总是存在的，算法上的缺陷是经典打分函数难以准确评估蛋白配体结合亲和力的主要原因。与此相反，基于机器学习的打分函数能够直接从大量的数据中进行学习并隐式地捕捉非线性的相互作用关系，因而对于结合亲和力的预测要比经典打分函数更为准确。

但是基于机器学习算法开发的打分函数由于其通用性和可操作性较差，尚停留在实验室阶段。常用商业或开源对接软件不断更新完善，仍然是基础研究者进行虚拟筛选时的首选。国内外许多研究小组在改进现有对接软件虚拟筛选能力方面进行了深入探索，包括提取经典打分函数的描述符重新进行机器学习建模，提取对接复合物的相互作用能量项进行数据分析，以及包含了数据融合思想的共识得分等，都在一定程度上提升了对接软件的虚拟筛选能力。但是这些方法普遍需要较多的专家干预，计算难度大耗时长，相对虚拟筛选操作者仍存在不可逾越的技术壁垒。因此，更加简单快速易于实现的提升对接软件虚拟筛选能力的方法的发明对于先导化合物发现和新药研发具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于机器学习算法提升对接软件虚拟筛选能力的方法，所述方法包括：

步骤1，构建机器学习模型，依照实施虚拟筛选的目标靶点，收集该靶点下小分子数据构成模型训练的数据集，从PDB数据集中下载靶点蛋白；

步骤2，确定实施所述虚拟筛选的对接软件和打分函数，将数据集中的全部分子对接到靶点蛋白中，输出全部能量辅助项作为机器学习分类模型的输入特征；

步骤3，对于数据集按照训练集：测试集＝80％：20％的比例进行批分，其中对于数据集中的正样本和负样本进行分层抽样以使活性分子和非活性分子的比例在训练集和测试集中相同；

步骤4，选择XGBoost算法作为分类模型的学习方法，使用网格搜索进行超参数寻优，保留最佳参数组作为模型的最终参数并输出该分类模型；

步骤5，将用于虚拟筛选的外部小分子数据集与靶点蛋白对接，输出每一化合物的全部能量辅助项作为测试的输入特征；

步骤6，将所有分子的能量辅助项输入到已经训练好的模型中，输出预测结果；

步骤7，将所述预测结果的值进行降序排列，确定排名前1％的化合物；

步骤8，对所述排名前1％的化合物做进一步的分子动力学和生物活性测定研究。

更进一步地，所述步骤1进一步包括：从ChEMBL数据集中挑选模型构建的活性分子和非活性分子，组成所述机器学习模型的数据集。

更进一步地，所述步骤4进一步包括：使用网格搜索进行超参数优化，所述分类模型最终输出的结果是一个0～1之间的数值，表征化合物是否与蛋白靶点结合的可能性预测，此预测值越接近于1则表示该化合物越有可能是活性分子。

更进一步地，使用欠采样解决活性分子和诱饵分子比例不平衡问题，对于数据集中的非活性分子，先进行欠采样，使其数目与活性分子达到平衡，随后进行训练集和测试集的批分。

更进一步地，针对所述训练集中负样本的随机采样次数设置为100次。

本发明还公开了一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的基于机器学习算法提升对接软件虚拟筛选能力的方法。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于机器学习算法提升对接软件虚拟筛选能力的方法。

本发明与现有技术相比，分子对接是基于结构药物设计的重要手段。对接软件对于真实结合的活性分子和非活性分子的区分能力(筛选能力)的微小提升，当应用于分子数目在几十万的大型化合物数据库时，都能极大地节约时间和资源成本。现有对接软件对于蛋白配体结合亲和力预测准确性较低，本发明直接提取小分子对接后的能量辅助项，以此为特征进行机器学习分类模型训练，并预测化合物是否与目标靶点结合，从而提升对接软件的虚拟筛选性能。

本发明提供的方法操作简单易于使用，不需要复杂描述符的提取，而且可以推广到几乎所有能够提供能量辅助项的对接软件中。本发明方法对于对接软件绝对虚拟筛选能力的提升在Diverse数据集上达到了24.67％。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的基于机器学习算法提升对接软件虚拟筛选能力的方法的流程图。

具体实施方式

1.验证数据集

本发明方法的验证使用DUD-E数据集(http://dude.docking.org/)的Diverse子集，这是广泛使用的评估对接软件虚拟筛选基准数据集。Diverse子集包含有8个靶点(AMPC,CXCR4,KIF11,CP3A4,GCR,AKT1,HIVRT,HIVPR),覆盖了7个类别的蛋白，能够代表整个DUD-E数据集。每个靶点下的活性分子和诱饵分子分别来源于ChEMBL和ZINC，活性分子和诱饵分子的比例平均为33.1.这些诱饵分子相较于活性分子具有相似的物理化学性质和不相似的拓扑性质。更多关于此数据集的详细信息见

表1.

表1.Diverse数据集详细信息

2.分子对接与特征收集

本方法验证在三种对接软件MOE-Dock(version2018.01),GOLD(version5.3.0),和Schrodinger Glide(version7.1)上进行。首先将数据集中的化合物使用OMEGA进行预处理获得合适的构象和异构体。使用MOE-Dock对接时，首先使用软件内置的Proteinpreparation and energy minimization组件进行处理，使用数据集提供的原始共晶配体确定结合位点，分子构象搜索采用triangle matcher algorithm，每个分子保留30个对接姿势，使用GBVI/WSA dG进行打分，对于每个分子保留打分最高的一个姿势，然后使用Affinity dG,Alpha-HB,London-dG和ASE进行重打分并输出所有打分函数的能量辅助项。使用GOLD进行对接时，使用软件内置组件对蛋白质添加氢原子并去除不必要的水分子，设置共晶配体周围

以内残基为结合位点。使用遗传算法进行构象搜索，设置较慢搜索速度以提升采样精度。GOLD内置的Goldscore,CHEMPLP,ASP和Chemscore四个打分函数用于姿势打分并输出全部能量辅助项。使用Schrodinger Glide进行对接时，使用ProteinPreparation Wizard组件添加氢原子并对蛋白质进行能量优化，重原子覆盖RMSE为

标准精度(SP)模式用于对接姿势打分并输出全部能量辅助项。共收集到10个打分函数的共计61个能量项，其中E_place为MOE下5个打分函数共有的项。具体收集到的能量项信息见表2。

表2.打分函数与能量辅助项信息

3.模型训练与交叉验证

本方法验证使用的是五折交叉验证策略。首先将数据集中的活性分子赋予标签值为1，诱饵分子赋予标签值为0。将数据集分成数目相等的五折，选择其中的一折为测试集，剩下的四折为模型训练集，该过程进行五次以使数据集中的所有分子都得到测试。在划分数据集时使用的分层抽样的方法，以保证每一折中活性分子和诱饵分子的比例相同。另外，由于活性分子和诱饵分子的比例大概在1：33，存在严重的不平衡问题，故采用欠采样进行处理。对训练集中的诱饵分子进行随机抽样，使训练集中的活性分子和诱饵分子数目达到平衡(例如，训练集中有40个活性分子和1200个诱饵分子，则随机抽取40个诱饵分子作为实际训练集的负样本，最终用于训练的为80个分子)。为了充分利用非活性数据，针对训练集中负样本的随机采样进行了100次。

本方法发明使用的机器学习算法是XGBoost，这是一种有效且可扩展的GBDT框架，已经被认为是新一代的集成学习算法，并且近年来已成为几个机器学习竞赛的赢家。GBDT已经广泛用于药物发现领域，并且参与了新型打分函数的开发。使用网格搜索和五折交叉验证进行超参数优化，最终参数设置为Eta＝0.3，Maximum depth＝6,Maximum number ofbins＝256,Scale positive weight＝1.该分类模型最终输出的结果是一个0～1之间的数值，是对于化合物是否与蛋白靶点结合的可能性预测，此预测值越接近于1则表示该化合物越有可能是活性分子。如前所述，对负集的欠采样进行了100次，因此每个化合物最终获得100个预测值，求这100个预测值的算术平均值作为该机器学习分类模型的最终预测。

计算受试者工作特征曲线下面积(AUC)和Boltzmann受试者工作特征区分增强分数(BEDROC)进行对接软件虚拟筛选能力评估。ROC曲线是反应敏感性和特异性关系的曲线，该曲线下面积可用以进行不同模型性能的评估。理想状态下ROC曲线型下面积为1而随机预测的曲线下面积为0，AUC越接近于1则表示分类模型的性能越好。BEDROC通过引入加权函数来解决早期识别问题，本验证实验中设置参数α为80.5，表示排名前2％的分子贡献了BEDROC分数的80％。

本试验提取每一打分函数下的能量项作为模型的输入特征进行训练，在10个打分函数和8个靶点上验证该方法的可靠性和通用性。依据软件输出的Score值对原始打分函数虚拟筛选能力进行评估，依据XGBoost模型输出的预测值对改进后打分函数虚拟筛选能力进行评估。原始打分函数和改进后打分函数的AUC值见表3.本发明方法改进后的打分函数AUC值相较于原始打分函数的提升经配对t检验显示具有统计学差异(p＝3.4×10^-17)，平均AUC提升达到了24.67％.

表3.原始和改进后打分函数在diverse数据集的AUC结果

改进打分函数AUC

表征打分函数早期富集能力的BEDROC结果见表4.本发明方法改进后的打分函数BEDROC值相较于原始打分函数的提升经配对t检验显示具有统计学差异(p＝4.0×10^-11)。即本发明方法能够显著提升打分函数的早期识别能力，从而提升虚拟筛选的效率。

表4.原始和改进后打分函数在diverse数据集的AUC结果

改进打分函数BEDROC

综上所述，MOE-Dock(version2018.01),GOLD(version5.3.0),和SchrodingerGlide(version7.1)三个对接软件共计10种打分函数在Diverse子集上的验证结果显示经本发明改进后的打分函数能够显著提升对接软件的虚拟筛选性能(区分活性分子和非活性分子的能力)，本发明方法是切实可行且具有广泛实践意义的。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于机器学习算法提升对接软件虚拟筛选能力的方法，其特征在于，所述方法包括：

步骤6，将所有分子的能量辅助项输入到已经训练好的模型中，输出每一分子的预测为活性分子的概率值；

2.如权利要求1所述的一种基于机器学习算法提升对接软件虚拟筛选能力的方法，其特征在于，所述步骤1进一步包括：从ChEMBL数据集中挑选模型构建的活性分子和非活性分子，组成所述机器学习模型的数据集。

3.如权利要求2所述的一种基于机器学习算法提升对接软件虚拟筛选能力的方法，其特征在于，所述步骤4进一步包括：使用网格搜索进行超参数优化，所述分类模型最终输出的结果是一个0～1之间的数值，表征化合物是否与蛋白靶点结合的可能性预测，此预测值越接近于1则表示该化合物越有可能是活性分子。

4.如权利要求3所述的一种基于机器学习算法提升对接软件虚拟筛选能力的方法，其特征在于，使用欠采样解决活性分子和诱饵分子比例不平衡问题，对于数据集中的非活性分子，先进行欠采样，使其数目与活性分子达到平衡，随后进行训练集和测试集的批分。

5.如权利要求4所述的一种基于机器学习算法提升对接软件虚拟筛选能力的方法，其特征在于，针对所述训练集中负样本的随机采样次数设置为100次。

6.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的基于机器学习算法提升对接软件虚拟筛选能力的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的基于机器学习算法提升对接软件虚拟筛选能力的方法。