CN112201313B

CN112201313B - 一种自动化的小分子药物筛选方法和计算设备

Info

Publication number: CN112201313B
Application number: CN202010967994.XA
Authority: CN
Inventors: 马松龄; 徐贺; 马文志; 段新丽; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2024-02-23
Anticipated expiration: 2040-09-15
Also published as: CN112201313A

Abstract

本发明公开了一种自动化的小分子药物筛选方法，在计算设备中执行，包括步骤：采集针对目标靶点的多个分子的结构数据和活性数据，并构建针对该目标靶点的第一候选分子库；生成每个结构数据所对应的矢量特征，并以该矢量特征为样本输入，以活性值为样本输出，以对应的活性数据为样本标签，训练第一预测模型；分别将第一候选分子库中的各分子输入到第一预测模型，并从中选取输出的活性值靠前的多个分子构成第二候选分子库。本发明还一并公开了适于执行该方法的计算设备。

Description

一种自动化的小分子药物筛选方法和计算设备

技术领域

本发明涉及药物虚拟筛选领域，尤其涉及一种自动化的小分子药物筛选方法和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在新药发现过程中，虚拟筛选可以提高活性分子的富集，通过对化合物的活性进行预测，可以节约大量的人力、物力，缩短药物研发周期，加速研究成果的转化，因此近年来已引起科研机构和制药公司的高度重视。

在药物的早期设计阶段，针对某个疾病相关的蛋白质靶点，寻找具有优良活性、成药属性及可合成的小分子是一个关键工作。而如何能从分子库中快速又准确地筛选出活性优良的小分子，以实现基于固定靶点的小分子化合物活性预测的虚拟筛选，就成为了药物研发工作的重中之重。

发明内容

为此，本发明提供了一种自动化的小分子药物筛选方法和计算设备，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种自动化的小分子药物筛选方法，适于在计算设备中执行，该方法包括步骤：采集针对目标靶点的多个分子的结构数据和活性数据，并根据该结构数据和活性数据构建针对目标靶点的第一候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：生成每个结构数据所对应的矢量特征，并以该矢量特征为样本输入，以活性值为样本输出，以对应的活性数据为样本标签，训练第一预测模型；分别将第一候选分子库中的各分子输入到第一预测模型，并从中选取输出活性值靠前的多个分子构成第二候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：分别将第二候选分子库中的各分子与目标靶点进行对接，并从中选取对接构象优异的多个分子构成第三候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：对第三候选分子库中的多个分子进行聚类，并从每个类中选取性能优异的多个分子构成第四候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：分别计算第四候选分子库中的各分子与目标靶点的结合自由能，并从中选取结合自由能低的多个分子构成第五候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：分别将第五候选分子库中的各分子输入到第二预测模型中，并从中选取输出活性值靠前的多个分子构成第六候选分子库。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：结构数据和活性数据存储于smiles文件、sdf文件、mol文件、mol2文件、csv文件中的至少一种；结构数据用化学语言标记表示，活性数据包括酶活性和/或细胞活性。

可选地，在根据本发明的小分子药物筛选方法中，第一预测模型为构效关系模型和/或药效团模型；第二预测模型为类药性和/或成药性预测模型，第一候选分子库通过分子库构建模型构建，分子库构建模型为分子生成模型、子结构匹配模型和基于化学性质的过滤模型中的至少一种。

可选地，在根据本发明的小分子药物筛选方法中，还包括步骤：输出各候选分子库的分子信息，该分子信息包括分子的结构数据、活性数据、对接构象、对接分值和聚类情况。

可选地，在根据本发明的小分子药物筛选方法中，将第一候选分子库中的各分子输入到第一预测模型中的步骤还包括：对第一分子库进行子结构或相似度匹配、基于化学性质的过滤，并从中筛选出相关打分高的多个小分子生成矢量特征，输入到对应的第一预测模型中。

可选地，在根据本发明的小分子药物筛选方法中，聚类包括基于骨架的聚类、基于分子指纹的聚类和基于形状的聚类中的至少一种。

根据本发明的再一方面，提供了一种计算设备，包括：存储器；一个或多个处理器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述的小分子药物筛选方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的小分子药物筛选方法。

根据本发明的技术方案，提取针对特定靶点的多个小分子的结构数据和活性数据，并基于这些数据构建候选分子库、活性预测模型、分子对接模型、高精度计算模型等。将候选分子库中的分子输入到该活性预测模型中后，得到输出活性值高的分子，以完成第一次药物筛选。之后，本发明可以再将筛选出的分子利用对接模型的对接模块进行分子对接，使每个分子产生多个分子构象，利用自动挑选分子构象的工具剔除不合理分子构象，并利用对接打分模型对分子的对接构象进行打分，选择对接分值高的构象作为该分子构象，分子进行聚类分析，得到每个类中分子对接值高的分子，完成第二次药物筛选。利用高精度计算模型对第二次筛选后的分子进行高精度打分，得到打分值较高的分子，完成第三次药物筛选。利用性质预测模型对第三次筛选后的分子进行类药性和成药性预测，选择在类药性和成药性预测中表现优异的分子，完成第四次药物筛选，并进入人工评估阶段。通过这些层层筛选过程，可提高筛选分子的准确性和对特定靶点的活性，提高分子筛选效率。

本发明能够提高小分子化合物活性筛选的准确度，极大的加速小分子药物研发流程。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一些实施方式的计算设备100的示意图；

图2示出了根据本发明一个实施例的自动化的小分子药物筛选方法200的流程图；

图3示出了根据本发明另一个实施例的自动化的小分子药物筛选流程的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行自动化的小分子药物筛选方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行自动化的小分子药物筛选方法200。

图2示出了根据本发明一个实施例的自动化的小分子药物筛选方法200的流程图。方法200在计算设备中执行，如在计算设备100中执行，以便筛选出针对特定靶点的具有优良活性的小分子化合物。方法200的详细过程可参考图3中的分解示意图进行理解。如图2所示，该方法始于步骤S210。

在步骤S210中，采集针对目标靶点的多个分子的结构数据和活性数据，并根据该结构数据和活性数据，构建针对目标靶点的候选分子库，即第一候选分子库。

一般地，可以从特定靶点的专利、文章或现存数据库(例如，PubChem、ChEMBL、PDBbind等数据库)获取这些分子的结构数据和活性数据。这些数据表现为数据文件，这类文件包括但不限于smiles文件、sdf文件、mol文件、mol2文件、csv文件等。在这类文件中小分子的结构由化学标记语言(Chemical Markup Language,CML)表示，包括但不限于线表示法(Line Notation)的SMILES(Simplified Molecular Input Line EntrySpecification)和化学表文件(Chemical Table file，CT file)。活性(性质)数据包括但不限于分子的酶活性和细胞活性等，如IC50、Ki、Kd等信息。该类文件中还包括分子编号等分子标识信息。

本发明所获取的这些活性数据为针对目标靶点的活性分子的结构数据和活性数据，这样能够训练出针对该特定靶点的分子库和模型，提高后续分子筛选的高效性和针对性。目标靶点可以是酶蛋白、G-蛋白偶联受体(GPCR)、离子通道、核受体、结构蛋白、载体蛋白等。考虑到药物筛选流程中，该靶点蛋白的三维结构、以及蛋白与小分子的结合模式是非常重要的。因此在步骤S210中，还可以一并获取目标靶点的蛋白结构。该蛋白结构信息主要来自于PDB(protein data bank)数据库，是PDB格式的文件。PDB文件是一种标准文件格式，包含原子的坐标等信息。对于那些三维结构未被解析的靶点蛋白，可以通过同源模建的方法来获得其三维结构，以供后续筛选分析使用。这里的输入可以是一个或多个靶点结构。

根据一个实施例，第一候选分子库可以为商业分子库、公共数据库和生成分子库中的至少一种。第一候选分子库可以是任意一个分子库中的全部或部分分子，也可以是两个或三个分子库中的全部或部分分子，本发明对第一候选分子库的构成和数量不作限制。

其中，商业分子库由商业公司构建，能针对靶点(酶蛋白、GPCR、离子通道、核受体、结构蛋白、载体蛋白等)、适应症类型(中枢神经系统、肿瘤、炎症、代谢、传染性疾病等)进行特定筛选，如Enamine、ChemDiv、SPECS数据库。商业分子库筛选后的分子可以直接购买，便于直接进行生物实验。公共数据库通常由公共组织构建，该类分子库规模大、数据量多、涵盖范围广，如PubChem、ChEMBL数据库。而且，商业分子库和公共分子库需要根据采集到的分子的结构数据和活性数据进行相关的预处理。

生成分子库可利用人工智能或深度学习的方法，其可以随机生成分子，也可以基于步骤S210中所获取的满足特定靶点的活性分子或者满足特定属性需求的活性分子来构建，通过将深度学习方法应用到药物设计中，能够快速生成大量分子构成第一候选分子库，可弥补药物化学家在结构设计中想象力不足的情况，生成的分子除了结构的多样性和新颖性之外，更具针对性和高富集率。

具体而言，第一候选分子库的构建过程还包括子结构或相似度匹配或基于化学性质的过滤等过程中的至少一种。子结构匹配通过调用RDKit程序包，基于活性分子的结构数据，通过矢量化的方法，搜索化合物数据库，判断候选分子库中的分子是否包含目标子结构，并输出匹配的化合物。基于化学性质过滤例如根据类药物规则进行过滤，或者基于其他化学性质进行选择，筛选出性质优良的分子。

根据本发明的一个实施例，方法200在步骤S210之后，还可以包括步骤S220。在步骤S220中，生成每个结构数据所对应的矢量特征，并以该矢量特征为样本输入，以预测的活性值为样本输出，以对应的活性数据为样本标签，训练小分子的第一预测模型。一般地，第一预测模型能够基于分子的结构特征输入预测的活性值，其将活性分子的结构数据转换为以数字表示的矢量特征。

第一预测模型可以为构效关系模型和/或药效团模型。本发明会根据输入的数据自动判断和选择相应的粗筛方法并利用自主研发的自动化机器学习平台进行模型的构建，根据模型的输出结果可实现小分子药物的粗筛过程。

其中，构效关系模型是药物研发流程中的重要筛选工具之一，它使用数学模型来描述分子结构和分子的某种生物活性之间的关系，其基本假设是化合物的分子结构包含了决定其物理、化学及生物等方面的性质信息，而这些理化性质则进一步决定了该化合物的生物活性。构效关系模型包括2D-QSAR、3D-QSAR、4D-QSAR。

具体而言，2D-QSAR是将分子的结构信息矢量化成不同的分子指纹和描述符作为特征，并采用随机组合数个特征作为输入数据，计算设备根据数据的类型进行自动化的特征工程处理和基于超参优化的机器学习模型训练，输出若干表现较优的模型进行投票打分，根据投票结果挑选出最好的集成模型。然后，用所选出的集成结果对候选分子库进行过滤，输出一批预测活性值较高的分子。该方法与传统的高通量虚拟筛选方法相比，在预测分子上具有高效性，百万量级的分子库约半小时就能给出预测结果。同时，它很好的解决了人工建模存在的几大问题，如搜索空间不全，稳定性和确定性差，搜索过程中可控性差，缺少可视化环节，以及效率低等。

一般地，2D-QSAR的矢量特征包括至少一种分子指纹和/或至少一种分子描述符。分子指纹是编码分子的一种方式，具体是提取分子的结构特征，然后哈希(Hashing)生成一系列比特向量(bit vector)，分子指纹有多种类型，多数使用2D分子图形信息，因此称为2D指纹，也有一些分子指纹能够存储3D分子信息，如药效团指纹。分子指纹包括基于子结构的指纹、基于拓扑或路径的指纹和圆形指纹中的至少一种。分子描述符是指分子的物理化学等属性的数字化表示，其包括物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型(如碳原子类型、氧原子类型)和键类型(如单键类型、双键类型等)描述符中的至少一种。通常由特定的算法和指定的程序将分子内部化学信息转换成以数字表示的形式。

3D-QSAR模型包括但不限于比较分子场分析(Comparative Molecular FieldAnalysis，CoMFA)、比较分子相似因子分析(Comparative Molecular Similarity IndicesAnalysis,CoMSIA)、Topomer CoMFA方法。

其中，CoMFA模型是将一组化合物按照共同结构对齐，利用小分子探针沿着三维空间中的格点计算与化合物原子之间的相互作用能，从而产生描述符。最终利用描述符和生物活性数据建立回归模型。CoMFA模型可以直接判断和提示哪些化学结构的改变有利于生物活性的提高。

CoMSIA是CoMFA的一种扩展，两者的原理基本相同。在CoMSIA中，由于采用了与距离相关的Gaussian函数形式计算各种分子场，有效避免了分子表面附近格点上势能的显著变化以及原子位置异常的情况；另外，在CoMSIA中，也不再需要定义能量的截断值(Cut-off)。CoMSIA与CoMFA相比，其不同分子场在相应空间的贡献的相关性等值面图得到明显改善，可以更为直观的解释不同分子场对分子活性的影响。

Topomer CoMFA方法由Topomer生成和CoMFA分析两部分组成，Topomer生成是通过一系列完全客观一致的叠合规则来处理化合物的构象，将所有化合物具有相同结构的部分叠合在一起，然后通过CoMFA方法产生化合物的立体场与静电场描述符。Topomer CoMFA方法就相当于一个拥有构象自动对齐功能的CoMFA方法，这意味着我们可以通过TopoMA高效，自动化的建立3D-QSAR模型，并且配合分子生成模型进行先导化合物的高通量筛选。

4D-QSAR是用于解决化合物靶标结合位点中的配体构象和取向，其采用遗传算法选择分子动力学产生的构象来产生最佳的构效关系模型。4D-QSAR中用每个格点对应的原子占有率来作为PLS的变量。在4D-QSAR方法中，充分考虑了药物分子的整个构象空间，而不是一个分子，而且考察了多种原子叠合方式，比传统的CoMFA方法有一定的进步。

基于药效团(Pharmacophore)的分子筛选方法是从功能的角度，通过分析受体和配体上可能发生相互作用的化学结构特征是否匹配，来衡量结合力的强弱。药效团是特征化的三维结构要素的组合。某个靶点的药效团模型，即是指能激活或抑制它的配体分子所应具有的药效团特征集合。建立一个靶点的药效团模型有两个主要应用。其一是为分子设计和挑选提供参考，在3D药效团的位置设计具有相应特征的分子片段。其二是虚拟筛选，获取分子库中和药效团模型匹配程度较高的分子。药效团的假设比较简化，决定了其筛选方法不涉及复杂的化学计算，具有一定速度优势，且可以从另一角度为基于能量的筛选方法扩充备选分子。此外，如果靶点的晶体结构未知或同源建模结果不可靠，使用基于配体的药效团模型做分子筛选是很好的替代方案。

需要的是，对于本发明的各模型(前文的分子库构建模型、第一预测模型，以及后文的第二预测模型)，已知每个活性分子样本的对应所需的矢量特征和实际活性值，本领域技术人员即可根据这些数据来训练对应的模型，根据实际值与模型预测值的差值或损失函数来循环迭代模型，直至损失函数最小或达到迭代次数，得到训练好的模型。同时，还可以计算出模型的各项评价指标。关于每种模型的结构和参数，本领域技术人员可以根据需要自行设定，本发明对此不作限制。

随后，在步骤S230中，分别将第一候选分子库中的各分子输入到第一预测模型，并从中选取输出活性值靠前的多个分子构成第二候选分子库。

根据另一个实施例，输出活性值靠前例如活性值排名前5％，当然不限于此。这里，对于第一候选分子库中的各分子，根据模型输出的活性值，选取活性值排名靠前的多个分子构成第二候选分子库。这种模型粗筛方式与传统的高通量虚拟筛选相比，在分子预测方面更具有高效性，百万量级的分子库一般半小时就能给出第二候选分子库的预测结果。

可选地，在步骤S230之后，方法200还可以包括步骤S240。在步骤S240中，分别将第二候选分子库中的各分子与目标靶点进行对接，并从中选取对接构象优异的多个第三候选分子。

分子对接是将活性分子与蛋白质口袋进行对接，对接后可产生多种构象，并自动选出最优构象计算其小分子和蛋白质的亲和力或结合活性，作为对接打分值。其中，在分子对接之前，还可以删除目标靶点的蛋白质晶体的水分子、离子、金属、配体和辅因子等元素，以更方便清楚的完成分子对接。分子对接可通过调用分子对接软件实现，也可以将该分子对接软件的执行逻辑模块化部署于计算设备中，这样只要页面中输出第二候选分子库，就可自动继续对该分子库中各分子进行对接打分，并选取对接构象优异的多个分子构成第三候选分子库。其中，对接构象优异可以是对接分值靠前，如对接分值排名前5％，当然不限于此。

本发明考虑蛋白结构信息，先采用基于受体的分子对接方法对粗筛得到的分子进行对接，然后对得到的小分子结合构象进行筛选。本发明以蛋白-小分子相互作用为限制条件，整合多种对接工具和多种基于机器学习的自主研发打分函数，根据不同的输入数据会自主判断和选择有不同的组合，用于第二候选分子的细筛阶段。

本发明设计了分子对接过滤工具，根据蛋白-小分子的相互作用，对小分子对接后的构象进行自动挑选，该工具减轻了挑选优良构象的人力成本，提高筛选流程的效率。在采用该工具进行分子对接过滤时，可参考的分子对接筛选标准包括但不限于：配体与参照分子母核的RMSD是否过大、配体与受体是否在指定的关键原子上形成氢键相互作用、在蛋白口袋中查看疏水氨基酸残基组成的疏水区内配体基团的进入情况等。

需要说明的是，本发明对各候选分子库的数量均不作限制，本领域技术人员可以根据需要自行选择，如第一候选分子库为百万量级，第二候选分子库为数万量级，第三候选分子库为数千量级。

随后，在步骤S250中，将该多个第三候选分子进行聚类，得到多个聚类，并从每个类中选取性能优异的多个分子构成第四候选分子库。

聚类的方法包括但不限于骨架聚类、基于分子指纹的聚类和基于形状的聚类。骨架聚类是一种对分子结构中的环信息进行聚类的方法，其可调用RDKit程序包，用MurckoScaffold方法将所选分子模糊化，只保留分子中的环和支链信息，最后将相同结构信息的分子作为一类，从而实现骨架聚类。基于分子指纹的聚类，是将分子的结构特征矢量化成用一系列比特向量的分子指纹形式，用层次聚类算法计算分子间距离的一种聚类方式。基于形状的聚类是提取分子的三维空间结构和药效团性质信息，将这些信息矢量化后，再用均值聚类算法进行聚类的一种方式。

对于每个类中，选取性能优异的多个分子构成第四候选分子库。其中，性能优异可以是第一预测模型的活性值靠前，或者对接分值靠前，或者其他物理化学性质排名靠前。本发明对每个类中的评价指标不作限制，只要能够基于某一性能指标选取排名靠前的多个分子即可。这些分子可能为数十个或数个，大大缩小了药物研究人员的搜索范围，且提高分子对目标靶点的成药性。这种聚类筛选方式还可保证后续挑选出的分子具有多样性和新颖性。

根据本发明的一个实施例，经过分子粗筛和细筛之后，还可进行分子精筛步骤，即在第四候选分子库的基础上实现再一步的分子筛选，得到第五和第六候选分子库。

分子精筛包括高精度计算和性质预测，首先可以计算第四候选分子库中的各分子与目标靶点的结合自由能，并从中选取结合自由能低的多个分子构成第五候选分子库。之后，将第五候选分子库中的各分子分别输入到第二预测模型中，并从中选取输出的活性值靠前的多个分子构成第六候选分子库。

高精度计算包括MM-PBSA、MM-GBSA和FEP精筛方式，前两种精筛方式采用了基于主方程的方法，假设结合自由能来自于不同能量项的贡献，而且这些能量项之间不存在交叉相互作用，分别计算这些能量项并相加就能得到总的结合自由能。第三种精筛方式FEP是计算自由能微扰，从原理上比较严格，计算精度更高，需长时间采样，对体系限制也较为严格。

性质预测是通过第二预测模型实现的，将高精度计算筛选到的分子输入到第二预测模型中，可得到对应的活性预测值。第二预测模型为类药性和/或成药性模型，如细胞体外吸收预测模型(Caco-2)和/或钾离子通道预测模型(hERG)。

然后将第五候选分子库的分子输入其中任一或多个模型，并根据各性质模型的阈值范围，剔除不符合条件的分子后，构成第六候选分子库。

对于第六候选分子库，可根据个人经验和先验知识对该分子库中的分子进行全方位的评估，包括小分子构象的合理性、分子结构的稳定性和可合成性等。此时，计算设备识别用户从第六候选分子库中选取的多个分子，构成第七候选分子库。通过上述自动化流程的各个模块和人工挑选，最后能得到数十个或数个候选分子，供后续实验验证。

根据本发明的一个实施例，方法200还可以输出各候选分子库的分子信息，重点可输出第四、第五、第六、第七候选分子库的分子信息，进一步地可只输出第六和第七候选分子库的分子信息。该分子信息可保存于一个或多个文件中，这类文件包括但不限于smiles文件、sdf文件、mol文件、mol2文件、csv文件等。文件中除包含小分子的结构数据和活性数据以外，还包括聚类情况、分子对接后的构象和对接打分值。这些文件便于后续人工根据分子与口袋的结合情况进行挑选活性分子，同时文件中的一些信息也能为人工挑选分子作参考。

此外，在进行方法200的步骤S230、S240和S250之前，都可以经过判定箱，判定是否需要进行对应的步骤S230、S240和S250。也就是，即判定是否进行第一预测模型预测，若是，则执行步骤S230。或者，判定是否需要进行分子对接，若是，则执行步骤S240。同理，判定是否需要进行分子骨架聚类，若是，则执行步骤S250。若各判定结果为否，则跳过该步骤来判定下一步骤。同理，在计算结合自由能和输入预测模型，也可以经过判定箱来判定是否需要执行高精度计算和预测模型输入。

判定箱中的判定逻辑可以基于分子数量来进行，例如第二候选分子库为数千量级，则可以跳过分子对接步骤而直接判定是否需要执行骨架聚类步骤。第一预测模型、分子对接、同类聚类、高精度计算和预测模型输入这些筛选操作，都有相对应的初始分子数量范围，如果候选分子的数量正好达到某筛选操作的处理范围，则可以直接跳过该操作之前的其他步骤，而直接执行对应操作。当然，判定箱也可以执行其他判定逻辑，本发明对此不作限制。另外，也可以通过人工来判定是否需要进行下一步筛选操作，此时计算设备接收用户发出的执行下一步筛选的指令，开始进行下一步筛选。

根据本发明的技术方案，以定向构建的分子库为起点，可快速、高效地筛选到具有较高成药性的生物活性分子。同时，本发明还提供了一个可以进行批量药物发现的研发平台，基于所要研究的目标靶点，流程可自动计算出对该目标靶点比较有效的活性分子，提高小分子化合物活性筛选的准确度，加速小分子药物研发流程。

A9、如A1-A8中任一项所述的方法，其中，将第一候选分子库中的各分子输入到所述第一预测模型中的步骤还包括：

对第一分子库进行子结构或相似度匹配、基于化学性质的过滤，并从中筛选出相关打分高的多个小分子生成矢量特征，输入到对应的第一预测模型中。

A10、如A1-A9中任一项所述的方法，其中，所述聚类包括基于骨架的聚类、基于分子指纹的聚类和基于形状的聚类中的至少一种。

这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如，这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种自动化的小分子药物筛选方法，适于在计算设备中执行，所述方法包括步骤：

采集针对目标靶点的多个分子的结构数据和活性数据，并根据该结构数据和活性数据，构建针对目标靶点的第一候选分子库；

生成每个结构数据所对应的矢量特征，并以该矢量特征为样本输入，以预测的活性值为样本输出，以对应的活性数据为样本标签，训练第一预测模型；

分别将第一候选分子库中的各分子输入到所述第一预测模型，并从中选取输出的预测的活性值靠前的多个分子构成第二候选分子库，并得到第二候选分子库中的第二分子数量；

使用判定箱对所述第二分子数量进行判断，若所述第二分子数量大于第二阈值，则执行分子对接方法，否则，执行聚类方法；

其中，所述分子对接方法包括：先采用基于受体的分子对接方法，对粗筛得到的第二候选分子库中的各分子分别与所述目标靶点进行对接，然后采用分子对接过滤工具，根据蛋白-小分子的相互作用，对得到的小分子对接构象进行自动挑选，并选取对接构象优异的多个分子构成第三候选分子库；对所述第三候选分子库中的多个分子进行聚类，并从每个类中选取性能优异的多个分子构成第四候选分子库；

所述聚类方法包括：对所述第二候选分子库中的多个分子进行聚类，并从每个类中选取性能优异的多个分子构成第四候选分子库。

2.如权利要求1所述的方法，还包括步骤：

分别计算所述第四候选分子库中的各分子与所述目标靶点的结合自由能，并从中选取结合自由能低的多个分子构成第五候选分子库。

3.如权利要求2所述的方法，还包括步骤：

分别将所述第五候选分子库中的各分子输入到第二预测模型中，并从中选取输出的预测的活性值靠前的多个分子构成第六候选分子库。

4.如权利要求3所述的方法，其中，

所述第一预测模型为构效关系模型和/或药效团模型；

所述第二预测模型为类药性和/或成药性预测模型；

所述第一候选分子库包括生成分子库、公共分子库和商业分子库中的至少一种。

5.如权利要求1-3中任一项所述的方法，其中，

所述结构数据和活性数据存储于smiles文件、sdf文件、mol文件、mol2文件、csv文件中的至少一种；

所述结构数据用化学语言标记表示，所述活性数据包括酶活性和/或细胞活性。

6.如权利要求1-3中任一项所述的方法，还包括步骤：

输出各候选分子库的分子信息，所述分子信息包括分子的结构数据、活性数据、对接构象、对接分值、聚类情况、结合自由能计算结果、类药性和成药性预测结果。

7.如权利要求1-3中任一项所述的方法，其中，将第一候选分子库中的各分子输入到所述第一预测模型中的步骤还包括：

8.如权利要求1-3中任一项所述的方法，其中，所述聚类包括基于骨架的聚类、基于分子指纹的聚类和基于形状的聚类中的至少一种。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。