CN115240762B

CN115240762B - 多尺度小分子虚拟筛选方法及系统

Info

Publication number: CN115240762B
Application number: CN202210623659.7A
Authority: CN
Inventors: 于烨; 居斌; 李震
Original assignee: Hangzhou Shengao Information Technology Co ltd
Current assignee: Hangzhou Shengao Information Technology Co ltd
Priority date: 2021-07-23
Filing date: 2022-06-02
Publication date: 2023-07-18
Anticipated expiration: 2042-06-02
Also published as: CN115240762A

Abstract

本发明涉及一种多尺度小分子虚拟筛选方法及系统，所述方法包括以下步骤：基于RNN技术建立1维尺度信息的虚拟筛选模型；靶点结合口袋确认和分离；基于GCN技术建立2维尺度信息的虚拟筛选模型；基于分子指纹技术对筛选出来的小分子进行骨架相似性聚类；基于3维CNN技术建立3维尺度信息的虚拟筛选模型。本发明运行流畅，操作简单，使用方便，可以帮助药物化学专家等从事药物发现人员获得潜在的活性小分子化合物，加快新药研发。

Description

多尺度小分子虚拟筛选方法及系统

技术领域

本发明涉及人工智能技术辅助药物研发技术领域，更具体的，涉及一种基于深度学习算法应用于已知蛋白质三级结构及化合物小分子相互作用模式，实现多尺度AI苗头化合药虚拟筛选。

背景技术

传统新药研发具有以下特征，高投入：一个新药的平均研发成本约14亿美金，按照13％利率计算，弥补资本时间和机会成本，成本约25亿美元，在候选药物发现阶段，就要花费超过5亿美元，并且有逐年上升的趋势；高风险：先导化合物的优化阶段，成功率低于10％，20个候选药物，平均才有1个药物可以上市；总成功率极低<2％；周期长：平均时间13.5年，其中临床前的研究平均需要5.5年，新药上市后5-8年专利保护过期，仿制药的研发对新药造成较大的冲击。

传统小分子药物虚拟筛选方法包括基于配体的药物筛选和基于结构的docking筛选。基于配体的药物筛选方法，主要是基于二维拓扑相似度的筛选方法。主要缺点是算法需要知道已经知道的活性配体信息，并且筛选精度较低。基于结构的docking筛选方法是采用分子动力学(Molecular dynamics，以下简称MD)技术计算结合自由能。

结合自由能计算本质上是处理分子体系从一个热力学态到另一个热力学态发生的能量变化。目前docking算法中的结合自由能计算主要包括三类：

(1)自由能微扰法(Free Energy Perturbation，简称FEP)从第一性原理出发，几乎适合任意体系。但是它需要长时间的3D空间采样，且计算量过大，所以只能应用在简单的情况中。

(2)基于专家经验的打分函数，将结合自由能计算方程分解成蛋白质和配体小分子之间的交互作用(interaction)的多项式组合，优点是计算量小，缺点在于interaction是几何距离的线性模型，并且权重是通过小规模历史数据集获得的经验值，不具有任意靶点蛋白的普适性。

(3)基于力场的打分函数，主要考虑配体小分子构像带来的内部能量和对接复合物(以下简称complex)的范德华力以及静电场能量变化，不足之处与小分子构像空间巨大，能量估算偏差大。

这些问题表明，单纯使用蛋白质三级结构和小分子3D构像的尺度信息进行docking计算,第一受到小分子构像采样空间巨大的限制，第二有模型对蛋白质口袋位置预测有不准确的缺陷，第三计算量巨大，不适合海量小分子库的虚拟筛选。因此，本领域迫切需要高效、快速的多尺度筛选方法，以满足药物虚拟筛选的需要。

发明内容

随着卷积神经网络(Convolutional Neural Network，以下简称CNN)算法在图像识别、循环神经网络(Recurrent neural network，以下简称RNN)在自然语言处理(以下简称NLP)领域的飞速发展，以及近期出现的图卷积神经网络(Graph Convolutional NeuralNetwork，以下简称GCN)在分子物理化学属性预测的兴起，已经有非常多的算法体现在target-compound之间的虚拟筛选案例中。但是，这些算法因为训练数据集有片面性，导致单一进行虚拟筛选会产生比较高的假阳性。本发明提供一种基于RNN、GCN、3D CNN多种算法级联一起的多尺度虚拟筛选方法，为药物虚拟筛选小分子化合物提供了一种快速、高效、阳性率更高的筛选模式。

为了解决上述技术问题，本发明提供的多尺度小分子虚拟筛选方法及系统的技术方案具体如下：

第一个方面，本发明实施例公开了多尺度小分子虚拟筛选方法，所述方法包括以下步骤：

步骤1：基于RNN技术建立1维尺度信息的虚拟筛选模型；

步骤2：靶点结合口袋确认和分离；

步骤3：基于GCN技术建立2维尺度信息的虚拟筛选模型；

步骤4：基于分子指纹技术对筛选出来的小分子进行骨架相似性聚类；

步骤5：基于3维CNN技术建立3维尺度信息的虚拟筛选模型。

在上述任一方案中优选的是，所述步骤1中的虚拟筛选模型的建立方法包括以下步骤：

根据研发要求，查找针对重要疾病特定靶标生物大分子的三维解析PDB文件；

用Biopython开源软件包从PDB文件中解析一级结构的FASTA序列，再用NLP中的BERT模型建立蛋白质序列预训练模型，以发现一级FASTA序列背后的神经网络表征；

用RDKit开源软件包处理虚拟分子库的小分子smiles序列，过滤不合法的原子字符；

用NLP中的Transformer神经网络建立target-ligand相互作用的深度学习模型；

通过模型进行亲和力预测和binding site预测的虚拟筛选。

在上述任一方案中优选的是，所述步骤2中的靶点结合口袋确认和分离包括以下步骤：

若PDB文件是complex，则知道蛋白质和配体结合的口袋区域，若不知道口袋区域，通过在pymol软件观察步binding site集合与PDB文件三级结构的位置重合区域，选择最有可能成为口袋的n个binding site区域；

通过3D球形空间最邻近氨基酸搜索算法，分离出蛋白质和小分子结合的n个口袋。

在上述任一方案中优选的是，所述binding site区域的中的n＝5。

在上述任一方案中优选的是，所述3D球形空间最邻近氨基酸搜索算法包括以下步骤：

选取落在binding site集合中3个不同氨基酸位点；

通过这3个位点确定球心坐标和球半径R，以R确定球形边界，得到包含所有口袋空腔的氨基酸主链的球形边界。

在上述任一方案中优选的是，所述步骤3中的基于GCN技术建立2维尺度信息的虚拟筛选模型包括以下步骤：

对步骤2得到的蛋白质口袋区域，构建对应的蛋白质氨基酸邻接图结构，对小分子采用RDKit程序构建二维分子图结构，两种图结构输入消息传播神经网络，外加一层线性回归预测亲和力值。

在上述任一方案中优选的是，所述步骤4中的筛选出来的小分子进行骨架相似性聚类包括以下步骤：

选出从步骤3得到的亲和力排序前3000个分子，基于Fingerprint计算这些分子骨架的两两相似性，选出骨架相似性最多的5n个类别，每个类别包含至少3个分子。

在上述任一方案中优选的是，所述步骤5中的建立3维尺度信息的虚拟筛选模型包括以下步骤：

对步骤二分离的蛋白质口袋和步骤四筛选出5n个类别的小分子化合物，通过Autodock Vina开源软件对pocket和小分子进行对接，获取小分子和口袋complex模拟数据，然后用网格技术将complex切分成若干个体素，以构建基于3D CNN神经网络的打分函数，替换Autodock Vina的线性打分函数。

在上述任一方案中优选的是，所述步骤5中的建立3维尺度信息的虚拟筛选模型还包括以下步骤：

排序3D CNN神经网络计算的protein-ligand亲和力值，获得排序前Top30个小分子。

在上述任一方案中优选的是，所述3个位点的Ca原子在X、Y、Z轴上有最大数值

第二个方面，一种多尺度小分子虚拟筛选系统，包括：

第一建立模块，用于根据RNN技术建立1维尺度信息的虚拟筛选模型；

确认模块，用于将靶点结合口袋确认和分离；

第二建立模块，用于根据GCN技术建立2维尺度信息的虚拟筛选模型；

聚类模块，用于根据分子指纹技术对筛选出来的小分子进行骨架相似性聚类；

第三建立模块，用于根据3维CNN技术建立3维尺度信息的虚拟筛选模型。

本发明与现有技术相比，具有如下有益效果：

(1)在价值10万元左右的服务器上使用该方法筛选小分子的速度能达到200万个/天，比分子动力学方法快一个数量级。

(2)本方法通过1D model、2D model过滤假阳性，通过3D model阐明小分子和蛋白质口袋相互作用机理，三者结合比单个AI模型更能保证准确性。

(3)本方法能够应用于有靶蛋白3D结构但口袋位置不确定，或者仅有靶蛋白氨基酸序列的情况，相比之下，处理数据类型更加多样。

附图说明

附图用于对本发明的进一步理解，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是按照本发明多尺度小分子虚拟筛选方法示意图。

图2是按照本发明多尺度小分子虚拟筛选方法的技术方案路线图。

图3是按照本发明多尺度小分子虚拟筛选方法的命中的药物分子示意图。

图4是按照本发明多尺度小分子虚拟筛选方法的“达芦那韦”与3CLpro靶点结合示意图。

图5是按照本发明多尺度小分子虚拟筛选方法的药物在细胞水平上的抑制病毒活性检测结果示意图。

图6为一种多尺度小分子虚拟筛选系统的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解上述技术方案，下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。

本发明公布基于多种深度学习算法级联的多尺度小分子药物虚拟筛选方法，适合苗头化合物快速发现。深度学习是一种以人工神经网络为基础，对数据进行表征学习的算法。本发明从蛋白质序列(FASTA，文件格式)和小分子序列(Simplified molecular inputline entry specification，以下简称smiles)、蛋白质氨基酸图结构和小分子图结构、蛋白质3D结构和小分子3D结构等三种数据尺度进行深度学习算法级联。实验表明，本发明是一种高效且阳性率较高的算法集成。

一种基于深度学习算法级联的多尺度小分子虚拟筛选方法，要求输入ProteinData Bank文件(以下简称PDB文件)和小分子的smiles文库，在1D、2D、3D数据和模型层面组合建立多尺度AI药物虚拟筛选系统，其特征在于所述方法包括以下步骤(详见图1)：

1)基于蛋白质一级结构序列和小分子smiles序列，采用深度学习的Transformer神经网络，预测一级结构序列和小分子smiles序列相互作用的binding site，以及构建小分子是否与蛋白质产生活性(该神经网络简称1D model)的二分类模型。

2)基于1D model预测的蛋白质binding site，构建对应的蛋白质氨基酸邻接图结构；同时，对小分子采用RDKit程序构建图结构。两种图结构输入图神经卷积网络，预测亲和力值(该神经网络简称2Dmodel)。

3)基于1D model构建的蛋白质binding site，通过3D球形空间搜索算法，构建蛋白质和小分子结合的口袋区域(以下简称口袋)。然后，用2D model筛选并排序出来的前1000个小分子进行骨架聚类(聚10类)，每类从中得到100个类别的小分子，最后这1000个小分子进行3D空间的分子对接(以下简称docking)并预测亲和力值。

上述方法因为采用1D model和2D model对蛋白质和小分子之间的相互作用进行建模和活性预测，避免了对海量小分子和蛋白质直接进行3D空间的构像采样，因此速度比传统计算机辅助药物设计方法(以下简称CADD)要高效。多尺度AI虚拟筛选系统能够对结构多样的海量虚拟分子库(超一亿个分子条目)，实现在线自动和虚拟筛选；系统运行流畅，操作简单，使用方便，可以帮助药物化学专家等从事药物发现人员获得潜在的活性小分子化合物，加快新药研发。

第一方面，本发明采用的技术方案包括以下步骤(具体过程详见图2)：

步骤1：基于RNN技术建立1维尺度信息的虚拟筛选模型(1Dmodel)；

步骤2：靶点结合口袋确认和分离；

步骤3：基于GCN技术建立2维尺度信息的虚拟筛选模型(2Dmodel)；

步骤4：基于分子指纹(以下简称Fingerprint)技术对步骤二筛选出来的小分子进行骨架相似性聚类；

步骤5：基于3维CNN技术建立3维尺度信息的虚拟筛选模型(3Dmodel)。

进一步的，步骤1)具体操作是：

根据研发要求，从http://www.rcsb.org/查找针对重要疾病特定靶标生物大分子的三维解析PDB文件；然后用Biopython开源软件包从PDB文件中解析一级结构的FASTA序列，再用NLP中的BERT模型建立蛋白质序列预训练模型，以发现一级FASTA序列背后的神经网络表征。用RDKit开源软件包处理虚拟分子库的小分子smiles序列，过滤不合法的原子字符。用NLP中的Transformer神经网络建立target-ligand相互作用的深度学习模型。通过模型进行亲和力预测和binding site预测的虚拟筛选。

进一步的，步骤2)具体操作是：如果PDB文件是complex，则知道蛋白质和配体结合的口袋(pocket)区域。如果不知道口袋区域，通过在pymol软件观察步骤1预测的bindingsite集合与PDB文件三级结构的位置重合区域，选择最有可能成为口袋的n个binding site区域(一般n＝5)，再通过自主研发的3D球形空间最邻近氨基酸搜索算法(具体的，选取落在binding site集合中3个不同氨基酸位点，要求这3个位点的Ca原子在XYZ轴上有最大数值，再通过这3个位点确定球心坐标和球半径R，以R确定球形边界。由此得到的球形边界一定包含所有口袋空腔的氨基酸主链)，分离出蛋白质和小分子结合的n个口袋。

进一步的，步骤3)具体操作是：GCN技术能够建立2维尺度信息的虚拟筛选模型(2Dmodel)，即针对步骤2得到的蛋白质口袋区域，构建对应的蛋白质氨基酸邻接图结构；同时，对小分子采用RDKit程序构建二维分子图结构。两种图结构输入消息传播神经网络(Message propagation neural network，简称MPNN)，外加一层线性回归预测亲和力值。

进一步的，步骤4)具体操作是：选出从步骤3得到的亲和力排序前3000个分子，基于Fingerprint计算这些分子骨架的两两相似性，然后选出骨架相似性最多的5n个类别，每个类别包含至少3个分子。

进一步的，步骤5)具体操作是：3维CNN技术能够建立3维尺度信息的虚拟筛选模型(3D model)，即针对步骤二分离的蛋白质口袋和步骤四筛选出5n个类别的小分子化合物，通过Autodock Vina开源软件对pocket和小分子进行对接，获取小分子和口袋complex模拟数据，然后用网格(以下简称grid)技术将complex切分成若干个体素(以下简称voxel)，由此构建基于3D CNN神经网络的打分函数，替换Autodock Vina的线性打分函数。排序3D CNN神经网络计算的protein-ligand亲和力值，获得排序前Top30个小分子。

第二个方面，请参阅图6，一种多尺度小分子虚拟筛选系统，包括：

确认模块，用于将靶点结合口袋确认和分离；

实施例1：

一种针对新型冠状病毒药物虚拟筛选的多尺度AI虚拟筛选方法，虚拟筛选步骤如下：

1)首先，用Transformer神经网络建立target-ligand相互作用的深度学习1Dmodel。然后从PDB蛋白质结构数据库(ProteinDataBank，简称PDB)获取SARA-COV-2的三维结构文件，3CLpro靶点作为分子作用的蛋白靶点，用BERT模型建立蛋白质序列预训练模型，发现3CL^pro序列背后的神经网络表征，用RDKit处理Drugbank的小分子smiles序列。

2)选取Drugbank作为筛选库，将上述分子库里的药物通过1Dmodel进行bindingsite预测和亲和力预测；

3)针对模型预测的binding site区域，构建蛋白质口袋的氨基酸邻接图结构；同时，对小分子采用RDKit程序构建二维分子图结构。将两种图结构输入MPNN网络获取图结构的节点表征，然后输入线性回归层网络，由此获得2D model的亲和力预测值；

4)选出亲和力排序前5000个分子，基于Fingerprint计算分子骨架的相似性，然后选出10个类别，每个类别包含50个分子，共500个分子；

5)针对筛选出的500个小分子化合物，通过Autodock Vina进行pocket和小分子对接，获取小分子和口袋complex数据。然后用grid技术将complex切分成若干个voxel，构建基于3D CNN神经网络的打分函数。根据3D CNN神经网络计算的protein-ligand亲和力值进行排序，亲和力值越高说明小分子与3CLpro蛋白结合越好，通过分子对接获得排序靠前的Top100分子；

6)针对分子对接的Top100分子，如果是新化合物，需要再通过QED、RMSD、LogP、药化专家评估等进行人工评价筛选，最终确定Top30个老药作为苗头化合物分子。本次案例因为是老药筛选，因此不需要人工评价。本次筛选只选取了5种老药作为结果，分别为阿比多尔、达芦那韦、替拉那韦、巴洛沙韦和中药源化学药物“汉防己甲素片”(图3)；

7)对虚拟筛选命中的“达芦那韦”进行分子对接，结果可以清楚看到“达芦那韦”对2019-nCov病毒靶点3CLpro有比较好的结合作用(图4)；对命中的5个老药分子，在P3实验室采用荧光定量PCR技术进行体外细胞活性测定，结果如图5所示；实验结果表明通过多尺度AI虚拟筛选技术，从Drugbank中筛选出的5个老药，阿比朵尔、达芦那韦等4种药物有明显抑制病毒药效；

8)综上所述，本发明提供了基于多种深度学习算法集成的多尺度AI药物虚拟筛选方法，本方法通过1D model、2D model过滤假阳性，通过3D model阐明小分子和蛋白质口袋相互作用机理，三者结合更能保证从大量的化合物中快速、高效的筛选出所需的药物分子。

本发明与现有技术相比的有益效果：

(1)提供一种基于多种深度学习算法集成的多尺度AI药物虚拟筛选方法，在价值10万元左右的服务器上使用该方法筛选小分子的速度能达到200万个/天，比分子动力学方法快一个数量级。

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多尺度小分子虚拟筛选方法，其特征在于：所述方法包括以下步骤：

步骤1：基于RNN技术建立1维尺度信息的虚拟筛选模型，具体包括：根据研发要求，查找针对疾病特定靶标生物大分子的三维解析PDB文件；用Biopython开源软件包从PDB文件中解析一级结构的FASTA序列，再用NLP中的BERT模型建立蛋白质序列预训练模型，以发现一级FASTA序列背后的神经网络表征；用RDKit开源软件包处理虚拟分子库的小分子smiles序列，过滤不合法的原子字符；用NLP中的Transformer神经网络建立target-ligand相互作用的深度学习模型；通过模型进行亲和力预测和binding site预测的虚拟筛选；

步骤2：靶点结合口袋确认和分离；

步骤3：基于GCN技术建立2维尺度信息的虚拟筛选模型，具体包括：对步骤2得到的蛋白质口袋区域，构建对应的蛋白质氨基酸邻接图结构，对小分子采用RDKit程序构建二维分子图结构，蛋白质氨基酸邻接图结构和二维分子图结构输入消息传播神经网络，外加一层线性回归预测亲和力值；

步骤4：基于分子指纹技术对筛选出来的小分子进行骨架相似性聚类；步骤5：基于3维CNN技术建立3维尺度信息的虚拟筛选模型，具体包括：对步骤2分离的蛋白质口袋和步骤四筛选出5n个类别的小分子化合物，通过AutodockVina开源软件对pocket和小分子进行对接，获取小分子和口袋complex模拟数据，然后用网格技术将complex切分成若干个体素，以构建基于3D CNN神经网络的打分函数，替换Autodock Vina的线性打分函数。

2.根据权利要求1所述的多尺度小分子虚拟筛选方法，其特征在于：所述步骤2中的靶点结合口袋确认和分离包括以下步骤：若PDB文件是complex，则知道蛋白质和配体结合的口袋区域，若不知道口袋区域，通过在pymol软件观察步binding site集合与PDB文件三级结构的位置重合区域，选择最有可能成为口袋的n个binding site区域；通过3D球形空间最邻近氨基酸搜索算法，分离出蛋白质和小分子结合的n个口袋。

3.根据权利要求2所述的多尺度小分子虚拟筛选方法，其特征在于：所述binding site区域的中的n＝5。

4.根据权利要求3所述的多尺度小分子虚拟筛选方法，其特征在于：所述3D球形空间最邻近氨基酸搜索算法包括以下步骤：选取落在binding site集合中3个不同氨基酸位点；通过这3个位点确定球心坐标和球半径R，以R确定球形边界，得到包含所有口袋空腔的氨基酸主链的球形边界。

5.根据权利要求4所述的多尺度小分子虚拟筛选方法，其特征在于：所述步骤4中的筛选出来的小分子进行骨架相似性聚类包括以下步骤：选出从步骤3得到的亲和力排序前3000个分子，基于Fingerprint计算这些分子骨架的两两相似性，选出骨架相似性最多的5n个类别，每个类别包含至少3个分子。

6.根据权利要求5所述的多尺度小分子虚拟筛选方法，其特征在于：所述步骤5中的建立3维尺度信息的虚拟筛选模型还包括以下步骤：排序3D CNN神经网络计算的protein-ligand亲和力值，获得排序前Top30个小分子。

7.一种多尺度小分子虚拟筛选系统，其特征在于：包括：

第一建立模块，用于根据RNN技术建立1维尺度信息的虚拟筛选模型，具体包括：根据研发要求，查找针对疾病特定靶标生物大分子的三维解析PDB文件；用Biopython开源软件包从PDB文件中解析一级结构的FASTA序列，再用NLP中的BERT模型建立蛋白质序列预训练模型，以发现一级FASTA序列背后的神经网络表征；用RDKit开源软件包处理虚拟分子库的小分子smiles序列，过滤不合法的原子字符；用NLP中的Transformer神经网络建立target-ligand相互作用的深度学习模型；通过模型进行亲和力预测和binding site预测的虚拟筛选；确认模块，用于将靶点结合口袋确认和分离；

第二建立模块，用于根据GCN技术建立2维尺度信息的虚拟筛选模型，具体包括：对步骤2得到的蛋白质口袋区域，构建对应的蛋白质氨基酸邻接图结构，对小分子采用RDKit程序构建二维分子图结构，蛋白质氨基酸邻接图结构和二维分子图结构输入消息传播神经网络，外加一层线性回归预测亲和力值；

第三建立模块，用于根据3维CNN技术建立3维尺度信息的虚拟筛选模型，具体包括：对步骤2分离的蛋白质口袋和步骤四筛选出5n个类别的小分子化合物，通过AutodockVina开源软件对pocket和小分子进行对接，获取小分子和口袋complex模拟数据，然后用网格技术将complex切分成若干个体素，以构建基于3D CNN神经网络的打分函数，替换AutodockVina的线性打分函数。