CN114093436B

CN114093436B - 迭代式结合亲和力评估模型的构建方法和系统

Info

Publication number: CN114093436B
Application number: CN202111388260.7A
Authority: CN
Inventors: 孙伟杰
Original assignee: Beijing Shenshi Technology Co ltd
Current assignee: Beijing Shenshi Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-03-31
Anticipated expiration: 2041-11-22
Also published as: CN114093436A

Abstract

本发明公开了一种迭代式结合亲和力评估模型的构建方法和系统。该方法包括：步骤A：对大规模分子库进行数据聚类后抽样，得到特征分子库；步骤B：确定所述特征分子库在目标药用靶点上的结合亲和力指标；步骤C：以所述特征分子库为输入，所述结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型；步骤D：对所述大规模分子库中的每一个数据点进行如下操作：使用所述若干个预测模型进行结合亲和力预测得到若干个预测结果，根据所述若干个预测结果的统计信息计算重要性指标，根据所述重要性指标确定候选分子库；步骤E：将所述候选分子库替换步骤B中的特征分子库，重复步骤B至步骤D，直至满足预设迭代终止条件，输出优化模型。

Description

迭代式结合亲和力评估模型的构建方法和系统

技术领域

本发明涉及分子设计领域，特别地涉及一种迭代式结合亲和力评估模型的构建方法、系统、计算机设备和计算机存储介质。

背景技术

可药靶点(target)和结合配体(ligand)的结合亲和力(binding affinity)评估(evaluate)是早期药物发现中的至关重要的环节，结合亲和力强往往意味着配体会对可药靶点有良好的药用效果。

早期药物发现中结合亲和力的评估一般通过计算机模拟的方法进行，代表性方法有分子对接(docking)方法、隐式水模型自由能计算(MM-GBSA/MM-PBSA)方法、相对自由能微扰计算(rFEP，relative free energy perturbation)方法、绝对自由能计算(aFEP，absolute free energy perturbation)方法等。不同的方法由于计算速度和精度的不同，在不同的场景下使用。在通用的计算机规模下，分子对接方法在一天里面大约能评估万级别的配体，而绝对自由能计算一天只能评估一个分子。

然而，分子数据库的规模与日俱增，常见的数据库规模已经超过十亿。即使使用最为高效的分子对接方法，也很难在短时间内对如此大量的数据集开展结合亲和力评估。因此人们往往只能评估一小部分，这很容易让一些具有良好效果的分子被雪藏在数据库中。

发明内容

有鉴于此，本发明提出一种迭代式结合亲和力评估模型的构建方法、系统、计算机设备和计算机存储介质，具有更高效、更准确等优点。

本发明第一方面提出一种迭代式结合亲和力评估模型的构建方法，包括如下步骤：步骤A：对大规模分子库进行数据聚类后抽样，得到特征分子库；步骤B：确定所述特征分子库在目标药用靶点上的结合亲和力指标；步骤C：以所述特征分子库为输入，所述结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型；步骤D：对所述大规模分子库中的每一个数据点进行如下操作：使用所述若干个预测模型进行结合亲和力预测得到若干个预测结果，根据所述若干个预测结果的统计信息计算重要性指标，根据所述重要性指标确定候选分子库；步骤E：将所述候选分子库替换步骤B中的特征分子库，重复步骤B至步骤D，直至满足预设迭代终止条件，输出优化模型。

可选地，所述步骤A包括：步骤A1：对大规模分子库提取分子骨架信息，得到分子骨架库；步骤A2：根据分子骨架库计算分子骨架描述符，然后根据所述分子骨架描述符构造分子骨架向量；步骤A3：对所述分子骨架向量进行聚类，得到多个分子骨架子集；步骤A4：在各个所述分子骨架子集对应的分子库中，根据分子量对分子进行层次分类并进行层次采样，得到各个所述分子骨架子集对应的特征分子库。

可选地，所述步骤A2中，所述描述符包括如下中的一种或者多种的组合：分子指纹、分子印记、三维空间信息。

可选地，所述步骤B中：采用分子对接方法、隐式水模型自由能计算方法、绝对自由能微扰计算方法或者相对自由能微扰计算方法确定所述特征分子库在目标药用靶点上的结合亲和力指标。

可选地，所述步骤C中：若分子表示方式为分子药效团、MACCAS分子指纹或者分子性质，则所述机器学习工具为基于决策树的随机森林工具、Xgboost或者LightGBM；若分子表示方式为扩展连接系列分子的向量化表示，则所述机器学习工具为支持向量机或者多层感知机；若分子表示方式为分子拓扑图，则所述机器学习工具为图神经网络；若分子表示方式为分子三维坐标，则所述机器学习工具为3D卷积神经网络或者深度势能工具。

可选地，所述步骤E包括：步骤E1：计算不同的所述预测模型对同一个数据点的预测结果的均值μ和方差σ²；步骤E2：根据所述均值μ和方差σ²计算重要性指标y，计算公式为

其中T表示目标值，函数f表示均值μ和目标值T的相似程度；步骤E3：对所述重要性指标y排序，得到满足筛选条件的多个y值，然后将该多个y值所对应的数据点集合作为所述候选分子库。

可选地，所述步骤E1之后还包括：使用不同轮次产生的模型，对某一数据点的预测结果开展均值和方差的计算；以及使用不同轮次的模型参数以及模型表现，来进行超参数优化或模型架构搜索。

本发明第二方面提出一种迭代式结合亲和力评估模型的构建系统，包括：特征分子库获取模块，用于对大规模分子库进行数据聚类后抽样，得到特征分子库；结合亲和力指标获取模块，用于确定所述特征分子库在目标药用靶点上的结合亲和力指标；预测模型生成模块，用于以所述特征分子库为输入，所述结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型；候选分子库获取模块，用于对所述大规模分子库中的每一个数据点进行如下操作：使用所述若干个预测模型进行结合亲和力预测得到若干个预测结果，根据所述若干个预测结果的统计信息计算重要性指标，根据所述重要性指标确定候选分子库；迭代及输出模块，用于将所述候选分子库输入给结合亲和力指标获取模块的特征分子库以开启迭代过程，以及在满足预设迭代终止条件的情况下输出优化模型。

本发明第三方面提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，该处理器执行所述计算机程序时实现本发明的代式结合亲和力评估模型的构建方法。

本发明第四方面提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明的代式结合亲和力评估模型的构建方法。

本发明的技术方案至少具有如下优点：(1)采用了分子聚类和层次抽样得到“特征分子库”，保证初始数据的代表性和分布广泛，将极大提升模型的初次训练效果；(2)通过训练多个模型，来支持后续的重要性评估，并减缓过拟合等常见问题，提升模型性能；(3)通过重要性评估来促进模型的预测能力，降低对于训练数据的需求，同时提高结合亲和力评估的假阴性率和假阳性率。

附图说明

为了说明而非限制的目的，现在将根据本发明的优选实施例、特别是参考附图来描述本发明，其中：

图1是本发明实施方式的迭代式结合亲和力评估模型的构建方法的流程示意图；

图2是本发明实施方式的迭代式结合亲和力评估模型的构建系统的结构示意图。

具体实施方式

为了解决在可接受时间内在大规模数据集上开展结合亲和力评估的问题，本发明提出了一种迭代式结合亲和力评估模型的构建方法及系统，旨在结合传统自由能评估方法和人工智能建模方法，以期在仅使用一小部指标据开展自由能评估的的基础上，构建出能对大规模数据集具有鲁棒的预测能力的人工智能模型，来帮助药物化学家对完整数据库进行结合亲和力评估，来从中筛选出优秀的候选药物。

如图1所示，一种迭代式结合亲和力评估模型的构建方法，主要包括如下步骤A至步骤E。

步骤A：对大规模分子库进行数据聚类后抽样，得到特征分子库。步骤A可以具体包括如下的步骤A1至步骤A4。

步骤A1：对待评估的大规模分子库提取分子骨架信息，得到分子骨架库。具体地，去除所有分子部件(fragment)，只留下分子中的环结构和连接环之间的原子，也就是分子骨架(scaffold)，得到分子骨架库。

步骤A2：根据分子骨架库计算分子骨架描述符，然后根据分子骨架描述符构造分子骨架向量。具体地，计算分子骨架的描述符(descriptor)，例如扩展连接指纹(ECFP4)等分子指纹(fingerprints)、基于神经网络(neural network)的分子印记(embedding)或三维空间信息等，对分子骨架进行向量化。

步骤A3：对分子骨架向量进行聚类，得到多个分子骨架子集。具体地，通过K均值聚类算法(k-means)等聚类算法，将分子骨架进行聚类。在每个类别中，取出具有代表性的分子骨架子集。

步骤A4：在各个分子骨架子集对应的分子库中，根据分子量对分子进行层次分类并进行层次采样，得到各个分子骨架子集对应的特征分子库。具体地，在每一个分子骨架子集对应的分子库中，通过分子量对分子进行层次分类，并进行层次采样，得到对应分子骨架的小分子库。如是遍历步骤A2中的代表性分子骨架子集，得到该大规模分子数据库的代表性、分布广泛的分子子集。

优选地，对于分子骨架不丰富的库而言，可以跳过步骤A3。对于分子骨架过于丰富的库而言，可以跳过步骤A4。分子骨架是否丰富的判定标准一般依据提取出的分子骨架数目占原先数目的比例R，若该比例R大于5％，就会认为该库的分子骨架比较丰富。

步骤B：确定特征分子库在目标药用靶点上的结合亲和力指标。具体地，可以使用传统的结合亲和力评估工具，对“特征分子库”在目标药用靶点上进行结合亲和力评估，得到结合亲和力指标。不同的结合亲和力评估方法的使用场景不同，计算速度快、精度较低的使用场景可以采用分子对接方法、隐式水模型自由能计算方法；计算速度慢，精度较高的使用场景可以采用相对自由能微扰工具、绝对自由能微扰计算工具。

步骤C：以特征分子库为输入，结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型。换言之，使用“特征分子库”中的分子信息为输入，传统工具得到的结合亲和力指标为目标，使用机器学习工具训练若干个预测模型。具体细节如下。

(1)结合亲和力指标通常有两种使用方法：①使用实际数值作为预测目标；②通过某个阈值，将指标分为两类，进行类型预测。

(2)分子信息根据使用模型的不同有不同的表示方法，如下表所示。对于计算速度要求快的使用场景，一般采用表格中的前两种表示和模型。对于精度要求高的使用场景，一般采用表格中的后两种表示和模型。

(3)模型训练停止的标准有两种：①训练时间达到设定的最长训练时间；②模型表现不再提高。

步骤D：对大规模分子库中的每一个数据点进行如下操作：使用若干个预测模型进行结合亲和力预测得到若干个预测结果，根据若干个预测结果的统计信息计算重要性指标，根据重要性指标确定候选分子库。具体方法如下：

计算多个不同预测模型对于同一个数据点的预测结果的均值μ和方差σ²。方差大意味着不同的模型对于该数据点的估计不一致，需要添加该数据点的分子的真实评估值来加强模型等预测能力。而均值代表了不同模型对于该数据点的预测倾向，由于我们最终想要找到结合亲和力好的分子，所以均值越“靠近”我们的目标值T，它越值得被评估，我们把这个“靠近”的函数定义为f。所以我们得到每个点的重要性指标y：

对所有数据点对应的重要性指标y排序，得到满足筛选条件的多个y值。筛选条件可以根据需求灵活设置，有时候筛选数值较大者，有时候筛选数值较小者。然后将该多个y值所对应的数据点集合，得到下一批待开展结合亲和力评估的分子子集，称为“候选分子库”。

步骤E：将候选分子库替换步骤B中的特征分子库，重复步骤B至步骤D，直至满足预设迭代终止条件，输出优化模型。迭代终止条件可以是指：计算资源使用或时间达到预设的上限，或不同模型的评估效果趋近一致。满足迭代终止条件时，停止迭代过程并且输出最终的优化模型。

需要说明的是，在迭代过程中，步骤D中可以将不同次的模型评估结果一同开展均值和方差的计算，以此提高鲁棒性。另一方面，可以使用不同次的模型参数进行超参数优化(HPO)或模型架构搜索(NAS)，来不断提升模型性能。

具体地，关于“将不同次的模型评估结果一同开展均值和方差的计算”解释：如果一个轮次训练4个模型，那么能去算均值方差的就是4，但是如果把之前N个轮次的模型也加进来，就可以用4*(N+1)个模型去算均。关于“超参数优化或模型架构搜索”解释：用不同模型规模、参数设置下，会得到不同的预测效果。我们可以用模型规模和参数设置与预测结果的对应关系，通过上述两种方法，帮助预测能取得最好的预测效果的模型规模和超参数。由于这个过程输入越多越好，所以用上不同轮次的模型。

研究人员得到了上述步骤E最终输出的优化模型，可以用这个优化模型在未评估的数据上开展评估。由于模型推理速度要远快于其他评估方法，因而可以快速得到完整数据库上的评估结果。来帮助研究人员获得对完整数据库的认识，来挑选出评估结果优异的分子。

由上可知，本发明实施方式的迭代式结合亲和力评估模型的构建方法，第一方面，相比传统的结合亲和力评估方法：可以在比传统自由能评估方法更大规模的数据集上开展准确评估；通过重要性评估的富集效果，使结合亲和力评估的假阴性率和假阳性率大大降低。第二方面，相比传统的预测模型构建方法：通过迭代式的模型优化，降低了对数据量的需求，加速了模型收敛，节约了时间和计算成本；通过重要性评估，得到模型预测能力差的数据点，加速模型收敛；通过多个模型的联合评估，降低了过拟合等常见问题；通过先验知识开展聚类、抽样、重要性排序，加强了模型在结合亲和力评估这一特定问题上的表现。

如图2所示，本发明实施方式的迭代式结合亲和力评估模型的构建系统包括：特征分子库获取模块201、结合亲和力指标获取模块202、预测模型生成模块203、候选分子库获取模块204以及迭代及输出模块205。

该构建系统可以基于云计算技术来实现。这是由于待处理的数据量极大，因而在单个固定大小的计算机上去完成运算的时间成本极高，所以往往通过大规模的并行计算，也就是同时开启成百上千台机器进行运算并汇总。而基于机器的可及性考虑，推荐使用云计算资源来满足这种不定期的大量机器的需求。

特征分子库获取模块201用于对大规模分子库进行数据聚类后抽样，得到特征分子库。结合亲和力指标获取模块202用于确定特征分子库在目标药用靶点上的结合亲和力指标。预测模型生成模块203用于以特征分子库为输入，结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型。候选分子库获取模块204用于对大规模分子库中的每一个数据点进行如下操作：使用若干个预测模型进行结合亲和力预测得到若干个预测结果，根据若干个预测结果的统计信息计算重要性指标，根据重要性指标确定候选分子库。迭代及输出模块205用于将候选分子库输入给结合亲和力指标获取模块的特征分子库以开启迭代过程，以及在满足预设迭代终止条件的情况下输出优化模型。

综上所述，本发明实施方式的迭代式结合亲和力评估模型的构建方法和系统，至少具有如下优点：(1)采用了分子聚类和层次抽样得到“特征分子库”，保证初始数据的代表性和分布广泛，将极大提升模型的初次训练效果；(2)通过训练多个模型，来支持后续的重要性评估，并减缓过拟合等常见问题，同时开展HPO和NAS来多层次的提升模型性能；(3)通过重要性评估来促进模型的预测能力，降低对于训练数据的需求，同时提高结合亲和力评估的假阴性率和假阳性率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(ReadOnly Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种迭代式结合亲和力评估模型的构建方法，其特征在于，包括如下步骤：

步骤A：对大规模分子库进行数据聚类后抽样，得到特征分子库；

步骤B：确定所述特征分子库在目标药用靶点上的结合亲和力指标；

步骤C：以所述特征分子库为输入，所述结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型；

步骤D：对所述大规模分子库中的每一个数据点进行如下操作：使用所述若干个预测模型进行结合亲和力预测得到若干个预测结果，根据所述若干个预测结果的统计信息计算重要性指标，根据所述重要性指标确定候选分子库；

步骤E：将所述候选分子库替换步骤B中的特征分子库，重复步骤B至步骤D，直至满足预设迭代终止条件，输出优化模型，

其中，所述步骤E包括：

步骤E1：计算不同的所述预测模型对同一个数据点的预测结果的均值μ和方差σ²；

步骤E2：根据所述均值μ和方差σ²计算重要性指标y，计算公式为

其中T表示目标值，函数f表示均值μ和目标值T的相似程度；

步骤E3：对所述重要性指标y排序，得到满足筛选条件的多个y值，然后将该多个y值所对应的数据点集合作为所述候选分子库。

2.根据权利要求1所述的方法，其特征在于，所述步骤A包括：

步骤A1：对大规模分子库提取分子骨架信息，得到分子骨架库；

步骤A2：根据分子骨架库计算分子骨架描述符，然后根据所述分子骨架描述符构造分子骨架向量；

步骤A3：对所述分子骨架向量进行聚类，得到多个分子骨架子集；

步骤A4：在各个所述分子骨架子集对应的分子库中，根据分子量对分子进行层次分类并进行层次采样，得到各个所述分子骨架子集对应的特征分子库。

3.根据权利要求2所述的方法，所述步骤A2中，所述描述符包括如下中的一种或者多种的组合：分子指纹、分子印记、三维空间信息。

4.根据权利要求1所述的方法，其特征在于，所述步骤B中：采用分子对接方法、隐式水模型自由能计算方法、绝对自由能微扰计算方法或者相对自由能微扰计算方法确定所述特征分子库在目标药用靶点上的结合亲和力指标。

5.根据权利要求1所述的方法，其特征在于，所述步骤C中：

若分子表示方式为分子药效团、MACCAS分子指纹或者分子性质，则所述机器学习工具为基于决策树的随机森林工具、Xgboost或者LightGBM；

若分子表示方式为扩展连接系列分子的向量化表示，则所述机器学习工具为支持向量机或者多层感知机；

若分子表示方式为分子拓扑图，则所述机器学习工具为图神经网络；

若分子表示方式为分子三维坐标，则所述机器学习工具为3D卷积神经网络或者深度势能工具。

6.根据权利要求1所述的方法，其特征在于，所述步骤E1之后还包括：使用不同轮次产生的模型，对某一数据点的预测结果开展均值和方差的计算；以及使用不同轮次的模型参数以及模型表现，来进行超参数优化或模型架构搜索。

7.一种迭代式结合亲和力评估模型的构建系统，其特征在于，包括：

特征分子库获取模块，用于对大规模分子库进行数据聚类后抽样，得到特征分子库；

结合亲和力指标获取模块，用于确定所述特征分子库在目标药用靶点上的结合亲和力指标；

预测模型生成模块，用于以所述特征分子库为输入，所述结合亲和力指标为输出，使用机器学习工具训练以得到若干个预测模型；

候选分子库获取模块，用于对所述大规模分子库中的每一个数据点进行如下操作：使用所述若干个预测模型进行结合亲和力预测得到若干个预测结果，根据所述若干个预测结果的统计信息计算重要性指标，根据所述重要性指标确定候选分子库；

迭代及输出模块，用于将所述候选分子库输入给结合亲和力指标获取模块的特征分子库以开启迭代过程，以及在满足预设迭代终止条件的情况下输出优化模型，其中，所述迭代及输出模块还用于：

计算不同的所述预测模型对同一个数据点的预测结果的均值μ和方差σ²；

根据所述均值μ和方差σ²计算重要性指标y，计算公式为

其中T表示目标值，函数f表示均值μ和目标值T的相似程度；

对所述重要性指标y排序，得到满足筛选条件的多个y值，然后将该多个y值所对应的数据点集合作为所述候选分子库。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，该处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。