CN112102889A

CN112102889A - 基于机器学习的自由能微扰网络设计方法

Info

Publication number: CN112102889A
Application number: CN202011097352.5A
Authority: CN
Inventors: 李治鹏; 温书豪; 杨明俊; 林志雄; 邹俊杰; 马健; 赖力鹏
Original assignee: Shenzhen Jingtai Technology Co Ltd
Current assignee: Shenzhen Jingtai Technology Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-12-18

Abstract

本发明公开了基于机器学习的自由能微扰网络设计方法，包括以下步骤：S1、准备计算所需的小分子数据集；S2、准备小分子/蛋白质输入文件；S3、利用FEP计算不同小分子对之间的△△G及std；S4、提取小分子的特征描述符；S5、准备机器学习模型所需的训练集和测试集；S6、构建机器学习模型；S7、训练机器学习模型；S8、测试集统计误差。本发明能够处理大量小分子结合自由能需要计算预测的场景，能够快速的设计出需要的微扰网络；得到的结果与std的相关性更高，进而能够有效的提高计算精度。并且随着计算的分子数量的增加，能够收集到更多的数据用于模型的训练，提高模型的泛化能力和精度。

Description

基于机器学习的自由能微扰网络设计方法

技术领域

本发明属于分子动力学模拟技术领域，具体涉及一种基于机器学习的自由能微扰网络设计方法。

背景技术

小分子药物与靶点蛋白的结合自由能（△G），对于小分子药物的设计有着十分重要的指导作用。自由能微扰方法（free energy perturbation, FEP）作为一种基于分子动力学（molecular dynamics, MD）的计算方法，能够对于结合自由能进行预测。当预测任务涉及多个小分子时，自由能微扰网络的设计十分必要，能够有效的提高预测的精度。设计的自由能微扰网络图中，每个节点代表小分子，而每条边代表两个小分子之间结合自由能的差值（△△G）。在网络的设计过程中，核心问题是判断两个小分子是否应该连接，使得这条边计算得到的△△G不确定性（std）最小。现有设计方法大多按照下述原则进行判断，以确定两个小分子是否应该连接：

（1）基于经验的人工判断；

（2）基于谷本相似系数（Tanimoto similarity score）判断。

现有方法主要存在以下问题

1、基于经验的人工判断：需要计算的小分子数目为n时，所有能够连接的边总数，即可以进行FEP计算的分子对总数为n(n-1)/2。随着小分子数目的增加，需要进行判断的边数会迅速增加。这种情况下几乎不可能通过人工的方法进行识别判断。

2、基于Tanimoto similarity score判断：使用这一指标时，通常尽量将相似的小分子（Tanimoto similarity score越接近1，两个小分子越相似）进行连接。相似系数是基于分子指纹进行计算，考虑的小分子的特征十分有限。同时，按照这种方法判断得到的相似的分子，并不能保证计算得到的△△G不确定性小。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于机器学习的自由能微扰网络设计方法，利用大量△△G的计算结果，使用机器学习的方法训练模型，更加快捷的设计自由能微扰网络，提高计算精度。

为实现上述目的，本发明提供如下技术方案：

基于机器学习的自由能微扰网络设计方法，包括以下步骤：

S1、准备计算所需的小分子数据集；

S2、准备小分子/蛋白质输入文件；

S3、利用FEP计算不同小分子对之间的△△G及std；

S4、提取小分子的特征描述符；

S5、准备训练集和测试集；

S6、构建机器学习模型；

S7、训练机器学习模型；

S8、测试集统计误差。

具体包括以下步骤：

S1、准备计算所需的小分子数据集：准备数据集时保证体系的多样性，以免出现模型对于部分体系的过拟合；

S2、准备小分子/蛋白质输入文件：根据FEP计算的需求，生成用于FEP计算的初始文件；

S3、利用FEP计算不同小分子对之间的△△G及std：设计小分子之间必须的分子对，利用FEP计算多次△△G结果，进而得到对应的std值；

S4、提取小分子的特征描述符：提取小分子的二维结构特征描述符；

S5、准备训练集和测试集：收集FEP计算得到的分子对的std结果及对应小分子的二维特征描述符，并将收集到的数据按照一定比例划分为训练集和测试集；

S6、构建机器学习模型：将得到的小分子的二维描述符作为输入，分子对的std结果作为输出构建机器学习模型；

S7、训练机器学习模型：选取适当的参数对于模型进行训练，根据不同类型的机器学习模型设置不同的参数；

S8、测试集统计误差：训练完成后在测试集上统计误差，根据统计的误差对于模型参数进行优化，得到最佳的模型。

其中，步骤S4中，所述的小分子的二维结构特征描述符，包括分子质量、拓扑连接信息、柔性二面角数量。

与现有技术相比，本发明的有益效果是：

1、自动化设计微扰网络

相对于人工设计微扰网络的方法，本方法能够处理大量小分子结合自由能需要计算预测的场景，能够快速的设计出需要的微扰网络；

2、提高自由能微扰的计算精度

相对于基于 Tanimoto similarity score的方法，本方法得到的结果与std的相关性更高，进而能够有效的提高计算精度。

3、易于拓展

当计算过程确定之后，随着计算的分子数量逐渐增加。能够收集到更多的数据用于模型的训练，提高模型的泛化能力和精度。

附图说明

图1为本发明的流程图；

图2为实施例Tanimoto similarity score和std的相关性分析结果；

图3为实施例RFscore与std的相关性分析结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

按照图1所示的流程图，本实施例选取8个激酶体系共200个小分子，设计300个分子对，计算5次△△G的std作为模型的输出。

比较Tanimoto similarity score和std的相关性，如图2所示，可见，两者的相关性很弱，肯德尔相关系数（Kendall rank correlation coefficient）为-0.113。显然，通过这一标准构建的微扰网络将引进比较大的不确定性。

在本实施例中，提取各小分子的二维特征值，每个小分子有77个特征值。并通过按照7：3的比例划分训练集和测试集。选择随机森林作为本实例的机器学习模型。同时，对于最大特征数、决策树最大深度、内部节点在划分所需最小样本数、叶节点最小样本数等多个模型参数的不同组合，得到最佳的随机森林模型。利用该模型在训练集上得到误差为0.14，在测试集上得到的误差为0.31.同时，利用现有模型得到的RF score与前述Tanimotosimilarity score进行同样的相关性结果分析，如图3所示。得到的肯德尔相关系数为0.41。

由此可见，该方法得到的结果能够对于大量小分子进行自由能微扰网络设计，同时相对于Tanimoto similarity score方法能够提高精度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于机器学习的自由能微扰网络设计方法，其特征在于，包括以下步骤：

S1、准备计算所需的小分子数据集；

S2、准备小分子/蛋白质输入文件；

S3、利用FEP计算不同小分子对之间的△△G及std；

S4、提取小分子的特征描述符；

S5、准备机器学习模型所需的训练集和测试集；S6、构建机器学习模型；

S7、训练机器学习模型；

S8、测试集统计误差。

2.根据权利要求1所述的基于机器学习的自由能微扰网络设计方法，其特征在于，具体包括以下步骤：

S5、准备机器学习模型所需的训练集和测试集：收集FEP计算得到的分子对的std结果及对应小分子的二维特征描述符，并将收集到的数据按照一定比例划分为训练集和测试集；

3.根据权利要求2所述的基于机器学习的自由能微扰网络设计方法，其特征在于，步骤S4中，所述的小分子的二维结构特征描述符，包括分子质量、拓扑连接信息、柔性二面角数量。