CN112802561A

CN112802561A - 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法

Info

Publication number: CN112802561A
Application number: CN202110062505.0A
Authority: CN
Inventors: 刘宏生; 刘黎黎; 刘苗; 张力; 赵健
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-14

Abstract

一种基于机器学习和集成方法的化合物血脑屏障渗透性的预测方法，该方法包括第一步，特征提取，将待检测的化合物通过分子指纹生成软件生成指纹序列；第二步，通过低变异特征过滤和高度相关特征过滤进行特征选择；第三步，采用支持向量机(SVM)、随机森林(RF)以及极限梯度提升(XGBoost)分别构建三种基分类器模型；第四步，采用集成方法优化模型。本发明使用3种机器学习算法和多种分子指纹，开发了计算机集成学习模型来预测化合物血脑屏障渗透性。该模型对新分子具有较高的预测性能，可用于中枢神经系统药物的早期筛查。

Description

基于机器学习和集成方法的化合物血脑屏障渗透性预测方法

技术领域

本发明涉及计算机领域，是一种基于机器学习和集成方法的化合物血脑屏障渗透性 (BBB)的预测方法。

背景技术

中枢神经系统疾病严重威胁着人类的生命和健康，然而，仍然缺乏针对这一大类疾病的有效药物和治疗方法。血脑屏障是维持中枢神经系统稳态的严格渗透屏障，药物是否可以穿透大脑是药物设计中的关键考虑因素。用于中枢神经系统疾病的药物必须能够穿透血脑屏障。

传统实验方法需要复杂的实验条件和高昂的研究成本，且效率非常低。

发明内容

本发明的目的是提供一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，克服了上述现有技术之不足，其能有效提升预测模型的灵敏度等性能，在药物开发的初期，可以减少后期药物开发的风险，降低研发成本。本发明采用计算机辅助的BBB渗透率评估方法，结合具有集成学习的机器学习方法，可大大提升模型的预测性能，最大程度满足现代医学的需求，同时具有高通量低成本和高效率的优点。

为了实现上述目的，本发明创造采用了如下技术方案：

一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其步骤为：

第一步，计算化合物分子指纹。

第二步，化合物分子指纹的预处理：通过低变异特征过滤和高度相关特征过滤，对步骤一中的化合物分子指纹进行过滤；

(1)低变异特征过滤：通过计算“频率比”和“唯一值的百分比”来判断样本中哪些特征属于低变异特征，即所有样本中相似或几乎相同的特征，将其删除。

(2)高度相关特征过滤：删除与其它分子指纹的Tanimoto相关系数大于50％-95％的高度相关特征。如果特征的相关性高，则说明该特征涵盖了另一特征具有的信息，将相关性较高的特征同时引入模型，会导致预测结果较差，故将此类特征删除。

判断哪些特征为低变异特征，是通过计算“频率比”和“唯一值的百分比”进行的。频率比是指出现频率最高的值的频率与出现频率第二高的值的频率的比值，低变异特征的频率比特别高。唯一值的百分比是指特征中唯一值的个数与总样本数(乘以100)的比值，在本发明中，如果存在频率比大于95/5且唯一值的百分比小于10的特征，则判定该特征为低变异特征，将其删除。在进行高度相关的特征过滤时，用Tanimoto系数评估化合物是否具有一个或多个高度相关的特征。为了选择Tanimoto相关系数的最佳阈值，使用RF预测模型来评估不同Tanimoto相关系数阈值对分子指纹的高相关特征过滤的影响。

第三步，采用支持向量机、随机森林以及极限梯度提升算法，对过滤后的化合物分子指纹分别构建预测化合物血脑屏障渗透性的基分类器；

第四步，采用集成方法构建预测化合物血脑屏障渗透性的集成模型；

通过融合第三步得到的基分类器来构建集成模型，为Ensemble-Top1至Ensemble-TopN，N为基分类器个数；将上述的基分类器按照AUC值从大到小的顺序排列，Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成，以此类推，Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N 名的基分类器融合而成；最终，选择具有最高AUC值的模型作为最终的集成模型。

得到集成模型后，对集成模型进行内部交叉验证和外部验证集验证，评估模型性能。

本发明创造的有益效果：

本发明得到的最终模型在本研究中获得的准确度达到0.987，高于现有技术中报道的模型准确度，这表明所提出模型的性能非常好。此外，现有技术中使用的大多数模型都是使用单个算法或多种算法构建的分类器模型，而本发明使用了3种机器学习算法和多种分子指纹来训练各种基分类器，并且将具有最佳性能的基分类器用于集成建模，与基分类器模型相比，获得的最终集成模型的预测性能显着提高。此方法对计算机辅助药物分子设计和创新药物研发有着十分重要的作用。

附图说明

图1为发明的技术路线流程图。

图2为本发明的模型构建过程示意图。

具体实施方式

下面将结合本发明创造实施例中的附图，对本发明创造实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明创造一部分实施例，而不是全部的实施例。

实施例1：

如附图1和2所示，该基于机器学习和集成方法的化合物血脑屏障渗透性的预测方法, 包括以下步骤：

第一步，特征提取，将待检测的化合物通过分子指纹生成软件生成分子指纹序列；

本发明使用的训练集数据集最初由Adenot和Lahana编制，包括1283具有血脑屏障渗透性的化合物和310个不具有血脑屏障渗透性的化合物。使用的外部验证集数据来自于李等人。我们使用PaDEL-Descriptor2.21版来计算分子指纹，PaDEL-Descriptor以化合物分子的SMILES(Simplifiedmolecular-input line-entry system,简化分子线性输入规范)格式文件作为输入，判定分子指纹中每一位所代表的分子亚结构是否存在于化合物中，并将结果输出到一个CSV文件中。本发明共计算了EState，MACCS，PubChem，FP4，KR，AP2D，FP4C， KRC和APC2D共9种类型的分子指纹。

第二步，对分子指纹序列的特征进行预处理，包括以下过程：

(1)低变异特征过滤：删除所有样本中相似或几乎相同的特征。首先要通过计算“频率比”和“唯一值的百分比”来判断某特征是否属于低变异特征。频率比是指出现频率最高的值的频率与出现频率第二高的值的频率的比值，低变异特征的频率比将非常大。唯一值的百分比是指特征中唯一值的个数与总样本数的比值，在本发明中，如果某一特征的频率比大于 95/5且唯一值的百分比小于10，那么认为这一特征为低变异特征，将其删除。该特征预处理是通过使用R语言caret包中的nearZeroVar函数进行的。

(2)高度相关特征过滤：由于分子指纹是二进制变量，这里使用Tanimoto系数评估化合物是否具有高度相关的特征。Tanimoto相关系数是通过T_A,B＝c/(a+b-c)计算的，其中a代表A特征在样本中被标记为1的位数，b代表B特征在样本中被标记为1的位数，c代表 A特征和B特征同时为1的样本的位数。为了选择Tanimoto相关系数的最佳阈值，使用RF 预测模型来评估不同Tanimoto相关系数阈值对分子指纹的高相关特征过滤的影响。当 Tanimoto相关系数的阈值低(例如，＜0.5)时，每个性能指标的值相对较低。在Tanimoto 相关系数的阈值达到0.95之后，AUC和ACC值表明，使用每个分子指纹创建的RF模型的预测性能良好。但是，当Tanimoto相关阈值为1.0时，即不执行高相关特征过滤时，对于大多数模型，每个性能指标的值都会降低。因此，本研究中使用的后续模型是采用当Tanimoto 相关系数阈值为0.95时进行高相关特征过滤的分子指纹的模型；

第三步，采用支持向量机、随机森林以及极限梯度提升构建预测化合物血脑屏障渗透性的基分类器，并评估性能。包括以下过程：

(1)使用三种机器学习算法：支持向量机、随机森林以及极限梯度提升，分别在R(3.3.1版)中运行。其中支持向量机使用0.9-25版软件包，随机森林使用4.6–12版软件包，极限梯度提升使用0.4–4版软件包。这三种机器学习算法分别与9种分子指纹结合，构建相应的基分类器。因此，针对每种机器学习算法，共建立了9个基本分类器，最终产生了总共27个基本分类器。模型中涉及的所有参数均已进行了最佳调整。

(2)为了评估模型性能，进行了内部验证和外部验证。内部验证为100次重复的5折交叉验证，外部验证为验证集验证。本发明使用四个性能指标来评估模型的性能：AUC (ROC曲线下的面积)、ACC(准确性)、SPE(特异性)和SEN(敏感性)，具体公式如下：

ACC＝TP+TN/(TP+TN+FN+FP) (1)

SPE＝TN/(TN+FP) (2)

SPE＝TN/(TN+FP) (3)

其中TP(真阳性)表示正确预测的具有血脑屏障渗透性的化合物的数量，TN(真阴性)表示正确预测的不具有血脑屏障渗透性的化合物的数量，FP(假阳性)表示预测为具有血脑屏障渗透性的化合物的不具有血脑屏障渗透性的化合物的数量，FN(假阴性)表示预测为不具有血脑屏障渗透性的化合物预测为具有血脑屏障渗透性的化合物的数量。

第四步，采用集成方法构建化合物血脑屏障渗透性基集成模型，并评估性能，包括以下过程：

(1)通过融合第三步得到的基分类器来构建集成模型，共构建了27个集成模型，为Ensemble-Top1到Ensemble-Top27。将上述的基分类器按照AUC值从大到小的顺序排列，Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成。以此类推，Ensemble-Top3到Ensemble-Top27模型由AUC 值排列在前3-27名的基分类器融合而成。最终，选择具有最高AUC值的模型作为最终的集成模型。

(2)为了评估模型性能，进行了内部验证和外部验证。内部验证为100次重复的5折交叉验证，外部验证为验证集验证。本发明使用四个性能指标来评估模型的性能：AUC (ROC曲线下的面积)、ACC(准确度)、SPE(特异性)以及SEN(敏感性)，计算公式同第三步(2)所述。

(3)选择具有最高AUC值的模型作为最终的集成模型，最终集成模型(EnsembleTop-6)在五折交叉验证和外部验证集验证中的性能如表1所示。

表1：最终模型(Ensemble-top6)在五折交叉验证和外部验证集验证中的性能表

第五步，探索与血脑屏障通透性有关的亚结构

为了更好地了解与血脑屏障渗透性相关的化合物子结构的重要性，使用RF算法通过 Gini系数的平均下降来评估。使用六个关键结构指纹AP2D，EState，KR，MACCS， PubChem和FP4来分析结构特征的重要性。根据每个指纹的平均减少Gini值的前十个最大值选择了十个最重要的特征。有六个特征的平均下降基尼值明显高于其他特征，包括AP2D- 570，EState-34，KR-4295，MACCS-11，PubChem-20和FP4-17。这六个特征可以代表化合物分子的结构，而这种结构是预测化合物BBB渗透性的关键。此外，除了EState-34和 MACCS-11外，所有子结构都可能存在于BBB-中。但是，含有这些亚结构的BBB+和 BBB-样品的数量并没有很大差异，这表明有BBB渗透性的化合物的结构具有多样性。

Claims

1.一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，其步骤为：

第一步，计算化合物分子指纹；

第四步，采用集成方法使用第三步中的基分类器构建预测化合物血脑屏障渗透性的集成模型。

2.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，所述的第二步中，包括有：

(1)低变异特征过滤：通过计算“频率比”和“唯一值的百分比”来判断样本中的低变异特征，低变异特征即为所有样本中相似或几乎相同的特征，将其删除。

(2)高度相关特征过滤：删除与其它分子指纹的Tanimoto相关系数大于50％-95％的高度相关特征。

3.根据权利要求2所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，所述的(1)中，如果存在频率比大于95/5且唯一值的百分比小于10的特征，则判定该特征为低变异特征。

4.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，所述的第三步中，具体方法为：使用三种机器学习算法：支持向量机、随机森林以及极限梯度提升，分别与第二步最终的分子指纹结合，构建相应的基分类器。

5.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，所述的步骤4中，具体方法为：通过融合第三步得到的基分类器来构建集成模型，为Ensemble-Top1至Ensemble-TopN，N为基分类器个数；将上述的基分类器按照AUC值从大到小的顺序排列，Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成，以此类推，Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N名的基分类器融合而成；最终，选择具有最高AUC值的模型作为最终的集成模型。

6.根据权利要求5所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法，其特征在于，得到集成模型后，对集成模型进行内部交叉验证和外部验证集验证，评估模型性能。