CN112802561A - 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 - Google Patents
基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 Download PDFInfo
- Publication number
- CN112802561A CN112802561A CN202110062505.0A CN202110062505A CN112802561A CN 112802561 A CN112802561 A CN 112802561A CN 202110062505 A CN202110062505 A CN 202110062505A CN 112802561 A CN112802561 A CN 112802561A
- Authority
- CN
- China
- Prior art keywords
- compound
- model
- brain barrier
- blood brain
- permeability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种基于机器学习和集成方法的化合物血脑屏障渗透性的预测方法,该方法包括第一步,特征提取,将待检测的化合物通过分子指纹生成软件生成指纹序列;第二步,通过低变异特征过滤和高度相关特征过滤进行特征选择;第三步,采用支持向量机(SVM)、随机森林(RF)以及极限梯度提升(XGBoost)分别构建三种基分类器模型;第四步,采用集成方法优化模型。本发明使用3种机器学习算法和多种分子指纹,开发了计算机集成学习模型来预测化合物血脑屏障渗透性。该模型对新分子具有较高的预测性能,可用于中枢神经系统药物的早期筛查。
Description
技术领域
本发明涉及计算机领域,是一种基于机器学习和集成方法的化合物血脑屏障渗透性 (BBB)的预测方法。
背景技术
中枢神经系统疾病严重威胁着人类的生命和健康,然而,仍然缺乏针对这一大类疾病的有效药物和治疗方法。血脑屏障是维持中枢神经系统稳态的严格渗透屏障,药物是否可以穿透大脑是药物设计中的关键考虑因素。用于中枢神经系统疾病的药物必须能够穿透血脑屏障。
传统实验方法需要复杂的实验条件和高昂的研究成本,且效率非常低。
发明内容
本发明的目的是提供一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,克服了上述现有技术之不足,其能有效提升预测模型的灵敏度等性能,在药物开发的初期,可以减少后期药物开发的风险,降低研发成本。本发明采用计算机辅助的BBB渗透率评估方法,结合具有集成学习的机器学习方法,可大大提升模型的预测性能,最大程度满足现代医学的需求,同时具有高通量低成本和高效率的优点。
为了实现上述目的,本发明创造采用了如下技术方案:
一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其步骤为:
第一步,计算化合物分子指纹。
第二步,化合物分子指纹的预处理:通过低变异特征过滤和高度相关特征过滤,对步骤一中的化合物分子指纹进行过滤;
(1)低变异特征过滤:通过计算“频率比”和“唯一值的百分比”来判断样本中哪些特征属于低变异特征,即所有样本中相似或几乎相同的特征,将其删除。
(2)高度相关特征过滤:删除与其它分子指纹的Tanimoto相关系数大于50%-95%的高度相关特征。如果特征的相关性高,则说明该特征涵盖了另一特征具有的信息,将相关性较高的特征同时引入模型,会导致预测结果较差,故将此类特征删除。
判断哪些特征为低变异特征,是通过计算“频率比”和“唯一值的百分比”进行的。频率比是指出现频率最高的值的频率与出现频率第二高的值的频率的比值,低变异特征的频率比特别高。唯一值的百分比是指特征中唯一值的个数与总样本数(乘以100)的比值,在本发明中,如果存在频率比大于95/5且唯一值的百分比小于10的特征,则判定该特征为低变异特征,将其删除。在进行高度相关的特征过滤时,用Tanimoto系数评估化合物是否具有一个或多个高度相关的特征。为了选择Tanimoto相关系数的最佳阈值,使用RF预测模型来评估不同Tanimoto相关系数阈值对分子指纹的高相关特征过滤的影响。
第三步,采用支持向量机、随机森林以及极限梯度提升算法,对过滤后的化合物分子指纹分别构建预测化合物血脑屏障渗透性的基分类器;
第四步,采用集成方法构建预测化合物血脑屏障渗透性的集成模型;
通过融合第三步得到的基分类器来构建集成模型,为Ensemble-Top1至Ensemble-TopN,N为基分类器个数;将上述的基分类器按照AUC值从大到小的顺序排列,Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成,以此类推,Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N 名的基分类器融合而成;最终,选择具有最高AUC值的模型作为最终的集成模型。
得到集成模型后,对集成模型进行内部交叉验证和外部验证集验证,评估模型性能。
本发明创造的有益效果:
本发明得到的最终模型在本研究中获得的准确度达到0.987,高于现有技术中报道的模型准确度,这表明所提出模型的性能非常好。此外,现有技术中使用的大多数模型都是使用单个算法或多种算法构建的分类器模型,而本发明使用了3种机器学习算法和多种分子指纹来训练各种基分类器,并且将具有最佳性能的基分类器用于集成建模,与基分类器模型相比,获得的最终集成模型的预测性能显着提高。此方法对计算机辅助药物分子设计和创新药物研发有着十分重要的作用。
附图说明
图1为发明的技术路线流程图。
图2为本发明的模型构建过程示意图。
具体实施方式
下面将结合本发明创造实施例中的附图,对本发明创造实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明创造一部分实施例,而不是全部的实施例。
实施例1:
如附图1和2所示,该基于机器学习和集成方法的化合物血脑屏障渗透性的预测方法, 包括以下步骤:
第一步,特征提取,将待检测的化合物通过分子指纹生成软件生成分子指纹序列;
本发明使用的训练集数据集最初由Adenot和Lahana编制,包括1283具有血脑屏障渗透性的化合物和310个不具有血脑屏障渗透性的化合物。使用的外部验证集数据来自于李等人。我们使用PaDEL-Descriptor2.21版来计算分子指纹,PaDEL-Descriptor以化合物分子的SMILES(Simplifiedmolecular-input line-entry system,简化分子线性输入规范)格式文件作为输入,判定分子指纹中每一位所代表的分子亚结构是否存在于化合物中,并将结果输出到一个CSV文件中。本发明共计算了EState,MACCS,PubChem,FP4,KR,AP2D,FP4C, KRC和APC2D共9种类型的分子指纹。
第二步,对分子指纹序列的特征进行预处理,包括以下过程:
(1)低变异特征过滤:删除所有样本中相似或几乎相同的特征。首先要通过计算“频率比”和“唯一值的百分比”来判断某特征是否属于低变异特征。频率比是指出现频率最高的值的频率与出现频率第二高的值的频率的比值,低变异特征的频率比将非常大。唯一值的百分比是指特征中唯一值的个数与总样本数的比值,在本发明中,如果某一特征的频率比大于 95/5且唯一值的百分比小于10,那么认为这一特征为低变异特征,将其删除。该特征预处理是通过使用R语言caret包中的nearZeroVar函数进行的。
(2)高度相关特征过滤:由于分子指纹是二进制变量,这里使用Tanimoto系数评估化合物是否具有高度相关的特征。Tanimoto相关系数是通过TA,B=c/(a+b-c)计算的,其中a代表A特征在样本中被标记为1的位数,b代表B特征在样本中被标记为1的位数,c代表 A特征和B特征同时为1的样本的位数。为了选择Tanimoto相关系数的最佳阈值,使用RF 预测模型来评估不同Tanimoto相关系数阈值对分子指纹的高相关特征过滤的影响。当 Tanimoto相关系数的阈值低(例如,<0.5)时,每个性能指标的值相对较低。在Tanimoto 相关系数的阈值达到0.95之后,AUC和ACC值表明,使用每个分子指纹创建的RF模型的预测性能良好。但是,当Tanimoto相关阈值为1.0时,即不执行高相关特征过滤时,对于大多数模型,每个性能指标的值都会降低。因此,本研究中使用的后续模型是采用当Tanimoto 相关系数阈值为0.95时进行高相关特征过滤的分子指纹的模型;
第三步,采用支持向量机、随机森林以及极限梯度提升构建预测化合物血脑屏障渗透性的基分类器,并评估性能。包括以下过程:
(1)使用三种机器学习算法:支持向量机、随机森林以及极限梯度提升,分别在R(3.3.1版)中运行。其中支持向量机使用0.9-25版软件包,随机森林使用4.6–12版软件包,极限梯度提升使用0.4–4版软件包。这三种机器学习算法分别与9种分子指纹结合,构建相应的基分类器。因此,针对每种机器学习算法,共建立了9个基本分类器,最终产生了总共27个基本分类器。模型中涉及的所有参数均已进行了最佳调整。
(2)为了评估模型性能,进行了内部验证和外部验证。内部验证为100次重复的5折交叉验证,外部验证为验证集验证。本发明使用四个性能指标来评估模型的性能:AUC (ROC曲线下的面积)、ACC(准确性)、SPE(特异性)和SEN(敏感性),具体公式如下:
ACC=TP+TN/(TP+TN+FN+FP) (1)
SPE=TN/(TN+FP) (2)
SPE=TN/(TN+FP) (3)
其中TP(真阳性)表示正确预测的具有血脑屏障渗透性的化合物的数量,TN(真阴性)表示正确预测的不具有血脑屏障渗透性的化合物的数量,FP(假阳性)表示预测为具有血脑屏障渗透性的化合物的不具有血脑屏障渗透性的化合物的数量,FN(假阴性)表示预测为不具有血脑屏障渗透性的化合物预测为具有血脑屏障渗透性的化合物的数量。
第四步,采用集成方法构建化合物血脑屏障渗透性基集成模型,并评估性能,包括以下过程:
(1)通过融合第三步得到的基分类器来构建集成模型,共构建了27个集成模型,为Ensemble-Top1到Ensemble-Top27。将上述的基分类器按照AUC值从大到小的顺序排列,Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成。以此类推,Ensemble-Top3到Ensemble-Top27模型由AUC 值排列在前3-27名的基分类器融合而成。最终,选择具有最高AUC值的模型作为最终的集成模型。
(2)为了评估模型性能,进行了内部验证和外部验证。内部验证为100次重复的5折交叉验证,外部验证为验证集验证。本发明使用四个性能指标来评估模型的性能:AUC (ROC曲线下的面积)、ACC(准确度)、SPE(特异性)以及SEN(敏感性),计算公式同第三步(2)所述。
(3)选择具有最高AUC值的模型作为最终的集成模型,最终集成模型(EnsembleTop-6)在五折交叉验证和外部验证集验证中的性能如表1所示。
表1:最终模型(Ensemble-top6)在五折交叉验证和外部验证集验证中的性能表
第五步,探索与血脑屏障通透性有关的亚结构
为了更好地了解与血脑屏障渗透性相关的化合物子结构的重要性,使用RF算法通过 Gini系数的平均下降来评估。使用六个关键结构指纹AP2D,EState,KR,MACCS, PubChem和FP4来分析结构特征的重要性。根据每个指纹的平均减少Gini值的前十个最大值选择了十个最重要的特征。有六个特征的平均下降基尼值明显高于其他特征,包括AP2D- 570,EState-34,KR-4295,MACCS-11,PubChem-20和FP4-17。这六个特征可以代表化合物分子的结构,而这种结构是预测化合物BBB渗透性的关键。此外,除了EState-34和 MACCS-11外,所有子结构都可能存在于BBB-中。但是,含有这些亚结构的BBB+和 BBB-样品的数量并没有很大差异,这表明有BBB渗透性的化合物的结构具有多样性。
Claims (6)
1.一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,其步骤为:
第一步,计算化合物分子指纹;
第二步,化合物分子指纹的预处理:通过低变异特征过滤和高度相关特征过滤,对步骤一中的化合物分子指纹进行过滤;
第三步,采用支持向量机、随机森林以及极限梯度提升算法,对过滤后的化合物分子指纹分别构建预测化合物血脑屏障渗透性的基分类器;
第四步,采用集成方法使用第三步中的基分类器构建预测化合物血脑屏障渗透性的集成模型。
2.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第二步中,包括有:
(1)低变异特征过滤:通过计算“频率比”和“唯一值的百分比”来判断样本中的低变异特征,低变异特征即为所有样本中相似或几乎相同的特征,将其删除。
(2)高度相关特征过滤:删除与其它分子指纹的Tanimoto相关系数大于50%-95%的高度相关特征。
3.根据权利要求2所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的(1)中,如果存在频率比大于95/5且唯一值的百分比小于10的特征,则判定该特征为低变异特征。
4.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第三步中,具体方法为:使用三种机器学习算法:支持向量机、随机森林以及极限梯度提升,分别与第二步最终的分子指纹结合,构建相应的基分类器。
5.根据权利要求1所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,所述的步骤4中,具体方法为:通过融合第三步得到的基分类器来构建集成模型,为Ensemble-Top1至Ensemble-TopN,N为基分类器个数;将上述的基分类器按照AUC值从大到小的顺序排列,Ensemble-Top1模型是具有最高AUC的基分类器模型。Ensemble-Top2模型由AUC值排列在前两名的基分类器融合而成,以此类推,Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N名的基分类器融合而成;最终,选择具有最高AUC值的模型作为最终的集成模型。
6.根据权利要求5所述的一种基于机器学习和集成方法的化合物血脑屏障渗透性预测方法,其特征在于,得到集成模型后,对集成模型进行内部交叉验证和外部验证集验证,评估模型性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110062505.0A CN112802561A (zh) | 2021-01-18 | 2021-01-18 | 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110062505.0A CN112802561A (zh) | 2021-01-18 | 2021-01-18 | 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112802561A true CN112802561A (zh) | 2021-05-14 |
Family
ID=75810084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110062505.0A Pending CN112802561A (zh) | 2021-01-18 | 2021-01-18 | 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802561A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN117577214A (zh) * | 2023-05-19 | 2024-02-20 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
-
2021
- 2021-01-18 CN CN202110062505.0A patent/CN112802561A/zh active Pending
Non-Patent Citations (1)
Title |
---|
张力等: "CarcinoPred-EL:使用分子指纹和集成学习方法预测化学物质致癌性的新模型", 中国生理学会张锡钧基金第十四届全国青年优秀生理学学术论文综合摘要、中国生理学会第十二届全国青年生理学工作者学术会议论文摘要, pages 1 - 2 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN117577214A (zh) * | 2023-05-19 | 2024-02-20 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
CN117577214B (zh) * | 2023-05-19 | 2024-04-12 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tsanas et al. | Novel speech signal processing algorithms for high-accuracy classification of Parkinson's disease | |
CN112802561A (zh) | 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法 | |
CN112435720B (zh) | 一种基于自注意力机制与多药物特征组合的预测方法 | |
CN110246577B (zh) | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 | |
CN111564163B (zh) | 一种基于rnn的多种伪造操作语音检测方法 | |
Bhanot et al. | A robust meta‐classification strategy for cancer detection from MS data | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
CN110853756A (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
CN111583996A (zh) | 一种模型非依赖的基因组结构变异检测系统及方法 | |
CN110797084A (zh) | 基于深层神经网络的脑脊液蛋白质的预测方法 | |
Raja | Diabetics prediction using gradient boosted classifier | |
CN113096737B (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
Zhang et al. | A deep Bayesian neural network for cardiac arrhythmia classification with rejection from ECG recordings | |
CN117079810A (zh) | 一种心血管疾病非计划再住院风险预测方法 | |
CN111128300A (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
CN114360660A (zh) | 一种基于机器学习预测化合物人体屏障通透性的方法 | |
CN115116619A (zh) | 一种脑卒中数据分布规律智能分析方法及系统 | |
CN114512240A (zh) | 一种痛风预测模型系统、设备及存储介质 | |
CN113768514A (zh) | 基于卷积神经网络与门控循环单元的心律失常分类方法 | |
Pandagre | Detection of arrhythmia disease in ecg signal using optimal features | |
KR102683199B1 (ko) | 대규모 제2 형 당뇨 데이터셋 기반의 불균형 대조군 마커 선별 학습 알고리즘을 활용한 환자(질환)군/대조군 예측 학습 모델 구축 방법 | |
CN113361563B (zh) | 一种基于样本和特征双变换的帕金森病语音数据分类系统 | |
CN115588467B (zh) | 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 | |
Nalini et al. | Lloyd and Minkowski Based K-Means Clustering for Effective Diagnosis of Heart Disease and Stroke | |
Khafaga et al. | Intelligent Model for Data Analytical Study of Coronavirus COVID-19 Databases. Electronics 2022, 11, 1975 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |