CN117577214B - 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 - Google Patents

一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 Download PDF

Info

Publication number
CN117577214B
CN117577214B CN202310570954.5A CN202310570954A CN117577214B CN 117577214 B CN117577214 B CN 117577214B CN 202310570954 A CN202310570954 A CN 202310570954A CN 117577214 B CN117577214 B CN 117577214B
Authority
CN
China
Prior art keywords
learner
bbb
compound
prediction
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310570954.5A
Other languages
English (en)
Other versions
CN117577214A (zh
Inventor
苏庆
肖淦耀
周渭
林志毅
谢国波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310570954.5A priority Critical patent/CN117577214B/zh
Publication of CN117577214A publication Critical patent/CN117577214A/zh
Application granted granted Critical
Publication of CN117577214B publication Critical patent/CN117577214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法,具体实现步骤如下:(1)获取化合物及其BBB标签数据;(2)对数据集进行包括特征生成、数据归一化、特征筛选、样本数量均衡化等数据预处理操作;(3)构建基学习器选择模块,根据输入经过预处理的BBB数据,应用基学习器选择机制来选择用于堆叠学习算法的基学习器;(4)构建融合学习器遴选模块,将基学习器的预测结果构造成一个堆叠矩阵,对比该堆叠矩阵在不同学习器中的训练结果,遴选出堆叠学习算法的最佳融合学习器;(5)根据选出的基学习器与融合学习器,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;(6)运用该预测模型进行化合物的BBB渗透性预测。

Description

一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
技术领域
本发明属于生物信息处理领域,更进一步涉及机器学习技术领域中的基于样本重采样与集成学习的化合物血脑屏障渗透性预测。本发明可用于对研发中的药物血脑屏障渗透性进行预测。
背景技术
在中枢神经系统(Central Nervous System, CNS)药物的研发过程中,一款药物无法透过血脑屏障(Blood-Brain Barrier, BBB)则标志着该药物的研发可能会遭受失败。BBB是一种保护大脑及其周围神经元的复杂和重要的屏障,能选择性地筛选和限制大脑内部物质的进出,防止有害物质、病原体或外来物质进入脑部,并保持大脑细胞内部环境的稳定。但同时,BBB能够阻止大多数药物物质进入大脑,这为治疗大脑疾病带来了许多挑战。在常规的CNS药物研发过程中,需要对药物进行临床实验以判断其是否能透过BBB对大脑产生疗效,因而需要高昂的资金投入和长周期的研发。因此,如果能够在临床实验之前采取有效的低成本手段预测到药物的BBB渗透性高低,就可以及时调整药物实验方案,又或者重新优化药物化学结构和药代动力学性质。传统的BBB渗透性预测模型主要有逻辑回归(LogisticRegression, LR)、支持向量机(Support Vector Machine, SVM)等,这些模型的预测性能相对较低,同时还面临着数据不平衡的问题:在数据量上,可透过BBB的化合物往往相对更多,而不可透过BBB的化合物相对更少,这使得模型预测多数类的准确度更高,而预测少数类的准确度更低。由于研发人员更加需要的是模型能准确预测不可透过BBB的化合物,因此这些模型难以满足实际药物研发的需求。
公开号为CN114360660A的中文专利文献公开了一种基于多层感知机机器学习模型的BBB渗透性预测方法。该发明方法只表明了其预测可透过BBB化合物的准确度较高,而未提及其预测不可透过BBB化合物的能力。
公开号为CN112802561A的中文专利文献公开了一种基于集成学习的BBB渗透性预测方法。该发明构建了27种学习器,并取其中性能最好的学习器构建最终的预测模型。该模型在预测不可透过BBB化合物的准确度上还存在一定的优化空间。
发明内容
本发明的目的在于针对传统的预测方法难以从不平衡的数据集中取得更好的预测结果,且预测模型的性能存在优化空间,提出了一种基于样本数量均衡化与堆叠学习算法的化合物BBB渗透性预测方法,可以准确地预测药物是否能够透过BBB并进行分类。
本发明还提供了一种基于堆叠学习算法的化合物BBB渗透性预测装置,将需要预测的化合物分子式输入到该系统后,该系统即可借助预测模型预测并输出化合物的BBB渗透性,可用于辅助药物研发。
术语解释:
BBB标签:用于标示一款化合物是否能透过BBB的标记。如果一款化合物可以透过BBB,则该化合物的BBB标签记为BBB+,否则记为BBB-。
SMILES:简化分子线性输入规范(Simplified molecular input line entryspecification),是一种运用ASCII字符串明确描述分子结构的规范,可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。基于相似分子具有相似特性的化学信息学的主要原理,这种表示的使用一直用于预测生化特性。
化合物样本:化合物数据集中的每一种化合物及其各种属性,包括但不限于该化合物的SMILES与BBB标签。
正样本:能够穿过BBB的化合物样本,BBB标签为BBB+,也称为BBB+样本。
负样本:不能穿过BBB的化合物样本,BBB标签为BBB-,也称为BBB-样本。
ROC曲线:受试者工作特征曲线(Receiver operating characteristic curve),是反映敏感性与特异性之间关系的曲线。其横坐标为假阳率FPR(False positive rate),代表着被错误预测为负样本的正样本数占所有负样本数的比例,纵坐标为真阳率TPR(Truepositive rate),代表着被正确预测为正样本的正样本数占所有正样本数的比例。曲线下方部分的面积被称为AUC(Area under curve),面积越大,说明预测准确率越高。
MCC:马修斯相关系数(Matthews correlation coefficient)综合考量混淆矩阵中的四个基础评价指标,用于描述实际样本与预测样本之间的相关系数,是二分类问题的最佳度量指标。MCC的计算公式如下所示:
上述四个基础评价指标包括TP、TN、FP和FN。其中,是预测为真且实际为真的预 测结果,TN是预测为假且实际为假的预测结果,FP是预测为真但实际为假的预测结果,FN是 预测为假但实际为真的预测结果。
SE:敏感性(Sensitivity),又称真阳率,代表着模型预测的所有正样本中预测成功的样本(真实标签为正)所占的比例,被用于衡量模型预测正样本的能力,计算公式如下所示:
SP:特异性(Specificity),代表着模型预测的所有负样本中预测成功的样本(真实标签为负)所占的比例,被用于衡量模型预测负样本的能力,计算公式如下所示:
学习器差异值:用于衡量两个分类学习器之间的差异度,设分类学习器, 其预测结果如表1所示:
表1 学习器预测结果级联表
m2 = + m2 = -
m1 = + x1 x2
m1 = - x3 x4
其中,为两个学习器均分类正确的样本数量,为学习器分类正确而学习器分类错误的样本数量,为学习器分类错误而学习器分类正确的样本数量,为 这两个学习器均分类错误的样本数量。
并根据以下公式,计算出学习器之间的差异值:
实现本发明目的的思路是,首先利用分子描述符构建工具包构建基于化合物分子式的分子描述符(分子特征),之后结合多种特征筛选策略排除对于化合物的BBB渗透性预测影响较低的特征,并利用样本数量均衡化操作将数据集调整为样本均衡状态,接着应用堆叠学习算法,遴选出适合的若干学习器,然后构建一个化合物BBB渗透性预测模型,并应用网格搜索方法进行参数调优,最后运用该化合物BBB渗透性预测模型进行化合物的BBB渗透性预测。本发明实现的具体步骤如图1所示。
S100:收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,由此形成初始的数据集;
S200:对数据集进行包括特征生成、数据归一化、特征筛选、样本数量均衡化等数据预处理操作;
S300:构建基学习器选择模块,根据输入经过预处理的BBB数据,设计一种基学习器选择机制,用于选择堆叠学习算法的基学习器;
S400:构建融合学习器遴选模块,将基学习器的预测结果构造成一个堆叠矩阵,对比该堆叠矩阵在不同学习器中的训练结果,遴选出堆叠学习算法的最佳融合学习器;
S500:根据基学习器选择模块选出的基学习器和融合学习器遴选模块遴选出的融合学习器,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;
S600:运用该预测模型进行化合物的BBB渗透性预测;
进一步地,步骤S200中所述的数据预处理方法如下:
S210:获取数据集中每一个化合物样本所对应的SMILES分子式,并使用分子描述符构建工具,基于SMILES分子式构建出分子描述符,最终得到整个数据集的特征向量;
S220:对特征向量进行归一化处理;本发明所选的归一化方法为标准差归一化(Standard scaling),所使用的归一化公式如下式所示。
其中为化合物输入特征,X.mean()为整个数据集的均值,X.std()为整个数据 集的标准差,为归一化后的值。
在本发明中采用标准差归一化(Standard scaling)来对特征向量进行归一化处理,但不仅限于此方法。
S230:对特征向量进行筛选,去除对于化合物的BBB渗透性预测影响较低的特征。
进一步地,特征筛选的方法如下:
d S231:剔除方差小于0.08的特征;
S232:基于额外树算法根据重要性权重选择特征;
S233:使用基于随机森林(Random Forest, RF)算法的递归特征消除来去除最不重要的特征。
S240:对数据集进行样本数量均衡化操作,使得BBB-的化合物样本数量与BBB+的化合物样本数量基本一致,有助于避免不同类别的数据量差异较大而导致训练出来的模型对不同类别的预测能力差距较大,从而优化模型的泛化能力。
进一步地,均衡化操作的具体步骤如下:
S241:计算需要生成的BBB-样本数G,公式为:
其中为BBB+样本数,为BBB-样本数,为平衡值,取1时表示均衡化后的 BBB+样本数与BBB-样本数的比例为1:1;
S242:基于欧氏距离(Euclidean Distance),对所有少数类样本计算K近邻中多数类样本数的占比r:
其中为K近邻中多数类的样本数,为第i个少数类样本周围多数类样本数占所 有样本数的比例,i = 1, 2, …,
S243:对进行标准化:
S244:基于需要生成的总样本数G以及标准化后每个少数类样本周围的多数类样 本数,计算每个少数类样本需要生成的新少数类样本数,公式如下:
S245:对于每个少数类样本,在该样本与其他少数类样本之间的随机位置,生成个新少数类样本,生成公式如下:
其中为新生成的样本,为少数类样本在K近邻中随机一个相邻的少数类样 本,为随机数,取(0, 1)。
值得注意的是,为防止新生成的样本覆盖原有样本,不能取0或1。
进一步地,堆叠学习算法结构如图2所示,该算法分为两个模块:基学习器选择模块与数据训练模块。
S300所述的基学习器选择模块具体内容如下:
S310:分别构建多个学习器个体,包括但不限于LR、多层感知机(Multilayerperceptron, MLP)等,并将这些学习器个体构成一个学习器集合;
S320:设计一种堆叠学习算法的基学习器选择机制,从学习器集合中选择若干个最适合的学习器个体作为堆叠学习算法的基学习器。
进一步地,基学习器选择机制的具体步骤如下:
S321:将S200中完成预处理的BBB数据分别输入到学习器集合中的所有学习器个体中,获取这些学习器个体各自的训练性能P、训练耗时T;
S322:对于任意两个学习器个体,计算它们之间的差异值。由于堆 叠学习算法是基于多个基学习器之间取长补短的原理,因此各基学习器之间需要有足够大 的差异值来保证良好的模型预测效果;
S323:根据对于堆叠学习算法的贡献度,选择贡献度最大的若干 对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器。其中 学习器个体对于堆叠学习算法的贡献度的计算公式如下:
S400所述的融合学习器遴选模块具体步骤如下:
S410:选择从第S323步中已选出的k个学习器个体作为堆叠学习算法的基学习器,紧接着输入经过预处理的BBB数据到这些基学习器中进行训练,得到k种不同的预测结果,其中预测结果是指基学习器预测输入的化合物样本是否能透过BBB的结果;
S420:从第S310步的学习器集合中,任意选择一个学习器作为融合学习器。将第S410步中得到的k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵;并将该堆叠矩阵输入到融合学习器中进行预测,得到唯一的预测结果,这个预测结果就是对原先k种不同预测结果的融合;
S430:重复第S420步,直至学习器集合中的所有学习器均被使用,并记录这些学习器作为融合学习器时的预测结果。对比所有的预测结果,依据AUC指标排列,遴选出最好结果者作为最佳融合学习器。
进一步地,步骤S500所述的构造化合物BBB渗透性预测模型的具体步骤如下:
S510:构建化合物BBB渗透性预测模型的原型:模型构建流程如图3所示,输入的数据经过数据预处理后,交付给完成选择的k个基学习器分别进行预测,得出的k种预测结果构造成一个k列堆叠矩阵,交付给最佳融合学习器预测,由此得到的融合预测结果作为预测模型的预测结果。
S520:使用网格搜索算法对第S510步得到的化合物BBB渗透性预测模型进行参数调优。分别给出k个基学习器以及融合学习器各自需要调优的参数列表,参数列表以网格形式排列,构成模型参数的所有搭配可能;由算法调用模型并根据参数列表自动设置参数进行训练,获取并记录每次不同参数的结果,最终输出结果最佳的模型参数,完成模型的调参优化。
进一步地,步骤S600所述的运用构建完成的模型进行化合物BBB渗透性预测的具体步骤如下:
本发明还提供了一种基于堆叠学习算法的化合物BBB渗透性预测装置,包括:
数据预处理模块,被配置为,预处理待训练的数据集;
基学习器选择模块,被配置为,根据输入的经过预处理的数据集,训练并选择若干最佳学习器作为堆叠学习算法的基学习器;
融合学习器遴选模块,被配置为,根据输入的经过预处理的数据集,训练并选择堆叠学习算法的最佳融合学习器;
预测模型构建模块,被配置为,构建基于堆叠学习算法的化合物BBB预测模型,利用输入的特征向量,最佳的基学习器与融合学习器,以及完成调优的参数构建化合物BBB渗透性预测模型;
化合物BBB预测模块,被配置为,将待预测的化合物样本输入到构建好的所述预测模型中,预测得到对应的BBB渗透性预测结果。
其中,数据预处理模块,包括:清洗待训练数据集中重复或异常的数据样本、生成数据集的特征向量、完成特征筛选以及样本数量均衡化等。
基学习器选择模块,包括:构建多个学习器个体,输入经过预处理的数据集后,获取各自的多项性能指标,计算这些学习器个体的贡献度,选择贡献度最高的若干学习器个体作为堆叠学习算法的基学习器。
融合学习器遴选模块,包括:输入经过预处理的数据集到完成选择的基学习器中,将训练结果构造成堆叠矩阵,并输入到多个学习器个体中,根据这些学习器个体的训练结果,选择最佳的学习器个体作为堆叠学习算法的融合学习器;
预测模型构建模块,包括:根据输入的经过预处理的数据集以及完成选择的最佳基学习器与融合学习器,构建基于堆叠学习算法的预测模型原型,完成参数调优,最终获得训练好的化合物BBB预测模型。
化合物BBB预测模块,包括:将待预测的化合物样本输入到完成训练的预测模型中,进行特征生成、特征筛选等预处理方式获取预处理完成的数据,数据经过基学习器与融合学习器进行BBB渗透性预测,最终输出化合物样本对应的BBB类别标签。
本发明与现有技术相比具有以下优点:
第一、本专利提出的堆叠学习算法具有汇集多种学习器个体优点的长处、对BBB-样本具有更好的预测性能等方面的优点。
第二、采用样本数量均衡化操作将不同类别的数据量调整至大致相等,有效缓解了BBB-样本的数量过少导致训练出来的模型对BBB-样本的预测性能较低的情况;同时采用基于每个少数类样本周围的多数类样本数动态生成新样本的策略,有助于防止数据过拟合。
第三、设计了一种堆叠学习算法的基学习器选择机制,用于遴选出若干个最合适的学习器个体作为堆叠学习算法的基学习器,有助于降低模型训练的成本消耗,提升模型的构建效率与预测性能。
附图说明
图1为本发明的实现流程图。
图2为算法结构图。
图3为化合物BBB渗透性预测模型构建图。
图4为模型结果对比图。
图5为本发明装置的结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用材料或设备未注明生产厂商者,均为可以通过购买获得的常规产品。
一种基于堆叠学习算法的化合物BBB渗透性预测方法实施流程图如图1所示,包括以下步骤:
步骤S1,查询并收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,形成初始的数据集;
步骤S2,对数据集进行包括特征生成、数据归一化、特征筛选、样本数量均衡化等数据预处理操作;
步骤S3,根据输入数据,应用基学习器选择机制来选择堆叠学习算法的基学习器;
步骤S4,为完成基学习器选择的堆叠学习算法进行融合学习器的遴选;
步骤S5,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;
步骤S6,运用预测模型进行化合物BBB渗透性预测;
优选地,步骤S2数据预处理具体为:
步骤S21,特征生成;
步骤S22,数据归一化;
步骤S23,特征筛选;
步骤S24,样本数量均衡化.
优选地,步骤S21特征生成具体为:
步骤S211,获取数据集中每一个化合物样本对应的SMILES分子式;
步骤S212,对于每一个化合物样本,使用分子描述符构建工具,基于SMILES分子式构建出分子描述符;
步骤S213,处理所有化合物样本,得到整个数据集的特征向量;
优选地,步骤S22数据归一化具体为:
对特征向量进行归一化处理,所选归一化方法为标准差归一化(Standardscaling),所使用的归一化公式如下式所示。
其中为化合物输入特征,X.mean()为整个数据集的均值,X.std()为整个数据 集的标准差,为归一化后的值。
优选,步骤S23特征筛选具体为:
S231:剔除方差较小的特征;
S232:基于额外树算法根据重要性权重选择特征;
S233:使用基于随机森林(Random Forest, RF)算法的递归特征消除来去除最不重要的特征。
优选地,步骤S24中样本数量均衡化具体为:
S241:计算需要生成的BBB-样本数G,公式为:
其中为BBB+样本数,为BBB-样本数,为平衡值,取1时表示均衡化后的 BBB+样本数与BBB-样本数的比例为1:1;
S242:基于欧氏距离,对所有少数类样本计算K近邻中多数类样本数的占比r:
其中为K近邻中多数类的样本数,i = 1, 2, …,
S243:对进行标准化:
S244:基于需要生成的总样本数G以及标准化后每个少数类样本周围的多数类样 本数,计算每个少数类样本需要生成的新少数类样本数,公式如下:
S245:对于每个少数类样本,在该样本与其他少数类样本之间的随机位置,生成个新少数类样本,生成公式如下:
其中为新生成的样本,为少数类样本在K近邻中随机一个相邻的少数类样 本,为随机数,取(0, 1)。
值得注意的是,为防止新生成的样本覆盖原有样本,不能取0或1。
优选地,步骤S3中学习器个体选择的具体过程为:
S31:分别构建多个学习器个体,如LR、MLP、SVM等,作为学习器集合;
S32:将S2完成预处理的BBB数据分别输入到学习器集合中的所有学习器个体中, 获取这些学习器各自的训练性能P、训练耗时T,并计算任意两个学习器个体之间的 差异值
S33:根据对于堆叠学习算法的贡献度,选择贡献度最大的若干对 学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器。其中学 习器个体对于堆叠学习算法的贡献度的计算公式如下:
优选地,步骤S4数据训练具体为:
S41:选择从第S33步中已选出的k个学习器个体作为数据训练模块的基学习器,并输入已完成预处理的BBB数据进行训练,得到k种不同的预测结果,其中预测结果是指学习器预测输入的化合物是否能透过BBB的结果;
S42:从第S31步的学习器集合中,任意选择一个学习器作为融合学习器。将第S41步中得到的k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵;并将该矩阵输入到融合学习器中进行预测,得到唯一的预测结果,这个预测结果就是对原先k种不同预测结果的融合;
S43:重复第S42步,直至学习器集合中的所有学习器均被使用,并记录这些学习器作为融合学习器时的预测结果。对比所有的预测结果,依据AUC指标排列,遴选出最好结果者作为最佳融合学习器,并输出最终的预测结果。
优选地,步骤S5构造化合物BBB渗透性预测模型具体为:
S51:构建化合物BBB渗透性预测模型:输入的数据经过数据预处理后,交付给完成选择的k个基学习器分别进行预测,由此得出的k种预测结果构造成一个k列的堆叠矩阵,交付给最佳融合学习器预测,将得到的融合预测结果作为预测模型的预测结果。模型构建图如图3所示。
S52:使用网格搜索算法对第S51步得到的化合物BBB渗透性预测模型进行参数调优。分别给出k个基学习器以及融合学习器各自需要调优的参数列表,参数列表以网格形式排列,构成模型参数的所有搭配可能;由算法调用模型并根据参数列表自动设置参数进行训练,获取并记录每次不同参数的结果,最终输出结果最佳的模型参数,完成模型的调参优化。
优选地,步骤S6运用堆叠学习模型进行化合物BBB渗透性预测具体为:
应用同一数据集,将本实施例的模型与常用的传统预测模型SVM、RF和XGBoost进行预测结果比较,选用AUC、MCC、SE和SP作为模型的评估指标。
将模型测试结果与SVM、RF和XGBoost模型预测结果相比较,最终的结果对比图如图4所示。
本发明应用实例:
(1)数据获取:化合物及其BBB标签数据从Github代码仓库(https://github.com/)网站下载。
(2)利用本发明对数据集中的分类数据进行了预测,并进行了模型的评估和比较。
(3)对比图见说明书附图(图4)。本发明的AUC值为0.98,MCC值为0.86,SE值为0.94,SP值为0.91。
实施例2 请参阅图5,本发明还提供了一种基于堆叠学习算法的化合物BBB渗透性预测装置的实施例,包括:
化合物数据获取模块,用于获取待训练的BBB数据集;
数据预处理模块,用于预处理待训练的BBB数据集;
基学习器选择模块,被配置为,根据输入的经过预处理的BBB数据集,训练并选择若干最佳学习器作为堆叠学习算法的基学习器;
融合学习器遴选模块,被配置为,根据输入的经过预处理的BBB数据集,训练并遴选出堆叠学习算法的最佳融合学习器;
基于堆叠学习算法的化合物BBB预测模型构建模块,被配置为,构建基于堆叠学习算法的化合物BBB预测模型,利用输入的经过预处理的BBB数据集,最佳的基学习器与融合学习器,以及完成调优的参数构建化合物BBB渗透性预测模型;
化合物BBB预测模块,被配置为,将待预测的化合物样本输入到构建好的所述预测模型中,预测得到对应的BBB渗透性预测结果。
优选的实施方式,化合物数据获取模块包括:
所述模块收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,构成初始的数据集。
优选的实施方式,数据预处理模块包括:
所述模块清洗待训练数据集中重复或异常的数据样本、生成数据集的特征向量,并进行特征筛选以及样本数量均衡化等操作。
优选的实施方式,基学习器选择模块根据输入的经过预处理的BBB数据集选择堆叠学习算法的最佳基学习器,包括:
所述基学习器选择模块构建多个学习器个体,形成学习器集合;各学习器个体输入经过预处理的BBB数据进行训练,获取每个学习器个体的多项性能指标,计算并比较各学习器的贡献度,选出最适合的若干学习器作为堆叠学习算法的基学习器;
优选的实施方式,融合学习器遴选模块根据输入的特征向量选择堆叠学习算法的最佳融合学习器,包括:
所述融合学习器遴选模块将经过预处理的BBB数据集输入到完成选择的基学习器中,将训练结果构造成堆叠矩阵,并输入到多个学习器个体中,根据这些学习器个体的训练结果,选择最佳的学习器个体作为堆叠学习算法的融合学习器
优选的实施方式,基于堆叠学习算法的化合物BBB渗透性预测模型构建模块构建化合物BBB渗透性预测模型,包括:
所述预测模型构建模块根据输入的经过预处理的BBB数据,以及完成选择的最佳基学习器和融合学习器,构建基于堆叠学习算法的预测模型原型,并完成参数调优,最终获得训练好的化合物BBB渗透性预测模型。
优选的实施方式,化合物BBB渗透性预测模块预测输入的化合物样本的渗透性类别包括:
所述化合物BBB渗透性预测模块将输入的化合物样本进行特征生成、特征筛选等预处理操作,并将特征向量输入到完成训练的预测模型中,模型输出所有样本对应的BBB渗透性类别标签,完成化合物BBB渗透性预测。
本实施例提供的基于堆叠学习算法的化合物BBB渗透性预测装置,通过对数据集的多项预处理操作,能够降低模型的训练复杂度,并提升其对少数类别的预测准确度;同时考虑到在不同数据集下不同学习器的表现不同,借助基学习器选择模块与融合学习器遴选模块,选择对于当前数据集表现最佳的基学习器与融合学习器用于实现堆叠学习算法;完成了各种前项工作而构建得出的化合物BBB渗透性预测模型,能准确地预测出化合物的BBB渗透性,并且对于不同类别化合物的预测性能差距较小,有助于协助药物研发人员设计出合适的药物,提高研发的容错率,降低成本消耗。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于可充分考虑类别样本数量不均衡对预测结果的影响,并运用多个学习器进行融合预测以提升预测效果,该方法包括以下步骤:
第一步,收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,由此形成初始的数据集;
第二步,对数据集进行以下预处理操作,包括特征生成、数据归一化、特征筛选、样本数量均衡化数据,得到经过预处理的BBB数据集;
第三步,构建基学习器选择模块,首先构建一个由多个学习器个体组成的学习器集合,然后将经过预处理的BBB数据集输入至学习器集合中的每一种学习器进行处理,得到上述学习器个体各自的训练性能P、训练耗时T,对于任意两个学习器个体mi和mj,计算它们之间的差异值D(mi,mj);根据mi和mj对于堆叠学习算法的贡献度S(mi,mj),选择贡献度最大的若干对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器,其中学习器个体mi,mj对于堆叠学习算法的贡献度的计算公式为:
第四步,构建融合学习器遴选模块,首先将经过预处理的BBB数据集分别输入至第三步中已选出的k个基学习器中进行训练,得到k种不同的预测结果;然后从学习器集合中选择任意一个学习器个体作为融合学习器,将上述k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵,将该堆叠矩阵输入到融合学习器中进行预测,得到该学习器个体作为融合学习器时对应的预测结果;最后当学习器集合中的所有学习器个体均被使用后,依据AUC指标,将所有学习器个体作为融合学习器的预测结果从好到差进行排列,遴选出最好结果者作为最佳融合学习器;
第五步,根据基学习器选择模块选出的基学习器和融合学习器遴选模块遴选出的融合学习器,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;
第六步,运用该预测模型进行化合物的BBB渗透性预测。
2.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第二步中,包括有:
(1)获取数据集中每一个化合物样本所对应的SMILES分子式,并使用分子描述符构建工具,基于SMILES分子式构建出分子描述符,最终得到整个数据集的特征向量;
(2)对特征向量进行归一化处理:所选的归一化方法为标准差归一化,使用到的归一化公式如下式所示:
其中xi为化合物输入特征,X.mean()为整个数据集的均值,X.std()为整个数据集的标准差,为归一化后的值;
(3)对特征向量进行筛选:去除对于化合物的BBB渗透性预测影响较低的特征;
(4)对数据集进行样本数量均衡化操作:将BBB-的化合物样本数量与BBB+的化合物样本数量基本一致,有助于避免不同类别的数据量差异较大而导致训练出来的模型对不同类别的预测能力差距较大,从而提升模型的泛化能力。
3.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的特征向量筛选步骤包括:
(1)剔除方差小于0.08的特征;
(2)基于额外树算法根据重要性权重选择特征;
(3)使用基于的随机森林算法的递归特征消除来去除最不重要的特征。
4.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的样本数量均衡化操作的具体步骤包括:
(1)计算需要生成的BBB-样本数G,公式为:
G=(nBBB+-nBBB-)*λ
其中nBBB+为BBB+样本数,nBBB-为BBB-样本数,λ为平衡值,取1时表示均衡化后的BBB+样本数与BBB-样本数的比例为1:1;
(2)基于欧氏距离,对所有少数类样本计算K近邻中多数类样本数的占比r:
ri=ci/K
其中ci为K近邻中多数类的样本数,ri为第i个少数类样本周围多数类样本数占所有样本数的比例,i=1,2,…,nBBB-
(3)对ri进行标准化:
(4)基于需要生成的总样本数G以及标准化后每个少数类样本周围的多数类样本数计算每个少数类样本需要生成的新少数类样本数gi,公式如下:
(5)对于每个少数类样本xi,在该样本与其他少数类样本之间的随机位置,生成gi个新少数类样本,生成公式如下:
si=xi+(xK-xi)*θ
其中si为新生成的样本,xK为少数类样本xi在K近邻中随机一个相邻的少数类样本,θ为随机数,取(0,1),为防止新生成的样本覆盖原有样本,θ不能取0或1。
5.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第五步中,具体步骤包括:
(1)构建化合物BBB渗透性预测模型的原型:输入的数据经过数据预处理后,交付给完成选择的k个基学习器分别进行预测,得出的k种预测结果构造成一个k列堆叠矩阵,交付给最佳融合学习器预测,由此得到的融合预测结果作为预测模型的预测结果;
(2)使用网格搜索算法对上一步得到的化合物BBB渗透性预测模型进行参数调优:分别给出k个基学习器以及融合学习器各自需要调优的参数列表,参数列表以网格形式排列,构成模型参数的所有搭配可能;由算法调用模型并根据参数列表自动设置参数进行训练,获取并记录每次不同参数的结果,最终输出结果最佳的模型参数,完成模型的调参优化。
6.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第六步中,具体方法为:
应用同一数据集,将化合物BBB渗透性预测模型与传统预测模型包括但不限于LR、MLP和RF进行预测结果比较,进行比较时,选用AUC、MCC、SE和SP作为模型的评估指标。
7.一种基于堆叠学习算法的化合物BBB渗透性预测装置,用于运行权利要求1-6任一所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,包括化合物数据获取模块、数据预处理模块、基学习器选择模块、融合学习器遴选模块、堆叠学习模型训练模块、化合物BBB渗透性预测模块;
所述化合物数据获取模块用于:收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,构成初始的数据集;所述数据预处理模块用于:清洗待训练数据集中重复或异常的数据样本、生成数据集的特征向量,并进行特征筛选以及样本数量均衡化操作;所述基学习器选择模块用于:首先构建一个由多个学习器个体组成的学习器集合,然后将经过预处理的BBB数据集输入至学习器集合中的每一种学习器进行处理,得到上述学习器个体各自的训练性能P、训练耗时T,对于任意两个学习器个体mi和mj,计算它们之间的差异值D(mi,mj);根据mi和mj对于堆叠学习算法的贡献度S(mi,mj),选择贡献度最大的若干对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器,其中学习器个体mi,mj对于堆叠学习算法的贡献度的计算公式为:所述融合学习器遴选模块用于:首先将经过预处理的BBB数据集分别输入至第三步中已选出的k个基学习器中进行训练,得到k种不同的预测结果;然后从学习器集合中选择任意一个学习器个体作为融合学习器,将上述k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵,将该堆叠矩阵输入到融合学习器中进行预测,得到该学习器个体的预测结果;最后当学习器集合中的所有学习器个体均被使用后,依据AUC指标,将所有学习器个体作为融合学习器的预测结果从好到差进行排列,遴选出最好结果者作为最佳融合学习器;所述基于堆叠学习算法的化合物BBB渗透性预测模型构建模块用于:根据输入的经过预处理的BBB数据,以及完成选择的最佳基学习器和融合学习器,构建基于堆叠学习算法的预测模型原型,并完成参数调优,最终获得训练好的化合物BBB渗透性预测模型;所述化合物BBB渗透性预测模块用于:采用训练好的化合物BBB渗透性预测模型,进行未知化合物样本的预测。
CN202310570954.5A 2023-05-19 2023-05-19 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 Active CN117577214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310570954.5A CN117577214B (zh) 2023-05-19 2023-05-19 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310570954.5A CN117577214B (zh) 2023-05-19 2023-05-19 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法

Publications (2)

Publication Number Publication Date
CN117577214A CN117577214A (zh) 2024-02-20
CN117577214B true CN117577214B (zh) 2024-04-12

Family

ID=89885044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310570954.5A Active CN117577214B (zh) 2023-05-19 2023-05-19 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法

Country Status (1)

Country Link
CN (1) CN117577214B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615082A (zh) * 2018-11-26 2019-04-12 北京工业大学 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法
CN110685857A (zh) * 2019-10-16 2020-01-14 湘潭大学 一种基于集成学习的山地风电机组行为预测模型
CN111553117A (zh) * 2020-04-22 2020-08-18 东华大学 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法
CN112802561A (zh) * 2021-01-18 2021-05-14 辽宁大学 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法
CN112992346A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型的建立方法
CN113408576A (zh) * 2021-05-12 2021-09-17 上海师范大学 基于融合标签和堆叠机器学习模型的学习风格识别方法
CN114360660A (zh) * 2022-01-05 2022-04-15 浙江大学 一种基于机器学习预测化合物人体屏障通透性的方法
CN115116615A (zh) * 2022-07-11 2022-09-27 江苏亚寰软件股份有限公司 一种对非酒精性脂肪肝风险的分析预测方法及系统
CN115146677A (zh) * 2022-07-01 2022-10-04 山东大学 基于tbm刀盘振动信号的地质判断方法、装置及终端
WO2022257458A1 (zh) * 2021-06-08 2022-12-15 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN115577357A (zh) * 2022-10-08 2023-01-06 重庆邮电大学 一种基于堆叠集成技术的Android恶意软件检测方法
CN115577283A (zh) * 2022-09-16 2023-01-06 中国银联股份有限公司 一种实体分类方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11423336B2 (en) * 2018-03-29 2022-08-23 Nec Corporation Method and system for model integration in ensemble learning

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615082A (zh) * 2018-11-26 2019-04-12 北京工业大学 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法
CN110685857A (zh) * 2019-10-16 2020-01-14 湘潭大学 一种基于集成学习的山地风电机组行为预测模型
CN111553117A (zh) * 2020-04-22 2020-08-18 东华大学 基于遗传算法的堆叠式集成学习的聚酯特性粘度控制方法
CN112802561A (zh) * 2021-01-18 2021-05-14 辽宁大学 基于机器学习和集成方法的化合物血脑屏障渗透性预测方法
CN112992346A (zh) * 2021-04-09 2021-06-18 中山大学附属第三医院(中山大学肝脏病医院) 重症脊髓损伤预后的预测模型的建立方法
CN113408576A (zh) * 2021-05-12 2021-09-17 上海师范大学 基于融合标签和堆叠机器学习模型的学习风格识别方法
WO2022257458A1 (zh) * 2021-06-08 2022-12-15 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN114360660A (zh) * 2022-01-05 2022-04-15 浙江大学 一种基于机器学习预测化合物人体屏障通透性的方法
CN115146677A (zh) * 2022-07-01 2022-10-04 山东大学 基于tbm刀盘振动信号的地质判断方法、装置及终端
CN115116615A (zh) * 2022-07-11 2022-09-27 江苏亚寰软件股份有限公司 一种对非酒精性脂肪肝风险的分析预测方法及系统
CN115577283A (zh) * 2022-09-16 2023-01-06 中国银联股份有限公司 一种实体分类方法、装置、电子设备及存储介质
CN115577357A (zh) * 2022-10-08 2023-01-06 重庆邮电大学 一种基于堆叠集成技术的Android恶意软件检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Artificial intelligence for load forecasting: A stacking learning approach based on ensemble diversity regularization;Jiaqi Shi等;《Energy》;20230101;第262卷(第2023期);1-18 *
Stacking ensemble with parsimonious base models to improve generalization capability in the characterization of steel bolted components;Pernía-Espinoza A等;《Applied Soft Computing》;20180930;第70卷(第2018期);737-750 *
基于堆叠算法的代码混淆有效性评估模型;苏庆等;《计算机工程与设计》;20230316;第44卷(第03期);755-761 *
改进Stacking算法在妊娠期糖尿病预测中的应用;冯鑫磊等;《杭州师范大学学报(自然科学版)》;20230330;第22卷(第02期);126-134 *
融合重采样与堆叠学习的化合物血脑屏障透过率预测;苏庆等;《生物医学工程学杂志》;20230825;第40卷(第04期);753-761 *

Also Published As

Publication number Publication date
CN117577214A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Casiraghi et al. Explainable machine learning for early assessment of COVID-19 risk prediction in emergency departments
Sahebi et al. GeFeS: A generalized wrapper feature selection approach for optimizing classification performance
KR20180055787A (ko) 심층 신경망 기반 질병 정보 예측 시스템 및 방법
Khalid et al. Machine learning hybrid model for the prediction of chronic kidney disease
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Dhar An adaptive intelligent diagnostic system to predict early stage of parkinson's disease using two-stage dimension reduction with genetically optimized lightgbm algorithm
You et al. A variable relevant multi-local PCA modeling scheme to monitor a nonlinear chemical process
Ahmad et al. Diagnosis of cardiovascular disease using deep learning technique
Pandi et al. Improvement of Classification Accuracy in Machine Learning Algorithm by Hyper-Parameter Optimization
Anandhakrishnan et al. Identification of tomato leaf disease detection using pretrained deep convolutional neural network models
Cong et al. Multiple protein subcellular locations prediction based on deep convolutional neural networks with self-attention mechanism
Gnanadesigan et al. An integrated network topology and deep learning model for prediction of Alzheimer disease candidate genes
CN117577214B (zh) 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
Schütz et al. A comparative study of pattern recognition algorithms for predicting the inpatient mortality risk using routine laboratory measurements
Siddiqa et al. Robust Length of Stay Prediction Model for Indoor Patients.
Aiosa et al. EXplainable AI for decision Support to obesity comorbidities diagnosis
CN115563312A (zh) 一种药物-疾病-靶点三元组靶点实体补全方法及应用
Desai et al. Hybrid Model of Machine Learning Algorithms for Prediction of Cardiovascular Disease
Usha et al. Feature Selection Techniques in Learning Algorithms to Predict Truthful Data
Parvez et al. A Hybrid Approach for Weak Learners Utilizing Ensemble Technique for Alzheimer’s Disease Prognosis
Rajasree et al. Ensemble-of-classifiers-based approach for early Alzheimer’s Disease detection
Li et al. Dynamic Dual-Graph Fusion Convolutional Network for Alzheimer’s Disease Diagnosis
Bagali et al. Prediction and Classification of Alzheimer's Disease Using Machine Learning Models
Bonetta Valentino et al. Machine learning using neural networks for metabolomic pathway analyses
Sfakianakis et al. Stacking of network based classifiers with application in breast cancer classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant