CN116541785A - 基于深度集成机器学习模型的毒性预测方法及系统 - Google Patents

基于深度集成机器学习模型的毒性预测方法及系统 Download PDF

Info

Publication number
CN116541785A
CN116541785A CN202310815558.4A CN202310815558A CN116541785A CN 116541785 A CN116541785 A CN 116541785A CN 202310815558 A CN202310815558 A CN 202310815558A CN 116541785 A CN116541785 A CN 116541785A
Authority
CN
China
Prior art keywords
model
toxicity
prediction
data
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310815558.4A
Other languages
English (en)
Other versions
CN116541785B (zh
Inventor
董兆敏
李育哲
王蓓丽
陈丽莉
李书鹏
郭丽莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BCEG Environmental Remediation Co Ltd
Original Assignee
BCEG Environmental Remediation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BCEG Environmental Remediation Co Ltd filed Critical BCEG Environmental Remediation Co Ltd
Priority to CN202310815558.4A priority Critical patent/CN116541785B/zh
Publication of CN116541785A publication Critical patent/CN116541785A/zh
Application granted granted Critical
Publication of CN116541785B publication Critical patent/CN116541785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4845Toxicology, e.g. by detection of alcohol, drug or toxic products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/40Animals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/42Evaluating a particular growth phase or type of persons or animals for laboratory research
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度集成机器学习模型的毒性预测方法及系统,包括:基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型搭建Stacking集成模型,利用急性毒性数据构建数据集对Stacking集成模型进行训练及评价,并基于活性悬崖来划分毒性预测模型的适用域,生成毒性预测模型,获取待测毒性数据对应的分子描述符表示及分子同表示,作为毒性预测模型的输入,获取待测毒性数据的毒性预测值。本发明通过Stacking集成模型提高最终的预测结果的准确性和稳定性,并且将不同类型的算法组合在一起提高预测的鲁棒性,为急性毒性的准确预测提供应用工具。

Description

基于深度集成机器学习模型的毒性预测方法及系统
技术领域
本发明涉及毒性预测技术领域,更具体的,涉及一种基于深度集成机器学习模型的毒性预测方法及系统。
背景技术
化学物质在给人类带来便捷的同时,也给人类和生态系统造成了潜在危害。如人类可通过食物、大气、饮用水等途径暴露于大量的化学物质。为了评估不同化学物的风险危害,需要通过毒性测试获取化学物质的毒性数据。通常而言,毒性测试需要进行成本高昂且耗时的体外试验或者体内试验,收集和分析有关化学物质的实验结果进而获得相关的安全阈值。然而,近几十年来化学合成物质的数量呈指数增长,传统实验方法由于实验成本和时间成本过于高昂,已经远远不能满足现代化学品毒性测试的要求。相对而言,以定量结构-活动关系(QSAR模型)为代表的计算毒理学的方法可基于化学物质的结构、物化性质等,实现对化学物质毒性快速而正确的预测,在过去几十年间得到了极大的发展。
近年来,由于算法以及算力的进步,科学家开始将机器学习引入计算毒理学领域,以提高毒性预测的正确性。如利用特定算法,QSAR模型可以首先学习现有数据(即训练数据)中结构特征(即描述符)和化学活性之间的相关规则,然后有效地利用所学规则预测新物质的毒性。而目前缺少毒性预测的集成框架,导致预测稳定性不足。因此,如何建立包含多种机器模型算法的集成模型为急性毒性的准确预测提供应用工具是该领域亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于深度集成机器学习模型的毒性预测方法及系统。
本发明第一方面提供了一种基于深度集成机器学习模型的毒性预测方法,包括:
获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
本方案中,获取急性毒性数据构建数据集,具体为:
通过小鼠的急性口服毒性试验获取小鼠口服急性毒性数据,进行数据处理及数据清洗,去除不方便计算分子指纹的聚合物,并对重复出现的化合物进行平均;
以半数致死剂量的形式表示,将所述半数致死剂量/>转化为对数形式
使用每个化合物的CASR编码和PubChem数据库中的化学信息查询,获取了每个化合物的Smiles编码,将所述每个化合物的Smiles编码转化为ECFP编码;
选取预设数量的化合物作为验证集,其余作为基数据集用于基模型的训练及测试。
本方案中,基于随机森林、支持向量机回归、有向信息传递神经网络及AttentiveFP模型作为Stacking集成模型的基模型利用所述数据集进行训练,具体为:
采用超级学习机方法基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型构建Stacking集成模型,分为三个阶段进行模型训练;
在第一阶段中,在大小为n的基数据集的基础上训练m个基模型,其中m=4,堆叠得到的预测矩阵Z,/>,式中/>为第j种算法,/>为基数据集中第i个数据样本,/>为第一阶段中预测矩阵的表示;
将各基模型对于基数据集的预测堆叠作为特征输入第二阶段中,将预测堆叠对应的预测矩阵作为元数据集训练三个元模型,包括随机森林、支持向量回归及广义线性回归,第二阶段中的随机森林及支持向量回归与第一阶段中的模型不同,其中,,式中/>为第二阶段的第k种算法;
在第三阶段通过非负最小二乘算法计算每个算法的贡献及,生成元模型的权重信息,将元模型的预测与所述权重信息结合生成Stacking集成模型的预测结果,式中/>为权重信息,/>
本方案中,采用五折交叉验证对Stacking集成模型进行模型评价,将所述数据集分成五个大小相等的子集,其中四个子集作为训练集,一个子集作为测试集;
利用所述子集进行组合分别进行五次实验,每一次都用不同的子集作为测试集,其余四个子集作为训练集;
使用相关指数,平均相对误差MAE及均方根误差RMSE作为评价指标,将五次实验的评估结果进行平均,作为模型的性能评估结果。
本方案中,基于活性悬崖来划分毒性预测模型的适用域,具体为:
获取训练集中各化合物的MACCS指纹,使用所述MACCS指纹计算谷本系数分析相似度,根据所述谷本系数将所有化合物划分为多个子空间,在所述子空间中化合物的相似度均大于预设阈值
利用局部不连续性分数检测活性悬崖上的化合物,对于待检测分子m,其局部不连续性分数/>计算公式为:
其中,n表示化合物的一个子空间集合,n与m具有大于预设阈值/>的相似度,/>表示m与n的谷本系数,/>表示m和n之间性质的绝对差异,K表示集合元素的数量;
根据待检测分子与训练集中化合物分子的相似度插入训练集的子空间,预设局部不连续分数阈值,若待检测分子与训练集中化合物分子之间的局部不连续分数大于等于所述局部不连续分数阈值/>,则证明所述待检测分子位于活性悬崖上,预测结果具有不确定性;
若待检测分子与训练集中化合物分子的相似度小于预设阈值,则证明待检测分子不能被放入训练集的子空间,训练集中没有相似的化合物,不能得出准确的预测结果;
通过预设阈值及预设局部不连续分数阈值/>控制筛选,筛选后测试集中剩下的化合物被认为是位于适用域内的化合物。
本方案中,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示,具体为:
利用ECFP指纹将待测毒性数据进行分子向量化,选取最佳描述符及参数获取待测毒性数据对应的分子描述符,生成分子描述符表示;
将待测毒性数进行图表示获取对应的分子图,在所述分子图中将原子作为节点,化学键作为边,对所述分子图进行学习,生成分子图表示。
本发明第二方面还提供了一种基于深度集成机器学习模型的毒性预测系统,该系统包括:存储器、处理器,所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序,所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤:
获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
本发明公开了一种基于深度集成机器学习模型的毒性预测方法及系统,包括:基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型搭建Stacking集成模型,利用急性毒性数据构建数据集对Stacking集成模型进行训练及评价,生成毒性预测模型,获取待测毒性数据对应的分子描述符表示及分子同表示,作为毒性预测模型的输入,获取待测毒性数据的毒性预测值。本发明通过Stacking集成模型提高最终的预测结果的准确性和稳定性,并且将不同类型的算法组合在一起提高预测的鲁棒性,为急性毒性的准确预测提供应用工具。再者,基于活性悬崖的适用域定义方法,计算谷本系数来衡量化合物之间的距离,使用阈值控制划分子空间。通过计算局部不连续系数和阈值控制计算活性悬崖。进一步提高了模型预测性能和预测的可靠性。
附图说明
图1示出了本发明一种基于深度集成机器学习模型的毒性预测方法的流程图;
图2示出了五折实验中Stacking集成模型中每层基础模型的结果和真实值的均方根误差;
图3示出了在时以及当/>时,/>的变化对验证集剩余化合物数量以及模型性能的影响;
图4示出了本发明一种基于深度集成机器学习模型的毒性预测系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于深度集成机器学习模型的毒性预测方法的流程图。
如图1所示,本发明第一方面提供了一种基于深度集成机器学习模型的毒性预测方法,包括:
S102,获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
S104,对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
S106,获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
S108,将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
需要说明的是,数据来源于NationalToxicologyProgram(NTP)的小鼠口服急性毒性数据,通过小鼠的急性口服毒性试验获取小鼠口服急性毒性数据,急性口服毒性试验通常是评估化学物质在短时间内口服后对生物体产生的毒性效应。在这些试验中,实验动物通常会在24小时内口服一定剂量的测试物质,然后通过观察其行为、症状、生理参数等指标来评估其毒性效应。结果以半数致死剂量的形式表示,即每千克体重的试验动物所需的化学物质剂量,以使其中50%的实验动物在24小时内死亡,进行数据处理及数据清洗,去除不方便计算分子指纹的聚合物,并对重复出现的化合物的/>进行平均;将所述半数致死剂量/>转化为对数形式/>,以便于模型输入和处理。
使用每个化合物的CASR编码和PubChem数据库中的化学信息查询,获取了每个化合物的Smiles编码,将所述每个化合物的Smiles编码转化为ECFP编码,Smiles编码是一种描述分子结构的字符串,可以方便地用于计算机模拟和机器学习模型的输入。通过分析和比较每个化合物的Smiles编码,更好地了解其分子结构和化学性质,从而更准确地预测其毒性和潜在的环境影响。接下来使用python包RDkit将smiles符转化为ECFP编码。选取预设数量的化合物作为验证集,其余作为基数据集用于基模型的训练及测试。
根据本发明实施例,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练,具体为:
采用超级学习机方法基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型构建Stacking集成模型,分为三个阶段进行模型训练;
在第一阶段中,在大小为n的基数据集的基础上训练m个基模型,其中m=4,堆叠得到的预测矩阵Z,/>,式中/>为第j种算法,/>为基数据集中第i个数据样本,/>为第一阶段中预测矩阵的表示;
将各基模型对于基数据集的预测堆叠作为特征输入第二阶段中,将预测堆叠对应的预测矩阵作为元数据集训练三个元模型,包括随机森林、支持向量回归及广义线性回归,第二阶段中的随机森林及支持向量回归与第一阶段中的模型不同,其中,,式中/>为第二阶段的第k种算法;
在第三阶段通过非负最小二乘算法计算每个算法的贡献及,生成元模型的权重信息,将元模型的预测与所述权重信息结合生成Stacking集成模型的预测结果,式中/>为权重信息,/>
需要说明的是,超级学习器是集成学习方法 Stacking 思想的一种实现方式,通常涉及多个层级,其中第一层包括多个基线模型,每个模型都被训练和评估, 以生成预测结果,这些预测结果被用作第二层的输入,通过使用另一个模型来组合这些预测结果,生成组合预测结果。这个过程可以重复多次,以形成更深层次的模型。
对物质的毒性数据进行预测都需要基于分子的化学结构信息。如果想将化学描述符输入到机器学习模型中进行计算,就需要将它们转化为向量化的分子指纹。分子指纹是将分子结构转换为向量表示的方法,计算分子指纹的方法有很多种,比如MACCS(分子访问系统)、RDkit指纹和扩展连通性指纹(ECFP)。采用ECFP指纹将分子向量化作为模型的输入。ECFP也称摩根指纹,是基于分子中原子之间的连通关系。通过对分子的连接图进行扩展,生成一系列不同的子结构片段,并编码这些片段的存在或缺失情况,形成一个二进制向量。
在本发明实施例中,随机森林模型RF使用了181个决策树,每个树的最大深度为14,以进行分子性质的预测。模型使用DeepChem的sklean接口搭建,并且使用DeepChem自带的高斯优化得到超参数。支持向量回归SVR可以处理非线性关系,并且对于离群值的影响较小,支持向量回归SVR使用径向基函数rbf作为核函数,惩罚系数C值为1.0。
图是由节点和连接这些节点的边组成的一种数据结构。将原子作为节点,化学键作为边,任何一个分子都可以表示为分子图的形式。原子和化学键可以带有不同的属性,如原子的元素类型、电荷状态,以及化学键的键级等等。此外,分子图还可以包括其他类型的节点和边,如环、芳香性键等等。将分子图定义为,其中/>表示分子图,/>表示第i个原子的特征,/>表示j原子位于i原子的邻域,/>表示i原子和j原子间的边的特征。
有向信息传递神经网络D-MPNN将原子和键的特征向量转换为分子的潜在表示,嵌入分子随后通过第二个全连接神经网络进行属性预测任务,D-MPNN模型可以分为三个阶段:信息传递、更新阶段和读出阶段。Attentive FP模型使用自我注意力机制来对化学结构进行编码,并将它们映射到预测目标。这种方法能够有效地处理化学结构之间的相互作用,并且可以很好地处理具有不同大小和形状的分子,核心原理是使用自我注意力机制对化学结构进行编码,从而获取化合物的表示。自我注意力机制是指模型学习如何为输入序列中的每个元素分配权重,从而使模型能够在不同的位置对序列进行不同的关注。
根据本发明实施例,采用五折交叉验证对Stacking集成模型进行模型评价,将所述数据集分成五个大小相等的子集,其中四个子集作为训练集,一个子集作为测试集;利用所述子集进行组合分别进行五次实验,每一次都用不同的子集作为测试集,其余四个子集作为训练集;使用相关指数,平均相对误差MAE及均方根误差RMSE作为评价指标,将五次实验的评估结果进行平均,作为模型的性能评估结果。
图2中展示了五折实验中Stacking集成模型中每层基础模型的结果和真实值的均方根误差(RMSE)。图中横轴代表不同的模型,纵轴代表模型输出和真实值的RMSE,RMSE越低代表在这次折叠实验,该模型表现越好。横轴前四种模型AFP,DMPNN,SVR,RF是集成模型的第一层基础模型。MLR(2),SVR(2),RF(2)代表第二层的三种模型。最后Stacking(3)代表Stacking集成模型。可以看出第二层模型平均性能高于大部分的基模型,第三层模型的性能大于所有的第二层模型。另外相比单独的基础模型,结合了多个基础模型的Stacking模型表现出了更高准确性和稳定性。
根据本发明实施例,基于活性悬崖来划分毒性预测模型的适用域,具体为:
获取训练集中各化合物的MACCS指纹,使用所述MACCS指纹计算谷本系数分析相似度,根据所述谷本系数将所有化合物划分为多个子空间,在所述子空间中化合物的相似度均大于预设阈值
利用局部不连续性分数检测活性悬崖上的化合物,对于待检测分子m,其局部不连续性分数/>计算公式为:
其中,n表示化合物的一个子空间集合,n与m具有大于预设阈值/>的相似度,/>表示m与n的谷本系数,/>表示m和n之间性质的绝对差异,K表示集合元素的数量;
根据待检测分子与训练集中化合物分子的相似度插入训练集的子空间,预设局部不连续分数阈值,若待检测分子与训练集中化合物分子之间的局部不连续分数大于等于所述局部不连续分数阈值/>,则证明所述待检测分子位于活性悬崖上,预测结果具有不确定性;
若待检测分子与训练集中化合物分子的相似度小于预设阈值,则证明待检测分子不能被放入训练集的子空间,训练集中没有相似的化合物,不能得出准确的预测结果;
通过预设阈值及预设局部不连续分数阈值/>控制筛选,筛选后测试集中剩下的化合物被认为是位于适用域内的化合物。
需要说明的是,使用活性悬崖AC来划分适用域,相似结构但具有相反性质的分子会对它们的结构-活性景观SAL产生“局部不连续”,也称为活性悬崖。基于使用MACCS计算的谷本系数,同时利用局部不连续性分数SLD来检测AC上的化合物。MACCS指纹是一种短而稠密的分子指纹,将分子中常见的结构片段编码为166位的二进制向量。谷本系数为基于两个分子之间共有的结构片段数量与它们各自具有的结构片段总数之比,计算出两个分子之间的相似度,其取值范围在0到1之间,其中1表示两个分子完全相同,0表示两个分子没有共同的结构片段。
图3展示了在时,/>的变化对验证集剩余化合物数量以及模型性能的影响;以及当/>时,/>的变化的影响。
直方图可以看出,随着的增加,与训练组相似的化学物质的判断标准变得更加严格,更多与测试集相似度较低的化学物质被排除在外,验证集中物质减少。随着的增加,检验是否是AC的阈值增加,属于活性悬崖的化合物减少,适用域中残留的化学物质数量增加,从折线图看出,模型的/>随/>变化明显。说明验证集中降低模型性能的化合物在结构上和训练集差异较大。当提高/>,意味着预测的化合物和训练集化合物之间需要有更大相似度才能被预测。当剔除力度过大。能被正确预测的一部分化合物也会被去除,导致模型预测效果下降。/>的增加意味着判断活性悬崖的严格程度增加,一个化合物需要具有更大的SLD才能被判定为是活性悬崖,从而使得剔除的化合物数量减少。
使用了两个阈值来控制筛选的力度,预设阈值控制相似度阈值,其越大,代表新化合物需要有更大的相似度才能被预测;局部不连续分数阈值/>控制位于AC上化合物的筛选力度,其越高,代表认为具有更高SLD的分子被才会被认为是活性悬崖上的分子,从而降低了筛选力度。
需要说明的是,将待测毒性数据进行预处理,利用ECFP指纹将待测毒性数据进行分子向量化,选取最佳描述符及参数获取待测毒性数据对应的分子描述符,生成分子描述符表示;将待测毒性数进行图表示获取对应的分子图,在所述分子图中将原子作为节点,化学键作为边,对所述分子图进行学习,生成分子图表示。将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
图4示出了本发明一种基于深度集成机器学习模型的毒性预测系统的框图。
本发明第二方面还提供了一种基于深度集成机器学习模型的毒性预测系统4,该系统包括:存储器41、处理器42,所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序,所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤:
获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于深度集成机器学习模型的毒性预测方法程序,所述基于深度集成机器学习模型的毒性预测方法程序被处理器执行时,实现如上述任一项所述的基于深度集成机器学习模型的毒性预测方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于深度集成机器学习模型的毒性预测方法,其特征在于,包括以下步骤:
获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
2.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法,其特征在于,获取急性毒性数据构建数据集,具体为:
通过小鼠的急性口服毒性试验获取小鼠口服急性毒性数据,进行数据处理及数据清洗,去除不方便计算分子指纹的聚合物,并对重复出现的化合物进行平均;
以半数致死剂量的形式表示,将所述半数致死剂量/>转化为对数形式
使用每个化合物的CASR编码和PubChem数据库中的化学信息查询,获取了每个化合物的Smiles编码,将所述每个化合物的Smiles编码转化为ECFP编码;
选取预设数量的化合物作为验证集,其余作为基数据集用于基模型的训练及测试。
3.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法,其特征在于,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练,具体为:
采用超级学习机方法基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型构建Stacking集成模型,分为三个阶段进行模型训练;
在第一阶段中,在大小为n的基数据集的基础上训练m个基模型,其中m=4,堆叠得到的预测矩阵Z,/>,式中/>为第j种算法,/>为基数据集中第i个数据样本,/>为第一阶段中预测矩阵的表示;
将各基模型对于基数据集的预测堆叠作为特征输入第二阶段中,将预测堆叠对应的预测矩阵作为元数据集训练三个元模型,包括随机森林、支持向量回归及广义线性回归,第二阶段中的随机森林及支持向量回归与第一阶段中的模型不同,其中,,式中/>为第二阶段的第k种算法;
在第三阶段通过非负最小二乘算法计算每个算法的贡献及,生成元模型的权重信息,将元模型的预测与所述权重信息结合生成Stacking集成模型的预测结果,式中/>为权重信息,/>
4.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法,其特征在于,采用五折交叉验证对Stacking集成模型进行模型评价,将所述数据集分成五个大小相等的子集,其中四个子集作为训练集,一个子集作为测试集;
利用所述子集进行组合分别进行五次实验,每一次都用不同的子集作为测试集,其余四个子集作为训练集;
使用相关指数,平均相对误差MAE及均方根误差RMSE作为评价指标,将五次实验的评估结果进行平均,作为模型的性能评估结果。
5.根据权利要求1或4所述的一种基于深度集成机器学习模型的毒性预测方法,其特征在于,基于活性悬崖来划分毒性预测模型的适用域,具体为:
获取训练集中各化合物的MACCS指纹,使用所述MACCS指纹计算谷本系数分析相似度,根据所述谷本系数将所有化合物划分为多个子空间,在所述子空间中化合物的相似度均大于预设阈值
利用局部不连续性分数检测活性悬崖上的化合物,对于待检测分子m,其局部不连续性分数/>计算公式为:
其中,n表示化合物的一个子空间集合,n与m具有大于预设阈值/>的相似度,/>表示m与n的谷本系数,/>表示m和n之间性质的绝对差异,K表示集合元素的数量;
根据待检测分子与训练集中化合物分子的相似度插入训练集的子空间,预设局部不连续分数阈值,若待检测分子与训练集中化合物分子之间的局部不连续分数大于等于所述局部不连续分数阈值/>,则证明所述待检测分子位于活性悬崖上,预测结果具有不确定性;
若待检测分子与训练集中化合物分子的相似度小于预设阈值,则证明待检测分子不能被放入训练集的子空间,训练集中没有相似的化合物,不能得出准确的预测结果;
通过预设阈值及预设局部不连续分数阈值/>控制筛选,筛选后测试集中剩下的化合物被认为是位于适用域内的化合物。
6.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法,其特征在于,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示,具体为:
利用ECFP指纹将待测毒性数据进行分子向量化,选取最佳描述符及参数获取待测毒性数据对应的分子描述符,生成分子描述符表示;
将待测毒性数进行图表示获取对应的分子图,在所述分子图中将原子作为节点,化学键作为边,对所述分子图进行学习,生成分子图表示。
7.一种基于深度集成机器学习模型的毒性预测系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序,所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤:
获取急性毒性数据构建数据集,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练;
对训练后的Stacking集成模型进行模型评价,并基于活性悬崖来划分毒性预测模型的适用域,获取符合预设标准的Stacking集成模型作为毒性预测模型;
获取待测毒性数据,将待测毒性数据进行预处理,获取待测毒性数据对应的分子描述符及分子图,生成分子描述符表示及分子图表示;
将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入,获取待测毒性数据的毒性预测值。
8.根据权利要求7所述的一种基于深度集成机器学习模型的毒性预测系统,其特征在于,基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练,具体为:
采用超级学习机方法基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型构建Stacking集成模型,分为三个阶段进行模型训练;
在第一阶段中,在大小为n的基数据集的基础上训练m个基模型,其中m=4,堆叠得到的预测矩阵Z,/>,式中/>为第j种算法,/>为基数据集中第i个数据样本,/>为第一阶段中预测矩阵的表示;
将各基模型对于基数据集的预测堆叠作为特征输入第二阶段中,将预测堆叠对应的预测矩阵作为元数据集训练三个元模型,包括随机森林、支持向量回归及广义线性回归,第二阶段中的随机森林及支持向量回归与第一阶段中的模型不同,其中,,式中/>为第二阶段的第k种算法;
在第三阶段通过非负最小二乘算法计算每个算法的贡献及,生成元模型的权重信息,将元模型的预测与所述权重信息结合生成Stacking集成模型的预测结果,式中/>为权重信息,/>
9.根据权利要求7所述的一种基于深度集成机器学习模型的毒性预测系统,其特征在于,采用五折交叉验证对Stacking集成模型进行模型评价,将所述数据集分成五个大小相等的子集,其中四个子集作为训练集,一个子集作为测试集;
利用所述子集进行组合分别进行五次实验,每一次都用不同的子集作为测试集,其余四个子集作为训练集;
使用相关指数,平均相对误差MAE及均方根误差RMSE作为评价指标,将五次实验的评估结果进行平均,作为模型的性能评估结果。
10.根据权利要求7或9所述的一种基于深度集成机器学习模型的毒性预测系统,其特征在于,基于活性悬崖来划分毒性预测模型的适用域,具体为:
获取训练集中各化合物的MACCS指纹,使用所述MACCS指纹计算谷本系数分析相似度,根据所述谷本系数将所有化合物划分为多个子空间,在所述子空间中化合物的相似度均大于预设阈值
利用局部不连续性分数检测活性悬崖上的化合物,对于待检测分子m,其局部不连续性分数/>计算公式为:
其中,n表示化合物的一个子空间集合,n与m具有大于预设阈值/>的相似度,/>表示m与n的谷本系数,/>表示m和n之间性质的绝对差异,K表示集合元素的数量;
根据待检测分子与训练集中化合物分子的相似度插入训练集的子空间,预设局部不连续分数阈值,若待检测分子与训练集中化合物分子之间的局部不连续分数大于等于所述局部不连续分数阈值/>,则证明所述待检测分子位于活性悬崖上,预测结果具有不确定性;
若待检测分子与训练集中化合物分子的相似度小于预设阈值,则证明待检测分子不能被放入训练集的子空间,训练集中没有相似的化合物,不能得出准确的预测结果;
通过预设阈值及预设局部不连续分数阈值/>控制筛选,筛选后测试集中剩下的化合物被认为是位于适用域内的化合物。
CN202310815558.4A 2023-07-05 2023-07-05 基于深度集成机器学习模型的毒性预测方法及系统 Active CN116541785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310815558.4A CN116541785B (zh) 2023-07-05 2023-07-05 基于深度集成机器学习模型的毒性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310815558.4A CN116541785B (zh) 2023-07-05 2023-07-05 基于深度集成机器学习模型的毒性预测方法及系统

Publications (2)

Publication Number Publication Date
CN116541785A true CN116541785A (zh) 2023-08-04
CN116541785B CN116541785B (zh) 2023-09-12

Family

ID=87445636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310815558.4A Active CN116541785B (zh) 2023-07-05 2023-07-05 基于深度集成机器学习模型的毒性预测方法及系统

Country Status (1)

Country Link
CN (1) CN116541785B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010216A (zh) * 2023-09-29 2023-11-07 张家港长三角生物安全研究中心 一种微生物气溶胶表面消毒效果的模拟评估方法
CN118280471A (zh) * 2024-03-27 2024-07-02 重庆大学 一种融合数据平衡与分子碎片化的化合物毒性评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
KR20200072585A (ko) * 2018-11-30 2020-06-23 이율희 인공지능에 기반한 대상 물질의 유해성과 위해성 예측 방법
CN114974460A (zh) * 2022-06-16 2022-08-30 南京大学 一种预测消毒副产物细胞毒性的方法
CN115171792A (zh) * 2022-06-30 2022-10-11 湖南大学 一种毒力因子和抗生素抗性基因的混合预测方法
CN116030905A (zh) * 2023-02-16 2023-04-28 大连理工大学 一种预测神经毒物短期暴露致死效应的集成学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200072585A (ko) * 2018-11-30 2020-06-23 이율희 인공지능에 기반한 대상 물질의 유해성과 위해성 예측 방법
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
CN114974460A (zh) * 2022-06-16 2022-08-30 南京大学 一种预测消毒副产物细胞毒性的方法
CN115171792A (zh) * 2022-06-30 2022-10-11 湖南大学 一种毒力因子和抗生素抗性基因的混合预测方法
CN116030905A (zh) * 2023-02-16 2023-04-28 大连理工大学 一种预测神经毒物短期暴露致死效应的集成学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010216A (zh) * 2023-09-29 2023-11-07 张家港长三角生物安全研究中心 一种微生物气溶胶表面消毒效果的模拟评估方法
CN117010216B (zh) * 2023-09-29 2023-12-19 张家港长三角生物安全研究中心 一种微生物气溶胶表面消毒效果的模拟评估方法
CN118280471A (zh) * 2024-03-27 2024-07-02 重庆大学 一种融合数据平衡与分子碎片化的化合物毒性评价方法
CN118280471B (zh) * 2024-03-27 2024-09-27 重庆大学 一种融合数据平衡与分子碎片化的化合物毒性评价方法

Also Published As

Publication number Publication date
CN116541785B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN116541785B (zh) 基于深度集成机器学习模型的毒性预测方法及系统
Zhang et al. An end-to-end deep learning architecture for graph classification
JP2023082017A (ja) コンピュータシステム
WO2020247616A1 (en) Linguistically rich cross-lingual text event embeddings
You et al. Feature selection for high-dimensional multi-category data using PLS-based local recursive feature elimination
Sathya et al. [Retracted] Cancer Categorization Using Genetic Algorithm to Identify Biomarker Genes
CN113793696A (zh) 一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质
WO2020149897A1 (en) A deep learning model for learning program embeddings
Bruckers et al. Clustering multiply imputed multivariate high‐dimensional longitudinal profiles
Bai et al. A hierarchical transitive-aligned graph kernel for un-attributed graphs
Kuo et al. Using stacked denoising autoencoder for the student dropout prediction
Fan et al. Inferring large-scale gene regulatory networks using a randomized algorithm based on singular value decomposition
CN109582953B (zh) 一种资讯的言据支撑评分方法、设备和存储介质
KR20200094490A (ko) 자연어 처리 기법을 활용한 화합물의 새로운 분자지문 표현식 및 이를 활용한 정량적 구조기반 활성 예측 방법
CN115292703A (zh) 一种恶意代码聚类方法及系统
Limbu et al. Predicting environmental chemical carcinogenicity using a hybrid machine-learning approach
CN113362920B (zh) 基于临床数据的特征选择方法及装置
Rastogi et al. Semi-parametric inducing point networks and neural processes
CN111276248B (zh) 状态确定系统和电子设备
Kermani et al. Integrating graph structure information and node attributes to predict protein-protein interactions
Vračko et al. A non-standard view on artificial neural networks
Shi et al. Prediction of soil adsorption coefficient based on deep recursive neural network
Bolshakova et al. Incorporating biological domain knowledge into cluster validity assessment
CN118280471B (zh) 一种融合数据平衡与分子碎片化的化合物毒性评价方法
Cheng et al. GexMolGen: Cross-modal Generation of Hit-like Molecules via Large Language Model Encoding of Gene Expression Signatures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant