CN115274002B - 一种基于机器学习的化合物持久性筛查方法 - Google Patents
一种基于机器学习的化合物持久性筛查方法 Download PDFInfo
- Publication number
- CN115274002B CN115274002B CN202210664747.1A CN202210664747A CN115274002B CN 115274002 B CN115274002 B CN 115274002B CN 202210664747 A CN202210664747 A CN 202210664747A CN 115274002 B CN115274002 B CN 115274002B
- Authority
- CN
- China
- Prior art keywords
- compound
- machine learning
- screening
- model
- persistence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Medicinal Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的化合物持久性筛查方法,包括:下载化合物的SMILES,并计算化合物的分子描述符;将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;机器学习筛查模型输出化合物的持久性筛查预测结果。本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测,结合多种机器学习算法和采用尽可能多的分子描述符,以期筛选具有较强持久性的化学污染物。
Description
技术领域
本发明涉及化合物性质筛查技术,具体涉及一种基于机器学习的化合物持久性筛查方法。
背景技术
大量的化学品通过排放赋存在自然环境,其中具有高持久性的化学物质难以降解,可以在环境中长久存在,会对生态环境造成严重影响。标准的持久性筛查方法是首先检查目标物是否是REACH高度关注物质中已知的PBT类物质或已存在于POPs清单中,若在,则认为该物质具有持久性。对于不在这些清单中的物质,则首先利用PubChem数据库(https://pubchem.ncbi.nlm.nih.gov/)查找获取该物质的实验半衰期数据;如果实验数据不足确定物质的持久性,将用“PBT-BIOWIN”或QSAR Toolbox中的“P Pridictor”物质半衰期预测模型工具来进行判断。如果使用这两种筛查工具得到的化合物持久性结论有所冲突,上一步从PubChem中获得的物质实验半衰期数据也作为P结论的证据权重。当这些证据仍然不足以得出持久性结论时,Arnot-BIOWIN模型将辅助得到最后的结论。需要特别注意的是“potential P++”结论,如果该化合物在饮用水中被检测出,“vP”将代替“potential P++”成为该物质持久性的结论。现有技术由于需要对化合物逐一手动筛查,因此筛查速度较慢,无法实现对海量化合物的快速高通量筛查。
针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。
发明内容
为了解决上述背景技术所存在的至少一技术问题,本发明提供一种基于机器学习的化合物持久性筛查方法。
为实现上述目的,本发明的技术方案是:
一种基于机器学习的化合物持久性筛查方法,包括:
下载化合物的SMILES,并计算化合物的分子描述符;
将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
机器学习筛查模型输出化合物的持久性筛查预测结果。
进一步地,所述机器学习筛查预测模型通过如下方式构建:
数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;
分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;
数据处理平衡及建模:对所述数据集采用基于集成学习的Easy Ensemble算法进行数据平衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型。
进一步地,所述参数调优包括:
将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;
采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;
对超参数“n_estimators”进行调节,候选八个模型的最优目标参数,调优目标为准确率;“n_estimators”为Easy Ensemble模型中基分类器的个数;
在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
进一步地,所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。
进一步地,所述应用域判定的计算方法为:
采用欧几里得距离来判断化合物之间的相似度;计算训练数据集中所有化学物质的分子描述符的平均值作为质心;计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值;当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。
进一步地,目标化合物与质心之间欧氏距离的数学表达式如下所示:
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
进一步地,所述反类样本的数量多于正类样本数量。
进一步地,所述化合物的分子描述符通过alvaDesc软件来进行计算。
进一步地,所述有效分子描述符有2630个。
进一步地,采用软投票法将八个Easy Ensemble模型进行集成。
进一步地,所述训练集占比80%,测试集占比20%
本发明与现有技术相比,其有益效果在于:
本申请通过用机器学习筛查预测模型可以实现对海量化学品的持久性进行预测,结合多种机器学习算法和尽可能多的分子描述符,以期准确地筛选具有较强持久性的化学污染物。
附图说明
图1为本发明实施例提供的基于机器学习的化合物持久性筛查方法的流程图;
图2为机器学习筛查预测模型的构建流程图。
具体实施方式
实施例:
下面结合附图和实施例对本发明的技术方案做进一步的说明。
针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。鉴于这个现状,本实施例提供了基于机器学习的化合物持久性筛查方法。
参阅图1所示,本实施例提供的基于机器学习的化合物持久性筛查方法主要包括如下步骤:
101、下载化合物的SMILES,然后将化合物的SMILES输入到软件alvaDesc中计算化合物的分子描述符;
102、将计算好的分子描述符按顺序排列好,保存为EXCEL文件,然后利用Python程序导入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
103、机器学习筛查模型输出化合物的持久性筛查预测结果。
由此可见,本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测,在机器学习算法和尽可能多的分子描述符,以期筛选具有较强持久性的化学污染物。
参阅图2所示,机器学习筛查模型通过如下方式构建:
数据库建立:通过阅读文献,共选择了1338种以前研究中具有持久性评估的化学品。其中370个化合物为持久性化合物(正类样本),968个化合物为非持久性化合物(反类样本)。此外,为了保证数据质量,这1339种化合物的持久性评估均基于高质量的实验数据。
分子描述:对于以上每个化合物,在pubchem网站(https://pubchem.ncbi.nlm.nih.gov/)下载了SMILES(i.e.simplifiedmolecular input line-entry system)。使用分子描述符计算软件alvaDesc计算了化合物的二维分子描述符。其中,具有缺失值的描述符以及对所有化合物而言为常数值的描述符被去除。最终,对于每个化合物,保留了2630个分子描述符用以后续的建模。
数据平衡处理及建模:由于数据集中,反类样本的数据要明显多于正类样本,这不利于模型的训练。为此,本实施例采用了基于集成学习的欠采样方法(Easy Ensemble)进行数据平衡处理。其中,在Easy Ensemble算法中,基分类器采用AdaBoost算法,其中Adaboost基分类器又由若干个弱分类器组成,本实施例分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机等八种机器学习算法作为弱分类器算法构建了八个EasyEnsemble模型;将以上八个模型进行超参数调优之后,用软投票法将以上八个模型进行集成,得到最终模型。
具体地,上述的超参数调优包括:在模型训练过程中,首先将数据集按相同正反比例划分为训练集(80%)和测试集(20%)。其中训练集用于训练模型,测试集用于测试模型的性能。采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数,对超参数“n_estimators”(即Easy Ensemble模型中基分类器的个数)进行调节,八个模型的最优目标参数分别为5,10,15,20,25,30,35和40,调优目标为准确率。在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
具体地,上述的应用域判定的计算方法为:采用欧几里得距离来判断化合物之间的相似度。计算训练数据集中所有化学物质的分子描述符的平均值作为质心。计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值。当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。目标化合物与质心之间欧氏距离的数学表达式如下所示:
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
相比于标准的持久性筛查方法,本实施例提供的机器学习筛查预测模型可以在保证一定计算精度前提下极大缩短计算时间,从导入模型到预测268个化合物的性质,模型只需要4分22秒。而如果采用标椎的手动筛查方法,则需要10天以上的时间。由此可以看出本实施例提供机器学习筛查预测模型大大提高了筛查速度,可以实现海量化合物的快速筛查。此外,本机器学习筛查预测模型采用了2630个分子描述符来建模,这些描述符可以较为全面地反应化合物的结构信息。
此外,本实施例采用基于集成学习的欠采样方法来平衡训练数据集,此方法在解决数据不平衡问题的同时,也避免了信息损失。同时,本申请基于集成学习采用了八种机器学习算法来建立机器学习筛查预测模型,最终的模型在测试集上达到了较好的性能,即整体准确率为83.6%,对于持久性物质的准确率为86.5%
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于机器学习的化合物持久性筛查方法,其特征在于,包括:
下载化合物的SMILES,并计算化合物的分子描述符;
将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
机器学习筛查模型输出化合物的持久性筛查预测结果;
所述机器学习筛查预测模型通过如下方式构建:
数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;
分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;
数据处理平衡及建模:对所述数据集采用基于集成学习的Easy Ensemble算法进行数据平衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型;
所述参数调优包括:
将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;
采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;
对超参数“n_estimators”进行调节,候选八个模型的最优目标参数,调优目标为准确率;“n_estimators”为Easy Ensemble模型中基分类器的个数;
在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果;
所述应用域判定的计算方法为:
采用欧几里得距离来判断化合物之间的相似度;计算训练数据集中所有化学物质的分子描述符的平均值作为质心;计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值;当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内;
目标化合物与质心之间欧氏距离的数学表达式如下所示:
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
2.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。
3.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述反类样本的数量多于正类样本数量。
4.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述化合物的分子描述符通过alvaDesc软件来进行计算。
5.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述有效分子描述符有2630个。
6.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,采用软投票法将八个Easy Ensemble模型进行集成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664747.1A CN115274002B (zh) | 2022-06-13 | 2022-06-13 | 一种基于机器学习的化合物持久性筛查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664747.1A CN115274002B (zh) | 2022-06-13 | 2022-06-13 | 一种基于机器学习的化合物持久性筛查方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115274002A CN115274002A (zh) | 2022-11-01 |
CN115274002B true CN115274002B (zh) | 2023-05-23 |
Family
ID=83759046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210664747.1A Active CN115274002B (zh) | 2022-06-13 | 2022-06-13 | 一种基于机器学习的化合物持久性筛查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115274002B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563133A (zh) * | 2017-08-30 | 2018-01-09 | 大连理工大学 | 采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法 |
CN114141317A (zh) * | 2021-12-07 | 2022-03-04 | 北京百度网讯科技有限公司 | 化合物性质预测模型训练方法、装置、设备以及存储介质 |
CN114520031A (zh) * | 2022-01-24 | 2022-05-20 | 浙江大学 | 一种基于机器学习的化合物胎盘膜透过性的预测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7201981B2 (ja) * | 2017-06-30 | 2023-01-11 | 学校法人 明治薬科大学 | 予測装置、予測方法および予測プログラム |
GB201805302D0 (en) * | 2018-03-29 | 2018-05-16 | Benevolentai Tech Limited | Ensemble Model Creation And Selection |
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
EP4186059A1 (en) * | 2020-07-24 | 2023-05-31 | INSERM (Institut National de la Santé et de la Recherche Médicale) | Training method and model for predicting inhibitors of drugs metabolizing enzymes |
CN113409899B (zh) * | 2021-06-18 | 2024-02-09 | 南京大学 | 一种基于作用模式的人类发育毒性预测的方法 |
CN114171137A (zh) * | 2021-12-10 | 2022-03-11 | 浙江大学 | 一种基于机器学习预测化合物环境危害性的方法 |
CN114548308B (zh) * | 2022-02-25 | 2024-07-16 | 暨南大学 | 识别持久性有机污染物的深度学习方法和装置 |
-
2022
- 2022-06-13 CN CN202210664747.1A patent/CN115274002B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563133A (zh) * | 2017-08-30 | 2018-01-09 | 大连理工大学 | 采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法 |
CN114141317A (zh) * | 2021-12-07 | 2022-03-04 | 北京百度网讯科技有限公司 | 化合物性质预测模型训练方法、装置、设备以及存储介质 |
CN114520031A (zh) * | 2022-01-24 | 2022-05-20 | 浙江大学 | 一种基于机器学习的化合物胎盘膜透过性的预测方法 |
Non-Patent Citations (1)
Title |
---|
有机污染物生物富集因子定量预测模型的建立与评价;秦红;陈景文;王莹;王斌;李雪花;李斐;王亚南;;科学通报(01);27-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN115274002A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
Janitza et al. | An AUC-based permutation variable importance measure for random forests | |
CN109491914B (zh) | 基于不平衡学习策略高影响缺陷报告预测方法 | |
CN105095494B (zh) | 一种对分类数据集进行测试的方法 | |
CN104361037B (zh) | 微博分类方法及装置 | |
Carstens et al. | A global analysis of bats using automated comparative phylogeography uncovers a surprising impact of Pleistocene glaciation | |
CN107273500A (zh) | 文本分类器生成方法、文本分类方法、装置及计算机设备 | |
CN117434429B (zh) | 芯片的稳定性测试方法及相关装置 | |
Mohammed et al. | INDUS-a composition-based approach for rapid and accurate taxonomic classification of metagenomic sequences | |
CN111343147A (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
Manikandan et al. | Feature selection on high dimensional data using wrapper based subset selection | |
Eisert et al. | ERGO-ML I: inferring the assembly histories of IllustrisTNG galaxies from integral observable properties via invertible neural networks | |
CN115269247A (zh) | 基于深度森林的闪存坏块预测方法、系统、介质及设备 | |
CN112597687B (zh) | 一种基于少样本学习的涡轮盘结构混合可靠性分析方法 | |
Lee et al. | Holistic parameter optimization for software defect prediction | |
CN115274002B (zh) | 一种基于机器学习的化合物持久性筛查方法 | |
CN116167336B (zh) | 基于云计算的传感器数据加工方法、云服务器及介质 | |
Singh et al. | Assessing reproducibility of high‐throughput experiments in the case of missing data | |
Cravero et al. | FS4RV DD: A feature selection algorithm for random variables with discrete distribution | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN114974462A (zh) | 缓蚀效率预测模型的训练方法、装置、设备及存储介质 | |
Pristyanto et al. | Ensemble model approach for imbalanced class handling on dataset | |
CN112257336A (zh) | 一种基于特征选择与支持向量机模型的矿井突水水源判别方法 | |
Kahn et al. | Selective background Monte Carlo simulation at Belle II |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |