CN113380337A - 一种基于深度神经网络的有机荧光小分子光学性质预测方法 - Google Patents
一种基于深度神经网络的有机荧光小分子光学性质预测方法 Download PDFInfo
- Publication number
- CN113380337A CN113380337A CN202110636186.XA CN202110636186A CN113380337A CN 113380337 A CN113380337 A CN 113380337A CN 202110636186 A CN202110636186 A CN 202110636186A CN 113380337 A CN113380337 A CN 113380337A
- Authority
- CN
- China
- Prior art keywords
- organic fluorescent
- optical property
- neural network
- model
- small molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明提供了一种基于深度神经网络的有机荧光小分子光学性质预测方法。本方法通过建立新的有机荧光小分子数据库,采用分子描述符和分子指纹提取分子信息,输入多层神经网络和卷积神经网络进行深度学习训练获得有机荧光小分子光学性质预测模型,将待预测有机荧光小分子及其实验溶剂的特征信息输入训练好的有机荧光小分子光学性质预测模型从而预测其光学性质。本发明方法能准确地预测有机荧光小分子的光学性质(平均相对误差小于5%),从而提高有机荧光小分子的开发效率。
Description
技术领域
本发明涉及计算机科学与化学荧光探针的交叉领域,特别是指一种基于深度神经网络的有机荧光小分子光学性质预测方法。
背景技术
随着生命科学的发展和研究需求,荧光成像技术逐渐成为定性和定量检测的重要手段之一。其中有机荧光小分子具有结构较小、易化学改造、光学性质优异等特点,其设计和合成一直是荧光成像领域的研究热点之一。目前对于有机荧光小分子的结构和光学性质之间的关系有了一定的理解,但能根据分子结构准确地预测其光学性质的报道还比较有限。目前大部分新型有机荧光分子的开发仍然基于同时合成一系列化合物,从而逐一考察其光学性质,筛选出具有理想荧光表现的分子,具有人力、时间成本和资源投入大、成功率偏低的局限。据此,亟需建立能够根据分子结构有效预测有机荧光小分子光学性质的方法,从而加速高性能荧光分子的构建。
自2006年Hinton等人提出深度学习的概念以来,人工智能领域步入了高速发展的新阶段。2012年以后得益于数据量的大爆发,人工智能开始大爆发。其中深度学习作为人工智能领域更为新进的成果,能够更加高效准确的认识到事物之间的联系。
发明内容
为了寻找更为有效、应用范围更大的有机荧光小分子光学性质预测的实现方案,本发明将深度学习应用于有机荧光小分子,充分利用其强大的学习表征和数据处理能力,准确预测相应分子的光学性质,提高分子设计效率。
为实现上述目的,本发明提供一种基于深度学习的有机荧光小分子光学性质预测方法,包括如下步骤:
从Web of Science和SciFinder数据库通过关键词和母核结构检索有机荧光小分子相关的文献,收集荧光分子的化学结构和实验所用的溶剂信息,记录各荧光分子的最大吸收波长、最大发射波长、吸光系数和量子产率等光学性质有关的重要参数,构建一个涵盖不同母核结构的数据库;根据分子的母核结构对数据库中的数据进行分类,获取数据的整体分布情况,选择分布相对均匀、数据相对丰富的五类母核类分子作为模型构建所需数据。通过随机分配,将其中90%的数据作为训练集,剩余10%与训练集类别相似但是不重复的数据作为测试集。
进一步地,模型输入特征为所对应的荧光分子结构和溶剂结构信息,该信息通过分子描述符、摩根指纹或MACCS指纹的方式计算处理获得。为简化结果输出,以荧光分子的最大吸收波长为例,作为模型输出。
进一步地,针对上述训练集,分别使用深度神经网络和卷积神经网络两种算法构建模型,并进行超参数的优化。
进一步地,将样本外测试集输入最佳模型,输出模型预测的最大吸收波长,根据预测平均相对误差验证模型对于样本外分子的预测能力,检验模型的准确性。
最后,对已经构建的模型进行微调,输入其他母核类型结构的分子,预测其最大吸收波长光学性质,检验模型的可迁移性。
与现有技术相比,本发明“一种基于深度神经网络的有机荧光小分子光学性质预测方法”具有如下效益:得益于深度神经网络对高维数据的处理能力,相关的分子特征信息能够全面地输入模型,更大程度上减少分子信息的缺失,有利于模型的学习和应用;训练涉及的分子涵盖母核结构为氟硼二吡咯、花青素、罗丹明、方酸和香豆素,数据量较丰富,这使得模型能够更加广泛地应用于多种有机荧光小分子光学性质的预测。发明方法流程清晰、简单,利于模型的重现和迁移。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例一种基于深度神经网络的有机荧光小分子光学性质预测方法;
图2是深度神经网络(DNN)的示意图;
图3是卷积神经网络(CNN)的示意图;
图4是相应模型对有机荧光小分子最大吸收波预测结果的示意图,纵向为不同的分子表征方式:分子指纹、MACCS指纹和摩根指纹;横向为不同的模型:DNN和CNN;结果用平均相对误差(MRE)表示。
图5是最佳模型预测样本外有机荧光小分子光学性质的结果:A是对BODIPY类分子预测的案例,B是对Rhodamine类分子预测的案例,C是对Cyanine类分子预测案例。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
请参阅图1-图5,本发明实施例的一种基于深度神经网络的有机荧光小分子光学性质预测方法,其包括如下步骤:
步骤S100:从已发表文献中获取有机荧光小分子数据,整理并分类,具体包含以下步骤:步骤S101:通过搜索关键词和结构式进行文献检索,收集与整理对有机荧光小分子结构和最大吸收波长有明确报道的文献。
步骤S102:收集文献中的有机荧光小分子的数据,包括所对应分子的化学结构、最大吸收波长、最大发射波长、吸光系数、量子产率和所用的实验溶剂。
步骤S103:所有数据根据分子的母核结构对数据库中的数据进行分类,获取数据的整体分布情况,选择分布相对均匀、数据相对丰富的五类母核分子:氟硼二吡咯(BODIPY)、花青素(cyanine)、罗丹明(rhodamine)、方酸(squaraine)、香豆素(coumarin),作为模型构建所需数据。
本实施例中,选择荧光分子的结构和溶剂的结构作为变量,有机荧光小分子最大吸收波长作为预测目标。
步骤S200:计算并处理有机荧光小分子和相应溶剂的分子描述符、摩根指纹或MACCS指纹作为特征信息,构建获得自主有机荧光小分子数据库。具体包含以下步骤:
步骤S201:利用RDKit计算有机荧光小分子和实验用溶剂的分子描述符;利用RDKit计算有机荧光小分子和实验用溶剂的摩根指纹;利用ChemDS计算训练集中有机荧光小分子和实验用溶剂的MACCS指纹。
步骤S202:依次将上述特征信息与有机荧光小分子最大吸收波长组成样本,构建获得自主有机荧光小分子数据库。
步骤S300:使用深度学习中的深度神经网络(DNN)与卷积神经网络(CNN)两种算法,对有机荧光小分子不同表征方式(分子描述符、MACCS指纹和摩根指纹)的训练集构建模型并训练。
本实施例中采用的深度神经网络结构与卷积神经网络结构如图2-3所示。DNN与CNN内部的神经网络层可以分为三类,输入层,隐藏层和输出层。第一层是输入层,将获取的特征输入模型;中间网络层都是隐藏层,对所有特征进行变换与处理;最后一层是输出层,输出模型预测的有机荧光小分子最大吸收波长值。其中,DNN的隐藏层均为全连接层,而CNN的隐含层包含卷积层、池化层和全连接层3类。各层之间使用线性整流函数(ReLU)作为激活函数,特殊的是最后一层使用线性激活函数(f(x)=x)。具体包括如下步骤:
步骤S301:使用深度学习中的深度神经网络(DNN)与卷积神经网络(CNN)两种算法,以分子描述符、摩根指纹和MACSS指纹提取的荧光分子和对应溶剂的结构信息分别作为模型输入,预测分子的最大吸收波长λabs(max)。
步骤S302:根据λabs(max)真实值和λabs(max)预测值之间的平均相对误差(MRE)调整所述神经网络中的超参数,以使λabs(max)预测值不断接近λabs(max)真实值,找到适用于反应数据的最佳超参数模型。
将样本外测试集输入模型,根据λabs(max)真实值和λabs(max)预测值之间的平均相对误差来检验模型对于样本外的反应的预测能力,从而检验模型的准确性、稳健性和可迁移性,并优化模型的超参数,获得训练好的模型。
利用训练好的模型可以预测有机荧光小分子光学性质。其中,针对不同的光学性质,需要重新以对应光学性质作为预测目标进行模型训练。本发明方法适用的光学性质包括最大吸收波长、最大发射波长、吸光系数和量子产率等。
为了验证本发明的效果,图4为CNN和DNN模型对有机荧光小分子最大吸收波预测结果的示意图:
模型为卷积神经网络,输入为分子描述符时,得到平均相对误差为3.85%;
模型为卷积神经网络,输入为MACSS指纹时,得到平均相对误差为4.39%;
模型为卷积神经网络,输入为摩根指纹时,得到平均相对误差为3.56%;
模型为深度神经网络,输入为分子描述符时,得到平均相对误差为4.02%;
模型为深度神经网络,输入为MACSS指纹时,得到平均相对误差为4.42%;
模型为深度神经网络,输入为摩根指纹时,得到平均相对误差为3.38%;
本实施案例中,对不同母核有机荧光小分子最大吸收波长的预测如图5所示:
第一个案例中,模型预测了7个额外BODIPY类分子,其平均相对误差为5.19%。共有5个分子的最大吸收波长的预测相对误差在5%以内,说明该模型对大部分样本外分子有较高的适用性。
第二个案例中,该模型以相同的方式评估了5个额外Rhodamine类分子。总体而言,模型对这些分子的最大吸收波长预测。其平均相对误差为4.78%,4个分子的最大吸收波长预测相对误差在5%以内。
第三个案例中,该模型评估了4个额外Cyanine类分子,模型对这些分子预测依旧能保持很好的准确度,平均相对误差为2.27%,3个分子的最大吸收波长预测相对误差在5%以内。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度神经网络的有机荧光小分子光学性质预测方法,其特征在于,该方法包括如下步骤:
收集不同母核的有机荧光小分子的结构及光学性质数据和实验对应的检测溶剂信息,并计算有机荧光小分子及其检测溶剂的特征信息,构建获得自主有机荧光小分子数据库;其中,所述有机荧光小分子及其检测溶剂的特征信息包括分子描述符和\或一种或多种分子指纹。
采用深度神经网络(DNN)或卷积神经网络(CNN)构建有机荧光小分子光学性质预测模型,其中,模型的输入为有机荧光小分子及其检测溶剂的特征信息,输出为预测的有机荧光小分子的光学性质,利用构建的自主有机荧光小分子数据库中的数据作为训练数据,通过优化模型输出的预测值与真实值平均相对误差(MRE)训练模型;
将待预测有机荧光小分子及其检测溶剂的特征信息输入训练好的有机荧光小分子光学性质预测模型预测其光学性质。
2.根据权利要求1所述的基于深度神经网络的有机荧光小分子光学性质预测方法,其特征在于:光学性质数据包括最大吸收波长、最大发射波长、吸光系数和量子产率等,所述有机荧光小分子的结构母核包括氟硼二吡咯(BODIPY)、花青素(cyanine)、罗丹明(rhodamine)、方酸(squaraine)、香豆素(coumarin)等。
3.根据权利要求2所述的基于深度神经网络的有机荧光小分子光学性质预测方法,其特征在于:预测的有机荧光小分子的光学性质为有机荧光小分子的最大吸收波长,则模型的输入为有机荧光小分子及用于检测对应有机荧光小分子最大吸收波长的溶剂的特征信息。
4.根据权利要求1所述的基于深度神经网络的有机荧光小分子光学性质预测方法,其特征在于:获得训练好的有机荧光小分子光学性质预测模型后,还包括如下步骤:
1)对模型进行10次十折交叉验证,优化模型超参数;
其中对模型进行10次十折交叉验证的测试集为样本外测试集。
5.根据权利要求1所述的一种基于深度神经网络的有机荧光小分子光学性质预测方法,其特征在于:计算有机荧光小分子及其实验溶剂的特征信息,具体方法为:
利用RDkit计算各个荧光分子和所对应的实验溶剂的分子描述符;
利用RDkit计算各个荧光分子和所对应的实验溶剂的摩根指纹;
利用ChemDS计算各个荧光分子和所对应的实验溶剂的MACSS指纹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636186.XA CN113380337A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度神经网络的有机荧光小分子光学性质预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636186.XA CN113380337A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度神经网络的有机荧光小分子光学性质预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113380337A true CN113380337A (zh) | 2021-09-10 |
Family
ID=77576346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110636186.XA Pending CN113380337A (zh) | 2021-06-08 | 2021-06-08 | 一种基于深度神经网络的有机荧光小分子光学性质预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380337A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312135A (zh) * | 2022-07-21 | 2022-11-08 | 苏州沃时数字科技有限公司 | 一种化学反应条件的预测方法、系统、装置及存储介质 |
CN116189789A (zh) * | 2023-05-04 | 2023-05-30 | 深圳大学 | 使用机器学习筛选聚集诱导发光分子的方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180360320A1 (en) * | 2005-04-29 | 2018-12-20 | The Regents Of The University Of Colorado, A Body Corporate | Multi-excitation diagnostic system and methods for classification of tissue |
CN111798935A (zh) * | 2019-04-09 | 2020-10-20 | 南京药石科技股份有限公司 | 基于神经网络的普适性化合物结构-性质相关性预测方法 |
CN112185478A (zh) * | 2020-10-29 | 2021-01-05 | 成都职业技术学院 | 一种tadf发光分子发光性能的高通量预测方法 |
-
2021
- 2021-06-08 CN CN202110636186.XA patent/CN113380337A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180360320A1 (en) * | 2005-04-29 | 2018-12-20 | The Regents Of The University Of Colorado, A Body Corporate | Multi-excitation diagnostic system and methods for classification of tissue |
CN111798935A (zh) * | 2019-04-09 | 2020-10-20 | 南京药石科技股份有限公司 | 基于神经网络的普适性化合物结构-性质相关性预测方法 |
CN112185478A (zh) * | 2020-10-29 | 2021-01-05 | 成都职业技术学院 | 一种tadf发光分子发光性能的高通量预测方法 |
Non-Patent Citations (2)
Title |
---|
CHENG-WEI JU等: "Can Machine Learning Be More Accurate Than TD-DFT? Prediction of Emission Wavelengths and Quantum Yields of Organic Fluorescent Materials", 《CHEMRXIV 2020》 * |
JOONYOUNG F. JOUNG等: "Deep Learning Optical Spectroscopy Based on Experimental Database: Potential Applications to Molecular Design", 《JACS AU》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312135A (zh) * | 2022-07-21 | 2022-11-08 | 苏州沃时数字科技有限公司 | 一种化学反应条件的预测方法、系统、装置及存储介质 |
CN115312135B (zh) * | 2022-07-21 | 2023-10-20 | 苏州沃时数字科技有限公司 | 一种化学反应条件的预测方法、系统、装置及存储介质 |
CN116189789A (zh) * | 2023-05-04 | 2023-05-30 | 深圳大学 | 使用机器学习筛选聚集诱导发光分子的方法及设备 |
CN116189789B (zh) * | 2023-05-04 | 2023-11-21 | 深圳大学 | 使用机器学习筛选聚集诱导发光分子的方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mann et al. | Artificial intelligence for proteomics and biomarker discovery | |
Liu et al. | Progressive neural architecture search | |
Shaw et al. | Squeezenas: Fast neural architecture search for faster semantic segmentation | |
CN110277144B (zh) | 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构 | |
US20230153577A1 (en) | Trust-region aware neural network architecture search for knowledge distillation | |
CN113380337A (zh) | 一种基于深度神经网络的有机荧光小分子光学性质预测方法 | |
Zhao et al. | Learned low precision graph neural networks | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
Zhang et al. | Protein family classification from scratch: a CNN based deep learning approach | |
Bagnall et al. | A tale of two toolkits, report the third: on the usage and performance of HIVE-COTE v1. 0 | |
Haque et al. | A common neighbor based technique to detect protein complexes in PPI networks | |
Jagtap et al. | BRANEnet: embedding multilayer networks for omics data integration | |
Jakaria et al. | Comparison of classification of birds using lightweight deep convolutional neural networks | |
Hira et al. | A novel map reduced based parallel feature selection and extreme learning for micro array cancer data classification | |
WO2023091428A1 (en) | Trust-region aware neural network architecture search for knowledge distillation | |
Malekhosseini et al. | Modeling neural architecture search methods for deep networks | |
Xu et al. | Multi-level self-adaptive prototypical networks for few-shot node classification on attributed networks | |
Dridi et al. | DeepHist: Towards a deep learning-based computational history of trends in the NIPS | |
Xun et al. | A hybrid search method for accelerating convolutional neural architecture search | |
Kalaivani et al. | Improved SMOTE and Optimized Siamese Neural Networks for Class Imbalanced Heterogeneous Cross Project Defect Prediction. | |
Kanagaraj et al. | Methods for Predicting the Rise of the New Labels from a High-Dimensional Data Stream. | |
Pham et al. | RDNet: Deep Learning Model for Predicting pH H 2 0 and pH KCl from Soil Vis-NIR Spectra | |
CN115064207B (zh) | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 | |
Bongini et al. | A deep learning approach to the prediction of drug side-effects on molecular graphs | |
LACAVA | Neural Architecture Search for Tiny Incremental On-Device Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210910 |