CN111785332A - 基于遗传算法的化学物质热稳定性的预测方法 - Google Patents

基于遗传算法的化学物质热稳定性的预测方法 Download PDF

Info

Publication number
CN111785332A
CN111785332A CN201910269703.7A CN201910269703A CN111785332A CN 111785332 A CN111785332 A CN 111785332A CN 201910269703 A CN201910269703 A CN 201910269703A CN 111785332 A CN111785332 A CN 111785332A
Authority
CN
China
Prior art keywords
thermal stability
molecular
model
molecular descriptors
chemical substance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910269703.7A
Other languages
English (en)
Other versions
CN111785332B (zh
Inventor
高月
厉鹏
张全
张向倩
王亚琴
张金梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chemical Registration Center Of Emergency Management Department
Original Assignee
Chemical Registration Center Of Emergency Management Department
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chemical Registration Center Of Emergency Management Department filed Critical Chemical Registration Center Of Emergency Management Department
Priority to CN201910269703.7A priority Critical patent/CN111785332B/zh
Publication of CN111785332A publication Critical patent/CN111785332A/zh
Application granted granted Critical
Publication of CN111785332B publication Critical patent/CN111785332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

本发明涉及一种基于遗传算法的化学物质热稳定性的预测方法,主要解决现有技术中准确性差、适用性不强的问题。本发明通过采用一种基于遗传算法的化学物质热稳定性的预测方法,利用遗传算法和人工神经网络建立化学物质热稳定性预测的非线性模型,该模型将遗传算法筛选获得分子描述符作为模型的输入参数,化学物质的热稳定性参数作为输出参数,模型的构建方法是BP神经网络,通过输入化学物质的分子结构描述符,快速获得其热稳定性的预测结果的技术方案较好地解决了上述问题,可用于化学物质热稳定性的预测中。

Description

基于遗传算法的化学物质热稳定性的预测方法
技术领域
本发明涉及一种基于遗传算法的化学物质热稳定性的预测方法。
背景技术
在实际工业过程中,在反应器内、储罐中、以及运输过程中,由于化学物质的热不稳定性,造成许多严重的热爆炸和反应失控事故。化学物质的热稳定性的预测对于危化品的生产、储存、使用、运输等环节的安全具有非常重要的意义。目前,常用的评价化学物质热稳定性的参数包括起始放热温度(To)、分解热(-△Hd)、总绝热温升、自加速分解温度(SADT)等,其中起始放热温度反映了化学物质热不稳定的敏感性,分解热反映了化学物质热不稳定产生危害的严重度。现阶段,化学物质热稳定性评价的方法主要是实验方法,通过实验方法获得化学物质的热稳定性判定参数,常用的实验方法主要是差示扫描量热法等。但是实验方法有其局限性,包括实验费用昂贵、测试过程长、费时,并且实验存在一定的危险性。通过理论计算方法预测化学物质的热稳定性,可以弥补实验方法的不足,具有非常重要的现实意义。
现如今,国内外对于化学物质危险特性参数预测已经开展了一定的研究,采用的预测方法主要是定量结构-性质关系(QSPR)法,研究化学物质结构与其各种物理化学性质之间的定量关系。国内外利用QSPR方法,已经针对化学物质的物理危险性已经开展了研究,分别采用不同的建模方法建立了闪点、沸点、爆炸极限、自燃点、粘度、热导率等特性参数的预测模型。针对化学物质的热稳定性,国内外主要采用多元线性回归的方法建立预测模型,但是其弱点是,只能描述化学物质结构参数与性质之间的线性关系,不能很好地反映化学结构与热稳定性之间复杂的非线性问题,因此,模型预测效果以及模型应用范围均受到局限。本发明旨在建立一种预测化学物质热稳定性的非线性的模型,为化学物质热稳定性的预测与评估,提供一种非线性的、更符合化学物质结构与性质之间关系的方法。
由调研可知,与本发明最接近的现有技术文件是蒋军成等人的发明《一种确定自反应性化学物质热危险性的方法》(CN201210441367.8),该发明采用蚁群-偏最小二乘法筛选分子的特征结构,采用支持向量机的方法建立预测模型。本发明采用的是遗传算法结合神经网络的方法筛选分子的特征结构,采用人工神经网络建立预测模型,是一种新的化学物质热稳定性的预测方法。
发明内容
本发明所要解决的技术问题是现有技术中准确性差、适用性不强的问题,提供一种新的基于遗传算法的化学物质热稳定性的预测方法,具有准确性好、适用性强的优点。
为解决上述问题,本发明采用的技术方案如下:一种基于遗传算法的化学物质热稳定性的预测方法,利用遗传算法和人工神经网络建立化学物质热稳定性预测的非线性模型,该模型将遗传算法筛选获得分子描述符作为模型的输入参数,化学物质的热稳定性参数作为输出参数,模型的构建方法是BP神经网络,通过输入化学物质的分子结构描述符,快速获得其热稳定性的预测结果;
具体包括如下步骤:
步骤一、构建化学物质及其热稳定性参数的数据样本:
采用相同的实验条件,测试获得不同的化学物质的热稳定性参数;或者采用数据调研的手段,获得相同数据来源的不同化学物质的热稳定性参数;
步骤二、绘制数据样本中化学物质的3D分子结构:
利用化学结构绘制软件绘制数据样本中化学物质的3D分子结构,并且利用软件将分子结构进行优化,获得更稳定的3D分子结构;
步骤三、计算分子结构描述符:
将上一步绘制获得的化学物质的3D分子结构文件,导入分子描述符计算软件中,计算获得包括分子拓扑结构、几何信息、电荷信息的大量多种分子描述符;
步骤四、分子描述符的初筛:
进行分子描述符的初筛,剔除分子描述符中包括常数或者近似常数的分子描述符、共线性强的分子描述符、与热稳定性的相关性较差的分子描述符;
步骤五、数据样本的划分:
将包含了初筛后的分子描述符和热稳定性参数的数据样本,随机划分成训练集和测试集,训练集用于神经网络训练建立预测模型,测试集用于验证模型的预测效果;
步骤六、分子描述符的筛选:
具体的筛选过程主要为:
(1)初步建立神经网络模型:将步骤五获得的数据样本用于神经网络建模,训练集用于网络训练,测试集用于模型验证;输入参数为初筛获得的全部分子描述符,输出参数为热稳定性参数,设置隐含层的层数和节点数,训练获得神经网络模型;
(2)初始种群产生:随机产生若干个初始串结构数据或个体,串结构数据中每一位对应一个输入自变量,即分子描述符,串结构数据的长度为输入自变量的数量,若干个个串结构构成一个种群;串结构数据只有“1”和“0”两种取值,“1”代表该位置对应的输入自变量是筛选留下的分子描述符,“0”代表该位置对应的输入自变量是筛选剔除的分子描述符;
(3)适应度函数计算:选用测试集数据误差平方和的倒数作为适应度函数,公式如下:
Figure BDA0002017980600000031
其中,
Ttest-pred={t1-test-pred,t2-test-pred,…,tn-test-pred}是测试集的热稳定性参数的预测值;
Ttest-real={t1-test-real,t2-test-real,…,tn-test-real}是测试集的热稳定性参数的预测值;
n是数据样本中化学物质的数量;
(4)选择操作:计算每个个体的选择概率以及累积概率:
Figure BDA0002017980600000032
Figure BDA0002017980600000033
其中,
pk是每个个体的选择概率;
f(xk)是每个个体的适应度函数值;
F是种群中所有个体的适应度之和;
N是种群中个体的数目;
(5)交叉操作:
采用单点交叉算子进行交叉操作,将种群中的个体进行两两配对,每一对配对的个体,随机选取一个位置,作为交叉点,两个个体在该交叉点以后的部分进行交换,形成新的个体;
(6)变异操作:
采用单点变异算子,首先,在个体中随机产生变异点,该变异点位置上的取值进行改变,若该点的值为“1”,则变为“0”;若该点的值为“0”,则变为“1”;
(7)输出分子描述符筛选结果:
步骤七、BP神经网络建模和训练:
上一步筛选获得数据样本的分子描述符作为输入参数,热稳定性参数作为输出参数,根据输入和输出参数的数量,确定神经网络的结构,确定输入层、隐含层和输出层的节点数;用训练集的数据进行BP神经网络的训练;
步骤八、模型的测试和验证:
用测试集的数据对训练好的BP模型进行测试,计算热稳定性参数的预测结果的平均相对误差百分比,若误差满足条件,则输出预测的热稳定性参数;若误差不满足条件,则重复步骤七,直到获得满足条件的模型和预测结果;
步骤九、预测方法的应用:
一旦预测精准的模型建立好之后,不需要对模型再训练和调整,输入化学物质的相应的分子描述符,即可计算获得热稳定性参数的预测结果。
上述技术方案中,优选地,步骤一中,保证实验条件或数据来源相同,避免不同研究人员测得数据之间的差异对模型准确性产生影响。
上述技术方案中,优选地,共线性强的分子描述符即:计算两两分子描述符之间的相关系数大于0.95的,剔除与热稳定性参数相关系数较小的一方。
上述技术方案中,优选地,与热稳定性的相关性较差的分子描述符,即,剔除与热稳定性参数的相关系数小于0.1的分子描述符。
上述技术方案中,优选地,步骤六中,采用基于遗传算法GA和BP神经网络的分子描述符筛选法,在步骤四初筛的分子描述符的基础上,进一步筛选分子描述符,实现下一步建模所需自变量的降维,最终获得与热稳定性相关性最强的分子描述符若干,作为下一步神经网络建模的输入变量。
上述技术方案中,优选地,步骤六中,依据适应度函数,函数值越大,说明该分子描述符对应的个体遗传到下一代的概率就越大;若计算获得适应度函数的值满足终止条件,则筛选结束,输出筛选保留下来的分子描述符,若函数值不满足终止条件,进行以下的选择、交叉、变异操作。
上述技术方案中,优选地,步骤六的选择操作中,采用轮盘赌选择法,在(0,1)之间产生随机数r,若qk-1<r≤qk,则个体k被选中;个体的适应度越大,则选择概率也越大;。
上述技术方案中,优选地,步骤六的输出分子描述符筛选结果中,经过选择、交叉、变异后的个体,重新进行适应度函数的计算,若计算结果满足条件,则输出筛选留下的分子描述符;若计算结果不满足条件,则再次进行选择、交叉和变异操作,直到满足终止条件为止,输出筛选留下的分子描述符。
本发明基于遗传算法和人工神经网络,建立预测化学物质热稳定性的非线性预测模型,利用化学物质的分子结构预测其热稳定性,克服传统实验测试费时、昂贵、危险性大等缺点,为化学物质热稳定性的预测,提供一种更符合化学物质分子结构与热稳定性之间非线性关系的、准确的、适用性强的预测方法。本发明有益效果在于,发明了一种化学物质结构与其热稳定性之间非线性关系的模型,预测效果好,适用性强,可以克服现有实验方法测试热稳定性的方法的费时、昂贵、危险性大等缺点。而且,本发明简便易操作,只需要提供化学物质的分子结构,就能快速预测其热稳定性,适用于我国化工生产领域涉及的众多具有热不稳定性的物质,为化工工艺设计、反应风险评估等提供技术支撑,对化工安全具有重要意义,取得了较好的技术效果。
附图说明
图1为本发明的分子描述符筛选流程;
图2为本发明是实施例1中38种有机过氧化物的分解热的预测值和真实值对比图。
下面通过实施例对本发明作进一步的阐述,但不仅限于本实施例。
具体实施方式
【实施例1】
本发明利用遗传算法和人工神经网络建立化学物质热稳定性预测的非线性模型,该模型将遗传算法筛选获得分子描述符作为模型的输入参数,化学物质的热稳定性参数作为输出参数,模型的构建方法是BP神经网络,通过输入化学物质的分子结构描述符,快速获得其热稳定性的预测结果。本发明的技术方案的具体实现步骤如下:
步骤一、构建化学物质及其热稳定性参数的数据样本:
采用相同的实验条件,测试获得不同的化学物质的热稳定性参数(起始放热温度、分解热等);或者采用数据调研的手段,获得相同数据来源的不同化学物质的热稳定性参数。保证实验条件或数据来源相同,避免不同研究人员测得数据之间的差异对模型准确性产生影响。
步骤二、绘制数据样本中化学物质的3D分子结构:
利用化学结构绘制软件绘制数据样本中化学物质的3D分子结构,并且利用软件将分子结构进行优化,获得更稳定的3D分子结构,用于下一步计算分子结构描述符。
步骤三、计算分子结构描述符:
将上一步绘制获得的化学物质的3D分子结构文件,导入分子描述符计算软件中,计算获得分子拓扑结构、几何信息、电荷信息等大量多种分子描述符。
步骤四、分子描述符的初筛:
通过上一步计算获得数据样本中化学物质的大量分子描述符,如果全部用于建模,过多的变量会导致模型不稳定,影响预测效果,因此,为提取与化学物质热稳定性相关性较强的分子描述符,用作神经网络模型的输入参数,需要对分子描述符进行筛选。由于分子描述符数量巨大,为提高筛选的效率和准确性,首先进行分子描述符的初筛。1、剔除分子描述符中,常数或者近似常数的分子描述符;2、剔除共线性强的分子描述符,即,计算两两分子描述符之间的相关系数大于0.95的,剔除与热稳定性参数相关系数较小的一方;3、剔除与热稳定性的相关性较差的分子描述符,即,剔除与热稳定性参数的相关系数小于0.1的分子描述符。
步骤五、数据样本的划分:
将包含了初筛后的分子描述符和热稳定性参数的数据样本,随机划分成训练集和测试集,训练集用于神经网络训练建立预测模型,测试集用于验证模型的预测效果。
步骤六、分子描述符的筛选:
采用基于遗传算法GA和BP神经网络的分子描述符筛选法,在步骤四初筛的分子描述符的基础上,进一步筛选分子描述符,实现下一步建模所需自变量的降维,最终获得与热稳定性相关性最强的分子描述符若干,作为下一步神经网络建模的输入变量。GA-BP筛选分子描述符的流程如图1所示。
具体的筛选过程主要为:
(1)初步建立神经网络模型:将步骤五获得的数据样本用于神经网络建模,训练集用于网络训练,测试集用于模型验证。输入参数为初筛获得的全部分子描述符,输出参数为热稳定性参数,设置隐含层的层数和节点数,训练获得神经网络模型。
(2)初始种群产生:随机产生若干个初始串结构数据(个体),串结构数据中每一位对应一个输入自变量(分子描述符),串结构数据的长度为输入自变量的数量,若干个个串结构构成一个种群。串结构数据只有“1”和“0”两种取值,“1”代表该位置对应的输入自变量是筛选留下的分子描述符,“0”代表该位置对应的输入自变量是筛选剔除的分子描述符。
(3)适应度函数计算:选用测试集数据误差平方和的倒数作为适应度函数,公式如下:
Figure BDA0002017980600000071
其中,
Ttest-pred={t1-test-pred,t2-test-pred,…,tn-test-pred}是测试集的热稳定性参数的预测值;
Ttest-real={t1-test-real,t2-test-real,…,tn-test-real}是测试集的热稳定性参数的预测值;
n是数据样本中化学物质的数量。
依据该适应度函数,函数值越大,说明该分子描述符对应的个体遗传到下一代的概率就越大。若计算获得适应度函数的值满足终止条件,则筛选结束,输出筛选保留下来的分子描述符,若函数值不满足终止条件,进行以下的选择、交叉、变异操作。
(4)选择操作:计算每个个体的选择概率以及累积概率:
Figure BDA0002017980600000072
Figure BDA0002017980600000073
其中,
pk是每个个体的选择概率;
f(xk)是每个个体的适应度函数值;
F是种群中所有个体的适应度之和;
N是种群中个体的数目。
采用轮盘赌选择法,在(0,1)之间产生随机数r,若qk-1<r≤qk,则个体k被选中。显而易见,个体的适应度越大,则选择概率也越大。
(5)交叉操作:
采用单点交叉算子进行交叉操作,将种群中的个体进行两两配对,每一对配对的个体,随机选取一个位置,作为交叉点,两个个体在该交叉点以后的部分进行交换,形成新的个体。
(6)变异操作:
采用单点变异算子,首先,在个体中随机产生变异点,该变异点位置上的取值进行改变,若该点的值为“1”,则变为“0”;若该点的值为“0”,则变为“1”。
(7)输出分子描述符筛选结果:
经过选择、交叉、变异后的个体,重新进行适应度函数的计算,若计算结果满足条件,则输出筛选留下的分子描述符;若计算结果不满足条件,则再次进行选择、交叉和变异操作,直到满足终止条件为止,输出筛选留下的分子描述符。
步骤七、BP神经网络建模和训练:
上一步筛选获得数据样本的分子描述符作为输入参数,热稳定性参数作为输出参数,根据输入和输出参数的数量,确定神经网络的结构,确定输入层、隐含层和输出层的节点数。用训练集的数据进行BP神经网络的训练。
步骤八、模型的测试和验证:
用测试集的数据对训练好的BP模型进行测试,计算热稳定性参数的预测结果的平均相对误差百分比,若误差满足条件,则输出预测的热稳定性参数;若误差不满足条件,则重复步骤七,直到获得满足条件的模型和预测结果。
步骤九、预测方法的应用:
一旦预测精准的模型建立好之后,不需要对模型再训练和调整,输入化学物质的相应的分子描述符,即可计算获得热稳定性参数的预测结果。
【实施例2】
一种基于遗传算法的化学物质热稳定性的预测方法,选取热稳定性参数之一的分解热(-△Hd,J/g)作为实施例的预测目标。
步骤一、构建化学物质及其热稳定性参数的数据样本:
选取38种有机过氧化物,在相同的实验条件下,测试获得的对应的分解热(-△Hd,J/g)数据。
步骤二、绘制数据样本中化学物质的3D分子结构:
利用HyperChem软件绘制数据样本中38种有机过氧化物的3D分子结构,并且利用软件的量子力学半经验方法将分子结构进行优化,获得更稳定的3D分子结构,用于下一步计算分子结构描述符。
步骤三、计算分子结构描述符:
将上一步绘制获得的38种有机过氧化物的3D分子结构文件,导入分子描述符计算软件Dragon中,计算获得Topological descriptors、Constitutional descriptors、Functional group counts等20类1664个分子描述符。
步骤四、分子描述符的初筛:
由于分子描述符数量巨大,为提高筛选的效率和准确性,首先进行分子描述符的初筛。依据分子描述符初筛的原则:1、剔除分子描述符中,常数或者近似常数的分子描述符;2、剔除共线性强的分子描述符,即,计算两两分子描述符之间的相关系数大于0.95的,剔除与分解热相关系数较小的一方;3、剔除与分解热的相关性较差的分子描述符,即,剔除与分解热参数的相关系数小于0.1的分子描述符。对上一步计算获得的1664个分子描述符,进行初筛,初筛的结果是分子描述符从1664个降至480个,用于后面分子描述符进一步筛选。
步骤五、数据样本的划分:
将包含了38种有机过氧化物的初筛后分子描述符和分解热的数据样本,随机划分成训练集(30种)和测试集(8种),训练集用于神经网络训练建立预测模型,测试集用于验证模型的预测效果。
步骤六、分子描述符的筛选:
采用基于遗传算法GA和BP神经网络的分子描述符筛选法,在步骤四初筛的480个分子描述符的基础上,进一步筛选分子描述符,实现下一步建模所需自变量的降维,最终获得与分解热相关性最强的分子描述符若干,作为下一步神经网络建模的输入变量。GA-BP筛选分子描述符的流程如图1所示。
具体的筛选过程如下:
(1)初步建立神经网络模型:将步骤五获得的数据样本用于神经网络建模,训练集用于网络训练,测试集用于模型验证。输入参数为初筛获得的480个分子描述符,输出参数为分解热数据,设置隐含层的层数为1层和节点数为20,训练获得神经网络模型。
(2)初始种群产生:随机产生20个初始串结构数据(个体),即种群大小设置为20,串结构数据中每一位对应一个输入自变量(分子描述符),串结构数据的长度设置为480,最大进化代数设置为100。串结构数据只有“1”和“0”两种取值,“1”代表该位置对应的输入自变量是筛选留下的分子描述符,“0”代表该位置对应的输入自变量是筛选剔除的分子描述符。
(3)适应度函数计算:选用测试集数据误差平方和的倒数作为适应度函数,公式如下:
Figure BDA0002017980600000101
其中,
Ttest-pred={t1-test-pred,t2-test-pred,…,tn-test-pred}是测试集的分解热的预测值;
Ttest-real={t1-test-real,t2-test-real,…,tn-test-real}是测试集的分解热的预测值;
n为测试集数目,取值为8。
若计算获得适应度函数的值满足终止条件,则筛选结束,输出筛选保留下来的分子描述符,若函数值不满足终止条件,进行以下的选择、交叉、变异操作。
(4)选择操作:计算每个个体的选择概率以及累积概率:
Figure BDA0002017980600000102
Figure BDA0002017980600000103
其中,
pk是每个个体的选择概率;
f(xk)是每个个体的适应度函数值;
F是种群中所有个体的适应度之和;
N是种群中个体的数目,取值20。
采用轮盘赌选择法,在(0,1)之间产生随机数r,若qk-1<r≤qk,则个体k被选中。
(5)交叉操作:
采用单点交叉算子进行交叉操作,将种群中的个体进行两两配对,本实施例中,初始种群大小为20,因此,有10对相互配对的组合,一对配对的个体,随机选取一个位置,作为交叉点,两个个体在该交叉点以后的部分进行交换,形成新的个体。
(6)变异操作:
采用单点变异算子,首先,在个体中随机产生变异点,该变异点位置上的取值进行改变,若该点的值为“1”,则变为“0”;若该点的值为“0”,则变为“1”。
(7)输出筛选获得的分子描述符:
经过多次选择、交叉、变异操作,以及适应度函数的计算,最终筛选出5个分子描述符(Ms、Mor08m、L2v、H7m、R5v+)。
步骤七、BP神经网络建模和训练:
将上一步筛选获得数据样本的5个分子描述符作为输入参数,分解热作为输出参数,根据输入和输出参数的数量,确定神经网络的结构5-10-1。用训练集的数据进行BP神经网络的训练。
步骤八、模型的测试和验证:
用测试集的数据对训练好的BP模型进行测试,结果如图2所示。计算分解热的预测结果的平均相对误差百分比为8.06%,在可接受范围内,模型的预测准确率为91.9%,预测效果好。
步骤九、预测方法的应用:
BP神经网络模型建立好之后,不需要对模型再训练和调整,输入化学物质的相应的分子描述符,即可计算获得分解热的预测结果。例如,选取过氧二乙基乙酸叔丁酯,CAS号为2550-33-6,其分子描述符的取值分别为,Ms:2.4,Mor08m:-1.03,L2v:2.129,H7m:0.026,R5v+:0.013,将分子描述符的值作为模型的输入参数,模型计算即可获得预测的分解热的值为1336J/g。
为验证预测结果的准确性,采用DSC差示扫描量热法测试过氧二乙基乙酸叔丁酯的分解热为1238J/g,预测值和实验值的相对误差百分比为7.92%,预测准确率依然满足要求。由此可以进一步证实,利用本发明可以快速、方便的获得化学物质热稳定性参数的预测结果。

Claims (10)

1.一种基于遗传算法的化学物质热稳定性的预测方法,利用遗传算法和人工神经网络建立化学物质热稳定性预测的非线性模型,该模型将遗传算法筛选获得分子描述符作为模型的输入参数,化学物质的热稳定性参数作为输出参数,模型的构建方法是BP神经网络,通过输入化学物质的分子结构描述符,快速获得其热稳定性的预测结果;
具体包括如下步骤:
步骤一、构建化学物质及其热稳定性参数的数据样本:
采用相同的实验条件,测试获得不同的化学物质的热稳定性参数;或者采用数据调研的手段,获得相同数据来源的不同化学物质的热稳定性参数;
步骤二、绘制数据样本中化学物质的3D分子结构:
利用化学结构绘制软件绘制数据样本中化学物质的3D分子结构,并且利用软件将分子结构进行优化,获得更稳定的3D分子结构;
步骤三、计算分子结构描述符:
将上一步绘制获得的化学物质的3D分子结构文件,导入分子描述符计算软件中,计算获得包括分子拓扑结构、几何信息、电荷信息的大量多种分子描述符;
步骤四、分子描述符的初筛:
进行分子描述符的初筛,剔除分子描述符中包括常数或者近似常数的分子描述符、共线性强的分子描述符、与热稳定性的相关性较差的分子描述符;
步骤五、数据样本的划分:
将包含了初筛后的分子描述符和热稳定性参数的数据样本,随机划分成训练集和测试集,训练集用于神经网络训练建立预测模型,测试集用于验证模型的预测效果;
步骤六、分子描述符的筛选:
具体的筛选过程主要为:
(1)初步建立神经网络模型:将步骤五获得的数据样本用于神经网络建模,训练集用于网络训练,测试集用于模型验证;输入参数为初筛获得的全部分子描述符,输出参数为热稳定性参数,设置隐含层的层数和节点数,训练获得神经网络模型;
(2)初始种群产生:随机产生若干个初始串结构数据或个体,串结构数据中每一位对应一个输入自变量,即分子描述符,串结构数据的长度为输入自变量的数量,若干个个串结构构成一个种群;串结构数据只有“1”和“0”两种取值,“1”代表该位置对应的输入自变量是筛选留下的分子描述符,“0”代表该位置对应的输入自变量是筛选剔除的分子描述符;
(3)适应度函数计算:选用测试集数据误差平方和的倒数作为适应度函数,公式如下:
Figure FDA0002017980590000021
其中,
Ttest-pred={t1-test-pred,t2-test-pred,…,tn-test-pred}是测试集的热稳定性参数的预测值;
Ttest-real={t1-test-real,t2-test-real,…,tn-test-real}是测试集的热稳定性参数的预测值;
n是数据样本中化学物质的数量;
(4)选择操作:计算每个个体的选择概率以及累积概率:
Figure FDA0002017980590000022
Figure FDA0002017980590000023
其中,
pk是每个个体的选择概率;
f(xk)是每个个体的适应度函数值;
F是种群中所有个体的适应度之和;
N是种群中个体的数目;
(5)交叉操作:
采用单点交叉算子进行交叉操作,将种群中的个体进行两两配对,每一对配对的个体,随机选取一个位置,作为交叉点,两个个体在该交叉点以后的部分进行交换,形成新的个体;
(6)变异操作:
采用单点变异算子,首先,在个体中随机产生变异点,该变异点位置上的取值进行改变,若该点的值为“1”,则变为“0”;若该点的值为“0”,则变为“1”;
(7)输出分子描述符筛选结果:
步骤七、BP神经网络建模和训练:
上一步筛选获得数据样本的分子描述符作为输入参数,热稳定性参数作为输出参数,根据输入和输出参数的数量,确定神经网络的结构,确定输入层、隐含层和输出层的节点数;用训练集的数据进行BP神经网络的训练;
步骤八、模型的测试和验证:
用测试集的数据对训练好的BP模型进行测试,计算热稳定性参数的预测结果的平均相对误差百分比,若误差满足条件,则输出预测的热稳定性参数;若误差不满足条件,则重复步骤七,直到获得满足条件的模型和预测结果;
步骤九、预测方法的应用:
一旦预测精准的模型建立好之后,不需要对模型再训练和调整,输入化学物质的相应的分子描述符,即可计算获得热稳定性参数的预测结果。
2.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于步骤一种,保证实验条件或数据来源相同,避免不同研究人员测得数据之间的差异对模型准确性产生影响。
3.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于共线性强的分子描述符即:计算两两分子描述符之间的相关系数大于0.95的,剔除与热稳定性参数相关系数较小的一方。
4.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于与热稳定性的相关性较差的分子描述符,即,剔除与热稳定性参数的相关系数小于0.1的分子描述符。
5.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于步骤六中,采用基于遗传算法GA和BP神经网络的分子描述符筛选法,在步骤四初筛的分子描述符的基础上,进一步筛选分子描述符,实现下一步建模所需自变量的降维,最终获得与热稳定性相关性最强的分子描述符若干,作为下一步神经网络建模的输入变量。
6.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于步骤六中,依据适应度函数,函数值越大,说明该分子描述符对应的个体遗传到下一代的概率就越大。
7.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于步骤六的选择操作中,采用轮盘赌选择法,在(0,1)之间产生随机数r,若qk-1<r≤qk,则个体k被选中;个体的适应度越大,则选择概率也越大;。
8.根据权利要求1所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于步骤六的输出分子描述符筛选结果中,经过选择、交叉、变异后的个体,重新进行适应度函数的计算。
9.根据权利要求6所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于若计算获得适应度函数的值满足终止条件,则筛选结束,输出筛选保留下来的分子描述符,若函数值不满足终止条件,进行以下的选择、交叉、变异操作。
10.根据权利要求8所述基于遗传算法的化学物质热稳定性的预测方法,其特征在于若计算结果满足条件,则输出筛选留下的分子描述符;若计算结果不满足条件,则再次进行选择、交叉和变异操作,直到满足终止条件为止,输出筛选留下的分子描述符。
CN201910269703.7A 2019-04-04 2019-04-04 基于遗传算法的化学物质热稳定性的预测方法 Active CN111785332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910269703.7A CN111785332B (zh) 2019-04-04 2019-04-04 基于遗传算法的化学物质热稳定性的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910269703.7A CN111785332B (zh) 2019-04-04 2019-04-04 基于遗传算法的化学物质热稳定性的预测方法

Publications (2)

Publication Number Publication Date
CN111785332A true CN111785332A (zh) 2020-10-16
CN111785332B CN111785332B (zh) 2024-06-11

Family

ID=72755228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910269703.7A Active CN111785332B (zh) 2019-04-04 2019-04-04 基于遗传算法的化学物质热稳定性的预测方法

Country Status (1)

Country Link
CN (1) CN111785332B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689919A (zh) * 2021-08-10 2021-11-23 淮阴工学院 一种基于bp人工神经网络预测有机化学分子基态能量的方法
WO2024085373A1 (ko) * 2022-10-17 2024-04-25 주식회사 엘지화학 열적 안정성 판단 장치 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199334A1 (en) * 2001-04-06 2004-10-07 Istvan Kovesdi Method for generating a quantitative structure property activity relationship
JP2008134172A (ja) * 2006-11-29 2008-06-12 National Institute Of Advanced Industrial & Technology 自己加速分解温度の推算方法及び装置
CN101339181A (zh) * 2008-08-14 2009-01-07 南京工业大学 基于遗传算法的有机化合物燃爆特性预测方法
KR20120085160A (ko) * 2011-10-06 2012-07-31 주식회사 켐에쎈 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN108256689A (zh) * 2018-02-06 2018-07-06 华中科技大学 一种非晶合金热塑性成形性能的人工神经网络预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199334A1 (en) * 2001-04-06 2004-10-07 Istvan Kovesdi Method for generating a quantitative structure property activity relationship
JP2008134172A (ja) * 2006-11-29 2008-06-12 National Institute Of Advanced Industrial & Technology 自己加速分解温度の推算方法及び装置
CN101339181A (zh) * 2008-08-14 2009-01-07 南京工业大学 基于遗传算法的有机化合物燃爆特性预测方法
KR20120085160A (ko) * 2011-10-06 2012-07-31 주식회사 켐에쎈 순수한 유기화합물의 정상끓는점에서의 기화열을 예측하는 다중선형회귀-인공신경망 혼성모형
CN105814573A (zh) * 2013-09-27 2016-07-27 科德克希思公司 基于结构的预测性建模
CN108256689A (zh) * 2018-02-06 2018-07-06 华中科技大学 一种非晶合金热塑性成形性能的人工神经网络预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄志强等: "《广西喀斯特地区农村社会风险预警与农业发展研究》", 31 August 2014, 上海三联书店, pages: 206 - 216 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689919A (zh) * 2021-08-10 2021-11-23 淮阴工学院 一种基于bp人工神经网络预测有机化学分子基态能量的方法
WO2024085373A1 (ko) * 2022-10-17 2024-04-25 주식회사 엘지화학 열적 안정성 판단 장치 및 방법

Also Published As

Publication number Publication date
CN111785332B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN111785332A (zh) 基于遗传算法的化学物质热稳定性的预测方法
Shin et al. Evolutionary sequence generation for reliable DNA computing
Zhou et al. Parameters inversion of high central core rockfill dams based on a novel genetic algorithm
CN112070356A (zh) 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法
Jurjiu et al. Two universality classes for random hyperbranched polymers
CN109711595A (zh) 一种基于机器学习的水力压裂投产效果评价方法
CN103699812A (zh) 基于遗传算法的植物品种真实性鉴定位点筛选方法
Pladis et al. Prediction of the Viscoelastic Behavior of Low‐Density Polyethylene Produced in High‐Pressure Tubular Reactors
Liu et al. Molecular graph-based deep learning method for predicting multiple physical properties of alternative fuel components
CN113051724A (zh) 一种基于bp神经网络的碳酸钙填充复合材料设计方法
CN113808681A (zh) 基于SHAP-CatBoost快速预测ABO3型钙钛矿材料比表面积的方法及其系统
CN102799940B (zh) 基于遗传算法和先验知识的网络社区划分方法
Peikert et al. Modeling of High‐Pressure Ethene Homo‐and Copolymerization
CN111199363B (zh) 一种最大相关性筛选算法实现拓扑识别方法
US20230307093A1 (en) Method for predicting dna recombination sites based on xgboost
CN109580918B (zh) 一种用于预测石脑油的分子组成的方法
CN115207921B (zh) 一种光伏接入配电网的位置优化方法及系统
Rego et al. Monte Carlo simulation of terpolymerization: Optimizing the simulation and post‐processing times
CN108345726A (zh) 基于互信息和软仪表误差的输入变量自动选择方法
CN109063837A (zh) 基于复杂网络结构熵的遗传算法信息流网络属性分析方法
CN115700319A (zh) 裂缝导流能力确定方法及装置
CN111861264A (zh) 一种基于数据挖掘和智能算法预测混凝土耐久性方法
Hordijk Correlation analysis of coupled fitness landscapes
Soliman et al. Development of new models for predicting crude oil bubble point pressure, oil formation volume factor, and solution gas-oil ratio using genetic algorithm
Hoefsloot et al. A conditional Monte Carlo method to determine the architectures of metallocene catalyzed polyethylene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant