CN101339181B - 基于遗传算法的有机化合物燃爆特性预测方法 - Google Patents
基于遗传算法的有机化合物燃爆特性预测方法 Download PDFInfo
- Publication number
- CN101339181B CN101339181B CN2008100225194A CN200810022519A CN101339181B CN 101339181 B CN101339181 B CN 101339181B CN 2008100225194 A CN2008100225194 A CN 2008100225194A CN 200810022519 A CN200810022519 A CN 200810022519A CN 101339181 B CN101339181 B CN 101339181B
- Authority
- CN
- China
- Prior art keywords
- molecular structure
- algorithm
- organic compound
- model
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 60
- 230000002068 genetic effect Effects 0.000 title claims abstract description 32
- 150000002894 organic compounds Chemical class 0.000 title claims abstract description 31
- 239000002360 explosive Substances 0.000 title claims description 58
- 239000000126 substance Substances 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 15
- 150000001875 compounds Chemical class 0.000 claims description 30
- 230000002269 spontaneous effect Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 15
- 238000004880 explosion Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000010438 heat treatment Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000004083 survival effect Effects 0.000 claims description 5
- 238000010353 genetic engineering Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000010429 evolutionary process Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 206010064571 Gene mutation Diseases 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 12
- 238000012417 linear regression Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 238000000324 molecular mechanic Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101100257062 Leishmania major IPCS gene Proteins 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000383 hazardous chemical Substances 0.000 description 2
- SYSQUGFVNFXIIT-UHFFFAOYSA-N n-[4-(1,3-benzoxazol-2-yl)phenyl]-4-nitrobenzenesulfonamide Chemical class C1=CC([N+](=O)[O-])=CC=C1S(=O)(=O)NC1=CC=C(C=2OC3=CC=CC=C3N=2)C=C1 SYSQUGFVNFXIIT-UHFFFAOYSA-N 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000005610 quantum mechanics Effects 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004618 QSPR study Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 231100000647 material safety data sheet Toxicity 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于遗传算法的有机化合物燃爆特性预测方法,它基于有机物的各种燃爆特性由其分子结构决定,而分子结构可以用反映分子结构特征的各种参数来描述,即有机物的燃爆特性可以用化学结构参数的函数来表示。本发明首先根据有机物分子结构,计算用于反映分子各种结构信息的结构参数,实现分子结构信息的参数化描述;随后应用遗传算法进行特征变量筛选,从大量已计算出的结构参数中筛选出与相关燃爆特性密切相关的、包含丰富结构信息的一组参数作为分子结构描述符。在此基础上采用合适的统计建模方法对所选用的描述符与相关燃爆特性间的内在定量关系进行统计学习,得出分子结构与相关燃爆特性之间的定量函数模型。本发明方法简单,预测准确性高,为有机化合物的燃爆特性提供了一种快速新颖、准确的预测方法。
Description
技术领域
本发明涉及有机化学领域,尤其是一种有机化合特燃爆特性的预测方法,具体地说是一种基于遗传算法的有机化合物燃爆特性预测方法,适用于根据有机化合物分子结构信息对该化合物燃爆特性进行预测。
背景技术
现代社会的一个重要特征就是新材料、新物质层出不穷。目前已经发现和合成的化学物质有四千万种以上,其中常用的化学品就有七万多种,且每年还有数万种新的化学品问世。在众多的化学物质中,有许多物质具有易燃易爆等危险特性,在生产、使用、贮存和运输过程中存在着发生火灾、爆炸事故的可能性,对人民生命财产安全造成重大的威胁。
化学物质尤其是有机化学物质,衡量其发生火灾爆炸难易程度的指标主要包括闪点、自燃点、爆炸极限等燃爆特性,它们能够表征有机物在生产、储存和运输过程中的危险程度,同时指导工程设计和危险性评估等工作的开展,因此对于安全理论研究和企业的安全生产都具有重要的理论意义和实用价值。然而,当前研究者们对这些燃爆特性的研究还比较滞后,相关数据还比较缺乏。因此,掌握有机物的燃爆特性对于安全理论研究和化工安全生产都显得尤为重要,具有重要的理论意义和实用价值。
应用实验方法获取有机物的燃爆特性是最直观有效的方法,但实验测定方法往往存在着试验设备要求高、工作量大、某些物质实验测定困难等缺陷和不足。而且对于那些尚未合成的物质以及易分解的反应性化学物质,也无法进行实验测定。因此,单纯地应用实验研究来确定有机物的燃爆特性是不可取的,有必要借助理论计算方法对有机物的燃爆特性进行估算或预测,以弥补实验方法的不足。
当前常用的有机物燃爆特性预测方法可以分为如下两大类:
一是参数关联法。该预测方法主要是将所关注的燃爆特性与其它理化参数(如沸点、临界参数、等张比容等)进行关联,应用回归方法建立相应的预测模型,实现根据其它理化参数预测燃爆特性的功能。
该方法作为早期的预测方法,在实际应用中存在着如下两个重要的缺陷:(1)这类方法的预测精度直接取决于所需理化参数的精度,其预测效果往往随着其它参数精度的变化而变化,如果作为输入参数的理化参数数据精度本身存在问题,将直接影响到所得预测模型的预测效果与稳定性。(2)这类方法的应用需要使用到临界压力、等张比容等不常见的物化参数,而这些参数的实验数据往往本身就比较缺乏,因此其应用范围受到较大的限制。
二是基团贡献法。该预测方法是一种根据分子中基团的种类和数目预测燃爆特性的方法,其基本假设是“不同分子中同一基团的贡献完全相同,物质的性质可以看成是构成它们的基团对此性质的贡献的加和”。
基因贡献法的特点是基团划分简单易行、使用简便,往往根据几十个基团贡献的参数,就可预测包括这些基团的大量物质的性质,因此已被广泛应用于有机物各类物理化学性质的研究之中。然而,在实际应用过程中,该方法也暴露出以下的不足:(1)基团贡献法应用范围受研究体系的影响较大,如果某一基团不在建模所选取的那组基团范围之内,那么对于含有该基团的化合物就无法应用该模型进行预测;(2)基团贡献法对同分异构体的区分能力较差,应用结构基团无法对“同分异构”物质加以区分。
近年来,定量结构—性质相关性研究(QuantitativeStructure-Property Relationship,QSPR)逐渐成为基础研究领域的热点。它根据化合物性能与分子结构密切相关的原理,寻求分子结构与物质性质之间的内在定量关系。其基本假设是有机物的性能与分子结构密切相关,分子结构不同,性能就不同。而分子结构可以用反映分子结构特征的各种参数来描述,即有机物的各类理化性质可以用化学结构的函数来表示。通过对分子结构参数和所研究性质的实验数据之间的内在定量关系采用合适的统计建模方法进行关联,从而建立分子结构参数与理化性质之间的关系模型。一旦建立了可靠的定量结构-性质相关模型,仅需要分子的结构信息,就可以用它来预测新的或尚未合成的有机物的各种性质。目前,该研究方法已被广泛应用于有机物各类理化性质及生物活性的预测研究之中。
QSPR方法的优越性主要体现在:(1)无需其它经验参数,仅根据分子结构就能实现有机物燃爆特性的预测;(2)预测模型所使用的输入参数相对较少(通常小于10个),从而保证了所建立模型的稳定性;(3)一旦建立了稳定可靠的预测模型,理论上能够根据该模型对所有有机物进行预测,适用范围广。
QSPR研究的主要思路是:首先根据分子结构计算出大量反映分子结构信息的结构参数,如分子的拓扑参数、组成参数、电性参数以及量子化学参数等;随后运用特征变量筛选方法从计算出的大量结构参数中选取包含丰富结构信息的特征参数作为分子描述符,最后针对所选用的描述符与所研究理化性质之间的内在定量关系,采用合适的统计建模方法进行关联,建立普适的预测模型。
其中,如何从众多的结构参数当中应用特征变量筛选方法选择出与所研究的燃爆特性最密切相关的结构参数,是QSPR研究非常关键的问题。目前常用的特征变量筛选方法主要包括三类:(1)传统的基于多元线性回归分析的变量筛选方法,如向前选择变量法、向后删除变量法、逐步回归法等;(2)基于偏最小二乘(Paritial Least Squares,PLS)的变量筛选法,包括修正PLS权重或系数以消除模型中无用变量的方法,以及按照一定方式选择变量组合以得到较优模型的方法,等;(3)基于搜索算法的变量筛选方法,如模拟退火法、遗传算法(Genetie Algorithms,GA)等搜索算法和多元线性回归分析、PLS、人工神经网络等多种建模方法相结合的变量筛选方法。其中,第一类方法适用于变量间不存在多重共线性数据的变量筛选及模型优化,其优点是方法简单直观,且能够较快地得到相应的解,缺点是它们不能遍历所有的变量组合,也就不能保证寻找到变量空间里的最优解。第二类方法与第一类方法类似,仅搜索变量空间的某些范围,而不具备全局搜索能力,因此它们得到的常常是变量空间的局部最优解,而非全局最优解;此外,此类方法效果的好坏依赖于其临界值的选取,而临界值的选取往往取决于研究者的主观选择,因此上述一些方法具有一定的随意性。
遗传算法是模拟生物在自然环境下的遗传和进化过程而形成的一种自适应全局优化概率搜索方法。它于1960年由Holalnd最早提出。根据达尔文关于自然界生物进化的基本原理,优胜劣汰,通过基因的交叉和突变产生更适应环境的个体。利用这个原理来对实际问题进行寻优,最后得到一个问题的最优答案。作为一个算法,它对需要解决的问题的参量进行编码运算,由于GA是沿多种路线进行平行搜索的,一般不会陷入局部最优的陷阱中,能够在多个局部较优中找到全局最优解。由于GA算法具有相当强的搜索能力,当它们与多元线性回归、PLS、人工神经网络等建模方法相结合后,在一定条件下它们能够在有限的时间内搜寻到变量空间的最佳模型。近年来GA得到大量研究者的关注和研究,并且在QSPR研究中得到较好的应用。但据申请人所知,目前尚无一种利用遗传算法预测有机化合物燃爆特性的方法可供使用。
发明内容
本发明的目的是针对目前对有机化合物燃爆特性主要依靠实验和预测获得,而实验法存在成本高、周期长、危险性大的缺点,现有的预测方法又存在准确性差,适用范围小等问题,发明一种预测效果好、适用范围广、仅需化合物分子结构就能实现的基于遗传算法的有机化合物燃爆特性预测方法。
本发明的技术方案是:
一种基于遗传算法的有机化合物燃爆特性预测方法,其特征是它包括以下步骤:
(1)分子结构的描述:
根据已知的有机化合物分子结构,计算用于反映分子结构信息的各类结构参数,实现分子结构信息的参数化描述;
(2)特征结构的选取:
使用具有强大全局搜索功能的遗传算法进行特征变量筛选,从步骤(1)计算出的大量结构参数中筛选出与所研究燃爆特性最为密切相关的、包含丰富结构信息的一系列参数作为描述分子特征结构的描述符;
(3)预测模型的建立:
使用统计建模方法,对步骤(2)所选用的描述符与所研究燃爆特性之间的内在定量关系进行统计学习,得到已有有机化合物燃爆特性与关键分子结构特征之间的定量系数关系;
(4)燃爆特性计算:
针对需要预测相关燃爆特性的有机化合物的分子结构,根据步骤(2)所筛选出的相关描述符,计算出相应的关键分子结构特征值,将其代入步骤(3)所建立的预测模型进行计算,即可得到有机化合物的相关燃爆特性。
步骤(1)中所述的有机物分子结构:指分子的三维拓扑结构,且这些结构是采用构象分析、分子力学等方法获得的最优化的构象。
步骤(1)中所述的各类结构参数包括分子的拓扑参数、组成参数、几何参数、电性参数、电性拓扑参数以及量子化学参数。
步骤(2)中采用遗传算法与偏最小二乘方法相结合进行变量筛选。
步骤(2)中所述的遗传算法使用“留1/10法”交互验证的均方根误差作为适应度函数。
所述的燃爆特性:包括闪点、自燃点、爆炸极限、燃烧热。
详述如下:
本发明的要点是在全面有效地提取分子结构信息的基础上,采用特征变量筛选技术和统计学习方法,通过对现有分子结构和相关燃爆特性数据进行学习训练而达到的。
首先,要想实现仅根据有机物分子结构就能实现其燃爆特性的预测,就必须有效地提取全面的分子结构信息,实现分子结构的参数化。本发明应用分子模拟方法构建正确的二维或三维分子结构,采用分子力学、构象分析等方法获得最优化的构象,采用拓扑学方法、量子力学方法等计算用于反映分子各种结构信息的结构参数,以获取分子的结构信息,实现分子结构的参数化描述。
同时,QSPR模型的建立要求选择与相关燃爆特性最密切相关的结构参数作为表征分子结构特征的分子描述符。为了描述分子的结构特征,前人已经提出大量可以用于QSPR研究的分子结构参数,这些结构参数可以反映分子的组成、拓扑以及电子结构等多方面的结构信息。但如何从众多的参数当中选择与所研究的燃爆特性最密切相关的结构参数是QSPR研究非常关键的问题。QSPR模型的好坏在很大程度上取决于所选择的参数,从统计学角度出发,希望用尽可能少的变量来表征尽可能多的结构信息,因为过多的变量不仅会增加计算量,还会导致所建立的预测模型不稳定,使模型的预测结果变差。基于上述原因,本发明采用了基于遗传算法和偏最小二乘(GA-PLS)的变量筛选方法,对计算出的大量分子结构参数进行优化筛选,以剔出较差或是与所研究的性质无关的参数,找出与所研究的燃爆特性最密切相关的结构参数作为描述化合物分子结构特征的分子描述符。在此基础上,针对具体问题,选用合适的统计建模方法对所筛选出的分子描述符与相关燃爆特性间的内在定量关系进行模拟,建立相应的燃爆特性预测模型。
GA-PLS算法结合了GA的全局优化搜索能力和PLS有效地解决变量间多重共线性问题的能力,能够对PLS建模的预测变量进行有效的筛选,其基本过程为:
(1)初始化群体。随机产生一系列二进制编码的字符串,字符串的长度等于预测变量的个数,字符串的每个字符对应于一个预测变量,相应字符为1或0表示该预测变量被模型选用与否,字符串中标记为1的字符的数目就是相应模型选用的预测变量的数目。本发明设定群体中个体的数目为30个。
(2)个体适应度评价。适应度表征相应个体所代表的模型性能的好坏,适应度高的个体有较高的概率被保留,而被复制到下一代;而适应度低的个体则有较高的概率被删除。因此,个体适应度评价是GA-PLS算法中一个关键步骤,它决定了GA-PLS算法的搜索方向,也就决定了该算法性能的好坏。本发明选用“留1/10法”交互验证的均方根误差作为适应度函数。“留1/10法”交互验证是指从训练集中每次筛除训练样本数的1/10个化合物,用其余的化合物建模,来预测所筛除化合物的性质,这样得到一个交互验证的均方根误差(RMS)来评价模型性能的好坏,其计算公式为:
(3)遗传操作。根据适应度的大小对群体进行复制操作,将适应度大的个体复制到下一代,小的则淘汰,从而实现“适者生存,优胜劣汰”的操作,本发明采用比例选择法进行复制操作;交叉操作交换相互配对的两个个体的部分基因,从而产生新的个体,它是GA-PLS算法产生新个体的主要手段,决定了该算法的全局搜索能力,本发明采用的是单点交叉法;变异操作通过改变个体字符串上某个或某些字符模拟生物的基因突变现象达到产生新个体的目的,它是GA-PLS算法产生新个体的辅助方法,决定了该算法的局部搜索能力,并且维持群体中个体的多样性,本发明采用基本位变异进行变异操作。
作为本发明关键技术之一的遗传算法的主要运算过程为(如图1):①初始化:随机生成m个个体组成初始群体P0,其中每个个体对应于所研究问题的一个可行解;设置进化代数计数器,t=0;设置最大进化代数T;②个体评价:计算群体P,中每个个体的适应度;③执行复制、交叉、变异等一系列遗传操作;④终止判断:若t≤T,则进化代数加1,转到第2步;否则终止迭代运算,以进化过程中得到的具有最大适应度的个体作为最优解输出。
(4)终止判断。判断算法是否达到最大迭代次数或者其它终止条件,确定算法继续进行迭代运算或者终止并输出结果。本发明采用最大进化代数作为GA-PLS算法的终止条件。
本发明的有益效果:
本发明预测效果好、适用范围广、仅需化合物分子结构就能实现其相关燃爆特性,如闪点、自燃点、爆炸极限、燃烧热等的预测。利用本发明的方法可以仅根据有机化合物分子结构就能准确、快速地预测出其燃爆特性,为生产、加工、储存、运输等提供直接的数据,而且可免去大量实验测定所带来的不便和经济上的损失,特别是适用于那些实验难以进行或不具备实验条件的单位使用,其经济性十分可观。
附图说明
图1为遗传算法具体运算步骤示意图。
图2为MLR模型所得自燃点预测值与实验值的比较。
图3为SVM模型所得自燃点预测值与实验值的比较。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图2、3所示。
一种基于遗传算法的有机化合物燃爆特性预测方法,具体步骤可细分为以下八步:
(1)已有数据的采集、整理
根据一定的统计标准和结构标准选择一系列有机化合物,构成QSPR研究的样本集。化合物选择的条件是统计上的随机性、结构上的代表性和全面性,以及数据的可获得性。针对样本集中的系列化合物,收集所关注的燃爆特性数据。数据收集的途径主要有3种:各种权威性质数据库、各种手册以及实验测定的结果。数据选择的原则是必须可靠和标准化。本发明推荐使用的有联合国环境规划署(UNEP)、国际劳工组织(ILO)和世界卫生组织(WHO)的合作机构国际化学品安全规划署(IPCS)与欧洲联盟委员会(EU)合作编辑的《国际化学品安全卡》(ICSC)、美国阿克伦大学的危险化学品数据库、英国牛津大学的危险化学品数据库,以及美国化学工程师学会下属的数据库。
(2)样本集的划分
将样本集随机划分为训练集和预测集两个部分,其中训练集用于建立模型,预测集用于对所建模型进行评价和验证。
(3)分子结构的输入及优化
借助化学软件Hyperchem进行分子结构的输入,应用分子模拟方法构建正确的二维或三维分子结构,采用分子力学(MM+优化)、量子化学半经验方法(AM1优化)等方法获得最优化的构象。
(4)分子结构描述符的计算
采用拓扑学方法、量子力学方法等计算用于反映分子各种结构信息的结构参数,如拓扑参数、组成参数、电性参数以及量子化学参数等,以获取分子的结构信息,实现分子结构的参数化描述。
(5)特征变量筛选
将遗传算法与偏最小二乘方法相结合,建立高效、快速的优化算法,进行分子结构特征的提取,从已计算出的众多分子结构参数中找出与所研究的性质最密切相关的结构参数作为模型的输入参数。
遗传算法所选用的相关参数如表1所示:
表1.GA-PLS方法参数
(6)预测模型的建立
选用合适的统计建模方法对分子结构参数与所研究性质之间的内在定量关系进行模拟,寻求两者之间存在的定量函数关系,建立相应的预测模型。常用的统计建模方法包括多元线性回归、偏最小二乘、人工神经网络和支持向量机等。建模时应根据问题的实际情况选用合适的统计建模方法。
(7)模型的评价与验证
对所建立的QSPR模型的可靠程度及模型的预测能力进行评价和验证。评价主要针对几个方面:模型的拟合优度、稳健性和预测能力。本发明中,模型的拟合优度采用复相关系数(r2,即回归系数的平方,代表模型所解释的方差)来评价;模型的稳健性采用“留一法”(Leave-one-out,LOO)交互验证方法来进行检验,“留一法”交互检验是指从训练集中每次筛除一个化合物,用其余的化合物建模,来预测筛除化合物的性质,这样得到一个交互验证的r2(即Q2)来评价模型稳健性,其计算公式为: 模型预测能力的验证通过用所建立的模型来预测测试集化合物的相关性质,然后计算相应的均方根误差(RMS)和平均绝对误差(AAE)的方式进行。只有具有统计上的显著性、稳健的和具有高度预测能力的模型才能够进行应用。
(8)预测模型的应用
利用所建模型的预测能力对其它未知化合物的相关燃爆特性进行预测,为化工生产和工程设计等工作提供所缺失的燃爆特性数据。
下面以自燃点(Auto-Ignition Temperature,AIT)预测为例,对本发明做进一步说明。
样本集共包含446种有机化合物,其自燃点数据从以下3种公共来源获得:美国阿克伦大学(http://ull.chemistry.uakron.edu/erd/)、英国牛津大学(http://ptcl.chem.ox.ac.uk/MSDS/)及《国际化学品安全卡》(ICSC)(http://www.inchem.org/pages/icsc.html)。该样本集中的化合物涵盖广泛的化学多样性空间,为建立健壮、有效的预测模型奠定了基础。随后,对样本集进行划分,随机选择356种化合物作为训练集,用于变量筛选和建立预测模型;选择剩余90种化合物作为外部预测集,用于对所建模型的可靠程度和预测能力进行评价验证。
随后,根据样本集中有机物的分子结构,对其拓扑、电性、量子化学等结构参数进行计算。在此基础上,应用建立的遗传算法对所计算出的大量结构参数进行特征结构的优化筛选,选取“留1/10法”交互验证方式所得到的最小均方根误差所对应的那组参数作为最终的分子描述符,即模型的输入参数。这些与有机物自燃点密切相关的结构参数列于表2。
表2.遗传算法筛选出的与自燃点密切相关的结构参数
在应用遗传算法筛选出与自燃点最为密切相关的结构参数之后,分别应用多元线性回归(Multiple Linear Regression,MLR)和支持向量机(SupportVector Machine,SVM)方法对有机物自燃点与上述结构参数间的内在定量关系进行关联,建立相应的预测模型。
多元线性回归采用全回归技术进行分析,针对训练集中356种化合物自燃点数据与相应9个结构变量数据间的内在关系,建立了如下的线性预测模型:
AIT=-983.727+1.659*ZM2V-296.596*X4Av-297.122*GGI5+1487.053*
MATS2m-42.533*GATS2e-216.754*QNEG+137.581*RTe+-59.156*
nROR-74.495*0-058 (1)
该模型相关统计学参数见表3。应用该模型对样本集中所有446种化合物进行回归和预测,所得预测值与实验值的比较见附图2,所得模型性能参数见表4。
表3.MLR模型的统计学参数
R=0.932,s=38.53,F=256.021,n=356,p<0.0001
支持向量机模拟采用径向基核K(x,xi)=exp(-γ//x-xi//2)作为核函数,将样本数据线性映射到[-1,1]区间,进行归一化处理;针对训练集样本,采用格点搜索方法确定模型最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);通过搜索,确定模型的最优参数为惩罚系数C=1024,ε-不敏感损失函数中的ε=0.125,核函数的宽度γ=0.03125,相应的支持向量数160。针对训练集样本,应用最优参数建立相应的非线性预测模型。应用该模型对实验样本进行预测,所得预测值与实验值的比较见附图3,所得模型性能参数见表4。
表4.SVM和MLR两种预测模型的性能参数比较
aQ2 ext-External Q2,
从表4可以看出,无论是对于训练集还是预测集,MLR模型和SVM模型的平均绝对误差均接近于实验允许误差(±30℃),这说明我们的预测模型是成功的。同时,分别运用MLR和SVM方法进行建模,所得模型均效果良好,说明我们使用GA-PLS筛选出的9个结构参数能够对影响自燃点的重要结构特征进行有效的表征,而不是受特定建模方法的影响。此外,从表4还可以看出,两种模型的预测性能和拟合性能均较为接近,这说明本发明基于遗传算法所建立的自燃点预测模型还具有较强的泛化性能即预测稳定性。
对于类似的成功研究,文献上尚未见报道。Mitchell等人曾基于模拟退火算法和神经网络方法进行过类似的研究。但他们试图建立一个适用于各类型有机物的普适模型的尝试没有获得成功。随后他们将有机物进行划分,分别针对不同类型的有机物分别建立了相应的预测模型。该方法在实际应用中较为繁琐,且对那些大量的含有多官能团结构的物质不适用。
在已有的自燃点预测方法当中,Suzuki和Tetteh等人均将自燃点与其它理化参数(表面张力、等张比容等)进行关联,分别应用多元线性回归和神经网络方法建立相应的预测模型,实现根据其它理化参数预测燃爆特性的功能。这类方法的应用需要使用到表面张力、等张比容等不常见的物化参数,而这些参数的实验数据往往本身就比较缺乏,因此应用范围受到较大的限制。Albahri和George则基于基团贡献法建立了相应的自燃点预测模型,且模型应用简便、预测精度良好。但是,该模型的应用范围受研究体系的影响较大,对于那些含有建模时所选取的那组基团范围以外的基团的化合物,应用该模型就无法进行预测;同时,该方法对同分异构体的区分能力较差,应用结构基团无法对“同分异构”物质加以区分。
由此可见,与已有的自燃点预测方法相比,我们基于遗传算法的预测方法仅根据分子结构就能实现自燃点的预测,且预测效果好(在实验误差允许范围之内)、泛化性能高、适用范围广,显示了该方法在有机物燃爆特性预测方面具有很好的应用效果。
应用本发明所建立的自燃点预测模型对未知化合物自燃点进行预测的具体使用方法如下:
(1)线性预测模型:
即式(1)。预测时只需根据化合物的分子结构,计算出该化合物与表2相对应的9个结构描述符的具体数值,然后代入式(1)进行计算,即可得到该有机化合物的自燃点数值。
(2)非线性预测模型:
只需输入SVM的相关参数,即可建立相应的非线性预测模型。预测时只需根据化合物的分子结构,计算出该化合物与表2相对应的9个结构描述符的具体数值,然后作为所建SVM模型的输入参数,进行预测后即可得到该有机化合物的自燃点数值。
本发明中发明者基于分子结构和遗传算法,发展了一套根据分子结构预测有机物燃爆特性的新方法。根据结构决定性质的原理,从解析分子结构角度出发,全面提取能够描述分子结构信息的结构参数;将偏最小二乘和遗传算法相结合,设计了相应的特征变量筛选程序,从大量根据分子结构计算出的结构参数中,分别针对不同的燃爆特性筛选出与其密切相关的一组参数作为表征分子结构的特征参数;选用合适的统计建模方法,对已有的燃爆特性实验数据与其分子结构间的定量关系进行模拟,在此基础上建立起简便可靠的燃爆特性理论预测模型,实现根据分子结构预测燃爆特性的功能,有效地解决有机物燃爆特性实验数据缺乏的问题,因此在化工过程设计与化工流程模拟等工作中有着良好的应用前景。
运用相同的方法可分别得出与有机化合物的闪点、爆炸极限和燃烧热最为密切相关的结构参数,如表5、6、7所示。应用这些参数建立的线性预测模型见式(2)∽式(4),相应的统计学参数列于表5∽表7。
①闪点(Flash Point,FP)预测模型:
FP=83.684-28.276*CICO+52.992*ESpm02d+34.609*nHDon+80.642*RDCHI (2)
表5.遗传算法筛选出的与闪点密切相关的结构参数及所建预测模型的统计学参数
②爆炸极限(下限,Lower Flammability Limit,LFL)预测模型:
LFL=0.759-1.481*AAC-0.021*MLOGP-3.578*PW5+8.576*SICO (3)
表6.遗传算法筛选出的与爆炸极限密切相关的结构参数及所建预测模型的统计学参数
表7.遗传算法筛选出的与燃烧热密切相关的结构参数及所建预测模型的统计学参数
闪点、爆炸极限、燃烧热预测模型的应用可参照自燃点预测模型的使用方法进行。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (3)
1.一种基于遗传算法的有机化合物燃爆特性预测方法,其特征是它包括以下步骤:
(1)分子结构的描述:
根据已知的有机化合物分子结构,计算用于反映分子结构信息的各类结构参数,实现分子结构信息的参数化描述;
(2)特征结构的选取:
使用具有强大全局搜索功能的遗传算法与偏最小二乘方法相结合的GA-PLS算法进行特征变量筛选,从步骤(1)计算出的大量结构参数中筛选出与所研究燃爆特性最为密切相关的、包含丰富结构信息的一系列参数作为描述分子特征结构的描述符;特征变量筛选步骤为:
(a)初始化群体:随机产生一系列二进制编码的字符串,字符串的长度等于预测变量的个数,字符串的每个字符对应于一个预测变量,相应字符为1或0表示该预测变量被模型选用与否,字符串中标记为1的字符的数目就是相应模型选用的预测变量的数目;
(b)个体适应度评价:适应度表征相应个体所代表的模型性能的好坏,适应度高的个体有较高的概率被保留,而被复制到下一代;而适应度低的个体则有较高的概率被删除;因此,个体适应度评价是GA-PLS算法中一个关键步骤,它决定了GA-PLS算法的搜索方向,也就决定了该算法性能的好坏;选用“留1/10法”交互验证的均方根误差作为适应度函数;“留1/10法”交互验证是指从训练集中每次筛除训练样本数的1/10个化合物,用其余的化合物建模,来预测所筛除化合物的性质,这样得到一个交互验证的均方根误差(RMS)来评价模型性能的好坏,其计算公式为:
(c)遗传操作:根据适应度的大小对群体进行复制操作,将适应度大的个体复制到下一代,小的则淘汰,从而实现“适者生存,优胜劣汰”的操作,采用比例选择法进行复制操作;交叉操作交换相互配对的两个个体的部分基因,从而产生新的个体,它是GA-PLS算法产生新个体的主要手段,决定了该算法的全局搜索能力,采用的是单点交叉法;变异操作通过改变个体字符串上某个或某些字符模拟生物的基因突变现象达到产生新个体的目的,它是GA-PLS算法产生新个体的辅助方法,决定了该算法的局部搜索能力,并且维持群体中个体的多样性,采用基本位变异进行变异操作;
所述的遗传算法的主要运算过程为:①初始化:随机生成m个个体组成初始群体P0,其中每个个体对应于所研究问题的一个可行解;设置进化代数计数器,t=0;设置最大进化代数T;②个体评价:计算群体P中每个个体的适应度;③执行复制、交叉和变异的遗传操作;④终止判断:若t≤T,则进化代数加1,转到第2步;否则终止迭代运算,以进化过程中得到的具有最大适应度的个体作为最优解输出;
(d)终止判断:判断算法是否达到最大迭代次数,确定算法继续进行迭代运算或者终止并输出结果;采用最大进化代数作为GA-PLS算法的终止条件;
(3)预测模型的建立:
使用统计建模方法,对步骤(2)所选用的描述符与所研究燃爆特性之间的内在定量关系进行统计学习,得到已有有机化合物燃爆特性与关键分子结构特征之间的定量系数关系;
(4)燃爆特性计算:
针对需要预测相关燃爆特性的有机化合物的分子结构,根据步骤(2)所筛选出的相关描述符,计算出相应的关键分子结构特征值,将其代入步骤(3)所建立的预测模型进行计算,即可得到有机化合物的相关燃爆特性。
2.根据权利要求1所述的预测方法,其特征在于步骤(1)中所述的各类结构参数包括分子的拓扑参数、组成参数、几何参数、电性参数、电性拓扑参数以及量子化学参数。
3.根据权利要求1所述的预测方法,其特征在于所述的燃爆特性包括闪点、自燃点、爆炸极限和燃烧热。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100225194A CN101339181B (zh) | 2008-08-14 | 2008-08-14 | 基于遗传算法的有机化合物燃爆特性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100225194A CN101339181B (zh) | 2008-08-14 | 2008-08-14 | 基于遗传算法的有机化合物燃爆特性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101339181A CN101339181A (zh) | 2009-01-07 |
CN101339181B true CN101339181B (zh) | 2011-10-26 |
Family
ID=40213299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100225194A Active CN101339181B (zh) | 2008-08-14 | 2008-08-14 | 基于遗传算法的有机化合物燃爆特性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101339181B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101504679B (zh) * | 2009-03-19 | 2010-07-21 | 西安近代化学研究所 | 一种含能化合物的计算机辅助设计系统 |
CN102901804B (zh) * | 2012-10-25 | 2014-10-29 | 四川威特龙消防设备有限公司 | 一种油气爆炸临界参数分析方法 |
CN102980972B (zh) * | 2012-11-06 | 2015-06-03 | 南京工业大学 | 一种确定自反应性化学物质热危险性的方法 |
CN103983332A (zh) * | 2014-05-31 | 2014-08-13 | 福州大学 | 一种基于hgsa-bp算法的传感器误差补偿方法 |
CN107563133B (zh) * | 2017-08-30 | 2021-05-04 | 大连理工大学 | 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法 |
KR20200051019A (ko) * | 2017-09-06 | 2020-05-12 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | 물성 예측 방법 및 물성 예측 시스템 |
CN109507352B (zh) * | 2019-01-02 | 2021-04-30 | 广东辛孚科技有限公司 | 一种预测石化生产中任意流股分子组成的方法 |
CN111781280A (zh) * | 2019-04-04 | 2020-10-16 | 应急管理部化学品登记中心 | 有机化合物热稳定性的预测方法 |
CN111261238A (zh) * | 2020-01-15 | 2020-06-09 | 生态环境部南京环境科学研究所 | PPCPs类有机化学品中温厌氧消化去除率预测模型的构建方法 |
CN111540415A (zh) * | 2020-04-29 | 2020-08-14 | 上海交通大学 | 燃料化学品性质建模预测方法及系统 |
CN112382350B (zh) * | 2020-11-20 | 2023-07-28 | 四川大学 | 含能物质感度和力学性能及其关系的机器学习估算方法 |
CN117648877B (zh) * | 2024-01-30 | 2024-04-16 | 南京财经大学 | 基于qsar模型的危险物品爆炸后果预测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315659A (zh) * | 2000-01-18 | 2001-10-03 | 普莱克斯技术有限公司 | 预测复杂混合物可燃性限值的方法 |
-
2008
- 2008-08-14 CN CN2008100225194A patent/CN101339181B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315659A (zh) * | 2000-01-18 | 2001-10-03 | 普莱克斯技术有限公司 | 预测复杂混合物可燃性限值的方法 |
Non-Patent Citations (4)
Title |
---|
Brooke E.Mithell et al..Prediction of autoignition temperatures of organic compounds from molecular structure.《J.CHEM.INF.COMPUT.SIC》.1997,第37卷538-547. * |
John Teeth et al..Quantitative structure-property relationships for the estimation of boiling point and flash point using a radial basis function neural netword.《J.CHEM.INF.COMPUT.SIC.》.1999,第39卷491-507. * |
蒋军成 等.QSPR在有机物燃烧特性预测中的应用和进展.《南京工业大学学报》.2007,第29卷(第6期),第103、105页. * |
齐珺 等.基于遗传-支持向量机和遗传-径向基神经网络的有机物正辛醇-水分配系数QSPR研究.《环境科学》.2008,第29卷(第1期),第213页. * |
Also Published As
Publication number | Publication date |
---|---|
CN101339181A (zh) | 2009-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101339181B (zh) | 基于遗传算法的有机化合物燃爆特性预测方法 | |
Hernández-Lobato et al. | Parallel and distributed Thompson sampling for large-scale accelerated exploration of chemical space | |
CN101339180B (zh) | 基于支持向量机的有机化合物燃爆特性预测方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
Eisenhower et al. | A methodology for meta-model based optimization in building energy models | |
He et al. | Comprehensive evaluation of regional clean energy development levels based on principal component analysis and rough set theory | |
Disegna et al. | Copula-based fuzzy clustering of spatial time series | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
Romo-Fernández et al. | Analysis of Europe’s scientific production on renewable energies | |
Lin et al. | Multi-criteria sustainability assessment and decision-making framework for hydrogen pathways prioritization: An extended ELECTRE method under hybrid information | |
Carr et al. | Machine learning approach for structure-based zeolite classification | |
Chang et al. | Feature extraction of non-intrusive load-monitoring system using genetic algorithm in smart meters | |
Yuan et al. | Building feature‐based machine learning regression to quantify urban material stocks: A Hong Kong study | |
Rabbi et al. | An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects | |
Yiannourakou et al. | Overview of MedeA®-GIBBS capabilities for thermodynamic property calculation and VLE behaviour description of pure compounds and mixtures: application to polar compounds generated from ligno-cellulosic biomass | |
Nguyen et al. | An extensive investigation on leveraging machine learning techniques for high-precision predictive modeling of CO2 emission | |
Haixiang et al. | Optimizing reservoir features in oil exploration management based on fusion of soft computing | |
CN103310126A (zh) | 分类模型的建立方法及装置 | |
Zekić-Sušac et al. | Deep learning in modeling energy cost of buildings in the public sector | |
CN117314266A (zh) | 一种基于超图注意力机制的新型科技人才智能评价方法 | |
Zhang et al. | Ecological evaluation of industrial parks using a comprehensive DEA and inverted-DEA model | |
CN116108963A (zh) | 一种基于集成学习模块的电力碳排放预测方法及设备 | |
Miloserdov | Classifying amorphous polymers for membrane technology basing on accessible surface area of their conformations | |
Amiri et al. | Illegal miner detection based on pattern mining: A practical approach | |
Zarate Perez et al. | Evolution of smart grid assessment methods: science mapping and performance analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |