CN101339180B - 基于支持向量机的有机化合物燃爆特性预测方法 - Google Patents
基于支持向量机的有机化合物燃爆特性预测方法 Download PDFInfo
- Publication number
- CN101339180B CN101339180B CN200810022518XA CN200810022518A CN101339180B CN 101339180 B CN101339180 B CN 101339180B CN 200810022518X A CN200810022518X A CN 200810022518XA CN 200810022518 A CN200810022518 A CN 200810022518A CN 101339180 B CN101339180 B CN 101339180B
- Authority
- CN
- China
- Prior art keywords
- model
- compound
- parameter
- explosive characteristic
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 41
- 150000002894 organic compounds Chemical class 0.000 title claims abstract description 23
- 238000004880 explosion Methods 0.000 title claims abstract description 12
- 238000002485 combustion reaction Methods 0.000 title 1
- 150000001875 compounds Chemical class 0.000 claims abstract description 33
- 239000002360 explosive Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 22
- 238000011160 research Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000013210 evaluation model Methods 0.000 claims description 4
- 230000002269 spontaneous effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000010438 heat treatment Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 239000005416 organic matter Substances 0.000 abstract 1
- 239000000126 substance Substances 0.000 description 23
- 238000002474 experimental method Methods 0.000 description 11
- 239000000463 material Substances 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000001311 chemical methods and process Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 230000000704 physical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 101100257062 Leishmania major IPCS gene Proteins 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000383 hazardous chemical Substances 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012628 principal component regression Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 108010074864 Factor XI Proteins 0.000 description 1
- 238000004618 QSPR study Methods 0.000 description 1
- 238000004164 analytical calibration Methods 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 125000005843 halogen group Chemical group 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000007096 poisonous effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于支持向量机的有机化合物燃爆特性预测方法,它根据各种燃爆特性由其分子结构决定的原理,利用反映分子结构特征的各种结构参数来描述有机物的燃爆特性。通过引入强大的机器学习算法支持向量机方法,可对有机物各燃爆特性与分子结构间存在的非线性、不确定性和复杂性进行有效的训练和预报,从而建立稳定、高效的预测模型。将建立的预测模型应用于其他未知化合物燃爆特性的预测,具有预测精度高、快捷方便的优点。
Description
技术领域
本发明涉及有机化工技术领域,尤其是一种预测有机化合物燃爆特性的方法,具体地说是一种基于支持向量机的有机化合物燃爆特性预测方法。
背景技术
近年来,随着科技的迅猛发展,新材料、新物质层出不穷。目前已经发现和合成的化学物质有四千万种以上,其中常用的化学品就有七万多种,且每年还有数万种新的化学品问世。在众多的化学物质中,有许多物质具有易燃易爆等危险特性,在生产、使用、贮存和运输过程中存在着发生火灾、爆炸事故的可能性。
对于如此众多的化学物质,掌握它们的各类物化性质在化学工业和石油化学工业生产中有着重要的现实意义。例如,化工生产、工程设计、科学研究和工艺技术的开发等都需要大量准确、可靠的物性数据。化工过程设计中常常要用三分之一的工时用于查找、筛选和估算物性数据;化工流程模拟中,物性数据的计算更是占据举足轻重的地位。可以说没有化工物性的计算,就没有化工模拟研究,化工物性数据是进行化工研究、生产、设计及开发的基石。
在众多的化工物性中,闪点、自燃点、爆炸极限等燃爆特性是一类较为特殊的物性,因其与可燃物质发生火灾爆炸的难易程度密切相关,因而常被用于衡量可燃物质在生产、加工、储存和运输过程中的危险程度,指导工程设计和危险性评估等工作的开展。因此,掌握有机物的燃爆特性对于安全理论研究和化工安全生产都显得尤为重要,具有重要的理论意义和实用价值。然而,当前研究者们对这些燃爆特性的研究还比较滞后,相关数据还比较缺乏。
目前,利用实验测定是确定有机物燃爆特性最常用的方法。但实验测定方法往往存在着如下的不足:(1)实验方法不仅要求具备良好的实验设备,而且测定过程需经过物质制备、纯度鉴定、测定方法及仪器的选择、仪器校准、实验测试、数据整理及筛选等一系列步骤,工作量巨大;(2)由于物质燃爆特性之间存在的差异,所具备的实验仪器难以对各类别物质进行评价,必须同时考虑仪器的特性和物质的燃爆特性,对它们的实验方法进行有效的组合,因此,要对它们一一进行试验是不可能的;(3)考虑到实验过程中的安全问题,一般的实验研究(尤其是爆炸极限的研究)只能是小规模、小尺寸的实验,用一级近似的模拟实验尚无法较好地体现规模效应;(4)对于那些有毒、易挥发、爆炸性或有辐射的物质,测量上存在着一定的困难;(5)对于那些尚未合成的物质以及易分解的反应性化学物质,也无法基于实验来确定其危险性。
因此,单纯地应用实验研究来确定有机物的燃爆特性是不可取的,有必要在更高的水平上将实验科学与理论科学联系起来,把宏观与微观、定性与定量结合起来,借助理论预测方法对已有的实验数据进行整理和概括,在此基础上建立起简便可靠的燃爆特性理论预测模型,最大限度地扩大实验数据的应用范围和使用价值,有效地解决有机物燃爆特性实验数据缺乏的问题,为化工过程设计与安全科学研究提供理论依据与技术支持。
近年来,定量结构—性质相关性研究(Quant itativeStructure-Property Relationship,QSPR)逐渐成为基础研究领域的热点。它根据化合物性能与分子结构密切相关的原理,寻求分子结构与物质性质之间的内在定量关系。其基本假设是有机物的性能与分子结构密切相关,分子结构不同,性能就不同。而分子结构可以用反映分子结构特征的各种参数来描述,即有机物的各类理化性质可以用化学结构的函数来表示。其主要思路是:首先根据分子结构确定所选用的结构参数作为分子描述符,随后针对所选用的描述符与所研究理化性质之间的内在定量关系,采用合适的统计建模方法进行关联,建立相应的QSPR预测模型。一旦建立了可靠的定量结构-性质相关模型,仅需要分子的结构信息,就可以用它来预测新的或尚未合成的有机物的各种性质。目前,该研究方法已被广泛应用于有机物包括燃爆特性在内的各类理化性质及生物活性的预测研究之中。
由于能够应用于QSPR研究的结构参数种类繁多,且各参数之间往往存在着较强的非线性关系,如组成参数、电性参数、拓扑参数等对理化性质的影响很难用准确的数学方程进行描述。因此,当前QSPR研究的主要热点之一就是开发或引入各种高效的统计建模方法,对有机物各种理化性质与其分子结构间的内在定量关系进行有效关联,以建立高效的QSPR模型。目前常用的统计建模方法主要包括多元线性回归、偏最小二乘、人工神经网络等。然而,对于复杂的非线性体系,线性方法的使用往往受到较大的限制;而作为目前应用最为广泛的非线性拟合技术神经网络方法,其本身也存在着一定的缺陷,如易于产生“过训练”、“过拟合”、网络不易优化、结果无法重复等。
支持向量机算法是Vapnik及其合作者在统计学习理论的基础上,于1995年提出的一种新型机器学习方法。它具有严格的理论基础,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误的识别任意样本的能力)之间寻找最佳折中,以期获得最好的泛化能力,因此在模式识别、函数回归等多个领域得到了广泛的应用。与传统的统计建模方法相比,支持向量机方法具有如下的优点:
(1)专门针对有限样本情况的,其目标是得到有限信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;
(2)算法最终将转化成为一个二次寻优问题,从理论上说,得到的将是全局最优点,解决了神经网络等方法无法避免的局部最优问题;
(3)算法将实际问题通过核函数的非线性变换转换到高维特征空间,在高维空间中构造线性判别函数来实现原有空间中的非线性判别函数,有较好的泛化能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。
发明内容
本发明的目的是针对现有的有机化合物燃爆特性预测方法预测精度差、计算繁琐、适用范围小等问题,发明一种基于支持向量机的有机化合物燃爆特性预测方法。
本发明的技术方案是:
一种基于支持向量机的有机化合物燃爆特性预测方法,其特征在于:以有机化合物的分子基团作为描述分子结构特征的结构描述符,实现分子结构信息的参数化;利用支持向量机强大的非线性映射能力分别针对各燃爆特性与其结构描述符之间的内在定量关系进行模拟,建立相应的基于分子基团的支持向量机预测模型;将需要预测的有机化合物的分子基团作为输入参数输入所得的预测模型中即可得到相关燃爆特性值。
所述的支持向量机采用径向基核K(x,xi)=exp(-γ||x-xi||2)作为支持向量机的核函数;将样本数据线性映射到[-1,1]区间,进行归一化处理;采用格点搜索方法确定支持向量机的最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);模型输入参数分别对应相应的分子基团,输出参数为相应的燃爆特性。
所述的燃爆特性:包括闪点、自燃点、爆炸极限、燃烧热和撞击感度。
本发明的预测方法的要点是在选取能够有效表征分子结构信息的结构描述符的基础上,采用支持向量机方法,通过对现有结构描述符和相关燃爆特性数据进行学习训练而实现的:
(1)结构-性质关系模型的建立要求选择能够有效描述所研究化合物分子结构特征的结构参数作为分子描述符。为了描述分子的结构特征,前人已经提出大量可以用于QSPR研究的分子结构参数,这些结构参数可以反映分子的组成、拓扑以及电子结构等多方面的结构信息。其中,分子基团是一类使用较为广泛的结构参数,其特点是基团划分简单易行、计算简单、使用简便,往往根据几十个基团贡献的参数,就可预测包括这些基团的大量物质的性质,因此已被广泛地用于预测有机物包括燃爆特性在内的各种物理化学性质,并且显示出较强的预测能力。
(2)成功的结构-性质关系模型主要依赖于所采用的统计建模方法的有效性。本发明选择具有强泛化能力的支持向量机方法。近期,大量的QSPR研究证明,支持向量机在不同程度上可以比其他的统计建模方法给出更为精确的学习和预测效果。支持向量机方法具有强大的非线性拟合能力,能够克服传统线性回归方法不适用于复杂非线性体系的缺陷;同时,它基于结构风险最小化原则,追求置信范围值的最小化,而非训练误差的最小化,理论上能够达到全局最优解,因此能够克服传统神经网络方法易于产生“过训练”、“过拟合”等缺点,特别适用于小样本的QSPR研究体系,并具有更好的泛化性能;此外,一旦参数设定后,支持向量机的解还具有惟一性和可重复性,这一点更是明显优于人工神经网络。因此,在本发明中我们采用支持向量机方法建立最后的燃爆特性预测模型。
支持向量机的算法步骤如下:
假设给定训练样本集{(xi,yi),i=1,……n},其中xi∈Rn是第i个学习样本的输入值,yi∈R为对应的目标值。对于线性回归,应用线性函数
f(x)=(w·x)+b (1)
进行估算。为了保证式(1)的平坦,必须寻找一个最小的w。假设所有训练数据(xi,yi)都可以在精度ε下用线性函数拟合,那么寻找最小w的问题就转变为最小化模型复杂度,其等价于,转化成相应的二次规划问题即:
(yi-w.x-b≤ε,w.x+b-yi≤ε)
考虑到允许拟合误差的情况,引入松弛因子ξ≥0,ξ*≥0以及惩罚因子C,相应的二次规划问题改写为
其中,惩罚因子C>0用来平衡回归函数f(x)的平坦程度和偏差大于ε样本点的个数。式(3)是基于以下的ε-不敏感损失函数得出,该函数|ξ|ε表示如下:
在样本数较少时,求解上面的支持向量机一般采用对偶理论,将它转化为二次规划问题。建立如下Lagrange方程:
对于非线性回归,支持向量机的解决思路是通过一个非线性映射φ,将样本映射到一个高维的特征空间中并用常规的线性方法来解决。假设样本X用非线性函数φ(X)映射到高维空间,则非线性回归问题转化为:
从而得到
支持向量机通过核函数变换将样本映射到高维特征空间,核函数K(x,x')满足K(x,x')=<φ(x),φ(x')>。因此式(6)改写为
核函数的引入使得函数求解绕过特征空间直接在输入空间进行,从而避免了计算非线性映射φ。目前支持向量机常用的核函数主要有线性核、多项式核、径向基核和sigmoid核等4种类型。本发明选用径向基核K(x,xi)=exp(-γ||x-xi||2)作为核函数。
本发明的有益效果:
本发明发明了一种基于支持向量机方法的预测有机物燃爆特性的新方法。它根据结构决定性质的原理,仅以分子结构基团作为表征有机化合物分子结构特征的结构描述符;利用支持向量机强大的统计学习能力,对已有的燃爆特性实验数据与相应的分子结构基团间的定量函数关系进行模拟,在此基础上建立起稳定可靠的燃爆特性理论预测模型,从而解决有机物燃爆特性实验数据缺乏的问题。本发明预测效果好、适用范围广、计算简单,仅需化合物分子结构就能实现其相关燃爆特性,如闪点、自燃点、爆炸极限、燃烧热、撞击感度等的预测。利用本发明的方法可以仅根据有机化合物分子结构就能准确、快速地预测出其燃爆特性,为过程设计、流程模拟、安全评估等工作提供直接的数据,而且可免去大量实验测定所带来的不便和经济上的损失,因此在化工过程设计与化工流程模拟等工作中有着良好的应用前景,其经济性十分可观。
附图说明
图1为支持向量机方法用于回归问题的原理描述。
图2为本发明预测模型建立的主要步骤示意图。
图3为支持向量机模型所得闪点预测值与实验值的比较。
图4为支持向量机模型预测相对误差范围示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1、2、3、4所示。
一种基于支持向量机的有机化合物燃爆特性预测方法,它包括模型的建立和应用,其中模型的建立是关键,建模完成后,仅需将需要预测的有机化合物的分子基团作为输入参数输入所建模型中即可得出相应的燃爆特性值。其中建模主要涉及六个步骤:
(1)实验数据的整理
根据一定的统计标准和结构标准选择一系列有机化合物,构成QSPR研究的样本集。化合物选择的条件是统计上的随机性、结构上的代表性和全面性,以及数据的可获得性。针对样本集中的系列化合物,收集所关注的燃爆特性数据。数据收集的途径主要有3种:各种权威性质数据库、各种手册以及实验测定的结果。数据选择的原则是必须可靠和标准化。本发明推荐使用的有联合国环境规划署(UNEP)、国际劳工组织(ILO)和世界卫生组织(WHO)的合作机构国际化学品安全规划署(IPCS)与欧洲联盟委员会(EU)合作编辑的《国际化学品安全卡》(ICSC)、美国阿克伦大学的危险化学品数据库、英国牛津大学的危险化学品数据库,以及美国化学工程师学会下属的(The DesignInstitute for Physical Properties)数据库。
(2)样本集的划分
将样本集随机划分为训练集和预测集两个部分,其中训练集用于建立模型,预测集用于对所建模型进行评价和验证。
(3)分子基团的划分
针对样本集中有机物的结构特征,根据一定的标准和规则进行分子结构基团的划分,以所划分出的分子基团作为表征有机物结构特征的分子描述符,实现分子结构的参数化描述。
(4)预测模型的建立
以划分的分子基团作为输入变量,所研究燃爆特性作为输出变量,应用支持向量机方法对分子结构与相关燃爆特性之间的内在关系进行模拟,寻求两者之间存在的定量函数关系,建立相应的预测模型。
决定支持向量机模拟性能的相关参数主要包括:核函数、核函数的参数、惩罚系数C以及ε-不敏感损失函数中ε的大小。本发明中,核函数选用径向基核K(x,xi)=exp(-γ||x-xi||2),因为它具有较高的学习效率和学习速率。其它参数通过“格点搜索”方法确定。
参数搜索范围如下:惩罚系数C0-1024;核函数的宽度γ——0-1024;ε-不敏感损失函数中的ε——0-1024。
搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE)。“留1/10法”交互验证是指从训练集中每次筛除训练样本数的1/10个化合物,用其余的化合物建模,来预测所筛除化合物的性质,这样得到一个交互验证的均方根误差(RMS)来评价模型性能的好坏,其计算公式为: 通过搜索,选取“留1/10法”交互检验的最小RMS所对应的那组参数作为模型的输入参数。
应用搜索出的最优参数作为支持向量机的输入参数,建立相应的预测模型。
(5)模型的评价与验证
对所建立的QSPR模型的可靠程度及模型的预测能力进行评价和验证。评价主要针对几个方面:模型的拟合优度、稳健性和预测能力。本发明中,模型的拟合优度采用复相关系数(r2,即回归系数的平方,代表模型所解释的方差)来评价;模型的稳健性采用“留一法”(Leave-one-out,LOO)交互验证方法来进行检验,“留一法”交互检验是指从训练集中每次筛除一个化合物,用其余的化合物建模,来预测筛除化合物的性质,这样得到一个交互验证的r2(即Q2)来评价模型稳健性,其计算公式为: 模型预测能力的验证通过用所建立的模型来预测测试集化合物的相关性质,然后计算相应的均方根误差(RMS)和平均绝对误差(AAE)的方式进行。只有具有统计上的显著性、稳健的和具有高度预测能力的模型才能够进行应用。
(6)预测模型的应用
利用所建模型的预测能力对其它未知化合物的相关燃爆特性进行预测,为化工生产和工程设计等工作提供所缺失的燃爆特性数据。
下面以闪点预测为例,对本发明做进一步说明。
样本集共包含1282种有机化合物,其闪点数据从美国化学工程师学会下属的数据库获得。该样本集中的化合物涵盖广泛的化学多样性空间,为建立健壮、有效的预测模型奠定了基础。随后,对样本集进行划分,随机选择1026种化合物作为训练集,用于建立预测模型;选择剩余256种化合物作为外部预测集,用于对所建模型的可靠程度和预测能力进行评价验证。
随后,根据样本集中化合物的分子结构,对分子基团进行划分,共提取57种分子基团作为表征有机物分子结构特征的分子描述符,具体基团类别列于表1。
表1.对应于分子描述符的57种分子基团
as=单键(—),a=芳香键(a),R=脂肪环,—X=与卤素原子相连
然后,应用支持向量机方法对有机物闪点与结构基团间的内在定量关系进行模拟。将样本数据线性映射到[-1,1]区间,进行归一化处理;采用格点搜索方法确定支持向量机的最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);通过搜索,确定模型选取的最优参数为:惩罚系数C=16,ε-不敏感损失函数中的ε=0.01,核函数的宽度γ=0.0625,相应的支持向量数为817。应用确定的最优参数,建立相应的预测模型。应用该模型对样本集化合物进行预测。所得预测值与实验值的比较见附图3。
表2中列出了本发明基于支持向量机预测模型的整体性能参数。对于训练集,我们的支持向量机模型显示了强劲的数据拟合能力,复相关系数达0.98;对于外部测试集,我们的模型可以给出9.985℃的预测误差,在±10℃的实验允许误差范围之内。这说明我们的预测模型是成功的。从表2还可以看出,本预测模型所得预测性能与拟合性能较为接近,这说明本模型还具有较强的泛化能力即预测稳定性。此外,我们对样本集中所有1282种有机化合物的预测相对误差进行了计算,所得预测平均相对误差为1.984%,最大相对误差为19.23%。详细结果见附图4。从图4可以看出,预测相对误差大于10%的化合物仅有21种,而预测相对误差小于1%的化合物有671种,超过样本集中所有1282种化合物的一半。由此可见,本发明基于支持向量机方法开发的闪点预测模型是成功的,能够被有效地应用于预测未知化合物的闪点数据。
表2.所建模型的主要性能参数
目前,国内外所使用的闪点预测模型多是基于多元线性回归、主成分回归和神经网络方法而建立的。Suzuki等应用主成分回归方法针对400种有机物建立了闪点预测模型,该模型的预测平均绝对误差为10.3℃。Tetteh等使用神经网络方法针对400种有机物建立了闪点预测模型,该模型的预测平均绝对误差为10.2℃。Katritzky等分别应用多元线性回归和神经网络方法针对758有机物建立了相应的闪点预测模型,所得平均绝对误差分别为13.9K and12.6K。Gharagheizi和Alamdari应用基于遗传算法的多元线性回归技术,针对1030种有机物建立了闪点预测模型,其预测平均绝对误差为10.2K。上述预测模型与本发明所建模型的比较见表3。
表3.本模型与已有模型的比较
从表3可以看出,与已有模型相比,本发明基于支持向量机方法建立的预测模型具有更高的预测精度。同时,它建立在更大的样本集基础之上,因此具有更大的广泛性和代表性。由此可见,支持向量机方法作为一种新型的机器学习算法,由于具有强大的非线性映射能力和良好的泛化性能,在参数选择合理、训练方法得当的情况下,是能够充分表达有机化合物燃爆特性与其分子结构基团之间的复杂关系,从而建立有效的燃爆特性预测模型的。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
Claims (2)
1.一种基于支持向量机的有机化合物燃爆特性预测方法,其特征在于:以有机化合物的分子基团作为描述分子结构特征的结构描述符,实现分子结构信息的参数化;利用支持向量机分别针对各燃爆特性与其结构描述符之间的内在定量关系进行模拟,建立相应的基于分子基团的支持向量机预测模型;将需要预测的有机化合物的分子基团作为输入参数输入所得的预测模型中即可得到相关燃爆特性值;具体步骤如下:
(1)实验数据的整理;
根据统计标准和结构标准选择一系列有机化合物,构成QSPR研究的样本集;化合物选择的条件是统计上的随机性、结构上的代表性和全面性,以及数据的可获得性;针对样本集中的系列化合物,收集所关注的燃爆特性数据;数据收集的途径主要有3种:实验测定、各种权威性质数据库及手册;
(2)样本集的划分;
将样本集随机划分为训练集和预测集两个部分,其中训练集用于建立模型,预测集用于对所建模型进行评价和验证;
(3)分子基团的划分;
针对样本集中有机物的结构特征,根据标准和规则进行分子结构基团的划分,以所划分出的分子基团作为表征有机物结构特征的分子描述符,实现分子结构的参数化描述;
(4)预测模型的建立
以划分的分子基团作为输入变量,所研究燃爆特性作为输出变量,应用支持向量机方法对分子结构与相关燃爆特性之间的内在关系进行模拟,寻求两者之间存在的定量函数关系,建立相应的预测模型;
决定支持向量机模拟性能的相关参数主要包括:核函数、核函数的参数、惩罚系数C以及ε-不敏感损失函数中ε的大小;核函数选用径向基核K(x,xi)=exp(-γ||x-xi||2),因为它具有较高的学习效率和学习速率;其它参数通过“格点搜索”方法确定;
参数搜索范围如下:惩罚系数C——0-1024;核函数的宽度γ——0-1024;ε-不敏感损失函数中的ε——0-1024;
搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);“留1/10法”交互验证是指从训练集中每次筛除训练样本数的1/10个化合物,用其余的化合物建模,来预测所筛除化合物的性质,这样得到一个交互验证的均方根误差(RMS)来评价模型性能的好坏,其计算公式为:
通过搜索,选取“留1/10法”交互检验的最小RMS所对应的那组参数作为模型的输入参数;
应用搜索出的最优参数作为支持向量机的输入参数,建立相应的预测模型。
(5)模型的评价与验证
对所建立的QSPR模型的可靠程度及模型的预测能力进行评价和验证;评价主要针对几个方面:模型的拟合优度、稳健性和预测能力,模型的拟合优度采用复相关系数r2即回归系数的平方,代表模型所解释的方差来评价;模型的稳健性采用“留一法”即Leave-one-out,LOO交互验证方法来进行检验,“留一法”交互检验是指从训练集中每次筛除一个化合物,用其余的化合物建模,来预测筛除化合物的性质,这样得到一个交互验证的r2即Q2来评价模型稳健性,其计算公式为:模型预测能力的验证通过用所建立的模型来预测测试集化合物的相关性质,然后计算相应的均方根误差(RMS)和平均绝对误差(AAE)的方式进行;只有具有统计上的显著性、稳健的和具有高度预测能力的模型才能够进行应用;
(6)预测模型的应用;
利用所建模型的预测能力对其它未知化合物的相关燃爆特性进行预测。
2.根据权利要求1所述的预测方法,其特征是所述的燃爆特性包括闪点、自燃点、爆炸极限、燃烧热和撞击感度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810022518XA CN101339180B (zh) | 2008-08-14 | 2008-08-14 | 基于支持向量机的有机化合物燃爆特性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810022518XA CN101339180B (zh) | 2008-08-14 | 2008-08-14 | 基于支持向量机的有机化合物燃爆特性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101339180A CN101339180A (zh) | 2009-01-07 |
CN101339180B true CN101339180B (zh) | 2012-05-23 |
Family
ID=40213298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810022518XA Active CN101339180B (zh) | 2008-08-14 | 2008-08-14 | 基于支持向量机的有机化合物燃爆特性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101339180B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081020B (zh) * | 2010-01-26 | 2012-09-05 | 上海海事大学 | 基于支持向量机的材料疲劳寿命预测方法 |
CN102708269B (zh) * | 2011-10-24 | 2016-05-25 | 西北师范大学 | 基于支持向量机预测胞浆型磷脂酶A2α抑制剂的抑制浓度的方法 |
CN102608284B (zh) * | 2011-12-23 | 2014-11-05 | 南京工业大学 | 一种确定多元混合气体爆炸极限的方法 |
CN102608285B (zh) * | 2012-02-21 | 2014-08-06 | 南京工业大学 | 基于支持向量机的有机混合物燃爆特性预测方法 |
CN102901804B (zh) * | 2012-10-25 | 2014-10-29 | 四川威特龙消防设备有限公司 | 一种油气爆炸临界参数分析方法 |
CN102980972B (zh) * | 2012-11-06 | 2015-06-03 | 南京工业大学 | 一种确定自反应性化学物质热危险性的方法 |
CN104374867B (zh) * | 2014-11-24 | 2016-01-06 | 重庆消防安全技术研究服务有限责任公司 | 阻燃材料及制品氧指数现场快速检测方法 |
CN105528651A (zh) * | 2015-12-01 | 2016-04-27 | 中国水产科学研究院南海水产研究所 | 一种基于数据挖掘技术的深水网箱养殖鱼类生长预测方法 |
CN107093022B (zh) * | 2017-04-24 | 2020-03-24 | 中国工程物理研究院化工材料研究所 | 高置信度的燃爆产品可靠性的小样本评估方法 |
WO2019048965A1 (ja) * | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
EP3561702A1 (de) * | 2018-04-23 | 2019-10-30 | Covestro Deutschland AG | Verfahren zum ermitteln einer produktkomposition für ein chemisches mischungsprodukt |
CN109946993A (zh) * | 2019-03-18 | 2019-06-28 | 浙江大学 | 一种基于混合建模的热耦合空分设备能耗监测系统 |
CN111798935B (zh) * | 2019-04-09 | 2024-07-05 | 南京药石科技股份有限公司 | 基于神经网络的普适性化合物结构-性质相关性预测方法 |
JP7353874B2 (ja) * | 2019-09-03 | 2023-10-02 | 株式会社日立製作所 | 材料特性予測装置および材料特性予測方法 |
CN113340875B (zh) * | 2021-04-07 | 2022-05-13 | 北京理工大学 | 基于激光诱导击穿光谱对含能材料撞击感度和摩擦感度快速定量预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315659A (zh) * | 2000-01-18 | 2001-10-03 | 普莱克斯技术有限公司 | 预测复杂混合物可燃性限值的方法 |
CN101131391A (zh) * | 2006-08-24 | 2008-02-27 | 中国科学院上海药物研究所 | 基于分子亲电矢量和扩展支持向量机的基因毒性概率预测方法 |
WO2008033100A1 (en) * | 2006-09-11 | 2008-03-20 | Agency For Science, Technology And Research | Method of predicting protein allergenicity using a support vector machine |
WO2008091225A1 (en) * | 2007-01-22 | 2008-07-31 | Agency For Science, Technology And Research | Comparative detection of structure patterns in interaction sites of molecules |
-
2008
- 2008-08-14 CN CN200810022518XA patent/CN101339180B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1315659A (zh) * | 2000-01-18 | 2001-10-03 | 普莱克斯技术有限公司 | 预测复杂混合物可燃性限值的方法 |
CN101131391A (zh) * | 2006-08-24 | 2008-02-27 | 中国科学院上海药物研究所 | 基于分子亲电矢量和扩展支持向量机的基因毒性概率预测方法 |
WO2008033100A1 (en) * | 2006-09-11 | 2008-03-20 | Agency For Science, Technology And Research | Method of predicting protein allergenicity using a support vector machine |
WO2008091225A1 (en) * | 2007-01-22 | 2008-07-31 | Agency For Science, Technology And Research | Comparative detection of structure patterns in interaction sites of molecules |
Non-Patent Citations (3)
Title |
---|
潘勇.人工神经网络方法在脂肪醇闪点预测中的应用.《中国职业安全健康协会2 0 0 6 年学术年会》.2006,574-577. * |
王冰.基于支撑向量机方法的有机化合物的生成Gibbs自由能的预测.《应用化学》.2006,第23卷(第5期),552-556. * |
王睿.关于支持向量机参数选择方法分析.《重庆师范大学学报(自然科学版)》.2007,第24卷(第2期),36-38,42. * |
Also Published As
Publication number | Publication date |
---|---|
CN101339180A (zh) | 2009-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101339180B (zh) | 基于支持向量机的有机化合物燃爆特性预测方法 | |
CN101339181B (zh) | 基于遗传算法的有机化合物燃爆特性预测方法 | |
Tran et al. | Nature-inspired metaheuristic ensemble model for forecasting energy consumption in residential buildings | |
CN102608285B (zh) | 基于支持向量机的有机混合物燃爆特性预测方法 | |
CN102980972B (zh) | 一种确定自反应性化学物质热危险性的方法 | |
Cui et al. | The Three Hundred project: The gizmo-simba run | |
Carmichael et al. | Evaluating regional emission estimates using the TRACE‐P observations | |
Gharagheizi et al. | Prediction of flash point temperature of pure components using a quantitative structure–property relationship model | |
CN102608284B (zh) | 一种确定多元混合气体爆炸极限的方法 | |
CN103065042A (zh) | 基于情景的多目标综合决策评价方法 | |
Duka et al. | Processing, neural network-based modeling of biomonitoring studies data and validation on Republic of Moldova data | |
CN110321960A (zh) | 一种工厂生产要素的预测方法及系统 | |
Shao et al. | Investigation into relationship between intensive land use and urban heat island effect in shijiazhuang city based on the tapio decoupling theory | |
Trappey et al. | Location quotient EIO-LCA method for carbon emission analysis | |
Heidary Dahooie | Husseinzadeh Kashan | |
Meng et al. | Machine-learning Interpretation of the Correlation between Infrared Emission Features of Interstellar Polycyclic Aromatic Hydrocarbons | |
Akbari Azirani et al. | The trend analysis of dust phenomenon changes in the western region of Iran during 1979-2018 | |
Liu et al. | Crack prediction based on wavelet correlation analysis least squares support vector machine for stone cultural relics | |
Su et al. | An evaluation of the effects of various parameter weights on typical meteorological years used for building energy simulation | |
CN107122496A (zh) | 基于类别分析法的近红外光谱物质含量索引方法、设备及介质 | |
Huang et al. | Application of an extension method on optimal site selection for PV power systems: A case study in Taiwan | |
Kathirgamanathan et al. | Feature Assessment in Data-driven Models for unlocking Building Energy Flexibility | |
DADA et al. | Power Consumption Prediction in Urban Areas using Machine Learning as a Strategy towards Smart Cities | |
Almanza et al. | Multi-criteria selection of an Air Quality Model configuration based on quantitative and linguistic evaluations | |
Liao | Prediction method of urban traffic carbon emission reduction rate based on grey relational analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |