CN107516016B - 一种构模预测疏水性化合物的硅油-空气分配系数的方法 - Google Patents
一种构模预测疏水性化合物的硅油-空气分配系数的方法 Download PDFInfo
- Publication number
- CN107516016B CN107516016B CN201710763774.3A CN201710763774A CN107516016B CN 107516016 B CN107516016 B CN 107516016B CN 201710763774 A CN201710763774 A CN 201710763774A CN 107516016 B CN107516016 B CN 107516016B
- Authority
- CN
- China
- Prior art keywords
- model
- silicone oil
- sio
- log
- predicting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 44
- 229920001296 polysiloxane Polymers 0.000 title claims abstract description 21
- 230000002209 hydrophobic effect Effects 0.000 title claims abstract description 18
- 238000004617 QSAR study Methods 0.000 claims abstract description 43
- 238000004770 highest occupied molecular orbital Methods 0.000 claims abstract description 25
- 238000004768 lowest unoccupied molecular orbital Methods 0.000 claims abstract description 12
- 238000005192 partition Methods 0.000 claims abstract 12
- 239000000126 substance Substances 0.000 claims description 17
- 229920002545 silicone oil Polymers 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 10
- 239000007789 gas Substances 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims description 8
- 238000004057 DFT-B3LYP calculation Methods 0.000 claims description 7
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 claims description 6
- WYURNTSHIVDZCO-UHFFFAOYSA-N Tetrahydrofuran Chemical compound C1CCOC1 WYURNTSHIVDZCO-UHFFFAOYSA-N 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 150000001298 alcohols Chemical class 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 125000000524 functional group Chemical group 0.000 claims description 4
- 229910052739 hydrogen Inorganic materials 0.000 claims description 4
- 239000001257 hydrogen Substances 0.000 claims description 4
- 150000002576 ketones Chemical class 0.000 claims description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 claims description 3
- 150000001335 aliphatic alkanes Chemical class 0.000 claims description 3
- 229910002092 carbon dioxide Inorganic materials 0.000 claims description 3
- 239000001569 carbon dioxide Substances 0.000 claims description 3
- 150000001805 chlorine compounds Chemical class 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 150000003997 cyclic ketones Chemical class 0.000 claims description 3
- 150000001924 cycloalkanes Chemical class 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 150000002148 esters Chemical class 0.000 claims description 3
- 150000002170 ethers Chemical class 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 229910000037 hydrogen sulfide Inorganic materials 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- YLQBMQCUIZJEEH-UHFFFAOYSA-N tetrahydrofuran Natural products C=1C=COC=1 YLQBMQCUIZJEEH-UHFFFAOYSA-N 0.000 claims description 3
- 150000004945 aromatic hydrocarbons Chemical class 0.000 claims description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims 1
- 238000005284 basis set Methods 0.000 claims 1
- 229910052799 carbon Inorganic materials 0.000 claims 1
- 229910052736 halogen Inorganic materials 0.000 claims 1
- 150000002367 halogens Chemical class 0.000 claims 1
- 229910052760 oxygen Inorganic materials 0.000 claims 1
- 239000001301 oxygen Substances 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 4
- 239000000463 material Substances 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000012795 verification Methods 0.000 description 14
- QMMFVYPAHWMCMS-UHFFFAOYSA-N Dimethyl sulfide Chemical compound CSC QMMFVYPAHWMCMS-UHFFFAOYSA-N 0.000 description 8
- YXFVVABEGXRONW-UHFFFAOYSA-N Toluene Chemical compound CC1=CC=CC=C1 YXFVVABEGXRONW-UHFFFAOYSA-N 0.000 description 7
- 239000007791 liquid phase Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- WQOXQRCZOLPYPM-UHFFFAOYSA-N dimethyl disulfide Chemical compound CSSC WQOXQRCZOLPYPM-UHFFFAOYSA-N 0.000 description 5
- 239000012071 phase Substances 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 239000008346 aqueous phase Substances 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- ISPYQTSUDJAMAB-UHFFFAOYSA-N 2-chlorophenol Chemical compound OC1=CC=CC=C1Cl ISPYQTSUDJAMAB-UHFFFAOYSA-N 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- VLKZOEOYAKHREP-UHFFFAOYSA-N n-Hexane Chemical compound CCCCCC VLKZOEOYAKHREP-UHFFFAOYSA-N 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 125000005843 halogen group Chemical group 0.000 description 2
- DCAYPVUWAIABOU-UHFFFAOYSA-N hexadecane Chemical compound CCCCCCCCCCCCCCCC DCAYPVUWAIABOU-UHFFFAOYSA-N 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 125000004430 oxygen atom Chemical group O* 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000427940 Fusarium solani Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 239000012736 aqueous medium Substances 0.000 description 1
- -1 aromatics Chemical class 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036983 biotransformation Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000002608 ionic liquid Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 239000012074 organic phase Substances 0.000 description 1
- 239000003960 organic solvent Substances 0.000 description 1
- 150000002989 phenols Chemical class 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002110 toxicologic effect Effects 0.000 description 1
- 231100000027 toxicology Toxicity 0.000 description 1
- 235000015112 vegetable and seed oil Nutrition 0.000 description 1
- 239000008158 vegetable oil Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Crystallography & Structural Chemistry (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种通过构建定量构效关系模型预测疏水性化合物的硅油‑空气分配系数的方法。该方法采用以下模型进行硅油‑空气分配系数的预测:logK SiO/A=2.888+0.025×α–0.244×(E LUMO–E HOMO),其中,logK SiO/A表示硅油‑空气分配系数,α表示平均分子极化率,(E LUMO‑E HOMO)表示最低未占据分子轨道与最高占据分子轨道的能差。本发明方法仅通过计算具有结构特征的分子描述符,应用所构建的QSAR模型,即能快速、高效地预测疏水性化合物的硅油‑空气分配系数,方法简单、快捷、成本低,且能节省实验测试所需的人力、物力和财力。
Description
技术领域
本发明涉及构模预测化合物在有机相和气相中的浓度比领域,具体涉及一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数 (logKSiO/A)的方法。
背景技术
许多新兴的生物过程涉及到第二非水液相,比如用第二非水液相分隔关键基质或产物以增强相间传质、避免浓度抑制或原位产物萃取。环境生物技术涉及使用微生物进行与能源和环境相关的各种重要生物转化,为了解决疏水性物质从气态到水相的转移问题,一些研究者已经探讨了加入第二种非水液相以提高气液传质速率,两相分配生物反应器(Two-phase partitioning bioreactor,TPPB) 应运而生,这种非水相通常包括硅油、植物油、脂肪酸或离子液体。在生物过程中应用第二非水液相的关键是选择非水相,非水相除了“感兴趣”的化学物质的优异分配之外,应具有诸如生物相容性和非生物降解性的特性。Arriaga等人(Arriaga,S.,Munoz,R.,Hernandez,S.,et al.Gaseous HexaneBiodegradation by Fusarium Solani in Two-Liquid Phase Packed-Bed and Stirred-Tank Bioreactors. Environmental Science&Technology.2006,40(7):2390-2395)对多种常见的有机溶剂进行了系统的筛选研究,实验结果表明,硅油最适合作为TPPB的非水相介质。Munoz等人(Munoz,R.,Chambaud,M.,Bordel,S.,et al.A Systematic Selection ofthe Non-Aqueous Phase in a Bacterial Two Liquid Phase Bioreactor Treating α-Pinene.Applied Microbiology and Biotechnology.2008,79(1):33-41)也对包括硅油、十六烷在内的多种有机溶剂进行了筛选研究,实验结果同样表明,硅油是一种性能优良的非水相介质。关于空气污染控制和气体处理,硅油具有许多所需的性能,因此是实验室研究中最常见的选择。
然而,尽管硅油在研究中得到广泛的应用,但对“感兴趣”的化学物质在硅油中的分配性质尚未进行系统的研究。这限制了我们对TPPB性能建模的能力,或将应用扩展到其他相关污染物或化学品。因此,开发了可以预测未知化合物硅油-空气分配系数的定量结构-活性关系(QSAR)模型,再结合亨利常数(H) 即可得到硅油与水之间的分配系数,此参数可以区分哪种化合物更易于分散到硅油的非水相中。
定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)是根据分子结构信息预测化合物的理化性质、环境行为或毒理学参数(统称为活性)的方法,可用于预测化合物的KSiO/A值,为开发快速预测方法提供了良好的思路。它具有弥补测试数据的缺失、降低测试费用的优点,在有机化学品的生态风险评价领域得到了越来越广泛的重视和应用。2004年经合组织(OECD) 提出了QSAR模型构建和使用的准则,指出符合以下5个要求的QSAR模型可以应用于化学品的风险评价与管理:(1)具有明确定义的环境指标;(2)具有明确的算法;(3)定义了模型的应用域;(4)模型具有适当的拟合度、稳定性和预测能力;(5)最好能够进行机理解释。
目前,国内外用于预测KSiO/A的QSAR方法鲜为少见,文献“Chemical EngineeringJournal.2017,310:72-78”中按物质的官能团区分,以维纳指数 (Wiener index)为单一参数建立了每类物质的空气-硅油分配系数P的QSAR 模型,相关系数R2非常接近1,该预测模型虽然有其自身的特点,也存在一些不足之处。这些不足主要体现在以下几方面:第一,单个描述符不能较全面地捕获大量化合物的物理和化学性质,不能用单一的相关性适用于所有化合物;第二,所采用的描述符不适合进行机理解释,而且为指数或幂数的较复杂形式;第三,每种官能团建立模型时的数据集较少,可靠性较低;第四,所得模型不包括其它有机物,且不能用于气体的预测。基于上述研究现状,迫切需要发展应用域涵盖化合物数量较多且结构种类丰富、描述符易获得、具有明确算法且透明度高、易于机理解释和便于应用推广的QSAR综合模型。另外,根据OECD 对QSAR模型构建和使用导则的要求,对模型进行全面的模型性能评估、应用域的表征及机理解释。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法。该方法简便、快捷、高效,根据化合物分子结构预测其KSiO/A数值,进而评估平衡状态下化合物在以硅油为第二非水液相时的传质效果。同时,在建模过程中参照OECD对QSAR模型构建和使用导则,不仅进行了内、外部验证考察模型的预测能力和稳健性,而且对模型应用域进行了表征。
本发明的目的通过如下技术方案实现。
一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,包括如下步骤:
(1)选择来自于同一实验室使用相同方法测定的不同化合物的logKSiO/A值,得到logKSiO/A值数据集;
(2)根据不同化合物在硅油和空气相之间分配机理的分析,选择相应的20 个分子结构描述符分别表征分子的体积、电荷分布、氢键作用、色散力、热力学、分子形状和电子信息,共包括14个量子化学描述符以及6个分子构成描述符,用于模型的构建;
(3)使用Gaussian软件DFT方法中的B3LYP泛函算法,采用6-311G** 基组对不同化合物的分子结构进行优化,并计算14个量子化学描述符;
(4)将步骤(1)得到的logKSiO/A值数据集按数值大小随机抽取1/4作为验证集数据,其余为训练集数据,训练集用来构建预测模型,验证集用来验证模型的预测能力;
(5)采用SPSS 22.0软件执行模型的QSAR分析,依次包括相关性分析、主成分分析(PCA)、逐步多元线性回归(MLR)和模型验证,得到最优模型为:
logKSiO/A=2.888+0.025×α–0.244×(ELUMO–EHOMO)
其中,logKSiO/A表示硅油-空气分配系数,α表示平均分子极化率,(ELUMO- EHOMO)表示最低未占据分子轨道与最高占据分子轨道的能差;
(6)将验证集数据代入步骤(5)获得的最优模型中,得到预测值,然后根据外部预测能力评价系数Q2 ext的值判定外部预测能力的好坏。
进一步地,步骤(1)中,所述logKSiO/A值数据集共选自48个中性化合物的logKSiO/A值。
进一步地,步骤(1)中,所述logKSiO/A值数据集的数值范围为0.086~3.319,跨越3.2个数量级。
进一步地,步骤(2)中,所述14个量子化学描述符为:偶极矩μ、平均分子极化率α、摩尔体积Vm、分子所带最正电荷q+、分子所带最负电荷q-、最高占据轨道能EHOMO、最低未占据轨道能ELUMO、LUMO-HOMO能差ELUMO-EHOMO、零点校正能ZPE、内能的热校正Eθ th、标准焓Hθ、标准熵Sθ、标准吉布斯自由能Gθ、标准恒容热容Cθ v。
进一步地,步骤(2)中,所述6个分子构成描述符为:摩尔质量M、不饱和度DBE、碳原子数#C、氢原子数#H、氧原子数#O和卤素原子数#X。
进一步地,步骤(4)中,所有主要官能团化合物都包含在训练集和验证集中,使logKSiO/A值数据集具有代表性。
进一步地,步骤(5)中,使用相关系数的平方R2和均方根误差RMSE作为统计学指标表征模型的拟合性能。
进一步地,步骤(5)中,使用交叉验证系数Q2 LOO和Bootstrapping验证系数Q2 BOOT评价模型的稳健性。
进一步地,步骤(6)中,当Q2 ext大于0.7时,则建立的模型具有良好的外部预测能力,且Q2 ext越大,外部预测能力越好。
进一步地,构建的定量构效关系模型适用预测的疏水性化合物包括烷烃、醇、芳烃、氯化物、酮、酯类、醚类、环烷烃、环酮、四氢呋喃、硫化氢或二氧化碳气体。
本发明提供的方法具有如下特点:(1)模型数据集涵盖烃类、醇类、酮类、酚类、酸类、芳香类等多种结构的有机化合物,应用域广,适用于非常广泛的相关化合物logKSiO/A值的预测;(2)建模采用透明算法——MLR算法,所建模型包含20种分子结构描述符,模型算法透明,机理易于解释,实际应用能力强; (3)按照OECD关于QSAR模型构建和使用的导则,建立的模型具有良好的拟合能力,稳健性和预测能力。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明方法能快速预测多个种类的中性化合物在硅油和空气之间的分配系数,方法简单、快捷、成本低,且能节省实验测试所需的人力、物力和财力;
(2)本发明方法使用的分子结构描述符容易获得,回归分析方法简单,易于理解和应用;
(3)本发明所涉及的logKSiO/A值预测方法的建立和验证严格依照经济合作与发展组织(OECD)规定的QSAR模型发展和使用的导则,使用本发明得到的 logKSiO/A预测结果,可以为环境相关化合物在TPPB中的传质性能提供重要的基础数据,以用于空气污染控制和气体处理。
附图说明
图1为本发明具体实施方式中logKSiO/A预测值与实验值的对比图;
图2为本发明具体实施方式中logKSiO/A的预测误差值与实验值的拟合图;
图3是表征模型高影响度化合物和离域点的Williams图。
具体实施方式
下面结合具体实施例进一步详细描述本发明,但本发明保护范围并不局限于如下所述内容。
本发明具体实施例中,通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,包括如下步骤:
(1)选择来自于同一实验室使用相同方法测定48个中性化合物的logKSiO/A值,得到logKSiO/A值数据集,logKSiO/A值数据集的数值范围为0.086~3.319,跨越3.2个数量级;
(2)根据48个中性化合物在硅油和空气相之间分配机理的分析,选择20 个分子结构描述符分别表征分子的体积、电荷分布、氢键作用、色散力、热力学、分子形状和电子信息,共包括14个量子化学描述符以及6个分子构成描述符,用于模型的构建;14个量子化学描述符为:偶极矩μ、平均分子极化率α、摩尔体积Vm、分子所带最正电荷q+、分子所带最负电荷q-、最高占据轨道能 EHOMO、最低未占据轨道能ELUMO、LUMO-HOMO能差ELUMO-EHOMO、零点校正能ZPE、内能的热校正Eθ th、标准焓Hθ、标准熵Sθ、标准吉布斯自由能Gθ、标准恒容热容Cθ v;6个分子构成描述符为:摩尔质量M、不饱和度DBE、碳原子数#C、氢原子数#H、氧原子数#O和卤素原子数#X;
每个描述符的方差膨胀因子(VIF)均为1.02(远小于10),模型不存在多重相关性;
(3)使用Gaussian软件DFT方法中的B3LYP泛函算法,采用6-311G** 基组对不同化合物的分子结构进行优化,并计算14个量子化学描述符;
(4)将步骤(1)得到的logKSiO/A值数据集按数值大小随机抽取1/4作为验证集数据,其余为训练集数据,所有主要官能团化合物都包含在训练集和验证集中,使logKSiO/A值数据集具有代表性;训练集数据个数n=36,训练集用来构建预测模型,验证集用来验证模型的预测能力;
(5)采用SPSS 22.0软件执行模型的QSAR分析,依次包括相关性分析、主成分分析(PCA)、逐步多元线性回归(MLR)和模型验证;
logKSiO/A预测值与实验值的对比图及logKSiO/A的预测误差值与实验值的拟合图分别如图1和图2所示;
相关系数的平方R2和均方根误差RMSE作为统计学指标表征模型的拟合性能,R2=0.83,RMSE=0.307,表明模型具有较好的拟合能力;
交叉验证系数Q2 LOO和Bootstrapping验证系数Q2 BOOT评价模型的稳健性, Q2 LOO=0.79,Q2 BOOT=0.81,R2和Q2之差远小于0.3,可认为模型不存在过拟合现象,具有良好的稳健性;
得到最优模型为:
logKSiO/A=2.888+0.025×α–0.244×(ELUMO–EHOMO)
其中,logKSiO/A表示硅油-空气分配系数,α表示平均分子极化率,(ELUMO- EHOMO)表示最低未占据分子轨道与最高占据分子轨道的能差;通过模型中的2 个描述符能够对化合物在硅油和空气之间分配的机理进行合理解释;
(6)将验证集数据代入步骤(5)获得的最优模型中,得到预测值,然后根据外部预测能力评价系数Q2 ext的值判定外部预测能力的好坏;
当Q2 ext大于0.7时,则建立的模型具有良好的外部预测能力,且Q2 ext越大,外部预测能力越好;
外部验证过程中,验证集数据个数n=12,外部预测相关系数的R2 ext=0.89, Q2 ext=0.87,RMSE ext=0.178,表明模型具有良好的外部预测能力。
使用Williams图来确定高影响度化合物和离域点:以化合物描述符矩阵的 hi值作为横坐标,以标准残差为纵坐标绘制Williams图。hi值大于警戒值h*(本模型为0.25)的化合物被诊断为高影响度化合物,离域点则定义为标准残差的绝对值大于3的化合物。本发明具体实施方式的模型的Williams图如图3所示,由图3可知,有2个化合物是高影响度化合物,但是它们的标准残差的绝对值都小于2,表明模型的泛化能力较强,对距离描述符矩阵中心较远的化合物也能精确预测;此外,模型没有离域点。
综上,构建的QSAR模型的应用域定义为:烷烃、醇、芳烃、氯化物、酮、酯类、醚类、环烷烃、环酮、四氢呋喃、硫化氢或二氧化碳气体。
进行logKSiO/A的预测时,如果化合物的hi值大于0.25,会得到不可靠的预测结果,则对于这些化合物,本发明具体实施方式构建的模型的使用要非常谨慎。
实施例1
二甲基硫:首先在有机小分子生物活性数据库(PubChem)上查得二甲基硫的分子结构信息,然后利用量子化学软件Gaussian中的B3LYP/6-311G**方法计算出α、ELUMO-EHOMO这2个描述符。采用Williams图法计算得到其hi值为 0.024<h*(警戒值)=0.25,标准残差(SE)=-0.354>-3,说明此化合物在本发明具体实施方式构建的QSAR模型应用域内。
代入构建的QSAR模型中,二甲基硫的logKSiO/A实验测定值为2.15,基于 QSAR模型预测步骤如下:
logKSiO/A=2.888+0.025×41.038–0.244×6.780=2.26
误差仅为0.11,与实验值非常相符。
实施例2
二甲基二硫:首先在PubChem上查得二甲基二硫的分子结构信息,然后利用量子化学软件Gaussian中的B3LYP/6-311G**方法计算出α、ELUMO-EHOMO这 2个描述符;采用Williams图法计算得到其hi值为0.031<h*(警戒值)=0.25,标准残差(SE)=-0.483>-3,说明此化合物在本发明具体实施方式构建的QSAR 模型应用域内。
代入构建的QSAR模型中,二甲基二硫的logKSiO/A实验测定值为2.86,基于QSAR模型预测步骤如下:
logKSiO/A=2.888+0.025×61.192–0.244×5.736=3.02
误差仅为0.16,与实验值非常相符。
实施例3
2-氯酚:首先在PubChem上查得2-氯酚的分子结构信息,然后利用量子化学软件Gaussian中的B3LYP/6-311G**方法计算出α、ELUMO-EHOMO这2个描述符;采用Williams图法计算得到其hi值为0.109<h*(警戒值)=0.25,标准残差(SE)=1.633<3,说明此化合物在本发明具体实施方式构建的QSAR模型应用域内。
代入构建的QSAR模型中,2-氯酚的logKSiO/A实验测定值为4.25,基于QSAR 模型预测步骤如下:
logKSiO/A=2.888+0.025×85.194–0.244×5.254=3.74
误差仅为0.51,与实验值非常相符。
实施例4
甲苯:首先在PubChem上查得甲苯的分子结构信息,然后利用量子化学软件Gaussian中的B3LYP/6-311G**方法计算出α、ELUMO-EHOMO这2个描述符;采用Williams图法计算得到其hi值为0.047<h*(警戒值)=0.25,标准残差(SE) =-0.288>-3,说明此化合物在本发明具体实施方式构建的QSAR模型应用域内。
代入构建的QSAR模型中,甲苯的logKSiO/A实验测定值为3.03,基于QSAR 模型预测步骤如下:
logKSiO/A=2.888+0.025×72.387–0.244×6.445=3.12
误差仅为0.09,与实验值非常相符。
Claims (7)
1.一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,包括如下步骤:
(1)选择来自于同一实验室使用相同方法测定的不同化合物的logK SiO/A值,得到logK SiO/A值数据集;所述logK SiO/A值数据集共选自48个中性化合物的logK SiO/A值;
(2)根据不同化合物在硅油和空气相之间分配机理的分析,选择相应的20个分子结构描述符分别表征分子的体积、电荷分布、氢键作用、色散力、热力学、分子形状和电子信息,共包括14个量子化学描述符以及6个分子构成描述符,用于模型的构建; 所述14个量子化学描述符为:偶极矩μ、平均分子极化率α、摩尔体积Vm、分子所带最正电荷q+、分子所带最负电荷q- 、最高占据轨道能E HOMO、最低未占据轨道能E LUMO、LUMO-HOMO能差E LUMO –E HOMO、零点校正能ZPE、内能的热校正E θ th、标准焓H θ、标准熵S θ、标准吉布斯自由能G θ、标准恒容热容C θ v;所述6个分子构成描述符为:摩尔质量M、不饱和度DBE、碳原子数#C、氢原子数#H、氧原子数#O和卤素原子数#X
(3)使用Gaussian软件DFT方法中的B3LYP泛函算法,采用6-311G**基组对不同化合物的分子结构进行优化,并计算14个量子化学描述符;
(4)将步骤(1)得到的logK SiO/A值数据集按数值大小随机抽取1/4作为验证集数据,其余为训练集数据,训练集用来构建预测模型,验证集用来验证模型的预测能力;
(5)采用SPSS 22.0软件执行模型的QSAR分析,依次包括相关性分析、主成分分析、逐步多元线性回归和模型验证,得到最优模型为:
logK SiO/A = 2.888 + 0.025 × α – 0.244 ×(E LUMO –E HOMO)
其中,logK SiO/A表示硅油-空气分配系数,α表示平均分子极化率,(E LUMO –E HOMO)表示最低未占据分子轨道与最高占据分子轨道的能差;
(6)将验证集数据代入步骤(5)获得的最优模型中,得到预测值,然后根据外部预测能力评价系数Q2 ext的值判定外部预测能力的好坏。
2.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,步骤(1)中,所述logK SiO/A值数据集的数值范围为0.086~3.319,跨越3.2个数量级。
3.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,步骤(4)中,所有官能团化合物都包含在训练集和验证集中,使logK SiO/A值数据集具有代表性。
4.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,步骤(5)中,使用相关系数的平方R2和均方根误差RMSE作为统计学指标表征模型的拟合性能。
5.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,步骤(5)中,使用交叉验证系数Q2 LOO和Bootstrapping验证系数Q2 BOOT评价模型的稳健性。
6.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,步骤(6)中,当Q2 ext大于0.7时,则建立的模型具有良好的外部预测能力,且Q2 ext越大,外部预测能力越好。
7.根据权利要求1所述的一种通过构建定量构效关系模型预测疏水性化合物的硅油-空气分配系数的方法,其特征在于,构建的定量构效关系模型适用预测的疏水性化合物包括烷烃、醇、芳烃、氯化物、酮、酯类、醚类、环烷烃、环酮、四氢呋喃、硫化氢或二氧化碳气体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763774.3A CN107516016B (zh) | 2017-08-30 | 2017-08-30 | 一种构模预测疏水性化合物的硅油-空气分配系数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763774.3A CN107516016B (zh) | 2017-08-30 | 2017-08-30 | 一种构模预测疏水性化合物的硅油-空气分配系数的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107516016A CN107516016A (zh) | 2017-12-26 |
CN107516016B true CN107516016B (zh) | 2021-01-19 |
Family
ID=60724721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710763774.3A Active CN107516016B (zh) | 2017-08-30 | 2017-08-30 | 一种构模预测疏水性化合物的硅油-空气分配系数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107516016B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959846B (zh) * | 2018-07-03 | 2021-09-14 | 南昌立德生物技术有限公司 | 一种计算机辅助先导药物优化设计的亲和自由能分解算法 |
CN109524063B (zh) * | 2018-11-13 | 2022-11-18 | 辽宁师范大学 | 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法 |
CN113591394B (zh) * | 2021-08-11 | 2024-02-23 | 清华大学 | 有机化合物正十六烷/空气分配系数的预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001011354A2 (en) * | 1999-08-10 | 2001-02-15 | Battelle Memorial Institute | Methods for characterizing, classifying, and identifying unknowns in samples |
CN102999705A (zh) * | 2012-11-30 | 2013-03-27 | 大连理工大学 | 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 |
CN103646180A (zh) * | 2013-12-19 | 2014-03-19 | 山东大学 | 一种通过量子化学方法构建定量构效关系模型来预测有机化合物急性毒性的方法 |
CN103699745A (zh) * | 2013-12-26 | 2014-04-02 | 武汉轻工大学 | 根据化学结构预测使用特定添加剂润滑油摩擦系数的方法 |
CN105148850A (zh) * | 2015-09-08 | 2015-12-16 | 华南理工大学 | 一种层状结构的复合材料吸附去除水中硫酸根离子的方法 |
CN105854944A (zh) * | 2016-03-31 | 2016-08-17 | 华南理工大学 | 一种铜掺杂铁金属有机骨架材料及其制备方法与应用于活化过硫酸盐处理有机废水的方法 |
WO2017001672A1 (en) * | 2015-07-02 | 2017-01-05 | Givaudan Sa | Microcapsules |
-
2017
- 2017-08-30 CN CN201710763774.3A patent/CN107516016B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001011354A2 (en) * | 1999-08-10 | 2001-02-15 | Battelle Memorial Institute | Methods for characterizing, classifying, and identifying unknowns in samples |
CN102999705A (zh) * | 2012-11-30 | 2013-03-27 | 大连理工大学 | 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 |
CN103646180A (zh) * | 2013-12-19 | 2014-03-19 | 山东大学 | 一种通过量子化学方法构建定量构效关系模型来预测有机化合物急性毒性的方法 |
CN103699745A (zh) * | 2013-12-26 | 2014-04-02 | 武汉轻工大学 | 根据化学结构预测使用特定添加剂润滑油摩擦系数的方法 |
WO2017001672A1 (en) * | 2015-07-02 | 2017-01-05 | Givaudan Sa | Microcapsules |
CN105148850A (zh) * | 2015-09-08 | 2015-12-16 | 华南理工大学 | 一种层状结构的复合材料吸附去除水中硫酸根离子的方法 |
CN105854944A (zh) * | 2016-03-31 | 2016-08-17 | 华南理工大学 | 一种铜掺杂铁金属有机骨架材料及其制备方法与应用于活化过硫酸盐处理有机废水的方法 |
Non-Patent Citations (3)
Title |
---|
《Quantitative Structure-Activity Relationship Analysis of the Anticancer Activity of Chloroethylnitrosourea Derivatives》;Li-Jiao Zhao et al;;《IEEE》;20071231;第1226-1229页; * |
《多溴代联苯醚及其代谢产物的正辛醇-空气分配系数的预测模型》;于海瀛 等;;《浙江师范大学学报( 自然科学版)》;20150831;第38卷(第3期);第266-272页; * |
《有毒有机污染物正辛醇_空气分配系数_K_OA_的定量预测方法》;李雪花;《中国博士学位论文全文数据库工程科技Ⅰ辑》;20090515(第5期);第B027-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107516016A (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghiringhelli et al. | Big data of materials science: critical role of the descriptor | |
Yuan et al. | Locally weighted kernel principal component regression model for soft sensing of nonlinear time-variant processes | |
CN107516016B (zh) | 一种构模预测疏水性化合物的硅油-空气分配系数的方法 | |
CN103425872B (zh) | 通过定量构效关系模型预测大气中有机物与羟基反应速率常数的方法 | |
Liu et al. | Machine learning boosting the development of advanced lithium batteries | |
CN110534163B (zh) | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 | |
CN101339180B (zh) | 基于支持向量机的有机化合物燃爆特性预测方法 | |
Gharagheizi et al. | Development of corresponding states model for estimation of the surface tension of chemical compounds | |
Kremer | Computer simulations for macromolecular science | |
Beckner et al. | Statistical models are able to predict ionic liquid viscosity across a wide range of chemical functionalities and experimental conditions | |
Zhou et al. | Quantitative structure-property relationship (QSPR) study for predicting gas-liquid critical temperatures of organic compounds | |
CN115312135B (zh) | 一种化学反应条件的预测方法、系统、装置及存储介质 | |
CN103345544B (zh) | 采用逻辑回归方法预测有机化学品生物降解性 | |
CN111613276A (zh) | 一种基于量子化学参数构建定量构效关系预测微塑料吸附有机物的方法 | |
CN109524063B (zh) | 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法 | |
Cao et al. | Machine learning in membrane design: from property prediction to AI-guided optimization | |
Zhu et al. | Exploring QSPR models for predicting PUF-air partition coefficients of organic compounds with linear and nonlinear approaches | |
Melisande Fischer et al. | Accurate prediction of binding energies for two‐dimensional catalytic materials using machine learning | |
Li et al. | Development of a Novel Soft Sensor with Long Short‐Term Memory Network and Normalized Mutual Information Feature Selection | |
CN110853701A (zh) | 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法 | |
Sun et al. | Modeling and uncertainty quantification of vapor sorption and diffusion in heterogeneous polymers | |
Gonzalez et al. | A method for prediction of UNIFAC group interaction parameters | |
Peng et al. | Machine learning based screening of organic frameworks for separation of CF4/N2, C2F6/N2, and SF6/N2 | |
Hamed et al. | An incremental capacity analysis‐based state‐of‐health estimation model for lithium‐ion batteries in high‐power applications | |
CN111768815A (zh) | 基于理论线性溶解能关系模型预测POPs在PUF膜-空气的分配系数的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |