CN111768814A - 基于定量构效关系预测有机污染物pom-水分配系数的方法 - Google Patents
基于定量构效关系预测有机污染物pom-水分配系数的方法 Download PDFInfo
- Publication number
- CN111768814A CN111768814A CN202010645141.4A CN202010645141A CN111768814A CN 111768814 A CN111768814 A CN 111768814A CN 202010645141 A CN202010645141 A CN 202010645141A CN 111768814 A CN111768814 A CN 111768814A
- Authority
- CN
- China
- Prior art keywords
- model
- pom
- compounds
- compound
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000002957 persistent organic pollutant Substances 0.000 title claims abstract description 20
- OLKGTKIYKWXMOZ-UHFFFAOYSA-N hydroxymethyl 2,2-dimethylpropanoate Chemical compound CC(C)(C)C(=O)OCO OLKGTKIYKWXMOZ-UHFFFAOYSA-N 0.000 title claims abstract description 12
- 238000004617 QSAR study Methods 0.000 title claims abstract description 8
- 150000001875 compounds Chemical class 0.000 claims abstract description 41
- 238000012417 linear regression Methods 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 238000005192 partition Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000000324 molecular mechanic Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- HGASFNYMVGEKTF-UHFFFAOYSA-N octan-1-ol;hydrate Chemical compound O.CCCCCCCCO HGASFNYMVGEKTF-UHFFFAOYSA-N 0.000 claims description 7
- 239000000356 contaminant Substances 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 125000001931 aliphatic group Chemical class 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- PFRUBEOIWWEFOL-UHFFFAOYSA-N [N].[S] Chemical class [N].[S] PFRUBEOIWWEFOL-UHFFFAOYSA-N 0.000 claims description 3
- 150000001298 alcohols Chemical class 0.000 claims description 3
- 150000001338 aliphatic hydrocarbons Chemical class 0.000 claims description 3
- 150000001555 benzenes Chemical class 0.000 claims description 3
- 125000000753 cycloalkyl group Chemical class 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 150000004827 dibenzo-1,4-dioxins Chemical class 0.000 claims description 3
- 150000004826 dibenzofurans Chemical class 0.000 claims description 3
- 238000002003 electron diffraction Methods 0.000 claims description 3
- 150000002170 ethers Chemical class 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000000575 pesticide Substances 0.000 claims description 3
- 150000002989 phenols Chemical class 0.000 claims description 3
- 150000003071 polychlorinated biphenyls Chemical group 0.000 claims description 3
- 125000005575 polycyclic aromatic hydrocarbon group Chemical class 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 150000002894 organic compounds Chemical class 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 8
- 239000003344 environmental pollutant Substances 0.000 abstract description 5
- 231100000719 pollutant Toxicity 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 229930040373 Paraformaldehyde Natural products 0.000 description 6
- 229920006324 polyoxymethylene Polymers 0.000 description 6
- 239000000126 substance Substances 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- UHCLFIWDCYOTOL-UHFFFAOYSA-N 1,2,4,5-tetrachloro-3-(2,5-dichlorophenyl)benzene Chemical group ClC1=CC=C(Cl)C(C=2C(=C(Cl)C=C(Cl)C=2Cl)Cl)=C1 UHCLFIWDCYOTOL-UHFFFAOYSA-N 0.000 description 2
- GYFAGKUZYNFMBN-UHFFFAOYSA-N Benzo[ghi]perylene Chemical group C1=CC(C2=C34)=CC=C3C=CC=C4C3=CC=CC4=CC=C1C2=C43 GYFAGKUZYNFMBN-UHFFFAOYSA-N 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- -1 polyoxymethylene Polymers 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- SWJPEBQEEAHIGZ-UHFFFAOYSA-N 1,4-dibromobenzene Chemical compound BrC1=CC=C(Br)C=C1 SWJPEBQEEAHIGZ-UHFFFAOYSA-N 0.000 description 1
- OJSCBKGRGMBEEW-UHFFFAOYSA-N 3-fluorobenzene-1,2-diamine Chemical compound NC1=CC=CC(F)=C1N OJSCBKGRGMBEEW-UHFFFAOYSA-N 0.000 description 1
- VSMDINRNYYEDRN-UHFFFAOYSA-N 4-iodophenol Chemical compound OC1=CC=C(I)C=C1 VSMDINRNYYEDRN-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 231100000378 teratogenic Toxicity 0.000 description 1
- 230000003390 teratogenic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
本发明公开了一种基于定量构效关系预测有机污染物POM‑水分配系数的方法,属于污染物环境暴露预测技术领域。该方法根据化合物分子结构的特点和属性,筛选可以编码并代表分子结构的分子描述符,基于大量实测值,运用简单、透明的多元线性回归分析方法,所构建的模型具有良好的拟合能力、稳健性、预测能力和明确的应用域,能够快速、高效地预测应用域内有机污染物的K POM‑w,填补了其他化合物的数据空白,为被动采样技术的应用提供理论支持,对识别有机污染物在水环境中的分布与迁移行为具有重要意义。
Description
技术领域
本发明涉及一种POM-水分配系数预测方法,特别涉及一种基于定量构效关系预测有机污染物POM-水分配系数的方法。
背景技术
水环境中的很多有机污染物具有致癌、致畸和致突变性,其引起的污染问题是影响全球与人类健康的重大环境问题,污染的严重性、复杂性、和长期性远远超过常规污染物,因此对这些污染物的监测和风险评价具有重要意义。基于分区和非消耗性提取的被动采样技术在测量水环境中的有机污染物浓度方面比之传统的主动采样,更容易实施,更具成本效益,且能提供污染物的时间加权平均浓度,而不是瞬时浓度。其中,聚甲醛(POM)被动采样器具有更快达到表面层平衡以及相对较低的成本、易于清洁的表面以及水环境中的化学稳定性等优点。
有机污染物在POM与水中的平衡分配系数(KPOM-w)是权衡此种被动采样器性能的重要指标。分配系数的准确性是被动采样器成功运用的关键。然而,KPOM-w实验测量面临以下难点:①KPOM-w值对温度、离子强度和有机物的变化非常敏感,实验往往是费力、费时且昂贵;②某些具有强疏水性的有机污染物的KPOM-w实验值难以获得;③污染物种类繁多,且新型污染物层出不穷。
截止目前,国内外学者普遍认为KPOM-w与辛醇-水分配系数(Kow)之间存在密切联系,可以表示为一个简单的线性回归方程(log KPOM-w=a log Kow+b)。文献“AnalyticalChemistry.2011,83:6754-6761.”中提出碳的总量(C)、芳香碳(CAR)和脂肪族碳(CAL)可用于估算多环芳烃的KPOM-w值。然而,这些只有一个或两个特定描述符的模型忽略了其他来源的影响,不能较全面地捕获大量化合物的物理和化学性质,可能会导致更多的不确定性。而且,较少的数据导致绝大多数研究都是过度拟合的,在对特定化合物进行训练时,其预测性能较差,且没有考虑到经济合作与发展组织(OECD)导则中的各项要求,缺乏模型验证和表征。因此有必要构建一个具有良好的拟合能力、稳健性、预测能力,且具有明确算法、描述符易于获得、便于应用推广的预测模型,并依照OECD导则对模型进行性能评估及应用域的表征。
发明内容
本发明的目的是提供一种基于定量构效关系预测有机污染物POM-水分配系数的方法,可直接根据有机化合物的分子结构预测其KPOM-w值。
本发明的目的是这样实现的:一种基于定量构效关系预测有机污染物POM-水分配系数的方法,其特征在于,包括以下步骤:
步骤1)数据收集:查阅文献收集若干个有机污染物的POM-水分配系数KPOM-w实测值,数据集按4:1比例拆分成训练集和测试集;
步骤2)模型构建:使用MM2分子力学的方法优化初始分子结构,利用alvaDesc1.0.0软件获取有机化合物的分子结构描述符,并进行描述符预处理;通过SPSS软件进行逐步多元线性回归分析,得到的最优线性模型;
步骤3)模型验证:对模型进行验证,验证合格后进入步骤4);
步骤4)应用域表征:通过Williams图对模型应用域进行表征;
步骤5)模型应用:利用所述模型预测未知化合物的POM-水分配系数。
作为本发明的进一步限定,步骤(1)中,有机污染物包括多氯联苯、杀虫剂、卤代脂肪烃、醇类、脂肪族和环状碳氢化合物、苯类、氯化二苯并呋喃、氯化二苯并对二恶英、醚类、氮硫化合物、酚类化合物、多环芳烃。
作为本发明的进一步限定,步骤2)中,预处理过程包括去除常数、接近常数、缺失和相关性大于0.95的描述符。
作为本发明的进一步限定,步骤1)中收集了210个有机污染物,步骤2)得到的最优线性模型如下:
log KPOM-w=0.774ALOGP+0.227Mor24s+0.689E1m+0.173MeanDD–1.011;
其中,ALOGP是Ghose-Crippen辛醇-水分配系数(Ghose-Crippen octanol-waterpartition coefficient);Mor24s是电离态相关的基于电子衍射的3D分子结构MoRSE描述符(signal 24/weighted by I-state);E1m是原子质量拓扑态相关的WHIM分子描述符(1stcomponent accessibility directional WHIM index/weighted by mass);MeanDD是基于平均成对绕行距离的拓扑指数(mean pairwise detour distance)。
作为本发明的进一步限定,步骤1)对于同一化合物,剔除明显偏离整体数值的数据,取其平均值建立数据集,训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。
作为本发明的进一步限定,步骤4)具体包括:采用基于标准残差δ对杠杆值hi的Williams图对模型的应用域进行表征,δ的绝对值大于3.0时,该化合物为离群点,当杠杆值hi大于警戒值h*时,说明该化合物结构与其他化合物结构有显著性差异;hi和h*由如下公式计算:
hi=xi T(XTX)-1xi
h*=3(p+1)/n
其中xi是第i个化合物的描述符矩阵;xi T是xi的转置矩阵;X是所有化合物的描述符矩阵;XT是X的转置矩阵;(XTX)-1是矩阵XTX的逆;p是模型中变量的个数;n是训练集样本个数。
与现有技术相比,本发明的有益效果在于:本发明方法根据化合物分子结构的特点和属性,筛选可以编码并代表分子结构的分子描述符,运用简单、透明的多元线性回归分析方法,发展的模型具有良好的拟合能力、稳健性、预测能力和明确的应用域,弥补了基础数据的缺失,降低了昂贵的测试费用,减少了评估数据的不确定性,可达到快速、高效地预测KPOM-w的目的,为被动采样技术的应用提供理论支持,对识别有机污染物在水环境中的分布与迁移行为具有重要意义。
附图说明
图1为本发明中log KPOM-w的实测值与预测值的拟合图
图2为本发明中表征模型应用域的Williams图。
具体实施方式
一种基于定量构效关系预测有机污染物POM-水分配系数的方法,步骤如下:
步骤1)数据收集。收集210个有机污染物的KPOM-w实测值,对于同一化合物,剔除明显偏离整体数值的数据,取其平均值建立数据集。数据集中有机污染物包括多氯联苯、杀虫剂、卤代脂肪烃、醇类、脂肪族和环状碳氢化合物、苯类、氯化二苯并呋喃、氯化二苯并对二恶英、醚类、氮硫化合物、酚类化合物、多环芳烃和其他化合物。
步骤2)模型构建。使用MM2(分子力学)的方法优化初始分子结构,利用alvaDesc1.0.0软件获取化合物的分子描述符,去除常数、接近常数、缺失和相关性大于0.95的描述符。将数据集按4:1比例拆分成训练集和测试集,训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。通过SPSS软件进行逐步多元线性回归分析,根据分子描述符的数量、调整后的决定系数(R2 adj)和均方根误差(RMSE)获得的最优模型如下:
log KPOM-w=0.774 ALOGP+0.227 Mor24s+0.689 E1m+0.173MeanDD-1.011 (1)
其中,ALOGP是Ghose-Crippen辛醇-水分配系数(Ghose-Crippen octanol-waterpartition coefficient);Mor24s是电离态相关的基于电子衍射的3D分子结构MoRSE描述符(signal 24/weighted by I-state);E1m是原子质量拓扑态相关的WHIM分子描述符(1stcomponent accessibility directional WHIM index/weighted by mass);MeanDD是基于平均成对绕行距离的拓扑指数(mean pairwise detour distance)。
步骤3)模型验证。具体参数如下所示:
其中,ntra和next分别是训练集和测试集中的化学品数量;是去一法交叉验证系数;Q2 BOOT是自举法交叉验证系数系数;RMSEtra和RMSEext分别是训练集和测试集的均方根误差;是测试集中的决定系数;是外部验证系数;判定依据:R2>0.7,Q2>0.6,R2-Q2<0.3。
为0.925,RMSEtra为0.498,表明模型具有较高的线性拟合能力;内部验证系数为0.922,为0.794,表明发展的模型具有较好的稳健性;外部验证的RMSEext=0.649,表明模型具有较好的预测能力。图1给出模型的拟合程度及验证结果。
步骤4)模型应用域表征。通过Williams图(图2)对模型应用域进行表征。
标准残差δ计算公式如下:
其中,δ为标准残差,yi和分别为第i个化合物的实验值和预测值,n为数据集中化合物的个数,A为描述符的个数;
杠杆值(h)和杠杆警戒值(h*)由如下公式计算:
h*=3(k+1)/n (4)
其中,xi是第i个化合物的描述符矩阵;xi T是xi的转置矩阵;X是所有化合物的描述符矩阵;XT是X的转置矩阵;(XTX)-1是矩阵XTX的逆;k是模型中变量的个数;n是训练集样本个数。
计算并绘制模型的h和δ;当化合物的δ绝对值大于3.0时,该化合物被视为模型离群点。当化合物的h大于h*时,表明该化合物结构与其他化合物结构有明显差异,其中,在本发明中h*=0.089。Williams图(图2)中苯甲二氮的|δ|>3,h<h*,是模型的离群点,对模型有较大的影响。训练集中的三种化学物质(氟苯二胺、1,4-二溴苯、苯并(G,H,I)苝)和测试集中的4-碘苯酚h>h*且|δ|<3,表明这些化合物与数据集中其他化合物的结构差异较大,但由于这些化合物的log KPOM-w预测值与实测值接近,揭示了本发明构建的模型具有一定的外推能力。
下面结合具体实例对本发明做进一步说明。
实施例1:
5,12-萘并萘醌(CAS号:1090-13-7):首先根据CAS号,获取化合物的分子结构;再使用MM2(分子力学)的方法将分子结构优化;然后,使用alvaDesc 1.0.0软件获得分子描述符ALOGP、Mor24s、E1m和MeanDD,分别为3.7168、1.8764、0.3059和14.8211;接着,根据公式(2)计算的δ值是0.121(<3),根据公式(3)计算的h值是0.065(<0.089),说明此化合物在本发明的模型应用域内;最后,代入公式(1),得到其log KPOM-w预测值为5.07,与其实验测定的log KPOM-w值(5.15)非常符合。
实施例2:
2,2',3,5,5',6-六氯联苯(CAS号:52663-63-5):首先根据CAS号,获取化合物的分子结构;再使用MM2(分子力学)的方法将分子结构优化;然后,使用alvaDesc 1.0.0软件获得分子描述符ALOGP、Mor24s、E1m和MeanDD,分别为7.3348、-0.4328、0.4572和7.0131;接着,根据公式(2)计算的δ值是0.118(<3),根据公式(3)计算的h值是0.027(<0.089),说明此化合物在本发明的模型应用域内;最后,代入公式(1),得到其log KPOM-w预测值为6.18,与其实验测定的log KPOM-w值(6.10)非常符合。
实施例3:
1,2-苯并萘(CAS号:85-01-8):首先根据CAS号,获取化合物的分子结构;再使用MM2(分子力学)的方法将分子结构优化;然后,使用alvaDesc1.0.0软件获得分子描述符ALOGP、Mor24s、E1m和MeanDD,分别为3.6468、-1.7849、0.2950和11.1978;接着,根据公式(2)计算的δ值是0.097(<3),根据公式(3)计算的h值是0.021(<0.089),说明此化合物在本发明的模型应用域内;最后,代入公式(1),得到其log KPOM-w预测值为3.61,与其实验测定的log KPOM-w值(3.55)非常符合。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。
Claims (7)
1.一种基于定量构效关系预测有机污染物POM-水分配系数的方法,其特征在于,包括以下步骤:
步骤1)数据收集:查阅文献收集若干个有机污染物的POM-水分配系数KPOM-w实测值,数据集按4:1比例拆分成训练集和测试集;
步骤2)模型构建:使用MM2分子力学的方法优化初始分子结构,利用alvaDesc 1.0.0软件获取有机化合物的分子结构描述符,并进行描述符预处理;通过SPSS软件进行逐步多元线性回归分析,得到的最优线性模型;
步骤3)模型验证:对模型进行验证,验证合格后进入步骤4);
步骤4)应用域表征:通过Williams图对模型应用域进行表征;
步骤5)模型应用:利用所述模型预测未知化合物的POM-水分配系数。
2.根据权利要求1所述的预测方法,其特征在于,步骤(1)中,有机污染物包括多氯联苯、杀虫剂、卤代脂肪烃、醇类、脂肪族和环状碳氢化合物、苯类、氯化二苯并呋喃、氯化二苯并对二恶英、醚类、氮硫化合物、酚类化合物、多环芳烃。
3.根据权利要求1所述的预测方法,其特征在于,步骤2)中,预处理过程包括去除常数、接近常数、缺失和相关性大于0.95的描述符。
4.根据权利要求1所述的预测方法,其特征在于,步骤1)中收集了210个有机污染物,步骤2)得到的最优线性模型如下:
log KPOM-w=0.774ALOGP+0.227Mor24s+0.689E1m+0.173MeanDD–1.011;
其中,ALOGP是Ghose-Crippen辛醇-水分配系数(Ghose-Crippen octanol-waterpartition coefficient);Mor24s是电离态相关的基于电子衍射的3D分子结构MoRSE描述符(signal 24/weighted by I-state);E1m是原子质量拓扑态相关的WHIM分子描述符(1stcomponent accessibility directional WHIM index/weighted by mass);MeanDD是基于平均成对绕行距离的拓扑指数(mean pairwise detour distance)。
6.根据权利要求1所述的预测方法,其特征在于,步骤1)对于同一化合物,剔除明显偏离整体数值的数据,取其平均值建立数据集,训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。
7.根据权利要求1所述的预测方法,其特征在于,步骤4)具体包括:采用基于标准残差δ对杠杆值hi的Williams图对模型的应用域进行表征,δ的绝对值大于3.0时,该化合物为离群点,当杠杆值hi大于警戒值h*时,说明该化合物结构与其他化合物结构有显著性差异;hi和h*由如下公式计算:
hi=xi T(XTX)-1xi
h*=3(p+1)/n
其中xi是第i个化合物的描述符矩阵;xi T是xi的转置矩阵;X是所有化合物的描述符矩阵;XT是X的转置矩阵;(XTX)-1是矩阵XTX的逆;p是模型中变量的个数;n是训练集样本个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645141.4A CN111768814A (zh) | 2020-07-07 | 2020-07-07 | 基于定量构效关系预测有机污染物pom-水分配系数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645141.4A CN111768814A (zh) | 2020-07-07 | 2020-07-07 | 基于定量构效关系预测有机污染物pom-水分配系数的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111768814A true CN111768814A (zh) | 2020-10-13 |
Family
ID=72724653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010645141.4A Pending CN111768814A (zh) | 2020-07-07 | 2020-07-07 | 基于定量构效关系预测有机污染物pom-水分配系数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768814A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270106A (zh) * | 2020-11-12 | 2021-01-26 | 大连理工大学 | 一种基于交联度校正的环糊精聚合物吸附水体有机污染物的预测模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488901A (zh) * | 2013-09-25 | 2014-01-01 | 大连理工大学 | 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数 |
CN104200071A (zh) * | 2014-08-15 | 2014-12-10 | 浙江师范大学 | 一种预测羟基取代的多溴代联苯醚甲状腺激素效应的方法及模型的建立方法 |
CN106407665A (zh) * | 2016-09-05 | 2017-02-15 | 大连理工大学 | 一种人运甲状腺素蛋白干扰物虚拟筛选方法 |
CN109524063A (zh) * | 2018-11-13 | 2019-03-26 | 辽宁师范大学 | 疏水性有机物被动采样材料(硅橡胶)与水之间分配系数的预测方法 |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
-
2020
- 2020-07-07 CN CN202010645141.4A patent/CN111768814A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488901A (zh) * | 2013-09-25 | 2014-01-01 | 大连理工大学 | 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数 |
CN104200071A (zh) * | 2014-08-15 | 2014-12-10 | 浙江师范大学 | 一种预测羟基取代的多溴代联苯醚甲状腺激素效应的方法及模型的建立方法 |
CN106407665A (zh) * | 2016-09-05 | 2017-02-15 | 大连理工大学 | 一种人运甲状腺素蛋白干扰物虚拟筛选方法 |
CN109524063A (zh) * | 2018-11-13 | 2019-03-26 | 辽宁师范大学 | 疏水性有机物被动采样材料(硅橡胶)与水之间分配系数的预测方法 |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
Non-Patent Citations (2)
Title |
---|
HUIHUI LIU, MENGBI WEI, XIANHAI YANG AND ET AL.: ""Development of TLSER model and QSAR model for predicting partition coefficients of hydrophobic organic chemicals between low density polyethylene film and water"", 《SCIENCE OF THE TOTAL ENVIRONMENT》 * |
TENGYI ZHU, YUANYUAN GU, HAOMIAO CHENG, MING CHEN.: "" Versatile modelling of polyoxymethylene-water partition coefficients for hydrophobic organic contaminants using linear and nonlinear approaches"", 《SCIENCE OF THE TOTAL ENVIRONMENT》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270106A (zh) * | 2020-11-12 | 2021-01-26 | 大连理工大学 | 一种基于交联度校正的环糊精聚合物吸附水体有机污染物的预测模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zuecco et al. | A versatile index to characterize hysteresis between hydrological variables at the runoff event timescale | |
Dunnivant et al. | Quantitative structure-property relationships for aqueous solubilities and Henry's law constants of polychlorinated biphenyls | |
Bamford et al. | Temperature dependence of Henry's law constants of thirteen polycyclic aromatic hydrocarbons between 4 C and 31 C | |
CN104820873B (zh) | 一种基于金属定量构效关系的淡水急性基准预测方法 | |
Xiao et al. | Is vapor pressure or the octanol–air partition coefficient a better descriptor of the partitioning between gas phase and organic matter? | |
Slini et al. | Statistical analysis of environmental data as the basis of forecasting: an air quality application | |
Liu et al. | Uncertainty in positive matrix factorization solutions for PAHs in surface sediments of the Yangtze River Estuary in different seasons | |
Li et al. | Multi-year air monitoring of legacy and current-use brominated flame retardants in an urban center in northeastern China | |
Zou et al. | Problems in the fingerprints based polycyclic aromatic hydrocarbons source apportionment analysis and a practical solution | |
CN109524063B (zh) | 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法 | |
McDonough et al. | An evaluation of the ability of chemical measurements to predict polycyclic aromatic hydrocarbon‐contaminated sediment toxicity to Hyalella azteca | |
CN111768814A (zh) | 基于定量构效关系预测有机污染物pom-水分配系数的方法 | |
CN114544894A (zh) | 基于pmf模型的源解析不确定性分析方法及系统 | |
Gu et al. | Nonmetric multidimensional scaling and probabilistic ecological risk assessment of trace metals in surface sediments of Daya Bay (China) using diffusive gradients in thin films | |
Zhang et al. | An approach to estimating uncertainties in modeling transport of solutes through soils | |
Wang et al. | Estimating dry deposition and gas/particle partition coefficients of neutral poly-/perfluoroalkyl substances in northern German coast | |
Nicolle et al. | Technical Note–RAT: a Robustness Assessment Test for calibrated and uncalibrated hydrological models | |
Kitson et al. | PyKrev: a python library for the analysis of complex mixture FT-MS data | |
CN111554358A (zh) | 一种重金属毒性终点和海洋水质基准阈值的预测方法 | |
CN111768813A (zh) | 基于sw-svm算法的定量构效关系模型预测有机物pdms膜-水分配系数的方法 | |
CN111768812A (zh) | 一种预测有机物pdms膜-水分配系数的方法 | |
KR20200119397A (ko) | IoT기반의 스마트 대기 환경 측정 및 통합 관리 시스템 | |
Chen et al. | Quantitative relationships between molecular structures, environmental temperatures and octanol–air partition coefficients of PCDD/Fs | |
CN112086141A (zh) | 基于定量结构性质关系预测有机污染物pa-水分配系数的方法 | |
CN110853701A (zh) | 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201013 |
|
RJ01 | Rejection of invention patent application after publication |