CN102156791A - 污染物定量结构活性相关模型结构描述符筛选终止的方法 - Google Patents
污染物定量结构活性相关模型结构描述符筛选终止的方法 Download PDFInfo
- Publication number
- CN102156791A CN102156791A CN201110110058.8A CN201110110058A CN102156791A CN 102156791 A CN102156791 A CN 102156791A CN 201110110058 A CN201110110058 A CN 201110110058A CN 102156791 A CN102156791 A CN 102156791A
- Authority
- CN
- China
- Prior art keywords
- model
- correlation coefficient
- screening
- adj
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000000694 effects Effects 0.000 title claims abstract description 28
- 239000003344 environmental pollutant Substances 0.000 title claims abstract description 23
- 231100000719 pollutant Toxicity 0.000 title claims abstract description 23
- 238000002790 cross-validation Methods 0.000 claims abstract description 32
- 238000004617 QSAR study Methods 0.000 claims abstract description 10
- 238000013179 statistical model Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 239000000356 contaminant Substances 0.000 claims 5
- 230000004048 modification Effects 0.000 abstract 2
- 238000012986 modification Methods 0.000 abstract 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000208818 Helianthus Species 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002957 persistent organic pollutant Substances 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005556 structure-activity relationship Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了污染物定量结构活性相关模型结构描述符筛选终止的方法。本发明将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合;对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r 2、修正相关系数R 2 adj;对上述过程中的变量子集进行交叉验证,获得模型的交叉验证相关系数q 2,所用的交叉验证方法有两种:留一法交互验证和留多法交互验证;根据上述过程得到的统计参数构造新参数QR adj ;对同一系统新参数QR adj 的数值越大,说明模型的稳定性越高,预测能力越强。本发明中的新标准QR adj 不仅能够保证所获模型具有较高的交叉验证相关系数q 2,而且可以避免过拟合现象的出现,杜绝筛选出低r 2值高q 2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。
Description
技术领域
本发明涉及污染物定量结构活性相关模型结构描述符筛选终止的方法,即在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q 2和模型修正相关系数R 2 adj的乘积QR adj 作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。
背景技术
污染物的定量结构活性相关(Quantitative Structure and Activity Relationship,QSAR)模型已经被广泛应用于成为污染物环境生态风险评价和人体健康风险评价中(王连生,韩朔睽. 有机污染物的定量结构-活性相关. 1993,北京:中国环境科学出版社)。随着QSAR研究的深入,分子结构表征技术已经越来越成熟,开发的分子结构描述符越来越多(Todeschini R., Consonni V. Molecular Descriptors for Chemoinformatics. New York: Wiley VCH, 2009.)。然而结构描述符之间因为计算原理不一致,相互之间包含的信息重叠相当严重,导致严重的共线性关系。虽然通过变量的预筛选可去除大量的冗余信息和部分共线性变量,但是描述符的数量还是太多。奥卡姆剃刀原则要求模型应该尽可能简单的原则,一般模型参数越多模型越复杂,过拟合的可能性越大,即QSAR模型的结构描述符不能太多(Bell D., Wang H. A Formalism for Relevance and Its Application in Feature Subset Selection. Machine Learning, 2000, 41(2), 175-195. Wolpert D. The Relationship between Occam’s Razor and Convergent Guessing. Complex systems, 1990, 4(2), 319-368.)。同时研究结果表明随着模型复杂程度的增加,过拟合的概率和模型预测误差随之增大(Brown S., Tauler R., Walczak B. Comprehensive Chemometrics: Chemical and Biochemical Data Analysis. Elsevier Amsterdam, 2009.)。González等和Tsygankova等曾分析评价了QSAR研究中的变量筛选方法,不可否认,污染物QSAR结构描述符筛选面临全回归方法可获得全局最优子集但不能处理大变量集,而随机型筛选方法理论上可达此目的但其算法原理决定了其无法保证找到最优子集的困境(Kapetanios G. Variable Selection in Regression Models Using Nonstandard Optimisation of Information Criteria. Comput. Stat. Data Anal., 2007, 52(1), 4-15. González M. P., Terán C., Saíz-Urra L., Teijeir M. Variable Selection Methods in QSAR: An Overview. Curr. Top. Med. Chem., 2008, 8(18), 1606-1627. Tsygankova I. G. Variable Selection in QSAR Models for Drug Design. Curr. Comput.-Aided. Drug Des., 2008, 4(2), 132-142. )。可见,结构描述符筛选已经成为QSAR研究中一个重要的技术难题。
QSAR模型结构描述符筛选终止标准是描述符筛选时描述模型性能优劣的指标,但目前对统计模型优劣的描述并没有一个统一的标准。研究者提出了很多确定模型优劣的统计参数标准,如修正复相关系数R 2 adj、均方根差RMSE、预测偏差的方差JJp、平均预测均方差Sp、Cp统计量、预测平方和PRESS、AIC准则等基于建模样本的统计参数(方开泰; 全辉; 陈庆云, 实用回归分析. 科学出版社: 北京, 1988.),以及近年来常用的交叉验证(或刀切法)相关系数q 2或者均方根差RMSEV等(Ronchetti E., Field C., Blanchard W. Robust Linear Model Selection by Cross-Validation. J. Am. Stat. Assoc. 1997, 92 (439), 1017-1023.)。这些参数或多或少地存在一些问题,如Sp和Cp等参数都是基于模型对响应值的估计而得到的,并不能说明模型对外部样本的预测能力;通常采用的交叉验证相关系数q 2或者均方根差RMSEV等统计参数,因其是通过采用其中的一部分样本建模,再预测另外的一部分样本,并且每个样本都预测过一次,所以成为污染物QSAR研究领域比较得到公认的能够说明模型预测能力的统计参数。但是目前已经发现q 2与RMSEV存在诸多问题,如Golbraikh等中指出q 2仅仅是模型是否具有预测的能力的必要条件,而不是充分条件(Golbraikh A., Tropsha A. Beware of q 2! J. Mol. Graph. Mod. 2002, 20 (4), 269-276.);Hawkins则明确指出变量筛选时对q 2的不当使用会导致过拟合现象的出现;实际上,很多变量子集具有很高的q 2值,但模型自身的相关系数r 2值很低,甚至接近0,即单独使用q 2或RMSEV并不能说明模型的稳定性和预测能力(Hawkins D. The problem of overfitting. J. Chem. Inf. Comput. Sci. 2004, 44 (1), 1-12.)。因此,提出并建立能够用于描述污染物QSAR模型优劣的新标准并将之作为污染物定量结构活性相关模型结构描述符筛选终止的方法对突破结构描述符筛选这一瓶颈问题具有重要意义。
文献检索结果表明,在本发明完成之前,未发现在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q 2和模型修正相关系数R 2 adj的乘积QR adj 作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。
发明内容
1、发明要解决的技术问题
目前QSAR研究采用交互验证的相关系数为模型结构描述符筛选终止标准,但是高q 2仅仅是模型预测性能的必要非充分条件,单独使用q 2并不能说明模型的稳定性和预测能力,如何构建合理的污染物定量结构活性相关模型结构描述符筛选终止的方法是目前QSAR研究亟待解决的难题。本发明针对以上技术难题,提供污染物定量结构活性相关模型结构描述符筛选终止的方法,不仅能够保证所获模型具有较高的交叉验证相关系数q 2,而且可以避免过拟合现象的出现,杜绝筛选出低r 2值高q 2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。
2、技术方案
本发明的原理是将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。即在建立定量结构活性相关模型时,采用交叉验证的方法对模型进行内部样本验证,构建交叉验证相关系数q 2和模型修正相关系数R 2 adj的乘积QR adj 作为模型结构描述符筛选的终止表征,用以描述模型的稳定性和预测能力,判断模型预测性能的优劣。
采用的技术方案如下:
污染物定量结构活性相关模型结构描述符筛选终止的方法,其获取步骤包括:
(1)将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法;
(2)对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r 2、修正相关系数R 2 adj,各参数的计算公式如下:
(2)
(3)对(2)中的变量子集进行交叉验证,获得模型的交叉验证相关系数q 2。所用的交叉验证方法有两种类型:留一法交互验证(Leave-One-Out Cross Validation, LOOCV)和留多法交互验证(Leave-Multiple-Out Cross Validation, LMOCV)。各参数的计算公式如下:
其中为模型进行LOOCV的相关系数,为模型进行LMOCV的相关系数, N为模型进行LMOCV的重复次数,为模型进行LOOCV时的模型对第i样本的预测值,为模型进行LMOCV时的模型对第i样本的预测值。除了特别说明,LMOCV和LOOCV的统计参数都采用相同的符号;
(4)根据(2)和(3)得到的统计参数构造新结构描述符终止参数QR adj ,计算公式如下:
(5)
(5)对同一系统新参数QR adj 的数值越大,说明模型的稳定性越高,预测能力越强。
3、有益效果
本发明将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。新标准QR adj 不仅能够保证所获模型具有较高的交叉验证相关系数q 2,而且可以避免过拟合现象的出现,杜绝筛选出低r 2值高q 2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。
具体实施方式
以下通过实施例进一步说明本发明。
文献(Selwood D. L., Livingstone D. J., Comley J. C. W., O'Dowd A. B., Hudson A. T., Jackson P., Jandu K. S., Rose V. S., Stables, J. N. Structure-Activity Relationships of Antifilarial Antimycin Analogues: A Multivariate Pattern Recognition Study. J. Med. Chem. 1990,33 (1), 136-142.)中给出了31种的53个结构描述符,被QSAR建模方法研究领域称为Selwood数据集,可作为结构描述符筛选的“标准”测试集,刘树深等提出基于预测的变量筛选与建模方法(variable selection and modeling method based on the prediction, VSMP)对(Liu S. S., Liu H. L., Yin C. S., Wang L. S. VSMP: A Novel Variable Selection and Modeling Method Based on the Prediction. J. Chem. Inf. Comput. Sci. 2003,43, 964-969.)对Selwood数据进行建模研究,获得由结构描述符x 13、x 14、x 38、x 50和x 52建立的五参数模型,模型相关系数r 2=0.7909,LOOCV的q 2=0.7035。
使用本发明构建的的QR adj 为结构描述符筛选终止标准重新筛选模型变量:为方便比对,变量筛选沿用基于预测的变量筛选与建模方法,只是用QR adj 为变量筛选终止标准,获得不同变量数下的最优子集如表1所示。表2是采用q 2作为终止标准(VSMP筛选方法中设置了变量子集的r 2必须大于q 2才能进入筛选程序)得到的最终变量子集。对比两种标准所的结果可以看到,采用QR adj 为终止标准与采用q 2作为终止标准得到的最终变量子集存在差异。从变量数大于4开始,二者所得的变量子集有些不一样了。因为q 2终止标准只是考虑了q 2值,也就是说,在VSMP方法中在r 2大于q 2的所有变量子集中选择q 2最大的子集作为最优变量子集。而QRadj终止标准是选择q 2值与的乘积最大的变量子集作为最优子集,也就是说该标准综合考虑了q 2与的影响而选择变量子集,因而相对q 2终止标准来说更为合理。
表1基于QR adj 为终止标准的结构描述符筛选结果
表2基于q 2为终止标准的结构描述符筛选结果
Claims (9)
1.污染物定量结构活性相关模型结构描述符筛选终止的方法,包括以下步骤:
(1)将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法;
(2)对某一变量子集建立统计模型,获得观测值与模型估计值之间的相关系数r 2、修正相关系数R 2 adj,各参数的计算公式如下:
(3)对(2)中的变量子集进行交叉验证,获得模型的交叉验证相关系数q 2,所用的交叉验证方法有两种类型:留一法交互验证(Leave-One-Out Cross Validation, LOOCV)和留多法交互验证(Leave-Multiple-Out Cross Validation, LMOCV),各参数的计算公式如下:
其中为模型进行LOOCV的相关系数,为模型进行LMOCV的相关系数, N为模型进行LMOCV的重复次数,为模型进行LOOCV时的模型对第i样本的预测值,为模型进行LMOCV时的模型对第i样本的预测值,除了特别说明,LMOCV和LOOCV的统计参数都采用相同的符号;
(4)根据(2)和(3)得到的统计参数构造新参数QR adj ,计算公式如下:
(5)对同一系统新参数QR adj 的数值越大,说明模型的稳定性越高,预测能力越强。
2.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合构建新标准,新参数QR adj 不仅能够保证所获模型具有较高的交叉验证相关系数q 2,而且可以避免过拟合现象的出现,杜绝筛选出低r 2值高q 2值的QSAR模型变量组合,科学描述模型的稳定性和预测能力。
3.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(1)中将交叉验证相关系数q 2和模型修正相关系数R 2 adj进行整合,提供污染物定量结构活性相关模型结构描述符筛选终止的方法。
5.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(3)中由LOOCV或LMOCV进行模型内部验证,获得交叉验证相关系数q 2。
8.根据权利要求1中所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于步骤(5)中新参数QR adj 的数值越大,说明QSAR模型的稳定性越高,预测能力越强,目前QSAR研究采用交互验证的相关系数为模型结构描述符筛选终止标准,但是高q 2仅仅是模型预测性能的必要非充分条件,单独使用q 2并不能说明模型的稳定性和预测能力,本发明通过QR adj 最大化,达到q 2和R 2 adj的平衡,实现模型的拟合与预测能力的平衡。
9.根据权利要求1~8中任一项所述的污染物定量结构活性相关模型结构描述符筛选终止的方法,其特征在于采用交互验证相关系数q 2和模型修正相关系数R 2 adj对QSAR模型优劣进行合理判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110110058A CN102156791B (zh) | 2011-04-29 | 2011-04-29 | 污染物定量结构活性相关模型结构描述符筛选终止的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110110058A CN102156791B (zh) | 2011-04-29 | 2011-04-29 | 污染物定量结构活性相关模型结构描述符筛选终止的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102156791A true CN102156791A (zh) | 2011-08-17 |
CN102156791B CN102156791B (zh) | 2012-10-17 |
Family
ID=44438286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110110058A Expired - Fee Related CN102156791B (zh) | 2011-04-29 | 2011-04-29 | 污染物定量结构活性相关模型结构描述符筛选终止的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102156791B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682209A (zh) * | 2012-05-03 | 2012-09-19 | 桂林理工大学 | 有机污染物定量结构活性相关建模的变量筛选方法 |
CN104915563A (zh) * | 2015-06-16 | 2015-09-16 | 中国环境科学研究院 | 基于金属定量构效关系的淡水慢性基准预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140289A (zh) * | 2007-10-26 | 2008-03-12 | 南京大学 | 基于分子结构快速筛选环境有机污染物雄激素的方法 |
-
2011
- 2011-04-29 CN CN201110110058A patent/CN102156791B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140289A (zh) * | 2007-10-26 | 2008-03-12 | 南京大学 | 基于分子结构快速筛选环境有机污染物雄激素的方法 |
Non-Patent Citations (4)
Title |
---|
《Ecotoxicology and Environmental Safety Environmental Research, Section B》 20021231 Wei Dongbin,et al. A Case Study of Logistic QSAR ModelingMethods and Robustness Tests 143-149 1-9 第52卷, * |
《Journal of Molecular Graphics and Modelling》 20071231 Hua Yuan, et al. Mode of action-based local QSAR modeling for the prediction of acute toxicity in the fathead minnow 327-335 1-9 第22卷, * |
《环境科学进展》 19940831 王连生,等 定量结构-活性相关研究进展 全文 1-9 第2卷, 第4期 * |
《陕西理工学院学报》 20071231 赵蔡斌,等 基于神经网络的大黄素类化合物抗癌活性模型 全文 1-9 第23卷, 第4期 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682209A (zh) * | 2012-05-03 | 2012-09-19 | 桂林理工大学 | 有机污染物定量结构活性相关建模的变量筛选方法 |
CN102682209B (zh) * | 2012-05-03 | 2014-11-05 | 桂林理工大学 | 有机污染物定量结构活性相关建模的变量筛选方法 |
CN104915563A (zh) * | 2015-06-16 | 2015-09-16 | 中国环境科学研究院 | 基于金属定量构效关系的淡水慢性基准预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102156791B (zh) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ge et al. | Semisupervised Bayesian method for soft sensor modeling with unlabeled data samples | |
Liu et al. | Determination of effective wavelengths for discrimination of fruit vinegars using near infrared spectroscopy and multivariate analysis | |
Niazi et al. | Genetic algorithms in chemometrics | |
CN105279397B (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
Yoo et al. | On-line monitoring of batch processes using multiway independent component analysis | |
Schuhfried et al. | Classification of 7 monofloral honey varieties by PTR-ToF-MS direct headspace analysis and chemometrics | |
Bian et al. | Ensemble calibration for the spectral quantitative analysis of complex samples | |
CN106841494A (zh) | 基于uplc‑qtof的植物差异性代谢物快速筛选方法 | |
Peng et al. | Partial least squares and random sample consensus in outlier detection | |
Sheini et al. | A chemosensor array for the colorimetric identification of some carboxylic acids in human urine samples | |
CN102156791B (zh) | 污染物定量结构活性相关模型结构描述符筛选终止的方法 | |
Gao et al. | Multivariate data modeling using modified kernel partial least squares | |
Liu et al. | Adaptive JIT-Lasso modeling for online application of near infrared spectroscopy | |
Jaumot et al. | Application of multivariate curve resolution to the analysis of yeast genome-wide screens | |
Franco et al. | Monitoring substrate and products in a bioprocess with FTIR spectroscopy coupled to artificial neural networks enhanced with a genetic-algorithm-based method for wavelength selection | |
CN109239207B (zh) | 基于电子鼻的气味识别方法、装置和电子鼻系统 | |
Hemmateenejad et al. | Clustering of variables in regression analysis: a comparative study between different algorithms | |
CN102184284A (zh) | 有机污染物定量结构活性相关模型抽多法交叉验证方法 | |
Navabi et al. | QSPR models for predicting retention indices of Polygonum minus Huds. Essential oil composition using GA-BWMLR and GA-BPANN methods | |
Dieterle et al. | Genetic algorithms and neural networks for the quantitative analysis of ternary mixtures using surface plasmon resonance | |
CN109783772B (zh) | 一种确定偏最小二乘回归潜变量数的方法 | |
Shahlaei et al. | A novel method for simultaneous determination of codeine and acetaminophen in plasma by combination of UV-Vis spectroscopy and artificial neural network | |
Lowe et al. | Comparative analysis of machine learning techniques for the prediction of logP | |
Schneider | Modeling structure-activity relationships | |
CN114357886A (zh) | 一种基于多模型加权平均的酒醅近红外光谱建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121017 Termination date: 20200429 |