CN102184284A - 有机污染物定量结构活性相关模型抽多法交叉验证方法 - Google Patents

有机污染物定量结构活性相关模型抽多法交叉验证方法 Download PDF

Info

Publication number
CN102184284A
CN102184284A CN201110112111.8A CN201110112111A CN102184284A CN 102184284 A CN102184284 A CN 102184284A CN 201110112111 A CN201110112111 A CN 201110112111A CN 102184284 A CN102184284 A CN 102184284A
Authority
CN
China
Prior art keywords
udolmocv
validation
sample
model
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110112111.8A
Other languages
English (en)
Inventor
张爱茜
易忠胜
李富华
蔺远
高常安
穆云松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201110112111.8A priority Critical patent/CN102184284A/zh
Publication of CN102184284A publication Critical patent/CN102184284A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种有机污染物定量结构活性相关模型抽多法交互验证方法。本发明将均匀设计方法与留多法交互验证进行整合,以均匀设计优化的留多法交互验证(Uniform Design Optimized LMOCV,UDOLMOCV)的相关系数
Figure DDA0000058610230000011
为变量筛选终止标准;同时在模型内部验证时,运用均匀设计优化的留多法交互验证对模型进行样本内部交叉验证,以

Description

有机污染物定量结构活性相关模型抽多法交叉验证方法
技术领域
本发明涉及一种有机污染物定量结构活性相关模型抽多法交互验证方法,具体的说是即采用均匀设计优化的抽多法交互验证对模型进行内部验证,并将均匀设计优化的抽多法交互验证的相关系数
Figure BDA0000058610220000011
作为模型变量筛选终止标准和预测能力判断指标的新型定量结构活性相关模型交互验证方法。
背景技术:
有机污染物的定量结构活性相关(Quantitative Structure and Activity Relationship,QSAR)研究方法作为一种计算机建模技术,能够深入挖掘有机污染物化学结构与其对人体及生态环境造成危害之间的量变规律和因果关系,为从分子水平上将污染物结构与其相对宏观的多样性环境行为和毒性效应进行关联提供了一种现实的可能。QSAR模型可以预测并弥补有机污染物环境行为与生态毒理数据的缺失,大幅度降低实验费用,有助于减少和替代实验(尤其动物实验)测试,因此QSAR目前已经成为污染物环境生态风险评价和人体健康风险评价的重要工具(王连生,韩朔睽.有机污染物的定量结构-活性相关.1993,北京:中国环境科学出版社;国家自然科学基金委员会化学科学部组编,叶常明,王春霞,金龙珠主编,21世纪的环境化学,2004,科学出版社:北京。)
QSAR模型的建立大致包括了数据准备、数据分析和模型验证三个步骤。数据准备是为获取表征分子结构的变量和污染物的环境性质或生物活性,数据分析是选择合适的污染物结构描述变量并在污染物结构与其环境性质或生物活性之间建立数理统计模型,而模型验证是指模型建立后,所进行的模型显著性、稳定性(鲁棒性)、预测能力(泛化能力)、偶然相关和模型应用域等的验证,以保证模型对未知化合物的性质或活性预测的准确性。QSAR模型验证的主要目的是为了评价模型的稳定性和对未知样本的预测能力,目前主要有内部样本和外部样本验证两种类型。外部样本验证方法主要是采用训练集样本结合线性或非线性建模方法建立统计数学模型,然后对未参与建模的外部样本集进行预测,以外部样本的预测值与观测值之间的相关系数、均方根差等统计参数描述模型的预测能力。外部样本验证方法通常要求有较多的样本集以保证建模样本集和外部验证样本集的数量(Hawkins D.,Basak S.,Mills D.Assessing Model Fit by Cross-Validation.J.Chem.Inf.Comput.Sci.2003,43(2),579-586.)。
内部验证方法通常有x-randomization、y-randomization、y-scrambling和交叉验证等方法。x-randomization方法主要原理为按照建模样本集的自变量矩阵大小,随机产生大小完全一样的、新的建模自变量数据矩阵,然后与因变量建立模型。如果经过多次验证得到用随机自变量矩阵建立的模型质量比实际自变量建立的模型差,说明建立的模型并非偶然因素所致(Rucker C.,Rucker G.,Meringer M.y-Randomization and Its Variants in Q SPR/Q SAR.J.Chem.Inf.Model.2007,47(6),2345-2357.)。y-randomization方法与x-randomization方法类似,只是按照样本数的大小产生随机的因变量数量,然后与自变量矩阵建立模型。如果多次验证得到的模型质量比真实模型差,则说明建立的模型并非偶然因素所致(Rucker C.,Rucker G.,Meringer M.y-Randomization and Its Variants in Q SPR/Q SAR.J.Chem.Inf.Model.2007,47(6),2345-2357.)。y-scrambling方法则是将原来的因变量随机变换位置,然后与自变量建立模型,如果多次验证的模型质量比真实模型差,则说明模型是真实可靠。以上所述的三种方法本质都是验证模型是否为偶然相关,并不能说明模型的预测能力。
交叉验证是将全部样本分成两组,其中一组为建模样本集,另外一组作为验证样本集,用建模样本得到的模型预测验证样本,然后将全部样本重新分组,重复建模并预测;整个过程必须保证全部样本集的每一个样本都预测过且只预测过一次,最后计算预测值与观测值之间的相关系数q2和均方根差RMSEV。上述验证过程进行多次重复,并以这两个统计参数的多次平均作为模型的预测能力的描述标准。其中最简单的方法就是每次验证时只取一个样本作为验证集,这种方法称为抽一法交互验证(leave-one-out cross validation,LOOCV),因这种方法操作简单而得到广泛的应用。但是这种每次只提取一个样本作为验证集的验证方法对样本扰动太小,因而得到的
Figure BDA0000058610220000021
和RMSEVLOOCV存在诸多问题,如已经有研究者指出
Figure BDA0000058610220000022
实际上只是模型预测能力的必要条件(Golbraikh A.,Tropsha A.Beware of q2!J.Mol.Graph.Mod.2002,20(4),269-276.),在变量筛选时对
Figure BDA0000058610220000023
的不当使用会导致过拟合的产生。为了改变这种样本数扰动比较小的问题,最好的方式就是提取多个样本作为验证集,这种方法称为留多法交互验证(leave-multiple-out cross validation,LMOCV)。要对数量为n的样本集进行LMOCV,必须对样本集进行分组,最常用的方法是将样本集分成m组,然后利用m-1组样本构成训练集进行建模,并利用得到的模型预测余下的一组样本(该组样本又称为检验集),这样就构成一次m-折LMOCV;然后将检验集样本与训练集中的一组进行交换,重新建立模型并预测,直到所有的样本都进行了一次预测,计算这些样本的预测值与响应值之间的相关系数,仿照LOOCV,采用
Figure BDA0000058610220000024
表示。这样的样本分组方式很多,只取一种不能说明其代表性。因此,需要进行多次分组验证。最理想的效果就是对所有的可能的分组方式进行计算。但因为样本分组方式非常多(
Figure BDA0000058610220000025
其中
Figure BDA0000058610220000026
),特别是样本数越多分组方式越多,样本分组方式随着样本数的增加呈指数增加,遍历所有的分组方式是不现实的(Hawkins D.The Problem of Overfitting.J.Chem.Inf.Comput.Sci.2004,44(1),1-12.)。因此,研究者们提出了采用Monte Carlo方法提取验证样本,并进行多次重复的分组方法(Shao J.Linear Model Selection by Cross-Validation.J.Am.Stat.Assoc.1993,88(422),486-494.Xu Q.S.,Liang Y.Z.Monte Carlo Cross Validation.Chemometr.Intell.Lab.Syst.2001,56(1),1-11.Xu Q.S.,Liang Y.Z.,Du Y.P.Monte Carlo Cross-validation for Selecting A Model and Estimating the Prediction Error in Multivariate Calibration.J.Chemometr.2004,18(2),112-120.)。这样虽解决了样本的分组问题,但是通常Monte Carlo方法对样本分组是符合某种概率分布的,因此所获得的样本不可能在样本空间均匀分布,也就是说Monte Carlo方法所获取的验证样本缺乏全面的代表性(Picard R.R.,Cook R.D.Cross-Validation of Regression Models.J.Am.Stat.Assoc.1984,79(387),575-583.)。
文献检索结果表明,在本结果完成之前,采用均匀设计优化的抽多法交互验证对模型进行内部验证,并将均匀设计优化的抽多法交互验证的相关系数作为模型变量筛选终止标准和预测能力判断指标的新型定量结构活性相关模型交互验证方法未见报道。
发明内容:
1、发明要解决的技术问题
为保证QSAR模型的稳定性,通常采用交互验证的相关系数为变量筛选的目标函数。但是LMOCV样本分组方式太多,如何选择合理的样本分组方式并确定最小验证次数是目前LMOCV应用亟待解决的难题。本发明针对以上技术难题,提供一种新型的有机污染物定量结构活性相关模型交互验证方法,不仅能够提供更大的LMOCV样本波动性,确保抽取样本的代表性,并以少量的样本抽样验证次数即可实现验证样本均匀分布样本空间的目的。
2、技术方案
本发明的原理是将均匀设计方法与留多法交互验证进行整合,提供一种新型的有机污染物定量结构活性相关模型的交互验证方法。结构描述符筛选时,以均匀设计优化的留多法交互验证(Uniform Design Optimized LMOCV,UDOLMOCV)的相关系数为变量筛选终止标准;同时在模型内部验证时,运用均匀设计优化的留多法交互验证对模型进行样本内部交叉验证,以
Figure BDA0000058610220000032
为预测能力判断指标,提供更大的样本波动性,少量的样本抽样验证次数即可实现验证样本均匀分布样本空间,且每次抽取的样本具有很强的代表性。
采用的技术方案如下:
有机污染物定量结构活性相关模型抽多法交互验证方法,其步骤包括:
(1)将均匀设计方法与留多法交互验证相结合,采用均匀设计优化的抽多法交互验证对模型进行内部验证,并将均匀设计优化的抽多法交互验证的相关系数
Figure BDA0000058610220000033
作为有机污染物定量结构活性相关模型变量筛选终止标准和预测能力判断指标,在改进变量筛选的同时,提供更大的样本波动性,完成留多法交互验证。若需建立n个有机污染物m种结构描述符x(n,m)与其环境行为或生物效应指标y(n)之间的构效关系,首先确定最优子集变量数不得大于n/5的整数值,同时变量vi和vj间相关系数r(vi,vj)不得高于阈值rint=0.76,而
Figure BDA0000058610220000034
不得低于0.60。
(2)根据样本数n建立均匀设计表并基于该表进行QSAR模型的m-折留多法交互验证。具体为:
A.使用好格子点法构造用于交叉验证的n+1水平的均匀设计表:根据样本数n,寻找比n+1小的整数h,且使n+1和h的最大公约数为1,符合这些条件的正整数组成一个生成向量Hn+1=[h:h<n+1]。均匀设计表的第j列根据公式uij=ihj[mod n+1]生成,其中[mod n+1]表示同余运算。将生成向量中所有的元素进行上面同余运算得到的结果组成一个二维表格。删除最后一行,即得到所需的设计表,并记为Un *(ns)。其中n为样本数,s为均匀设计表的列数。
B.均匀设计优化的留多法交叉验证方法:将均匀设计表的每一列分成m等份(如果不能整除,则多余的样本归入最后一份),这样均匀设计表的一列就构成一次m-折LMOCV所需样本分组方式,均匀设计表的列数s即为LMOCV的重复次数。然后按照下列公式分别计算交叉验证计算模型的交叉验证相关系数
Figure BDA0000058610220000035
均方根误差(RMSEVUDOLMOCV)以及
Figure BDA0000058610220000036
和RMSEVUDOLMOCV的标准差
Figure BDA0000058610220000037
和STDRMSEVUDOLMOCV。其中yi为第i个观测值,
Figure BDA0000058610220000038
为进行UDOLMOCV时第i个观测值的模型估计值,为观测值的平均值,n为模型的样本数,s为均匀设计表的列数,
Figure BDA0000058610220000042
为第i个观测值的均方根误差,
Figure BDA0000058610220000043
为第i个观测值的交叉验证相关系数。
q UDOLMOCV 2 = 1 s Σ j = 1 N ( 1 - Σ i = 1 n ( y i - y ^ I UDOLMOCV ) 2 Σ i = 1 n ( y i - y ‾ ) 2 )
RMSEV UDDOLMOCV = 1 s Σ j = 1 N 1 n · Σ i = 1 n ( y i - y ^ i UDOLMOCV ) 2
STDq UDOLMOCV 2 = Σ i = 1 N ( q UDOLMOCV , i 2 - q UDOLMOCV 2 ) 2 s - 1
STDRMSEV UDOLMOCV = Σ i = 1 N ( RMSEV i UDOLMOCV - RMSEV UDOLMOCV ) 2 s - 1
(3)得到的UDOLMOCV的统计参数
Figure BDA0000058610220000048
和RMSEVUDOLMOCV用于衡量QSAR模型的预测能力,而
Figure BDA0000058610220000049
与STDRMSEVUDOLMOCV则分别表征参数
Figure BDA00000586102200000410
和RMSEVUDOLMOCV的变异程度。因均匀设计表具有均衡分散的特点,通过均匀设计表安排的分组样本具有很强的代表性,也就是说这样得到的样本分组形式,每一种分组方案都代表了一种样本分布。因此通过均匀设计表分组方式,充分考虑了样本分布的代表性,得到的结论就有很强的代表性,其表现在
Figure BDA00000586102200000411
一股比留一法交互验证和经典的留多法交互验证以及Monte Carlo交互验证法所获得的相关系数q2的标准差大。而且如果存在结构域不一致或机理域不同的样本,则
Figure BDA00000586102200000412
会低于阈值0.60,且会变大。同时,类似LOOCV的q2用作变量筛选方法的终止标准,会减少进入模型的变量数,从而降低模型噪音。
3、有益效果
本发明将均匀设计方法与留多法交互验证进行整合,提供一种快速有效的新型的有机污染物定量结构活性相关模型LMOCV方法。新方法充分利用均匀设计表的均衡分散的特点,按照均匀设计表的排列安排LMOCV样本分组,所得验证样本具有很强的样本分布代表性,克服了Monte Carlo方法选取样本的单一方式。同时,以均匀设计优化的留多法交互验证的相关系数
Figure BDA00000586102200000415
为变量筛选终止标准和模型预测能力判断指标,提供更大的样本波动性,少量的样本抽样验证次数即可实现验证样本均匀分布样本空间,且每次抽取的样本具有很强的代表性,保障变量筛选的合理性。本发明可以不仅可以用于验证QSAR模型的稳定性和与预测能力,并且可以用于发现和确定模型中不稳定因素。
具体实施方式:
以下通过实施例进一步说明本发明。
实施例1:
样本数为31时,采用好格子点法构造32水平的均匀设计表,如表1所示。
表1好格子点法构造的32水平的均匀设计表
Figure BDA0000058610220000051
从表1可看到,32水平的均匀表总共有16列,32行,其中最后一行元素全部为32,删除以后余31行,正好对应31个样本的样本号,每一列的代表了一种样本分布形式。将每一列分成5等份,最简单的方式就是按照行号顺序划分,所有列采用同一种划分方式。均匀设计获得的样本在整个空间分布非常均匀,而Monte Carlo方法得到的样本分布是不均匀的,这便是均匀设计获得LMOCV分组方式的优势所在。
实施例2:
文献(Cronin M.T.D.,Netzeva T.I.,Dearden J.C.,Edwards R.,Worgan A.D.P.Assessment and Modeling of the Toxicity of Organic Chemicals to Chlorella vulgaris:Development of A Novel Database.Chem.Res.Toxicol 2004,17(4),545-554.)中91个样本的最佳模型有3个结构描述符Kow、LUMO和Δ1χv作为变量,模型的相关系数为r2=0.890,LOOCV的q2=0.875。
使用本发明的方法对该模型实施UDOLMOCV:首先构造92水平的均匀设计表,然后删除最后一行,总共有44列,然后每一列分成2、5、10等份(如果不能整除,多余的样本归入最后一组),这样就构成44次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。计算结果见表2。从表2可以看出,2-、5-、10-折UDOLMOCV的均方根差大于2-、5-、10-折Monte Carlo交叉验证结果(分别以MC-2、-5和-10表示),这是因为后者只获取了符合正态分布的样本分组方式相比,而前者分组方式更为合理。很显然,由于LOOCV对样本扰动太小,所以不能反映各种样本分布的真实情况。总体上看,该模型的稳定性和预测能力较好。
表2实施例2的模型交互验证相关系数
Figure BDA0000058610220000062
实施例3:
文献(Liu H.,Papa E.,Gramatica P. QSAR Prediction of Estrogen Activity for A Large Set of Diverse Chemicals under the Guidance of OEC
使用本发明的方法对该模型实施UDOLMOCV:首先构造133水平的均匀设计表,然后删除最后一行,总共有108列,然后每一列分成2、5、10等份(如果不能整除,多余的样本归入最后一组),这样就构成108次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。从表3的计算结果可以看到UDOLMOCV得到的均方根差总是比Monte Carlo交叉验证结果大,这说明本发明所采用的样本分组方式更具有代表性。当样本扰动比较大时(如2-折,模型的稳定性显著降低,UDOLMOCV反映比Monte Carlo交叉验证更为明显,q2的平均值分别为0.1782和0.4095(表3),这是UDOLMOCV的一个突出优点,即基于对样本结构-活性关系真实分布情况的掌握,可以明确显示模型中存在结构域或机理域不一致的样本或不恰当的变量。总体上看,该模型的稳定性和预测能力不佳。
表3实施例3的模型交互验证相关系数
Figure BDA0000058610220000063
实施例4:
文献(Qin L.T.,Liu S.S.,Liu H.L.QSPR Model for Bioconcentration Factors of Nonpolar Organic Compounds Using Molecular Electronegativity Distance Vector Descriptors.Molecular Diversity 2010,14,67-80.)中172个样本所得M4模型包含5个结构描述符x15、x17、x25、x26和x36,模型相关系数r2=0.8584,LOOCV的q2=0.8453。
使用本发明的方法对该模型实施UDOLMOCV:首先构造173水平的均匀设计表,然后删除最后一行,总共有172列,然后每一列分成2、5、10等份(如果不能整除,多余的样本归入最后一组),这样就构成172次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。进行UDOLMOCV时,当样本分成两组和五组时,分别有6种和2种样本分布方式不能通过内部验证,而Monte Carlo交叉验证只有一种样本分布方式未通过内部验证。从表4中的结果可以看到,UDOLMOCV的均方根比相应的Monte Carlo交叉验证的要大,说明UDOLMOCV更能反映样本的各种分布情况。总体上看,该模型的稳定性和预测能力不佳。
基于UDOLMOCV对样本结构-活性关系真实分布情况的分析,可推知模型中存在结构域或机理域不一致的样本或不恰当的变量,特别是可能存在某一描述子标准误很小的情况。分析进入M4模型的5个结构描述符,发现变量x17只有15个样本不为零,可能导致模型不稳定。采用5-折UDOLMOCV的相关系数为变量筛选终止标准,可以剔除类似变量x17这种不稳定因素,从而得到表5所示更为稳定的四变量模型。
表4实施例4模型交互验证相关系数
表5实施例4的变量筛选结果
实施例5:
文献(Xu Q.S.,Liang Y.Z.,Du Y.P.Monte Carlo Cross-Validation for Selecting A Model and Estimating the Prediction Error in Multivariate Calibration.J.Chemometr.2004,18,112-120.)中对于70种烷烃化合物,从11个分子结构描述符中筛选变量建立了八参数QSAR模型。
使用本发明的
Figure BDA0000058610220000074
为变量筛选终止标准重新筛选模型变量:首先构造71水平的均匀设计表,然后删除最后一行,总共有70列,然后每一列分成5等份(每组样本数为14),这样就构成70次5-折交叉验证。计算结果如表6所示三参数模型为最优模型。奥卡姆剃刀原则要求模型应该尽可能简单的原则,一股模型参数越多模型越复杂,过拟合的可能性越大,即QSAR模型的结构描述符不能太多(Bell D.,Wang H.A Formalism for Relevance and Its Application in Feature Subset Selection.Machine Learning,2000,41(2),175-195.Wolpert D.The Relationship between Occam’s Razor and Convergent Guessing.Complex systems,1990,4(2),319-368.)。同时研究结果表明随着模型复杂程度的增加,过拟合的概率和模型预测误差随之增大(Brown S.,Tauler R.,Walczak B.Comprehensive Chemometrics:Chemical and Biochemical Data Ahalysis.Elsevier Amsterdam,2009.)。可见,使用本发明的为变量筛选终止标准获得的QSAR模型明显优于文献报道的模型,且没有发现会引起模型不稳定的因素。
表6实施例5的变量筛选结果
实施例6:
文献(Selwood D.L.,Livingstone D.J.,Comley J.C.W.,O′Dowd A.B.,Hudson A.T.,Jackson P.,Jandu K.S.,Rose V.S.,Stables,J.N.Structure-Activity Relationships of Antifilarial Antimycin Analogues:A Multivariate Pattern Recognition Study.J.Med.Chem.1990,33(1),136-142.)中给出了31种的53个结构描述符,被QSAR建模方法研究领域称为Selwood数据集,可作为变量筛选的“标准”测试集,刘树深等提出基于预测的变量筛选与建模方法(variable selection and modeling method based on the prediction,VSMP)对(Liu S.S.,Liu H.L.,Yin C.S.,Wang L.S.VSMP:A Novel Variable Selection and Modeling Method Based on the Prediction.J.Chem.Inf.Comput.Sci.2003,43,964-969.)对Selwood数据进行建模研究,获得由结构描述符x13、x14、x38、x50和x52建立的五参数模型,模型相关系数r2=0.7909,LOOCV的q2=0.7035。
使用本发明的
Figure BDA0000058610220000083
为变量筛选终止标准重新筛选模型变量:首先构造32水平的均匀设计表,并删除均匀设计表的最后一行,共16列,然后每一列分成5等份(第1至第4组分别为6个样本,第5组为7个样本),这样就构成16次5-折交叉验证。为方便比对,变量筛选沿用基于预测的变量筛选与建模方法,只是用
Figure BDA0000058610220000084
为变量筛选终止标准,交互验证样本分布由本发明方法确定。经过计算后得到如表7所示的结果,最优模型为三变量模型,相关系数为0.7191,
Figure BDA0000058610220000085
根据奥卡姆剃刀原则,使用本发明的
Figure BDA0000058610220000086
为变量筛选终止标准获得的QSAR模型要优于文献报道的模型,且没有发现会引起模型不稳定的因素。
表7实施例6的变量筛选结果
Figure BDA0000058610220000087

Claims (10)

1.一种有机污染物定量结构活性相关模型抽多法交互验证方法,包括以下步骤:
(1)将均匀设计方法与留多法交互验证相结合,采用均匀设计优化的抽多法交互验证对模型进行内部验证,并将均匀设计优化的抽多法交互验证的相关系数
Figure FDA0000058610210000011
作为有机污染物定量结构活性相关模型变量筛选终止标准和预测能力判断指标,在改进变量筛选的同时,提供更大的样本波动性,完成留多法交互验证;若需建立n个有机污染物m种结构描述符x(n,m)与其环境行为或生物效应指标y(n)之间的构效关系,首先确定最优子集变量数不得大于n/5的整数值,同时变量vi和vj间相关系数r(vi,vj)不得高于阈值rint=0.76,而
Figure FDA0000058610210000012
不得低于0.60;
(2)根据样本数n建立n+1水平均匀设计表并基于该表进行QSAR模型的m-折留多法交互验证;具体为:
A.使用好格子点法构造用于交叉验证的n+1水平的均匀设计表:根据样本数n,寻找比n+1小的整数h,且使n+1和h的最大公约数为1,符合这些条件的正整数组成一个生成向量Hn+1=[h:h<n+1];均匀设计表的第j列根据公式uij=ihj[mod n+1]生成,其中[mod n+1]表示同余运算;将生成向量中所有的元素进行上面同余运算得到的结果组成一个二维表格;删除最后一行,即得到所需的设计表,并记为Un (ns);其中n为样本数,s为均匀设计表的列数;
B.均匀设计优化的留多法交叉验证(UDOLMOCV)方法:将均匀设计表的每一列分成m等份(如果不能整除,则多余的样本归入最后一份),这样均匀设计表的一列就构成一次m-折留多法交叉验证所需样本分组方式,均匀设计表的列数s即为留多法交叉验证的重复次数;然后按照下列公式分别计算交叉验证计算模型的交叉验证相关系数均方根误差(RMSEVUDOLMOCV)以及和RMSEVUDOLMOCV的标准差
Figure FDA0000058610210000015
和STDRMSEVUDOLMOCV;其中yi为第i个观测值,
Figure FDA0000058610210000016
为进行UDOLMOCV时第i个观测值的模型估计值,
Figure FDA0000058610210000017
为观测值的平均值,n为模型的样本数,s为均匀设计表的列数,
Figure FDA0000058610210000018
为第i个观测值的均方根误差,
Figure FDA0000058610210000019
为第i个观测值的交叉验证相关系数;
q UDOLMOCV 2 = 1 s Σ j = 1 N ( 1 - Σ i = 1 n ( y i - y ^ I UDOLMOCV ) 2 Σ i = 1 n ( y i - y ‾ ) 2 )
RMSEV UDDOLMOCV = 1 s Σ j = 1 N 1 n · Σ i = 1 n ( y i - y ^ i UDOLMOCV ) 2
STDq UDOLMOCV 2 = Σ i = 1 N ( q UDOLMOCV , i 2 - q UDOLMOCV 2 ) 2 s - 1
STDRMSEV UDOLMOCV = Σ i = 1 N ( RMSEV i UDOLMOCV - RMSEV UDOLMOCV ) 2 s - 1
(3)得到的UDOLMOCV的统计参数
Figure FDA0000058610210000024
和RMSEVUDOLMOCV用于衡量QSAR模型的预测能力,而
Figure FDA0000058610210000025
与STDRMSEVUDOLMOCV则分别表征参数和RMSEVUDOLMOCV的变异程度;同时,类似留一法交叉验证的相关系数q2用作变量筛选方法的终止标准;因均匀设计表具有均衡分散的特点,通过均匀设计表安排的分组样本具有很强的代表性,也就是说这样得到的样本分组形式,每一种分组方案都代表了一种样本分布;因此通过均匀设计表分组方式,充分考虑了样本分布的代表性,得到的结论就有很强的代表性。
2.根据权利要求1中所述的有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于将均匀设计方法与留多法交互验证进行整合,新方法充分利用均匀设计表的均衡分散的特点,按照均匀设计表的排列安排留多法交叉验证样本分组,所得验证样本具有很强的样本分布代表性,克服了Monte Carlo方法选取样本的单一方式;同时,以均匀设计优化的留多法交互验证的相关系数
Figure FDA0000058610210000028
为变量筛选终止标准和模型预测能力判断指标,提供更大的样本波动性,少量的样本抽样验证次数即可实现验证样本均匀分布样本空间,且可筛选出更合理的描述符子集,构建稳健性更好的模型。
3.根据权利要求2中所述的有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(1)中模型最优子集变量数不得大于n/5的整数值,同时变量间相关系数不得高于阈值rint=0.76,而
Figure FDA0000058610210000029
不得低于阈值0.60。
4.根据权利要求3中所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(1)中将均匀设计优化的抽多法交互验证的相关系数
Figure FDA0000058610210000031
作为有机污染物定量结构活性相关模型预测能力判断指标。
5.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(1)中将均匀设计优化的抽多法交互验证的相关系数作为有机污染物定量结构活性相关模型变量筛选终止标准。
6.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(2)中根据样本数n建立n+1水平均匀设计表,删除表的最后一行,将所得到的设计表记为Un (ns),在此表基础上进行QSAR模型的m-折留多法交互验证;使用好格子点法构造用于交叉验证的n+1水平的均匀设计表。
7.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(2)中均匀设计优化的留多法交叉验证方法是将均匀设计表Un (ns)的每一列分成m等份,如果不能整除,则多余的样本归入最后一份,这样均匀设计表的一列就构成一次m-折留多法交叉验证所需样本分组方式,均匀设计表的列数s即为留多法交叉验证的重复次数;步骤(2)交叉验证计算模型的交叉验证相关系数
Figure FDA0000058610210000033
均方根误差RMSEVUDOLMOCV以及
Figure FDA0000058610210000034
和RMSEVUDOLMOCV的标准差
Figure FDA0000058610210000035
和STDRMSEVUDOLMOCV按照下列公式分别计算;
q UDOLMOCV 2 = 1 s Σ j = 1 N ( 1 - Σ i = 1 n ( y i - y ^ I UDOLMOCV ) 2 Σ i = 1 n ( y i - y ‾ ) 2 )
RMSEV UDDOLMOCV = 1 s Σ j = 1 N 1 n · Σ i = 1 n ( y i - y ^ i UDOLMOCV ) 2
STDq UDOLMOCV 2 = Σ i = 1 N ( q UDOLMOCV , i 2 - q UDOLMOCV 2 ) 2 s - 1
STDRMSEV UDOLMOCV = Σ i = 1 N ( RMSEV i UDOLMOCV - RMSEV UDOLMOCV ) 2 s - 1
其中:其中N为样本数,s为UDOLMOCV的重复次数;yi为第i个观测值,
Figure FDA0000058610210000042
为进行UDOLMOCV时第i个观测值的模型估计值,
Figure FDA0000058610210000043
为观测值的平均值,n为模型的样本数,s为均匀设计表的列数,为第i个观测值的均方根误差,
Figure FDA0000058610210000045
为第i个观测值的交叉验证相关系数。
8.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(3)中UDOLMOCV的统计参数和RMSEVUDOLMOCV用于衡量QSAR模型的预测能力,而
Figure FDA0000058610210000047
与STDRMSEVUDOLMOCV则分别表征参数和RMSEVUDOLMOCV的变异程度。
9.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(2)中因均匀设计表具有均衡分散的特点,通过均匀设计表安排的分组样本具有很强的代表性,也就是说这样得到的样本分组形式,每一种分组方案都代表了一种样本分布;因此通过均匀设计表分组方式,充分考虑了样本分布的代表性,得到的结论就有很强的代表性,其表现在
Figure FDA0000058610210000049
一股比留一法交互验证和经典的留多法交互验证以及Monte Carlo交互验证法所获得的相关系数q2的标准差大;而且如果存在结构域不一致或机理域不同的样本,则
Figure FDA00000586102100000410
会低于阈值0.60,且
Figure FDA00000586102100000411
会变大。
10.根据权利要求1~4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法,其特征在于步骤(2)中运用
Figure FDA00000586102100000412
作为变量筛选方法的终止标准,会减少进入模型的变量数,从而降低模型噪音。
CN201110112111.8A 2011-04-29 2011-04-29 有机污染物定量结构活性相关模型抽多法交叉验证方法 Pending CN102184284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110112111.8A CN102184284A (zh) 2011-04-29 2011-04-29 有机污染物定量结构活性相关模型抽多法交叉验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110112111.8A CN102184284A (zh) 2011-04-29 2011-04-29 有机污染物定量结构活性相关模型抽多法交叉验证方法

Publications (1)

Publication Number Publication Date
CN102184284A true CN102184284A (zh) 2011-09-14

Family

ID=44570461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110112111.8A Pending CN102184284A (zh) 2011-04-29 2011-04-29 有机污染物定量结构活性相关模型抽多法交叉验证方法

Country Status (1)

Country Link
CN (1) CN102184284A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682209A (zh) * 2012-05-03 2012-09-19 桂林理工大学 有机污染物定量结构活性相关建模的变量筛选方法
CN104899458A (zh) * 2015-06-16 2015-09-09 中国环境科学研究院 评价纳米金属氧化物健康效应的qsar毒性预测方法
CN105095562A (zh) * 2015-05-29 2015-11-25 中国石油天然气股份有限公司 一种预测土壤轻烃指标的方法及装置
CN110046714A (zh) * 2019-03-25 2019-07-23 天津大学 基于多特征信息融合的长链非编码rna亚细胞定位方法
US11226323B2 (en) * 2018-04-27 2022-01-18 International Business Machines Corporation Air-pollution emission source monitoring

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059520A (zh) * 2007-05-29 2007-10-24 南京大学 基于受体结合模式的有机物er亲合力快速筛选预测方法
CN101140289A (zh) * 2007-10-26 2008-03-12 南京大学 基于分子结构快速筛选环境有机污染物雄激素的方法
CN101477597A (zh) * 2009-01-15 2009-07-08 浙江大学 基于化合物特征的天然产物活性成分计算识别方法
WO2010045510A2 (en) * 2008-10-15 2010-04-22 Ohio Norther University A model for glutamate racemase inhibitors and glutamate racemase antibacterial agents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059520A (zh) * 2007-05-29 2007-10-24 南京大学 基于受体结合模式的有机物er亲合力快速筛选预测方法
CN101140289A (zh) * 2007-10-26 2008-03-12 南京大学 基于分子结构快速筛选环境有机污染物雄激素的方法
WO2010045510A2 (en) * 2008-10-15 2010-04-22 Ohio Norther University A model for glutamate racemase inhibitors and glutamate racemase antibacterial agents
CN101477597A (zh) * 2009-01-15 2009-07-08 浙江大学 基于化合物特征的天然产物活性成分计算识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Ecotoxicology and Environmental Safety Environmental Research, Section B》 20021231 Wei Dongbin,et al. A Case Study of Logistic QSAR ModelingMethods and Robustness Tests 143-149 1-10 第52卷, *
《Journal of Molecular Graphics and Modelling》 20071231 Hua Yuan, et al. Mode of action-based local QSAR modeling for the prediction of acute toxicity in the fathead minnow 327-335 1-10 第22卷, *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682209A (zh) * 2012-05-03 2012-09-19 桂林理工大学 有机污染物定量结构活性相关建模的变量筛选方法
CN102682209B (zh) * 2012-05-03 2014-11-05 桂林理工大学 有机污染物定量结构活性相关建模的变量筛选方法
CN105095562A (zh) * 2015-05-29 2015-11-25 中国石油天然气股份有限公司 一种预测土壤轻烃指标的方法及装置
CN105095562B (zh) * 2015-05-29 2018-07-10 中国石油天然气股份有限公司 一种预测土壤轻烃指标的方法及装置
CN104899458A (zh) * 2015-06-16 2015-09-09 中国环境科学研究院 评价纳米金属氧化物健康效应的qsar毒性预测方法
WO2016201789A1 (zh) * 2015-06-16 2016-12-22 中国环境科学研究院 评价纳米金属氧化物健康效应的qsar毒性预测方法
CN104899458B (zh) * 2015-06-16 2017-09-15 中国环境科学研究院 评价纳米金属氧化物健康效应的qsar毒性预测方法
US11226323B2 (en) * 2018-04-27 2022-01-18 International Business Machines Corporation Air-pollution emission source monitoring
CN110046714A (zh) * 2019-03-25 2019-07-23 天津大学 基于多特征信息融合的长链非编码rna亚细胞定位方法

Similar Documents

Publication Publication Date Title
Basu et al. Long-time position distribution of an active Brownian particle in two dimensions
Swenson Phylogenetic imputation of plant functional trait databases
Davis et al. Global sensitivity analysis of chemical-kinetic reaction mechanisms: construction and deconstruction of the probability density function
Brown et al. Healthy skepticism: assessing realistic model performance
CN102184284A (zh) 有机污染物定量结构活性相关模型抽多法交叉验证方法
Zeng et al. A probabilistic collocation-based Kalman filter for history matching
CN102682209B (zh) 有机污染物定量结构活性相关建模的变量筛选方法
Asprion et al. INES–an interface between experiments and simulation to support the development of robust process designs
Burger et al. KiDS-1000 cosmology: Constraints from density split statistics
Bovolenta et al. High level ab initio binding energy distribution of molecules on interstellar ices: Hydrogen fluoride
Wang et al. Assessing the sensitivity of land-atmosphere coupling strength to boundary and surface layer parameters in the WRF model over Amazon
Wales Dynamical signatures of multifunnel energy landscapes
Wang et al. Optimal space-filling design for symmetrical global sensitivity analysis of complex black-box models
CN104376221B (zh) 一种预测有机化学品的皮肤渗透系数的方法
Fischer et al. Revisiting radiation patterns in e^+ e^-e+ e-collisions
Kumar et al. Acceleration of turbulent combustion DNS via principal component transport
Barnhart et al. MOESHA: A genetic algorithm for automatic calibration and estimation of parameter uncertainty and sensitivity of hydrologic models
CN105651868A (zh) 体外用细胞代谢轮廓筛选马兜铃酸致肾毒性标志物的方法
Liu et al. Entropy of hydrological systems under small samples: Uncertainty and variability
Metz et al. A note on spectral data simulation
CN103390103A (zh) 基于子空间独立成分回归模型的熔融指数在线检测方法
Nossent et al. Optimising the convergence of a Sobol’sensitivity analysis for an environmental model: application of an appropriate estimate for the square of the expectation value and the total variance
CN103868882A (zh) 测定沥青中各组分含量的方法
Ye et al. Parameter identification and calibration of the Xin’anjiang model using the surrogate modeling approach
Wu et al. Fuel octane number prediction based on topological indices and active subspace method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110914