CN102184284A

CN102184284A - 有机污染物定量结构活性相关模型抽多法交叉验证方法

Info

Publication number: CN102184284A
Application number: CN201110112111.8A
Authority: CN
Inventors: 张爱茜; 易忠胜; 李富华; 蔺远; 高常安; 穆云松
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2011-09-14

Abstract

本发明公开了一种有机污染物定量结构活性相关模型抽多法交互验证方法。本发明将均匀设计方法与留多法交互验证进行整合，以均匀设计优化的留多法交互验证(Uniform Design Optimized LMOCV，UDOLMOCV)的相关系数

为变量筛选终止标准；同时在模型内部验证时，运用均匀设计优化的留多法交互验证对模型进行样本内部交叉验证，以

Description

有机污染物定量结构活性相关模型抽多法交叉验证方法

技术领域

本发明涉及一种有机污染物定量结构活性相关模型抽多法交互验证方法，具体的说是即采用均匀设计优化的抽多法交互验证对模型进行内部验证，并将均匀设计优化的抽多法交互验证的相关系数

作为模型变量筛选终止标准和预测能力判断指标的新型定量结构活性相关模型交互验证方法。

背景技术：

有机污染物的定量结构活性相关(Quantitative Structure and Activity Relationship，QSAR)研究方法作为一种计算机建模技术，能够深入挖掘有机污染物化学结构与其对人体及生态环境造成危害之间的量变规律和因果关系，为从分子水平上将污染物结构与其相对宏观的多样性环境行为和毒性效应进行关联提供了一种现实的可能。QSAR模型可以预测并弥补有机污染物环境行为与生态毒理数据的缺失，大幅度降低实验费用，有助于减少和替代实验(尤其动物实验)测试，因此QSAR目前已经成为污染物环境生态风险评价和人体健康风险评价的重要工具(王连生，韩朔睽.有机污染物的定量结构-活性相关.1993，北京：中国环境科学出版社；国家自然科学基金委员会化学科学部组编，叶常明，王春霞，金龙珠主编，21世纪的环境化学，2004，科学出版社：北京。)

QSAR模型的建立大致包括了数据准备、数据分析和模型验证三个步骤。数据准备是为获取表征分子结构的变量和污染物的环境性质或生物活性，数据分析是选择合适的污染物结构描述变量并在污染物结构与其环境性质或生物活性之间建立数理统计模型，而模型验证是指模型建立后，所进行的模型显著性、稳定性(鲁棒性)、预测能力(泛化能力)、偶然相关和模型应用域等的验证，以保证模型对未知化合物的性质或活性预测的准确性。QSAR模型验证的主要目的是为了评价模型的稳定性和对未知样本的预测能力，目前主要有内部样本和外部样本验证两种类型。外部样本验证方法主要是采用训练集样本结合线性或非线性建模方法建立统计数学模型，然后对未参与建模的外部样本集进行预测，以外部样本的预测值与观测值之间的相关系数、均方根差等统计参数描述模型的预测能力。外部样本验证方法通常要求有较多的样本集以保证建模样本集和外部验证样本集的数量(Hawkins D.，Basak S.，Mills D.Assessing Model Fit by Cross-Validation.J.Chem.Inf.Comput.Sci.2003，43(2)，579-586.)。

内部验证方法通常有x-randomization、y-randomization、y-scrambling和交叉验证等方法。x-randomization方法主要原理为按照建模样本集的自变量矩阵大小，随机产生大小完全一样的、新的建模自变量数据矩阵，然后与因变量建立模型。如果经过多次验证得到用随机自变量矩阵建立的模型质量比实际自变量建立的模型差，说明建立的模型并非偶然因素所致(Rucker C.，Rucker G.，Meringer M.y-Randomization and Its Variants in Q SPR/Q SAR.J.Chem.Inf.Model.2007，47(6)，2345-2357.)。y-randomization方法与x-randomization方法类似，只是按照样本数的大小产生随机的因变量数量，然后与自变量矩阵建立模型。如果多次验证得到的模型质量比真实模型差，则说明建立的模型并非偶然因素所致(Rucker C.，Rucker G.，Meringer M.y-Randomization and Its Variants in Q SPR/Q SAR.J.Chem.Inf.Model.2007，47(6)，2345-2357.)。y-scrambling方法则是将原来的因变量随机变换位置，然后与自变量建立模型，如果多次验证的模型质量比真实模型差，则说明模型是真实可靠。以上所述的三种方法本质都是验证模型是否为偶然相关，并不能说明模型的预测能力。

交叉验证是将全部样本分成两组，其中一组为建模样本集，另外一组作为验证样本集，用建模样本得到的模型预测验证样本，然后将全部样本重新分组，重复建模并预测；整个过程必须保证全部样本集的每一个样本都预测过且只预测过一次，最后计算预测值与观测值之间的相关系数q²和均方根差RMSEV。上述验证过程进行多次重复，并以这两个统计参数的多次平均作为模型的预测能力的描述标准。其中最简单的方法就是每次验证时只取一个样本作为验证集，这种方法称为抽一法交互验证(leave-one-out cross validation，LOOCV)，因这种方法操作简单而得到广泛的应用。但是这种每次只提取一个样本作为验证集的验证方法对样本扰动太小，因而得到的

和RMSEV_LOOCV存在诸多问题，如已经有研究者指出

实际上只是模型预测能力的必要条件(Golbraikh A.，Tropsha A.Beware of q2！J.Mol.Graph.Mod.2002，20(4)，269-276.)，在变量筛选时对

的不当使用会导致过拟合的产生。为了改变这种样本数扰动比较小的问题，最好的方式就是提取多个样本作为验证集，这种方法称为留多法交互验证(leave-multiple-out cross validation，LMOCV)。要对数量为n的样本集进行LMOCV，必须对样本集进行分组，最常用的方法是将样本集分成m组，然后利用m-1组样本构成训练集进行建模，并利用得到的模型预测余下的一组样本(该组样本又称为检验集)，这样就构成一次m-折LMOCV；然后将检验集样本与训练集中的一组进行交换，重新建立模型并预测，直到所有的样本都进行了一次预测，计算这些样本的预测值与响应值之间的相关系数，仿照LOOCV，采用

表示。这样的样本分组方式很多，只取一种不能说明其代表性。因此，需要进行多次分组验证。最理想的效果就是对所有的可能的分组方式进行计算。但因为样本分组方式非常多(

其中

)，特别是样本数越多分组方式越多，样本分组方式随着样本数的增加呈指数增加，遍历所有的分组方式是不现实的(Hawkins D.The Problem of Overfitting.J.Chem.Inf.Comput.Sci.2004，44(1)，1-12.)。因此，研究者们提出了采用Monte Carlo方法提取验证样本，并进行多次重复的分组方法(Shao J.Linear Model Selection by Cross-Validation.J.Am.Stat.Assoc.1993，88(422)，486-494.Xu Q.S.，Liang Y.Z.Monte Carlo Cross Validation.Chemometr.Intell.Lab.Syst.2001，56(1)，1-11.Xu Q.S.，Liang Y.Z.，Du Y.P.Monte Carlo Cross-validation for Selecting A Model and Estimating the Prediction Error in Multivariate Calibration.J.Chemometr.2004，18(2)，112-120.)。这样虽解决了样本的分组问题，但是通常Monte Carlo方法对样本分组是符合某种概率分布的，因此所获得的样本不可能在样本空间均匀分布，也就是说Monte Carlo方法所获取的验证样本缺乏全面的代表性(Picard R.R.，Cook R.D.Cross-Validation of Regression Models.J.Am.Stat.Assoc.1984，79(387)，575-583.)。

文献检索结果表明，在本结果完成之前，采用均匀设计优化的抽多法交互验证对模型进行内部验证，并将均匀设计优化的抽多法交互验证的相关系数作为模型变量筛选终止标准和预测能力判断指标的新型定量结构活性相关模型交互验证方法未见报道。

发明内容：

1、发明要解决的技术问题

为保证QSAR模型的稳定性，通常采用交互验证的相关系数为变量筛选的目标函数。但是LMOCV样本分组方式太多，如何选择合理的样本分组方式并确定最小验证次数是目前LMOCV应用亟待解决的难题。本发明针对以上技术难题，提供一种新型的有机污染物定量结构活性相关模型交互验证方法，不仅能够提供更大的LMOCV样本波动性，确保抽取样本的代表性，并以少量的样本抽样验证次数即可实现验证样本均匀分布样本空间的目的。

2、技术方案

本发明的原理是将均匀设计方法与留多法交互验证进行整合，提供一种新型的有机污染物定量结构活性相关模型的交互验证方法。结构描述符筛选时，以均匀设计优化的留多法交互验证(Uniform Design Optimized LMOCV，UDOLMOCV)的相关系数为变量筛选终止标准；同时在模型内部验证时，运用均匀设计优化的留多法交互验证对模型进行样本内部交叉验证，以

为预测能力判断指标，提供更大的样本波动性，少量的样本抽样验证次数即可实现验证样本均匀分布样本空间，且每次抽取的样本具有很强的代表性。

采用的技术方案如下：

有机污染物定量结构活性相关模型抽多法交互验证方法，其步骤包括：

(1)将均匀设计方法与留多法交互验证相结合，采用均匀设计优化的抽多法交互验证对模型进行内部验证，并将均匀设计优化的抽多法交互验证的相关系数

作为有机污染物定量结构活性相关模型变量筛选终止标准和预测能力判断指标，在改进变量筛选的同时，提供更大的样本波动性，完成留多法交互验证。若需建立n个有机污染物m种结构描述符x(n，m)与其环境行为或生物效应指标y(n)之间的构效关系，首先确定最优子集变量数不得大于n/5的整数值，同时变量v_i和v_j间相关系数r(v_i，v_j)不得高于阈值r_int＝0.76，而

不得低于0.60。

(2)根据样本数n建立均匀设计表并基于该表进行QSAR模型的m-折留多法交互验证。具体为：

A.使用好格子点法构造用于交叉验证的n+1水平的均匀设计表：根据样本数n，寻找比n+1小的整数h，且使n+1和h的最大公约数为1，符合这些条件的正整数组成一个生成向量H_n+1＝[h：h＜n+1]。均匀设计表的第j列根据公式u_ij＝ih_j[mod n+1]生成，其中[mod n+1]表示同余运算。将生成向量中所有的元素进行上面同余运算得到的结果组成一个二维表格。删除最后一行，即得到所需的设计表，并记为U_n ^*(n^s)。其中n为样本数，s为均匀设计表的列数。

B.均匀设计优化的留多法交叉验证方法：将均匀设计表的每一列分成m等份(如果不能整除，则多余的样本归入最后一份)，这样均匀设计表的一列就构成一次m-折LMOCV所需样本分组方式，均匀设计表的列数s即为LMOCV的重复次数。然后按照下列公式分别计算交叉验证计算模型的交叉验证相关系数

均方根误差(RMSEV^UDOLMOCV)以及

和RMSEV^UDOLMOCV的标准差

和STDRMSEV^UDOLMOCV。其中y_i为第i个观测值，

为进行UDOLMOCV时第i个观测值的模型估计值，为观测值的平均值，n为模型的样本数，s为均匀设计表的列数，

为第i个观测值的均方根误差，

为第i个观测值的交叉验证相关系数。

q_{UDOLMOCV}^{2} = \frac{1}{s} Σ_{j = 1}^{N} (1 - \frac{Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{I}^{UDOLMOCV})}^{2}}{Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}})

{RMSEV}^{UDDOLMOCV} = \frac{1}{s} Σ_{j = 1}^{N} \sqrt{\frac{1}{n} \cdot Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i}^{UDOLMOCV})}^{2}}

{STDq}_{UDOLMOCV}^{2} = \sqrt{\frac{Σ_{i = 1}^{N} {(q_{UDOLMOCV, i}^{2} - q_{UDOLMOCV}^{2})}^{2}}{s - 1}}

{STDRMSEV}^{UDOLMOCV} = \sqrt{\frac{Σ_{i = 1}^{N} {({RMSEV}_{i}^{UDOLMOCV} - {RMSEV}^{UDOLMOCV})}^{2}}{s - 1}}

(3)得到的UDOLMOCV的统计参数

和RMSEV^UDOLMOCV用于衡量QSAR模型的预测能力，而

与STDRMSEV^UDOLMOCV则分别表征参数

和RMSEV^UDOLMOCV的变异程度。因均匀设计表具有均衡分散的特点，通过均匀设计表安排的分组样本具有很强的代表性，也就是说这样得到的样本分组形式，每一种分组方案都代表了一种样本分布。因此通过均匀设计表分组方式，充分考虑了样本分布的代表性，得到的结论就有很强的代表性，其表现在

一股比留一法交互验证和经典的留多法交互验证以及Monte Carlo交互验证法所获得的相关系数q²的标准差大。而且如果存在结构域不一致或机理域不同的样本，则

会低于阈值0.60，且会变大。同时，类似LOOCV的q²，用作变量筛选方法的终止标准，会减少进入模型的变量数，从而降低模型噪音。

3、有益效果

本发明将均匀设计方法与留多法交互验证进行整合，提供一种快速有效的新型的有机污染物定量结构活性相关模型LMOCV方法。新方法充分利用均匀设计表的均衡分散的特点，按照均匀设计表的排列安排LMOCV样本分组，所得验证样本具有很强的样本分布代表性，克服了Monte Carlo方法选取样本的单一方式。同时，以均匀设计优化的留多法交互验证的相关系数

为变量筛选终止标准和模型预测能力判断指标，提供更大的样本波动性，少量的样本抽样验证次数即可实现验证样本均匀分布样本空间，且每次抽取的样本具有很强的代表性，保障变量筛选的合理性。本发明可以不仅可以用于验证QSAR模型的稳定性和与预测能力，并且可以用于发现和确定模型中不稳定因素。

具体实施方式：

以下通过实施例进一步说明本发明。

实施例1：

样本数为31时，采用好格子点法构造32水平的均匀设计表，如表1所示。

表1好格子点法构造的32水平的均匀设计表

从表1可看到，32水平的均匀表总共有16列，32行，其中最后一行元素全部为32，删除以后余31行，正好对应31个样本的样本号，每一列的代表了一种样本分布形式。将每一列分成5等份，最简单的方式就是按照行号顺序划分，所有列采用同一种划分方式。均匀设计获得的样本在整个空间分布非常均匀，而Monte Carlo方法得到的样本分布是不均匀的，这便是均匀设计获得LMOCV分组方式的优势所在。

实施例2：

文献(Cronin M.T.D.，Netzeva T.I.，Dearden J.C.，Edwards R.，Worgan A.D.P.Assessment and Modeling of the Toxicity of Organic Chemicals to Chlorella vulgaris：Development of A Novel Database.Chem.Res.Toxicol 2004，17(4)，545-554.)中91个样本的最佳模型有3个结构描述符Kow、LUMO和Δ¹χ^v作为变量，模型的相关系数为r²＝0.890，LOOCV的q²＝0.875。

使用本发明的方法对该模型实施UDOLMOCV：首先构造92水平的均匀设计表，然后删除最后一行，总共有44列，然后每一列分成2、5、10等份(如果不能整除，多余的样本归入最后一组)，这样就构成44次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。计算结果见表2。从表2可以看出，2-、5-、10-折UDOLMOCV的均方根差大于2-、5-、10-折Monte Carlo交叉验证结果(分别以MC-2、-5和-10表示)，这是因为后者只获取了符合正态分布的样本分组方式相比，而前者分组方式更为合理。很显然，由于LOOCV对样本扰动太小，所以不能反映各种样本分布的真实情况。总体上看，该模型的稳定性和预测能力较好。

表2实施例2的模型交互验证相关系数

实施例3：

文献(Liu H.，Papa E.，Gramatica P. QSAR Prediction of Estrogen Activity for A Large Set of Diverse Chemicals under the Guidance of OEC

使用本发明的方法对该模型实施UDOLMOCV：首先构造133水平的均匀设计表，然后删除最后一行，总共有108列，然后每一列分成2、5、10等份(如果不能整除，多余的样本归入最后一组)，这样就构成108次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。从表3的计算结果可以看到UDOLMOCV得到的均方根差总是比Monte Carlo交叉验证结果大，这说明本发明所采用的样本分组方式更具有代表性。当样本扰动比较大时(如2-折，模型的稳定性显著降低，UDOLMOCV反映比Monte Carlo交叉验证更为明显，q²的平均值分别为0.1782和0.4095(表3)，这是UDOLMOCV的一个突出优点，即基于对样本结构-活性关系真实分布情况的掌握，可以明确显示模型中存在结构域或机理域不一致的样本或不恰当的变量。总体上看，该模型的稳定性和预测能力不佳。

表3实施例3的模型交互验证相关系数

实施例4：

文献(Qin L.T.，Liu S.S.，Liu H.L.QSPR Model for Bioconcentration Factors of Nonpolar Organic Compounds Using Molecular Electronegativity Distance Vector Descriptors.Molecular Diversity 2010，14，67-80.)中172个样本所得M4模型包含5个结构描述符x₁₅、x₁₇、x₂₅、x₂₆和x₃₆，模型相关系数r²＝0.8584，LOOCV的q²＝0.8453。

使用本发明的方法对该模型实施UDOLMOCV：首先构造173水平的均匀设计表，然后删除最后一行，总共有172列，然后每一列分成2、5、10等份(如果不能整除，多余的样本归入最后一组)，这样就构成172次2-、5-、10-折交叉验证(分别以UD-2、-5和-10表示)。进行UDOLMOCV时，当样本分成两组和五组时，分别有6种和2种样本分布方式不能通过内部验证，而Monte Carlo交叉验证只有一种样本分布方式未通过内部验证。从表4中的结果可以看到，UDOLMOCV的均方根比相应的Monte Carlo交叉验证的要大，说明UDOLMOCV更能反映样本的各种分布情况。总体上看，该模型的稳定性和预测能力不佳。

基于UDOLMOCV对样本结构-活性关系真实分布情况的分析，可推知模型中存在结构域或机理域不一致的样本或不恰当的变量，特别是可能存在某一描述子标准误很小的情况。分析进入M4模型的5个结构描述符，发现变量x₁₇只有15个样本不为零，可能导致模型不稳定。采用5-折UDOLMOCV的相关系数为变量筛选终止标准，可以剔除类似变量x₁₇这种不稳定因素，从而得到表5所示更为稳定的四变量模型。

表4实施例4模型交互验证相关系数

表5实施例4的变量筛选结果

实施例5：

文献(Xu Q.S.，Liang Y.Z.，Du Y.P.Monte Carlo Cross-Validation for Selecting A Model and Estimating the Prediction Error in Multivariate Calibration.J.Chemometr.2004，18，112-120.)中对于70种烷烃化合物，从11个分子结构描述符中筛选变量建立了八参数QSAR模型。

使用本发明的

为变量筛选终止标准重新筛选模型变量：首先构造71水平的均匀设计表，然后删除最后一行，总共有70列，然后每一列分成5等份(每组样本数为14)，这样就构成70次5-折交叉验证。计算结果如表6所示三参数模型为最优模型。奥卡姆剃刀原则要求模型应该尽可能简单的原则，一股模型参数越多模型越复杂，过拟合的可能性越大，即QSAR模型的结构描述符不能太多(Bell D.，Wang H.A Formalism for Relevance and Its Application in Feature Subset Selection.Machine Learning，2000，41(2)，175-195.Wolpert D.The Relationship between Occam’s Razor and Convergent Guessing.Complex systems，1990，4(2)，319-368.)。同时研究结果表明随着模型复杂程度的增加，过拟合的概率和模型预测误差随之增大(Brown S.，Tauler R.，Walczak B.Comprehensive Chemometrics：Chemical and Biochemical Data Ahalysis.Elsevier Amsterdam，2009.)。可见，使用本发明的为变量筛选终止标准获得的QSAR模型明显优于文献报道的模型，且没有发现会引起模型不稳定的因素。

表6实施例5的变量筛选结果

实施例6：

文献(Selwood D.L.，Livingstone D.J.，Comley J.C.W.，O′Dowd A.B.，Hudson A.T.，Jackson P.，Jandu K.S.，Rose V.S.，Stables，J.N.Structure-Activity Relationships of Antifilarial Antimycin Analogues：A Multivariate Pattern Recognition Study.J.Med.Chem.1990，33(1)，136-142.)中给出了31种的53个结构描述符，被QSAR建模方法研究领域称为Selwood数据集，可作为变量筛选的“标准”测试集，刘树深等提出基于预测的变量筛选与建模方法(variable selection and modeling method based on the prediction，VSMP)对(Liu S.S.，Liu H.L.，Yin C.S.，Wang L.S.VSMP：A Novel Variable Selection and Modeling Method Based on the Prediction.J.Chem.Inf.Comput.Sci.2003，43，964-969.)对Selwood数据进行建模研究，获得由结构描述符x₁₃、x₁₄、x₃₈、x₅₀和x₅₂建立的五参数模型，模型相关系数r²＝0.7909，LOOCV的q²＝0.7035。

使用本发明的

为变量筛选终止标准重新筛选模型变量：首先构造32水平的均匀设计表，并删除均匀设计表的最后一行，共16列，然后每一列分成5等份(第1至第4组分别为6个样本，第5组为7个样本)，这样就构成16次5-折交叉验证。为方便比对，变量筛选沿用基于预测的变量筛选与建模方法，只是用

为变量筛选终止标准，交互验证样本分布由本发明方法确定。经过计算后得到如表7所示的结果，最优模型为三变量模型，相关系数为0.7191，

根据奥卡姆剃刀原则，使用本发明的

为变量筛选终止标准获得的QSAR模型要优于文献报道的模型，且没有发现会引起模型不稳定的因素。

表7实施例6的变量筛选结果

Claims

1.一种有机污染物定量结构活性相关模型抽多法交互验证方法，包括以下步骤：

作为有机污染物定量结构活性相关模型变量筛选终止标准和预测能力判断指标，在改进变量筛选的同时，提供更大的样本波动性，完成留多法交互验证；若需建立n个有机污染物m种结构描述符x(n，m)与其环境行为或生物效应指标y(n)之间的构效关系，首先确定最优子集变量数不得大于n/5的整数值，同时变量v_i和v_j间相关系数r(v_i，v_j)不得高于阈值r_int＝0.76，而

不得低于0.60；

(2)根据样本数n建立n+1水平均匀设计表并基于该表进行QSAR模型的m-折留多法交互验证；具体为：

A.使用好格子点法构造用于交叉验证的n+1水平的均匀设计表：根据样本数n，寻找比n+1小的整数h，且使n+1和h的最大公约数为1，符合这些条件的正整数组成一个生成向量H_n+1＝[h：h＜n+1]；均匀设计表的第j列根据公式u_ij＝ih_j[mod n+1]生成，其中[mod n+1]表示同余运算；将生成向量中所有的元素进行上面同余运算得到的结果组成一个二维表格；删除最后一行，即得到所需的设计表，并记为U_n ^＊(n^s)；其中n为样本数，s为均匀设计表的列数；

B.均匀设计优化的留多法交叉验证(UDOLMOCV)方法：将均匀设计表的每一列分成m等份(如果不能整除，则多余的样本归入最后一份)，这样均匀设计表的一列就构成一次m-折留多法交叉验证所需样本分组方式，均匀设计表的列数s即为留多法交叉验证的重复次数；然后按照下列公式分别计算交叉验证计算模型的交叉验证相关系数均方根误差(RMSEV^UDOLMOCV)以及和RMSEV^UDOLMOCV的标准差

和STDRMSEV^UDOLMOCV；其中y_i为第i个观测值，

为进行UDOLMOCV时第i个观测值的模型估计值，

为观测值的平均值，n为模型的样本数，s为均匀设计表的列数，

为第i个观测值的均方根误差，

为第i个观测值的交叉验证相关系数；

q_{UDOLMOCV}^{2} = \frac{1}{s} Σ_{j = 1}^{N} (1 - \frac{Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{I}^{UDOLMOCV})}^{2}}{Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}})

{RMSEV}^{UDDOLMOCV} = \frac{1}{s} Σ_{j = 1}^{N} \sqrt{\frac{1}{n} \cdot Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i}^{UDOLMOCV})}^{2}}

{STDq}_{UDOLMOCV}^{2} = \sqrt{\frac{Σ_{i = 1}^{N} {(q_{UDOLMOCV, i}^{2} - q_{UDOLMOCV}^{2})}^{2}}{s - 1}}

{STDRMSEV}^{UDOLMOCV} = \sqrt{\frac{Σ_{i = 1}^{N} {({RMSEV}_{i}^{UDOLMOCV} - {RMSEV}^{UDOLMOCV})}^{2}}{s - 1}}

(3)得到的UDOLMOCV的统计参数

和RMSEV^UDOLMOCV用于衡量QSAR模型的预测能力，而

与STDRMSEV^UDOLMOCV则分别表征参数和RMSEV^UDOLMOCV的变异程度；同时，类似留一法交叉验证的相关系数q²，用作变量筛选方法的终止标准；因均匀设计表具有均衡分散的特点，通过均匀设计表安排的分组样本具有很强的代表性，也就是说这样得到的样本分组形式，每一种分组方案都代表了一种样本分布；因此通过均匀设计表分组方式，充分考虑了样本分布的代表性，得到的结论就有很强的代表性。

2.根据权利要求1中所述的有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于将均匀设计方法与留多法交互验证进行整合，新方法充分利用均匀设计表的均衡分散的特点，按照均匀设计表的排列安排留多法交叉验证样本分组，所得验证样本具有很强的样本分布代表性，克服了Monte Carlo方法选取样本的单一方式；同时，以均匀设计优化的留多法交互验证的相关系数

为变量筛选终止标准和模型预测能力判断指标，提供更大的样本波动性，少量的样本抽样验证次数即可实现验证样本均匀分布样本空间，且可筛选出更合理的描述符子集，构建稳健性更好的模型。

3.根据权利要求2中所述的有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(1)中模型最优子集变量数不得大于n/5的整数值，同时变量间相关系数不得高于阈值r_int＝0.76，而

不得低于阈值0.60。

4.根据权利要求3中所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(1)中将均匀设计优化的抽多法交互验证的相关系数

作为有机污染物定量结构活性相关模型预测能力判断指标。

5.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(1)中将均匀设计优化的抽多法交互验证的相关系数作为有机污染物定量结构活性相关模型变量筛选终止标准。

6.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(2)中根据样本数n建立n+1水平均匀设计表，删除表的最后一行，将所得到的设计表记为U_n ^＊(n^s)，在此表基础上进行QSAR模型的m-折留多法交互验证；使用好格子点法构造用于交叉验证的n+1水平的均匀设计表。

7.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(2)中均匀设计优化的留多法交叉验证方法是将均匀设计表U_n ^＊(n^s)的每一列分成m等份，如果不能整除，则多余的样本归入最后一份，这样均匀设计表的一列就构成一次m-折留多法交叉验证所需样本分组方式，均匀设计表的列数s即为留多法交叉验证的重复次数；步骤(2)交叉验证计算模型的交叉验证相关系数

均方根误差RMSEV^UDOLMOCV以及

和RMSEV^UDOLMOCV的标准差

和STDRMSEV^UDOLMOCV按照下列公式分别计算；

q_{UDOLMOCV}^{2} = \frac{1}{s} Σ_{j = 1}^{N} (1 - \frac{Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{I}^{UDOLMOCV})}^{2}}{Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}})

{RMSEV}^{UDDOLMOCV} = \frac{1}{s} Σ_{j = 1}^{N} \sqrt{\frac{1}{n} \cdot Σ_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i}^{UDOLMOCV})}^{2}}

{STDq}_{UDOLMOCV}^{2} = \sqrt{\frac{Σ_{i = 1}^{N} {(q_{UDOLMOCV, i}^{2} - q_{UDOLMOCV}^{2})}^{2}}{s - 1}}

{STDRMSEV}^{UDOLMOCV} = \sqrt{\frac{Σ_{i = 1}^{N} {({RMSEV}_{i}^{UDOLMOCV} - {RMSEV}^{UDOLMOCV})}^{2}}{s - 1}}

其中：其中N为样本数，s为UDOLMOCV的重复次数；y_i为第i个观测值，

为进行UDOLMOCV时第i个观测值的模型估计值，

为观测值的平均值，n为模型的样本数，s为均匀设计表的列数，为第i个观测值的均方根误差，

为第i个观测值的交叉验证相关系数。

8.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(3)中UDOLMOCV的统计参数和RMSEV^UDOLMOCV用于衡量QSAR模型的预测能力，而

与STDRMSEV^UDOLMOCV则分别表征参数和RMSEV^UDOLMOCV的变异程度。

9.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(2)中因均匀设计表具有均衡分散的特点，通过均匀设计表安排的分组样本具有很强的代表性，也就是说这样得到的样本分组形式，每一种分组方案都代表了一种样本分布；因此通过均匀设计表分组方式，充分考虑了样本分布的代表性，得到的结论就有很强的代表性，其表现在

一股比留一法交互验证和经典的留多法交互验证以及Monte Carlo交互验证法所获得的相关系数q²的标准差大；而且如果存在结构域不一致或机理域不同的样本，则

会低于阈值0.60，且

会变大。

10.根据权利要求1～4中任一项所述的新型有机污染物定量结构活性相关模型抽多法交互验证方法，其特征在于步骤(2)中运用

作为变量筛选方法的终止标准，会减少进入模型的变量数，从而降低模型噪音。