CN107194202A - 过渡金属保护人体健康水质基准的非致癌EDs预测方法 - Google Patents
过渡金属保护人体健康水质基准的非致癌EDs预测方法 Download PDFInfo
- Publication number
- CN107194202A CN107194202A CN201710617090.2A CN201710617090A CN107194202A CN 107194202 A CN107194202 A CN 107194202A CN 201710617090 A CN201710617090 A CN 201710617090A CN 107194202 A CN107194202 A CN 107194202A
- Authority
- CN
- China
- Prior art keywords
- metal
- metalloid
- eds
- values
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
Landscapes
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及过渡金属非致癌EDs的预测技术,具体公开了过渡金属保护人体健康水质基准的非致癌生物效应剂量的预测方法,该方法包括S1、数据选择,S2、聚类分析,S3、QSARs建模,S4、内部验证,拟合优度和稳健性检验,S5、外部验证和预测能力确定,S6、判别分析,S7、最优预测空间的评价。本发明对人体健康效应剂量与金属或类金属的理化性质之间的关系进行分析,利用QSARs方法对公布人体健康EDs值的25种金属/类金属进行分类及拟合,以对其他金属或类金属的人体健康EDs值预测,为保护人体健康的水质基准制定和风险评估提供参考依据。
Description
技术领域
本发明涉及过渡金属非致癌EDs的预测技术,具体涉及过渡金属保护人体健康水质基准的非致癌生物效应剂量的预测方法。
背景技术
USEPA在2000年首次颁布了人体健康水质基准指南《推导保护人体健康水质基准方法学》,并首次系统地介绍了人体健康基准基本的理论与方法。指南中针对不同污染物,分别设定了两类毒性效应终点,即致癌和非致癌效应终点。对于非致癌效应来说,毒性的效应阈值的表征方法有三种:无观察有害效应水平(No-observed-adverse-effectlevel,NOAEL)、最低观察有害效应水平(Lowest-observed-adverse-effectlevel,LOAEL)和基准剂量(benchmarkdoselevel,BMDL)。NOAEL是指受试物在一定时间内,按一定方式与机体接触,用灵敏的现代检测方法和观察指标未发现有害作用的最高剂量。LOAEL是指在规定的试验条件下,受试样品引起实验动物形态、功能、生长发育等发生有害改变的最低染毒剂量或浓度。传统上,主要由实验得到NOAEL和LOAEL。BMD是指相对于背景值来说,产生指定有害效应发生率的物质的剂量或浓度。包括NOAEL、LOAEL、BMD等都是基于科学实验的动物毒性数据或者可接受范围内的人体流行病学临床实验数据,这里统一称为关键效应剂量水平值(Criticaleffectdoselevel),简称为效应剂量(Effectdoses,EDs)。
保护人体健康的非致癌效应水质基准值主要是基于EDs值,并使用不确定因子或者变异因子得到参考剂量值(ReferenceDoses,RfDs),从而推导保护人体健康非致癌效应水质基准值。因此,EDs值的确定是推导保护人体健康基准过程中的关键步骤。EDs值可以直接地表明单个元素对实验动物健康、临床医学或者流行病学调查中人类健康的影响。同时,最小风险水平值的NOAEL和BMD值一定程度上补充了数据的来源并验证了数据的可靠性。所以经常会直接采用EDs值作为阈值来评价元素对人体健康的影响。
目前,已知的金属或类金属人体健康基准EDs值有25种金属或类金属,其中包含12种优先控制污染物和13种非优先控制污染物,还有60余种金属没有EDs值。传统上,通过标准化的动物实验测试手段,是目前获得EDs值和进行人体健康风险评估的唯一手段。但是,用于基准推导的大量动物毒理实验或者可接受范围内的人体流行病学临床实验需要耗费大量人力,物力、财力和时间,并且复杂生物体系中金属或类金属的形态难于被准确测定,因此极大地阻碍了金属保护人体健康水质基准研究的发展,这也是大量金属或类金属没有EDs值和对应的RfDs参考值的主要原因。另外,大部分镧系和锕系金属本来地壳含量就很少、毒性也较大,并不适宜进行临床实验;放射性元素也会造成化学品污染,不符合环境保护的初衷。但是对金属或类金属对人体健康潜在不良影响的研究十分依赖毒性终点EDs值。因此,尝试建立不依赖于实验测定的能够预测EDs值的数学模型,将有助于金属保护人体健康水质基准的研究。美国有毒物质和疾病登记处(AgencyforToxicSubstancesandDiseaseRegistry,ATSDR)已经开始开发和应用先进的计算模型来增强传统毒理学方法与多级跨外推
(cross-extrapolation)技术。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供过渡金属保护人体健康水质基准的非致癌EDs预测方法。
本发明的技术方案为:过渡金属保护人体健康水质基准的非致癌EDs预测方法,包括以下步骤:
S1、数据选择
从数据库中获取25种金属/类金属元素的健康阈值,所述数据库包括(a)USEPA的综合风险信息系统(IRIS);(b)临时同行评议毒性值(PPRTV);(c)其他毒性值,包括有毒物质和疾病登记署(ATSDR)得出的最小风险水平(MRL),加利福尼亚州环保局(CalEPA)毒性值以及USEPA健康效应评估总结表(Health effects assessment summary table,HEAST);
将25种金属/类金属划分为训练集和验证集,以建立有验证的模型;
其中,数据划分的标准为:(1)选择较早发布的、理化参数齐全的金属/类金属作为训练集;(2)训练集和验证集都选择不同族的元素;S2、聚类分析
(1)将金属/类金属健康阈值数据按公式1进行标准化变换,
其中,代表标准化变换后的i金属/类金属的j理化性质的值,xij代表标准化变换前的i金属/类金属的j理化性质的值,代表所有样本金属/类金属的j理化性质的平均值,sj代表所有样本金属/类金属的j理化性质的标准差;
(2)聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理;
采用R型聚类分析处理金属/类金属的理化参数,寻找出与EDs值关系最密切的理化性质参数,再根据得到的理化性质参数,利用Q型聚类分析对25种金属/类金属EDs值进行分类,即采用聚类分析方法里的最短距离(欧氏距离)法分类;
(3)使用统计软件进行聚类分析;
S3、QSARs建模
(1)分析金属/类金属的理化参数与所述数据库中的EDs之间的相关关系,即以选定的结构参数为自变量,EDs为因变量,作pearson相关系数检验,得到变量间的线性相关程度;
对满足P值小于0.1的条件的参数进一步做线性拟合构建生物的金属/类金属理化性质-效应剂量(EDs)关系模型(Physicochemical Properties-EDs Relationships,PPER),得到决定系数R2;
(2)利用R型聚类分析后得到的与EDs值关系最密切的理化性质参数,分别同Q型聚类分析得到不同的金属/类金属类进行线性拟合,建立多组PPER模型;
根据决定系数R2和P值,选择拟合度高的一类QSARs建模,进行内部和外部验证;
(3)使用统计软件进行数据处理与模型构建;
S4、内部验证,拟合优度和稳健性检验
(1)内部验证采用残差标准误RSE、R2、F统计量和调整过的R2四种统计量描述参数模型的拟合程度;R2和RSE的计算公式如公式2和公式3所示;
其中,yi是第i种金属/类金属的EDs值,是第i种金属/类金属的预测EDs值,n是训练集的金属/类金属个数;
当模型拥有最小RSE值和最大R2的模型被认为是最佳模型;
(2)采用k折交叉验证法检验模型的稳健性;
交叉验证计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数Q2 cv及交叉验证均方根误差(RMSECV)评价模型内部预测能力;
(3)使用统计软件进行统计分析;
S5、外部验证和预测能力确定
(1)利用具有验证集来对模型进行验证,该验证集的预测值可以和观测值相比较;
(2)使用外部验证的决定系数Q2 ext和预测的均方根误差RSEext对模型外部预测能力进行评价;采用公式4和公式5计算外部验证的决定系数Q2 ext和预测的均方根误差RSEext;
其中,是第j种验证集(V)金属/类金属的EDs观测值,是第j种验证集(V)金属/类金属的EDs预测值,是训练集(T)EDs观测值的平均值,m是验证集的金属/类金属个数;
(3)使用统计软件进行统计分析;
S6、判别分析
利用对训练集的样本得到的聚类结果,选择Fisher判别法对验证集的样本分类,随后进行预测;
利用Q型聚类分析的结果作为归类规则,判别验证集中各金属/类金属的分类,并计算误判率以说明判别结果的准确性;
使用统计软件进行判别分析;
S7、最优预测空间的评价
使用William plot验证最优预测空间;
William plot是指文献(Jaworska J,Nikolova-Jeliazkova N,AldenbergT.QSAR applicability domain estimation by projection of the training setdescriptor space:a review[J].Atal-Nottingham,2005,33(5):445.)中的方法,具体是指横坐标为模型中样本的杠杆值,纵坐标为模型中样本的标准残差值的图;
利用公式6计算杠杆值hij,利用公式7计算hi *;如果hij超过hi *,则说明该金属/类金属的EDs值超出最优预测空间;
其中,hij是指第i类第j个金属/类金属的杠杆值,xij代表QSARs模型中第i类第j个金属/类金属的理化性质值排列成一行的行向量,代表xijX的转置向量,X代表xij的逆向量,XT代表X的转置向量,hi *代表第i类所有金属/类金属不超出最优预测空间的杠杆值最大值;pi是第i类QSARs模型中使用的变量个数,ni是第i类训练集的样本个数;
使用统计软件进行统计分析。
进一步的,所述数据库为IRIS、ATSDR和PPRTV。
进一步地,所述数据划分标准还包括:(3)所述训练集和验证集选择涵盖所述三大数据来源。
进一步地,所述理化参数包括以下31种:原子序数、相对原子质量、原子半径、离子半径、离子电荷、电离势变化、软指数、最大稳定常数、电化学势、第一水解常数、电负性、电荷密度、原子的离子能量、熔点、沸点、形成气态原子的焓、氧化能、电离势、密度、VDW半径、共价半径、热熔J/g K、热熔J/g mol、电负性kM/P、共价常数、相对柔软度、极化力参数一、极化力参数二、、极化力参数三、类极化力参数一和类极化力参数二。金属或类金属可使用的理化参数很多,本申请优选了以上31种。
通过对金属/类金属健康阈值数据进行标准化变换,使不同量纲,不同取值范围的数据能放在一起进行比较,变换后每个变量的样本均值为0,标准差为1,而且标准化变换后的数据与变量的量纲无关。
R型聚类分析可以了解变量间及变量组合间的亲疏关系,对变量分类后,根据分类结果及它们之间的关系,利用少数几个重要变量进一步作分析计算,如回归分析和Q型聚类分析。Q型聚类分析可以对样品分类,找到有相同“特征”的金属/类金属。
进一步地,所述聚类分析的软件为SAS、MATLAB和开源和免费的R语言软件中的一种。
进一步地,所述稳健性检验还包括采用y随机化方法验证模型的稳定性。采用y随机化方法检验因变量和自变量之间的偶然相关;以防止建模的训练集数据较多,而可能出现过度拟合和偶然相关。
在y随机化验证中,因变量y被随机排序并使用原始自变量x建立新的模型,该过程重复25次,可以期望,产生的QSARs模型通常应该具有低的y随机化相关系数R2 yrand和低的k折交叉验证y随机化Q2化的Q2 yrand值。如果y随机化得到的所有模型都具有高的R2 yrand和Q2 yrand值,那么意味着对于给定的数据集,用当前的建模方法不可能得到一个可接受的QSARs模型。
本发明对人体健康效应剂量与金属或类金属的理化性质之间的关系进行了探索,利用QSARs方法对公布人体健康EDs值的25种金属/类金属进行分类及拟合,以对其他金属或类金属的人体健康EDs值预测,为保护人体健康的水质基准制定和风险评估提供参考依据。
具体实施方式
实施例1
过渡金属保护人体健康水质基准的非致癌EDs预测方法,包括以下步骤:
S1、数据选择
一般地,如果存在毒物对人类直接造成毒性效应的相关数据或信息,则优先选用,不过这些数据或信息主要用于定性评估毒物对暴露人群的有害效应,动物毒性数据作为补充信息。但是如果选择了恰当的效应终点,直接有关人类研究的毒性数据包括流行病学的研究数据也可以用于剂量-效应的评估过程,这样就避免了从动物到人类毒性效应当量剂量的一个推断过程。
从数据库(a)USEPA的综合风险信息系统(IRIS);(b)临时同行评议毒性值(PPRTV);(c)其他毒性值,包括有毒物质和疾病登记署(ATSDR)得出的最小风险水平(MRL),加利福尼亚州环保局(CalEPA)毒性值以及USEPA健康效应评估总结表(Health effectsassessment summary table,HEAST)中获取25种金属/类金属元素的健康阈值;
所得健康阈值大多数是基于小鼠、大鼠、狗、兔子和猪等动物实验,也有部分来源于人体实验、临床医学研究、流行病学以及地方性疾病的调查研究,毒物动力学的模型在获取健康阈值的过程中也有重要应用:(a)动物实验所基于的暴露途径基本都是口,通过饮食或饮水暴露,两类数据都有的情况下取其中较小的值;(b)暴露时间满足慢性毒性实验或者亚慢性毒性实验要求。(c)一般采取元素的可溶性无机物形式,比如氯化物或者硫酸盐形式,并且基本控制了非研究元素之外的离子对受试动物的毒性效应,将获得的数据结果换算成金属元素的当量值。(d)对于多种价态的元素,考虑人类容易接触并且毒性最强的价态对受试动物的毒性效应值。(e)个别数据来源于临床医学结果或者人体实验,人体实验主要是针对毒性不强的元素(例如锌)征集志愿者做相关实验。(f)流行病学调查主要针对长期暴露某种污染物的人群进行健康水平追踪。(g)地方性疾病研究主要针对某元素地方浓度较高的地区进行的人体取样调查或实验,例如关于碘的研究。
所述数据优选从数据库Integrated Risk Information System(IRIS)、Agencyfor Toxic Substances and Disease Registry(ATSDR)、Provisional Peer-ReviewedToxicity Value(PPRTV)三大数据库中获取25种金属/类金属元素的健康阈值;
将25种金属/类金属划分为训练集和验证集,建立有验证的模型;其中,数据划分的标准为:(1)选择较早发布的、31种理化参数齐全的金属/类金属作为训练集;(2)训练集和验证集都选择不同族的元素;(3)所述训练集和验证集选择涵盖所述IRIS、ATSDR和PPRTV三大数据来源。表1给出了训练集与验证集的EDs值、来源及实验对象。
其中,31种理化参数是指原子序数、相对原子质量、原子半径、离子半径、离子电荷、电离势变化、软指数、最大稳定常数、电化学势、第一水解常数、电负性、电荷密度、原子的离子能量、熔点、沸点、形成气态原子的焓、氧化能、电离势、密度、VDW半径、共价半径、热熔J/g K、热熔J/g mol、电负性kM/P、共价常数、相对柔软度、极化力参数一、极化力参数二、、极化力参数三、类极化力参数一和类极化力参数二。
表1.训练集与验证集的EDs值、来源及实验对象
S2、聚类分析
(1)将金属/类金属健康阈值数据按公式1进行标准化变换,通过对健康阈值数据进行标准化变换,使不同量纲,不同取值范围的数据能放在一起进行比较,变换后每个变量的样本均值为0,标准差为1,而且标准化变换后的数据与变量的量纲无关。
(2)聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理;
R型聚类分析可以了解变量间及变量组合间的亲疏关系,对变量分类后,根据分类结果及它们之间的关系,利用少数几个重要变量进一步作分析计算,如回归分析和Q型聚类分析。Q型聚类分析可以对样品分类,找到有相同“特征”的金属/类金属;
采用R型聚类分析处理31种金属/类金属理化参数,寻找出与EDs值关系最密切的理化性质参数,再根据得到的理化性质参数,利用Q型聚类分析对25种金属/类金属EDs值进行分类,即采用聚类分析方法里的最短距离(欧氏距离)法分类;
(3)使用R 3.1.2软件进行聚类分析;
S3、QSARs建模
(1)分析31种理化参数与数据库中的EDs之间的相关关系,即以选定的结构参数为自变量,EDs为因变量,作pearson相关系数检验,得到变量间的线性相关程度;
对满足P值小于0.1的条件的参数进一步做线性拟合构建生物的金属/类金属理化性质-效应剂量(EDs)关系模型(Physicochemical Properties-EDs Relationships,PPER),得到决定系数R2;
(2)利用R型聚类分析后得到的与EDs值关系最密切的理化性质参数,分别同Q型聚类分析得到不同金属/类金属类进行线性拟合,建立多组PPER模型;
根据决定系数R2和P值,优先选择拟合度高的一类QSARs建模,进行内部和外部验证;
(3)使用R 3.1.2软件进行数据处理与模型构建;
S4、内部验证,拟合优度和稳健性检验
(1)内部验证采用残差标准误RSE、R2、F统计量和调整过的R2四种统计量描述参数模型的拟合程度;R2和RSE的计算公式如公式2和公式3所示;
其中,yi是第i种金属/类金属的EDs值,是第i种金属/类金属的预测EDs值,n是训练集的金属/类金属个数;
当模型拥有最小RSE值和最大R2的模型被认为是最佳模型;
(2)采用k折交叉验证法检验模型的稳健性;
交叉验证计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数Q2 cv及交叉验证均方根误差(RMSECV)以评价模型内部预测能力;
稳健性检验还包括采用y随机化方法验证模型的稳定性。采用y随机化方法检验因变量和自变量之间的偶然相关;以防止建模的训练集数据较多,而可能出现过度拟合和偶然相关。
在y随机化验证中,因变量y被随机排序并使用原始自变量x建立新的模型,该过程重复25次,可以期望,产生的QSARs模型通常应该具有低的y随机化相关系数R2 yrand和低的k折交叉验证y随机化Q2化的Q2 yrand值。如果y随机化得到的所有模型都具有高的R2 yrand和Q2 yrand值,那么意味着对于给定的数据集,用当前的建模方法不可能得到一个可接受的QSARs模型。
(3)使用R 3.1.2软件进行统计分析;
S5、外部验证和预测能力确定
(1)利用验证集来对模型进行验证,该验证集的预测值可以和观测值相比较;
(2)使用外部验证的决定系数Q2 ext和预测的均方根误差RSEext对模型外部预测能力进行评价;采用公式4和公式5计算外部验证的决定系数Q2 ext和预测的均方根误差的RSEext;
其中,是第j种验证集(V)金属/类金属的EDs观测值,是第j种验证集(V)金属/类金属的EDs预测值,是训练集(T)EDs观测值的平均值,m是验证集的金属/类金属个数;
(3)使用R 3.1.2软件进行统计分析;
S6、判别分析
利用对训练集的样本得到的聚类结果,选择Fisher判别法对验证集的样本分类,随后进行预测;
利用Q型聚类分析的结果作为归类规则,判别验证集中各金属/类金属的分类,并计算误判率以说明判别结果的准确性;
使用R 3.1.2软件进行判别分析;
S7、最优预测空间的评价
使用William plot验证最优预测空间;
利用公式6计算杠杆值hij,利用公式7计算hi *;其中,hij是指第i类第j个金属/类金属的杠杆值,xij是行向量,如果hij超过hi *,则说明该金属/类金属的EDs值超出最优预测空间;
其中,hij是指第i类第j个金属/类金属的杠杆值,xij代表QSARs模型中第i类第j个金属/类金属的理化性质值排列成一行的行向量,代表xijX的转置向量,X代表xij的逆向量,XT代表X的转置向量,hi *代表第i类所有金属/类金属不超出最优预测空间的杠杆值最大值;pi是第i类QSARs模型中使用的变量个数,ni是第i类训练集的样本个数;
使用R 3.1.2软件进行统计分析。
过渡金属保护人体健康水质基准的非致癌EDs预测结果见表2。
表2.过渡金属保护人体健康水质基准的非致癌EDs预测结果
实施例2
过渡金属保护人体健康水质基准的非致癌EDs预测方法,包括以下步骤:
S1、数据选择
从数据库中获取25种金属/类金属元素的健康阈值,所述数据库包括(a)USEPA的综合风险信息系统(IRIS);(b)临时同行评议毒性值(PPRTV);(c)其他毒性值,包括有毒物质和疾病登记署(ATSDR)得出的最小风险水平(MRL),加利福尼亚州环保局(CalEPA)毒性值以及USEPA健康效应评估总结表(Health effects assessment summary table,HEAST);
将25种金属/类金属划分为训练集和验证集,以建立有验证的模型;
其中,数据划分的标准为:(1)选择较早发布的、理化参数齐全的金属/类金属作为训练集;(2)训练集和验证集都选择不同族的元素;
S2、聚类分析
(1)将金属/类金属健康阈值数据按公式1进行标准化变换,
其中,代表标准化变换后的i金属/类金属的j理经性质的值,xij代表标准化变换前的i金属/类金属的j理化性质的值,代表所有样本金属/类金属的j理化性质的平均值,sj代表所有样本金属/类金属的j理化性质的标准差;
(2)聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理;
采用R型聚类分析处理金属/类金属的理化参数,寻找出与EDs值关系最密切的理化性质参数,再根据得到的理化性质参数,利用Q型聚类分析对25种金属/类金属EDs值进行分类,即采用聚类分析方法里的最短距离(欧氏距离)法分类;
(3)使用统计软件进行聚类分析;
S3、QSARs建模
(1)分析金属/类金属的理化参数与所述数据库中的EDs之间的相关关系,即以选定的结构参数为自变量,EDs为因变量,作pearson相关系数检验,得到变量间的线性相关程度;
对满足P值小于0.1的条件的参数进一步做线性拟合构建生物的金属/类金属理化性质-效应剂量(EDs)关系模型(Physicochemical Properties-EDs Relationships,PPER),得到决定系数R2;
(2)利用R型聚类分析后得到的与EDs值关系最密切的理化性质参数,分别同Q型聚类分析得到不同的金属/类金属类进行线性拟合,建立多组PPER模型;
根据决定系数R2和P值,选择拟合度高的一类QSARs建模,进行内部和外部验证;
(3)使用统计软件进行数据处理与模型构建;
S4、内部验证,拟合优度和稳健性检验
(1)内部验证采用残差标准误RSE、R2、F统计量和调整过的R2四种统计量描述参数模型的拟合程度;R2和RSE的计算公式如公式2和公式3所示;
其中,yi是第i种金属/类金属的EDs值,是第i种金属/类金属的预测EDs值,n是训练集的金属/类金属个数;
当模型拥有最小RSE值和最大R2的模型被认为是最佳模型;
(2)采用k折交叉验证法检验模型的稳健性;
交叉验证计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数Q2 cv及交叉验证均方根误差(RMSECV)评价模型内部预测能力;
(3)使用统计软件进行统计分析;
S5、外部验证和预测能力确定
(1)利用具有验证集来对模型进行验证,该验证集的预测值可以和观测值相比较;
(2)使用外部验证的决定系数Q2 ext和预测的均方根误差RSEext对模型外部预测能力进行评价;采用公式4和公式5计算外部验证的决定系数Q2 ext和预测的均方根误差RSEext;
其中,是第j种验证集(V)金属/类金属的EDs观测值,是第j种验证集(V)金属/类金属的EDs预测值,是训练集(T)EDs观测值的平均值,m是验证集的金属/类金属个数;
(3)使用统计软件进行统计分析;
S6、判别分析
利用对训练集的样本得到的聚类结果,选择Fisher判别法对验证集的样本分类,随后进行预测;
利用Q型聚类分析的结果作为归类规则,判别验证集中各金属/类金属的分类,并计算误判率以说明判别结果的准确性;
使用统计软件进行判别分析;
S7、最优预测空间的评价
使用William plot验证最优预测空间;
William plot是指文献(Jaworska J,Nikolova-Jeliazkova N,AldenbergT.QSAR applicability domain estimation by projection of the training setdescriptor space:a review[J].Atal-Nottingham,2005,33(5):445.)中的方法,具体是指横坐标为模型中样本的杠杆值,纵坐标为模型中样本的标准残差值的图;
利用公式6计算杠杆值hij,利用公式7计算hi *;如果hij超过hi *,则说明该金属/类金属的EDs值超出最优预测空间;
其中,hij是指第i类第j个金属/类金属的杠杆值,xij代表QSARs模型中第i类第j个金属/类金属的理化性质值排列成一行的行向量,代表xijX的转置向量,X代表xij的逆向量,XT代表X的转置向量,hi *代表第i类所有金属/类金属不超出最优预测空间的杠杆值最大值;pi是第i类QSARs模型中使用的变量个数,ni是第i类训练集的样本个数;
使用统计软件进行统计分析。
实施例3
过渡金属保护人体健康水质基准的非致癌EDs预测方法,包括以下步骤:
S1、数据选择
从数据库中获取25种金属/类金属元素的健康阈值,所述数据库为IRIS、ATSDR和PPRTV。
将25种金属/类金属划分为训练集和验证集,以建立有验证的模型;
其中,数据划分的标准为:(1)选择较早发布的、理化参数齐全的金属/类金属作为训练集;(2)训练集和验证集都选择不同族的元素;(3)所述训练集和验证集选择涵盖所述IRIS、ATSDR和PPRTV三大数据库来源;
S2、聚类分析
(1)将金属/类金属健康阈值数据按公式1进行标准化变换,
其中,代表标准化变换后的i金属/类金属的j理化性质的值,xij代表标准化变换前的i金属/类金属的j理化性质的值,代表所有样本金属/类金属的j理化性质的平均值,sj代表所有样本金属/类金属的j理化性质的标准差;
(2)聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理;
采用R型聚类分析处理金属/类金属的理化参数,寻找出与EDs值关系最密切的理化性质参数,再根据得到的理化性质参数,利用Q型聚类分析对25种金属/类金属EDs值进行分类,即采用聚类分析方法里的最短距离(欧氏距离)法分类;
(3)使用SAS软件进行聚类分析;
S3、QSARs建模
(1)分析金属/类金属的理化参数与所述数据库中的EDs之间的相关关系,即以选定的结构参数为自变量,EDs为因变量,作pearson相关系数检验,得到变量间的线性相关程度;
对满足P值小于0.1的条件的参数进一步做线性拟合构建生物的金属/类金属理化性质-效应剂量(EDs)关系模型(Physicochemical Properties-EDs Relationships,PPER),得到决定系数R2;
(2)利用R型聚类分析后得到的与EDs值关系最密切的理化性质参数,分别同Q型聚类分析得到不同的金属/类金属类进行线性拟合,建立多组PPER模型;
根据决定系数R2和P值,选择拟合度高的一类QSARs建模,进行内部和外部验证;
(3)使用SAS软件进行数据处理与模型构建;
S4、内部验证,拟合优度和稳健性检验
(1)内部验证采用残差标准误RSE、R2、F统计量和调整过的R2四种统计量描述参数模型的拟合程度;R2和RSE的计算公式如公式2和公式3所示;
其中,yi是第i种金属/类金属的EDs值,是第i种金属/类金属的预测EDs值,n是训练集的金属/类金属个数;
当模型拥有最小RSE值和最大R2的模型被认为是最佳模型;
(2)采用k折交叉验证法检验模型的稳健性;
交叉验证计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数Q2 cv及交叉验证均方根误差(RMSECV)评价模型内部预测能力;
稳健性检验还包括采用y随机化方法验证模型的稳定性;采用y随机化方法检验因变量和自变量之间的偶然相关;以防止建模的训练集数据较多,而可能出现过度拟合和偶然相关;
(3)使用SAS软件进行统计分析;
S5、外部验证和预测能力确定
(1)利用具有验证集来对模型进行验证,该验证集的预测值可以和观测值相比较;
(2)使用外部验证的决定系数Q2 ext和预测的均方根误差RSEext对模型外部预测能力进行评价;采用公式4和公式5计算外部验证的决定系数Q2 ext和预测的均方根误差RSEext;
其中,是第j种验证集(V)金属/类金属的EDs观测值,是第j种验证集(V)金属/类金属的EDs预测值,是训练集(T)EDs观测值的平均值,m是验证集的金属/类金属个数;
(3)使用SAS软件进行统计分析;
S6、判别分析
利用对训练集的样本得到的聚类结果,选择Fisher判别法对验证集的样本分类,随后进行预测;
利用Q型聚类分析的结果作为归类规则,判别验证集中各金属/类金属的分类,并计算误判率以说明判别结果的准确性;
使用SAS软件进行判别分析;
S7、最优预测空间的评价
使用William plot验证最优预测空间;
William plot是指文献(Jaworska J,Nikolova-Jeliazkova N,AldenbergT.QSAR applicability domain estimation by projection of the training setdescriptor space:a review[J].Atal-Nottingham,2005,33(5):445.)中的方法,具体是指横坐标为模型中样本的杠杆值,纵坐标为模型中样本的标准残差值的图;
利用公式6计算杠杆值hij,利用公式7计算hi *;如果hij超过hi *,则说明该金属/类金属的EDs值超出最优预测空间;
其中,hij是指第i类第j个金属/类金属的杠杆值,xij代表QSARs模型中第i类第j个金属/类金属的理化性质值排列成一行的行向量,代表xijX的转置向量,X代表xij的逆向量,XT代表X的转置向量,hi *代表第i类所有金属/类金属不超出最优预测空间的杠杆值最大值;pi是第i类QSARs模型中使用的变量个数,ni是第i类训练集的样本个数;
使用SAS软件进行统计分析。
上述详细说明是针对本发明其中之一可行实施例的具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本发明技术方案的范围内。
Claims (5)
1.过渡金属保护人体健康水质基准的非致癌EDs预测方法,包括以下步骤:
S1、数据选择
从数据库中获取25种金属/类金属元素的健康阈值,所述数据库包括(a)USEPA的综合风险信息系统IRIS;(b)临时同行评议毒性值PPRTV;(c)其他毒性值,包括有毒物质和疾病登记署ATSDR得出的最小风险水平MRL,加利福尼亚州环保局CalEPA毒性值以及USEPA健康效应评估总结表HEAST;
将25种金属/类金属划分为训练集和验证集,以建立有验证的模型;
其中,数据划分的标准为:(1)选择较早发布的、理化参数齐全的金属/类金属作为训练集;(2)训练集和验证集都选择不同族的元素;
S2、聚类分析
(1)将金属/类金属健康阈值数据按公式1进行标准化变换,
其中,代表标准化变换后的i金属/类金属的j理化性质的值,xij代表标准化变换前的i金属/类金属的j理化性质的值,代表所有样本金属/类金属的j理化性质的平均值,sj代表所有样本金属/类金属的j理化性质的标准差;
(2)聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量进行分类处理,Q型是对样品进行分类处理;
采用R型聚类分析处理金属/类金属的理化参数,寻找出与EDs值关系最密切的理化性质参数,再根据得到的理化性质参数,利用Q型聚类分析对25种金属/类金属EDs值进行分类,即采用聚类分析方法里的最短距离法分类;
(3)使用统计软件进行聚类分析;
S3、QSARs建模
(1)分析金属/类金属的理化参数与所述数据库中的EDs之间的相关关系,即以选定的结构参数为自变量,EDs为因变量,作pearson相关系数检验,得到变量间的线性相关程度;
对满足P值小于0.1的条件的参数做线性拟合构建生物的金属/类金属理化性质-效应剂量关系模型,得到决定系数R2;
(2)利用R型聚类分析后得到的与EDs值关系最密切的理化性质参数,分别同Q型聚类分析得到不同的金属/类金属类进行线性拟合,建立多组PPER模型;
根据决定系数R2和P值,选择拟合度高的一类QSARs建模,进行内部和外部验证;
(3)使用统计软件进行数据处理与模型构建;
S4、内部验证,拟合优度和稳健性检验
(1)内部验证采用残差标准误RSE、R2、F统计量和调整过的R2四种统计量描述参数模型的拟合程度;R2和RSE的计算公式如公式2和公式3所示;
其中,yi是第i种金属/类金属的EDs值,是第i种金属/类金属的预测EDs值,n是训练集的金属/类金属个数;
当模型拥有最小RSE值和最大R2的模型被认为是最佳模型;
(2)采用k折交叉验证法检验模型的稳健性;
交叉验证计算因变量预测值与原抽出样本的因变量的观测值yi之间的相关系数Q2 cv及交叉验证均方根误差评价模型内部预测能力;
(3)使用统计软件进行统计分析;
S5、外部验证和预测能力确定
(1)利用验证集来对模型进行验证,该验证集的预测值可以和观测值相比较;
(2)使用外部验证的决定系数Q2 ext和预测的均方根误差RSEext对模型外部预测能力进行评价;采用公式4和公式5计算外部验证的决定系数Q2 ext和预测的均方根误差RSEext;
其中,是第j种验证集金属/类金属的EDs观测值,是第j种验证集金属/类金属的EDs预测值,是训练集EDs观测值的平均值,m是验证集的金属/类金属个数;
(3)使用统计软件进行统计分析;
S6、判别分析
利用对训练集的样本得到的聚类结果,选择Fisher判别法对验证集的样本分类,随后进行预测;
利用Q型聚类分析的结果作为归类规则,判别验证集中各金属/类金属的分类,并计算误判率以说明判别结果的准确性;
使用统计软件进行判别分析;
S7、最优预测空间的评价
使用William plot验证最优预测空间;
利用公式6计算杠杆值hij,利用公式7计算hi *;如果hij超过hi *,则说明该金属/类金属的EDs值超出最优预测空间;
其中,hij是指第i类第j个金属/类金属的杠杆值,xij代表QSARs模型中第i类第j个金属/类金属的理化性质值排列成一行的行向量,代表xijX的转置向量,X代表xij的逆向量,XT代表X的转置向量,hi *代表第i类所有金属/类金属不超出最优预测空间的杠杆值最大值;pi是第i类QSARs模型中使用的变量个数,ni是第i类训练集的样本个数;
使用统计软件进行统计分析。
2.根据权利要求1所述的预测方法,其特征在于,所述数据库为IRIS、ATSDR和PPRTV。
3.根据权利要求1所述的预测方法,其特征在于,所述数据划分标准还包括:(3)所述训练集和验证集选择涵盖所述IRIS、ATSDR和PPRTV三大数据库来源。
4.根据权利要求1所述的预测方法,其特征在于,所述理化参数包括以下31种:原子序数、相对原子质量、原子半径、离子半径、离子电荷、电离势变化、软指数、最大稳定常数、电化学势、第一水解常数、电负性、电荷密度、原子的离子能量、熔点、沸点、形成气态原子的焓、氧化能、电离势、密度、VDW半径、共价半径、热熔J/g K、热熔J/g mol、电负性kM/P、共价常数、相对柔软度、极化力参数一、极化力参数二、极化力参数三、类极化力参数一和类极化力参数二。
5.根据权利要求1-4任一项所述的预测方法,其特征在于,所述稳健性检验还包括采用y随机化方法验证模型的稳定性;采用y随机化方法检验因变量和自变量之间的偶然相关;以防止建模的训练集数据较多,而可能出现过度拟合和偶然相关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710617090.2A CN107194202B (zh) | 2017-07-26 | 2017-07-26 | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710617090.2A CN107194202B (zh) | 2017-07-26 | 2017-07-26 | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107194202A true CN107194202A (zh) | 2017-09-22 |
CN107194202B CN107194202B (zh) | 2018-06-19 |
Family
ID=59884187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710617090.2A Active CN107194202B (zh) | 2017-07-26 | 2017-07-26 | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107194202B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231633A (zh) * | 2020-10-13 | 2021-01-15 | 中国环境科学研究院 | 一种人体健康水质基准特征参数的确定方法及其应用 |
CN112763382A (zh) * | 2021-01-11 | 2021-05-07 | 南京信息工程大学 | 一种金属纳米粒子联合毒性的定量预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005010024A2 (en) * | 2003-07-22 | 2005-02-03 | Science & Technology Corporation @ Unm | Potent peptide inhibitors and methods of use |
CN105447248A (zh) * | 2015-11-24 | 2016-03-30 | 中国环境科学研究院 | 基于金属定量构效关系的海水急性基准预测方法 |
-
2017
- 2017-07-26 CN CN201710617090.2A patent/CN107194202B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005010024A2 (en) * | 2003-07-22 | 2005-02-03 | Science & Technology Corporation @ Unm | Potent peptide inhibitors and methods of use |
CN105447248A (zh) * | 2015-11-24 | 2016-03-30 | 中国环境科学研究院 | 基于金属定量构效关系的海水急性基准预测方法 |
Non-Patent Citations (3)
Title |
---|
刘静: "金属健康阈值及其理化性质和背景含量之间的关系研究", 《中国优秀硕士学位论文全文数据库-工程科技I辑》 * |
吴秀超: "基于密度泛函理论和QSAR方法研究有机物降解机制、急性毒性及致癌性", 《中国博士学位论文全文数据库-工程科技I辑》 * |
张水珍: "基于BP神经网络与主成分分析的流域水质评价-以嘉善重点流域为例", 《中国优秀硕士学位论文全文数据库-工程科技I辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231633A (zh) * | 2020-10-13 | 2021-01-15 | 中国环境科学研究院 | 一种人体健康水质基准特征参数的确定方法及其应用 |
CN112763382A (zh) * | 2021-01-11 | 2021-05-07 | 南京信息工程大学 | 一种金属纳米粒子联合毒性的定量预测方法 |
CN112763382B (zh) * | 2021-01-11 | 2022-03-15 | 南京信息工程大学 | 一种金属纳米粒子联合毒性的定量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107194202B (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899458B (zh) | 评价纳米金属氧化物健康效应的qsar毒性预测方法 | |
Hristozov et al. | A weight of evidence approach for hazard screening of engineered nanomaterials | |
US20170323085A1 (en) | Fresh water acute criteria prediction method based on quantitative structure-activity relationship for metals | |
Kang et al. | Making the most of spatial information in health: a tutorial in Bayesian disease mapping for areal data | |
CN107194202B (zh) | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 | |
Chen et al. | Sources and uncertainties of health risks for PM2. 5-bound heavy metals based on synchronous online and offline filter-based measurements in a Chinese megacity | |
Ebrahimi Gatgash et al. | Prioritization-based management of the watershed using health assessment analysis at sub-watershed scale | |
Fjodorova et al. | Evaluating the applicability domain in the case of classification predictive models for carcinogenicity based on the counter propagation artificial neural network | |
Pan et al. | High-throughput screening assay for the environmental water samples using cellular response profiles | |
Siontorou et al. | Error identification/propagation/remediation in biomonitoring surveys—A knowledge-based approach towards standardization via fault tree analysis | |
Alexandridis et al. | Assessing multiagent parcelization performance in the MABEL simulation model using Monte Carlo replication experiments | |
Calderhead et al. | Bayesian approaches for mechanistic ion channel modeling | |
Nishihama et al. | Optimal method for determining the intraclass correlation coefficients of urinary biomarkers such as dialkylphosphates from imputed data | |
Sexton et al. | Research to strengthen the scientific basis for health risk assessment: a survey of the context and rationale for mechanistically based methods and models | |
CN107391960B (zh) | 基于过渡金属保护水生生物水质基准的CCCs预测方法 | |
Lewandowski et al. | Dose-response assessment | |
Weichenthal et al. | Bayesian estimation of the probability of asbestos exposure from lung fiber counts | |
Moore et al. | Uncertainty analysis using classical and bayesian hierarchical models | |
Balcerowska-Czerniak et al. | Rapid assessment of surface water quality using statistical multivariate analysis approach: Oder River system case study | |
CN114565409B (zh) | 一种广告运营智能预警方法及系统 | |
O'Malley et al. | Modeling a bivariate residential‐workplace neighborhood effect when estimating the effect of proximity to fast‐food establishments on body mass index | |
Ipiña et al. | A measure of sexual dimorphism in populations which are univariate normal mixtures | |
Pollard | Development and Evaluation of Machine Learning Models for Fugitive Methane Detection and Intensity Prediction | |
Marchant | Genomics and toxic substances: Part I-Toxicogenomics | |
CN117789975A (zh) | 一种基于pmf和机器学习的水源地重金属健康风险评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |