CN105447248A - 基于金属定量构效关系的海水急性基准预测方法 - Google Patents
基于金属定量构效关系的海水急性基准预测方法 Download PDFInfo
- Publication number
- CN105447248A CN105447248A CN201510824672.9A CN201510824672A CN105447248A CN 105447248 A CN105447248 A CN 105447248A CN 201510824672 A CN201510824672 A CN 201510824672A CN 105447248 A CN105447248 A CN 105447248A
- Authority
- CN
- China
- Prior art keywords
- model
- toxicity
- metal
- sigma
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
- G06F30/36—Circuit design at the analogue level
- G06F30/367—Design verification, e.g. using simulation, simulation program with integrated circuit emphasis [SPICE], direct methods or relaxation methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于金属和类金属定量构效关系的海水水质基准预测方法,根据金属离子的结构特征与海洋生物急性毒性效应的定量关系预测未知金属的毒性终点,结合不同物种的敏感度分布分析推导保护不同比例的海洋生物的危险浓度;是综合金属理化结构参数和不同海洋生物的致毒机理建立QSAR金属毒性预测模型,并将其应用于预测未知海水水质基准最大浓度的一种方法。本发明基于生态学原理,系统筛选五门八科海洋物种作为最小生物预测集,分别构建单参数的毒性预测模型,提高模型精度和预测能力。
Description
技术领域
本发明涉及海水水质基准模型领域,尤其涉及基于金属定量构效关系的海水急性基准预测方法。
背景技术
人类的生存与发展都依赖于海洋,但随着沿海区域经济的快速发展,我国近岸海域正遭遇着日益严重的陆源重金属污染,海洋生物多样性和生态系统的平衡也正经受着严重的考验。如浙江温州的乐清湾沿海区域,化工产业以及电子拆解行业的高速发展使得浙江省6500公里长的海岸线上超过80%的海岸带受到污染,表层沉积物铜的超标率达到50%,2011年7月还出现了水生生物大规模死亡,如何建立切实可行的保护海洋生物的金属海水水质基准已成为我国海洋环境管理中亟待解决的关键问题。
自上世纪七十年代初,USEPA就开展了金属污染物的海水水质基准的研究,《清洁水法》颁布了镉,铜,汞,镍,银、锰等6种优控及非优控金属的基准值,以保护鱼和其他海洋生物的繁殖和生存。近四十年来,美国环保局根据最新科学进展对水质基准不断进行更新,相继颁布基准文件共6次。在最新的基准文件中,15种金属或类金属被列入优控污染物和非优控污染物名录,其中10种(砷,镉,铬,铜,铅,汞,镍,硒,银,锌)给出了海水水质基准最大浓度值。另外一些发达国家和地区,如欧盟、加拿大、澳大利亚、新西兰等也根据其海洋水环境污染状况,从保护水生生态系统的角度出发,结合毒理实验数据和现场环境调查资料,相继制订了金属类污染物保护海洋生态系统的水质基准值,并且形成了较为系统的水质基准研究体系。而我国的海洋环境质量基准研究尚处于起步阶段,正在国外水质基准研究方法的基础上摸索前进,目前仅有一些零星的关于金属海水水质基准的研究,究其原因主要是社会对海洋生态系统重视不够,对海洋物种的实验室培养繁殖技术、毒性测试标准方法的研究也相对较少,海洋生物的实验数据,尤其是脊椎动物的毒性数据严重匮乏,相对于淡水生态系统,海洋生态系统拥有更丰富的生物种类,很多种类的生物,如棘皮类,只能在海洋环境中存活,但就目前已有的研究成果,海洋生物的毒性数据要远远少于淡水生物,这些都给我国海水水质基准的制订带来了极大的困难。
发明内容
本发明的目的在于提供一种基于金属定量构效关系的海水急性基准预测方法,用以克服上述的技术问题。
为实现所述的目的,本发明提供一种基于金属定量构效关系的海水急性基准预测方法,根据金属离子的结构特征与海洋生物急性毒性效应的定量关系预测未知金属的毒性终点,结合不同物种的敏感度分布分析推导保护不同比例的海洋生物的危险浓度;
该具体过程为:
步骤a,建模毒性数据采集,筛选,运算和汇总;
步骤b,五门八科海洋模式生物筛选;
步骤c,构建金属离子结构描述符数据集,以各金属对应的结构参数为自变量进行线性相关性分析,通过相关系数排序,获得最佳的结构描述符;
步骤d,构建毒性预测模型及稳健性检验;建立一元回归方程,对参数进行估计,采用F统计量对应的P值进行检验;
步骤e,QSAR模型的内部验证,包括交叉验证和y随机化验证,分别用e1和e2表示;
步骤f,QSAR模型的外部验证;
步骤g,模型适用范围计算;经过校验的模型,以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图;
步骤h,基于获得的毒性预测值,利用物种敏感度分布法对未知金属的毒性和基准预测值进行快速筛选与预测。
进一步地,在所述的步骤c中,以单物种的毒性终点为因变量,各金属对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算相关系数r;
式中,分别表示各结构参数和毒性值的平均值,xi和yi分别表示第i种金属对应的结构参数和毒性值;
相关系数r>0.8为显著相关参数。
进一步地,在所述的步骤c中,构建金属离子结构描述符集合,包括软指数σp、最大配合物稳定常数log-βn、鲍林(Pauling)电负性Xm、共价指数Xm 2r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2。
进一步地,所述的步骤d的过程为:
步骤d1,一元回归方程的构建与参数估计;
以所述的步骤c中确定的最佳结构参数为自变量X,金属活性值为因变量Y,利用一元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,请参阅下述公式(2),其中:
n为观测值个数。
采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:
步骤d2,拟合优度检验和回归方程的显著性检验,采用F检验;
模型的拟合优度检验指标为:决定系数R2和自由度校正的决定系数标准偏差RMSE;
F检验的指标为单因子方差分析(ANOVA)计算得到的F值和相关概率p(SignificanceF);采用F统计量对应的P值进行检验;
步骤d3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64;显著水平为α,当p<α时,回归方程显著。
进一步地,所述的步骤d3按照下述公式计算,
式中,R2表示决定系数,表示自由度校正的决定系数,RMSE表示标准偏差。
进一步地,所述的步骤e中,e1的具体过程为:
步骤e1_1,在给定的建模样本中,选取大部分样本进行建模型,留小部分样本用建立的模型进行预测,并计算这小部分样本的预测误差;
步骤e1_2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;
步骤e1_3,计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,判别依据:Q2 cv>0.6,R2-Q2 cv≤0.3。
进一步地,所述的步骤e1_3采用的计算公式为:
式中,表示第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,代表训练集毒性的平均值,n表示训练集中化合物数。
进一步地,所述的步骤e中,e2的具体过程为:
步骤e2_1,在给定的样本中,将原始的因变量(建模海洋生物的急性毒性观测值)随机打乱顺序,同时保持自变量顺序不变,组成新的数据组;
步骤e2_2,用新样本构建QSAR模型,并计算其标准偏差RMSE和交叉验证的均方根误差RMSECV;
步骤e2_3,所述的步骤e2_1、e2_2重复进行50次,以RMSE为横坐标、RMSECV为纵坐标作图,比较y随机化后的QSAR模型的RMSECV和RMSE是否显著增加。
进一步地,所述的步骤e2_2采用的计算公式为:
式中,表示新的QSAR模型中第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,表示新的QSAR模型进行留一法交叉验证时第i个化合物毒性的预测值,n表示训练集中化合物数。
进一步地,所述的步骤f的具体过程为:
步骤f1,将样本划分为训练集和验证集,划分方法为:将样本按毒性从小到大顺序排列,验证集数据均匀地分布在训练集数据范围内,且验证集数据不少于总样本的20%;
步骤f2,用训练集数据构建QSAR模型;
步骤f3,计算验证集数据预测值与观测值之间的交互验证系数Qext 2和一致性相关系数CCC,判别依据:Qext 2>0.6,CCC>0.85。
进一步地,所述的步骤f3采用的计算公式为:
式中,yi表示观测值;表示预测值;表示观测值的均值;表示训练集观测值的均值;表示预测值的均值;next表示验证集的样本数。
进一步地,所述的步骤g中,杠杆值hi的计算公式为:
hi=xi T(XTX)-1xi(14)
式中,xi代表第i个金属的结构参数组成的列向量;对于单参数模型, XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。
进一步地,所述的步骤f中,临界值h*的计算公式为:
式中,p代表模型中变量数,单参数模型中p=1,n代表模型训练集化合物的数量,根据步骤a-f校验过后各QSAR方程中训练集金属个数决定;
在Williams图中h<h*的坐标空间为模型的适用范围。
进一步地,所述的步骤h的具体过程为:
步骤h1,按照所述的步骤a-g所述的方法,依次获得优选五门八科海洋生物的单参数QSAR预测方程;
步骤h2,搜集并整理待预测金属在八个方程中出现的所有结构描述符的值,代入方程计算待预测金属对各海洋物种的急性毒性终点;
步骤h3,每种金属对应的各物种毒性数据由低到高排序后,以累积百分率为纵坐标构建物种敏感度分布图;
步骤h4,采用非线性Sigmoidal-Logistic拟合方程对曲线进行拟合,根据拟合方程计算累积百分率为0.05,0.1和0.2时对应的危险浓度HC5,HC10和HC20。
定量结构活性相关(QSAR)方法采用统计分析手段寻找目标污染物的结构与生物活性间的内在联系,作为毒理机制研究的有效手段已被广泛应用于各类毒性效应的预测评价中。QSAR方法不受实验条件和测试仪器的限制,采用各种计算化学和数据挖掘技术来研究和预测污染物的生物活性,因而在面对批量污染物和传统毒理学测试难以开展的情况时,QSAR在毒性预测与风险评价方面展现出独特魅力。本发明提供的基于金属定量构效关系的海水急性基准预测方法,围绕金属的海洋生物急性毒性效应和海水水质基准预测,根据金属离子的结构特征与海洋生物急性毒性效应的定量关系预测未知金属的毒性终点,结合不同物种的敏感度分布分析推导保护不同比例的海洋生物的危险浓度。
与现有技术相比本发明的有益效果为:
1、现有技术只对淡水生物的毒性进行了预测,但海洋生物和淡水生物的毒性作用位点和毒性机理存在一定差异,而且目前用于基准推导的海洋生物数据比较缺乏。本发明提供的方法,基于生态学原理,系统筛选五门八科海洋物种作为最小生物预测集,分别构建单参数的海洋生物急性毒性预测模型,提高模型精度和预测能力。
2、QSAR模型与SSD分析结合预测基准连续浓度。
现有技术通过实验测试手段获得毒性终点值,再进行物种敏感度分析进而推导基准值。本发明提供的方法通过QSAR模型方法预测多种金属的毒性值,快速、简单,依赖较少的试验测试数据完成多种毒性数据缺乏的金属的基准预测。
附图说明
图1为本发明的流程示意图;
图2为实施例的模型y随机化验证结果图;
图3为实例的模型外部验证结果图;
图4为实施例的模型适用范围评价的Williams图;
图5为实施例的汞毒性预测值的物种敏感度分布曲线.
具体实施方式
以下结合附图,对本发明所述的的和另外的技术特征和优点作更详细的说明。
本发明提供的方法原理是根据金属离子的结构特征与海洋生物急性毒性效应的定量关系预测未知金属的毒性终点,结合不同物种的敏感度分布分析推导保护95%、90%和80%海洋生物的危险浓度。是综合金属理化结构参数和不同海洋生物的致毒机理建立QSAR金属毒性预测模型,并将其应用于预测未知基准参考值的一种方法。
如图1所示,其为本发明基于金属定量构效关系的海水急性基准预测方法的流程示意图,该具体过程为:
步骤a,建模毒性数据采集,筛选,运算和汇总;
步骤a1,数据采集过程:
步骤a2,数据筛选过程;数据筛选满足的条件为:
(1)因本发明所预测的金属海水水质基准最大浓度以美国环保局颁布的推荐值作为比对,故遵照美国环保局推导海水水质基准的要求,仅选取栖息于北美地区物种;
(2)每个物种包含至少来自同一实验条件的5种金属的毒性数据;
(3)毒性终点数据类型均为致死率LC50;
(4)毒性测试必须严格遵守标准的毒性测试方法;
(5)生物测试暴露时间48~96小时。
步骤a3,数据运算过程;在本发明实施例中的运算方法为:
以金属自由离子浓度为数据的衡量指标,如单位为质量浓度除以分子量统一转化为摩尔浓度,即mol/L。
步骤a4,数据汇总过程:
最终得到的数据集包括金属化合物分子式,毒性效应类型,终点指标,受试生物类型。
详细的毒性数据获取过程如下:
建模的急性毒性数据采集自近40年SCI科学引文索引查询的有效数据(ISIWebofKnowledge)。通过文献检索引擎,输入金属名称、待测物种名称和急性毒性等关键词,导出满足条件的毒性数据集。单一物种的毒性数据必须来自于相同的实验条件。在满足步骤a2条件的前提下,筛选出合格的毒性数据。以金属自由离子浓度为数据的衡量指标,如果原始数据以离子化合物质量为毒性终点指标。需除以分子量统一转化为微摩尔浓度,即μmol/L。最终的物种毒性终点均为致死率LC50。在数据汇编过程中,记录金属原子或分子式,原子或分子量,毒性效应类型,终点指标,受试生物类型等信息,整理成Excel表格作为建模依据。
对砂海螂的急性毒性数据进行汇总,如表1所示
表1.急性毒性数据筛选,运算和汇总范例
步骤b,五门八科水生模式生物筛选;
海洋模式生物以美国环保局推荐的推导水质基准的三门八科生物为基础,筛选出海洋中对重金属敏感的五门八科模式生物,包括软体动物3种,节肢动物2种,环节动物、棘皮动物、脊索动物各1种。对于每一类模式生物,对应的毒性数据需严格按照数据采集和筛选的要求,依次汇总各物种急性毒性数据。在进行模式生物筛选后,确定八种生物的科学命名,所属门和科。
优选五门八科北美地区敏感海洋生物的信息,如表2所示
表2.优选重金属急性效应评价的模式生物
物种 | 门 | 科 |
巴西拟糠虾 | 节肢动物门 | 糠虾科 |
美洲牡蛎 | 软体动物门 | 牡蛎科 |
加拿大底鳉 | 脊索动物门 | 底鳉科 |
砂海螂 | 软体动物门 | 海螂科 |
福氏海盘车 | 棘皮动物门 | 海盘车科 |
寄居蟹 | 节肢动物门 | 寄居蟹科 |
深海沙虫 | 环节动物门 | 沙蚕科 |
织纹螺 | 软体动物门 | 织纹螺科 |
步骤c,构建金属离子结构描述符数据集;
构建金属离子结构描述符集合,包括软指数σp、最大配合物稳定常数log-βn、鲍林(Pauling)电负性Xm、共价指数Xm 2r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2。
步骤c1,以单物种的毒性终点为因变量,各金属对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算皮尔逊相关系数r;
式中,xi和yi分别表示第i种金属对应的结构参数和实测毒性值,分别表示各结构参数和实测毒性值的平均值。相关系数r>0.8为显著相关参数。采用皮尔逊相关可以简便,客观的度量两个因子之间的关联程度。
步骤c2,在显著相关的前提下,通过相关系数排序,获得最优的结构描述符。该步骤中通过相关系数r,筛选出与毒性显著相关的结构参数,避免了伪相关参数引入模型。
步骤d,构建毒性预测模型及稳健性检验;
步骤d1,一元回归方程的构建与参数估计;
以所述的步骤c中确定的最佳结构参数为自变量X,金属活性值为因变量Y,利用一元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,请参阅下述公式(2),其中:
n为观测值个数;B代表未知参数,是方程中需要通过最小二乘法进行估计的;E代表随机误差项,反映了除x1,x2对y的线性关系之外的随机因素对y的影响。与一元线性回归相比,方程(2)采用一元线性回归建立了两种不同结构参数与金属毒性值的关系,完整、准确地表达预测对象与相关因素的关系。
采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:
最小二乘回归是从误差拟合角度对回归模型进行参数估计,是一种标准的一元建模工具,尤其适用于预测分析。
步骤d2,拟合优度检验和回归方程的显著性检验(F检验);
模型的拟合优度检验指标为:决定系数(R2)和自由度校正的决定系数标准偏差(RMSE)。F检验的指标为单因子方差分析(ANOVA)计算得到的F值和相关概率p(SignificanceF)。通常采用F统计量对应的P值进行检验。
步骤d3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64。显著水平为α,当p<α时,回归方程显著。
式中,yi表示第i种金属实测的毒性值,y表示第i种金属预测的毒性值,表示各毒性值的平均值,n为训练集中金属的个数。
方程(4)、(5)的相关系数和标准偏差可以度量回归直线的拟合优度;方程(6)是检验因变量与自变量的线性关系是否显著的通用方法。
预测金属汞对八科模式生物的急性毒性值,结合SSDs曲线预测基准参考阈值。分别构建八科模式生物的毒性预测方程,如表3所示。计算汞的最优结构参数σp=0.065,依次代入方程获得各物种的毒性预测值。
表3.八科模式生物的QSAR毒性预测方程
步骤e,QSAR模型的内部验证,包括交叉验证和y随机化验证,分别用e1和e2表示;
e1,模型的交叉验证:
每个物种的QSAR模型还进行留一法交叉验证,方法的核心思想是随机从训练集中抽出一个数据,用其他的毒性数据和步骤c获得的最佳结构描述符建立一元回归模型,根据抽出数据的预测值与实验值的比较,来校验所建立的网络模型。为了减少交叉验证结果的可变性,对一个样本数据集进行多次不同的划分,得到不同的互补子集,进行多次交叉验证。本步骤中,取多次验证的平均值作为验证结果。
此内部验证方法的优势在于用几乎所有的样本来训练模型,最接近样本,这样评估所得的结果比较可靠;实验没有随机因素,整个过程是可重复的。
具体步骤如下:
步骤e1_1,在给定的建模样本中,选取大部分样本进行建模型,留小部分样本用建立的模型进行预测,并计算这小部分样本的预测误差;
步骤e1_2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;
步骤e1_3,计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,计算公式如下所述;判别依据:Q2 cv>0.6,R2-Q2 cv≤0.3;
式中,表示第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,代表训练集毒性的平均值,n表示训练集中化合物数。
方程(7),(8)是留一法交叉验证的指示参数,可有效降低模型对训练集数据的过拟合,测定训练集中有无特定金属对模型稳健性的影响。
以砂海螂的急性毒性预测方程log-LC50=(49.827±11.999)σp+(-2.824±1.216)为例,对模型进行留一法内部验证,相关拟合参数见表4。根据步骤e中的公式(7)和(8),计算Q2 CV=0.678,RMSEV=0.6888,R2-Q2 CV=0.124。满足模型稳健性判别依据Q2 CV>0.6,R2-Q2 CV≤0.3,该模型通过内部验证。
表4.模型留一法内部验证相关参数
金属 | σp | 观测值 | 截距 | 斜率 | 预测值 |
镉 | 0.081 | 1.347 | -3.0032 | 51.2371 | 1.1470 |
汞 | 0.065 | 0.300 | -2.3230 | 45.4238 | 0.6296 |
镍 | 0.126 | 3.737 | -2.3436 | 43.8379 | 3.1800 |
锌 | 0.115 | 2.071 | -3.3435 | 57.5145 | 3.2707 |
铬(III) | 0.107 | 3.040 | -2.7413 | 47.5970 | 2.3516 |
e2,模型的y随机化验证:
对QSAR模型进行y随机化验证,以说明自变量和因变量之间的不存在偶然相关性。
具体步骤如下:
步骤e2_1,在给定的样本中,将原始的因变量(建模海洋生物的急性毒性观测值)随机打乱顺序,同时保持自变量顺序不变,组成新的数据组;
步骤e2_2,用新样本构建QSAR模型,并计算其标准偏差RMSE和交叉验证的均方根误差RMSEV,计算公式如下所述:
式中,表示新的QSAR模型中第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,表示新的QSAR模型进行留一法交叉验证时第i个化合物毒性的预测值,n表示训练集中化合物数。
步骤e2_3,所述的步骤e2_1、e2_2重复进行50次,以RMSE为横坐标、RMSECV为纵坐标作图,比较y随机化得到的QSAR模型的RMSECV和RMSE是否显著增加。
以美洲牡蛎的急性毒性预测方程log-LC50=(50.518±12.301)σp+(-4.729±1.331)为例,将因变量(急性毒性观测值)顺序随机打乱,自变量(软指数)顺序不变,组成新的数据组,计算新样本的RMSECV和RMSE,重复50次。结果如图2所示。从图2中可以清楚地看到,对因变量进行随机排序后,用新样本构建的QSAR模型,其交叉验证均方根误差RMSECV和标准偏差RMSE这两项指标,与原始样本下的QSAR模型相比,大约增加了一倍,表明自变量和因变量之间不存在随机相关性,即获得的QSAR模型不是随机的。
步骤f,QSAR模型的外部验证;
对每个物种的QSAR模型进行外部验证,将样本划分为训练集和验证集,训练集用于构建模型,验证集用于对模型进行外部验证,只有通过外部验证,才能够说明QSAR模型的预测能力。
具体步骤如下:
步骤f1,将样本划分为训练集和验证集,划分方法为:将样本按毒性从小到大顺序排列,验证集数据均匀地分布在训练集数据范围内,且验证集数据不少于总样本的20%;
步骤f2,用训练集数据构建QSAR模型;
步骤f3,计算验证集数据预测值与观测值之间的交互验证系数Qext 2和一致性相关系数CCC,计算公式如下所述;判别依据:Qext 2>0.6,CCC>0.85。
式中,yi表示观测值;表示预测值;表示观测值的均值;表示训练集观测值的均值;表示预测值的均值;next表示验证集的样本数。
以美洲牡蛎为例,将其急性毒性数据划分为训练集和验证集,训练集数据用来构建QSAR模型,获得回归方程:
log-LC50=(50.95717±20.07892)σp+(-4.57305±2.18229)
用验证集数据对模型进行外部验证,根据步骤f中的公式(11)、(12)和(13),计算得到Qext 2=0.8105,CCC=0.8940。满足模型外部验证判别条件Qext 2>0.6,CCC>0.85,该模型通过外部验证。
模型外部验证分组及相关参数如表5所示:
表5.模型外部验证分组及相关参数
金属 | σp | 观测值 | 预测值 | 分组 |
锰 | 0.125 | 2.464 | 1.5858 | T |
砷(III) | 0.106 | 2.000 | 0.6259 | T |
镍 | 0.126 | 1.303 | 1.6363 | V |
铅 | 0.131 | 1.073 | 1.8889 | T |
锌 | 0.115 | 0.676 | 1.0806 | V |
铜 | 0.104 | 0.210 | 0.5249 | T |
银 | 0.074 | -1.269 | -0.9907 | V |
汞 | 0.065 | -1.554 | -1.4453 | T |
以观测值为横坐标,预测值为纵坐标作图,如图3所示。
步骤g,模型适用范围计算;
经过校验的模型,采用杠杆值法计算模型的适用范围,以Williams图直观表示。此方法可保证模型在预测过程中具有最佳的可靠性。
杠杆值hi的计算公式为:
hi=xi T(XTX)-1xi(14)
式中,xi代表第i个金属的结构参数组成的列向量;对于单参数模型, XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。
临界值h*的计算公式为:
式中,p代表模型中变量数,单参数模型中p=1,n代表模型训练集化合物的数量,根据步骤a-f校验过后各QSAR方程中训练集金属个数决定。
以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图。在图中h<h*的坐标空间为模型的适用范围。
计算模型适用范围绘制Williams图。以美洲牡蛎的急性毒性预测方程log-LC50=(50.518±12.301)σp+(-4.729±1.331)为例,训练集各金属的结构参数和毒性终点如表6所示。临界值h*=3*(1+1)/8=0.75。
表6.美洲牡蛎的急性毒性预测方程适用范围的计算
金属 | σp | h(σp) | 观测值 | 预测值 | 残差 |
铜 | 0.104 | 0.1257 | 0.210 | 0.5249 | 0.3149 |
铅 | 0.131 | 0.2777 | 1.073 | 1.8889 | 0.8159 |
汞 | 0.065 | 0.5227 | -1.554 | -1.4453 | 0.1087 |
镍 | 0.126 | 0.2232 | 1.303 | 1.6363 | 0.3333 |
银 | 0.074 | 0.3664 | -1.269 | -0.9907 | 0.2783 |
锌 | 0.115 | 0.1455 | 0.676 | 1.0806 | 0.4046 |
砷(III) | 0.106 | 0.1250 | 2.000 | 0.6259 | -1.3741 |
锰 | 0.125 | 0.2137 | 2.464 | 1.5858 | -0.8783 |
以各金属最优结构参数的杠杆值为横坐标,预测残差为纵坐标绘制Williams图,如图4所示。图中三条虚线内部的空间为模型的适用范围,计算结果显示训练集的8种金属在模型的预测范围内。
步骤h,采用获得的毒性预测值和物种敏感度分析对未知金属的毒性和基准预测值进行快速筛选与预测。
步骤h1,按照步骤a-g所述的方法,依次获得优选五门八科海洋生物的单参数QSAR预测方程。
步骤h2,搜集并整理待预测金属在八个方程中出现的所有结构描述符的值,代入方程计算待预测金属对各海洋物种的急性毒性终点。
步骤h3,每种金属对应的各物种金属毒性数据由低(最敏感物种)到高(最不敏感物种)排序后,以累积百分率为纵坐标(P=(R-0.5)/N,R物种序号,N物种数)构建物种敏感度分布图。
步骤h4,采用非线性Sigmoidal-logistic拟合方程对曲线进行拟合(公式16),根据拟合方程计算累积百分率为0.05,0.1和0.2时对应的危险浓度HC5,HC10和HC20。
曲线拟合优度的判别指标包括 F和P。计算方法见方程(4)-(6)。
式中,a代表拟合曲线的振幅,xc代表中心值,k代表曲线斜率。大量研究证实,非线性Sigmoidal-Logistic拟合模型对物种敏感度曲线的拟合效果最佳。故本发明采用此方法作为推导金属海水水质基准最大浓度值的方法。
获得金属汞的QSAR-SSDs曲线拟合方程:
评价拟合优度的各参数分别为:Adj.R2=0.965,RSS=0.016,F=267.154,P=8.276×10-6。根据SSDs曲线,如图5,当y等于0.05,0.10和0.20时,对应的logHC5,logHC10和logHC20的值分别为-1.616,-1.181和-0.706。美国环保局1995年发布的水质基准指南中,基于实验室测定推导出汞的危险浓度为-2.047,预测误差为0.431。
Claims (9)
1.基于金属定量构效关系的海水急性基准预测方法,其特征在于,根据金属离子的结构特征与海洋生物急性毒性效应之间的定量关系预测未知金属的毒性终点,结合不同物种的敏感度分布分析推导保护不同比例的海洋生物的危险浓度;
该具体过程为:
步骤a,建模毒性数据采集,筛选,运算和汇总;
步骤b,五门八科海洋模式生物筛选;
步骤c,构建金属离子结构描述符数据集,以各金属对应的结构参数为自变量进行线性相关性分析,通过相关系数排序,获得最佳结构描述符;
步骤d,构建毒性预测模型及稳健性检验;建立一元线性回归方程,对参数进行估计,采用F统计量对应的P值进行检验;
步骤e,QSAR模型的内部验证,包括交叉验证和y随机化验证,分别用e1和e2表示;
步骤f,QSAR模型的外部验证;
步骤g,模型适用范围计算;经过校验的模型,以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图;
步骤h,基于获得的毒性预测值,利用物种敏感度分布法对未知金属的海洋生物毒性和基准最大浓度值进行快速筛选与预测。
2.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,在所述的步骤c中,以单物种的毒性终点为因变量,各金属对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算相关系数r;
式中,分别表示各结构参数和毒性值的平均值,xi和yi分别表示第i种金属对应的结构参数和毒性值;
相关系数r>0.8为显著相关参数;
步骤c中,构建金属离子结构描述符集合,包括软指数σp、最大配合物稳定常数log-βn、鲍林(Pauling)电负性Xm、共价指数Xm 2r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2。
3.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,所述的步骤d的过程为:
步骤d1,一元回归方程的构建与参数估计;
以所述的步骤c中确定的最佳结构参数为自变量X,金属活性值为因变量Y,利用一元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,见下述公式(2),其中:
n为观测值个数;
采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:
步骤d2,拟合优度检验和回归方程的显著性检验,采用F检验;
模型的拟合优度检验指标为:决定系数R2和自由度校正的决定系数标准偏差RMSE;
F检验的指标为单因子方差分析计算得到的F值和相关概率p;采用F统计量对应的P值进行检验;
步骤d3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64;显著水平为α,当p<α时,回归方程显著;
步骤d3按照下述公式计算,
式中,R2表示决定系数,表示自由度校正的决定系数,RMSE表示标准偏差。
4.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,所述的步骤e中,e1的具体过程为:
步骤e1_1,在给定的建模样本中,选取大部分样本进行建模型,留小部分样本用建立的模型进行预测,并计算这小部分样本的预测误差;
步骤e1_2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;
步骤e1_3,计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSEV,判别依据为:Q2 cv>0.6,R2-Q2 cv≤0.3;
所述的步骤e1_3采用的计算公式为:
式中,表示第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,代表训练集毒性的平均值,n表示训练集中化合物数。
5.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,所述的步骤e中,e2的具体过程为:
步骤e2_1,在给定的样本中,将原始的因变量,即建模海洋生物的急性毒性观测值随机打乱顺序,同时保持自变量顺序不变,组成新的数据组;
步骤e2_2,用新样本构建QSAR模型,并计算其标准偏差RMSE和交叉验证的均方根误差RMSECV;
步骤e2_2采用的计算公式为:
式中,yi obs表示新的QSAR模型中第i个化合物毒性的实测值,代表第i个化合物毒性的预测值,表示新的QSAR模型进行留一法交叉验证时第i个化合物毒性的预测值,n表示训练集中化合物数;
步骤e2_3,所述的步骤e2_1、e2_2重复进行50次,以RMSE为横坐标、RMSECV为纵坐标作图,比较y随机化后的QSAR模型的RMSECV和RMSE是否显著增加。
6.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,所述的步骤f的具体过程为:
步骤f1,将样本划分为训练集和验证集,划分方法为:将样本按毒性从小到大顺序排列,验证集数据均匀地分布在训练集数据范围内,且验证集数据不少于总样本的20%;
步骤f2,用训练集数据构建QSAR模型;
步骤f3,计算验证集数据预测值与观测值之间的交互验证系数Qext 2和一致性相关系数CCC,其判别依据为:Qext 2>0.6,CCC>0.85;
步骤f3采用的计算公式为:
式中,yi表示观测值;表示预测值;表示观测值的均值;表示训练集观测值的均值;表示预测值的均值;next表示验证集的样本数。
7.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,在所述的步骤g中,杠杆值hi的计算公式为:
hi=xi T(XTX)-1xi(14)
式中,xi代表第i个金属的结构参数组成的列向量;对于单参数模型, XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。
8.根据权利要求7所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,在所述的步骤g中,临界值h*的计算公式为:
式中,p代表模型中变量数,单参数模型中p=1,n代表模型训练集化合物的数量,根据步骤a-f校验过后各QSAR方程中训练集金属个数决定;
在Williams图中h<h*的坐标空间为模型的适用范围。
9.根据权利要求1所述的基于金属定量构效关系的海水急性基准预测方法,其特征在于,所述的步骤h的具体过程为:
步骤h1,按照所述的步骤a-g所述的方法,依次获得优选五门八科海洋生物的单参数QSAR预测方程;
步骤h2,搜集并整理待预测金属在八个方程中出现的所有结构描述符的值,代入方程计算待预测金属对各海洋物种的急性毒性终点;
步骤h3,每种金属对应的各物种毒性数据由低到高排序后,以累积百分率为纵坐标构建物种敏感度分布图;
步骤h4,采用非线性Sigmoidal-Logistic拟合方程对曲线进行拟合,根据拟合方程计算累积百分率为0.05,0.1和0.2时对应的危险浓度HC5,HC10和HC20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510824672.9A CN105447248B (zh) | 2015-11-24 | 2015-11-24 | 基于金属定量构效关系的海水急性基准预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510824672.9A CN105447248B (zh) | 2015-11-24 | 2015-11-24 | 基于金属定量构效关系的海水急性基准预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105447248A true CN105447248A (zh) | 2016-03-30 |
CN105447248B CN105447248B (zh) | 2019-03-19 |
Family
ID=55557419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510824672.9A Expired - Fee Related CN105447248B (zh) | 2015-11-24 | 2015-11-24 | 基于金属定量构效关系的海水急性基准预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447248B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194202A (zh) * | 2017-07-26 | 2017-09-22 | 中国环境科学研究院 | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 |
CN109342675A (zh) * | 2018-09-21 | 2019-02-15 | 中国环境科学研究院 | 锑的保护水生生物地表水水质安全阈值的制订方法 |
CN110909166A (zh) * | 2019-11-28 | 2020-03-24 | 贝壳技术有限公司 | 用于提高会话质量的方法、装置、介质以及电子设备 |
CN111554358A (zh) * | 2020-04-22 | 2020-08-18 | 中国人民大学 | 一种重金属毒性终点和海洋水质基准阈值的预测方法 |
CN113743662A (zh) * | 2021-08-31 | 2021-12-03 | 中山大学 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
CN113946794A (zh) * | 2021-09-14 | 2022-01-18 | 深圳大学 | 零价铁/铜混合物对DBPs反应速率的预测方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7429556B2 (en) * | 2003-10-23 | 2008-09-30 | Applied Research Associates, Inc. | Universal halide-enhanced decontaminating formulation |
CN104820873A (zh) * | 2015-05-13 | 2015-08-05 | 中国环境科学研究院 | 一种基于金属定量构效关系的淡水急性基准预测方法 |
CN104899458A (zh) * | 2015-06-16 | 2015-09-09 | 中国环境科学研究院 | 评价纳米金属氧化物健康效应的qsar毒性预测方法 |
-
2015
- 2015-11-24 CN CN201510824672.9A patent/CN105447248B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7429556B2 (en) * | 2003-10-23 | 2008-09-30 | Applied Research Associates, Inc. | Universal halide-enhanced decontaminating formulation |
CN104820873A (zh) * | 2015-05-13 | 2015-08-05 | 中国环境科学研究院 | 一种基于金属定量构效关系的淡水急性基准预测方法 |
CN104899458A (zh) * | 2015-06-16 | 2015-09-09 | 中国环境科学研究院 | 评价纳米金属氧化物健康效应的qsar毒性预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194202A (zh) * | 2017-07-26 | 2017-09-22 | 中国环境科学研究院 | 过渡金属保护人体健康水质基准的非致癌EDs预测方法 |
CN109342675A (zh) * | 2018-09-21 | 2019-02-15 | 中国环境科学研究院 | 锑的保护水生生物地表水水质安全阈值的制订方法 |
CN110909166A (zh) * | 2019-11-28 | 2020-03-24 | 贝壳技术有限公司 | 用于提高会话质量的方法、装置、介质以及电子设备 |
CN111554358A (zh) * | 2020-04-22 | 2020-08-18 | 中国人民大学 | 一种重金属毒性终点和海洋水质基准阈值的预测方法 |
CN113743662A (zh) * | 2021-08-31 | 2021-12-03 | 中山大学 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
CN113743662B (zh) * | 2021-08-31 | 2024-04-16 | 中山大学 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
CN113946794A (zh) * | 2021-09-14 | 2022-01-18 | 深圳大学 | 零价铁/铜混合物对DBPs反应速率的预测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105447248B (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820873A (zh) | 一种基于金属定量构效关系的淡水急性基准预测方法 | |
CN105447248A (zh) | 基于金属定量构效关系的海水急性基准预测方法 | |
Horrigan et al. | Response of stream macroinvertebrates to changes in salinity and the development of a salinity index | |
Bilton et al. | How wide to cast the net? Cross‐taxon congruence of species richness, community similarity and indicator taxa in ponds | |
Hu et al. | Niche conservatism in Gynandropaa frogs on the southeastern Qinghai-Tibetan Plateau | |
CN104636627A (zh) | 一种土壤重金属生态风险评估方法 | |
Jiang et al. | Can excluding non-insect taxa from stream macroinvertebrate surveys enhance the sensitivity of taxonomic distinctness indices to human disturbance? | |
Rooney et al. | Development and testing of an index of biotic integrity based on submersed and floating vegetation and its application to assess reclamation wetlands in Alberta’s oil sands area, Canada | |
Xiao et al. | Water quality assessment of the Huaihe River segment of Bengbu (China) using multivariate statistical techniques | |
CN105069315A (zh) | 基于金属形态和有效性的水生生物毒性预测方法 | |
CN104915563B (zh) | 基于金属定量构效关系的淡水慢性基准预测方法 | |
CN111554358A (zh) | 一种重金属毒性终点和海洋水质基准阈值的预测方法 | |
CN110781225B (zh) | 一种环境介质污染物浓度水平的诊断方法 | |
Zhu et al. | A hybrid decomposition and Machine learning model for forecasting Chlorophyll-a and total nitrogen concentration in coastal waters | |
CN116340723A (zh) | 基于大数据的乡村水污染快速溯源方法及系统 | |
Turak et al. | Multi-attribute ecological river typology for assessing ecological condition and conservation planning | |
Sotomayor et al. | Implications of macroinvertebrate taxonomic resolution for freshwater assessments using functional traits: The Paute River Basin (Ecuador) case | |
Jiang et al. | Different surrogacy approaches for stream macroinvertebrates in discriminating human disturbances in Central China | |
Johnson | Development of a prediction system for lake stony-bottom littoral macroinvertebrate communities | |
Jupke et al. | Evaluating the biological validity of European river typology systems with least disturbed benthic macroinvertebrate communities | |
Liu et al. | Improved method for benthic ecosystem health assessment by integrating chemical indexes into multiple biological indicator species—A case study of the Baiyangdian Lake, China | |
Xu et al. | Can annual cyclicity of protozoan communities reflect water quality status in coastal ecosystems? | |
CN117171128A (zh) | 一种基于四水耦合模型的水生生物保护阈值识别方法 | |
Zhang et al. | Bioavailability (BA)-based risk assessment of soil heavy metals in provinces of China through the predictive BA-models | |
Veses et al. | Sediment quality assessment of two industrialized areas of Spain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190319 Termination date: 20191124 |