CN110838339B - 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质 - Google Patents

邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质 Download PDF

Info

Publication number
CN110838339B
CN110838339B CN201910898867.6A CN201910898867A CN110838339B CN 110838339 B CN110838339 B CN 110838339B CN 201910898867 A CN201910898867 A CN 201910898867A CN 110838339 B CN110838339 B CN 110838339B
Authority
CN
China
Prior art keywords
toxicity
phthalate
end point
zebra fish
point value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910898867.6A
Other languages
English (en)
Other versions
CN110838339A (zh
Inventor
杨彦
陈瑞琰
陈浩佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shantou Guanggong University Collaborative Innovation Research Institute
Guangdong University of Technology
Original Assignee
Shantou Guanggong University Collaborative Innovation Research Institute
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shantou Guanggong University Collaborative Innovation Research Institute, Guangdong University of Technology filed Critical Shantou Guanggong University Collaborative Innovation Research Institute
Priority to CN201910898867.6A priority Critical patent/CN110838339B/zh
Publication of CN110838339A publication Critical patent/CN110838339A/zh
Application granted granted Critical
Publication of CN110838339B publication Critical patent/CN110838339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

本发明公开了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质,所述方法包括:根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;将毒性效应终点值作为因变量,将每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,获得最佳结构描述符;建立多元线性回归方程,构建定量构效关系模型;利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。本发明可以为邻苯二甲酸酯类的化合物的毒性研究提供参考,对该类化合物的健康风险评估具有重要意义。

Description

邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质
技术领域
本发明涉及一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质,属于生态毒理学、环境污染与人体健康领域。
背景技术
邻苯二甲酸酯(phthalic acid esters,简称PAEs)是由邻苯二甲酸酐与醇在酸催化剂(如硫酸)存在下酯化而成,是一大类脂溶性化合物,被确认为第四类毒性化学物质,在各种行业都有广泛的用途。
邻苯二甲酸酯常温下呈无色或微黄色、无味的油状粘稠液体,微溶于水,易溶于有机溶剂。作为一种常见的增塑剂,常用于改善塑料材料的力学性能,增大产品可塑性、强度。这类增塑剂可用于制造塑料容器、幼儿玩具等,也会被添加到化妆品、建筑材料与医疗部件等塑料产品中。
全球每年邻苯二甲酸酯使用量已经超过500万吨,由于邻苯二甲酸酯在工业和日常生活中的广泛应用,使其大量进入水体、土壤、生物和大气等环境介质中,如今这类化合物已成为全球性的主要环境污染物之一。
近年来,随着国内外学者对邻苯二甲酸酯的研究不断深入,发现其具有生殖毒性、神经毒性、致癌性、致畸性、致突变性及内分泌干扰性等其他毒理作用,引起国际社会关注。
定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)是一种将分子的理化性质参数和各种结构参数,以数学和统计学手段建立定量关系,寻找化合物的微观结构与生物活性间的联系方法。定量构效关系属于计算毒理学范畴,目前已广泛应用于健康风险评估中生物毒性数据的预测。KatieChan等利用定量构效关系模型预测卤苯类化合物对大鼠和人体肝细胞的细胞毒性;MounirGhamali等利用定量构效关系模型预测苯酚和苯硫酚对发光菌的毒性。除此之外,国内诸多学者也利用定量构效关系模型预测化合物的生物毒性,如廖立敏等利用定量构效关系模型预测含氯苯酚类化合物对海洋中的杜氏盐藻的毒性,堵锡华等利用定量构效关系模型预测硝基芳烃化合物对梨形四膜虫的急性毒性。
斑马鱼是一种用于生态毒理学研究的模式动物,具有易饲养、子代数量多、体积小等优点,广泛应用于污染物生态毒理学效应、水质监测等方面。
目前关于邻苯二甲酸酯对斑马鱼的毒性一般基于实验测试。穆希岩等通过实验研究发现邻苯二甲酸二辛酯(DEHP)和邻苯二甲酸二丁酯(DBP)可诱导斑马鱼胚胎出现一系列发育异常,包括自主运动异常、心率下降、脊柱弯曲及心包水肿等。聂湘平等也通过实验研究了邻苯二甲酸二甲酯(DMP)、邻苯二甲酸二乙酯(DEP)、邻苯二甲酸二正丁酯(DBP)和邻苯二甲酸二异辛酯(DEHP)4种邻苯二甲酸酯类化合物对斑马鱼胚胎发育的毒性效应,这些化合物对斑马鱼胚胎发育有明显的抑制作用,可以造成胚胎发育畸形甚至死亡。然而,由于实验周期较长、成本较高、本底干扰高、易受检测条件检测技术的限制等不确定性因素较多,所得的数据缺乏可靠性。而且,这类化合物的种类众多,对这些化合物逐一进行实验测试,已无法高效快速地提供足够的生态毒性数据来进行健康风险评估。虽然计算毒理学已应用到毒理学、环境化学、生物信息学等科学领域,但还没有基于定量构效关系的邻苯二甲酸酯对斑马鱼的毒性效应研究的相关报道。
发明内容
有鉴于此,本发明提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、系统、计算机设备及存储介质,其以多种邻苯二甲酸酯对斑马鱼的毒性数据为基础构建模型,研究邻苯二甲酸酯的生态毒理学效应,在能降低实验成本、缩短时间周期的同时,为邻苯二甲酸酯类的化合物的毒性研究提供参考,对该类化合物的健康风险评估具有重要意义。
本发明的第一个目的在于提供一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法。
本发明的第二个目的在于提供一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法,所述方法包括:
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;
获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;
将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;
根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符;
根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型;
利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
进一步的,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:
通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。
进一步的,所述计算两因子之间的相关系数,如下式:
Figure BDA0002211157520000031
式中,
Figure BDA0002211157520000032
分别表示各结构参数和毒性效应终点值的平均值,xi和yi分别表示第i种邻苯二甲酸酯对应的结构参数和毒性效应终点值;n表示邻苯二甲酸酯类的化合物数量。
进一步的,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:
将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;
根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。
进一步的,所述根据最佳结构描述符和毒性数据集,建立多元线性回归方程,具体为:
将最佳结构描述符作为自变量,将毒性效应终点值作为因变量Y,利用多元线性回归分析方法建立多元线性回归方程Y=AX+B,其中:
Figure BDA0002211157520000033
式中,n为观测值数量;m为最佳结构描述符中结构参数的数量;A表示未知参数,通过最小二乘法进行估计;B表示随机误差,反映了除x1,x2,…,xm对Y的线性关系之外的随机因素对Y的影响;
所述通过最小二乘法进行估计,如下式:
Figure BDA0002211157520000041
式中,XT为X的转置矩阵。
进一步的,所述多元线性回归方程的拟合优度检验指标包括决定系数、自由度校正决定系数和均方根误差,F检验的指标包括单因子方差分析计算得到的F值和相关概率p,如下式:
Figure BDA0002211157520000042
Figure BDA0002211157520000043
Figure BDA0002211157520000044
Figure BDA0002211157520000045
式中,yi表示观测值,y表示第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure BDA0002211157520000046
表示各毒性效应终点值的平均值,n表示邻苯二甲酸酯类的化合物数量,
Figure BDA0002211157520000047
表示多元线性回归方程的预测值,R2表示决定系数,
Figure BDA0002211157520000048
表示自由度校正决定系数,RMSE表示均方根误差,SS(total)表示总误差平方和,SS(residual)表示残差平方和;
采用F统计量对应的p值进行检验,若R2≥0.8,显著水平为γ,当p<γ时,多元线性回归方程显著。
进一步的,所述构建定量构效关系模型之后,还包括:
对定量构效关系模型进行验证,具体为:
对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集;
根据训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值;
计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,如下式:
Figure BDA0002211157520000051
Figure BDA0002211157520000052
式中,yi obs表示第i种邻苯二甲酸酯实测的毒性效应终点值,yi predcv表示定量构效关系模型第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure BDA0002211157520000053
表示训练集中邻苯二甲酸酯毒性效应终点值的平均值,n表示训练集中邻苯二甲酸酯类的化合物数量;
若Q2 cv>0.6,RMSECV≤0.4,且R2-Q2 cv≤0.3,则定量构效关系模型通过验证;其中,R2表示决定系数。
进一步的,所述定量构效关系模型通过验证之后,还包括:
采用杠杆值法计算定量构效关系模型的应用范围,具体为:
计算杠杆值hi,如下式:
hi=Xi T(XTX)-1Xi
式中,xi表示第i种邻苯二甲酸酯对应的结构参数组成的列向量;
计算临界值h*,如下式:
Figure BDA0002211157520000054
式中,p表示定量构效关系模型中的变量数,多参数模型中p=2,n表示训练集中邻苯二甲酸酯类的化合物数量;
以最佳结构描述符中的各结构参数的杠杆值为横坐标,预测残差为纵坐标绘制散点图,hi小于h*的坐标空间为定量构效关系模型的应用范围。
本发明的第二个目的可以通过采取如下技术方案达到:
一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统,所述系统包括:
第一构建模块,用于根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;
第二构建模块,用于获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;
计算模块,用于将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;
确定模块,用于根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符;
第三构建模块,用于根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型;
预测模块,用于利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现上述的预测方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的预测方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明通过选择毒性效应终点值,以构建毒性数据集,以及通过获取每种邻苯二甲酸酯对应的结构参数,以构建结构描述符数据集,将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数,从而确定最佳结构描述符,并建立多元线性回归方程,构建定量构效关系模型,利用定量构效关系模型可以预测未知邻苯二甲酸酯对斑马鱼的毒性效应终点值,有助于深入研究该类化合物的毒理效应,该定量构效关系模型简便,容易理解,且具有良好的稳健性、可靠性和预测能力,便于实际应用,且成本低、简单、高效,能够大大降低实验测试所需的成本,缩短实验周期。
2、本发明在构建定量构效关系模型之后,还可以对定量构效关系模型进行验证,对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集,通过训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值,将预测的毒性效应终点值与实测的毒性效应终点值进行比较,以校验构建的定量构效关系模型是否可靠。
3、本发明在定量构效关系模型通过验证之后,还可以采用杠杆值法计算定量构效关系模型的应用范围,可以保证定量构效关系模型在预测过程中具有最佳的可靠性。
4、本发明可为邻苯二甲酸酯类污染物的风险评估和监控提供基础数据,充分利用国外相对完善的毒性数据库以及国内外研究文献,建立适用于斑马鱼的毒性预测模型,为斑马鱼毒性数据库进行补充。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的邻苯二甲酸酯对斑马鱼毒性效应的预测方法流程图。
图2为本发明实施例1的构建毒性数据集的流程图。
图3为本发明实施例1的确定最佳结构描述符的流程图。
图4为本发明实施例1的以其中一个结构参数计算定量构效关系模型应用范围的散点图。
图5为本发明实施例1的以另一个结构参数计算定量构效关系模型应用范围的散点图。
图6为本发明实施例3的邻苯二甲酸酯对斑马鱼毒性效应的预测系统的结构框图。
图7为本发明实施例3的第一构建模块的结构框图。
图8为本发明实施例3的确定模块的结构框图。
图9为本发明实施例4的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法,该方法包括以下步骤:
S101、根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。
该步骤S101如图2所示,具体包括:
S1011、通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据。
本实施例的邻苯二甲酸酯有21种,优先采集生态毒理学知识库(https:// cfpub.epa.gov/ecotox/)、欧洲环境化学品数据库(https://ec.europa.eu/jrc/en)等相关数据库,将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性等关键词输入,获取21种邻苯二甲酸酯对斑马鱼的毒性数据,如果毒性数据不足,以近10年的科学英文索引查询(ScienceCitation Index,简称SCI)的有效数据作为补充。
S1012、根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。
具体地,根据21种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件(如实验环境、实验方法等)下,筛选出合适的毒性数据,即毒性效应终点值,该毒性效应终点值为最低观测影响浓度LOEC,将这些毒性效应终点值导出,得到毒性数据集。
在汇编过程中,记录邻苯二甲酸酯分子式、毒性效应类型、毒性效应测量类型、毒性效应终点值、数据来源等信息,整理成Excel表格作为建模依据。
S102、获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。
本实施例通过文献查询、资料收集每种邻苯二甲酸的部分分子描述符,具体地,通过有机小分子生物活性数据库(https://pubchem.ncbi.nlm.nih.gov/)、化学产品搜索引擎(https://www.chemicalbook.com/ProductIndex.aspx)、线性溶解能关系数据库(https://www.ufz.de/index.php?en=31698&contentonly=1&m=0&lserd_data[mvc]= Public/start#searchresult)等网站搜索并收集9种分子描述符,得到分子量、XLogP3、辛醇/水分配系数LogP、分子摩尔折射率E、分子偶极/极化性参数S、分子氢键质子给体能力参数A、分子氢键质子受体能力参数B、McGowan分子体积V、正十六烷-空气分配系数的对数值L;基于HyperChem软件对邻苯二甲酸酯的结构进行优化,通过半经验算法计算获得每种邻苯二甲酸酯的部分分子描述符,如偶极矩μ、分子最高占据轨道能HOMO、分子最低未占据轨道能LUMO、电负性χ、化学硬度η、化学力、亲电性ω,其中部分LogP值由美国EPI软件计算得出,这些分子描述符即为每种邻苯二甲酸酯对应的结构参数,然后构建结构描述符数据集。
在汇编过程中,记录邻苯二甲酸分子式、CAS号等信息,整理成Excel表格作为建模依据,总结数据如下表1所示。
表1分子结构描述符
Figure BDA0002211157520000081
Figure BDA0002211157520000091
S103、将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。
本实施例中,计算两因子之间的皮尔逊相关系数r,如下式:
Figure BDA0002211157520000092
式中,
Figure BDA0002211157520000093
分别表示各结构参数和毒性效应终点值的平均值,xi和yi分别表示第i种邻苯二甲酸酯对应的结构参数和毒性效应终点值;n表示邻苯二甲酸酯类的化合物数量,相关性分析结果如下表2所示。
表2相关性分析结果
Figure BDA0002211157520000094
Figure BDA0002211157520000101
S104、根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。
该步骤S104如图3所示,具体包括:
S1041、将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数。
具体地,若相关系数r>0.9,则该相关系数为显著相关系数,说明当前的结构参数与毒性效应终点值显著相关,筛选出这些结构参数。
S1042、根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符,主成分分析结果如下表3所示。
主成分分析的具体公式如下:
F=a1i×ZX1+a2i×ZX2+……+api×ZXp
其中a1i,a2i,……,api(i=1,……,m)为X的协方差阵∑的特征值所对应的特征向量,ZX1,ZX2,……,ZXp是原始变量经过标准化处理的值。
A=(aij)p×m=(a1,a2,…,am)
Rai=λiai
R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。
主成分分析是对于原先提出的所有变量,将关系紧密的变量删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量尽可能保持原有的信息。
按照上述方法,分别计算各分子结构的皮尔逊相关系数r。
表3主成分分析结果
Figure BDA0002211157520000111
S105、根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。
具体地,将最佳结构描述符作为自变量,将毒性效应终点值作为因变量Y,通过统计软件SPSS,利用多元线性回归分析方法建立多元线性回归方程Y=AX+B,其中:
Figure BDA0002211157520000112
式中,n为观测值数量;m为最佳结构描述符中结构参数的数量;A表示未知参数,通过最小二乘法进行估计;B表示随机误差,反映了除x1,x2,…,xm对Y的线性关系之外的随机因素对Y的影响。与一元线性回归相比,式(2)采用多元线性回归建立了两种不同结构参数与毒性效应终点值的关系,完整、准确地表达预测对象与相关因素的关系。
通过最小二乘法进行估计,如下式:
Figure BDA0002211157520000113
式中,XT为X的转置矩阵。
进一步地,多元线性回归方程的拟合优度检验指标包括决定系数、自由度校正决定系数和均方根误差(又称标准误差),F检验的指标包括单因子方差分析计算得到的F值和相关概率p(Significance F),如下式:
Figure BDA0002211157520000114
Figure BDA0002211157520000121
Figure BDA0002211157520000122
Figure BDA0002211157520000123
式中,yi表示观测值,y表示第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure BDA0002211157520000124
表示各毒性效应终点值的平均值,n表示邻苯二甲酸酯类的化合物数量,
Figure BDA0002211157520000125
表示多元线性回归方程的预测值,R2表示决定系数,
Figure BDA0002211157520000126
表示自由度校正决定系数,RMSE表示均方根误差,SS(total)表示总误差平方和,SS(residual)表示残差平方和;采用F统计量对应的p值进行检验,检验标准为:R2≥0.8,显著水平为γ,取值0.05,当p<γ时,多元线性回归方程显著。
本实施例中,式(4)和(6)的相关系数和均方根误差可以度量回归直线的拟合优度;式(7)是检验因变量与自变量的线性关系是否显著的通用方法。
S106、对定量构效关系模型进行验证。
1)对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集。
2)根据训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值。
3)计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,如下式:
Figure BDA0002211157520000127
Figure BDA0002211157520000128
式中,yi obs表示第i种邻苯二甲酸酯实测的毒性效应终点值,yi predcv表示定量构效关系模型第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure BDA0002211157520000129
表示训练集中邻苯二甲酸酯毒性效应终点值的平均值,n表示训练集中邻苯二甲酸酯类的化合物数量;验证标准为:Q2 cv>0.6,RMSECV≤0.4,且R2-Q2 cv≤0.3。
以预测方程LogLOEC=4.771LogLogP-39.319Logχ+27.673为例,R2=0.982,p<0.05,对定量构效关系模型进行验证,根据式(7)和(8),计算Q2 cv=0.885,RMSECV=0.327,R2-Q2 cv=0.097≤0.3,该定量构效关系模型通过验证,说明所建立的定量构效关系模型可靠。
S107、采用杠杆值法计算定量构效关系模型的应用范围,可以保证定量构效关系模型在预测过程中具有最佳的可靠性。
1)计算杠杆值hi,如下式:
hi=Xi T(XTX)-1Xi  (10)
式中,xi表示第i种邻苯二甲酸酯对应的结构参数组成的列向量。
2)计算临界值h*,如下式:
Figure BDA0002211157520000131
式中,p表示定量构效关系模型中的变量数,多参数模型中p=2,n表示训练集中邻苯二甲酸酯类的化合物数量,本实施例中临界值h*=3×(2+1)÷21=0.429。
3)以最佳结构描述符中的各结构参数的杠杆值为横坐标,预测残差为纵坐标绘制散点图,该散点图为Williams图,hi小于h*的坐标空间为定量构效关系模型的应用范围(又称应用域),如图4和图5所示,图中三条虚线内部空间为模型的应用范围,计算结果显示训练集的21种化合物在定量构效关系模型的预测范围之内。
S108、利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
应当注意,尽管以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
本实施例为具体的应用实例,给定一个化合物邻苯二甲酸二异庚酯(CAS编号41451-28-9),预测其对斑马鱼的LOEC值。通过有机小分子生物活性数据库(https:// pubchem.ncbi.nlm.nih.gov/)、化学产品搜索引擎(https://www.chemicalbook.com/ ProductIndex.aspx)、线性溶解能关系数据库(https://www.ufz.de/index.php?en= 31698&contentonly=1&m=0&lserd_data[mvc]=Public/start#searchresult)等网站搜索并收集邻苯二甲酸二异庚酯的部分分子描述符,得到分子量、XLogP3、辛醇/水分配系数、分子摩尔折射率、分子偶极/极化性参数、分子氢键质子给体能力参数、分子氢键质子受体能力参数、McGowan分子体积、正十六烷-空气分配系数的对数值分别为362.51、7.4、7.41、0.65、1.26、0、0.99、3.1196、12.04;基于HyperChem软件对邻苯二甲酸二异庚酯结构进行优化,通过半经验算法计算获得邻苯二甲酸二异庚酯的部分分子描述符,偶极矩、分子最高占据轨道能、分子最低未占据轨道能、电负性、化学硬度、化学力、亲电性分别为3.303、-3.480、-7.881、5.68、2.20、2.58、7.33;根据式(10)得出hi<0.429,所以邻苯二甲酸二异庚酯在定量构效关系模型的应用范围内,可以运用定量构效关系模型进行预测,将上述描述符值代入定量构效关系模型的公式,得到LOEC值为2.16,其实验值为3,预测结果良好。
实施例3:
如图6所示,本实施例提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统,该系统包括第一构建模块601、第二构建模块602、第一计算模块603、确定模块604、第三构建模块605、验证模块606、第二计算模块607和预测模块608,各个模块的具体功能如下:
所述第一构建模块601,用于根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。
所述第二构建模块602,用于获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。
所述第一计算模块603,用于将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。
所述确定模块604,用于根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。
所述第三构建模块605,用于根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。
所述验证模块606,用于对定量构效关系模型进行验证。
所述第二计算模块607,用于采用杠杆值法计算定量构效关系模型的应用范围。
所述预测模块608,用于利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
进一步地,所述第一构建模块601如图7所示,具体包括:
获取单元6011,用于通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据。
构建单元6012,根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值。
进一步地,所述确定模块604如图8所示,具体包括:
筛选单元6041,用于将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数。
确定单元6042,用于根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。
本实施例中各个模块的具体实现可以参见上述实施例1的预测方法,需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
可以理解,本实施例的系统中所使用的术语“第一”、“第二”等可用于描述各种模块,但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说,在不脱离本发明的范围的情况下,可以将第一计算模块称为第二计算模块,且类似地,可将第二计算模块称为第一计算模块,第一计算模块和第二计算模块两者都是计算模块,但其不是同一计算模块。
实施例4:
本实施例提供了一种计算机设备,该计算机设备可以是计算机,如图9所示,其包括通过系统总线901连接的处理器902、存储器、输入装置903、显示器904和网络接口905,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质906和内存储器907,该非易失性存储介质906存储有操作系统、计算机程序和数据库,该内存储器907为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器902执行存储器存储的计算机程序时,实现上述实施例1的预测方法,如下:
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。
获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。
将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。
根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。
根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。
对定量构效关系模型进行验证。
采用杠杆值法计算定量构效关系模型的应用范围。
利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
进一步地,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:
通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。
进一步地,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:
将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;
根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。
实施例5:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时,实现上述实施例1的预测方法,如下:
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。
获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。
将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。
根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。
根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。
对定量构效关系模型进行验证。
采用杠杆值法计算定量构效关系模型的应用范围。
利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。
进一步地,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:
通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。
进一步地,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:
将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;
根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明通过选择毒性效应终点值,以构建毒性数据集,以及通过获取每种邻苯二甲酸酯对应的结构参数,以构建结构描述符数据集,将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数,从而确定最佳结构描述符,并建立多元线性回归方程,构建定量构效关系模型,利用定量构效关系模型可以预测未知邻苯二甲酸酯对斑马鱼的毒性效应终点值,有助于深入研究该类化合物的毒理效应,该定量构效关系模型简便,容易理解,且具有良好的稳健性、可靠性和预测能力,便于实际应用,且成本低、简单、高效,能够大大降低实验测试所需的成本,缩短实验周期。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述方法包括:
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;
获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;
将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;
根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符;
根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型;
利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测;
所述根据最佳结构描述符和毒性数据集,建立多元线性回归方程,具体为:
将最佳结构描述符作为自变量,将毒性效应终点值作为因变量Y,利用多元线性回归分析方法建立多元线性回归方程Y=AX+B,其中:
Figure FDA0004107791040000011
式中,n为观测值数量;m为最佳结构描述符中结构参数的数量;A表示未知参数,通过最小二乘法进行估计;B表示随机误差,反映了除x1,x2,…,xm对Y的线性关系之外的随机因素对Y的影响;
所述通过最小二乘法进行估计,如下式:
Figure FDA0004107791040000012
式中,XT为X的转置矩阵;
所述多元线性回归方程的拟合优度检验指标包括决定系数、自由度校正决定系数和均方根误差,F检验的指标包括单因子方差分析计算得到的F值和相关概率p,如下式:
Figure FDA0004107791040000021
Figure FDA0004107791040000022
Figure FDA0004107791040000023
Figure FDA0004107791040000024
式中,yi表示观测值,y表示第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure FDA0004107791040000025
表示各毒性效应终点值的平均值,n表示邻苯二甲酸酯类的化合物数量,
Figure FDA0004107791040000026
表示多元线性回归方程的预测值,R2表示决定系数,
Figure FDA0004107791040000027
表示自由度校正决定系数,RMSE表示均方根误差,SS(total)表示总误差平方和,SS(residual)表示残差平方和;
采用F统计量对应的p值进行检验,若R2≥0.8,显著水平为γ,当p<γ时,多元线性回归方程显著。
2.根据权利要求1所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:
通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;
根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。
3.根据权利要求1所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述计算两因子之间的相关系数,如下式:
Figure FDA0004107791040000028
式中,
Figure FDA0004107791040000029
分别表示各结构参数和毒性效应终点值的平均值,xi和yi分别表示第i种邻苯二甲酸酯对应的结构参数和毒性效应终点值;n表示邻苯二甲酸酯类的化合物数量。
4.根据权利要求1所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:
将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;
根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。
5.根据权利要求1-4任一项所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述构建定量构效关系模型之后,还包括:
对定量构效关系模型进行验证,具体为:
对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集;
根据训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值;
计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,如下式:
Figure FDA0004107791040000031
Figure FDA0004107791040000032
式中,yi obs表示第i种邻苯二甲酸酯实测的毒性效应终点值,yi predcv表示定量构效关系模型第i种邻苯二甲酸酯预测的毒性效应终点值,
Figure FDA0004107791040000033
表示训练集中邻苯二甲酸酯毒性效应终点值的平均值,n表示训练集中邻苯二甲酸酯类的化合物数量;
若Q2 cv>0.6,RMSECV≤0.4,且R2-Q2 cv≤0.3,则定量构效关系模型通过验证;其中,R2表示决定系数。
6.根据权利要求5所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法,其特征在于,所述定量构效关系模型通过验证之后,还包括:
采用杠杆值法计算定量构效关系模型的应用范围,具体为:
计算杠杆值hi,如下式:
hi=Xi T(iTX)-1Xi
式中,xi表示第i种邻苯二甲酸酯对应的结构参数组成的列向量;
计算临界值h*,如下式:
Figure FDA0004107791040000041
式中,p表示定量构效关系模型中的变量数,n表示训练集中邻苯二甲酸酯类的化合物数量;
以最佳结构描述符中的各结构参数的杠杆值为横坐标,预测残差为纵坐标绘制散点图,hi小于h*的坐标空间为定量构效关系模型的应用范围。
7.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法。
8.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述的邻苯二甲酸酯对斑马鱼毒性效应的预测方法。
CN201910898867.6A 2019-09-23 2019-09-23 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质 Active CN110838339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910898867.6A CN110838339B (zh) 2019-09-23 2019-09-23 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910898867.6A CN110838339B (zh) 2019-09-23 2019-09-23 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN110838339A CN110838339A (zh) 2020-02-25
CN110838339B true CN110838339B (zh) 2023-05-05

Family

ID=69575118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910898867.6A Active CN110838339B (zh) 2019-09-23 2019-09-23 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质

Country Status (1)

Country Link
CN (1) CN110838339B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946794A (zh) * 2021-09-14 2022-01-18 深圳大学 零价铁/铜混合物对DBPs反应速率的预测方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733970A (zh) * 2018-05-16 2018-11-02 常州大学 一种基于QSAR/QEcoSAR方法联用预测有机磷阻燃剂对斑马鱼急性毒性的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102328327B1 (ko) * 2014-09-26 2021-11-22 소마로직, 인크. 심혈관 위험 사건 예측 및 이의 용도

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733970A (zh) * 2018-05-16 2018-11-02 常州大学 一种基于QSAR/QEcoSAR方法联用预测有机磷阻燃剂对斑马鱼急性毒性的方法

Also Published As

Publication number Publication date
CN110838339A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
Krewski et al. Toxicity testing in the 21st century: progress in the past decade and future perspectives
Pillar et al. A framework for metacommunity analysis of phylogenetic structure
Egeghy et al. Computational exposure science: an emerging discipline to support 21st-century risk assessment
Weisbrod et al. Workgroup report: review of fish bioaccumulation databases used to identify persistent, bioaccumulative, toxic substances
Jaquiéry et al. Inferring landscape effects on dispersal from genetic distances: how far can we go?
Hartung et al. Systems toxicology
Melagraki et al. Enalos KNIME nodes: Exploring corrosion inhibition of steel in acidic medium
Kazius et al. Substructure mining using elaborate chemical representation
Melbourne-Thomas et al. Comprehensive evaluation of model uncertainty in qualitative network analyses
Sosnowska et al. Towards designing environmentally safe ionic liquids: the influence of the cation structure
Gissi et al. Evaluation and comparison of benchmark QSAR models to predict a relevant REACH endpoint: the bioconcentration factor (BCF)
Kim et al. Reliable predictive computational toxicology methods for mixture toxicity: toward the development of innovative integrated models for environmental risk assessment
Pleil et al. Human biomarker interpretation: the importance of intra-class correlation coefficients (ICC) and their calculations based on mixed models, ANOVA, and variance estimates
Schilter et al. Establishing the level of safety concern for chemicals in food without the need for toxicity testing
Devillers Methods for building QSARs
Chen et al. Ecotoxicological QSAR study of fused/non-fused polycyclic aromatic hydrocarbons (FNFPAHs): Assessment and priority ranking of the acute toxicity to Pimephales promelas by QSAR and consensus modeling methods
Malaj et al. Evolutionary patterns and physicochemical properties explain macroinvertebrate sensitivity to heavy metals
Malloy et al. Advancing alternatives analysis: the role of predictive toxicology in selecting safer chemical products and processes
Rougier et al. Inference in ensemble experiments
Cappelli et al. Assessment of in silico models for acute aquatic toxicity towards fish under REACH regulation
Mackay et al. QSARs for aquatic toxicity: celebrating, extending and displaying the pioneering contributions of Ferguson, Konemann and Veith
Venkatraman et al. In silico prediction and experimental verification of ionic liquid refractive indices
CN110838339B (zh) 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质
Daghighi et al. In silico prediction of the toxicity of nitroaromatic compounds: Application of ensemble learning qsar approach
Bystrova et al. Clustering species with residual covariance matrix in joint species distribution models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant