CN1963523A - 环境有机污染物雌激素活性基于分子结构的快速筛选方法 - Google Patents
环境有机污染物雌激素活性基于分子结构的快速筛选方法 Download PDFInfo
- Publication number
- CN1963523A CN1963523A CNA2006100973622A CN200610097362A CN1963523A CN 1963523 A CN1963523 A CN 1963523A CN A2006100973622 A CNA2006100973622 A CN A2006100973622A CN 200610097362 A CN200610097362 A CN 200610097362A CN 1963523 A CN1963523 A CN 1963523A
- Authority
- CN
- China
- Prior art keywords
- gravity
- compounds
- classification
- class
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 229940011871 estrogen Drugs 0.000 title claims description 56
- 239000000262 estrogen Substances 0.000 title claims description 56
- 230000000694 effects Effects 0.000 title claims description 53
- 230000007613 environmental effect Effects 0.000 title claims description 39
- 239000000356 contaminant Substances 0.000 title claims description 7
- 150000001875 compounds Chemical class 0.000 claims abstract description 136
- 230000005484 gravity Effects 0.000 claims abstract description 57
- 150000002894 organic compounds Chemical class 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims description 34
- 230000015572 biosynthetic process Effects 0.000 claims description 32
- 238000005755 formation reaction Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 16
- 125000003118 aryl group Chemical group 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004617 QSAR study Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 239000012467 final product Substances 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 2
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- -1 aromatic nucleus compound Chemical class 0.000 abstract description 4
- DNXHEGUUPJUMQT-CBZIJGRNSA-N Estrone Chemical compound OC1=CC=C2[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4[C@@H]3CCC2=C1 DNXHEGUUPJUMQT-CBZIJGRNSA-N 0.000 abstract 2
- 230000008569 process Effects 0.000 description 14
- 239000000126 substance Substances 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 11
- 241001465754 Metazoa Species 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- REFJWTPEDVJJIY-UHFFFAOYSA-N Quercetin Chemical compound C=1C(O)=CC(O)=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 REFJWTPEDVJJIY-UHFFFAOYSA-N 0.000 description 4
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 4
- ISAVYTVYFVQUDY-UHFFFAOYSA-N 4-tert-Octylphenol Chemical compound CC(C)(C)CC(C)(C)C1=CC=C(O)C=C1 ISAVYTVYFVQUDY-UHFFFAOYSA-N 0.000 description 3
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 230000004663 cell proliferation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 102000015694 estrogen receptors Human genes 0.000 description 3
- 108010038795 estrogen receptors Proteins 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- MWDZOUNAPSSOEL-UHFFFAOYSA-N kaempferol Natural products OC1=C(C(=O)c2cc(O)cc(O)c2O1)c3ccc(O)cc3 MWDZOUNAPSSOEL-UHFFFAOYSA-N 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005556 structure-activity relationship Methods 0.000 description 3
- 231100000331 toxic Toxicity 0.000 description 3
- 230000002588 toxic effect Effects 0.000 description 3
- ZVOLCUVKHLEPEV-UHFFFAOYSA-N Quercetagetin Natural products C1=C(O)C(O)=CC=C1C1=C(O)C(=O)C2=C(O)C(O)=C(O)C=C2O1 ZVOLCUVKHLEPEV-UHFFFAOYSA-N 0.000 description 2
- HWTZYBCRDDUBJY-UHFFFAOYSA-N Rhynchosin Natural products C1=C(O)C(O)=CC=C1C1=C(O)C(=O)C2=CC(O)=C(O)C=C2O1 HWTZYBCRDDUBJY-UHFFFAOYSA-N 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 230000006957 competitive inhibition Effects 0.000 description 2
- 229940125782 compound 2 Drugs 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002124 endocrine Effects 0.000 description 2
- 231100000705 endocrine Disruptor Screening Program Toxicity 0.000 description 2
- 230000001076 estrogenic effect Effects 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- IYRMWMYZSQPJKC-UHFFFAOYSA-N kaempferol Chemical compound C1=CC(O)=CC=C1C1=C(O)C(=O)C2=C(O)C=C(O)C=C2O1 IYRMWMYZSQPJKC-UHFFFAOYSA-N 0.000 description 2
- 210000005229 liver cell Anatomy 0.000 description 2
- 229950006100 methestrol Drugs 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000002957 persistent organic pollutant Substances 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 235000005875 quercetin Nutrition 0.000 description 2
- 229960001285 quercetin Drugs 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 229910052717 sulfur Inorganic materials 0.000 description 2
- VOXZDWNPVJITMN-ZBRFXRBCSA-N 17β-estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 VOXZDWNPVJITMN-ZBRFXRBCSA-N 0.000 description 1
- UKIFASJPXHGWFX-UHFFFAOYSA-N 2,6-Dimethylhexestrol Chemical compound C=1C=C(O)C=CC=1C(CC)C(CC)C1=C(C)C=C(O)C=C1C UKIFASJPXHGWFX-UHFFFAOYSA-N 0.000 description 1
- 101100484584 Ajellomyces capsulatus VEA1 gene Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- UBSCDKPKWHYZNX-UHFFFAOYSA-N Demethoxycapillarisin Natural products C1=CC(O)=CC=C1OC1=CC(=O)C2=C(O)C=C(O)C=C2O1 UBSCDKPKWHYZNX-UHFFFAOYSA-N 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 244000285963 Kluyveromyces fragilis Species 0.000 description 1
- 235000014663 Kluyveromyces fragilis Nutrition 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 108091027981 Response element Proteins 0.000 description 1
- 102220497176 Small vasohibin-binding protein_T47D_mutation Human genes 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 108010090932 Vitellogenins Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- LHHGDZSESBACKH-UHFFFAOYSA-N chlordecone Chemical compound ClC12C3(Cl)C(Cl)(Cl)C4(Cl)C2(Cl)C2(Cl)C4(Cl)C3(Cl)C1(Cl)C2=O LHHGDZSESBACKH-UHFFFAOYSA-N 0.000 description 1
- 125000001309 chloro group Chemical group Cl* 0.000 description 1
- 230000002153 concerted effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 231100000049 endocrine disruptor Toxicity 0.000 description 1
- 239000000598 endocrine disruptor Substances 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 229960005309 estradiol Drugs 0.000 description 1
- 229930182833 estradiol Natural products 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 108091008039 hormone receptors Proteins 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000008777 kaempferol Nutrition 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 210000004962 mammalian cell Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- UXOUKMQIEVGVLY-UHFFFAOYSA-N morin Natural products OC1=CC(O)=CC(C2=C(C(=O)C3=C(O)C=C(O)C=C3O2)O)=C1 UXOUKMQIEVGVLY-UHFFFAOYSA-N 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 150000003071 polychlorinated biphenyls Chemical group 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000005253 yeast cell Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了环境有机污染物雌激素活性基于分子结构的快速筛选方法,属于环境内分泌干扰物的筛选方法领域。本发明首先是建立筛选环境雌激素活性的模型,将含有芳香环化合物按结构分成了具有代表性的8类化合物,利用Dragon软件分别计算结构信息参数,并将这些化合物进行活性分类,利用QASAR模型来建立判别函数及类别重心,对于含有芳香环的有机化合物,根据结构判断是属于8类结构中的哪一类,再使用dragon软件算出对应结构类中判别函数里所含的参数值,并将参数值带入判别函数进行计算,根据结果进行判定。可以快速、简便、价廉的利用本发明技术初步判定其是否属于环境雌激素,可以节约大量的实验,也可节约大量的人力和财力,准确率可达83.3%以上。
Description
技术领域
本发明属环境科学研究中环境内分泌干扰物的筛选方法领域,更具体的说是针对含有芳香环的有机化合物基于分子结构判定是否具有环境雌激素活性的一种快速筛选方法。
背景技术
1998年,EPA提出了内分泌干扰物筛选计划EDSP(endocrine disruptorscreening program)。EDCs(Endocrine Disruptor Chemicals)种类繁多,伴随经济发展,每年都有大量新型化学物质产生,研究检测化学物的内分泌干扰作用,目前主要是通过实验的方法,分为体内实验和体外实验。
体内试验主要分为动物喂养实验和整体动物试验两个实验。其中动物喂养实验主要是通过测定受试物对动物子代的影响来评价化学物雌激素效应的。具有经济、简便等特点。整体动物试验主要通过测定受试物对动物是否具有促进子官生长的作用来评价其雌激素活性的大小,是最早、最常用的评价化学物雌激素效应的方法。其优点是:可以检测多种雌激素样物质;灵敏度高;某些需要在体内代谢活化才有雌激素活性的物质和中间代谢产物亦可用本法检测;较经济、方便、省时。但这种动物实验由于较动物世代喂养试验更繁琐,且受动物的年龄、性别、品系、营养状u况、个体差异及取样、称重误差等影响,对环境低浓度暴露时不易获得正确结果,不可能作为一种快速筛选方法应用。因此,随后发展出了结合一种或多种可靠的快速短期鉴定雌激素能力的体外筛检方法。
体外实验主要有雌激素受体竞争性抑制法、酵母雌激素筛选法(yeastestrogen screen)、细胞增殖实验筛选法、卵黄蛋白原(VTG)作为生物标志物筛选法。
雌激素受体竞争性抑制法利用3H标记的雌醇测定环境化学物与受体竞争结合的能力。其特点是:灵敏,准确;不易受别的物质的干扰;但其操作步骤繁琐;测定结果只能代表配体与受体的亲和力,而不能准确表示配体的雌激素活性。
酵母雌激素筛选法(yeast estrogen screen)采用含人类雌激素受体基因的质粒以及两个雌激素反应元件的质粒转化酵母细胞,建立了酵母雌激素甄别系统(YES)。其原理是当这种酵母被雌激素或具有的激素效应的化学物质作用时,能产生一种特殊的酶蛋白,使培养基变成蓝色,颜色越深,说明该物质的雌激素活性越强。这种方法适于快速检测、鉴别、特异性地描述环境内分泌干扰化学物。不足之处是该方法的阴性结果需用动物细胞实验证实。
细胞增殖实验筛选法是利用检测靶细胞在指数增长期接触受试物后的细胞增殖数,一般是将受试物体外作用于对雌激素敏感的人或哺乳动物细胞,观察其细胞增殖的能力,并与天然雌激素(如雌二醇)比较,可以判断受试物的雌激素活性大小。常用的细胞有人乳腺癌细胞抹MCF-7、T47D细胞等。
卵黄蛋白原(VTG)作为生物标志物筛选法是根据雌激素或外源性雌激素能刺激卵生动物肝细胞产生卵黄蛋白原(vitellogenin),通过测定其合成的卵黄蛋白原可以评价环境化合物的雌激素活性。这一方法不仅反应配体受体的亲和力,而且由于使用的是脊椎动物肝细胞,因而还能更好地反应受试化合物在体内与受体相互作用并在细胞内调节基因转录的能力。
现今,全球已合成的化学物质约1000万种,每年还有新合成化学物质约10万种,这些化学物质在生产、贮存、运输和使用的过程中不可避免的进入了环境,引起环境污染,如有机氯农药、多氯联苯、苯酚类等。但是,并非所有的化学物质都具有环境雌激素效应。若使用实验室的方法来测试这些化学品的环境雌激素效应,其费用、人力和物力的成本都很高,而且周期长,根本无法满足这样海量筛选的需要。因此,研究开发新的快速筛选方法已成为当前该领域的重点之一。
定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)是指化学品的分子结构与其生物活性之间的内在的定量关系。
文献检索的结果表明:在本发明完成之前,未发现采用QSAR模型基于分子结构来对环境有机污染物雌激素活性的快速筛选方法。
发明内容
1.发明要解决的技术问题
本发明提供了一种快速、简便、价廉的筛选芳香环有机化合物是否具有环境雌激素活性的方法。
2.为解决以上的技术问题,本发明的技术方案如下:
环境有机污染物雌激素活性基于分子结构的快速筛选方法,首先是建立筛选芳香环有机化合物是否具有环境雌激素活性的模型。
(A)从文献(Hong Fang,Weida Tong,Leming M.Shi et al.Structure-Activity Relationships for a Large Diverse Set of Natural,Synthetic,and Environmental Estrogens.Chem.Res.Toxical.[J];2001;14(3):280-294)中查得223个有实验数据LogRBA值(这里的LogRBA值是指雌激素的相对亲和力的负对数,是判断化合物是否是环境雌激素的依据)及其结构的雌激素化合物;并利用ChemOffice软件(
http://www.chemoffice.cn免费下载)画出所有化合物的二维和三维结构,按含有芳香环化合物的结构特征,根据结构相似性原理(即相似结构具有相似的性质)将化合物按结构进行分类,如共同含有苯酚环的一类,则以苯酚环作为母环,取代基或取代位置可以不同。将含有芳香环化合物按结构分成了具有代表性的8类化合物,其各类化合物的母环结构如下:。
(B)利用Dragon软件(Milano Chemometrics and QSAR Research Group.2005.http://www.disat.unimib.it/chm/)分别计算这8类化合物的结构信息参数,包括拓扑特征、几何特征、电子特征,理化特性等共266个参数(这里的266个参数是利用Dragon软件计算时,选择1、constitutional descriptors,2、topological descriptors,7、charge descriptors,8、aromaticity indices,9、Randic molecular profiles,10、geometrical descriptors,15、functionalgroups,17、empirical descriptors,18、properties等所包含的结构信息参数。这几大类的参数和实际上不止266个,但计算完成后,软件会自动统计计算所得的有效参数个数。因此在以后的计算中,只需选择Dragon软件中上面所选的几大类参数即可,计算结果由软件统计);并将这些化合物进行活性分类,即1、LogRBA≥0为强活性;2、0<LogRBA<-4为弱活性;3、LogRBA≤-4为无活性三种情况,这里的活性分类主要参照文献(Hong Fang,Weida Tong,Leming M.Shi et al.Structure-Activity Relationships for a Large Diverse Set ofNatural,Synthetic,and Environmental Estrogens.Chem.Res.Toxical.[J];2001;14(3):280-294)中的活性分类,若文献中的LogRBA值是NA,则在我们的模型中以-4.5来代替。
(C)在分好的每一类化合物中随机抽取训练组和检验组,一般绝大多数分到训练组,因为数据有限,训练组个数越多,所建立的模型就越有代表性。检验组主要是检验所建的模型是否达到了预期的目的,所以一般同一类化合物中不同活性的各留1-3个化合物即可。
(D)将各类化合物中计算所得的结构信息参数、对应的LogRBA值和活性分类数据转导入SPSS软件(
http://www.ayxz.com/soft/9433.htm下载使用,建议向SPSS公司购买正版授权),利用逐步判别分析方法对各类化合物中的训练组进行QSAR模型建立,并得到各类化合物的QASAR模型判别函数及类别重心。即:
Y1=97.794X3av+4.564IC1-22.270 类别重心分别为:2-0.742;3--1.272;
Y21=48.943Homa-129.141Arom+84.497;类别重心分别为:1-2.277,2-2.930,3--9.360;
Y22=-2.691Homa+23.823Arom-20.629; 类别重心分别为:1--2.539,2-0.200,3-0.0337;
Y3=368.703X4A+2.546S3K-93.764PW5-46.116;类别重心分别为:1--1.463;2-2.195;
Y4=19.944Homa-59.509Arom+44.958;类别重心分别为:2-1.557;3--3.58;
Y51=-161.449RCI+0.00011724WW-0.032PSA+238.722;类别重心分别为:1-1.718;2--0.007289;3--4.536;
Y52=118.194RCI+0.00010731WW-0.032PSA-176.3;类别重心分别为:1-1.661;2--0.82;3-2.00;
Y6=0.447Homt-2.405类别重心分别为:2-1.506;3--18.068;
Y71=3.682NBNZ-0.394VEA1-0.066;类别重心分别为:1-1.800;2--1.281;3-1.771:
Y72=2.417NBNZ+14.817VEA1-62.777;类别重心分别为:1-0.007027;2--0.542;3-1.324;
Y8=42.99FDI-40.536类别重心分别为:1--1.157;2-0.827;
(E)对于含有芳香环的有机化合物,根据结构判断是属于所分成的8类结构中的哪一类,若属于第①类,则根据第①类的判别函数和类别重心来进行判断;若属于第②类,则根据第②类的判别函数和类别重心来进行判断,依次类推;
(F)再使用dragon软件算出该化合物对应结构类中判别函数里所含的参数值,并将参数值带入判别函数进行计算,得到Y值,再计算Y值与各类别重心的差,即欧氏距离d,按距离最小原则判归到最近的类中;(检验时将所判的活性类别与以LogRBA值为基础划分的活性类别作比较,进行模型的验证)1类为强活性,其LogRBA值大于等于零,2类为弱活性,其LogRBA值在0~-4之间,3类为无活性,其LogRBA值小于等于-4,若是属于第1、2类,则说明该化合物是环境雌激素,若是属于第3类,则说明该化合物不是环境雌激素。
未知化合物的筛选过程。借鉴文献资料中(Hong Fang,Weida Tong,LemingM.Shi et al.Structure-Activity Relationships for a Large Diverse Setof Natural,Synthetic,and Environmental Estrogens.Chem.Res.Toxical.[J];2001;14(3):280-294)判断是否具有雌激素受体配位过程的方法发明了含有芳香环的化合物的环境雌激素的筛选过程。具体如附图1所示。利用以上所建立的筛选芳香环有机化合物是否具有环境雌激素活性的模型,可以对一个未知化合物是否是环境雌激素进行筛选判断,其具体过程如下:
[1]对于一个未知的化合物,首先是看它的结构,如果这个化合物的结构不含环,则不可能是环境雌激素,如果含有环,则看它是否含有芳香环;
[2]如果不含芳香环,则看它是否含有O、S、N等元素,如果不含,那么不可能是环境雌激素,如果含,则与氢键合力、O-O距离精确度、刚性结构、7α和11β的空间半模拟、LogP等结构特征参数有关,如kepone就是这一类,但由于这类化合物数量很少,无法建立模型,故本发明对此不做具体讨论;
[3]如果含有芳香环,则看它是属于我们所分成的8类结构中的哪一类,若属于第①类,则根据第①类的判别函数和类别重心来进行判断;若属于第②类,则根据第②类的判别函数和类别重心来进行判断,依次类推。比如:化合物4-tert-octylphenol
,它的结构属于我们所分成8类结构中的第①类结构,则我们就根据第①类化合物的判别函数和类别重心来进行判断。首先我们从模型建立的过程中得到的第①类结构化合物的判别函数为:Y=97.794X3av+4.564IC1-22.270,类别重心分别为:2-0.742;3--1.272。现在我们再使用dragon软件算出化合物4-tert-octylphenol的X3av值为0.14,IC1值为2.16,将它们带入以上判别函数,所得Y值为1.2794,再计算Y值与各类别重心的差,即欧氏距离d,按距离最小原则判归到最近的类中,即将这个化合物判为2类,也就是弱活性类。因此,我们最后判定化合物4-tert-octylphenol是环境雌激素,且活性为弱活性,它的LogRBA值在0-4之间。
根据已知化合物的特性,本发明对①类结构化合物的判对能力为89.5%;②类结构化合物的判对能力为94.1%;③类结构化合物的判对能力为95%;④类结构化合物的判对能力为97%;⑤类结构化合物的判对能力为92%;⑥类结构化合物的判对能力为100%;⑦类结构化合物的判对能力为85.4%⑧类结构化合物的判对能力为83.3%。针对一个含有芳香环新的化合物的判定会存在一定的误差,根据统计,误差范围为0~16.7%。
3、有益效果
本发明提供了环境有机污染物雌激素活性基于分子结构的快速筛选方法,针对已知结构的化合物,将定量结构-活性关系技术应用到环境有机污染物雌激素活性筛选,可以快速、简便、价廉的利用本发明技术初步判定其是否属于环境雌激素,虽然本发明不能确保结果的完全准确,但可以节约大量的实验,也可节约大量的人力和财力,准确率可达83.3%以上。
附图说明
图1为本发明环境雌激素的筛选流程图;
图2为第②类结构两个判别方程的判别分类图;
图3为第⑤类结构两个判别方程的判别分类图;
图4为第⑦类结构两个判别方程的判别分类图。
具体实施方式
以下通过实施例进一步说明本发明。
模型的建立过程:
实施例1:
按化合物结构特征分组,有
结构特征的分在一个类中,即第①类结构,从文献中得到本类结构共有21个化合物,将这21个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数;根据活性分类原则,即1、LogRBA≥0为强活性;2、0<LogRBA<-4为弱活性;3、LogRBA≤-4为无活性,从21个化合物中抽出19个化合物为训练组进行模型的建立。这19个化合物中12个为2-弱活性,7个为3-无活性。将这19个化合物计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y=97.794X3av+4.564IC1-22.270,判别重心分别为:2-0.742;3--1.272,总的判对能力为89.5%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例2:
按化合物结构特征分组,有
结构特征的分在一个类中,即第②类结构,共有19个化合物,从中抽取17个作为训练组进行模型建立,17个化合物中1个为1-强活性,12个为2-弱活性,4个为3-无活性。将这17个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数:Y1=48.943Homa-129.141Arom+84.497,Y2=-2.691Homa+23.823Arom-20.629,从判别函数累积能力看,Y1的判断能力极强为98.5%,其重心分别为:1-2.277,2-2.930,3--9.360,Y2的判断能力较弱为1.5%,其重心分别为:1--2.539,2-0.200,3-0.0337,几乎不起作用。分别计算17个化合物的Y1和Y2函数值,以Y1为横坐标,Y2为纵坐标(见图3),可以直观地看出判别函数Y1和Y2将3个类分开,其总的判断能力为94.1%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例3:
按化合物结构特征分组,有结构特征
的分在一个类中,即第③类结构,共有22个化合物,从中抽取20个作为训练组进行模型建立,20个化合物中12个为1-强活性的,8个为2-弱活性。将这20个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y=368.703X4A+2.546S3K-93.764PW5-46.116,类别重心分别为1--1.463;2-2.195。总的判断能力为95%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例4:
按化合物结构特征分组,有结构特征
的分在一个类中,即第④类结构,共有36个化合物,从中抽取33个作为训练组进行模型建立,33个化合物中其中23个为2-弱活性的,10个为3-无活性的。将这33个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y=19.944Homa-59.509Arom+44.958,其重心分别为:2-1.557;3--3.58总的判断能力达97%。并将余下的三个化合物作为检验组化合物对模型进行验证。
实施例5:
按化合物结构特征分组,有结构特征
的分在一个类中,即第⑤类结构,共有27个化合物,从中抽取25个作为训练组进行模型建立,25个化合物中6个为1-强活性,17个为2-弱活性,2个为3-无活性。将这25个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y1=-161.449 RCI+0.00011724WW-0.032PSA+238.722,类别重心分别为:1-1.718,2--0.007289,34.536;Y2=118.194RCI+0.00010731WW-0.032PSA-176.385,类别重心分别为:1-1.661,2--0.82,3-2.00。从判别函数累积能力看,Y1的判断能力较强为62.1%,Y2也起一定的作用,分判断能力为37.9%。分别计算25个化合物的Y1和Y2函数值,以Y1为横坐标,Y2为纵坐标(见图3),可以直观地看出判别函数Y1和Y2共同将3个类分开,总的判断能力为92%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例6:
按化合物结构特征分组,有结构特征
的分在一个类中,即第⑥类结构,共有41个化合物,从中抽取39个作为训练组进行模型建立,39个化合物中36个为2-弱活性的,3个为3-无活性的。将这39个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y6=0.447Homt-2.405,其重心分别为:2-1.506;3--18.068。总的判断能力达100%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例7:
按化合物结构特征分组,有结构特征
的分在一个类中,即第⑦类结构,共有44个化合物,从中抽取41个作为训练组进行模型建立,41个化合物中12个为1-强活性,23个为2-弱活性的,6个为3-无活性。将这41个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y1=3.682NBNZ-0.394VEA1-0.066;Y2=2.417NBNZ+14.817VEA1-62.777。从判别函数累积能力看,Y1的判断能力较强为85.4%,Y2也起一定的作用,分判断能力为12.9%,分别计算41个化合物的Y1和Y2函数值,以Y1为横坐标,Y2为纵坐标(见图4),可以直观地看出判别函数Y1和Y2共同将3个类分开,总的判断能力方程总的判断能力为85.4%。并将余下的两个化合物作为检验组化合物对模型进行验证。
实施例8:
按化合物结构特征分组,有结构特征
的分在一个类中,即第⑧类结构,共有13个化合物,从中抽取12个作为训练组进行模型建立,12个化合物中其中7个为1-强活性的,5个为2-弱活性的。将这12个化合物的二维结构用Chemoffice软件画出并进行优化后,使用Dragon软件计算它们的结构信息参数,并将计算所得的结构信息参数与分类情况在SPSS软件中进行逐步判别分析,得到此类结构的判别函数为:Y=42.99FDI-40.536,其重心分别为1--1.157;2-0.827,总的判断能力为83.3%。并将余下的两个化合物作为检验组化合物对模型进行验证。
新化合物的筛选过程
实施例9:
实施例10:
实施例11:
化合物2,6-dimethylhexestrol(
),其结构与我们分成的8类结构中第③类结构有相似的母结构,因此,根据我们的筛选过程,按第③类化合物的判别函数和类别重心来进行判断,即:Y3=368.703X4A+2.546S3K-93.764PW5-46.116;类别重心分别为:1--1.463;2-2.195。现使用dragon软件算出化合物2,6-dimethylhexestrol的X4A值为0.121,S3K值为3.594,PW5值为0.107,将它们带入以上判别函数,所得Y3值为-2.386,再计算Y值与各类别重心的差,即欧氏距离d,Y3与1类的距离d为0.923,Y3与2类的距离d为4.581,按距离最小原则判归到最近的类中,即将这个化合物判为1类,也就是强活性类。因此,我们最后判定化合物2,6-dimethylhexestrol是环境雌激素,且活性为强活性,它的LogRBA值大于零。
实施例12:
化合物quercetin
,其结构与我们分成的8类结构中第④类结构有相似的母结构,因此,根据我们的筛选过程,按第④类化合物的判别函数和类别重心来进行判断,即:Y4=19.944Homa-59.509Arom+44.958;类别重心分别为:2-1.557;3--3.58。现使用dragon软件算出化合物kaempferol的Homa值为-4.285,Arom值为-0.638,将它们带入以上判别函数,所得Y4值为-1.535,再计算Y值与各类别重心的差,即欧氏距离d,Y4与2类的距离d为3.092,Y3与3类的距离d为2.045,按距离最小原则判归到最近的类中,即将这个化合物判为3类,也就是无活性类。因此,我们最后判定化合物quercetin不是环境雌激素,它的LogRBA值小于4。
实施例13:
如化合物cholesterol
,其结构与我们分成的8类结构中第⑦类结构有相似的母结构,因此,根据我们的筛选过程,按第⑦类化合物的判别函数和类别重心来进行判断,即:Y71=3.682NBNZ-0.394VEA1-0.066;类别重心分别为:1-1.800;2--1.281;3-1.771;Y72=2.417NBNZ+14.817VEA1-62.777;类别重心分别为:1-0.007027;2--0.542;3-1.324。现使用dragon软件算出化合物cholesterol的NBNZ值为0,VEA1值为4.363,将它们带入以上判别函数,所得Y71值为-1.785,Y72值为1.869,再计算Y71值和Y72与各类别重心的差,即欧氏距离d,按距离最小原则判归到最近的类中,同时将Y71和Y72值在图5(第⑦类结构两个判别方程的判别分类图)上标出,并结合图上类别重心点来判断,即将这个化合物判为3类,也就是无活性类。因此,我们最后判定化合物cholesterol不是环境雌激素,它的LogRBA值在4以下。
Claims (3)
1.一种环境有机污染物雌激素活性基于分子结构的快速筛选方法,其主要包括以下步骤:
(A)筛选环境雌激素模型的建立,从文献中查得223个有实验数据LogRBA值及其结构的化合物;并利用ChemOffice软件画出所有化合物的二维和三维结构,按含有芳香环化合物的结构特征,根据结构相似性原理,将含有芳香环化合物按结构分成了具有代表性的8类化合物,其各类化合物的母环结构如下:
利用Dragon软件分别计算这8类化合物的结构信息参数,并将这些化合物进行活性分类,即1、LogRBA≥0为强活性;2、0<LogRBA<-4为弱活性;3、LogRBA≤-4为无活性三种情况;
在分好的每一类化合物中随机抽取训练组和检验组;
将各类化合物中计算所得的结构信息参数、对应的LogRBA值和活性分类数据转导入SPSS软件,利用逐步判别分析方法对各类化合物中的训练组进行QSAR模型建立,并得到各类化合物的QASAR模型判别函数及类别重心,即:
Y1=97.794X3av+4.564IC1-22.270类别重心分别为:2-0.742;3--1.272;
Y21=48.943Homa-129.141Arom+84.497;类别重心分别为:1-2.277,2-2.930,3--9.360;
Y22=-2.691Homa+23.823Arom-20.629;类别重心分别为:1--2.539,2-0.200,3-0.0337;
Y3=368.703X4A+2.546S3K-93.764PW5-46.116;类别重心分别为:1--1.463;2-2.195;
Y4=19.944Homa-59.509Arom+44.958;类别重心分别为:2-1.557;3--3.58;
Y51=-161.449RCI+0.00011724WW-0.032PSA+238.722;类别重心分别为:1-1.718;2--0.007289;3--4.536;
Y52=118.194RCI+0.00010731WW-0.032PSA-176.3;类别重心分别为:1-1.661;2--0.82;3-2.00;
Y6=0.447Homt-2.405类别重心分别为:2-1.506;3--18.068;
Y71=3.682NBNZ-0.394VEA1-0.066;类别重心分别为:1-1.800;2--1.281;3--1.771;
Y72=2.417NBNZ+14.817VEA1-62.777;类别重心分别为:1-0.007027;2--0.542;3-1.324;
Y8=42.99FDI-40.536类别重心分别为:1--1.157;2-0.827;
(B)对于含有芳香环的有机化合物,根据结构判断是属于所分成的8类结构中的哪一类,若属于第①类,则根据第①类的判别函数和类别重心来进行判断;若属于第②类,则根据第②类的判别函数和类别重心来进行判断,依次类推;
(C)再使用dragon软件算出该化合物对应结构类中判别函数里所含的参数值,并将参数值带入判别函数进行计算,得到Y值,再计算Y值与各类别重心的差,即欧氏距离d,按距离最小原则判归到最近的类中,1类为强活性,其LogRBA值大于等于零,2类为弱活性,其LogRBA值在0~-4之间,3类为无活性,其LogRBA值小于等于-4,若是属于第1、2类,则说明该化合物是环境雌激素,若是属于第3类,则说明该化合物不是环境雌激素。
2.根据权利要求1所述的环境有机污染物雌激素活性基于分子结构的快速筛选方法,其特征在于步骤(A)中在分好的每一类化合物中随机抽取训练组和检验组时,绝大多数分到训练组,检验组主要是检验所建的模型是否达到了预期的目的,所以一般同一类化合物中不同活性的各留1-3个化合物在检验组即可。
3.根据权利要求2所述的环境有机污染物雌激素活性基于分子结构的快速筛选方法,其特征在于步骤(A)中得到各类化合物的QASAR模型判别函数及类别重心后对各类化合物进行模型检验:计算各类化合物中检验组的结构信息参数,选择其判别函数中所对应的参数值,代入各类所得判别函数中计算Y值;比较Y值与各类别重心的差,即欧氏距离d,按距离最小原则判归到最近的类中;然后将这种方法所判的活性类别与以LogRBA值为基础划分的活性类别作比较,进行模型的验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100973622A CN1963523A (zh) | 2006-11-01 | 2006-11-01 | 环境有机污染物雌激素活性基于分子结构的快速筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100973622A CN1963523A (zh) | 2006-11-01 | 2006-11-01 | 环境有机污染物雌激素活性基于分子结构的快速筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1963523A true CN1963523A (zh) | 2007-05-16 |
Family
ID=38082665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006100973622A Pending CN1963523A (zh) | 2006-11-01 | 2006-11-01 | 环境有机污染物雌激素活性基于分子结构的快速筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1963523A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595565C (zh) * | 2007-09-27 | 2010-03-24 | 中国人民解放军第三军医大学第一附属医院 | 一种基于ERα激活效应的环境内分泌干扰物的PCR定量检测方法与试剂盒 |
CN101381894B (zh) * | 2008-05-30 | 2013-03-06 | 南京大学 | 一种有机物雌激素受体激动和拮抗作用的识别方法 |
CN103077313A (zh) * | 2013-01-09 | 2013-05-01 | 湖南农业大学 | 酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用 |
CN109298151A (zh) * | 2018-09-27 | 2019-02-01 | 江苏雅信昆成检测科技有限公司 | 一种能识别多种环境内分泌干扰物的检测方法 |
-
2006
- 2006-11-01 CN CNA2006100973622A patent/CN1963523A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595565C (zh) * | 2007-09-27 | 2010-03-24 | 中国人民解放军第三军医大学第一附属医院 | 一种基于ERα激活效应的环境内分泌干扰物的PCR定量检测方法与试剂盒 |
CN101381894B (zh) * | 2008-05-30 | 2013-03-06 | 南京大学 | 一种有机物雌激素受体激动和拮抗作用的识别方法 |
CN103077313A (zh) * | 2013-01-09 | 2013-05-01 | 湖南农业大学 | 酚对发光菌毒性预测及评估的新型非线性高效模型构建方法及应用 |
CN103077313B (zh) * | 2013-01-09 | 2016-12-28 | 湖南农业大学 | 酚对发光菌毒性预测及评估的非线性高效模型构建方法及应用 |
CN109298151A (zh) * | 2018-09-27 | 2019-02-01 | 江苏雅信昆成检测科技有限公司 | 一种能识别多种环境内分泌干扰物的检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Data-driven machine learning in environmental pollution: gains and problems | |
Yang et al. | Comprehensive ecological risk assessment for semi-arid basin based on conceptual model of risk response and improved TOPSIS model-a case study of Wei River Basin, China | |
Su et al. | Single cell proteomics in biomedicine: High‐dimensional data acquisition, visualization, and analysis | |
Mucha et al. | Vertical distribution of the macrobenthic community and its relationships to trace metals and natural sediment characteristics in the lower Douro estuary, Portugal | |
Zimmer et al. | Artificial intelligence understands peptide observability and assists with absolute protein quantification | |
Jiang et al. | Trace metal pollution in topsoil surrounding the Xiangtan manganese mine area (South-Central China): source identification, spatial distribution and assessment of potential ecological risks | |
Guan et al. | Assessing the spatiotemporal evolution of anthropogenic impacts on remotely sensed vegetation dynamics in Xinjiang, China | |
CN1963523A (zh) | 环境有机污染物雌激素活性基于分子结构的快速筛选方法 | |
CN109829534B (zh) | 露天煤矿排土场群落稳定性的评价方法、装置和系统 | |
Lyu et al. | Extracting the tailings ponds from high spatial resolution remote sensing images by integrating a deep learning-based model | |
Hellmann et al. | Isoscapes resolve species-specific spatial patterns in plant–plant interactions in an invaded Mediterranean dune ecosystem | |
Huang et al. | A hybrid data-driven framework for diagnosing contributing factors for soil heavy metal contaminations using machine learning and spatial clustering analysis | |
Wei et al. | The levels, sources, and spatial distribution of heavy metals in soils from the drinking water sources of Beijing, China | |
Jiang et al. | Source analysis and health risk assessment of heavy metals in agricultural land of multi-mineral mining and smelting area in the Karst region–a case study of Jichangpo Town, Southwest China | |
Ni et al. | Distribution and source apportionment of heavy metals in soil around Dexing copper mine in Jiangxi Province, China | |
Teixeira et al. | A multidisciplinary fingerprinting approach for authenticity and geographical traceability of Portuguese wines | |
Bravo-Alfaro et al. | Galaxy evolution in Abell 85-I. Cluster substructure and environmental effects on the blue galaxy population | |
Wang et al. | Application of hyperspectral technology combined with genetic algorithm to optimize convolution long-and short-memory hybrid neural network model in soil moisture and organic matter | |
Zhang et al. | Bioavailability (BA)-based risk assessment of soil heavy metals in provinces of China through the predictive BA-models | |
Dou et al. | Geographical origin identification of camellia oil based on fatty acid profiles combined with one-class classification | |
CN110331225A (zh) | 一种基于转录组学结合蛋白组学tmt研究莲花斑形成分析方法 | |
Fu et al. | Estimating the heavy metal contents in entisols from a mining area based on improved spectral indices and Catboost | |
Wu et al. | Influential topographic factor identification of soil heavy metals using GeoDetector: The effects of DEM resolution and pollution sources | |
CN101140289A (zh) | 基于分子结构快速筛选环境有机污染物雄激素的方法 | |
CN117352092A (zh) | 多河流交汇物源源-汇分析方法及分析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20070516 |