CN109545289A

CN109545289A - 一种基于分级警示结构高通量筛查内分泌干扰物的方法

Info

Publication number: CN109545289A
Application number: CN201811597767.1A
Authority: CN
Inventors: 史薇; 谭皓月; 陈钦畅; 于红霞
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-25
Filing date: 2018-12-25
Publication date: 2019-03-29
Anticipated expiration: 2038-12-25
Also published as: CN109545289B

Abstract

本发明的一种基于分级警示结构高通量筛查内分泌干扰物的方法，涉及内分泌干扰物的虚拟筛选与活性预测领域。本发明利用子结构频率分析和子结构占比分析提取活性数据化合物的一级警示结构；利用SARpy软件对满足一级警示结构的化合物进行二级警示结构的提取；利用SARpy软件进行三级警示结构的提取；将一级警示结构和二级警示结构组合构成活性预测模块，在预测模块中先筛查出存在特征结构的化合物，再基于二级警示结构筛查出具有潜在内分泌干扰作用的警示化合物；将三级警示结构作为干扰活性预测模块，而后再基于干扰活性预测模块筛查干扰活性。本发明可以对潜在核受体介导的内分泌干扰物进行高通量筛查。

Description

一种基于分级警示结构高通量筛查内分泌干扰物的方法

技术领域

本发明涉及内分泌干扰物的虚拟筛选与活性预测领域，更具体地说，涉及一种基于分级警示结构高通量筛查内分泌干扰物的方法。

背景技术

人体中含有48个核受体，如雄激素受体(Androgen Receptor，AR)、雌激素受体(Estrogen Receptor α/β，ERα/β)、糖皮质激素受体(Glucocorticoid Receptor，GR)、盐皮质激素受体(Mineralocorticoid Receptor，MR)、孕激素受体(Progesterone Receptor，PR)、视黄酸受体(Retinoic Acid Receptorα/β/γ，RARα/β/γ)、甲状腺激素受体(ThyroidHormone Receptorα/β，TRα/β)和维生素D受体(Vitamin D Receptor，VDR)等；它们是一类依靠天然激素调节的转录因子，天然激素通过配体-受体的竞争结合，进而引起一系列关键事件，最终对内分泌系统产生调节作用。然而，大量研究发现一些人为合成的和天然的化合物，可以模仿或抵抗天然激素，并干扰人类和野生动物正常的内分泌系统，这种化合物被称为内分泌干扰物(Endocrine Disrupting Chemicals，EDCs)。目前，已有许多化合物被检测出对核受体存在明显干扰活性，例如多溴联苯醚、双酚A、菊酯农药等，这些化学物质也受到人们的广泛关注。为了筛查潜在的内分泌干扰物，人们发展了各种有效地体内和体外实验方法，其中包括竞争结合、报告基因、酵母双杂交和荧光偏振等体外试验和小鼠子宫增重等体内试验。然而，一方面，采用这些试验方法费时费力，还相当昂贵；另一方面，环境中存在成千上万的化学物质，很难逐一筛查。

面对这种困难，科学家们发展了基于计算机模拟的虚拟筛选方法来筛查潜在内分泌干扰物。定量结构效应关系(Quantitative Structure-Activity Relationship，QSAR)作为一种成熟的方法已在内分泌干扰研究中广泛使用。它可以利用分子描述符提取并描绘化合物生物活性与结构特征之间的关系。然而，绝大多数的分子描述符没有明确的药理学或生物学信息，这会导致一个“黑箱子”缺陷，即无法有效地给出基于机制上的明确结论。基于配体-受体结合亲和力大小的分子对接(Molecular Docking)方法也成功运用于筛查潜在内分泌干扰物。然而忽视核受体本身的柔性和筛选精度差的缺陷限制了该方法的发展。随着计算机技术的发展和计算能力的提升，分子动力学(Molecular dynamics，MD)模拟逐渐成为研究生物大分子作用的标准方法。分子动力学模拟是研究原子和分子物理运动的计算机模拟方法，所有分子和原子在给定的时间范围内相互作用，形成一个动态变化的系统，以此研究生物分子之间的相互作用。虽然分子动力学模拟能很好地反映分子作用机制，但耗时长，不适宜进行高通量筛查。

结构警示子(Structural Alert，SA)来源于结构-效应关系，是一种与特定生物活性相关的、存在机制原理的活性化合物结构片段。基于分子启动事件提取结构警示子可以从源头移除大量的生物信息复杂性，在结构特征和有害结局之间提供更为紧密的联系。除此之外，结构警示子还可以提供对生物化学作用机制上的解析，展现出现在高通量研究各类内分泌干扰物的可行性。结构警示子已被用于关注药理学和药物安全方面的靶标研究，并且已经取得了显著成果，如筛查潜在的肝毒性化合物、线粒体毒性化合物等等。虽然结构警示子作为一种补充方法已被用于研究内分泌干扰物，但在高通量筛查识别潜在内分泌干扰物方面还存在一个缺口。利用结构警示子来研究配受体结合可以理解干扰活性产生的第一步。因此，结构警示子可以作为一种无偏差方法，将不同来源的内分泌干扰物进行聚类，并将干扰活性与化学结构特征联系起来，给高通量筛查潜在内分泌干扰物提供一个可能。

针对内分泌干扰物的筛查，现有技术也给出了一些解决方案，例如发明创造名称：一种人运甲状腺素蛋白干扰物虚拟筛选方法(专利公开号：CN106407665A，公开日：2017-02-15)曾利用过QSAR技术构建了一种干扰物筛选方法，虽然通量高，但适用范围狭窄，且无法有效地给出机制上的解释。还有发明创造名称：基于分子动力学模拟的核受体介导内分泌干扰物质的虚拟筛选方法(专利公开号：CN103324861A，公开日：2013-09-25)、一种有机物雌激素受体激动和拮抗作用的识别方法(专利公开号：CN101381894A，公开日：2009-03-11)和一种基于分子动力学模拟筛分黄酮类化合物抗雄活性方法(专利公开号：CN106407740A，公开日：2017-02-15)都曾利用分子动力学模拟方法来判断化合物是否具有潜在的内分泌干扰效应，然而，这三种方法虽然从机制上研究了配体-受体之间的作用关系，但耗时常，面对目前已有CAS号的一亿余个化学物质，无法提供有效地高通量筛查手段。

文献检索结果表明，还未发现利用分级警示结构方法构建一种高通量筛查潜在核受体介导的内分泌干扰物的方法报道。因此设计并实施一个筛查潜在的内分泌干扰物的方法是很有必要的。

发明内容

1.发明要解决的技术问题

本发明的目的在于克服现有技术中，不能有效地高通量筛查潜在核受体介导的内分泌干扰物的不足，提供了一种基于分级警示结构高通量筛查内分泌干扰物的方法，可以对潜在核受体介导的内分泌干扰物进行高通量筛查，从而可以准确快速的判断出核受体介导的内分泌干扰物。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种基于分级警示结构高通量筛查内分泌干扰物的方法，

提取一级警示结构：

基于PubChem fingerprint分子指纹库，利用子结构频率分析和子结构占比分析提取活性数据化合物的一级警示结构；

提取二级警示结构：

利用SARpy软件对满足一级警示结构的化合物进行二级警示结构的提取；

提取三级警示结构：

利用SARpy软件对同时满足一级警示结构和二级警示结构的化合物进行三级警示结构的提取；

将一级警示结构和二级警示结构组合构成活性预测模块，在预测模块中先筛查出存在特征结构的化合物，再基于二级警示结构筛查出具有潜在内分泌干扰作用的警示化合物；将三级警示结构作为干扰活性预测模块，而后再基于干扰活性预测模块筛查干扰活性。

优选地，提取一级警示结构之前还包括步骤：活性数据的收集

从公开数据库中将具有竞争结合实验，报告基因实验和细胞毒性实验的三种体外实验数据的化合物进行收集，并得到活性数据。

优选地，提取一级警示结构的具体方法如下：

1)计算化合物的PubChem fingerprints子结构，

2)利用进行子结构频率分析，

3)再利用进行子结构占比分析；并通过R语言的pheatmap算法得到一级警示结构；

其中上述的

含有该结构碎片的活性化合物数；

N_total：整个数据集化合物的总数；

N_{fragment_total}：含有该结构碎片的化合物总数；

N_A：数据集中活性化合物的总数；

含有该结构碎片的非活性化合物总数；

N_I数据集中非活性化合物的总数。

优选地，提取一级警示结构后将满足一级警示结构的化合物进行分类，具体分类方法是：将含有极性原子和芳香环键的一级警示结构作为Type 1；再将只含有极性原子而不存在芳香环键作为Type 2；最后将任意碳链作为Type 3。

优选地，提取三级警示结构的具体方法是：

1)将同时满足一级警示结构和二级警示结构的化合物根据干扰活性分为拟性干扰物、抗性干扰物、又拟又抗干扰物；

2)利用SARpy软件分析得到活性化合物所含有的二级警示结构信息，通过R语言进行聚类分析，再根据热图分析，将唯一存在于某一种干扰活性条件下的化合物的特征二级警示结构设定为三级警示结构；

3)针对特征二级警示结构无法区分的活性化合物，利用SARpy软件进行相关特征三级警示结构的提取三级警示结构；核受体介导内分泌干扰物的三级警示结构提取完毕。

优选地，活性数据的收集和提取一级警示结构之间还包括步骤：化合物的活性分类，基于得到的活性数据，将化合物分为活性、非活性、拟性、又拟又抗和抗性五类。

优选地，活性数据的收集选取的实验都需是人类细胞实验。

优选地，计算化合物的PubChem fingerprints子结构的方法为：利用PaDEL-descriptor软件，在General中的Descriptors栏中选择Fingerprints，Standardize中选择Remove salt、Detect aromaticity和Standardize nitro groups，再在Fingerprints中勾选Pubchemfingerpints分子指纹库，进行化合物的PubChem fingerprints子结构的计算。

优选地，提取三级警示结构的具体方法是：

活性：存在竞争结合活性，同时至少存在一种报告基因实验活性，即当竞争结合活性＞0且＞细胞毒性，拟性/抗性报告基因活性＞0且＞细胞毒性时，化合物为活性化合物；

非活性：既不存在竞争结合活性又不存在报告基因活性，该报告基因活性包括拟性报告基因实验和抗性报告基因实验，即当竞争结合活性＝0或≤细胞毒性和报告基因活性＝0或≤细胞毒性时，化合物为非活性化合物；

拟性：在已定义的活性化合物中，存在拟性报告基因实验活性，却没有抗性报告基因实验活性，即当拟性报告基因实验活性＞0且＞细胞毒性，抗性报告基因实验活性＝0或≤细胞毒性时，化合物为拟性干扰物；

又拟又抗：在已定义的活性化合物中，既存在拟性报告基因实验活性，又存在抗性报告基因实验活性，即当拟性报告基因实验活性＞0且＞细胞毒性，抗性报告基因实验活性＞0且＞细胞毒性时，化合物为又拟又抗干扰物；

抗性：在已定义的活性化合物中，不存在拟性报告基因实验活性，却存在抗性报告基因实验活性，即当拟性报告基因实验活性＝0或≤细胞毒性，抗性报告基因实验活性＞0且＞细胞毒性，时，化合物为抗性干扰物。

优选地，利用公式：对化合物的活性强度进行标准化和分级；其中：Activity value代表活性强度值，K_i代表抑制常数，K_d代表离解常数，AC₅₀代表半数活性浓度，IC₅₀代表半数抑制浓度，EC₅₀代表半数效应浓度，uM表示微摩尔量，Activity value≥7代表强活性强度，7＞Activity value≥6代表中活性强度，Activity value＜6代表弱活性强度。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

(1)本发明的一种基于分级警示结构高通量筛查内分泌干扰物的方法，基于PubChem fingerprint分子指纹库，利用子结构频率分析和子结构占比分析提取活性数据化合物的一级警示结构；利用SARpy软件对满足一级警示结构的化合物进行二级警示结构的提取；利用SARpy软件对同时满足一级警示结构和二级警示结构的化合物进行三级警示结构的提取；将一级警示结构和二级警示结构组合构成活性预测模块，在预测模块中先筛查出存在特征结构的化合物，再基于二级警示结构筛查出具有潜在内分泌干扰作用的警示化合物；将三级警示结构作为干扰活性预测模块，而后再基于干扰活性预测模块筛查干扰活性，识别出不同类型的内分泌干扰物所对应的警示结构，形象地建立起不同结构引起对于活性的内在机制；

(2)本发明的一种基于分级警示结构高通量筛查内分泌干扰物的方法，利用分级警示结构的新方法构建了全新的基于警示结构的内分泌干扰物高通量筛查模型，半定量预测干扰物的结合活性和干扰活性的大小，其预测效果比传统QSAR模型优良；

(3)本发明的一种基于核受体分子启动事件的分级警示结构识别与高通量筛查的方法，相比于传统的QSAR筛查方法，此方法克服了QSAR模型的黑箱子缺陷并且预测准确度高达0.99，高于基于相同数据集构建的传统QSAR模型(准确度≤0.93)；相比于分子对接方法，此方法的预测准确度大幅提高；相比于分子动力学模拟方法，此方法也具备了分子动力学模拟不具备的成本低廉、操作简单、效率更高的优点，更适用于高通量筛查未知内分泌干扰活性的化合物；

(4)本发明的一种基于核受体分子启动事件的分级警示结构识别与高通量筛查的方法，相比于其他预测模型，此方法更全面的考虑了分子作用机制，可以区分出拟性/又拟又抗/抗性物质，定性和半定量的预测结果也更为可靠。

附图说明

图1以雄激素受体(Androgen Receptor，AR)为例通过子结构频率分析和子结构占比分析得到的22个一级警示结构；

图2以雄激素受体(Androgen Receptor，AR)为例的训练集和测试集预测结果图；

图3以雄激素受体(Androgen Receptor，AR)为例基于警示结构分级筛查潜在活性内分泌干扰物的预测效果与15种传统QSAR预测效果的对比；

图4以雄激素受体(Androgen Receptor，AR)为例基于核受体分子启动事件的分级警示结构识别与高通量筛查的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

本实施例的一种基于分级警示结构高通量筛查内分泌干扰物的方法，

提取一级警示结构：

提取二级警示结构：

提取三级警示结构：

将一级警示结构和二级警示结构组合构成活性预测模块，在预测模块中先筛查出存在特征结构的化合物，再基于二级警示结构筛查出具有潜在内分泌干扰作用的警示化合物；将三级警示结构作为干扰活性预测模块，而后再基于干扰活性预测模块筛查干扰活性。具体的详细步骤如下：

步骤(1)从公开数据库中，其中，公开数据库是指ToxCast/Tox21(https：//www.epa.gov/chemical-research/toxicity-forecaster-toxcasttm-data)和ChEMBL(https：//www.ebi.ac.uk/chembl/)等公开活性数据库，所有存在实验数据的化合物都会被收录到库中。步骤(1)中，针对的目标核受体包括如雄激素受体(Androgen Receptor，AR)、雌激素受体(Estrogen Receptorα/β，ERα/β)、糖皮质激素受体(GlucocorticoidReceptor，GR)、盐皮质激素受体(Mineralocorticoid Receptor，MR)、孕激素受体(Progesterone Receptor，PR)、视黄酸受体(Retinoic Acid Receptorα/β/γ，RARα/β/γ)、甲状腺激素受体(Thyroid Hormone Receptorα/β，TRα/β)和维生素D受体(Vitamin DReceptor，VDR)等。

针对目标核受体，选取具有三类体外实验(竞争结合实验、报告基因实验、细胞毒性实验)结果的化合物为数据集，并将化合物的活性数据标准化和活性强度分类。其中，选取竞争结合实验和报告基因实验的原理是确保化合物是通过干扰天然激素与核受体的结合过程来产生内分泌干扰作用，即证明干扰物是基于核受体分子启动机制产生的内分泌干扰作用。选取细胞毒性实验的原理是确保化合物产生干扰作用的时候并不会导致细胞毒性，产生细胞损伤。以雄激素受体为例，从ToxCast/Tox21数据库中，选取的竞争结合实验为NVS_NR_hAR，报告基因实验为Tox21_AR_BLA_Agonist_ratio和Tox21_AR_BLA_Antagonist_ratio，细胞毒性实验为NCCT_HEK293T_CellTiterGLO，从ChEMBL数据库中，在Targets栏中输入Androgen Receptor，Target Type选择SINGLE PROTEIN，Organism选择Homo sapiens，再选取收集同时具有B类(Binding Affinity)实验结果和F类(Functional Assay)实验结果的化合物数据。需要注意的是，所有选取的实验都需是人类细胞实验。步骤(1)中采用公式：将化合物的活性数据标准化，其中uM表示微摩尔量。注：Activitv value：代表活性值，抑制常数Ki(inhibitor constant)，离解常数Kd(dissociation constant)，半数活性浓度AC50(half-maximal activity)，半数抑制浓度IC50(half-maximal inhibition)，半数效应浓度EC50(half-maximal effect)。活性强度(Potency categories)：强(活性≥7)，中(7＞活性≥6)，弱(6＞活性)。

步骤(2)将化合物分别定义为活性、非活性、拟性、又拟又抗、抗性五类。五类定义和活性强度分别为：

活性(Active)：存在竞争结合活性，同时至少存在一种报告基因实验活性，且两类活性数值都必须大于细胞毒性实验数值，即竞争结合活性＞0且＞细胞毒性，拟性(抗性)报告基因实验活性＞0且＞细胞毒性，则化合物为活性化合物；

非活性(Inactive)：既不存在竞争结合活性又不存在报告基因活性(包括拟性报告基因实验和抗性报告基因实验)，即竞争结合活性＝0且拟性(抗性)报告基因实验活性＝0，则化合物为非活性化合物；

拟性(Agonist)：在已定义的活性化合物中，存在拟性报告基因实验活性，却没有抗性报告基因实验活性，即拟性报告基因实验活性＞0且＞细胞毒性，抗性报告基因实验活性＝0或≤细胞毒性，则化合物为拟性干扰物；

又拟又抗(A-Anta)：在已定义的活性化合物中，既存在拟性报告基因实验活性，又存在抗性报告基因实验活性，即拟性报告基因实验活性＞0且＞细胞毒性，抗性报告基因实验活性＞0且＞细胞毒性，则化合物为又拟又抗干扰物；

抗性(Antagonist)：在已定义的活性化合物中，不存在拟性报告基因实验活性，却存在抗性报告基因实验活性，即拟性报告基因实验活性＝0或≤细胞毒性，抗性报告基因实验活性＞细胞毒性，则化合物为抗性干扰物。

步骤(3)人工检查并移除数据集中存在错误SMILE号的化合物和重复的化合物。将数据集任意分为训练集和测试集的方法可以是利用KNIME中的Partitioning Mode(https：//www.knime.com/)，在First partition中选择Relative[％]，输入60％～80％的数值，再选择Draw randomly将数据集任意分为训练集和测试集，其中训练集用来提取分级警示结构，进而构建预测模型，测试集用来进行外部验证。

步骤(4)一级警示结构(Primary Structural Alert)的提取：根据活性、非活性化合物的定义，将整个数据集分为活性化合物和非活性化合物两部分，然后利用利用子结构频率分析和子结构占比分析提取出一级活性警示结构。具体步骤为：

首先利用PaDEL-descriptor软件中的PubChem fingerprint数据库计算出所有化合物含有的子结构，利用PaDEL-descriptor软件计算子结构的具体方法是在General中的Descriptors栏中选择Fingerprints，Standardize中选择Remove salt、Detectaromaticity和Standardize nitro groups，再在Fingerprints中勾选Pubchemfingerpints分子指纹库，进行所有化合物的子结构计算。利用得出所有子结构的频率，从高到低排序，以前80～120个结构碎片为阈值，得出频率高频结构碎片。再基于子结构占比分析算法，具体公式为：利用R语言中的pheatmap算法得出不仅能描述活性化合物又能排除非活性化合物的结构碎片，称之为一级警示结构，最终，一级警示结构以SMARTS strings来表示。R语言的pheatmap算法具体为：

library(pheatmap)

tot＜-read.csv(″C：/Agonist.csv″，row.names＝1)

pheatmap(tot，cluster_cols＝FALSE，border_color＝NA，fontsize_row＝3)

上述的含有该结构碎片的活性化合物数；N_total：整个数据集化合物的总数；N_{fragment_total}：含有该结构碎片的化合物总数；N_A：数据集中活性化合物的总数；含有该结构碎片的非活性化合物总数；N_I数据集中非活性化合物的总数。

步骤(5)二级警示结构(Secondary Structural Alert)的提取：

首先，基于一级警示结构的结构特征，将含有一级警示结构的活性/非活性化合物进行分类(组间化合物无交叉)；将化合物分类的具体方法为：以芳香环键为重要结构特征，以极性原子(如氧原子、氮原子)为次等重要结构特征，于是将含有极性原子和芳香环键的一级警示结构作为Type 1(第一大类)，再将只含有极性原子(如氧原子、氮原子)而不存在芳香环键作为Type 2(第二大类)，最终将任意碳链作为Type 3(第三大类)。根据所含的一级警示结构将化合物分为三类，每一类中不存在交集；

然后，针对每一组化合物，利用SARpy软件提取特征警示结构。对特征警示结构进行人为的验证和筛除无关小碎片集，剩下的关键警示结构即为二级警示结构。同时，若活性化合物个数与非活性化合物个数之间存在显著性偏差，无法提取有效的警示结构，则利用相关物理化学性质对活性/非活性化合物进行区分。具体是：对每一类的化合物分别进行特征二级警示结构的识别的方法是：将训练街的活性化合物活性设定为1，非活性化合物的活性设定为0，将其名称、结构SMILES号和设定的活性数值形成CSV文件，导入SARpy软件(http：//sarpy.sourceforge.net/)，在Get a DATASET模块中，选取相应SMILES column和ACTIVITY attribution后，Set numeric threshold设定为0，在Select the desiredsplitting(threshold belongs to“LOW”or“HIGH”class)中选取LOW＜＝0＜HIGH，勾选Binarize(optional)为activity＞0为ACTIVE，activity＜＝0为INACTIVE，Loading数据集。在Get a RULESET模块中，Select the TARGET activity class中选取ACTIVE，同时其他参数设定分别为：Customize single alert precision(Auto：MAX)，HIGH SPECIFICITY(minimize false positive)，点击EXTRACT and VALIDATE，提取二级警示结构；

最终，二级警示结构以SMARTS strings来表示。物理化学性质计算的具体方法是：利用PaDEL-descriptor软件，在General中的Descriptors栏中选择1D&2D和3D，Standardize中选择Remove salt、Detect aromaticity和Standardize nitro groups，再在1D&2D中全选，3D中全选，进行化合物的物化性质计算。

步骤(6)三级警示结构(Tertiary Structural Alert)的提取：基于一级警示结构和二级警示结构的筛查，区分出了活性化合物和非活性化合物，进而基于满足二级警示结构的活性化合物来提取三级警示结构，预测活性化合物的干扰活性。首先，将每一小组中的活性化合物依据其体外实验活性结果分别拟性、又拟又抗、抗性三类，再依据相应二级警示结构进行分析，对不同干扰活性化合物存在显著性区分的二级警示结构定义为三级警示结构，对不同干扰活性化合物不存在显著性区分的二级警示结构及其相关化合物利用SARpy软件进一步进行三级警示结构的提取。最终，拟性/又拟又抗/抗性三类三级警示结构以SMARTS strings来表示。

值得说明的是：显著性区分是指在统计学意义上某一个警示结构基本上只存在于某一种活性(拟性(Agonist)、抗性(Antagonist)或又拟又抗(A-Anta))的化合物中，则将这个警示结构作为这种活性化合物的特征警示结构。比如只有拟性化合物具有警示结构A，其他两种干扰活性的化合物不具有警示结构A，则把这个警示结构A作为拟性化合物的特征警示结构。其中，显著区差异的判定方法为：利用One-way ANOVA(and nonparametric)统计学算法进行分析，当计算出的p值小于0.05，即认为在统计学上具有显著性差异。

其中选取三级警示结构数据集和相关三级警示结构提取的方法是：将训练集中满足一级警示结构及其相关二级警示结构的活性化合物作为新的训练集来提取三级警示结构。首先，将每个小组内的活性化合物根据其干扰活性分为三类(拟性干扰物、抗性干扰物、又拟又抗干扰物)，然后再将活性化合物的名称、SMILES号、活性数值(统一设定为1)构建CSV文件导入SARpy软件，在Get a RULESET模块中的Load Ruleset中，以text文件格式导入二级警示结构SMARTS信息和Taget(ACTIVE)信息，在Predict andValidate模块中，点击Predict和Validate，再Savepredictions，得到活性化合物所含二级警示结构信息。再将预测结果中的ACTIVE设定为1，None设定为0，利用R语言中的pheatmap算法，将其聚类分析。

library(pheatmap)

tot＜-read.csv(″C：/Agonist.csv″，row.names＝1)

pheatmap(tot，cluster_cols＝FALSE，border_color＝NA，fontsize_row＝3)

根据热图分析，首先将唯一存在于某一种干扰活性条件下的特征二级警示结构设定为相关三级警示结构，同时对干扰化合物进行高通量筛查(Tier 1)，然后对于特征二级警示结构无法区分的活性化合物利用SARpy软件，采用与前步骤相同的参数设定，进行相关特征三级警示结构的提取(Tier 2)。通过Tier 1和Tier 2两步，核受体介导内分泌干扰物的三级警示结构提取完毕。

步骤(7)基于警示结构的筛查模型(Structural Alert-based screening model)的构建：核受体介导干扰物筛查模型分别包含两个预测模块，活性预测模块和干扰活性预测模块。活性预测模块由一级警示结构和二级警示结构组成，首先基于一级警示结构筛查出存在特征结构的化合物，这类化合物具有潜在干扰可能性。存在一级警示结构的化合物基于所含的一级警示结构进行分组，再利用相应小组内的二级警示结构或物化性质筛查出真正具有潜在内分泌干扰作用的警示化合物。筛查出活性化合物后将利用干扰活性预测模块定义其干扰活性，既基于化合物所存在的分组利用特征三级警示结构进行进一步的干扰活性筛查。最终，构建的核受体介导内分泌干扰物高通量筛查模型，不仅能预测化合物是否具有潜在的内分泌干扰活性，还能预测其具体的拟/抗干扰活性。

本发明基于PubChem fingerprint分子指纹库，利用子结构频率分析和子结构占比分析提取活性数据化合物的一级警示结构；利用SARpy软件对满足一级警示结构的化合物进行二级警示结构的提取；利用SARpy软件对同时满足一级警示结构和二级警示结构的化合物进行三级警示结构的提取；将一级警示结构和二级警示结构组合构成活性预测模块，在预测模块中先筛查出存在特征结构的化合物，再基于二级警示结构筛查出具有潜在内分泌干扰作用的警示化合物；将三级警示结构作为干扰活性预测模块，而后再基于干扰活性预测模块筛查干扰活性，识别出不同类型的内分泌干扰物所对应的警示结构，形象地建立起不同结构引起对于活性的内在机制

进一步地，基于上述的警示结构进行半定量预测的方法为：通过上述方法提取得到的一级、二级、三级警示结构，将活性化合物分为不同的独立小组，将每个小组的活性化合物的竞争结合活性、报告基因活性进行统计学分析，发现具有相同警示结构的活性化合物具有相似的结合活性，绝大部分进而具有相似的干扰活性，小部分化合物的结合活性与干扰活性不存在正相关关系，表明除了配体-受体结合过程，之后的共调解因子招募过程也对最终产生的内分泌干扰效应存在关键作用；从而可对所有活性化合物的结合活性和绝大部分活性化合物的干扰活性进行强、中、弱三个等级上的半定量预测。

在上述的基础上，不仅可以提取警示结构，而且可以基于分级警示结构的预测模型验证内分泌干扰物警示结构提取的准确性；具体是利用训练集构建了预测模型，再利用测试集对预测模型的预测效果进行验证，利用化合物的真阳性个数、真阴性个数、假阳性个数、假阴性个数、敏感性、特异性、准确性、精确性八个指标来验证预测模型的预测效果。其中参数验证计算方法是：将化合物的名称、SMILES号、实际活性(activity)、预测活性(prediction)，ACTIVE设定为yes，INACTIVE设定为no，形成EXCEL文件导入KNIME中的SCOREMode中，在Scorer模块中，First Column选择activity，Second Column选择prediction，其他参数数值为默认数值，进行模型验证。验证指标中选择真阳性(True Positives)、假阴性(False Negatives)、真阴性(True Negatives)、假阳性(False Positives)、准确性(Precision)、敏感性(Sensitivity)、特异性(Specificity)、精确性(Accuracy)八个指标对构建的预测模型进行评估。当真阳性、真阴性、准确性、敏感性、特异性、精确性数值越高，假阴性、假阳性数值越低表明预测模型的预测效果越佳。

实施例1

以下实施例所采用的目标核受体为人类的雄激素核受体(Androgen Receptor，AR)。本发明的一种基于分级警示结构高通量筛查内分泌干扰物的方法，活性数据的收集：依据步骤(1)，从ToxCast/Tox21(https：//www.epa.gov/chemical-research/toxicity- forecaster-toxcasttm-data)数据库中输入雄激素受体(Androgen Receptor，AR)，选取竞争结合实验(NVS_NR_hAR)、报告基因实验(Tox21_AR_BLA_Agonist_ratio/Tox21_AR_BLA_Antagonist_ratio)和细胞毒性实验(NCCT_HEK293T_CellTiterGLO)(表1)。选择同时具有三类实验数据的化合物(即存在实验数据，不为NA)作为数据集。从ChEMBL(https：//www.ebi.ac.uk/chembl/)数据库的Targets栏中输入雄激素受体的全称(AndrogenReceptor)，Target Type选择SINGLE PROTEIN，Organism选择Homo sapiens，再选取收集同时具有B类(Binding Affinity)实验结果和F类(Functional Assay)实验结果的化合物数据(表1)。人工检查并移除数据集中存在错误SMILE号的化合物和重复的化合物，最终，从ToxCast/Tox21得到2049个化合物，从ChEMBL数据库中得到796个化合物。

数据的标准化与分类：首先利用步骤(1)中的公式1将化合物的活性数据进行标准化和活性强度分类。再依据步骤(2)中对活性、非活性、拟性、抗性、又拟又抗的定义将化合物进行活性分类：

活性(Active)：存在竞争结合活性，同时至少存在一种报告基因实验活性，且两种活性数值都必须大于细胞毒性实验数值。如存在CAS号为13311-84-7的化合物Flutamide，其竞争结合实验活性数值为6.39，存在抗雄报告基因实验活性数值为4.7，其细胞毒性实验数值为4.4，细胞毒性数据同时小于竞争结合活性数值和抗雄报告基因活性数值，证明该化合物为活性化合物；

非活性(Inactive)：既不存在竞争结合活性又不存在报告基因活性(包括拟雄报告基因实验和抗雄报告基因实验)。如存在CAS号为100-00-5的化合物1-Chloro-4-nitrobenzene，其竞争结合活性数值为0，拟雄报告基因实验活性为0，同时抗雄报告基因实验活性为0，证明该化合物为非活性化合物；

然后，依据步骤(3)，用KNIME软件(https：//www.knime.com/)中的PartitioningMode，在First partition中选择Relative[％]，输入80％的数值，再选择Draw randomly将数据集任意分为训练集和测试集，最终训练集存在2275个化合物，其中686个活性化合物和1589个非活性化合物。最终测试集存在570个化合物，其中172个活性化合物和398个非活性化合物。

一级警示结构的提取：依据步骤(4)，首先利用PaDEL-descriptor软件，在General中的Descriptors栏中选择Fingerprints，Standardize中选择Remove salt、Detectaromaticity和Standardize nitro groups，再在Fingerprints中勾选Pubchemfingerpints分子指纹库，对训练集中2275个化合物进行子结构计算。利用子结构频率分析算法将所有子结构的频率计算出来，从高到低排序，选取前120个高频子结构，再利用子结构占比分析算法，通过R语言的pheatmap算法得到22个最终的一级警示结构(表2)，22个一级警示结构可以解释高达99.65％的活性化合物(图1)，证明一级活性警示结构可以尽可能的将潜在具有雄激素受体介导的内分泌干扰物筛查出来。二级警示结构的提取：首先将22个一级警示结构进行分类，按照步骤(5)的分类原则，可将22个一级警示结构分成三大类：含氮原子和芳香键类的子结构作为Type 1(第一大类)，不含芳香键却含氮原子的子结构作为Type 2(第二大类)，任意碳链类作为Type 3(第三大类)。依据三类一级警示结构，将存在一级警示结构的化合物分成11个小组，每一组中不存在交集。同时，按照步骤(5)的二级警示结构提取方法分别提取二级警示结构，即将满足一级警示结构的活性化合物的的活性设定为1，满足一级警示结构的非活性化合物的活性设定为0，将其名称、结构SMILES号和设定的活性数值形成CSV文件，导入SARpy软件(http：// sarpy.sourceforge.net/)，在Get a DATASET模块中，选取相应SMILES column和ACTIVITYattribution后，Set numeric threshold设定为0，在Select the desired splitting(threshold belongs to“LOW”or“HIGH”class)中选取LOW＜＝0＜HIGH，勾选Binarize(optional)为activity＞0为ACTIVE，activity＜＝0为INACTIVE，Loading数据集。在Get aRULESET模块中，Select the TARGET activity class中选取ACTIVE，同时其他参数设定分别为：Customize single alert precision(Auto：MAX)，HIGH SPECIFICITY(minimizefalse positive)，点击EXTRACT and VALIDATE，提取二级警示结构(表2)。同时对于几组化合物不能有效提取二级警示结构条件下，同样依据步骤(5)，利用PaDEL-descriptor软件，在General中的Descriptors栏中选择1D&2D和3D，Standardize中选择Remove salt、Detectaromaticity和Standardize nitro groups，再在1D&2D中全选，3D中全选，进行化合物的物化性质计算，发现XLogP可以有效地将活性化合物与非活性化合物进行区分(表2)。

三级级警示结构的提取：首先，依据步骤(2)将训练集中的685个满足一级警示结构、二级警示结构的活性化合物将其干扰活性分为拟雄、抗雄、又拟又抗三类。

拟雄(Agonist)：在已定义的活性化合物中，存在拟雄报告基因实验活性，却没有抗雄报告基因实验活性。如存在CAS号为68-22-4的化合物Norethindrone，其竞争结合活性数值为9.18，拟雄报告基因实验活性数值为8.63，抗雄报告基因实验活性数值为0，且细胞毒性实验数值为0，证明该化合物为拟雄化合物；

又拟又抗(A-Anta)：在已定义的活性化合物中，既存在拟雄报告基因实验活性，又存在抗雄报告基因实验活性。如存在CAS号为10161-33-8的化合物17beta-Trenbolone，其竞争结合活性数值为9.52，拟雄报告基因实验活性数值为8.79，抗雄报告基因实验活性数值为4.46，且细胞毒性实验数值为0，证明该化合物为又拟又抗化合物；

抗雄(Antagonist)：在已定义的活性化合物中，不存在拟雄报告基因实验活性，却存在抗雄报告基因实验活性。如存在CAS号为63612-50-0的化合物Nilutamide，其竞争结合活性数值为8.28，拟雄报告基因实验活性数值为0，抗雄报告基因实验活性数值为5.41，且细胞毒性实验数值为0，证明该化合物为抗雄化合物；

即训练集中的685个活性化合物被分为106个拟性、345个抗性、234个又拟又抗干扰物，然后依据步骤(6)分别进行三级警示结构的提取(表3)。

同时利用相同的数据集(训练集：2275个化合物，其中686个活性化合物和1589个非活性化合物)，通过三个分子描述符库(CDK，RDKit，PubChem)和五种机器学习方法(KNearest Neighbor，Bayes，Random Forest，Support Vector Machine，DecisionTree)构建15种传统的QSAR活性预测模型与新型基于警示结构的活性预测模型进行预测效果比对(图3)，发现基于警示结构的预测模型不仅预测效果远高于传统QSAR模型，还能克服传统QSAR模型的“黑箱子缺陷”，给化学品管理工作人员提供有效建议。

最终构建了基于雄激素受体分子启动事件的分级警示结构筛查模型，该模型不仅能筛查出潜在内分泌干扰物，还能预测活性干扰物的可能干扰活性(图4)。

基于上述的警示结构进行半定量预测的方法为：将满足一级、二级、三级警示结构的化合物进行分组，同时从RCSB Protein Data Bank(http：//www.rcsb.org/pdb/home/ home.do)中，选择3L3X(拟性构造)和2Z4J(抗性构造)的雄激素受体结合口袋AR LBD，利用AutodockVina进行分子对接，发现具有相同警示结构的化合物具有相似的结合活性，且存在相似的配体-受体结合模式(表3)，绝大部分活性化合物会进一步产生相似的干扰活性，但部分活性化合物的结合活性与干扰活性不存在正相关关系，表明除了配体-受体结合过程，共调解因子招募的过程对干扰活性的产生也起着关键作用。

在上述的基础上，不仅可以提取警示结构，而且可以基于分级警示结构的预测模型验证内分泌干扰物警示结构提取的准确性；将一级、二级、三级警示结构结合构建雄激素受体介导的内分泌干扰物高通量分级筛查模型，该模型分为两个模块：活性预测模块和干扰活性预测模块，对两个预测模块进行内部验证和外部验证。由图2可知，在活性预测模块，训练集和测试集的准确性、敏感性、特异性、精确性分别为0.98，0.96，0.99，0.98和0.97，0.92，0.99，0.97。由图3可知，在干扰活性预测模块训练集和测试集的精确性分别为0.91和0.90。即基于分级警示结构的雄激素受体介导内分泌干扰物预测模型可以精确地高通量筛查潜在的内分泌干扰物。

表1.选取雄激素受体(Androgen Receptor，AR)介导内分泌干扰物的体外细胞实验

^aAR＝androgen receptor

表2.雄激素受体(Androgen Receptor，AR)介导内分泌干扰物的一级警示结构和二级警示结构

表3.基于雄激素受体(Androgen Receptor，AR)介导内分泌干扰物提取的三级警示结构和竞争结合活性、干扰活性

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

Claims

1.一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，

提取一级警示结构：

提取二级警示结构：

提取三级警示结构：

2.根据权利要求1所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，提取一级警示结构之前还包括步骤：活性数据的收集，从公开数据库中将具有竞争结合实验，报告基因实验和细胞毒性实验的三种体外实验数据的化合物进行收集，并得到活性数据。

3.根据权利要求1所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，提取一级警示结构的具体方法如下：

1)计算化合物的PubChem fingerprints子结构，

2)利用进行子结构频率分析，

其中上述的

含有该结构碎片的活性化合物数；

N_total：整个数据集化合物的总数；

N_{fragment_total}：含有该结构碎片的化合物总数；

N_A：数据集中活性化合物的总数；

含有该结构碎片的非活性化合物总数；

N_I数据集中非活性化合物的总数。

4.根据权利要求1所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，提取一级警示结构后将满足一级警示结构的化合物进行分类，具体分类方法是：将含有极性原子和芳香环键的一级警示结构作为Type 1；再将只含有极性原子而不存在芳香环键作为Type 2；最后将任意碳链作为Type 3。

5.根据权利要求1所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，提取三级警示结构的具体方法是：

6.根据权利要求2所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，活性数据的收集和提取一级警示结构之间还包括步骤：化合物的活性分类

基于得到的活性数据，将化合物分为活性、非活性、拟性、又拟又抗和抗性五类。

7.根据权利要求2所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，活性数据的收集选取的实验都需是人类细胞实验。

8.根据权利要求3所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，计算化合物的PubChem fingerprints子结构的方法为：利用PaDEL-descriptor软件，在General中的Descriptors栏中选择Fingerprints，Standardize中选择Removesalt、Detect aromaticity和Standardize nitro groups，再在Fingerprints中勾选Pubchemfingerpints分子指纹库，进行化合物的PubChem fingerprints子结构的计算。

9.根据权利要求6所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，提取三级警示结构的具体方法是：

10.根据权利要求1-9任一项所述的一种基于分级警示结构高通量筛查内分泌干扰物的方法，其特征在于，利用公式：对化合物的活性强度进行标准化和分级；

其中：Activity value代表活性强度值，K_i代表抑制常数，K_d代表离解常数，AC₅₀代表半数活性浓度，IC₅₀代表半数抑制浓度，EC₅₀代表半数效应浓度，uM表示微摩尔量，Activityvalue≥7代表强活性强度，7＞Activity value≥6代表中活性强度，Activity value＜6代表弱活性强度。