CN108920889A

CN108920889A - 化学品健康危害筛查方法

Info

Publication number: CN108920889A
Application number: CN201810694666.XA
Authority: CN
Inventors: 刘娴; 张爱茜; 张华洲; 潘文筱; 薛峤
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-11-30
Anticipated expiration: 2038-06-28
Also published as: CN108920889B

Abstract

一种化学品健康危害筛查方法，主要包括以下步骤：将已知药效药物结构和转录组学特征通过非负矩阵分解，建立结构‑健康影响‑转录组学的关联网络模型；分别从药物治疗作用和结构相似度对该关联网络模型进行内部验证；根据药物确定的药效与模型每种健康影响的结构匹配度获得化学品健康危害筛查标准；将该化学品健康危害筛查标准用于模型应用域内化学品健康危害的排序和筛查。本发明充分利用药物组学大数据，建立仅输入化学品结构即可同时获得其多种健康危害排序的评估筛查模型，克服化学品健康风险评价中单纯依赖结构相似性无法解决的复杂毒性准确预测和多种健康影响同时筛查这一难题，在化学品健康风险评价领域具有广阔的应用前景。

Description

化学品健康危害筛查方法

技术领域

本发明涉及化学品健康危害评估技术领域，更具体地涉及一种化学品健康危害筛查方法。

背景技术

目前环境化学品污染引发的环境安全与健康问题日益凸现，各种环境介质和暴露人群已检出不同结构类型化学品，多地出现的“癌症村”均与金属和有机物等污染密切相关。根据死因调查数据，恶性肿瘤等重大疾病发病率和死亡率呈逐年上升趋势，WHO指出我国居民医疗负担中21％来自环境污染因素。早在1996年《Our Stolen Future》一书中就指出了化学污染对于人类生存与繁衍的巨大威胁。2010年Meeker和Stapleton报道室内空气颗粒物上磷酸三(1，3-二氯-2-丙基)酯含量每增加一个四分位间距，体内游离T4水平下降3％，催乳素水平上升17％。相似的相关性亦出现在磷酸三苯酯上，磷酸三苯酯含量每增加一个四分位间距，男性精液中精子浓度下降19％。2010年Rappaport和Smith于Science撰文明确指出70-90％的疾病是源于环境而非基因差异，但化学污染可引发健康风险虽已获得共识，不同化学品可能导致的健康危害因其损伤机理的复杂性尚未得以阐明。

随着科学技术的迅猛发展使得人类通过各种途径可能接触的有害化学品种类急剧增加。截至2015年6月24日，美国化学文摘社登记的化学品已超过1亿(http：//www.cas.org)。因财力、人力和时间所限，完全依赖实验室工作和人群调查来进行高健康风险化学品筛选显然既非必要亦不现实，迫切需要发展非实验性的计算筛选评价方法，实现化学品健康危害的快速筛查和甄别。以结构活性相关(Structure ActivityRelationship，简称SAR)和类推(Read-Across，简称RA)为代表的基于结构决定作用的计算预测方法可在化学品结构与其机体损伤性能之间架起桥梁，在化学品环境安全性评价和健康风险评估中缺失数据的快速预测和毒物初筛等方面均发挥着重要的作用。美国环保署环境内分泌干扰物筛选和测试顾问委员会(Endocrine Disruptor Screening and TestingAdvisory Committee，简称EDSTAC)和欧盟化学品注册、评估、授权和限制制度(Regulationconcerning the Registration，Evaluation，Authorization and Restriction ofChemicals，简称REACH)等目前均推荐在化学品毒性预测和快筛中使用这一方法，而经济合作与发展组织(OrganisationforEconomicCooperationandDevelopment，简称OECD)更是提出了构效关系模型构建和应用导则，要求用于化学品毒性预测与筛查的模型应是(1)针对明确定义的指标建立；(2)具有清晰和明确的数学算法；(3)具备已经定义的应用域(Applicability Domain，简称AD)；(4)具有适当的拟合度、稳定性和预测能力；(5)可获得特定评价终点相关致毒机理的信息。虽然基于结构的预测方法在环境内分泌干扰物筛选与化学品健康风险评价方面应用展现出独特魅力，但是2006年就有学者指出，相比急性毒性的预测准确度，基于单一数据源和作用模式不清晰的遗传毒性乃至致癌性等复杂评价终点预测模型很难获得令人满意的结果；2011年Natasha Gilbert就REACH中化学品风险评价缺失数据的预测方法可信度等作出评述，明确指出基于单纯结构相似性的方法在生殖毒性、发育毒性等复杂机制毒性效应预测中不可靠。

事实上，随着新时代毒性研究和测试方法的转变，在构效关系分析中加入相对高效高通量的in vitro测试数据作为所谓化学-生物交互作用的描述符，以辅助传统结构描述符进行in vivo数据的预测已经成为毒性效应和健康危害缺失数据估算的重要途径。然而，in vitro数据的表达方式和其与化学描述符内在含义的匹配程度对预测模型成功与否具有重要意义。同时需要指出的是高通量in vitro测试的受试物是生物大分子或人源细胞等，以生物大分子功能的激活/抑制或者细胞功能的异常/凋亡等为相应的评价终点，并非直接对应动物个体的死亡或生理/行为的异常，in vitro和in vivo虽可能存在内在关联，但是其测试终点差距甚大。Thomas等结合传统结构描述符与ToxCast数据库上百种invitro数据建立模型的预测性与稳健性就无法令人满意。

相比其他in vitro来源的生物信息，外源化学品所致基因表达谱的改变反映了其暴露前后关键通路响应水平乃至整体机体生物学调控网络的变化，并可直接与疾病发生发展相互关联，因此可以预见转录组等组学数据信息有望在化学品健康危害性筛查研究中扮演重要角色。蛋白质组学虽已成为后基因组计划重要内容，但血清白蛋白等机体大量存在的蛋白使得特征微量/痕量蛋白质的分离分析仍存技术瓶颈，更遑论复杂的翻译后修饰等更增加了蛋白组学研究的难度。相对而言，基因组学研究相对更成熟，遗憾的是这方面的尝试仍主要集中于对单纯生物信息的挖掘，基于药物基因组学数据的分析去探索新药和新靶点以及脱靶效应等未知健康危害。这其中Connectivity Map(Cmap，http：//www.broadinstitute.org/cmap/)数据库由于提供了完整规范的大规模药物基因表达图谱数据，而颇受关注。虽然有学者在结构-组学特征关联上亦有所尝试，但仍止步于关联网络研究，未能进行外源化学品预测方法学探索。虽然CMap数据库提供了大量可分析和预测的组学数据，但将体外高通量数据分析应用于构建多机制、多终点复杂毒性的定量排序筛查仍是难题。

在化学结构-组学信息关联研究中，特征提取是关键步骤之一。常见的特征提取方法有主成分分析(Principle Component Analysis，PCA)、奇异值分解(Singular ValueDecomposition，SVD)和线性判别分析(Linear DiscriminantAnalysis，LDA)等。然而这些方法会输出赋值为负数的数值，在特定实际应用中无法找到对应含义，缺乏解释意义。譬如Lenz等指出受样本维度大小的影响，PCA方法对于部分芯片数据降维处理后的可解释性较差。由Lee等人提出的非负矩阵分解(Non-negative Matrix Factorization，NMF)算法应用于非负数据的分解，且限定矩阵分解后矩阵所有元素为非负，以达到特定应用数据特征提取和挖掘数据中内在结构的目的。NMF的优点在于可以定量地描述局部与整体之间潜在可加的线性组合，使得NMF适用于大规模的组学数据和化学结构特征数据的处理。

综上所述，构效关系预测技术难以对于化学品复杂毒性进行准确筛查与预测，而基于单纯生物信息的模型虽能对多种机体影响进行同时分析排序但无法对健康危害进行结构外推。已有的将化学结构与生物信息(特别是组学信息)进行关联分析的方法因数据量的限制，还未研发基于结构-组学关联分析的外源化学品健康危害的筛查和预测方法。文献和专利检索结果表明，在本发明完成之前，还未发现将结构-组学数据关联分析方法用于预测化学品健康危害筛查的报道，自然也未见有将NMF方法用于化学品健康危害筛查的报道。

发明内容

有鉴于此，本发明的主要目的在于提供一种化学品健康危害筛查方法，以期至少部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种化学品健康危害筛查方法，包括以下步骤：

步骤1，以能获得转录组学数据并具有已知药效的药物作为建模药物，通过非负矩阵分解法对药物结构和转录组学数据进行关联分析，建立以特征关联因子为桥梁的结构-健康影响-转录组学的关联网络模型，每个特征关联因子表示一类健康影响，指示一组具有相似化学特征和调控基因的药物；

步骤2，分别从药物治疗作用和化学结构相似度角度对所述关联网络模型中特征关联因子所关联的化学和生物特征一致性进行内部验证；

步骤3，根据所述建模药物与关联网络模型中不同健康影响的关联权值，对所述建模药物与每种特征关联因子的结构匹配度进行打分，基于准确度和回收率的调和平均数确定化学品健康危害预测筛查标准；

步骤4，对于一组未知健康危害的化学品，在筛查评价其可能的健康影响前，根据结构相似性判断所述化学品是否在所述关联网络模型的应用域内；

步骤5，将所述化学品健康危害预测筛查标准用于所述应用域内化学品的健康危害筛查，若一化学品对应一特征关联因子的得分高于筛查标准，则认为该化学品具有该特征关联因子所代表的健康影响。

其中，步骤1具体包括：

子步骤11，使用非负矩阵分解法同时分解药物-差异基因矩阵Z₁和药物-结构特征矩阵Z₂，其中结构特征以药物化学结构的分子指纹所指示的结构片段表示，以使得分解重构的药物-差异基因矩阵XY₁和原始矩阵Z₁元素之间的差异最小化，与此同时药物-结构特征矩阵XY₂和原始矩阵Z₉亦元素之间的差异最小化，其中X表示在结构特征空间和差异基因空间的一组公用基，Y₁和Y₂分别表示公共基的系数；

子步骤12，将X、Y₁和Y₂的取值分别以x_i、g_i和f_i表示，i＝1，2，...k，每个三元组(x_i，g_i，f_i)表示一个特征关联因子i，所述关联网络模型中有k种特征关联因子，x_i、g_i和f_i分别代表药物和健康影响的关联权重、健康影响和差异基因的关联权重以及健康影响和化学结构特征的关联权重。

其中，子步骤11中，X，Y₁，Y₂为使得公式(1)目标函数值最小时的解：

其中F为frobenius范数，Ω(X，Y₁，Y₂)为正则项，目的是控制模型的复杂度，α为正则项系数，X，Y₁，Y₂的具体表示如公式(2)所示，原始矩阵Z₁和Z₂近似地表示为公式(3)所示的k个特征关联因子的线性加和：

其中，步骤2具体包括：

子步骤21，对于每个特征关联因子i，将非负矩阵分解得到的X的每一列x_i按数值从大到小排序，取前T个对应的一组药物D_i，并随机抽取相同数量的一组药物作为对照组C_i；其中T为预先设定的正整数；

子步骤22，判断若该组药物D_i的药物解剖学治疗学及化学分类系统相似度和基于分子指纹的药物结构特征相似度均高于对照组C_i，则所述关联网络模型通过内部验证。

其中，在子步骤22中：

两组药物的药物解剖学治疗学及化学分类系统相似度通过分别利用公式(4)对药物解剖学治疗学及化学分类系统下每个级别的成对药物的ATC相似度ATCSim(a，b)进行计算并对计算结果取平均数来得到；

两组药物的基于分子指纹的药物结构特征相似度通过分别利用公式(5)对成对药物的Tanimoto相似度StructureSim(a，b)进行计算并对计算结果取平均数得到；

其中，dist(a，b)表示化合物a，b语义层次上的最短距离，而a，b∈D_i或C_i；药物结构用二进制分子指纹表述；N_a和N_b分别表示化合物a，b分子指纹片段数量，N_c表示化合物a，b共有的分子指纹片段数量，而a，b∈D_i或C_i。

其中，步骤3中对所述建模药物与每种特征关联因子的结构匹配度进行打分的步骤具体包括：

子步骤31，对于每个特征关联因子i，将非负矩阵分解得到的X的每一列x_i按数值从大到小排序，取前T个对应的一组药物D_i，将非负矩阵分解得到的Y₂的每一行f_i按数值从大到小排序并取前n个对应的结构片段F_i；其中n为预先设定的正整数；

子步骤32，对所述药物D_i中一药物j和F_i中每个结构片段进行结构匹配，其中j＝1，2，3，...T，若F_i的第m个结构特征为药物j的子结构，则得分为否则为0，对1到n个结构片段逐一匹配计算得分并加和得到药物j和特征关联因子i的匹配得分S_i，j；

子步骤33，利用公式(6)将待测药物j和特征关联因子i的匹配得分S_i，j用其所有健康影响得分均值μ_j和标准差σ_j转换成不受组间差异影响的S_c，ij值：

其中，表示药物j和k个特征关联因子得分的均值；表示药物j和k个特征关联因子得分的标准差。

其中，步骤3中所述基于准确度和回收率的调和平均数确定化学品健康危害预测筛查标准的步骤具体包括以下子步骤：

子步骤34，设定药物关联权值最高的特征关联因子为其真实特征关联因子i_T，根据S_c，ij最小和最大得分，设置一定区间以一定步长对药物和所有健康影响的结构匹配情况进行网格化搜索；

子步骤35，根据公式(7)所示，对于每个药物j，以所搜索的每个网格点v的高限作为阈值t_v计算网格点v准确率P_v，j和回收率R_v，j的调和平均数Fscore_v，j，其中准确率P_v，j和回收率R_v，j分别根据公式(8)～(10)计算：

子步骤36，选药物组D₁，D₂，...，D_k所有网格点Fscore_v，j平均值的最大值F_max对应的网格点t_max作为化学品健康危害筛查标准。

其中，步骤4具体包括以下子步骤：

子步骤41，对于一组未知健康危害的化学品，计算其中每个化学品和建模药物中最邻近分子的Tanimoto距离d_min，获得其算数平均值和标准差σ，根据公式计算得到模型应用域参数AD，式中Q为调节系数；

子步骤42，判断若待评估化学品d_min≤AD，则该化学品在所述应用域内，反之则不在所述应用域内。

其中，步骤5具体包括以下子步骤：

子步骤51，基于步骤3中得到的前n个对应的结构片段F_i，若F_i的第m个结构特征为应用域内一未知健康危害的化学品u的子结构，则得分为否则为0，对F_i自1到n结构片段逐一匹配计算得分并加和得到化学品u和特征关联因子i的匹配得分S_i，u；

子步骤52，利用公式(11)将化学品u和特征关联因子i的匹配得分S_i，u用其所有健康影响得分均值μ_u和标准差σ_u转换成不受组间差异影响S_c，iu值，

其中，表示化学品u和k个特征关联因子得分的均值；表示化学品u和k个特征关联因子得分的标准差；

子步骤53，判断如果化学品u的d_min≤AD，且该化学品u对应一特征关联因子i的结构匹配得分S_c，iu不低于t_max，则认为该化学品u具有特征关联因子i所代表的特定健康影响。

其中，如果化学品u在模型应用域内，且其与多个特征关联因子的结构匹配得分不低于t_max，则认为该化学品具有这些特征关联因子所代表的不同健康影响，且得分越高的关联因子所对应的健康危害越需引起关注。

基于上述技术方案可知，本发明的化学品健康危害筛查方法具有如下有益效果：

(1)采用本发明的方法可以充分利用现有药物组学大数据，对药物的结构-组学-性能特征关联分析有望建立全新的外源化学品健康危害快速筛查方法，以克服化学品健康风险评价中因结构相似性无法解决的复杂毒性效应准确预测和多种评价终点同时筛查这一难题；

(2)通过本发明的方法可以快速高效地对化学品可能的健康影响进行分析，按优先度对化学品健康危害进行排序后获得其最可能的健康影响；转录组学特征分析是对单纯构效关系方法的很好补充，两种信息结合使用，既可以弥补构效关系方法在复杂毒性效应预测准确度低的不足，又可以通过NMF分析充分发挥组学数据涉及不同通路信息和多种健康结局的优势，获得更为科学合理的健康危害筛查排序结果；

(3)本发明能够对未知化学品的潜在健康危害基于其结构进行快速筛查排序，适用于大规模化学品健康危害筛查；方法简单快速，效率高，该方法在化学品健康风险评价、环境安全性评估和复杂毒性预测等领域具有广阔的应用前景。

附图说明

图1为本发明实施例采用NMF方法进行特征提取的示意图；

图2为本发明实施例特征关联因子及其关联的结构特征和基因的网络结构示意图；

图3A和图3B分别为本发明实施例ATC相似度与化学相似度双重验证特征关联因子内药物的一致性示意图；

图4为本发明实施例不同筛查阈值下药物健康影响预测性能的示意图；

图5为本发明实施例基于结构与组学特征关联分析的化学品健康危害筛查方法的流程示意图；

图6为本发明实施例尼泊金丙酯的健康危害识别示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

根据对化学品健康危害筛查预测方法的文献调研，可见所涉及的方法或技术各有优缺点。基于SAR的方法从建模化合物和待预测化合物具有一定的化学相似性出发，适用于简单的单一毒性效应和机体损伤的定量定性预测筛查，难以应对多机制复杂毒性和健康影响的评价；而高通量转录组学数据的使用为建立多种健康危害基于结构的筛查提供了可能。本发明的目的是要提供一种基于药物化学结构信息与转录组学数据耦合关联的、不依赖任何先验毒性测试信息的化学品健康危害筛查方法。该方法通过NMF分析建立药物健康影响-结构-组学特征关联网络模型，根据子结构匹配即可实现对于模型结构域内化学品健康危害的快速筛查排序。通过此方法可以快速高效地对化学品可能的健康影响进行筛查，按优先度对化学品健康危害进行排序后获得其最可能的健康影响。转录组学特征分析是对单纯构效关系方法的很好补充，将SAR方法与针对组学数据分析的生物信息学方法结合使用，既可以弥补构效关系方法在复杂毒性效应预测准确度低的不足，又可以通过NMF分析充分发挥组学数据包含不同通路信息和多种健康结局的优势，仅输入化学品的结构即可同时获得多种健康危害的预测排序结果。

本发明的基本原理是，基于药物与外源化学品在化学结构和组学特征方面具有的相似性，通过对已知药效药物的化学结构特征和转录组学特征进行非负矩阵分解，获得其健康危害相关化学结构和组学特征的关联网络模型，经药物子结构匹配确认设置健康危害筛查标准，在模型结构域内实现未知健康风险化学品潜在健康危害的快速筛查和排序。

具体地，本发明公开了一种基于结构与组学特征关联分析的化学品健康危害筛查方法，包括以下步骤：

步骤(1)，从文献和免费数据库中选取可获得高质量转录组学数据的已知药效药物作为建模样本，通过NMF对药物样本化学结构和转录组学数据进行关联分析，获得以特征关联因子i为桥梁进行结构-健康影响-转录组学的关联网络模型。这一关联网络模型中每一种药物与不同的健康影响以特定权重进行关联，每个特征关联因子i表示一类健康效应，指示一组具有相似化学特征和调控基因的药物。

具体做法是：使用NMF同时分解药物-差异基因矩阵Z₁和药物-结构特征矩阵Z₂，其中结构特征以药物化学结构的分子指纹所指示的结构片段表示。NMF分析的目的是使得分解重构的药物-差异基因矩阵XY₁和原始矩阵Z₁尽量接近，即使得它们元素之间的差异最小化，与此同时药物-结构特征矩阵XY₂和原始矩阵Z₂尽量接近，即使得它们元素之间的差异也最小化，从而使得公式(1)目标函数值最小：

其中F为frobenius范数，Ω(X，Y₁，Y₂)为正则项，目的是控制模型的复杂度，α为正则项系数。上述优化问题的解记作X，Y₁，Y₂，如公式(2)。其中X表示在结构特征空间和差异基因空间的一组公用基，Y₁和Y₂分别表示公共基的系数，取值分别以x_i、g_i和f_i表示。每个三元组(x_i，g_i，f_i)表示一个特征关联因子i，该特征关联因子i代表了一组具有相似化学特征和调控基因的药物，并且这组药物具有一类共同的健康影响。而模型中若有良种特征关联因子，此时i＝1，2，3...k，即表示区分了良种具一定结构与转录组学特征的健康影响。因此可以通过g_i和f_i系数分别建立健康影响和差异基因以及化学特征的关联。原始矩阵Z₁和Z₂可以近似地表示为公式(3)所示的为k个特征关联因子的线性加和。

步骤(2)，根据步骤(1)所获得的关联网络模型，需要分别从药物治疗作用和化学结构相似度对模型中每种健康影响的化学和生物特征一致性进行双重验证，才能应用于化学品健康危害筛查评估。对于每个特征关联因子i，由步骤(1)的解得到X，并将X的每一列x_i按数值从大到小排序，取前T个对应的一组药物D_i。由于模型中这组药物D_i具有以特征关联因子i指示的共同健康影响，因此通过计算成对药物解剖学治疗学及化学分类系统(Anatomical Therapeutic Chemical，ATC)相似度和基于分子指纹的药物结构特征相似度，并和随机抽取的相同数量的一组药物C_i对比，来验证特征关联因子i是否关联了一类功能和结构相近的具特定健康影响的药物。ATC编码共有7位，分为5个级别。使用公式(4)计算每个级别两个药物的ATC相似性ATCSim(a，b)，其中dist(a，b)表示化合物a，b语义层次上的最短距离，而a，b∈D_i或C_i。药物结构用二进制分子指纹表述。根据公式(5)使用Tanimoto相似性衡量化合物的结构相似度，式中N_a和N_b分别表示化合物a，b分子指纹片段数量，N_c表示化合物a，b共有的分子指纹片段数量，而a，b∈D_i或C_i。如果模型特征关联因子所对应关联的药物ATC相似度和结构相似度显著高于随机药物，则模型通过内部检验。

步骤(3)，由步骤(1)可知，特征关联因子建立了药物健康影响和结构及组学特征间的关联。因此，模型获得的k个特征关联因子对于药物而言是其药效和k-1种已知和潜在的脱靶效应，而对于外源化学品而言，k个特征关联因子为其k种最可能的健康危害。鉴于此，步骤(1)建立的以特征关联因子i为桥梁进行结构-健康影响-转录组学关联的网络模型，可以分别计算建模药物与模型所有特征关联因子的结构匹配度，按照匹配分值高低得到该药物在模型k类健康影响上的排序。具体做法是：步骤(1)的解Y₂表示特征关联因子和不同分子指纹指示的结构片段之间的关联权重，将特定特征关联因子i和其结构片段关联权重fi从大到小排序并取前n个结构片段F_i。对药物D_i中的药物j和F_i中每个结构片段进行结构匹配，若F_i的第m个结构特征为药物的子结构，则得分为否则为0。对F_i所有1到n结构片段逐一匹配计算得分并加和得到药物j和特征关联因子i的匹配得分S_i，j。为了保证不同药物和特征关联因子打分具有可比性，将待测药物j和特征关联因子i得分S_i，j用其所有健康影响得分均值μ_j和标准差σ_j转换成不受组间差异影响S_c，ij值，如公式(6)。这望表示药物j和k个特征关联因子得分的均值；表示药物j和k个特征关联因子得分的标准差。药物和特征关联因子的得分越高，表明该药物具有此特征关联因子所表述的健康影响的几率越大。因此，按照匹配分值高低就得到了该药物在模型k类健康影响上的排序。

步骤(4)，根据药物实际药效和步骤(3)中基于结构匹配得分获得的S_c，ij，提出健康危害筛查标准t_max，为化学品基于结构匹配度的健康危害快速筛查排序奠定基础。具体步骤是：基于步骤(1)中的解X得到每个特征关联因子(即一定健康影响)对应的一组药物D_i，默认药物关联权值最高的特征关联因子为其真实特征关联因子i_T。根据S_c，ij最小和最大得分，设置一定区间以一定步长对药物和所有健康影响的结构匹配情况进行网格化搜索。如公式(7)所示，对于每个药物j，以所搜索的每个网格点v的高限作为阈值t_v计算其Fscore_v，j。Fscore_v，j为网格点v准确率P_v，j和回收率R_v，j的调和平均数。通过以上打分步骤得到药物与特征关联因子1，2，...，k的得分S_c，1j，S_c，2j，...，S_c，kj，则准确率P_v，j和回收率R_v，j分别根据公式(8)～(10)计算，选药物组D₁，D₂，...，D_k所有网格点Fscore_v，j平均值的最大值F_max对应的网格点t_max作为健康危害筛查标准。

步骤(5)，根据化学品与建模药物结构相似度确定步骤(1)所获得的关联网络模型的应用域AD。任一模型都有一定的应用范围，超出模型应用域范围的化合物预测可能具有较大误差，预测结果也不可靠。对于所需进行健康危害评估的化学品，首先需要确认该组化学品是否在步骤(1)建立的并且已经过验证的关联网络模型的应用域中。对于一组未知健康危害的化学品，计算其中每个化学品和建模药物中最邻近分子的Tanimoto距离(1-相似度)dmin，获得其算数平均值和标准差σ，根据公式计算得到模型应用域参数AD，式中Q为调节系数。若待评估化学品d_min≤AD，则该化学品在该应用域内，反之则不在该应用域内。

步骤(6)，未知健康危害化学品健康影响的筛查是参考步骤(3)的S_c，ij计算方法对应用域内一未知健康危害的化学品u对应某特征关联因子i的结构匹配得分S_c，iu进行计算，然后将S_c，iu与步骤(4)得到的的筛查标准t_max比对完成。具体步骤是：基于步骤(3)中得到的前n个对应的结构片段F_i，若F_i的第m个结构特征为该化学品u的子结构，则得分为否则为0，对F_i自1到n结构片段逐一匹配计算得分并加和得到化学品u和特征关联因子i的匹配得分S_i，u。将化学品u和特征关联因子i的匹配得分S_i，u用其所有健康影响得分均值μ_u和标准差σ_u转换成不受组间差异影响S_c，iu值，如公式(11)所示。这里表示化学品u和k个特征关联因子得分的均值；表示化学品u和k个特征关联因子得分的标准差。如果某化学品u的d_min≤AD，且该化学品u对应某特征关联因子i的结构匹配得分S_c，iu不低于t_max(即S_c，iu≥t_max)，则认为该化学品u具有特征关联因子i所代表的特定健康影响。

为了能够更清楚地理解本发明的技术内容，以下通过实施例结合附图进一步说明本发明的技术方案。需要说明的是，下述实施例仅是用于说明本发明，而不是对本发明的限制。

实施例1

本实施例基于结构与组学特征关联分析的化学品健康危害筛查方法包括以下步骤：

(1)药物健康影响与其化学结构特征及转录组特征关联的网络模型构建：

下载公共数据库CMap所提供的药物基因芯片数据，保留能通过药物名称获取具有准确结构的药物。为消除不同来源和实验批次数据的差异，对四种不同细胞系的基因芯片样本进行归一化和合并处理，具体做法是：依次计算每两批次中共同药物样本的每种基因表达倍数变化值(Fold-Change，简称FC)和偏差值Δ，以Δ作为校正值，将其中一个批次中所有芯片样本相应基因的FC转换为FC+Δ达到一次合并，重复上述操作，至所有批次数据合并。按照校准后的FC值保留显著上调和下调的1000种基因，最终得到953种药物及其20183种基因的数据。药物和基因差异倍数的绝对值用矩阵Z₁表示。计算药物的ECFP4分子指纹及其所指示的结构片段，953种药物和3534种结构片段的二进制数据用矩阵Z₂表示。采用本发明所述方法对矩阵Z₁和矩阵Z₂同时进行分解，得到一个具有稀疏性的基矩阵X和系数矩阵Y₁，Y₂，如图1。X，Y₁，Y₂的不同符号区域表示一个特征关联因子，可认为是由差异基因和结构特征共同决定的一类药效。矩阵X表示药物在特征关联因子上的权重，矩阵Y₁，Y₂的列分别表示差异基因和结构特征在健康影响上的权重。经过优化分析最终选取13个特征关联因子和其所代表的健康影响，获得药物健康影响-结构特征及药物健康影响-转录组学特征的关联网络模型。图2展示了特征关联因子(八边形)及其关联的结构特征(圆形)和基因(方形)的网络连接图。例如，特征关联因子1表示选择性阻断β₁和/或β₂肾上腺素能激动剂，这类药物用于治疗急性心肌梗塞和心力衰竭，包括倍他洛尔、美托洛尔和普萘洛尔等；特征关联因子5为一类具有抗炎和免疫抑制作用的糖皮质激素药物，例如为氢化波尼松、地塞米松和倍他米松等；特征关联因子7表示一类具有雌激素受体活性的黄酮或者类黄酮结构的天然产物，包括芹菜素、柚皮素和染料木黄酮等；特征关联因子11表示一类人工合成的具有抗菌活性的药物，例如磺胺塞唑和磺胺嘧啶等。

(2)药物健康影响与其化学结构特征及转录组特征的关联网络模型的内部验证：

对于本实施例建立的关联网络模型，分别从药物治疗作用和化学结构相似度对模型中每种健康影响的化学和生物特征一致性进行双重验证。选取每种特征关联因子对应权重前10名的药物，同时随机抽取相同数量的药物作为对照。从DrugBank和KEGG数据库中获取药物ATC编码。分别计算这两组药物组内成对ATC相似度和化学结构相似度，双重验证特征关联因子内药物的一致性。如图3A和图3B所示，经过特征关联因子所关联的药物在两类相似度比较中，均显著高于随机抽取的药物。其中对于五种级别ATC编码，特征关联因子所关联的药物ATC相似度(中位数)高于随机值124％，256％，316％，359％和125％，其均值为236％；13种因子结构特征相似度(中位数)平均高于随机值246％。说明该发明所述方法的特征关联因子可以提取一类化学结构和转录组特征相近的具特定健康影响的药物。

(3)基于关联网络模型计算健康危害筛查标准t_max

根据采用本发明所述方法，选取本实施例中每种特征关联因子对应权重前10的药物和13个特征关联因子前20的结构片段进行匹配打分，得到药物j和特征关联因子i的匹配得分S_ij，归一化后得到S_c，ij。建立[-2，2]之间步长为0.1的网格。模型中药物所属特征关联因子(即药物健康影响)被认为具最高优先度，计算所有网格点内药物Fscore的均值。药物在41个网格点内的准确率P、回收率R和Fscore均值如图4。P和R均衡得分Fscore最高值为0.71，对应的网格点t_max为1.1作为最终筛查标准。鉴于药物不同脱靶效应的健康危害优先度不清晰，此实施例中采用最苛刻的准确率标准，即每个药物仅考虑一个最高优先度的特征关联因子(即实际药效)作为真实关联的特征因子，因此准确率P非0即1。在此严格标准之下准确率P已达到0.58，若考虑药物多靶性即多个特征关联因子，准确率将会显著提升。而回收率R为0.92，表明在此筛查标准下，药物最高优先度的关联因子几乎都可以被准确预测和识别。此外，其他高优先度的关联因子相关的健康影响可有效发现药物的脱靶效应。例如，通过和特征关联因子结构片段匹配打分得到米非司酮排名第一的因子为因子5，代表了米非司酮具有糖皮质激素受体活性。而排名第二的因子13表示抗抑郁和精神病治疗的作用，已有研究证据显示米非司酮对于精神病性抑郁症具有显著疗效。

(4)基于关联网络模型对于具类雌激素活性化学品的可能健康危害进行筛查排序：

为了对外部化学品进行健康危害筛查验证，首先从美国EPA的内分泌干扰物筛查项目(Endocrine Disruptor Screening Program，EDSP)公开的数据中(https：//www.epa.gov/endocrine-disruption/endocrine-disruptor-screening-program-edsp-estrogen-receptor-bioactivity)搜集了110个雌激素受体活性值(AUC)≥0.1的化学品结构。首先对这110个化学品是否在本实施例所建模型结构域内进行检验(Q取-0.2)，计算得到AD为0.49。其中有50个化学品符合模型结构域，去除19个和建模药物结构重复的化学品，得到31个待测化学品。基于本发明所述定量预测筛查方法，对31个化学品和所得13个特征关联因子的结构片段进行匹配打分并归一化。当S_c，iu≥1.1时，提示化学品u具有特征关联因子i所表示的潜在健康危害。

以上所述基于结构与组学特征关联分析的化学品健康危害快速筛查排序流程如图5所示。以代表雌激素活性的特征关联因子作为高优先度的健康影响，基于本实施例所建关联网络模型预测得到31个化学品的预测平均准确率P、平均回收率R和平均Fscore分别为0.76，0.77和0.77。说明本发明所述方法可以仅基于待测化学品结构进行快速将康危害有效排序，适用于大规模化学品健康危害筛查。

此外，在模型结构域中的31个化学品中了包含尼泊金酯类化合物。尼泊金酯作为国际公认的广谱高效食品化妆品防腐剂之一，近年来发现具有拟雌激素活性，因而具有影响人体正常生殖发育等潜在风险(Oishi S.Effects of propyl paraben 0n the malereproductive system.Food&Chemical Toxicology，2002，40(12)：1807-1813)，其安全性有待于重新评价。基于本实施例筛查结果，尼泊金丙酯(CAS RN：94-13-3)与两个特征关联因子i的S_c，iu大于1.1，分别表示类雌激素效应(S_c，iu＝2.77)和抗菌效应(S_c，iu＝1.56)，如图6所示，可见模型不仅识别出尼泊金丙酯的内分泌干扰活性，亦可准确筛查出其自身的抗菌效应，且这两种健康影响排在模型给出的可能健康影响的前两位。可见通过本发明方法可以基于药物结构与组学特征关联分析，进行化学品健康危害的快速筛查排序，有望为化学品健康风险评价提供技术支撑和指导。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种化学品健康危害筛查方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1具体包括：

子步骤11，使用非负矩阵分解法同时分解药物-差异基因矩阵Z₁和药物-结构特征矩阵Z₂，其中结构特征以药物化学结构的分子指纹所指示的结构片段表示，以使得分解重构的药物-差异基因矩阵XY₁和原始矩阵Z₁元素之间的差异最小化，与此同时药物-结构特征矩阵XY₂和原始矩阵Z₂元素之间的差异最小化，其中X表示在结构特征空间和差异基因空间的一组公用基，Y₁和Y₂分别表示公共基的系数；

3.根据权利要求2所述的方法，其特征在于，子步骤11中，X，Y₁，Y₂为使得公式(1)目标函数值最小时的解：

4.根据权利要求2或3所述的方法，其特征在于，步骤2具体包括：

5.根据权利要求4所述的方法，其特征在于，在子步骤22中：

其中，dist(a，b)表示化合物a，b语义层次上的最短距离，而a，b∈D_i或C_i；药物结构用二进制分子指纹表述；N_a和N_b分别表示化合物a，b分子指纹片段数量，N_c表示化合物a，b共有的分子指纹片段数量，而a，b∈D_i或Ci。

6.根据权利要求4中所述的方法，其特征在于，步骤3中对所述建模药物与每种特征关联因子的结构匹配度进行打分的步骤具体包括：

7.根据权利要求6中所述的方法，其特征在于，步骤3中所述基于准确度和回收率的调和平均数确定化学品健康危害预测筛查标准的步骤具体包括以下子步骤：

8.根据权利要求7中所述的方法，其特征在于，步骤4具体包括以下子步骤：

9.根据权利要求8中所述的方法，其特征在于，步骤5具体包括以下子步骤：

10.根据权利要求9中所述的方法，其特征在于，如果化学品u在模型应用域内，且其与多个特征关联因子的结构匹配得分不低于t_max，则认为该化学品具有这些特征关联因子所代表的不同健康影响，且得分越高的关联因子所对应的健康危害越需引起关注。