评估生物外源性物质代谢扰动的系统和方法
发明人:朱丽娅·亨格和曼纽尔·克劳德·派奇
相关申请的引用
本申请依据35U.S.C.§119要求于2013年9月13日提交的标题为“Systems andMethods for Evaluating Perturbations of Xenobiotic Metabolism”的美国临时专利申请No.61/877,612的优先权,以上申请的全部内容并入本文。
背景技术
哺乳动物,包括人类,都具有用于处理致癌物质和其它生物外源性化合物的复杂机制。在评估香烟烟雾(cigarette smoke,CS)暴露影响的研究中,生物外源性物质代谢引起了格外关注,这是一种为生物体所使用的用于处理生物外源性物质的机制。具体地说,生物外源性物质代谢包括这样的一套代谢途径,通过改变生物外源性物质的化学结构使其转换,并最终去除其毒性。
生物外源性物质的代谢主要有三个阶段组成:修饰、共轭和排出。在修饰阶段中,阶段I酶经过一系列氧化反应将脂溶性化合物转化为其亲水形式。在特定组织的一种主导的阶段I酶(细胞色素P450,或称CYP)的表达,可能提供了细胞毒理学和器官病理中组织特异性结果的指示。在共轭阶段中,阶段II酶催化共轭反应,例如糖脂化、硫酸化、甲基化和乙酰化,从而使生物外源性物质去除毒性。最后在排出阶段中,阶段III膜转运器作用并将生物外源性物质越过细胞膜排出至外部。
尽管肝脏是公知的负责生物外源性物质的代谢的主要器官,肝脏主要处理存在于血液中的有毒物质,其通过消化道被吸收。因此,通过呼吸进入体内的有毒物质避开了肝脏的解毒机制。CS在呼吸道产生一系列组织损伤和变化,并伴随着CS相关肺脏疾病的发展。所以,肺脏和呼吸道对于CS毒性物质影响的研究是重要的。许多肺脏细胞类型,包括支气管上皮细胞、克拉拉细胞、II型肺泡细胞和肺巨噬细胞可代谢生物外源性物质[Ding X,Kaminsky LS:人鼻细胞色素P450:生物外源性物质代谢中的功能和在呼吸系统和肠胃道中的组织选择性化学毒性*.药理学与毒理学年鉴.2003,43(1):149-173.].虽然肺细胞和组织可能有助于生物外源性物质代谢的研究,获得所期望的细胞或组织的样本却通常是具有难度的。本公开内容提供了一种针对于解决这些技术问题的系统和方法。
发明内容
本文中所描述的计算机系统和计算机软件产品,实施用于评估目标生物组织扰动,尤其在当从目标生物组织获得直接测量是困难的情况。目标生物组织是来源于哺乳动物,而扰动是由于暴露于动因(agent)引起的。一组表示目标生物组织(target biologicaltissue)的扰动的得分是基于目标生物组织和替代生物组织(surrogate biologicaltissue)中生物外源性物质代谢作用的一组对比数据和计算因果网络模型确定的。计算因果网络模型包括由边连接的可测节点和骨干节点,其中,每一个骨干节点和可测节点代表一生物活动,骨干节点和可测节点与生物外源性物质代谢具有相关性。上述的边代表相互连接的节点之间的因果关系,其中,根据与相应的骨干节点连接的可测节点的活动度量(activity measure)可以有效地推断并确定得到相应骨干节点的活动值(activityvalue)。前述的对比数据包括以下两者之间的区别:(i)从替代生物组织的样本中获得的可测节点的活动度量,该替代生物组织被暴露于动因,与(ii)从替代生物组织的样本中获得的可测节点的活动度量,该替代生物组织被暴露于对照。前述的得分通过使用前述对比数据计算一组骨干节点的数值来确定,其中,所述骨干节点的数值表示由于动因引起的替代生物组织的扰动。为了评估目标生物组织的扰动,对从替代生物组织中获得的骨干节点的数值和表示目标生物组织的扰动的得分之间的相关性进行了确定。
在某些实现中,得分是通过提供存储在存储单元中的代表着生物外源性物质代谢的计算因果网络模型的数据,并接收从暴露于动因或对照的替代生物组织的样本所获得的对比数据来确定的。在某些实现中,得分是通过以下来确定的:(i)测量与可测节点对应的基因的表达水平,而表达水平是从暴露于动因或对照的替代生物组织的样本所获得的可测节点的活动度量,以及(ii)计算以下两者之间的区别:(a)从替代生物组织的样本中获得的可测节点的活动度量,该替代生物组织被暴露于动因,与(b)从替代生物组织的样本中获得的可测节点的活动度量,该替代生物组织被暴露于对照。在某些实现中,得分是通过确定从替代生物组织中获得的骨干节点的得分和从目标生物组织中获得的骨干节点的得分之间的相关性来确定的。并不一定要求在相关性确立后再确定从目标生物组织中获得的骨干节点的得分。在某些实现中,得分通过利用相关性和从替代生物组织中获得的骨干节点的得分来推断表示目标生物组织扰动的得分来确定的。
在某些实现中,生物外源性物质代谢的计算因果网络模型由数据表示,所述数据是包含、主要包括、或由如表2所示的BEL语句组成。在某些实现中,指示着替代生物组织的由动因引起的扰动的骨干节点的数值是网络扰动幅度得分(NPA得分)、由独创性途径分析软件(IPA)提供的得分、或由基因集富集分析方法(GSEA)提供的得分。
在某些实现中,目标生物组织的扰动在体内发生,替代生物组织是目标生物组织的体外培养物。目标生物组织的体外细胞培养物在某些实现中可以是器官细胞培养物。在某些实现中,目标生物组织包括下呼吸道的上皮细胞,替代生物组织包括上呼吸道的上皮细胞。尤其地,目标生物组织可能包括选自分别来源于肺、支气管、主支气管、次级支气管、三级气管、细支气管、气管、鼻腔、口腔和牙龈的上皮细胞。在某些实现中,替代生物组织包括选自分别来源于肺、支气管、主支气管、次级支气管、三级气管、细支气管、气管、鼻腔、口腔和牙龈的上皮细胞。在某些实现中,目标生物组织由于其在体内的解剖位置,与替代生物组织相比更难以被获取或获得。在某些实现中,动因是选自于香烟烟雾、一氧化碳、煤烟、柴油废气颗粒、颗粒物和空气污染物。如表1所示,颗粒物可根据美国环境保护局的标准定义为在空气中发现的固体颗粒和液滴的混合物。尤其地,颗粒物可包括具有大于2.5微米和小于10微米直径的“可吸入粗颗粒物”、具有小于2.5微米直径的“细颗粒物”、或两者兼有。例如,颗粒物包括可被受试者吸入的空气污染物。在该情况下,所述的颗粒物可包括烟草烟雾、香烟烟雾(CS)、含有尼古丁的浮质(aerosol)、通过加热烟草产生的浮质、通过加热而不燃烧烟草产生的浮质、一氧化碳、煤烟、通过燃烧任意烃类燃料产生的废气、汽油尾气、柴油尾气、焦炉逸散物、或其任意的适当组合。
在某些实现中,利用对比数据确定的骨干节点数值中的至少一个数值,与芳烃受体(AHR)的转录活动对应。尤其地,与AHR对应的骨干节点可能与表1所示的至少17个可测节点具有因果关系,如与骨干节点AHR具有因果关系,且因果关系中的每一个的方向性如表1所示。通常,生物外源性物质代谢的计算因果网络模型中的骨干节点、可测节点以及边的至少一部分与表1所示的示例性骨干节点、示例性可测节点和因果关系是相对应的。
在某些实现中,通过确认生物外源性物质代谢的计算因果网络模型对目标生物组织响应于动因的扰动和替代生物组织响应于动因的扰动两者均是适用的,从而确定相关性。在某些实现中,前述得分的至少一个被修正以生成经修正的得分,修正是以经确认的相关性为根据。尤其地,修正得分可包括利用根据所述经确认的相关性确定的标量因子(scalar factor)进行评分换算。在某些实现中,动因包括空气污染物,替代生物组织是取样自鼻腔组织,目标生物组织是取样自肺组织。在某些实现中,前述得分中的至少一个是至少部分的可测节点的活动度量的二次函数。
附图说明
在结合附图考虑以下详细描述之后,本公开内容的更多特征、其性质和各种优点将变得显而易见,在附图中同样的参考符号在所有附图中指代相同的部分,并且在附图中:
图1显示了用于执行生物外源性物质代谢网络模型的扰动的评估的计算机网络和数据库结构的一个示例性系统;
图2显示了服务器的框图;
图3显示了计算装置的框图;
图4显示了生物外源性物质代谢网络模型;
图5显示了生物外源性物质代谢网络模型中骨干节点的活动值的相关性;
图6A显示了体内支气管和鼻腔刷拭数据的骨干节点的活动值;
图6B显示了采用体内支气管和鼻腔数据的骨干节点的活动值;
图6C显示了支气管和鼻腔样本的网络扰动幅度得分;
图6D显示了骨干节点在可测节点水平缺乏相关性;
图7A显示了体外支气管和鼻腔刷拭数据两者骨干节点的活动值之间的相关性;
图7B显示了数据和标准途径(canonical pathway)之间的显著关联性;
图7C显示了体外器官鼻和支气管数据两者骨干数值之间的相关性;
图7D显示了网络扰动幅度得分的条形图;
图8A和8B显示了支气管和鼻腔样本中,从体内数据产生的骨干节点活动值和从体外数据产生的骨干节点活动值两者之间的相关性;
图8C显示了在鼻上皮模型中测量的CYP1A1和CYP1B1的活动;
图8D显示了体内和体外的差异网络骨干数值(differential network backbonevalues)两者之间的相关性;以及
图9是生物外源性物质代谢网络模型扰动的评估方法流程图。
具体实施方式
本文中描述了通过利用生物外源性物质代谢网络模型,可用于确定生物系统对于某物质的响应的计算系统和方法。有利地是,该系统和方法可被用于评估一种类型的组织暴露于不同物质的效果,该组织即目标组织,例如但不限于是下呼吸道的组织,使用从相应的另一种组织收集的暴露数据,该另一种组织即替代组织,例如但不限于是鼻腔组织。
提出了一种计算因果网络模型,其代表了生物系统的某些方面。该模型可呈现为包括节点(也被称作为顶点)和边的数学图。节点包括“骨干节点”和“可测节点”。如本文中所使用的,骨干节点表示生物过程或生物过程中的关键行动者,其为某些生物系统功能机制的抽象化,尤其是在生物系统的运作中启用感兴趣的特征的那些行动者或过程。在一个示例中,骨干节点表示在生物系统内不同实体的生物活动,例如但不限于化合物、DNA、RNA、蛋白质、肽、抗体、细胞、组织和器官的活动。与骨干节点对应的活动中的许多活动不是通过测量得到,而是通过可测节点的活动推断得到。可测节点表示已知与一骨干节点因果相关的一个或多个生物实体的可测活动水平。在一个示例中,可测节点表示基因表达水平。骨干节点的活动可刺激或抑制可测节点的活动,如一些边所表示的。在模型中,边可表示骨干节点之间的因果关系,以及骨干节点和每一它们相应的可测节点之间的因果关系。
可测节点表示不同生物实体的生物活动,可通过本领域公知的方法进行测量,尤其是高通量方法。可测节点的生物活动被称为生物活动度量。在一个示例中,生物活动度量包括一组基因的差异基因表达水平,其活动是通过生物样本测量得到的。所述的差异基因表达水平可通过一组表示实验数据和对照数据之间区别的对比数据得到。所述的实验数据与样本中一组生物实体对动因的响应相对应,而所述的对照数据是在对照条件下,例如在不存在动因的条件下,与同样的生物实体的响应相对应。
网络模型中的一条边表示从骨干节点到可测节点的方向关系或两个骨干节点间的方向关系。骨干节点的活动可被认为由于可测节点的变化而导致得到了刺激或抑制。这通过连接骨干节点和可测节点的边所表示的因果关系也得到了反映。在生物外源性物质代谢网络模型中,边表示骨干节点间的因果关系,以及骨干节点和每一它们相应的可测节点之间的因果关系,可如文献所报道的。例如,边可以表示“结合”关系、“以...表达”关系、“基于表达谱共调控”关系、“抑制”关系、“在手稿中同时出现”关系、或“共用结构元件”关系。一般来讲,这些类型的关系描述了一对节点之间的关系。因此,可以表示关系之间的关系、或者关系与在图中所表示的另一类型的生物实体之间的关系。例如,表示化学物质的两个节点之间的关系可以表示反应。该反应可以是该反应与抑制该反应的化学物质之间的关系中的节点。构成网络模型的生物活动和关系(即,节点和边)可以在数据库中被存储为相互联系的节点的网。在一些实施例中,网络模型包括非因果边,其连接生物实体的不同形态。
在本公开内容中,生物外源性物质代谢是生物系统的一个感兴趣的特征。因此,生物外源性物质代谢网络模型中互相联系的骨干节点共同地表示生物机制或其一部分,其作用并对生物系统中的生物外源性物质进行代谢。大部分骨干节点每一个与活动值相联系,该活动值可以根据网络模型通过可测节点的生物活动度量推断得到。例如,网络包括一个代表芳烃受体(AHR)集中的骨干节点,以及一个代表芳烃受体转录活动(taof(AHR))的骨干节点。在一个示例中,与AHR对应的骨干节点与至少十七个如表1所示的可测节点存在因果关系,如同与骨干节点AHR存在因果关系。表1中还提供了每一因果关系的方向性。AHR调节模型中几个感兴趣的基因(如CYP1A1、CYP1B1)的表达,并且是受生物外源性物质激活的转录因子。在另一个示例中,生物外源性物质代谢网络模型是一计算因果网络模型,由包括、主要包括、或由如表2所示的BEL语句组成的数据表示。通常来说,其它骨干节点可代表其它生物实体的生物活动,其在生物外源性物质代谢中起作用,包括组织暴露于某一特定生物外源性物质。
在一个示例中,可被用于本文中公开的系统和方法的生物外源性物质代谢网络模型如图4左栏所示。尤其是,图4左栏的图形说明包括一组骨干节点,代表一组包含生物外源性物质代谢潜在的不同方面的生物活动。骨干节点由传载方向性信息的因果边相连接。网络模型可被用于对由于与生物外源性物质代谢有关的给定的刺激引起的扰动作进一步了解。
本文中提出的生物外源性物质代谢网络模型根据从两种来源收集的信息构建得到,其一是文献来源提供与响应生物外源性物质有关的相关机制的描述,其二是数据集来源,包括对公开可得的转录组数据的计算分析结果,该数据是通过在肺细胞中实验获得。为了确保网络模型代表的是人类或啮齿类动物来源的无病或健康肺组织中与生物外源性物质响应有关的生物活动,对选择网络模型内容采用了一套规则。总体目标是生成一个反映急性、非病理性响应,且不包括例如细胞死亡/凋亡、组织损伤或炎症等相邻生物过程的网络模型。来源于人体组织环境的关系是被优先处理的,但是,来源于大鼠和小鼠的关系也被用于完成模型。表示文献中完善的路径的标准机制被包括在网络模型中,即使文献中对肺或心血管相关组织中的机制作用没有明确支持的确认。对来自于永生化细胞系的组织环境的因果关系的使用,被限制于只用于构建网络模型的关键机制,当唯一可用的数据是来自于这种类型的实验系统。
如本文所描述的生物外源性物质代谢网络模型不必定依赖于正向假设(即,从骨干节点至可测节点)。取而代之地,模型可能根据基因的表达(即,基于一或多个可测节点)推断骨干节点的活动,骨干节点被观察到是起调节作用。“正向推理(Forward reasoning)”假设基因表达与蛋白质活动中的变化有关,而“反向推理(backward reasoning)”或逆向因果推理(RCR)将基因表达中的变化考虑为上游实体的活动的结果。通过运用该推理技巧,创建生物外源性物质代谢网络模型以模拟节点的活动和节点之间因果关系。因此,基因的差异表达是以骨干节点表示的上游实体的激活的实验证据,RCR对引起所观察到的基因表达水平的生物学机制提供了见解。
在一个示例中,生物外源性物质代谢网络模型可通过运用RCR从而确认一个或多个被测量的节点(measured quantities)的可能原因的机制被构建,例如差异基因表达水平。被RCR确定的机制可能是指骨干节点的生物活动水平,其导致差异的基因表达水平的产生,并在与骨干节点相连的可测节点中被观察到。换言之,RCR确定将骨干节点与许多相连的可测节点连接起来的机制,所述的可测节点表示骨干节点可能影响或调节的被测量的节点。尤其地,RCR可以被用于处理上述因果关系的网络从而形成关于机制的假说。通常来说,这一套机制代表下游活动(例如下游基因表达)的上游调节因子,其的测量以及它们在不同实验条件下的区别可以根据评估相关性和准确性的统计数据排列,并可被用于作出预测。例如,如果由上游节点表示的实体丰度增加,由因果增加关系连接的下游节点可能被推断为增加,并且由因果减少关系连接的下游节点可能被推断为减少。
然后,RCR对照差异测量的数据集评估经确定的机制。上游生物实体(即,骨干节点)和下游基因表达水平(即,可测节点)的连接机制的因果关系是以计算因果网络模型的形式存在,且可用于根据网络评分方法对网络变化进行量化。在一些实施例中,RCR计算运用于一个或多个网络模型生成的约束。约束的例子包括但不限于路径长度(例如,连接上游节点和下游节点的边的最大数目),以及连接上游节点和下游节点的可能的因果路径。
使用RCR构建因果网络模型具有以下优点。首先,网络中的节点由具有固定拓扑关系的有因果关系的边相连,使得网络模型的生物意图容易被科学家或用户理解,从而能够对作为整体的网络进行推断和计算。其次,与用于构建其中连接常常在组织或疾病环境之外被表示的通路或连接图的其它方法不同,本文的网络模型根据合适的组织/细胞环境和生物过程来创建。第三,因果网络模型可以捕获各种各样的生物分子中的变化,这些分子包括蛋白质、DNA变体、编码和非编码的RNA、以及其它实体,例如,表型、化学物质、脂类、甲基化状态或其它修饰(例如,磷酸化)、以及临床和生理观察。例如,网络模型可以表示从分子、细胞和器官级直至整个生物体的知识。第四,网络模型是演化的,并且可以通过运用合适的边界易于被修改以表示特定的种和/或组织环境,并且在另外的知识变得可用时被更新。第五,网络模型是透明的;网络模型中的边(原因与结果关系)全部由已公布的科研成果来支持,这些科研成果使每个网络针对被建模的生物过程依托于科学文献。
在一些实施例中,生物外源性物质代谢网络模型在结构化的语言中被编码,该结构化的语言通过捕捉生物实体之间的因果和相关关系表示技术发现。该语言使得能够形成可计算的语句,该语句由用限定的本体(例如,HGNC,参见www.genenames.org)表达的函数和实体定义构成。Biological Expression LanguageTM(BELTM)是一种用于本公开内容的实施的语言(www.openbel.org),并是一种用于记录生物实体之间相互关系的语法。BEL语句是表示离散的科学因果关系及其相关的语境信息的语义三元组(主语、谓语、宾语)。
在一个示例中,生物外源性物质代谢网络模型可以一组BEL语句的形式提供,其描述骨干节点之间的关系,以及骨干节点和可测节点之间的关系。表1包括一组五个示例性骨干节点(左栏)及它们与相应可测节点(中栏)的下游连接关系。如表1所示,基因根据标准基因符号所列,其中的一部分或全部得到人类基因组组织基因命名委员会认可。关系值(右栏)表明了骨干节点和可测节点之间的关系是否是因果增加关系(+1)或是因果减少关系(-1)。在因果增加关系中,如果在骨干节点有一定量的生物活动增加,在下游可测节点的生物活动的量增加。在因果减少关系中,如果在骨干节点有一定量的生物活动增加,在下游可测节点的生物活动的量减少。骨干节点和可测节点之间的所有这些关系可以以BEL编码。
表2包括代表一组相互联系的骨干节点的64个BEL语句的列表。尤其地,表2左栏表示源节点,表2右栏表示目标节点,中栏表示相应的源节点和目标节点之间的关系。表2中栏所列出的关系符号与由BEL社区(BEL community)识别的符号相对应,其被列在BEL网站上(http://wiki.openbel.org/display/BLD/BEL+Relationships)。例如,符号代表因果关系或相应符号节点和目标节点之间的关系。尤其地,符号“->”表示增加的因果关系,符号“=>”表示直接的增加的因果关系,符号“-|”表示减少的因果关系,符号“=|”表示直接的减少的因果关系。进一步地,符号“-sub->”表示目标节点是源节点的子集或一部分,符号“-cat->”表示目标节点代表源节点的催化活动,符号“-e->”表示目标节点代表源节点的转录活动。这些符号的意义也在表2后所附的说明中总结。
尽管由表2中的BEL语句描述的生物外源性物质代谢网络模型对于在本公开内容提供的方法中使用是足够的,可以预期的是本领域的技术人员可以通过根据RCR和相关的文献或数据集包括其它的骨干节点对模型进行补充。相应地,本文中提出的方法涉及生物外源性物质代谢网络模型,其可以一组包含、主要包括、或由如表2所示的BEL语句组成的BEL语句描述。在不同的实施方式中,只有表2中连接最重要的骨干节点的相当数目的BEL语句是必须的。每一个骨干节点对于网络模型的相对重要性可以通过每个骨干节点的个别得分进行估计。参见例如图6B,以不同深浅阴影表示的骨干节点的所述的个别得分,范围从-0.02到0.16。如以下详细描述地,骨干节点的得分数值表示由于动因引起的扰动,以及可能是网络扰动幅度得分(NPA得分)、由独创性途径分析软件(IPA)提供的得分、或由基因集富集分析方法(GSEA)提供的得分。
在模型中,对于如表2所示的骨干节点(源节点和目标节点)的每一个,存在可用于推断骨干节点活动的相应组的可测节点。本领域技术人员容易根据RCR和相关文献或数据集确定与骨干节点对应的可测节点。如表1所示,一个或以上可测节点可用于推断五个骨干节点中每一个的活动。但是,在不同的实施方式中,为了推断骨干节点的生物活动值,对列出的与骨干节点连接的所有可测节点生物活动的测量不是必要的。为了恰当地对骨干节点的活动进行推断,对一个子集的连接的可测节点的测量可能就足够了。或者,本领域的技术人员可以通过检索文献数据库补充可测节点的组从而确定其它的基因,在生物外源性物质代谢环境下,这些基因的表达是与一个或多个表2中所列的骨干节点呈因果相关的。
可以使用从组织中获得基因表达水平测量的不同方法,包括体外和体内测量。用于从组织培养物中获得测量的示例方法及其相应数据,如图5-8所示并对图描述,在以“对暴露于香烟烟雾的示例关联性研究”为标题的部分中。但是,在本文中描述的范例仅用于说明的目的,并且本领域的技术人员将理解,一般而言,本文中所描述的系统和方法可以用于以适用于用其它方法获得的数据,而并不脱离本公开内容的保护范围。
本公开内容的上下文中的生物系统,是一个生物体或一个生物体的一部分,包括功能性部分,此处所指的生物体是指受试者。通常而言,来源于受试者的目标生物组织或替代生物组织在本公开内容的方法中被使用或被调查。受试者通常是哺乳动物,包括人类。受试者可以是人群中的一个人类个体。此处使用的术语“哺乳动物”包括但不限于是人类、非人灵长类、小鼠、大鼠、狗、猫、牛、羊、马、猪、和啮齿动物。人类以外的哺乳动物可以有利地被用来作为受试者,可以被用来提供人类疾病的模型。非人类受试者可以是未修饰或基因修饰的动物(即,转基因动物,或携带一个或多个基因突变或沉默基因的动物。)受试者可以是雄性或雌性的。根据实施的目的,受试者可以是已经被暴露于一种感兴趣的动因的。受试者可以是已经在一段较长时间中被暴露于一种动因的,可选地包括在研究前的时间。受试者可以是过去已经在一段时间中被暴露于一种动因,但现在与动因不再有接触。受试者可以是已经被诊断或确认为具有疾病的。受试者可以是已经接受过、或正在接受针对疾病或不良健康情况的治疗的。受试者可以是表现出一种或多种某一特定健康情况或疾病的症状或风险因素的。受试者可以是易患疾病,并且可能是有症状或无症状的。在某些具体实施中,上述提及的疾病或健康情况是与暴露于动因或在一段较长时间中使用动因相关的。
依据实施的环境,生物系统可以在不同水平被定义,由于其涉及种群、广泛意义上的生物体、器官、组织、细胞类型、细胞器、细胞成分、或一特定个体的细胞中个体生物体的功能。每一生物系统包括一个或多个生物机制或途径,其的运作表现为系统的功能特点。能再现人的健康情况的明确特点、并且适合于暴露于感兴趣的动因下的动物系统是优选的生物系统。能反映与疾病的病因或病理有关的细胞类型和组织的细胞和器官系统,也是优选的生物系统。预期用于本文中描述的系统和方法的生物系统,可以被定义为,但不限制于,功能特点(生物功能、生理功能、或细胞功能)、细胞器、细胞类型、组织类型、器官、发育阶段、或前述的组合。生物系统的例子包括,但不限于,肺(例如,肺部炎症)、外皮、骨骼、肌肉、神经(中枢和外周)、内分泌、心血管、免疫、循环、呼吸、尿路、肾脏、胃肠道、结直肠、肝脏和生殖系统。生物系统的其它例子包括,但不限于,上皮细胞、神经细胞、血细胞、结缔组织细胞、平滑肌细胞、骨骼肌细胞、脂肪细胞、卵细胞、精子细胞、干细胞、肺细胞、脑细胞、心肌细胞、喉细胞、咽细胞、食道细胞、胃细胞、肾细胞、肝细胞、乳腺细胞、前列腺细胞、胰腺细胞、胰岛细胞、睾丸细胞、膀胱细胞、宫颈细胞、子宫细胞、结肠细胞、直肠细胞中的各种细胞功能。一部分细胞可能是细胞系的细胞,在体外培养或在适当的培养条件下在体外无限保持。细胞功能的例子包括,但不限于,细胞增殖(例如,细胞分裂)、退化、再生、衰老、细胞核对细胞活动的控制、细胞间信号传导、细胞分化、细胞去分化、细胞应激反应、生物外源性物质代谢、自噬、坏死、分泌、迁移、吞噬、修复、细胞凋亡和发育编程。可以被认为是生物系统的细胞成分的例子包括,但不限于,细胞质、细胞骨架、膜、核糖体、线粒体、细胞核、内质网(ER)、高尔基体、溶酶体、DNA(例如,DNA损伤或DNA修复)、RNA、蛋白质、肽和抗体。
本文中使用“样本”指代自受试体或实验系统(例如,细胞、组织、器官、或动物整体)中分离出来的任何物质。样本可以包括,但不限于,单个细胞或多个细胞、细胞组分、组织活检、切除组织、组织提取物、组织、组织培养提取物、组织培养基、呼出的气体、全血、血小板、血清、血浆、红细胞、白细胞、淋巴细胞、嗜中性粒细胞、巨噬细胞、B细胞或其子集、T细胞或其子集、造血细胞子集、内皮细胞、滑液、淋巴液、腹水液、细胞间液(interstitialfluid)、骨髓、脑脊液、胸腔积液、肿瘤浸润物、唾液、粘液、痰、精液、汗液、尿液、或任何其它体液。样本可以通过包括但不限于以下的方法得到,静脉穿刺、排泄、活检、针穿刺、灌洗、刮擦、手术切除、或本领域的其它已知方法。
用于获取生物活动度量的样本包括一组基因的差异的基因表达水平。所述的差异基因表达水平可通过一组表示实验数据和对照数据之间区别的对比数据得到。实验数据与样本对于动因的响应相对应,而对照数据与同样样本在对照条件下的响应相对应,例如,不存在动因的条件下。
生物外源性物质代谢是在生物系统被暴露于相对系统外来物质时的主要响应之一。因此,生物外源性物质代谢的增加可能表示对生物外源性物质的暴露。生物外源性物质代谢的变化可进一步表示被暴露的生物系统的不良影响的发展、疾病乃至癌症。本文中描述的计算系统和方法客观并定量地评估当生物系统被动因扰动时其中的变化大小。尤其地,变化大小可以“得分”表示,其为一个数值或一组数值,提供生物系统中变化大小的定量测量。
在一个方面,反映生物外源性物质代谢的变化的得分,可被用于检测生物系统暴露于生物外源性物质。在另一方面,反映生物外源性物质代谢的变化的得分,可被用于估计由于生物系统暴露于生物外源性物质所引起的总体生物效应。在不同的实施例中,得分可被用于评估和比较由于暴露于制造的产品(为安全评估或比较)、包括营养补充品的治疗药品(为疗效或健康益处的确定)、和环境活性物质(为长期暴露与不良反应和疾病发病关系的风险预测)等等之下所引起的生物系统中的变化。得分也可被用于预测某一病人是否会对某一药物有反应或由于使用药物造成任何程度的不良反应。对不同动因得到的得分可被用于比较所述不同动因对生物系统造成的相对影响。
使用预先确定的基因集合(或基因组)而不是个别基因进行样本内协调表达或样本分类的评估的不同分析监督方法在本领域是已知的并且可以适用。得分的计算使用的输入为,从对照的实验或临床试验其中生物系统被一动因扰动,获得的一组基因表达数据。生物外源性物质代谢网络模型包括一组与预先确定的一组基因相对应的可测节点,所述基因的表达水平被测量并且数据被收集。在上述的预先确定的收集自细胞的一组基因表达水平在本文中以实验数据表示,所述的细胞暴露于动因。未暴露于动因下或在不同条件下暴露的细胞,收集自其中的同样基因的基因表达水平以对照数据表示。每一可测节点的实验数据和对照数据之间的区别是该可测节点的活动度量。在一些实施中,活动度量通过在倍数变化的方面表达,其为一个描述对照数据和实验数据之间变化程度、或代表不同实验条件的两组数据之间变化程度的数值。每一节点的活动度量可包括实验数据和对照数据之间区别的对数。
在一些实施中,由本发明系统和方法生成的得分是如专利公布文本WO2013/034300和PCT申请PCT/EP2013/062979和PCT/EP2012/061035中描述的网络扰动幅度(NPA)得分,其中每一件申请以引用方式全文并入本文。通过使用代表可测节点的活动度量和通过边与之连接的骨干节点的活动度量之间区别的差异语句,将在可测节点的生物活动的测量翻译为骨干节点的活动值,从而可对NPA得分计算。在一些实施中,以下差异语句可被使用:
其中,f(x)表示活动值(对于第二组节点中的节点x)或测量(对于第一组节点中的节点x),sign(x→y)表示生物外源性物质代谢网络模型中连接代表生物实体x的节点和代表生物实体y的节点的边的方向值,和w(x→y)表示与连接代表实体x和y的节点的边关联的权重。骨干节点的活动值可以通过根据差异目标进行优化生成。差异目标可以规定差异语句要最大化、最小化或者尽可能接近目标值。对于优化,最平滑函数(smoothest function)(在网络模型中代表因果边的符号)可通过在与测量相对应的骨干节点上施加边界条件导出。差异目标可写作以下计算优化问题:
其中β代表每一可测节点的活动度量。为了解决差异目标,生物外源性物质代谢网络模型被计算性地被表征,例如,通过加权或非加权邻接矩阵。在一个示例中,当根据以上公式8制定差异目标时,利用根据下式定义的带符号拉普拉斯矩阵来表征生物外源性物质代谢网络模型
L=diag(out)+diag(in)-(A+AT). (9)
考虑到该表征,公式8的差异目标可以表示为
在一些实施中,NPA得分可根据以下计算:
其中V0表示可测节点(即,其实验和对照数据被接收的那些可测节点),f(x)表示针对生物实体x产生的活动值,及sign(x→y)表示计算网络模型中的连接代表生物实体x的节点和代表生物实体y的节点的边的方向值。如果与骨干节点相关联的活动值的矢量用f2表示,NPA得分可通过以下二次型计算:
其中:
其中diag(out)表示具有骨干节点中每一节点的出度的对角矩阵,diag(in)表示具有骨干节点中每一节点的入度的对角矩阵,及A表示生物外源性物质代谢网络模型的邻接矩阵,该邻接矩阵仅限于骨干节点,并且根据以下公式定义:
若A是加权邻接矩阵,则A的元素(x,y)可以乘以权重因子w(x→y)。在一些实施中,NPA得分在符号定向图上计算为半索伯列夫型范数,该符号定向图是构成可以二次型表示的生物外源性物质代谢网络模型的基础。
以下对图6B和6C简要地作具体的说明。图6B是使用体内支气管(左)和鼻腔(右)数据的生物外源性物质代谢网络模型中骨干节点的活动值的图形说明,图6C显示生物外源性物质代谢网络模型的相应NPA得分的条形图。图6B中,骨干节点的不同深浅阴影反映了骨干节点的量化,其来自NPA评分技术,证明生物机制是关于生物外源性物质代谢的。负值表示骨干节点活动的下调,而正值表示骨干节点活动的上调。如以下详细解释地,图6C所示的NPA得分具有统计学意义,提示着体内鼻腔和支气管样本两者显著地证明由生物外源性物质代谢网络模型所表示的生物机制。
在另一示例中,图4右栏插图显示的是两个示例性骨干节点和连接的可测节点之间的因果关系的图形说明。骨干节点的活动(椭圆形)表征构成功能层的网络模型的功能性方面,而可测节点的基因表达水平(圆圈)在网络模型中构成第二的节点的层(转录层),其由与可测节点相应的基因的转录活动所表征。给定基因(可测节点)的表达可由一个或多个骨干节点调节,如箭头记号(对因果增加关系标有箭头、对因果减少关系标有横线)所示。在正向推理中,测量的基因表达水平被假定为其相关蛋白或蛋白功能的直接替代。相反地,反向推理方法根据在转录层(可测节点)的基因表达水平对以功能层(骨干节点)表示的生物过程进行评分。如此,骨干节点的量化反映与生物外源性物质代谢相关的生物机制。
在一些实施中,置信区间根据NPA得分进行计算。置信区间可说明实验误差(例如,在一实验组中样本之间存在的生物变异)。进一步地,伴随统计(companion statistics)可被计算用于量化所得的NPA得分对生物外源性物质代谢网络模型中描述的机制的特异性。尤其地,由于NPA得分由可测节点的测量的二次函数表示,一个NPA得分的统计方差可通过测量的方差计算得到。然后,可用中心极限定理推导出置信区间。
在一些实施中,一个或两个置换检验都被实施。第一置换检验评估网络中可测节点的位置对于测量的值的重要性。在该情况下,对可测节点的基因标签改组,对每次改组重新计算NPA得分,并得到置换P值(在图4中以*O表示,当该值<0.05)。第一置换检验由此评估所得的NPA得分是否是特定于生物外源性物质代谢网络模型中的基础证据(即,可测节点的基因表达水平)的。第二置换检验评估功能层(骨干节点)网络是否明显促进了网络扰动幅度(在图中以K*表示,当该值<0.05)。可认为网络被特定地扰动,若两项置换检验的P值均低(通常<0.05),且若当置信区间大于0时扰动是显著的。小的P值,例如小于0.5%、小于1%、小于5%、或任何其它分数,表明所提出的NPA得分是具有统计学意义的。本文中提出的计算NPA得分的方法可包括一个置换检验或这两个置换检验均包括,以补充各自的统计数据。
在一些实施中,另一种评分方法可被用于生成,例如Pathway Analysis(IPA)得分。如本文中所使用的,IPA得分代表生物外源性物质代谢网络模型对一组测量(可为用户定义的一组称为重点基因的基因)的匹配。IPA得分来源于统计学P值,并表示由于随机机会重点基因聚集在一个网络中的可能性。Knowledge Base(IKB)可被用于通过先行生成生物外源性物质代谢网络模型从而确定IPA得分。IKB包括结果的聚合,所述结果通过一组出版物确定,例如生物外源性物质网络模型中的每一因果连接和每一节点得到摘取自出版物的证据的支持。
本领域已知计算IPA得分的方法,计算IPA得分的软件包通过商业渠道可以获得(Ingenuity Systems公司,红木城,美国)。使用IPA过程生成网络可包括根据重点基因的互联互通性对它们进行排序。在一个示例中,高度互联互通的重点基因可早于较少相关联的重点基因被处理。然后,小网络部分通过重点基因构建,使用“连接”基因将小网络部分合并起来,“连接”基因在小网络部分之间提供连接。尤其地,连接基因可为在多个小网络部分中具有最多边的基因。然后,对仍旧是小的网络部分(即,例如,具有少于35个(或任何其它合适的数字)基因的那些),可在小网络部分的周边提供其它基因以对重点基因提供补充的生物环境。最后,可使用例如Fisher确切概率法的显著性检验方法从超几何p值计算得到p值。尤其地,p值可与超几何分布的右尾总和相对应,且p值可被计算为。
p score=-log10(p value).
在一些实施中,可使用另一种本领域公知的方法生成得分,该方法被称作基因集富集分析方法(GSEA),其在基因组水平评估微阵列数据。[Subramanian A,Tamayo P,Mootha VK,Mukherjee S,Ebert BL,Gillette MA,Paulovich A,Pomeroy SL,Golub TR,Lander ES,Mesirov JP:基因集富集分析方法:基于知识的全基因组表达谱分析方法.Proc.Natl.Acad.Sci.2005,102(43):15545-50.]GSEA方法中,根据基因表达水平和类别差异(class distinction)之间的相关性对基因进行排序。这项分析通过以下进行(i)将数据集中所有基因根据它们与已选定的表型的关联性进行排序,(ii)确定基因集中所有成员的排序位置,及(iii)计算代表获得的排序与预想的假定的随机排序分布之间差异的富集得分(ES)。建立跨表型每一基因集的ES后,GSEA再次反复在将样本标签随机化,并跨随机类别地进行重新富集测试。通过进行反复的类别标签随机化,跨真实类别的每一基因集的ES可与随机类别的ES分布相类似。表现明显超出迭代随机类别置换的那些基因集被认为是重要的。得分可能反映基因集在经排序的序列的最高和最低处被过分表示的程度,并可能与加权的类柯尔莫哥罗夫-斯米尔诺夫统计相对应。
在一些实现中,可使用另一种本领域公知的方法生成得分,该方法被称作强度评分,如在美国专利8,417,661所描述的,以引用方式将其全部内容并入本文。在一个示例中,强度评分以调整的对数倍数变化的加权平均值、或一组可测节点的差异的表达水平进行衡量。尤其地,强度评分可为与两组加权总和之间的差异相对应的幅值。一个总和是预计为增加的可测节点(例如,对于某一特定骨干节点具有因果增加(或减少)关系的那些)的差异表达水平的log 2的总和,另一个总和是预计为减少的可测节点(例如,对于某一特定骨干节点具有因果减少(或增加)关系的那些)的差异表达水平的log 2的总和。如此,通过对那些被预计是增加和被预计是减少的节点分别进行统计,对数倍数变化得到“调整”。通过一定数量的可测节点可对区别进行划分,得到每一节点的变化的归一化值的强度评分。应用到可测节点的权重可能是相同(例如,值1的单一权重)或不同的。在一些实施中,强度评分被用于预测参考节点的活动水平。例如,当强度评分是正值,参考节点可被预测为增加,而对于负的强度评分参考节点可被预测为减少。
本文中描述的计算系统和方法还能确定一对生物组织的得分之间的相关性。尤其地,一个生物组织可被表示为“目标生物组织”,另一生物组织可被表示为“替代生物组织”。在一些情况下,用户从目标生物组织中获得样本是困难的。但是,用户可能持有替代生物组织样本的数据或测量,其可能与目标生物组织的假设测量结果是相关的,并且易于为用户获得。可能有各种原因导致获得目标生物组织存在困难。例如,从期望的目标生物组织收集数据可能需要从组织记录体内数据,而这是高侵入性的方法并且可能是非实验上可接受或可能的。但是,如果用户能够获得组织的器官培养,可在较低困难条件下获得体外数据,并且该体外数据可能提供一种更经济的解决方法。使用器官培养可能减少产品测试、毒性测试、药品开发研究中活体动物的使用。在另一示例中,与鼻腔组织相比较,支气管或肺组织可能更难获得,因此鼻腔组织可用作目标支气管或肺组织的替代生物组织。
从以往实施的相关性实验可确定目标生物组织样本和替代生物组织样本之间的相关性。结合图5-8和表3、表4对相关性实验的具体例子作详细描述。例如,目标生物组织和替代生物组织的实际样本可已被获得,并且基因表达水平可已从暴露于动因的样本(即,实验数据)和未暴露于动因的样本(即,对照数据)中测量得到。测量可作为输入提供至计算因果网络模型,其可对来自于测量的数值设定可测节点的活动度量。然后,对每一样本可获得至少一部分的骨干节点的生物活动值。尤其地,骨干节点的第一组生物活动值是为实际目标生物样本获得,骨干节点的第二组生物活动值是为实际替代生物样本获得。通过确认第一和第二组相应骨干节点的生物活动值之间的相关性可确定相关性。例如,对目标和替代生物样本的各种组合,表3和表4给出Pearson相关系数和Spearman相关系数,尽管本领域技术人员将会理解根据本文所描述的系统和方法可以使用任何其它合适类型的相关系数以表示目标和替代生物样本之间的相关性。在另一示例中,可根据生物活动值对代表对生物样本的一定量的扰动的评分进行评估,目标生物组织样本的得分可能与替代生物组织样本的得分相关联。
在任何情况下,以往可能已实施并公开相关性实验,比如用户知道相关性并利用该相关性使用替代生物组织作为目标生物组织的代理,所述的目标生物组织难以获得或者其获得就是不经济的。所以,在确认相关性后,用户将从替代生物组织样本中记录的数据提供至计算因果网络模型,其提供骨干节点的活动值。用户然后可利用相关性推断,所提供的替代生物组织的活动值与目标生物组织将会得到的假设活动值是相似或相关的。类似地,替代生物组织样本的代表网络模型扰动的评分可被推断是与目标生物组织样本的网络模型的假设扰动相似或相关的。通过提供一种使用户确认替代生物组织和目标生物组织之间相关性的方法,在与替代生物组织样本相比较,为了获得目标生物组织样本是实验上更具挑战性或更高成本的情况下,本文描述的系统和方法是尤为有用的。用户可能已经持有来自替代生物组织样本的数据或测量,或是有获得这样的数据的方便的渠道。通过利用替代生物组织和目标生物组织之间的相关性,用户可使用替代生物组织的测量来推断目标生物组织的假定测量。
动因可以是单一物质或多种物质的混合,包括其中并非所有成分均是已知或经表征的混合物。动因或其成分的化学和物理性质可能不是被充分表征的。动因可根据其结构、其成分、或在某些具体条件下形成动因的来源进行定义。动因的一个示例是生物外源性物质,其为不存在于或来源于生物系统的一个分子或实体,和在接触生物系统后产生的任何中间物或代谢物。动因可为碳水化合物、蛋白质、脂类、核酸、生物碱、维生素、金属、重金属、矿物质、氧、离子、酶、激素、神经递质、无机化学化合物、有机化学化合物、环境制剂、微生物、颗粒、环境条件、环境力或物理力。动因的非限制性例子包括但不限于是,养分、代谢废物、毒药、麻醉剂、毒素、治疗用化合物、兴奋剂、弛缓剂、天然产物、制造产物、皮肤用药、化妆品、食品物质、病原体(朊病毒、病毒、细菌、真菌、原生动物)、尺寸处于微米范围或者更小的颗粒或实体、上述的副产品或上述的混合物。物理动因的非限制性例子包括,辐射、电磁波(包括太阳光)、温度的增加或降低、剪切力、流体压力、放电或一系列放电、或者外伤。动因可引起样本的变化,取决于生物系统的哪一部分被暴露以及暴露条件。动因的非限制性例子包括致癌物、刺激物、环境污染物、药物、候选药物、任何用于尼古丁替代疗法的产品、或消费者产品、食品产品、饮料产品或营养补品中的成分。
在不同的实施中,被用于与目标或替代生物组织的样本接触的动因可以是可被受试者吸入的空气污染物。在该情况下,动因可包括以下非限制性例子:烟草烟雾、香烟烟雾(CS)、含有尼古丁的浮质、通过加热烟草产生的浮质、通过加热而不燃烧烟草产生的浮质、或任何一种或多种上述的分离成分、一氧化碳、煤烟、通过燃烧任意烃类燃料产生的废气、汽油尾气、柴油尾气、焦炉逸散物、各种尺寸范围的空气颗粒物、含有重金属(镉、铬、铅、锰、汞、镍)、锑、或砷的空气化合物、从制造或处理平均粒径为1微米或以下的玻璃、矿石或矿渣纤维(或其它来源于矿物的纤维)的设施排放的矿物纤维排放物、多环有机物例如具有一个以上苯环和沸点高于或等于100℃的有机化合物、乙醛、乙酰胺、乙腈、苯乙酮、2-乙酰氨基芴、丙烯醛、丙烯酰胺、丙烯酸、丙烯腈、氯丙烯、4-氨基联苯、苯胺、邻氨基苯甲醚、石棉、苯(包括汽油中的苯)、联苯胺、三氯甲苯、苄基氯、联苯、邻苯二甲酸二(2-乙基己)酯(DEHP)、二氯甲基醚、溴仿、1,3-丁二烯、氰氨化钙、己内酰胺、克菌丹、西维因、二硫化碳、四氯化碳、硫化羰、儿茶酚、草灭、氯丹、氯、氯乙酸、2-氯苯乙酮、氯苯、二氯二苯乙醇酸乙酯、氯仿、氯甲基甲醚、氯丁、甲酚/甲苯基酸(异构体和混合物)、邻甲酚、间甲酚、对甲酚、异丙基苯、二氯二苯二氯乙烯、重氮甲烷、二苯并呋喃、1,2-二溴-3-氯丙烷、邻苯二甲酸二丁酯、1,4-二氯苯(p)、3,3-二氯联苯胺、二氯乙醚(双(2-氯乙基)醚)、1,3-二氯丙烯、敌敌畏、二乙醇胺、N、N-二甲基苯胺、硫酸二乙酯、3,3-二甲氧基联苯胺、二甲氨基偶氮苯、3,3'-二甲基联苯胺、二甲氨基甲酰氯、二甲基甲酰胺、1,1-二甲基肼、邻苯二甲酸二甲酯、硫酸二甲酯、4,6-二硝基邻甲苯酚、和盐、2,4-二硝基苯酚、2,4-二硝基甲苯、1,4-二恶烷(1,4-二氧化物)、1,2-二苯肼、环氧氯丙烷(1-氯-2,3-环氧丙烷)、1,2-环氧丁烷、烯酸乙酯、乙基苯、氨基甲酸乙酯(尿烷)、氯乙烷(氯乙烷)、二溴化乙烯(溴乙烷)、二氯化乙烯(1,2-二氯乙烷)、乙二醇、乙烯亚胺(氮丙啶)、环氧乙烷、乙烯硫脲、亚乙基二氯化(1,1-二氯乙烷)、甲醛、七氯、六氯苯、六氯丁二烯、六氯环戊二烯、六氯乙烷、六亚甲基-1,6-二异氰酸酯、六甲基磷酰胺、己烷、肼、盐酸、氟化氢(氢氟酸)、硫化氢(见修正)、对苯二酚、异佛尔酮、林丹(所有异构体)、顺丁烯二酸酐、甲醇、甲氧滴滴涕、甲基溴(溴甲烷)、氯甲烷(氯甲烷)、甲基氯仿(1,1,1-三氯乙烷)、甲基乙基酮(2-丁酮)(见修正)、甲基肼、甲基碘(碘甲烷)、甲基异丁基酮(己烯)、异氰酸甲酯、甲基丙烯酸甲酯、甲基叔丁基醚、4,4-亚甲基双(2-氯苯胺)、二氯甲烷(二氯甲烷)、二苯基甲烷二异氰酸酯(mdi)、4,4'-二氨基二苯甲烷、萘、硝基苯、4-硝基联苯、氮氧化物、4-硝基苯基、2-硝基丙烷、N-亚硝基-N-甲基脲、N-二甲基亚硝胺、N-亚硝基吗啉、臭氧、对硫磷、五氯硝基苯(昆托苯)、五氯苯酚、苯酚、对苯二胺、光气、磷化氢、磷、邻苯二甲酸酐、多氯联苯(多氯联苯)、1,3-丙磺酸内酯、β-丙内酯、丙醛、残杀威(拜高)、丙烯酰氯(1,2-二氯丙烷)、环氧丙烷、1,2-丙烯亚胺(2-甲基氮丙啶)、喹啉、醌、苯乙烯、氧化苯乙烯、二氧化硫、2,3,7,8-四氯二苯并二恶英(2,3,7,8-tetrachlorodibenzo-p-dioxin)、1,1,2,2-四氯乙烷、四氯乙烯(氯乙烯)、四氯化钛、甲苯、2,4-甲苯二胺、2,4-甲苯二异氰酸、邻甲苯胺、毒杀芬(氯化莰烯)、1,2,4-三氯苯、1,1,2-三氯乙烷、三氯乙烯、2,4,5-三氯苯酚、2,4,6-三氯酚、三乙胺、氟乐灵、2,2,4-三甲基戊烷、乙酸乙烯酯、乙烯基溴、氯乙烯、偏二氯乙烯(1,1-二氯乙烯)、二甲苯(异构体和混合物)、邻二甲苯、间二甲苯、对二甲苯、或任意其它可与哺乳动物的呼吸系统接触的外来物质。
一种动因或复杂刺激的暴露方法应当反映每日设定中暴露的范围和环境。一套标准暴露方法可被设计系统地运用到定义明确的实验系统中。每一检测可被设计收集时间和剂量依赖数据从而捕捉早期和晚期事件并确保覆盖代表性剂量范围。而且,将动因暴露至组织的过程可与暴露发生至生物体依据的过程是相同或不同的。例如,将空气动因暴露至组织,可使用各种方法,例如将动因喷洒至组织,将组织和动因储存在有限的空间中,或以其它方式将组织与动因相接触,例如在溶液中或通过悬浮。但是,本领域技术人员将会理解本文中描述的系统和方法可适应并调整至适合于所提出的应用,以及本文中所设计的系统和方法可被用于其它合适的应用,及例如其它补充和修改不会偏离本发明的保护范围。
理想的是定量地和定性地评估对生物体呼吸道中组织的一定的伤害或损害。在一示范性例子中,在暴露于CS之后,组织伤害区域出现在不只是肺组织中,也在鼻腔组织和沿气管的组织中。在该情况下,理想的是使用来自上呼吸道的组织(比如鼻腔组织或颊组织)作为替代生物组织,下呼吸道的组织(比如肺组织)作为目标生物组织。因为来自上呼吸道的组织可能比下呼吸道组织更容易获得或获得的成本更低,因此是理想的。在该情况下,来自上呼吸道的替代生物组织被用作为评估网络扰动或来自下呼吸道的目标生物组织骨干活动值的代理。
在一个示例中,替代生物组织是来自组织(例如,来自呼吸道)的体外器官组织培养,目标生物组织的样本包括从相同组织中记录的体内数据。作为例子,组织可为支气管组织或鼻腔组织,可就一或两种组织获得体外数据和体内数据之间的相关性。通过使用户能够使用替代性生物组织作为目标生物组织的代理,生物组织样本的体外数据可被用于对体内数据作替换,并且有利地,活体动物测试可被减少。生物组织样本的来源包括但不限于是吸烟者、烟草产品的使用者、从不吸烟者、戒烟者、患有呼吸道疾病的人类病人、人慢性阻塞性肺疾病(COPD)病人、及人呼吸道疾病例如COPD的动物模型。
在另一示例中,观察了第一生物组织和第二生物组织之间的相关性,还观察了第二生物组织和第三生物组织之间的相关性。在该情况下,第一生物组织与第三生物组织是相关的。在一示例中,第一生物组织是体外数据,第二生物组织是体内数据,其中第一和第二生物组织是从相同部位(例如,鼻腔组织)得到的。第三生物组织可能是从另一部位(例如,肺组织)得到的体外数据或体内数据。在该情况下,所有三种生物组织可能是相关的,并且三种生物组织中的任意一对生物组织可被用作替代生物组织和目标生物组织。
图1描绘了可用来实施本文所公开的系统和方法的计算机网络和数据库结构的示例。
图1是根据示例性实施方式的用于评估生物外源性物质代谢网络模型的扰动的计算机化系统100的框图。系统100包括通过计算机网络102相连的服务器104、用户设备108、网络模型数据库106和相关性数据库107。服务器104包括处理器105,并且用户设备108包括处理器110和用户接口112。如本文所用,术语“处理器”或“计算设备”是指一个或多个计算机、微处理器、逻辑设备、服务器或其它设备,所述其它设备配置有硬件、固件和软件以执行本文所述的计算化技术中的一种或多种。处理器和处理设备也可包括用于存储输入、输出和当前正被处理的数据的一个或多个存储设备。下文参照图3详细地描述了示例性的计算设备300,其可用来实施本文所述的处理器和服务器中的任一者。如本文所用,“用户接口”包括但不限于一个或多个输入设备(例如,小键盘、触摸屏、轨迹球、语音识别系统等)和/或一个或多个输出设备(例如,视觉显示器、扬声器、触觉显示器、打印设备等)的任何合适的组合。如本文所用,“用户设备”包括但不限于一个或多个设备的任何合适的组合,所述一个或多个设备配置有硬件、固件和软件以执行本文所述一种或多种计算机化动作或技术。用户设备的示例包括但不限于个人计算机、笔记本电脑和移动设备(例如,智能手机、平板型计算机等)。图1中仅示出一个服务器、一个用户设备和两个数据库,以免使图变得复杂,但本领域的普通技术人员应当理解,系统100可支持多个服务器和任意数量的数据库或用户设备。
网络模型数据库106是包括表示网络模型和网络模型的元素的数据的数据库。例如,当网络模型是生物系统的模型时,网络模型的表示可以呈BEL中的一个或多个语句的形式。BEL语句可提供对于网络的两个节点(例如,主体和客体)之间关系的指示。网络模型数据库106可分别存储骨干节点和可测节点。例如,网络模型数据库106可在数据库的一部分存储一组骨干节点,并在数据库的另一部分存储可测节点。节点之间的边可被存储于有前述一组骨干节点的数据库中、存储于有一组可测节点的数据库中、或单独存储,作为连接两节点的指针。进一步地,边可与方向值相关,例如+1或-1表示两节点之间的因果关系是否是因果增加关系或因果减少关系。
相关性数据库107是包括表示两组织之间相关性的数据的数据库。例如,相关性可能与响应于暴露于动因,目标组织预期的扰动和替代组织的扰动之间的相关性相对应。尤其地,目标组织可能是从一部位收集的体内数据,例如呼吸道的一部分(即,例如是肺组织或支气管组织),而替代组织可能是从另一部位或呼吸道的另一部分(即,例如是鼻腔组织或颊组织)收集的体内数据。在另一示例中,目标组织可能是从一部位收集的器官体外数据,而替代组织可能是从另一部位收集的器官体外数据。在另一示例中,目标组织可能是从一部位收集的体内数据,而替代组织可能是从相同部位收集的器官体外数据。在任一这些示例中,相关性数据库107存储着预期的扰动或两组数据集的响应被预计是相关联的指示。另外,相关性数据库107可进一步存储例如对每一相关性的一组线性回归参数、相关性得分、或两者均有的其它参数。尤其地,所述的一组线性回归参数表示两组数据集是如何相关联、并可包括y轴截距和线性回归斜率。相关性评分可表示相关性的强度,例如可为相关系数。
图1的系统100的部件可以以多种方式中的任一种布置、分布和组合。例如,可以使用这样的计算机化系统:该系统将系统100的部件分布在经由网络102相连的多个处理设备和存储设备上。这样的具体实施可能适用于通过多个通信系统进行的分布式计算,这些通信系统包括共享到公共网络资源的接入的无线和有线通信系统。在一些具体实施中,系统100在云计算环境中实现,在该环境中,部件中的一个或多个由经由因特网或其它通信系统相连的不同的处理和存储服务提供。服务器104可以是例如在云计算环境中实例化的一个或多个虚拟服务器。在一些具体实施中,服务器104与网络模型数据库106组合成一个部件,该部件的示例结合图2来详细描述。尤其地,图2是执行本文所述功能中的任一个的服务器204的框图。服务器204包括处理器205、相关性数据库222、实验数据和对照数据数据库228、网络模型数据库206、活动度量计算电路224、和活动值计算电路226,均通过总线相连。
图3是计算设备的框图,例如为用于执行本文所述过程的图1的系统100的部件中的任一个。系统100部件的每一个,包括用户设备108、网络模型数据库106、相关性数据库107、或服务器104可在一个或多个计算设备300上实施。在某些方面,多个上述部件和数据库可以被包括在一个计算设备300内。在某些具体实施中,部件和数据库可以在若干计算设备300中被实现。
计算设备300包括至少一个通信接口单元、输入/输出控制器310、系统存储器、以及一个或多个数据存储设备。系统存储器包括至少一个随机存取存储器(RAM 302)和至少一个只读存储器(ROM 304)。这些元件全部与中央处理单元(CPU 306)连通,以有利于计算设备300的运作。计算设备300可以以许多不同的方式配置。例如,计算设备300可以是常规的独立式计算机,或可选地,计算设备300的功能可以被分布在多个计算机系统和架构中。计算设备300可被配置成执行建模、评分和聚合操作中的一部分或全部。在图3中,计算设备300经由网络或局部网络连接到其它服务器或系统。
计算设备300可以被配置成分布式架构,其中,数据库和处理器被容纳在单独的单元或位置中。一些这样的单元执行主要的处理功能,并且至少包含通用控制器或处理器和系统存储器。在这样的方面,这些单元中的每一个经由通信接口单元308附接到通信集线器或端口(未示出),该集线器或端口用作与其它服务器、客户端或用户计算机和其它相关设备的主要通信链路。通信集线器或端口自身可具有最低的处理能力,主要用作通信路由器。各种通信协议可以是系统的一部分,包括但不限于:Ethernet、SAP、SASTM、ATP、BLUETOOTHTM、GSM和TCP/IP。
CPU 306包括处理器,例如,一个或多个常规的微处理器和用于从CPU 306卸载工作量的诸如数学协处理器的一个或多个辅助的协处理器。CPU 306与通信接口单元308和输入/输出控制器310通信,CPU 306通过通信接口单元308和输入/输出控制器310与诸如其它服务器、用户终端或设备的其它设备通信。通信接口单元308和输入/输出控制器310可包括多个通信信道,以用于与例如其它处理器、服务器或客户终端同时通信。彼此通信的设备不需要连续地发送到彼此。相反,这样的设备仅需要在必要时发送到彼此,实际上可以在大部分时间抑制交换数据,并且可能需要执行若干步骤以在设备之间建立通信链路。
CPU 306也与数据存储设备通信。数据存储设备可包括磁性、光学或半导体存储器的适当组合,并且可包括例如RAM 302、ROM 304、闪存驱动器、诸如压缩盘的光盘或硬盘或硬盘或驱动器。CPU 306和数据存储设备均可以例如完全位于单个计算机或其它计算设备内;或由通信介质连接到彼此,通信介质为例如USB端口、串行端口电缆、同轴电缆、以太网式电缆、电话线、射频收发器或其它类似的无线或有线介质、或上述的组合。例如,CPU 306可以经由通信接口单元308连接到数据存储设备。CPU 306可被配置成执行一个或多个特定的处理功能。
数据存储设备可以存储例如:(i)用于计算设备300的操作系统312;(ii)一个或多个应用程序314(例如,计算机程序代码或计算机程序产品),其适于根据本文所述系统和方法并且特别地根据关于CPU 306详细描述的过程来指导CPU 306;或者(iii)适于存储信息的数据库316,其可以用来存储程序所需的信息。在一些方面,数据库包括存储实验数据和公布的文献模型的数据库。
操作系统312和应用程序314可以例如存储成压缩、未编译和加密的格式,并且可包括计算机程序代码。程序的指令可以从计算机可读介质而不是数据存储设备(例如,从ROM 304或从RAM 302)读入处理器的主存储器中。虽然在程序中的指令的序列的执行造成CPU 306执行本文所述过程步骤,但硬连线电路可以用来代替软件指令或与软件指令结合使用,以实现本公开内容的过程。因此,所描述的系统和方法不限于硬件和软件的任何具体组合。
合适的计算机程序代码可以提供用于执行本文所述的一个或多个功能。程序也可包括程序元素,例如,操作系统312、数据库管理系统和“设备驱动程序”,这些程序元素允许处理器经由输入/输出控制器310与计算机外围设备(例如,视频显示器、键盘、计算机鼠标等)进行交互。
如本文所用,术语“计算机可读介质”是指任何非暂时性介质,其提供或参与提供指令到计算设备300的处理器(或本文所述设备的任何其它处理器)以执行。这样的介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包括例如光学、磁性、或光磁性盘、或诸如闪存存储器的集成电路存储器。易失性介质包括动态随机存取存储器(DRAM),其通常构成主存储器。常见形式的计算机可读介质包括例如软盘、软磁盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、任何其它光学介质、穿孔卡、纸带、带有孔图案的任何其它物理介质、RAM、PROM、EPROM或EEPROM(电可擦除可编程只读存储器)、FLASH-EEPROM、任何其它存储芯片或盒、或计算机可从其读取的任何其它非暂时性介质。
各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传输到CPU306(或本文所述设备的任何其它处理器)以用于执行。例如,指令可以初始地承载在远程计算机(未示出)的磁盘上。远程计算机可以将指令加载到其动态存储器中,并且通过以太网连接、电缆线路或甚至使用调制解调器的电话线发送指令。计算设备300(例如,服务器)本地的通信设备可以在相应的通信线路上接收数据,并且将数据置于用于处理器的系统总线上。系统总线将数据传输到主存储器,处理器从主存储器获取并执行指令。由主存储器接收的指令可以可选地在由处理器执行之前或之后存储在存储器中。此外,指令可以经由通信端口被接收为电信号、电磁信号或光信号,这些信号是载送各种类型的信息的无线通信或数据流的示例性形式。
图9显示了用于评估生物外源性物质代谢网络模型的扰动的方法900的流程图。尤其地,方法900对响应于暴露于动因的目标生物组织的扰动进行量化。方法900包括存储代表生物外源性物质代谢的计算因果网络模型的数据的步骤(902),接收与实验数据和对照数据之间的区别相对应的一组对比数据,其中实验数据表示替代生物组织样本对暴露于动因的响应(904),并根据至少一部分可测节点的生物活动度量和计算因果网络模型确定至少一部分骨干节点的活动值(906)。方法900进一步包括对表示替代生物组织样本响应于暴露于动因的扰动的得分进行计算(908),对目标生物组织响应于动因的扰动和替代生物组织响应于动因的扰动两者之间的相关性进行确定(910),及提供评分以表示目标生物组织响应于动因的扰动(912)。
在步骤902,表示生物外源性物质代谢的计算因果网络模型的数据是被存储于例如为网络模型数据库106的数据库中。尤其地,计算因果网络模型包括一组表示生物活动的可测节点和一组表示生物活动的骨干节点。至少骨干节点的一部分生物活动是与生物外源性物质代谢相关的。进一步地,计算因果网络模型还包括一组边,其中每一边表示节点之间的因果关系。所述的一组骨干节点、可测节点和边可包括如表1、表2所示的那些,或是它们的子集。尤其地,至少骨干节点之一与AHR或AHR转录活动是相对应的。如文本所描述地,计算因果网络模型可使用RCR进行构建。
在步骤904,一组对应于实验数据和对照数据之间区别的对比数据被接收。实验数据表示替代生物组织样本暴露于动因的响应,对照数据表示替代生物组织样本未暴露于动因或于对照条件下的响应。上述的一组对比数据包括所述一组可测节点中的至少一部分节点的生物活动度量。例如,生物活动度量可与实验数据和对照数据之间(可测节点的)基因表达水平的差异相对应,因此生物活动度量表示在一组可测节点的响应于暴露于动因的活动水平的变化。
在步骤906,根据至少一部分可测节点的生物活动度量和计算因果网络模型对至少一部分骨干节点的活动值进行确定。如本文中所描述地,骨干节点的活动值是通过可测节点的生物活动度量和在网络模型中可测节点和骨干节点之间的连接关系推断得到。
在步骤908,对表示替代生物组织样本响应于暴露于动因的扰动的得分进行计算。如前文描述地,得分可与总体扰动评估相对应,例如NPA评分、IPA评分、GSEA评分、强度评分、或其组合、或任意其它用于网络模型响应于动因的扰动评估的合适评分。尤其地,得分可与单个骨干节点的活动值相对应,或者得分可根据多个骨干节点的活动值计算。在一示例中,得分可被计算为至少一部分可测节点的生物活动度量的二次函数。
在步骤910,对目标生物组织响应于动因的扰动和替代生物组织响应于动因的扰动两者之间的相关性进行确定。确定相关性包括确定生物外源性物质代谢的计算因果网络模型对于目标生物组织响应于动因的扰动和替代生物组织响应于动因的扰动两者均是适用的。尤其地,相关性数据库例如相关性数据库107可被用于确定目标生物组织和替代生物组织之间是否存在这样的相关性。如果这样的相关性存在,相关性的参数(例如像线性回归参数或相关性的强度)可被进一步确定。在一个示例中,根据相关性对得分进行修正。例如,对得分进行修正以生成基于一个或多个线性回归参数的经修正的得分。尤其地,当线性回归参数包括斜率和y轴截距或x轴截距,线性回归参数可被用于以y轴截距或x轴截距抵消评分、或根据斜率进行评分换算、或两者都进行。通常,对得分的修正可以任何合适的方式进行,以获得表示目标生物组织的预期扰动的经修正得分。
在步骤912,提供得分以表示目标生物组织响应于动因的扰动。尤其地,当目标生物组织和替代生物组织之间的相关性确定后,得分(关于替代性生物组织被评估)可作为目标生物组织的扰动的表示被提供。在一些实施中,得分可根据经确定的相关性的参数修正(例如像对得分进行换算、或以由线性回归参数确定的值进行抵消),然后得到经修正的得分。
在一个示例中,目标生物组织的扰动表示预期将从于目标生物组织取样得到的体内数据观察到的生物活动度量。替代生物组织的扰动表示从替代生物组织取样得到的体内或器官体外数据中观察到的生物活动度量,且其中目标生物组织与替代生物组织是不同的。
在另一示例中,目标生物组织扰动表示预期将从于目标生物组织取样得到的器官体外数据观察到的生物活动度量。在该情况下,替代生物样本的扰动表示于替代生物组织取样得到的器官体外数据中观察到的生物活动度量。
在一示例中,目标生物组织或替代生物组织、或两者均选自于肺组织、鼻腔组织、支气管组织、颊组织、上呼吸道、下呼吸道和上皮细胞。在一示例中,动因选自于香烟烟雾、一氧化碳、煤烟、汽油尾气、柴油尾气颗粒、颗粒物和空气污染物。当动因是药物,动因可被喷洒于体外器官培养物上从而将替代生物组织暴露于动因。
在一示例中,计算因果网络模型是关于呼吸系统中的哺乳动物生物外源性物质代谢,目标生物组织和替代生物组织是取样自哺乳动物组织。哺乳动物生物外源性物质代谢可为呼吸系统的一部分。进一步地,计算因果网络模型可表示人生物外源性物质代谢,目标生物组织和替代生物组织可自人组织中取样。
可以使用从组织中获得基因表达水平测量的不同方法,包括体外和体内测量。文本中描述的是用于从组织培养获得测量的方法,该方法的数据如图5-8所示并结合这些附图进行说明。
在一些实施中,表达水平(例如像是可测节点的活动度量)的测量是从器官组织培养中得到。在一示例中,从器官组织培养中得到测量,数据如图7A至7D以及图8A至8D所示。尤其地,基于原代人呼吸道上皮细胞与原代人呼吸道成纤维细胞共培养的MucilAirTM-人成纤维细胞-支气管和MucilAirTM-人成纤维细胞-鼻腔全层组织模型购自Epithelix Sárl(日内瓦,瑞士),并根据制造商手册进行培养。MucilAirTM模型是一随时可用的分化的人上皮3D模型[Huang S,Wiszniewski L,Constant S:呼吸系统疾病的药物研发中体外3D细胞模型的使用.Tech December 2011.].器官组织培养物是从健康的、不吸烟的、高加索捐献者分离的原代人上皮细胞,以成纤维细胞重组。成纤维细胞的共培养已显示对3D培养中上皮细胞的增殖和分化是具有贡献的[Parrinello S,Coppe J-P,Krtolica A,Campisi J:衰老和癌症中间质-上皮的相互作用:衰老成纤维细胞改变上皮细胞分化.Journal of cellscience 2005,118(3):485-496.].支气管上皮细胞从一捐献者获得,鼻腔上皮细胞从另一捐献者获得。在两个模型上均进行了质量控制评估(数据未显示)。组织模型于细胞培养小室(24孔型)0.7ml基质的气液界面进行培养。器官模型在气液界面于37℃下培养14天,每隔2天加入新鲜培养基。
本文中所述的呼吸系统器官组织培养模型可被暴露于香烟烟雾(CS)。尤其地,如图7A至7D和图8A至8D所示的数据,细胞培养模型在培养中生长2-3天后,组织(一式三份)在气液界面被暴露于16%(vol/vol)的主流CS暴露(一共4支香烟,3R4F),每支香烟之间停顿1小时,在Vitrocell系统(瓦尔德基希,德国)中并使用60%加湿空气。60%加湿空气被用作对照暴露。对每一次CS浓度检测了暴露室中的总粒相物(TPM)(每支香烟后的TPM沉积中间值为2842.4ng/cm2±SEM=570.7,N=24)参考香烟3R4F从肯塔基大学得到(www.ca.uky.edu/refcig),并使用30口转盘吸烟机(SM2000,Philip Morris,Int.)吸烟根据Health Canada regimen方法[Health Canada."Tar"的测定,主流烟草烟雾中的尼古丁和一氧化碳.可见:http://www.hc-sc.gc.ca/hc-ps/tobac-tabac/legislation/reg/ indust/method/_main-principal/nicotine-eng.php#a5.1999.].暴露后,器官模型立即在新鲜培养基中进行孵育(暴露后0小时)在收集组织用于进一步分析前,在暴露后的不同时间(4、24和48小时)进行额外地实施。
于0、4、24和48小时的暴露后时间的被暴露的组织(n=3)以冰浴PBS清洗3次,然后使用Qiazol lysis组织溶解试剂(miRNeasy Mini试剂盒,Qiagen公司)裂解,并于-80℃冰冻一周。miRNeasy Mini试剂盒用于mRNA的提取和纯化。使用NanoDrop ND1000测定总RNA量,并使用安捷伦2100芯片生物分析仪(RIN数值大于8)作定性验证。根据mRNA分析,根据GeneChip HT 3′IVT Express User Manual(Affymetrix公司)对总RNA(100ng)进行处理。使用人类基因组U133Plus 2阵列芯片进行微阵列杂交。
在一些实施中,对微阵列数据进行处理。尤其地,使用R statisticalenvironment 2.14版本来实施数据处理和评分方法。[R Development核心团队:R:一种统计计算的语言和环境;2009.].使用在R statistical environment中可获得的Bioconductor微阵列分析工具套件(版本2.9)中的affy和limma包对原始RNA表达数据进行分析[Gentleman R:使用R和Bioconductor的生物信息学和计算生物学解决方案.NewYork:Springer Science+Business Media;2005;Gentleman RC,Carey VJ,Bates DM,Bolstad B,Dettling M,Dudoit S,Ellis B,Gautier L,Ge Y,Gentry J等:Bioconductor:计算生物学和生物信息学开放式软件开发.Genome Biol 2004,5(10):R80.].RobustMultichip Average(GCRMA)背景校正和分位数归一化被用来产生探针组表达值[IrizarryRA,Hobbs B,Collin F,Beazer-Barclay YD,Antonellis KJ,Scherf U,Speed TP:高密度寡核苷酸阵列探针水平数据的探索、规范化和总结.Biostatistics 2003,4(2):249-264.].对每一数据集,总线性模型被适于感兴趣的特定对比(有关“实验”和“对照”条件的比较)的数据,对微阵列每一探针组生成原始p值,对其使用Benjamini-Hochberg算法进行进一步调整。实验设计中的妨碍因素(暴露盘)在对器官支气管和鼻腔组织的数据处理模型中被考虑在内。
使用非裂解P450荧光检测(CYP1A1检测目录#:V8752;CYP1B1检测目录#V8762;Promega公司)对CYP1A1和CYP1B1进行检测,以人器官鼻腔和支气管模型在CS暴露后48小时的发光量为根据。根据制造商的建议实施检测。简而言之,鼻腔和支气管组织两者均以含有发光的CYP–Glo基质例如荧光素-CEE(luciferin-CEE)的培养基中孵育3小时(CYP1A1和CYP1B1),得到荧光素产物,可通过加入荧光素检测试剂进行光产生反应在上清液中对其定量。
在第一示例中,通过使用网络扰动幅度(NPA)方法在四个数据集之间观察到生物外源性物质代谢网络模型中的骨干节点的活动值的相关性,该四个数据集是关于从健康个体中获得的人鼻腔和支气管上皮样本,所述的健康个体是目前为吸烟者和从未吸过烟的人。图5显示GSE16008数据集与另外三个数据集(GSE7895数据集(左栏)、GSE19667数据集(中栏)和GSE14633数据集(右栏))的骨干节点的活动值之间的相关性。GSE16008数据集包括从鼻腔和支气管上皮样本测量的基因表达数据,所述的样本是收集自吸烟者和非吸烟者。支气管上皮细胞通过支气管镜检查收集,而鼻腔上皮细胞通过刷拭下鼻甲收集[ZhangX,Sebastiani P,Liu G,Schembri F,Zhang X,Dumas YM,Langer EM,Alekseyev Y,O'Connor GT,Brooks DR等:鼻腔和支气管上皮中吸烟相关的基因表达之间的相似与差异.Physiological genomics 2010,41(1):1-8.].另外三个数据集的每一个(GSE7895[BeaneJ,Sebastiani P,Liu G,Brody JS,Lenburg ME,Spira A:烟草烟雾暴露对呼吸道上皮基因表达的可逆和永久作用.Genome Biol 2007,8(9):R201.],GSE19667[Strulovici-BarelY,Omberg L,O'Mahony M,Gordon C,Hollmann C,Tilley AE,Salit J,Mezey J,HarveyBG,Crystal RG:小呼吸道上皮对低水平烟草烟雾的生物反应阈值.American journal ofrespiratory and critical care medicine 2010,182(12):1524-1532.],和GSE14633[Schembri F,Sridhar S,Perdomo C,Gustafson AM,Zhang X,Ergun A,Lu J,Liu G,ZhangX,Bowers J et al:人呼吸道上皮中MicroRNA作为吸烟引发的基因表达变化的调节因子.Proc Natl Acad Sci U S A 2009,106(7):2319-2324.])包括对以支气管镜检查方式从吸烟者和不吸烟者获得支气管上皮样本测量得到的基因表达数据。
图5显示在GSE16008数据集和每一其它数据集之间使用NPA方法,生物外源性物质网络模型(如图4所描述)中骨干节点的活动值(也被称作为差异的网络骨干值)的相关性。尤其地,图5中每一数据点表示生物外源性物质代谢网络模型中的一个骨干节点。95%置信区间显示两个扰动下差异的网络骨干值(轴线(axes))。实心对角线显示由适于每一栏的最小平方计算的线性回归线。所有回归模型是显著的(P<0.05),图5所显示的三幅插图描述基因表达倍数变化的相关性。
在第二示例中,在从鼻腔上皮收集的体内数据和从支气管上皮(GSE16008)收集的体内数据之间观察到相关性。图6A显示体内支气管和鼻腔刷拭上皮的骨干节点的活动值(差异的网络骨干值)之间具有很高相关性。进一步地,图6A的插图描述AHR骨干节点如何可通过基因表达数据计算。尤其地,图6A中的每一数据点表示生物外源性物质代谢网络模型的一个骨干节点。对角线是线性回归线,由适于显著性P值<0.05的最小平方计算得到。95%置信区间显示两个扰动下差异的骨干节点值(轴线)。图6A的插图显示骨干节点AHR之下的基因表达。
图6B是使用体内支气管(左)和鼻腔(右)数据的生物外源性物质代谢网络模型中骨干节点活动值(差异的网络骨干值)的图形说明。不同深浅阴影反映通过NPA评分技术得到的骨干节点的量化,证明生物机制是与生物外源性物质代谢有关的。负值表示骨干节点活动的下调,正值表示骨干节点活动的上调。符号*表示显著性P值<0.05。生物外源性物质代谢网络模型通过骨干节点的活动值反映,并且支气管和鼻腔上皮之间是相似的。例如,香烟吸烟与支气管和鼻腔样本中芳烃受体抑制因子(AHRR)同时下降的活性是有关的(图6B)。已知AHRR抑制AHR与响应于生物外源性物质的元素(XRE)结合,从而抑制AHR依赖基因的转录,包括CYP1A1、CYP1A2和CYP1B1[Stejskalova L,Vecerova L,Perez LM,Vrzal R,DvorakZ,Nachtigal P,Pavek P:人和大鼠胎盘中芳烃受体与芳烃核转运蛋白表达及人滋养层培养中转录活动.Toxicological sciences:an official journal of the Society ofToxicology 2011,123(1):26-36.].骨干活动值的上调与对CYP观察到的一致(图6B)。如图6B所示,具有更深阴影的骨干节点是对NPA得分贡献最多的那些。例如,在图6B中最深的骨干节点与例如AHRR、8-甲基-IQX、靛玉红(indirubin)、AHR、姜黄素(curcumin)、NFE2L2、oxof(CYP2E1)及catof(NQO1)相对应。
图6C显示支气管(左)和鼻腔(右)样本的生物外源性物质代谢网络模型的NPA得分的条形图。图6C也显示伴随统计O*和K*,两者均显示为显著的,表明体内鼻腔和支气管样本两者均显著证明由生物外源性物质代谢网络模型表示的生物机制。响应于吸烟的生物外源性物质代谢网络模型的扰动的统计学意义显示为:*表示整个网络水平的NPA得分的显著性(P值<0.05),所述整个网络水平自体内支气管和鼻腔数据集生成。这些结果表明鼻腔上皮和支气管上皮对暴露于CS引发相似的生物外源性物质应答。相似的生物外源性物质应答通过生物外源性物质网络模型中骨干节点的活动值得到反映。这些结果表明鼻腔上皮可被用作对CS暴露的支气管上皮的替代样本。进一步地,这些结果还支持着暴露于CS可导致对呼吸道内壁组织造成相似应答或相似影响的主张[Steiling K,Ryan J,Brody JS,Spira A:肺和呼吸道中的组织损伤区域.Cancer prevention research(Philadelphia,Pa)2008,1(6):396-403.].
而且,与在骨干节点(即,功能层)的相关性不同,没有观察到位于可测节点水平(即,转录层)的相关性(图6D)。这表示使用包括这两层(即,功能层和转录层)的生物外源性物质代谢网络模型的NPA方法的应用,可帮助实现高通量转录组数据集高分辨率的比较。
在第三个示例中,在体外器官支气管和鼻腔上皮细胞组织中响应于暴露于CS的两者生物外源性物质代谢响应之间观察到相关性。研发一个模拟体内条件的可靠的体外系统可能是具有难度的。最近,人细胞的器官培养已被发展和利用于理解正常的生物过程[KarpPH,Moniger T,Weber SP,Nesselhauf TS,Launspach JL,Zabner J,Welsh MJ:分化的人呼吸道上皮的体外模型.Methods Mol Biol 2002,188:115-137.;Mathis C,Poussin C,Weisensee D,Gebel S,Hengstermann A,Sewer A,Belcastro V,Xiang Y,Ansari S,Wagner S:于体外在气液界面暴露于香烟的人支气管上皮细胞与吸烟人类的支气管上皮相类似。美国生理学杂志-肺细胞和分子生理学2013.;Maunders H,Patwardhan S,PhillipsJ,Clack A,Richter A:人支气管上皮细胞转录:体外急性暴露于总的香烟烟雾中之后的基因表达变化.Am J Physiol Lung Cell Mol Physiol 2007,292(5):L1248-1256.;PezzuloAA,Starner TD,Scheetz TE,Traver GL,Tilley AE,Harvey BG,Crystal RG,McCray PB,Jr.,Zabner J:气液界面及使用原代细胞培养对于概括体内呼吸道上皮转录谱是重要的.Am J Physiol Lung Cell Mol Physiol 2011,300(1):L25-31.;Bosse Y,Postma DS,SinDD,Lamontagne M,Couture C,Gaudreault N,Joubert P,Wong V,Elliott M,van denBerge M等:吸烟在人肺组织中的分子特征.Cancer research 2012,72(15):3753-3763.].在本研究中,在体外器官支气管上皮中被引发的网络扰动,被与反复暴露于总CS的体外器官鼻腔上皮的相比较。在最后一次暴露后细胞被立即收集(暴露后0小时)。
图7A显示体外支气管和鼻腔刷拭上皮的骨干节点的活动值之间是高度相关的。图7A中的每一数据点表示在生物外源性物质代谢网络模型中的一个骨干节点,以节点标签表示。对角线是线性回归线,由适于显著性P值<0.05的最小平方计算得到。95%置信区间显示两个扰动下骨干节点的活动值(轴线)。图7A的插图描绘了基因表达倍数变化之间的相关性(在转录层的相关性)。
NPA得分的条形图显示响应于吸烟的生物外源性物质代谢网络模型的扰动的统计学意义被显示为:*表示自体外支气管和鼻腔数据集生成的整个网络水平的NPA得分的显著性,以及它们的伴随统计O*和K*如材料和方法部分所描述的(P值<0.05)。在功能层的可比性与使用体内数据集观察到的内容是相一致的。条形图(图7A)显示生物外源性物质代谢网络模型与伴随统计的NPA得分。这些显著性统计数据表明数据集中的体外鼻腔和支气管样本两者均显著证明由生物外源性物质代谢网络模型表示的生物机制。
进一步地,为了调查使用生物外源性物质代谢网络模型的分析方法与商业可获得的的数据分析和演绎工具相比如何,产生于体外器官样本的同样的数据集被上传到根据的知识库,生物外源性物质代谢标准途径由AHR信号通路和生物外源性物质代谢信号通路组成。图7B显示数据集和在“生物外源性物质代谢”类别下两个的标准途径之间的显著关联性。Y轴显示为在满足截止条件的有关途径中基因的数目计算的比例,由构成该特定途径的基因总数进行划分。条形越高,表示越多基因与该途径有关联。代表性的途径在两个数据集之间互相重叠,所述的两个数据集从器官支气管和鼻腔模型中产生。在支气管和鼻腔上皮之间观察到与两个信号通路的相似的关联性,由比例的可比性表示(图7B)。这一观察结果与使用网络模型的NPA分析是相一致的(图7A)。
另外,对不同暴露后的时间点的效果进行检验以评估细胞从CS暴露中恢复的能力。假设的是对于更长的暴露后时间,在生物外源性物质代谢网络模型中观察到的扰动将越少。表3列出对图7C中所显示数据的Pearson相关系数和Spearman相关系数。尤其地,在4、24和48小时的暴露后时间,支气管和鼻腔上皮两者骨干节点的活动值持续性地呈相关联(图7C和表3)。但是,随着暴露后经过的时间增加,相关性减小(图7C和表3)。图7C中的每一数据点表示生物外源性物质代谢网络模型中的一个骨干节点,以节点标签表示。对角线是线性回归线,由适于显著性P值<0.05的最小平方计算得到。95%置信区间显示两个扰动下差异的骨干节点值(轴线)。图7C的插图描述了基因表达倍数变化之间的相关性(在转录层的相关性)。
图7D显示NPA得分的条形图,其显示响应于吸烟的生物外源性物质代谢网络模型的扰动的统计学意义。符号*表示自体外支气管和鼻腔数据集生成的NPA得分的显著性,以及它们的伴随统计O*和K*(P值<0.05)。从使用的分析也反映了减少的响应;在暴露后时间的晚期时间点观察到数据集与两个标准途径之间降低的关联性(图7D)。分析的结果与NPA得分观察到的内容是相一致的(图7D),其中在暴露后时间的晚期时间点的生物外源性物质响应较低。
该数据表明暴露后的时间越短,支气管和鼻腔两者的生物外源性物质代谢越受到扰动。该观察结果与以往研究结果相一致,其中于Sprague-Dawley大鼠经CS暴露的肺组织中观察到阶段I生物外源性物质代谢酶的瞬态感应(例如,cyp1A1和aldh3A1)[Gebel S,Gerstmayer B,Kuhl P,Borlak J,Meurrens K,Müller T:通过在大鼠肺由香烟烟雾诱导的转录变化动力学,揭示防御、炎症、和生物钟基因表达的特定程序.ToxicologicalSciences 2006,93(2):422-431.].进一步地,这可为为什么在较短的暴露后时间观察到体外器官支气管和鼻腔模型之间的差异网络骨干值的相关性更好(图7C),提供一个可能的解释。
在第四个示例中,在体内支气管刷拭数据和体外器官支气管和鼻腔数据之间观察到相关性。尤其地,对体外器官模型是否可揭示与体内观察到的生物外源性物质响应相似的对CS暴露的生物外源性物质响应。为了这么做,对于从体内数据集生成的骨干节点活动值是否与从体内的那些是良好相关的进行了确定。对骨干节点水平的变化(即,差异的网络骨干值)进行量化的NPA方法可指示在CS暴露时被扰动的潜在生物机制。因此,相似生物响应是否在体内发生,与体外模型相比,可以从骨干节点活动值之间的相关性进行推断。
图8A与8B显示在骨干节点的活动值之间的相关性,所述的骨干节点是分别在支气管和鼻腔样本中的从体内数据集产生的和从体外模型产生的。这些观察结果与在体内支气管数据集的生物改变(biological alteration)与体外器官支气管上皮模型相似(EpiAirwayTM系统,MatTeK公司)这一结论是相一致的。[Mathis C,Poussin C,WeisenseeD,Gebel S,Hengstermann A,Sewer A,Belcastro V,Xiang Y,Ansari S,Wagner S:于体外在气液界面暴露于香烟烟雾的人类气管上皮细胞类似于人类吸烟者的支气管上皮.American Journal of Physiology-Lung Cellular and Molecular Physiology2013.].图8A和8B所示数据进一步表明体外器官鼻腔模型对研究在吸烟时或暴露于CS时体内鼻腔系统中发生的机制将是有用的。进一步地,对鼻腔上皮(图8B)的相关性与支气管上皮(图8A)相比较没有那么强。这与以往显示在鼻腔上皮中显现出吸烟的影响与支气管上皮相比较没有那么明显的研究是相一致的[Zhang X,Sebastiani P,Liu G,Schembri F,Zhang X,Dumas YM,Langer EM,Alekseyev Y,O'Connor GT,Brooks DR等:鼻腔和支气管上皮中吸烟相关的基因表达之间的相似与差异.Physiological genomics 2010,41(1):1-8.]
进一步地,为了更好地评估体外器官鼻腔模型,对CS暴露对CYP1A1和CYP1B1酶活性的影响进行了测试。结果发现CS暴露显著增加鼻腔上皮模型中测得的CYP1A1和CYP1B1两者活性(图8C),支持了将鼻腔模型用于对空气暴露的毒性评估的可能。进一步地,尽管在暴露后晚期时间从体外器官模型产生的生物外源性物质响应减少(图8D),差异的网络骨干值与体内数据集产生的那些相比较仍保持是相关的。表4列出图8D所示数据的Pearson和Spearman相关系数。尤其地,表4中所示数据表明在支气管组织(图8A)中生物外源性物质响应与鼻腔组织(图8B)中的相较呈更好地相关。表4进一步表明尽管在暴露后晚期时间从体外器官模型产生的生物外源性物质响应减少,差异网络骨干值与从体内数据集产生的那些相比较仍保持是良好相关的。
本文引用的每篇参考文献均以引用方式全文并入本文中。
虽然已结合具体示例特别地示出和描述了本公开内容的具体实施,但本领域的技术人员应当理解,在不脱离由所附权利要求限定的本公开内容的范围的情况下,可以对这些具体实施做出形式和细节上的各种更改。因此,本公开内容的范围由所附权利要求表示,并且落入权利要求书的等同物的涵义和范围内的所有更改因此都旨在被涵盖。
表1
表2
表2说明
-> |
增加 |
=> |
直接增加 |
-| |
减少 |
=| |
直接减少 |
-sub-> |
目标节点是源节点的子集 |
-cat-> |
目标节点代表源节点的催化活动 |
-e-> |
目标节点代表源节点的转录活动 |
表3
对所有比较,P值<0.05
表4
对所有比较,p值<0.05。