CN105308604B - 在系统毒理学中使用机理网络模型的系统和方法 - Google Patents

在系统毒理学中使用机理网络模型的系统和方法 Download PDF

Info

Publication number
CN105308604B
CN105308604B CN201480023094.2A CN201480023094A CN105308604B CN 105308604 B CN105308604 B CN 105308604B CN 201480023094 A CN201480023094 A CN 201480023094A CN 105308604 B CN105308604 B CN 105308604B
Authority
CN
China
Prior art keywords
score
network model
network
biological entities
biosystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480023094.2A
Other languages
English (en)
Other versions
CN105308604A (zh
Inventor
F·马丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philip Morris Products SA
Original Assignee
Philip Morris Products SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philip Morris Products SA filed Critical Philip Morris Products SA
Publication of CN105308604A publication Critical patent/CN105308604A/zh
Application granted granted Critical
Publication of CN105308604B publication Critical patent/CN105308604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

与生物系统对媒介的反应相对应的一组治疗数据及与未暴露给媒介的生物系统的反应相对应的一组对照数据被接收,并且各自表示生物系统中的生物过程的第一计算因果网络模型和第二计算因果网络模型被识别。基于所述一组治疗数据和所述一组对照数据,第一计算因果网络模型的第一分数和第二计算因果网络模型的第二分数被计算。基于第一分数、第二分数及第一计算因果网络模型和第二计算因果网络模型之间的交集来生成因子,其中该因子表示生物系统响应于媒介的扰动。

Description

在系统毒理学中使用机理网络模型的系统和方法
相关申请的引用
本申请根据35U.S.C.§119要求在2013年4月23日提交的题为“Systems andMethods for Using Mechanistic Network Models in Systems Toxicology”的美国临时专利申请第61/815,188号的优先权,该临时申请通过引用而被整体结合于此。
背景技术
人体由于暴露于可能有害的媒介(agent)而不断地被扰动,就长期而言,这些媒介会造成严重的健康风险。暴露于这些媒介可危及人体内部的生物机制的正常机能。为了理解并量化这些扰动对人体的影响,研究人员研究了生物系统对暴露于媒介作出响应的机制。某些组大量利用体内动物测试方法。但是,因为关于其可靠性和相关性还存在疑问,所以动物测试方法不总是充分的。不同动物的生理系统中存在许多差异。因此,不同的物种会对暴露于一种媒介有不同的响应。因此,关于从动物测试获得的响应是否可以外推到人类生物学还存在疑问。其它方法包括通过对人类志愿者的临床研究来评估风险。但是这些风险评估是后验执行的,而且,因为疾病可能要花几十年才表现出来,所以这些评估可能不足以说明把有害物质关联到疾病的机制。还有其它方法包括体外实验。虽然,作为其基于动物的对等体的完全或部分代替方法,基于体外细胞与组织的方法已经获得普遍认同,但是这些方法具有有限的价值。因为体外方法集中在细胞和组织机制的特定方面;所以它们不总是考虑到发生在整个生物系统中的复杂相互作用。
在过去的十年中,核酸、蛋白质与代谢物级别的高吞吐量测量结合传统的依赖剂量的疗效与毒性检测已经作为一种用于说明许多生物过程作用机制的手段出现。研究人员已经尝试结合来自这些全异测量的信息与来自科学文献的关于生物途径(pathway)的知识来组成有意义的生物模型。为此,研究人员已经开始使用可以挖掘大量数据的数学与计算技术,诸如聚类与统计方法,来识别可能的生物作用机制。
之前的工作还探究了揭开基因表达变化的特征签名的重要性,这种基因表达变化是由于对生物过程的一个或多个扰动导致的,以及还探究了对那种签名在附加数据集中的存在进行后续打分,作为那个过程的具体活动幅度的量度。这方面的大部分工作涉及识别与疾病表型(phenotype)关联的签名并给其打分。这些得自表型的签名提供了显著的分类能力,但是缺乏单个具体扰动与该签名之间的机理或因果关系。因此,这些签名可能代表多个截然不同的未知扰动,这些扰动通过常常未知的一个或多个机制导致相同的疾病表型或者得自于相同的疾病表型。
一个挑战在于理解生物系统中各个单独生物实体的活动如何使得能够激活或抑制不同的生物机制。因为单独实体,诸如基因,会在多个生物过程(例如,发炎和细胞增殖)中涉及到,所以基因的活动测量不足以识别触发该活动的底层生物过程。
近来,关于强调以整个基因组级别的增大机理粒度来理解化学制品暴露的生物影响的方法,在系统毒理学中已经有增多的关注。美国国家研究委员会关于环境媒介的毒性测试和评估的报告主张从顶点端点级别的毒理评估转向理解受生物活动物质扰动的信号传导途径并且识别可能对人类造成负面健康影响的那些[Krewski,D.et al.(2011)Newdirections in toxicity testing.Annu Rev Public Health.32,161-78;Bhattacharya,S.et al.(2011)Toxicity testing in the 21 century:defining new risk assessmentapproaches based on perturbation of intracellular toxicity pathways.PLoSOne.6,e20887;Keller,D.A.et al.(2012)Identification and characterization ofadverse effects in 21st century toxicology.Toxicological Sciences.126,291-297;National Research Council.Committee on Toxicity Testing Assessment ofEnvironmental Agents(2007),Toxicity testing in the 21st century:A vision anda strategy.N.A.Press]。
该范式转移也在药理学中见到,其中为了最佳的临床前和临床安全测试需要对疾病机制的更详细理解[Atterwill,C.K.and Wing,M.G.(2002)In vitro preclinical leadoptimisation technologies(PLOTs)in pharmaceutical development.Toxicologyletters.127,143-151]。新技术允许大规模的数据生成,并且对这些数据的评价可以提供机理乃至对期望效果以及副作用两者的定量洞察。分子的差异表达列表的解释在取得有意义信息方面已经证明是低效的,并且焦点已经转移到使用从利用感兴趣的化合物进行治疗的实验系统获得的数据的途径分析和网络模型开发[Lee,E.et al.(2008)Inferringpathway activity toward precise disease classification.PLoS computationalbiology.4,el 000217]。然而,许多广泛使用的途径数据库相对于其网络中的实际交互看起来不一致。该不一致性可以部分地归因于标准化词汇的频繁缺席以及对依组织或细胞类型而定的信号传导机制的管护(curation)/知识的缺乏。
在过去的十年中,系统生物学社区已经经历了数据驱动的网络推理的计算方法的增加,其不需要先前的文献知识,而是基于系统响应谱(SRP)来构建网络[Hoeng,J.et al.(2012)A network-based approach to quantifying the impact of biologicallyactive substances.Drug Discov Today.17,413-8]。一个突出示例是连通性地图基因表达纲要,其是从利用大批化合物进行治疗的细胞系获得的以比较药物和基因效果以及识别与具有类似表达谱的药物相关的网络社区[Lamb,J.et al.(2006)The Connectivity Map:using gene-expression signatures to connect small molecules,genes,anddisease.Science Signalling.313,1929]。推理在几乎没有先前信息的情况下是可能的,并且不同的算法[Lamb,J.et al.(2006)The Connectivity Map:using gene-expressionsignatures to connect small molecules,genes,and disease.ScienceSignalling.313,1929;Xiang,Y.et al.(2011)Divergence Weighted IndependenceGraphs for the Exploratory Analysis of Biological Expression Data.Journal ofHealth&Medical Informatics;Iorio,F.et al.(2010)Discovery of drug mode ofaction and drug repositioning from transcriptional responses.Proceedings ofthe National Academy of Sciences.107,14621-14626]可以被容易地应用于从药物发现流水线的不同阶段中的新化合物获得的转录或蛋白质组响应。然而,这些方法仍然被假设、简化以及经常有限的实验数据集所危及[Lecca,P.and Priami,C.(2012)Biologicalnetwork inference for drug discovery.Drug discovery today]。DREAM(关于逆向工程评估和方法的对话)提案通过群众分包已经评估了29个基因网络推理方法的性能并且得出结论“根据基因表达数据的可靠网络推理仍是未解决的问题”[Marbach,D.et al.(2010)Revealing strengths and weaknesses of methods for gene networkinference.Proceedings of the National Academy of Sciences.107,6286-6291]。
发明内容
在此描述了使用高吞吐量分子级别测量和因果生物网络模型作为计算分析的基底的系统和方法。该综合方法提供了生物系统级别的对疾病的致病机制的洞察以及对由暴露于媒介或刺激物而造成的各种生物系统的扰动的定量评估。
根据本公开的一种实现方式,处理器或者处理电路接收来自其中生物系统被扰动的实验的数据以及对照数据(control data)。该处理器或处理电路生成系统响应谱(SRP),SRP是响应于向生物系统呈现媒介的、生物系统内的一个或多个实体改变的程度的表示。然后,网络模型被选择为与感兴趣的媒介或特征有关。使用SRP和网络来提取系统内的实体之间的因果关系,从而生成、细化或者扩展网络模型。
具体而言,网络扰动幅度(NPA)被计算。NPA是影响的量化测量,或者在网络所表示的生物实体之间的底层关系的背景下是由SRP表示的对扰动或治疗的生物响应的量化。然后,来自不同网络模型的NPA可以被组合以得出生物影响因子(BIF)。BIF可以与其他可测量端点相关联,或者用来生成可以提供对疾病发生或进展的机制的新洞察的可检验的假设。BIF然后被分解为单独的网络模型,从而允许识别对影响贡献最大的生物过程。
在这里描述的系统和方法的某些实施例中,一种计算机化方法量化生物系统响应于媒介的扰动。该计算机化方法包括:在处理电路处接收与生物系统对媒介的响应相对应的治疗数据集,以及接收与未暴露于媒介的生物系统的响应相对应的对照数据集。各自表示生物系统中的生物过程的第一计算因果网络模型和第二计算因果网络模型被识别。处理电路基于治疗数据集和对照数据集来计算第一计算因果网络模型的第一分数和第二计算因果网络模型的第二分数。基于第一分数、第二分数以及第一计算因果网络模型与第二计算因果网络模型之间的交集来生成因子,其中该因子表示生物系统响应于媒介的扰动。
在某些实施例中,生物系统包括多个生物实体,每一个生物实体与生物实体中的至少另一个相互作用,并且第一计算因果网络模型与第二计算因果网络模型之间的交集包括代表多个生物实体的子集的重叠节点集。
在某些实施例中,该方法还包括确定第一分数的统计显著性以评估第一分数相对于第一计算因果网络模型的特异性。确定第一分数的统计显著性可包括修改第一计算因果网络模型的一个或多个方面以获得一组测试模型,基于该组测试模型来计算一组测试分数,以及将第一分数与该组测试分数相比较。一个或多个方面可包括指派给第一计算因果网络模型中的一组节点的标签。一个或多个方面可包括第一计算因果网络模型中的节点之间的边连接。在某些实施例中,修改被随机执行N次,并且每当修改被执行时测试分数中的一个被计算。在某些实施例中,当第一分数超过该组测试分数的阈值百分比时第一分数是统计显著的。
在某些实施例中,第一计算因果网络模型和第二计算因果网络模型中的每一个代表生物系统中的生物机制。在某些实施例中,计算第一分数包括评估第一计算因果网络模型底层的有符号的有向图的范数。评估范数可包括评估邻接矩阵。
在某些实施例中,生成因子包括计算考虑了第一计算因果网络模型与第二计算因果网络模型之间的交集的点积(scalar product),以及基于点积来调节第一分数和第二分数中的至少一个。在某些实施例中,点积抵消交集并且表示第一计算因果网络模型和第二计算因果网络模型的正交部分的贡献。在某些实施例中,点积定义正交直和。
在此描述的计算机化方法可以在具有一个或多个计算设备的计算机化系统中实现,每个计算设备都包括一个或多个处理器或处理电路。一般而言,在此描述的计算机化系统可以包括一个或多个引擎,引擎包括一个或多个处理设备,诸如计算机、微处理器、逻辑器件或者配置有用来执行在此描述计算机化方法中一个或多个的硬件、固件和软件的其它设备或处理器。在某些实现方式中,计算机化系统包括系统响应谱引擎、网络建模引擎和网络评分引擎。引擎可以不时地互连,并且进一步不时地连接到一个或多个数据库,包括扰动数据库、可测幅度数据库、实验数据数据库和文献数据库。在此描述的计算机化系统可以包括具有通过网络接口进行通信的一个或多个处理器和引擎的分布式计算机化系统。这种实现方式对于通过多个通信系统的分布式计算可能是合适的。
附图说明
在考虑到结合附图理解的以下详细描述之后,本公开的更多特征、其本质及各种优点将变得清楚,其中相似的标号自始至终指代相似的部分,并且其中:
图1A示出了以生物实体之间的因果关系的形式描述依组织和细胞而定的生物过程的网络模型。
图1B示出了用于指示原因和效果关系的具有骨干节点和支持节点的因果生物网络模型。
图1C示出了捕捉节点中的生物学特性以及节点之间的因果关系的网络模型。
图1D示出了代表从分子、细胞和器官级别到整个生物体的知识的网络模型。
图2A示出了通过使用网络模型对差异表达基因的数学变换来评估的网络扰动幅度分数。
图2B示出了对照异生物质代谢网络模型来打分的体内支气管刷检数据集。
图2C示出了异生物质代谢网络模型的背景下的人类支气管刷检数据集的比较。
图3A是体内支气管刷检和暴露于烟雾的支气管上皮细胞的体外培养的示图。
图3B示出了异生物质代谢网络的背景下的三个体内数据集和体外数据集的评估。
图3C示出了异生物质代谢网络模型的背景下的体内数据集与体外数据集的单独比较。
图4A示出了例示出各种网络和相对应的单独扰动幅度的生物影响因子圆锥,从而示出了各种机制对整体生物影响因子的贡献。
图4B使用肺部炎症过程网络(IPN)、细胞增殖网络、细胞应激网络以及构成DNA损伤、自噬、细胞死亡(凋亡和坏死)和衰老网络(DACS)的子网络示出了暴露于烟雾的老鼠肺部的相对生物影响因子数据。
图4C例示出示出了针对各种治疗组将整体相对BIF分解为其主要机理成分(从细胞增殖到炎症)的星状图。
图4D是来自暴露于烟雾的老鼠的支气管肺泡灌洗液(BALF)细胞计数的图形表示。
图4E是针对肺部炎症过程网络(IPN)内的依细胞类型而定的子网络以及对于巨噬细胞活化的BALF的对应测量的NPA计算的图形表示。
图4F是针对肺部炎症过程网络(IPN)内的依细胞类型而定的子网络以及对于上皮促炎信号传导的BALF的对应测量的NPA计算的图形表示。
图5是可被用来实现在此描述的任意计算机化系统中的任意组件的示例性计算设备的框图。
图6-图7是用于确定NPA分数的统计显著性的例示性过程的流程图。
具体实施方式
这里描述了用于在因果生物网络模型的背景下分析大规模分子级别测量的计算系统和方法,这允许对在生物系统被媒介扰动时生物系统内的变化的大小进行定量评估。在此描述的方法允许对给定刺激给生物系统造成的影响的详细机理理解。
途径信息的总量已经显著增长,其中途径和分子相互作用的在线资源的数量从2006年的190个[Bader,G.D.Cary,M.P.and Sander,C.(2006)Pathguide:a pathwayresource list.Nucleic Acids Research.34,D504-D506]增加了70%到2010年的325个。这强烈表明科学界认识到途径以及最终的网络极大便于理解生物活动物质对生物系统的影响。网络生物学提供了用于调查暴露在分子、途径和过程级别的影响的一致框架[Hasan,S.et al.(2012)Network analysis has diverse roles in drug discovery.Drugdiscovery today]。许多疾病状态的药物可能需要多种活动物以便有效;因而,网络生物学可能的确持有用来设计扰动生物网络而非单独目标的药物的线索[Yildirim,M.A.et al.(2007)Drug-target network.Nature Biotechnology.25,1119]。另外,网络生物学提供了用来潜在地理解候选药物的副作用以及多重药理学中的预测的平台[Hopkins,A.L.(2008)Network pharmacology:the next paradigm in drug discovery.Nature chemicalbiology.4,682-690]。预计本发明的范围内的方法和系统可以被应用于系统毒理学或系统药理学的实践,这将改善对疾病机理的理解并且由此为患者提供更加有效和更安全的治疗。
这里的公开描述了一种使用高吞吐量数据和因果生物网络模型作为数据分析的基底的基于网络的方法。根据本公开的一种实现方式,处理器接收来自其中生物系统被扰动的实验的数据以及对照数据。该处理器可以是系统响应谱(SRP)引擎,其生成SRP。SRP是响应于向生物系统呈现媒介的、生物系统内的一个或多个实体改变的程度的表示。然后,诸如网络建模引擎之类的处理器可提供包含多个网络模型的一个或多个数据库,这多个网络模型中的一个被选择为与感兴趣的媒介或特征有关。该选择可以基于系统的生物功能底层的机理的先前知识而做出。网络建模引擎可以使用SRP和数据库中的网络来提取系统内的实体之间的因果关系,从而生成、细化或者扩展网络模型。为了识别暴露所引起的因果效应,在一个或多个网络中与生物系统的一个或多个特征有关的每一个节点上测量刺激的影响。
另外,网络建模模型计算网络扰动幅度(NPA)分数[Martin,F.et al.(2012)Assessment of network perturbation amplitude by applying high-throughput datato causal biological networks.BMC Syst Biol.6,54],这是对影响的定量测量。术语“分数”在此一般用来指代提供生物系统中的变化的大小的定量量度的值或一组值。通过使用从样本或对象获得的一个或更多个数据集,通过使用在本领域中已知的各种数学和计算算法中的任一个并根据在此公开的方法来计算这种分数。具体而言,NPA分数在网络所表示的生物实体之间的底层关系的背景下是由SRP表示的对扰动或治疗的生物响应的量化。然后,来自不同网络模型的NPA可以被组合以导出生物影响因子(BIF)。BIF可以与其他可测量端点或控制相关联,或者用来生成可以提供对疾病发生或进展的机理的新洞察的可检验的假设。
本公开的系统和方法允许对不同实验系统中的响应(示例中的转录响应)进行鲁棒比较,并且使得能够识别响应于对特定媒介或刺激的暴露而调整的基于网络的生物标记的识别。另外,网络分数与来自给定实验的其他相关端点相关联。在此描述的系统和方法也可被应用于药理学,其中对疾病机理和药物副作用的理解对于高效和安全治疗方案的开发是重要的。在一个示例中,给定刺激是香烟烟雾(CS)或者吸烟相关疾病。然而,本领域普通技术人员将会明白,在此描述的系统和方法可以被应用于相关生物系统背景下的任何物质或治疗,而不脱离本公开的范围。
本公开的背景下的生物系统是有机体或者有机体的一部分,包括功能部分,有机体在这里被称为对象。对象通常是哺乳动物,包括人。对象可以是人类总体当中个别的人。这里所使用的术语“哺乳动物”包括但不限于人、非人的灵长类动物、小鼠、大鼠、狗、猫、牛、羊、马和猪。除人以外的哺乳动物可以有利地用作可以用于提供人类疾病模型的对象。非人对象可以是未修改的,或者是基因修改的动物(例如,转基因动物,或者携带一个或多个基因突变或者沉默基因的动物)。对象可以是雄性或雌性。依赖于操作的目标,对象可以是已经暴露于感兴趣的媒介的对象。对象可以是已经在延长的时间段上暴露给媒介(可选地包括研究之前的时间)的对象。对象可以是暴露于媒介一段时间但不再与该媒介接触的对象。对象可以是已经被诊断或识别出有疾病的对象。对象可以是已经接受过或者正在接受疾病或不利健康状况治疗的对象。对象还可以是呈现特定健康状况或疾病的一个或多个症状或风险因子的对象。对象可以是易感染疾病的对象,而且可以是有征兆的或者无征兆的。在某些实现方式中,所讨论的疾病或健康状况与在延长的时间段内暴露于媒介或者使用媒介有关。根据本公开的某些实现方式,系统包含或生成与感兴趣的类型的扰动或结果相关的一个或多个生物系统及其功能机理(统称为“生物网络”或“网络模型”)的计算机化模型。
依赖于操作的背景,生物系统可以在不同级别定义,因为它涉及群体中个别有机体(一般是一个有机体)、器官、组织、细胞类型、细胞器官、细胞成分或者一个或多个特定个体细胞的功能。每个生物系统都包括一个或多个生物机理或途径,其操作表现为系统的功能特征。再现人类健康状况的定义特征并且适于暴露于感兴趣的媒介的动物系统是优选的生物系统。反映疾病病因学或病理学中所涉及的细胞类型和组织的细胞和器官系统也是优选的生物系统。对于概括尽可能多体内人类生物学特性的主要细胞或器官培养可以给予优先级。使体外人类细胞培养与得自体内动物模型的最等效培养相匹配也是重要的。这使得能够利用匹配的体外系统作为参考系统来产生从动物模型到人类生物的转化连续(translational continuum)。因此,预期供在此描述的系统与方法使用的生物系统可以通过但不限于由功能特征(生物功能、生理功能或者细胞功能)、细胞器官、细胞类型、组织类型、器官、发育阶段或者前述物的组合来定义。生物系统的示例包括,但不限于,肺(例如,肺部炎症)、外皮、骨骼、肌肉、神经(中枢和外围)、内分泌、心血管、免疫、循环、呼吸、泌尿、肾脏、肠胃、结肠直肠、肝脏和生殖系统。生物系统的其它示例包括,但不限于,上皮细胞、神经细胞、血细胞、结缔组织细胞、平滑肌细胞、骨骼肌肉细胞、脂肪细胞、卵细胞、精子细胞、干细胞、肺细胞、脑细胞、心肌细胞、喉细胞、咽细胞、食道细胞、胃细胞、肾细胞、肝细胞、乳腺细胞、前列腺细胞、胰腺细胞、胰岛细胞、睾丸细胞、膀胱细胞、宫颈细胞、子宫细胞、结肠细胞及直肠细胞中的各种细胞功能。有些细胞可以是在适当的培养条件下在体外培养或者无限地在体外维持的细胞系的细胞。细胞功能的示例包括,但不限于,细胞增殖(例如,细胞分裂)、退化、再生、老化、由细胞核对细胞活动的控制、细胞到细胞的信号传导、细胞分化、细胞去分化、细胞应激响应、自噬、坏死、分泌、迁移、吞噬作用、修复、细胞凋亡及发育规划(developmental programming)。可以被看作生物系统的细胞成分的示例包括,但不限于,细胞质、细胞骨架、隔膜、核糖体、线粒体、核子、内质网(ER)、高尔基体、溶酶体、DNA(例如,DNA损伤或者DNA修复)、RNA、蛋白质、肽及抗体。
生物系统中的扰动可以由于一个或多个媒介在一段时间内通过暴露或者与生物系统的一个或多个部分接触而造成。媒介可以是单一的物质或者是物质的混合,包括其中不是所有组成成分都被识别或特征化的混合物。媒介或者其组成成分的化学与物理属性可能没有被完全特征化。媒介可以通过其结构、其组成成分或者在某些条件下产生该媒介的源来定义。媒介的一个例子是异类物质(即,生物系统中不存在或者不能从其得到的分子或实体)以及在接触生物系统之后从其产生的任何中间物或代谢物。媒介可以是碳水化合物、蛋白质、脂质、核酸、生物碱、维生素、金属、重金属、矿物质、氧、离子、酶、激素、神经传递素、无机化学化合物、有机化学化合物、环境媒介、微生物、颗粒、环境条件、环境力或者物理力。媒介的非限制性示例包括,但不限于,养分、代谢废物、毒药、麻醉剂、毒素、治疗用化合物、兴奋剂、弛缓剂、天然产物、制造产物、食品物质、病原体(朊病毒、病毒、细菌、真菌、原生动物)、其尺寸处于微米范围或者更小的颗粒或实体、前述物的副产品及前述物的混合物。物理媒介的非限制性例子包括辐射、电磁波(包括太阳光)、温度的增加或降低、剪切力、流体压力、一次或多次放电或者一系列放电,或者外伤。
有些媒介不会扰动生物系统,除非它以阈值浓度存在或者它与生物系统接触一段时间,或者这二者的组合。可以根据剂量来量化导致扰动的媒介的暴露或接触。因而,扰动会由于长期暴露于媒介而产生。暴露周期可以通过时间单位、通过暴露频率或者通过对象实际或估计的生命周期内的时间百分比来表示。扰动还可以由于停止媒介(如上所述)给生物系统的一个或多个部分的供给或者限制媒介对其的供给而造成。例如,扰动会由于养分、水、碳水化合物、蛋白质、脂质、生物碱、维生素、矿物质、氧气、离子、酶、激素、神经传递素、抗体、细胞因子、光的减少供给或缺乏或者由于约束有机体某些部分的运动或者由于抑制或要求锻炼而造成。
依赖于生物系统的哪个(哪些)部分被暴露以及暴露状况,媒介可造成不同的扰动。媒介的非限制性示例可包括致癌物、刺激物、环境污染物、药物、候选药物或者消费产品、食品产品、饮料产品或者营养补充剂中的原料。在某些实施例中,媒介可以是由于加热烟草生成的浮质、燃烧烟草生成的浮质、烟草烟雾、香烟烟雾、其任何部分及其任何气体成分或颗粒成分中的任一种。媒介的更多非限制例子包括诸如镉、汞、铬之类的重金属、或者尼古丁、依烟草而定的亚硝胺及其代谢物(4-(甲基亚硝氨基)-1-(3-吡啶)-1-丁酮(NNK)、N′-亚硝基降烟碱(NNN)、N-亚硝基新烟草碱(NAT)、N-亚硝基假木贼碱(NAB)及4-(甲基亚硝氨基)-1-(3-吡啶)-1-丁醇(NNAL)),以及用于尼古丁替代疗法的任何产品。媒介或复杂刺激的暴露方式应当反映日常设置中暴露的范围和条件。一组标准的暴露方式可以设计成系统地应用到同等地良好定义的实验系统。每个试验可以设计成收集依赖时间与剂量的数据,以便捕捉早期和晚期事件并且确保代表性的剂量范围被覆盖。然而,本领域普通技术人员将理解,在此描述的系统与方法可以被适配和修改以便适用于所针对的应用,而且在此设计的系统与方法可以在其它合适的应用中采用,而且这种其它的添加与修改将不脱离本发明的范围。
在各种实现方式中,在包括相应控制的各种条件下,针对基因表达、蛋白质表达或周转(turnover)、微RNA表达或周转、转化后修改、蛋白质修改、迁移、抗体产生代谢谱或者前述物中的两个或更多个的组合生成高吞吐量的全系统测量。功能结果测量在这里所述的方法中是期望的,因为它们可以总体上用作评估的依靠并且代表疾病病因学中的清晰步骤。
这里所使用的“样本”指的是从对象或实验系统(例如,细胞、组织、器官或者整个动物)中分离出的任何生物样本。样本可以包括,但不限于,单个细胞或多个细胞、细胞片段、组织活检、被切除的组织、组织提取物、组织、组织培养提取物、组织培养基、呼出的气体、全血、血小板、血清、血浆、红血球、白血球、淋巴细胞、嗜中性白细胞、巨噬细胞、B细胞或者其子集、T细胞或者其子集、造血细胞的子集、内皮细胞、滑液、淋巴液、腹水、间质液、骨髓、脑脊髓液、胸腔积液、肿瘤浸润、唾液、黏液、痰、精液、汗、尿或者任何其它体液。样本可以通过包括但不限于静脉穿刺、排泄、活组织检查、针穿刺、灌洗、刮削、手术切除的手段或者本领域中已知的其它手段从对象获得。
计算设备
图5是计算设备的框图,诸如用于执行在此描述的过程的图1中的系统100或图11中的系统1100的任何组件。系统100的每个组件,包括系统响应谱引擎110、网络建模引擎112、网络评分引擎114、聚集引擎116及一个或多个数据库,可以在一个或多个计算设备500上实现,其中的数据库包括结果数据库、扰动数据库和文献数据库。在某些方面,以上的组件和数据库中的多个可以包括在一个计算设备500中。在某些实现方式中,组件和数据库可以跨几个计算设备500实现。
计算设备500包括至少一个通信接口单元、输入/输出控制器510、系统存储器及一个或多个数据存储设备。系统存储器包括至少一个随机存取存储器(RAM 502)和至少一个只读存储器(ROM 504)。所有这些元件都与中央处理单元(CPU 506)通信,以方便计算设备500的操作。计算设备500可以以许多不同的途径配置。例如,计算设备500可以是传统的独立计算机或者,作为替代,计算设备500的功能可以跨多个计算机系统和体系结构分布。计算设备500可以配置为执行建模、评分和聚集操作中的一些或全部。在图5中,计算设备500经由网络或本地网络而被链接到其它服务器或系统。
计算设备500可以在分布式体系架构中配置,其中数据库和处理器放置在分开的单元或位置中。某些这种单元执行主要的处理功能并且至少包含通用控制器或处理器及系统存储器。在这一方面,这些单元中每一个都经由通信接口单元508附连到充当与其它服务器、客户端或用户计算机和其它相关设备的主要通信链路的通信集线器或端口(未示出)。通信集线器或端口自己可以具有最小化的处理能力,主要充当通信路由器。多种通信协议可以是系统的一部分,包括但不限于:以太网、SAP、SASTM、ATP、BLUETOOTHTM、GSM和TCP/IP。
CPU 506包括处理器,诸如一个或多个传统的微处理器,以及一个或多个补充的协处理器,诸如用于从CPU 506卸载工作量的数学协处理器。CPU 506与通信接口单元508和输入/输出控制器510通信,CPU 506可以通过通信接口单元508和输入/输出控制器510与诸如其它服务器、用户终端或设备的其它设备通信。通信接口单元508和输入/输出控制器510可以包括用于与例如其它处理器、服务器或客户终端同时通信的多个通信通道。彼此通信的设备不需要持续地向彼此发送。相反,这种设备只需根据需要向彼此发送,实际上可以大部分时间避免交换数据,而且可能需要执行几个步骤来建立设备之间的通信链路。
CPU 506还与数据存储设备通信。数据存储设备可以包括磁、光或半导体存储器的适当组合,而且可以包括例如RAM 502、ROM 504、闪存驱动器、诸如紧凑盘之类的光盘或者硬盘或驱动器。CPU 506和数据存储设备每个都可以例如完全位于单个计算机或其它计算设备中;或者通过通信介质彼此连接,通信介质诸如是UBS端口、串口电缆、同轴电缆、以太网类型电缆、电话线、射频收发器或者其它类似的无线或有线介质或者前述者的组合。例如,CPU 506可以经由通信接口单元508连接到数据存储设备。CPU 506可以配置为执行一个或多个特定的处理功能。
数据存储设备可以存储例如(i)计算设备500的操作系统512;(ii)适于根据在此描述的系统和方法,尤其是根据关于CPU 506具体描述的过程,指引CPU 506的一个或多个应用514(例如,计算机程序代码或计算机程序产品);或者(iii)可被用来存储程序所需信息的适于存储信息的数据库516。在某些方面,一个或多个数据库包括存储实验数据及已发表的文献模型的数据库。
操作系统512和应用514可以例如以压缩、未编译和加密的格式存储,并且可以包括计算机程序代码。程序的指令可以从除数据存储设备之外的计算机可读介质,诸如从ROM504或者从RAM 502,读取到处理器的主存储器中。在程序中指令序列的执行使CPU 506执行在此描述的过程步骤的同时,硬连线的电路系统可以代替软件指令来实现本公开的过程,或者与软件指令结合来实现本公开的过程。因而,所述系统与方法不限于硬件和软件的任何特定组合。
可以提供合适的计算机程序代码,用于执行与在此描述的建模、评分和聚集相关的一个或多个函数。程序还可以包括诸如操作系统512、数据库管理系统和“设备驱动程序”之类的程序元素,其中“设备驱动程序”允许处理器经由输入/输出控制器510与计算机外围设备(例如,视频显示器、键盘、计算机鼠标等)接口连接。
这里所使用的术语“计算机可读介质”指的是向计算设备500的处理器(或者在此描述的设备的任何其它处理器)提供指令或参与提供指令以供执行的任何非临时性介质。这种介质可以采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包括,例如,光、磁或光-磁盘,或者集成电路存储器,诸如闪存存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括,例如,软盘、软磁盘、硬盘、磁带、任何其它磁性介质、CD-ROM、DVD、任何其它光学介质、穿孔卡片、纸带、任何其它具有孔图案的物理介质、RAM、PROM、EPROM或EEPROM(电可擦除可编程只读存储器)、闪速EEPROM、任何其它存储器芯片或盒式磁带、或者计算机可以从其中进行读取的任何其它非临时性介质。
各种形式的计算机可读介质可以涉及于把一条或多条指令的一个或多个序列携带到CPU 506(或者在此描述的设备的任何其它处理器)以供执行。例如,指令可以最初在远程计算机(未示出)的磁盘上产生。该远程计算机可以把指令加载到其动态存储器中并且通过以太网连接、电缆线或者甚至利用调制解调器通过电话线发送指令。计算设备500(例如,服务器)本地的通信设备可以在相应的通信线路上接收数据并且把数据放到处理器的系统总线上。系统总线把数据携带到主存储器,处理器从主存储器接收并执行指令。在被处理器执行之前或之后,主存储器所接收到的指令可以可选地存储在存储器中。此外,指令可以作为电、电磁或光信号经由通信端口接收,这些是携带各种类型信息的无线通信或数据流的示例性形式。
机理性网络模型
使用计算网络模型来解释诸如转录组学数据之类的组学数据,通过从系统生物数据集提取机理性信息提供了对生物网络扰动更详细的分子理解。组学数据指通常通过允许如下测量被进行的技术获得的生物数据,这些测量往往以覆盖生物分子类别的大量成员的系统级规模同时进行。可以在本发明中使用的组学数据的示例包括但不限于通过在基因组学、表观基因组学、蛋白质组学、转录组学、脂类组学、代谢组学的研究中应用的技术获得的那些。三步模型构建过程可以被使用。具体地,网络模型包括本生物过程的定性因果关系。图1A示出一个这种以生物实体之间的因果关系的形式描述依组织和细胞而定的生物过程的网络模型。模型用生物表达语言(BEL)编码并被编码在数据库中,其代表可计算格式的科学发现。BEL框架是用于管理、公开和使用结构化生命科学知识的开源技术,但是一般地,任何适当的框架可被使用。BEL框架不同于关注跨大量现有途径资源的生物途径数据的整合和交换的BioPAX(生物途径交换)[Demir,E.et al.(2010)The BioPAX communitystandard for pathway data sharing.Nature Biotechnology.28,935-942]。诸如KEGG(Kyoto Encyclopedia of Genes and Genomes)[Kanehisa,M.et al.(2012)KEGG forintegration and interpretation of large-scale molecular data sets.NucleicAcids Res.40,D109-14]和IPA(Ingenuity Pathway Analysis)(www.ingenuity.com)之类的基于途径的方法识别其蛋白质产物在感兴趣途径中起作用的差异表达基因。
生物系统可以被建模为包括顶点(或节点)以及连接节点的边的数学图。节点可以表示生物系统内的生物实体,包括但不限于化合物、DNA、RNA、蛋白质、缩氨酸、抗体、细胞、组织和器官。边可以表示节点之间的关系。图中的边可以表示节点之间的各种关系。例如,边可表示“绑定”关系、“被表达成”关系、“基于表达谱被共同调控”关系、“抑制”关系、“在手稿中共现”关系或“共享结构要素”关系。一般地,这些类型的关系描述节点对之间的关系。图中的节点也可以表示节点之间的关系。因此,表示关系之间的关系或一种关系和图中表示的另一种类型的生物实体之间的关系是可能的。例如,表示化学品的两个节点之间的关系可表示反应。该反应可以是该反应和抑制该反应的化学品之间的关系中的节点。
图可以是无向的,意味着与每条边相关联的两个顶点之间没有区别。替代地,图的边可从一个顶点指向另一个顶点。例如,在生物上下文下,转录调控网络和代谢网络可被建模为有向图。在转录调控网络的图模型中,节点会用代表基因之间的转录关系的边来表示基因。又例如,蛋白质-蛋白质相互作用网络描述有机体的蛋白质组中的蛋白质之间的直接物理相互作用并且往往不存在与这种网络中的相互作用相关联的方向。因此,这些网络可被建模为无向图。某些网络可同时具有有向和无向边。组成图的实体和关系(即,节点和边)可作为互相关联的节点的网络被存储在数据库中。
数据库中表示的知识可具有从各种不同源得到的各种不同类型。例如,某些数据可表示基因组数据库,包括关于基因和基因之间关系的信息。在这种示例中,节点可表示致癌基因,而连接到致癌基因节点的另一节点可表示抑制致癌基因的基因。数据可表示蛋白质及蛋白质之间的关系、疾病及其相互关系以及各种疾病状态。存在许多可以在图形表达方式中组合的不同类型的数据。计算模型可表示如下节点之间的关系的网络,所述节点表示例如DNA数据集、RNA数据集、蛋白质数据集、抗体数据集、细胞数据集、组织数据集、器官数据集、医学数据集、流行病学数据集、化学数据集、毒理学数据集、患者数据集和人口数据集中的知识。如本文所使用的,数据集是源自在定义的条件下的样本(或样本组)的评价的数值的集合。数据集例如可以通过对样本的可计量实体进行实验测量来获得,或者替代地可以从诸如实验室、临床研究组织之类的服务提供者或从公共或私有数据库获得。数据集可包含由节点表示的数据和生物实体,并且每个数据集中的节点可与同一数据集或其他数据集中的其他节点相关。另外,网络建模引擎可生成表示例如DNA、RNA、蛋白质或抗体数据集中的基因信息、医学数据集中的医学信息、关于患者数据集中的各个患者及关于流行病学数据集中的全部人口的信息的计算模型。除了上述各种数据集之外,还存在许多其他数据集或当生成计算模型时可被包括的生物信息类型。例如,数据集还可包括病历数据、结构/活动关系数据、关于传染途径的信息、关于临床试验的信息、暴露模式数据、与产品的使用历史有关的数据以及任何其他类型的与生命科学有关的信息。
基因表达的变化不总与蛋白质活动的变化相关联。本文描述的网络模型不一定依赖于这些“正向假设”,而是可基于节点调控的基因的表达推断上游节点的活动。图1B示出了用于指示原因和效果关系的包括骨干节点和支持节点的因果生物网络模型。“正向推理”假设基因表达与蛋白质活动的变化相关联,而“后向推理”或“反因果推理”将基因表达的变化考虑为上游实体活动的结果。在各种实现方式中,作为无需知晓其功能的差异表达基因,这种网络模型中的节点的活动可基于底层可测量层来预测。图1C示出了捕捉节点中的生物学特性以及节点之间的因果关系的网络模型。基因的差异表达(小黑球)是上游节点活动的实验证据。
基于反向因果推理来指示原因和效果的本发明中使用的包括节点的网络模型包含若干优点。首先,网络中的节点由具有固定拓扑的有因果关系的边连接,允许网络模型的生物意图被科学家或用户容易地领会,实现了网络的整体推断和计算。其次,不同于用于构建途径或连接图的、其中连接常常被脱离组织或疾病上下文来表示的其他方法,本文的网络模型遵守适当的组织/细胞上下文和生物过程。第三,因果网络模型可以捕捉范围广泛的生物分子的变化,所述生物分子包括蛋白质、DNA变体、编码和非编码RNA以及其他实体,如表型、化学品、脂类、甲基化状态或其他变型(例如,磷酸化作用)以及临床和生理学观察。图1D示出了代表从分子、细胞和器官级别到整个有机体的知识的网络模型。第四,网络模型是演化的并且可以被修改以通过适当的边界的应用来表示特定物种和/或组织上下文并随着额外知识变得可获得而被更新。第五,网络模型是透明的;网络模型中的边(因果关系)全部被公开的科学发现支持,使每个网络锚定到用于被建模的生物过程的科学文献。最后,网络模型可以以(.XGMML)格式被提供以允许使用包括Cytoscape[Smoot,M.E.et al.(2011)Cytoscape 2.8:new features for data integration and networkvisualization.Bioinformatics.27,431-432]的免费工具容易地可视化。
网络模型被用作模拟和分析的基底,并且代表使能生物系统中的感兴趣特征的生物机理和途径。所述特征或其某些机理和途径可有助于生物系统的疾病和不利影响的病理学。在数据库中表示的生物系统的先验知识被用于构造由关于在各种条件下的许多生物实体的状态的数据填充的网络模型,包括在正常条件下和被媒介扰动的条件下。使用的网络模型是动态的,因为它表示各种生物实体的响应于扰动的状态的变化并且可以产生对媒介对生物系统的影响的定性和客观评估。
网络扰动幅度(NPA)分数的评估
本公开的某些实现方式包括用于计算表示生物系统的一部分内的变化的大小的数值的方法。该计算使用从一组受控实验获得的一组数据作为输入,所述受控实验中生物系统被媒介扰动。数据随后被应用于生物系统的特征的网络模型。
由该公开的计算机化方法生成的数值可以被用于确定由制成品(用于安全评估或比较)、包括营养补充的治疗化合物(用于功效或健康收益的确定)和环境活动物质(用于长期暴露及与不利影响和发病的关系的风险的预测)等等引起的想要的或不利的生物影响的大小。
在一个方面,本文描述的系统和方法基于受扰动生物机理的网络模型提供了表示受扰动生物系统中的变化的大小的计算数值。本文中被称为网络扰动幅度(NPA)分数的数值可以被用于概括地表示所定义的生物机理中的各种实体的状态变化。NPA先前被详细描述于美国临时专利申请No.61/525,700(代理人案号FTR0689/106500-0011-001)、61/527,946(代理人案号FTR0751/106500-0015-001)和61/532,972(代理人案号FTR0748/106500-0016-001)以及PCT申请No.PCT/EP2012/061035(代理人案号FTR0689/106500-0011-WOl),PCT/EP2012/066557(代理人案号FTR0751/106500-0015-WO1)和PCT/EP2012/003760(代理人案号FTR0748/106500-0016-WO1)中,上述申请中的每一个被完整结合于此。针对不同媒介或不同类型的扰动获得的数值可以被用于相对地比较不同媒介或扰动对生物机理的影响,所述生物机理使能或将自己体现为生物系统的特征。因此,NPA分数可被用于测量生物机理对不同扰动的响应。
NPA分数可辅助研究者和临床医生改进诊断、实验设计、治疗决定和风险评估。例如,NPA分数可被用于筛选毒理学分析中的一组候选生物机理以识别最有可能受暴露给可能有害媒介的影响的那些生物机理。通过提供对扰动的网络响应的测量,这些NPA分数可允许(由实验数据测得的)分子事件与发生在细胞、组织、器官或有机体级别上的表型或生物结果的关联。临床医生可使用NPA值来将受媒介影响的生物机理与患者的生理学条件相比较以确定当暴露给媒介时患者最有可能经历什么健康风险或收益(例如,免疫受损的患者可能特别易受到导致强免疫抑制响应的媒介的伤害)。
根据该公开的示例性实现方式,因果网络模型被与用于计算NPA分数的算法相结合。结果,基因表达倍数变化(也称为对比物或对比数据的集合)被转化成用于网络的每个节点的差异值(用f表示)。节点差异值进而被概括成NPA的定量测量。
NPA可以被计算为网络(N)底层的有符号有向图的Sobolev型(半)范数,其可以被表达成二次型1/#edges·fTQNf。即,如果与骨干实体的集合相关联的活动值的向量被表示为f2,则NPA分数可以通过以下二次型来计算,
其中
diag(out)表示具有第二组节点中的每个节点的外出度(out-degree)的对角矩阵,diag(in)表示具有第二组节点中的每个节点的进入度(in-degree)的对角矩阵,V是网络中所有节点的集合,并且A表示根据下式定义的并且仅限于表示骨干实体的节点的计算网络模型的邻接矩阵(adjacency matrix)
如果A为加权邻接矩阵,则A的元素(x,y)可乘以权重因子w(x,y)。在某些情况中,一些骨干节点可能由于所谓的文献偏见而比其他骨干节点具有更多的支持基因表达证据,所述文献偏见中,某些实体比其他实体被研究得更多。因果计算生物模型的结果在于具有更多支持证据的节点将比不那么“富有”的节点具有更高的度。当结合大多数证据具有非常低的信号的可能性进行计算时,推断出的节点活动值可能是系统上具有最低值的节点之一。为了解决该问题,在一些实现方式中,与从节点到该节点的N个下游节点之一的边相关联的权重被设为1/N。该修改可有利地强调(捕捉生物学特性的重要方面的)骨干结构并平衡因果生物网络模型计算中骨干和支持节点的重要性。
在一些实现方式中,NPA分数可根据下式来计算
其中V0表示支持实体集(即,针对其接收了治疗和对照数据的那些实体),f(x)表示生物实体x的活动值,并且sign(x→y)表示将表示生物实体x的节点连接到表示生物实体y的节点的计算网络模型中的边的方向值。
因此,NPA算法考虑两个主要输入成分,一个是描述该机理的因果网络模型,另一个是来自良好设计实验的基因表达数据集。由fi表示的、用于给定的对比物和给定的网络Ni=(Vi,Ei,si)(节点,边,边符号)的骨干分数处于被赋予了由Qi给定的点积<.|.>i的l2(Vi)。
确定NPA分数的统计显著性 除了能将实验误差(例如,实验组中样本之间的生物变异)考虑在内的NPA分数的置信区间之外,同伴统计可以被导出以通知关于网络中描述的生物学特性的NPA分数的特异性。具体地,两个置换测试可被实施。用于执行这两个置换测试的示例过程被联系图6和图7详细描述。每个置换测试的一个目的是确定提议的NPA分数的统计显著性,它可以是有用的或指示被网络建模的生物系统是否已被扰动。两个测试都涉及生成因果网络模型的一个或多个方面的随机置换、基于生成提议的NPA分数的相同数据集和算法来使用得到的测试模型计算测试NPA分数、以及将测试NPA分数与提议的NPA分数相比较或排序以确定提议的NPA分数的统计显著性。可被随机分类以生成测试模型的因果网络模型的各方面包括支持节点的标签、将骨干节点连接到支持节点的边或者将骨干节点彼此连接的边。为了确定提议的NPA分数的统计显著性,网络评分引擎可对数据进行下述一个或两个测试。
第一测试对结果是否依模型中的底层证据(即,基因倍数变化)而定进行评估,导致置换P-值(当<0.05时在图中由*O表示)。第一测试可被称为“O”统计分析并评估因果网络模型内支持节点的位置的重要性。联系图6描述的过程600是根据该公开的例示性实现方式用于计算“O”统计的示例方法。
“O统计”测试评估因果网络模型内支持节点的位置的重要性。过程600包括用于评估计算出的NPA分数的统计显著性的方法。具体地,在步骤602,第一提议的NPA分数基于也被称为未修改网络的如下网络被计算,所述网络基于生物系统中实体的因果关系的知识。在步骤606,基因标签并且作为结果、每个支持节点的对应值在网络模型中的支持节点之间被随机重新指派。随机重新指派被重复数次(例如,C次)并且在步骤612,测试NPA分数基于随机重新指派被计算,导致C个测试NPA分数的分布。网络评分引擎可根据上述用于基于网络来计算NPA分数的任一方法来计算提议的和测试NPA分数。在步骤614,提议的NPA分数被与测试NPA分数的分布比较或排序,以确定提议的NPA分数的统计显著性。
量化生物系统的扰动的方法包括基于因果网络模型来计算提议的NPA分数以及确定该分数的统计显著性。该显著性可以通过如下方法来计算,所述方法包括随机重新指派因果网络模型的支持节点的标签以创建测试模型、基于测试模型来计算测试NPA分数以及将提议的NPA分数与测试NPA分数相比较以确定生物系统是否被扰动。支持节点的标签与活动量度相关联。
整数C可以是由网络评分引擎确定的任意数量并且可基于用户输入。整数C可足够大以使得基于随机重新指派的NPA分数的结果分布近似平滑。整数C可被固定以使得重新指派被执行预定次数。替代地,整数C可以取决于结果NPA分数。例如,整数C可迭代地增大,并且额外的重新指派可在结果NPA分布不平滑的情况下被执行。另外,对该分布的任何其他附加要求可被使用,例如增大C直至分布类似于某一形式,如高斯或任何其他适当分布。在某些实现方式中,整数C的范围从大约500到大约1000不等。
在步骤610,网络评分引擎基于在步骤606生成的随机重新指派来计算C个NPA分数。具体地,NPA分数针对在步骤606生成的每个重新指派被计算。在某些实现方式中,所有C个重新指派首先在步骤606生成,然后对应的NPA分数基于这C个重新指派在步骤610被计算。在其他实现方式中,对应的NPA分数在每组重新指派生成之后被计算,并且该过程重复C次。后一情况可节省存储成本并且在C的值取决于先前计算的N个值的情况下可能是希望的。在步骤612,网络评分引擎聚集产生的C个NPA分数以形成或生成与在步骤606生成的随机重新指派相对应的NPA值的分布。该分布可对应于NPA值的直方图或该直方图的归一化版本。
在步骤614,网络评分引擎将第一NPA分数与在步骤612生成的NPA分数的分布相比较。作为示例,该比较可包括确定表示提议的NPA分数和该分布之间的关系的“p值”。具体地,p值可对应于高于或低于提议的NPA分数值的分布的百分比。例如小于0.5%、小于1%、小于5%或任何其他分数的小的p值指示提议的NPA分数是统计上显著的。例如,在步骤1计算出的具有低p值(例如,<0.05或低于5%)的提议的NPA分数指示该提议的NPA分数相对于随机基因标签重新指派导致的许多测试NPA分数而言是高的。
第二测试评估网络的“因果”层是否对网络扰动的幅度(当<0.05时在图中由K*表示)有显著贡献。该网络在两个P值都低(通常<0.05)时被视为特别受扰动,并且如果除此之外置信区间还大于零,则该扰动被称为显著。第二测试可被称为“K”统计分析并且评估因果网络模型内骨干节点的结构的重要性。联系图7描述的过程700是根据该公开的例示性实现方式计算“K”统计的示例方法。
“K统计”测试评估因果网络模型内骨干节点的结构的重要性。过程700包括评估提议的NPA分数的统计显著性的方法。过程700与过程600的相似之处在于以下方面:因果网络模型被随机分类以创建多个测试模型,于是多个测试NPA分数被计算。建立在生物系统中实体的因果关系的知识上的因果网络模型也称为未修改网络。在这种模型中,边可以是有符号的,因而边可表示两个骨干节点之间的正或负关系。相应地,因果网络模型包含连接导致正影响的骨干节点的n个边,以及连接导致负影响的骨干节点的m个边。
在步骤702,提议的NPA分数基于建立在生物系统中实体的因果关系的知识上的网络被计算。然后,在步骤704,负边的数量n和正边的数量m被确定。在步骤706,骨干节点对被各自随机地与n个负边之一或m个正边之一连接。该生成与n+m个边的随机连接的过程被重复C次。如前所述,迭代次数C可以通过用户输入或通过测试NPA分数的分布的平滑性来确定。在步骤712,多个测试NPA分数基于包含被随机连接到其他骨干节点的骨干节点的多个测试模型被计算。网络评分引擎可根据上述用于基于网络来计算NPA分数的任一方法来计算提议的和测试NPA分数。在步骤714,提议的NPA分数被与测试NPA分数的分布相比较或排序,以确定提议的NPA分数的统计显著性。
在步骤710,网络评分引擎基于在步骤706形成的随机重新连接来计算C个NPA分数。在步骤712,基于在步骤606生成的随机重新连接导致的测试模型,网络评分引擎聚集产生的C个NPA分数以生成测试NPA值的分布。该分布可对应于NPA值的直方图或该直方图的归一化版本。
在步骤714,网络评分引擎将提议的NPA分数与在步骤712生成的NPA分数的分布相比较。作为示例,该比较可包括确定表示提议的NPA分数和该分布之间的关系的“p值”。具体地,p值可对应于高于或低于提议的NPA分数值的分布的百分比。例如小于0.1%、小于0.5%、小于1%、小于5%或任何其他中间分数的小的p值指示提议的NPA分数是统计上显著的。例如,在步骤714计算出的具有低p值(例如,<0.05或低于5%)的提议的NPA分数指示该提议的NPA分数相对于骨干节点的随机重新连接导致的许多测试NPA分数而言是高的。
在某些实现方式中,可以要求(在图6和图7中计算出的)两个p值都低以便使提议的NPA分数被认为统计上显著。在其他实现方式中,网络评分引擎可要求一个或多个p值为低以便发现提议的NPA分数显著。
生物影响因子(BIF)分数的评估
根据该公开的例示性实现方式,处理器基于数据集和多个计算模型来生成基于一个或多个NPA分数的“生物影响因子”或“BIF”,每个NPA分数表示生物系统的扰动。本文描述的计算机化方法在考虑每个网络对生物系统的总体状态的相对贡献的情况下聚集多个网络响应分数,以在给定多个数据集的情况下产生数值,即BIF。在各种实现方式中,本公开的计算机化方法组合与多个治疗(或媒介)相对应的多个模型、根据重叠网络的交集效应来调节分数、并生成表示由治疗(或媒介)引起的相对生物效果的BIF。不考虑重叠网络的交集效应的BIF的一个方面先前已被详细描述于美国临时专利申请No.61/495,824(代理人案号FTR0690/106500-0010-001)和PCT申请No.PCT/EP2012/061033(代理人案号FTR0690/106500-0010-WOl)中,其中每个申请被完整结合于此。
由本文公开的计算机化方法生成的BIF可以被用于估计或确定由任何外部因素引起的想要的或不利的生物影响的大小,所述外部因素包括但不限于病菌(用于疾病的诊断或预后)、有害物质(用于毒理学评估)、制成品(用于安全评估或使用风险比较)、包括营养补充的治疗化合物(用于功效或健康收益的确定)和环境活动物质或环境的变化(用于公共健康评估,例如污染物或来自太阳的紫外线)。BIF可以被用于急性、间歇性或持续性暴露以及与对生物系统和(一个或多个)疾病的发病的即刻或长期不利影响的关系的生物风险的预测。扰动是所讨论生物系统外部的诱因。
针对不同媒介或不同类型扰动获得的BIF值可以被用于相对地比较不同媒介或扰动对生物系统的影响。BIF可以被用作中期和长期疾病后果的预测器,可选地,该值可使用实验和流行病学数据的组合来校准。采用从一个或多个样本或对象获得的一个或多个数据集,BIF值根据本文公开的方法通过使用现有技术中已知的各种数学和计算算法中的任一个被计算。
表示生物系统对至少两种不同治疗条件的差异响应的BIF值可以被计算。在某些实施例中,第一治疗条件可以是被视为实验性治疗的扰动(例如但不限于暴露给可能致癌的媒介)并且第二治疗条件可以被视为对照(例如空治疗)。在某些实施例中,被计算以表示生物系统中第一媒介的影响的BIF可以被用于与表示同一生物系统中第二媒介的影响的BIF相比较。数值分数因而可以被用于评估和比较两个或更多个媒介对生物系统或其某些特征的差异影响。相应地,多个数据集在生物系统被分别暴露给多个不同媒介之后和/或在不同环境条件下根据对生物系统中变化的测量被获得。
网络模型表示特征化被考虑的生物系统的特征的功能不同的生物过程。为了客观评价相对于实验内的参考体(例如,标准的香烟烟雾暴露)的总体生物影响,网络N1,…,Nm的所有骨干分数f1,…,fm被考虑。被考虑的希尔伯特空间将是的直和(不一定是正交直和)。新的点积随后可在该直和上被定义。令wi为与网络Ni相关联的正权重。在某些实现方式中,依据联系图6和图7描述的“O”和“K”统计,wi采用二进制值:若两个p值都<0.05,则wi=1,否则wi=0。具体地,可以考虑将由针对其定义新点积的正交直和。更一般地,上的点积将是非正交的并且由表示。
在一些实现方式中,点积将网络之间的重叠考虑在内并且可以被用于考虑到重叠网络的交集的影响而调节分数。一些节点和/或边在网络之间被共享并且因此非正交直和的引入将允许将该事实考虑在内。一个可能的选择被给出如下:
令通过限制来定义。点积同样通过限制来定义。于是可以通过来定义。这对 应于点积:可以看出, 该双线性形式是正定的并因此定义点积。这一选择的合理性在于当骨干分数在交集处匹配 时抵消Ni和Nj之间的交集效应,同时在它们为正交的情况下保持 各自贡献。任何另一适当的点积也可通过其块对角由Qi’s给定的分块矩阵和额外的对角块 来定义以反应交集。
考虑将所有网络集(N1,…,Nm)划分成网络子集,S1,…,Sb;b≤M。网络子集可特征化特定的生物过程,如炎症、细胞应激、衰老或生物系统的任何其他适当过程或特征。
对于给定的对比物c(治疗vs对照),子集Sk的影响BIF(c,Sk)被计算为对应的直和(如上面所定义)中的骨干分数的平方范数。通过考虑子集内非正交和的子集S上的正交直和,将所有网络及其子集考虑在内的总体希尔伯特空间被定义,其点积被定义为
令REF表示参考体的对比物(通常是标准化的CS暴露)。于是相对BIF(RBIF)被定义为与c和参考向量REF相对应的向量范数之比。它可被计算为:
子集S的贡献被定义为:
这些贡献之和为1。
相对BIF因此通过考虑可以被表示为如图4C所示的星状图的数量Contribs(c)RBIF(c)而被分解成网络成分(即细胞应激、肺部炎症、细胞增殖、凋亡、坏死、衰老、DNA损伤和自噬,但是任何其他适当的网络成分也可被用来补充或替代命名的网络成分中的任一个)。
最后,由于RBIF是聚集的量,两个对比物c和REF可以具有相同的相对生物效果同时起源于不同的网络模型。为了识别这些情况,系数δ可被计算为:
该系数是用于中定义的点积的对比物c和参考体对比物REF之间的余弦(cos)角。
根据例示性实现方式,BIF可针对正交直和情况被计算如下。用于对比物c的显著网络扰动之和相对于用于参考体的对应和被归一化。因此,用于对比物c的相对BIF(RBIF)被定义为
其中权重将与上面概括的NPA算法相关联的三个统计考虑在内。
用于对比物c的网络模型(例如,细胞应激子网络)的给定子集S的贡献为:
(因为Net是网络的子集的不相交并集,所以该贡献之和等于一)。
相似性系数变为:
材料和方法
根据该公开的实现方式,C57/BL6老鼠(每组8只母的)被暴露给来自肯塔基参考香烟3R4F的主流烟雾(每星期5天,每天4小时,带有新鲜空气间断,750μg TPM/1),或者被暴露给新鲜空气(对照组)达7个月。在暴露给3R4F两个月和三个月后,老鼠的子组被暴露给新鲜空气达3、4、5个月的停止时段。
对于每个肺部标本,22个片(每个20微米)被用低温恒温器切割并被均匀化。总体RNA被提取、进行质量检查并杂交到Affymetrix MG430 2.0芯片。在阵列扫描后,杂交强度数据被提取并存储在cel文件中。初始芯片质量检查也使用Affymetrix软件被执行。
支气管肺泡灌洗液(BALF)被收集。简言之,8只老鼠的肺部被灌洗5次。上层清液被分装并且多重免疫分析(multianalyte profiling)根据RodentMAP v.2.0程序使用复用微珠阵列通过Myriad RBM(Myriad RBM;Austin,TX,USA)被执行。对于第二至第五灌洗周期,带有0.325% BSA的1毫升PBS被用于每个周期。此外,5个周期的细胞团使用FACScanto流式细胞仪(BD Biosciences,San Jose,CA,USA)被汇集、计数并区分以用于游离肺细胞计数(FLC)/生存能力。
数据处理和评分方法在R统计环境中被实施[R Development Core Team,R:ALanguage and Environment for Statistical Computing.2009]。元RNA表达数据使用在R统计环境中可获得的微阵列分析工具的Bioconductor套件的affy和limma包被分析[Gentleman,R.,Bioinformatics and computational biology solutions using R andBioconductor.2005,New York:Springer Science+Business Media,xix,473p;Gentleman,R.C.et al.(2004)Bioconductor:open software development forcomputational biology and bioinformatics.Genome Biol.5,R80]。鲁棒的多芯片平均(GCRMA)背景校正和分位数标准化被用于生成探测组表达值[Irizarry,R.A.et al.(2003)Exploration,normalization,and summaries of high density oligonucleotide arrayprobe level data.Biostatistics.4,249-64]。对于每个数据集,总体线型模型被拟合到复制品的所有群组的数据,并且特定的感兴趣对比物(“治疗”和“对照”条件的比较)被评价以生成用于该表达阵列上的每个探测集的元p值,所述元p值进而通过Benjamini-Hochberg过程被调节。这些方法被应用到下面被称为例1和例2的两个测试用例。
例1:体内和体外系统上作为用于CS暴露的生物标记的异生物质代谢网络
人类和其他哺乳动物被配备了精细的机构来解决致癌物和其他有毒化合物;防卫系统包括由细胞色素P450酶(CYP;1相)引起的氧化反应,然后是由2相酶引起的结合反应。这些酶依次将亲脂性化学化合物转化成能够从人体排除的亲水性可溶于水的形式[Burchell,B.et al.(2005)Substrate Specificity of Human Hepatic Udp-Glucuronosyltransferases.Methods in enzymology.400,46-57;Guengerich,F.P.(2001)Commonand uncommon cytochrome P450 reactions related to metabolism and chemicaltoxicity.Chem Res Toxicol.14,611-50;Pfeifer,G.P.et al.(2002)Tobacco smokecarcinogens,DNA damage and p 53mutations in smoking-associatedcancers.Oncogene.21,7435-7451]。也存在于香烟烟雾(CS)中的多环芳烃(PAH)的转化可以导致能够与基因组DNA相互作用的致癌中间物的产生[Kim,J.H.et al.(1998)Metabolism of benzo[a]pyrene and benzo[a]pyrene-7,8-diol by human cytochromeP450 1B1.Carcinogenesis.19,1847-53]。这些相互作用贡献于DNA加合物的形成并且当未被修复时可能导致突变[Piipari,R.et al.(2000)Expression of CYP1A1,CYP IB 1andCYP3A,and polycyclic aromatic hydrocarbon-DNA adduct formation inbronchoalveolar macrophages of smokers and non-smokers.Int J Cancer.86,610-6;Phillips,D.H.et al.(1990)Influence of cigarette smoking on the levels of DNAadducts in human bronchial epithelium and white blood cells.Int J Cancer.46,569-75]。各种基因编码异生物质代谢酶(如基因编码CYP和谷胱甘肽S-转移酶(GST)族)响应于CS暴露而被过度表达[Kim,J.H.et al.(1998)Metabolism of benzo[a]pyrene andbenzo[a]pyrene-7,8-diol by human cytochrome P450 1B1.Carcinogenesis.19,1847-53;Chari,R.et al.(2007)Effect of active smoking on the human bronchialepithelium transcriptome.BMC Genomics.8,297;Spira,A.et al.(2004)Effects ofcigarette smoke on the human airway epithelial cell transcriptome.Proc NatlAcad Sci USA.101,10143-8;Sutter,T.R.et al.(1994)Complete cDNA sequence of ahuman dioxin-inducible mRNA identifies a new gene subfamily of cytochromeP450that maps to chromosome 2.J Biol Chem.269,13092-9;Shimada,T.et al.(1996)Activation of chemically diverse procarcinogens by human cytochrome P-4501B1.Cancer Res.56,2979-84;Fukumoto,S.et al.(2005)Overexpression of the aldo-keto reductase family protein AKR1B10 is highly correlated with smokers′non-small cell lung carcinomas.Clin Cancer Res.11,1776-85;Piipari,R.et al.(2003)Glutathione S-transferases and aromatic DNA adducts in smokers′bronchoalveolar macrophages.Lung Cancer.39,265-72;Beane,J.et al.(2011)Characterizing the impact of smoking and lung cancer on the airwaytranscriptome using RNA-Seq.Cancer Prev Res(Phila).4,803-17],并且这些发现已在暴露给烟雾的啮齿动物组织中重现[Gebel,S.et al.(2004)Gene expression profilingin respiratory tissues from rats exposed to mainstream cigarettesmoke.Carcinogenesis.25,169-7848;Gebel,S.et al.(2006)The kinetics oftranscriptomic changes induced by cigarette smoke in rat lungs reveals aspecific program of defense,inflammation,and circadian clock geneexpression.Toxicol Sci.93,422-31]。
异生物质代谢网络模型的发展 异生物质代谢网络模型是细胞应激网络的子网络[Schlage,W.K.et al.(2011)A computable cellular stress network model for non-diseased pulmonary and cardiovascular tissue.BMC Syst Biol.5,168],其中芳烃受体(taof(Ahr))的转录活动是中心。Ahr是由异生物质激活的转录因子并且调控目标基因的表达(例如exp(CyplAl))。由Schlage等人公布的原始网络[Schlage,W.K.et al.(2011)Acomputable cellular stress network model for non-diseased pulmonary andcardiovascular tissue.BMC Syst Biol.5,168]可被更新以更精确地表示发生在肺和呼吸道中的过程。当前异生物质代谢网络中的节点和边在用例的上下文被示出如下(图2C)。
网络扰动幅度(NPA)评分本文描述的生物网络模型可以被用在任何相关数据集上以获得受给定刺激影响的生物过程的定性概观。该公开的计算方法使能对生物过程的扰动的定量测量[Martin,F.et al.(2012)Assessment of network perturbation amplitudeby applying high-throughput data to causal biological networks.BMC SystBiol.6,54]。特别是通过在计算中整合网络拓扑以及边的方向性和符号,这里给出的新网络扰动幅度(NPA)克服了先前已知算法的一些限制和假设[Martin,F.et al.(2012)Assessment of network perturbation amplitude by applying high-throughput datato causal biological networks.BMC Syst Biol.6,54]。图2A示出了使用网络模型通过对差异表达基因的数学转换来评估的网络扰动幅度分数。除了将实验误差考虑在内的NPA分数的置信区间之外,被导出以通知关于网络中描述的生物学特性的NPA分数的特异性的同伴统计还分别被示出为*O和k*,如果对应的p值低于显著性级别(这里为0.05)的话。同伴统计(也称为O统计和K统计)的导出被联系图6和图7更详细地描述。
使用网络方法的转录组数据的分析为了证明NPA方法的有效性,异生物质代谢网络被与来自呼吸道刷检的三个体内数据集相比较。图2B示出了对照异生物质代谢网络模型来评分的体内支气管刷检数据集。虽然大的个体变异在人类种群中被预期,但是异生物质代谢网络可以可重现地捕捉所有三个数据集中的扰动。图2C示出了异生物质代谢网络的上下文中的人类支气管刷检数据集的比较(i-ii)。每个数据点表示网络中的节点。每幅图中的插图示出网络中节点下的基因表达的可比较性。网络中节点下游的基因的差异表达级别有几分可比性(图2C中的插图);然而,网络节点上的分数高度对齐。
当前的研究集中在与人类对象中模拟烟雾暴露相关且鲁棒的体外培养系统。体外器官型人源气管/支气管上皮假复层培养物在形态学和分子级别上都非常类似于人类呼吸道的上皮组织[Bosse,Y.et al.(2012)Molecular Signature of Smoking in Human LungTissues.Cancer Res.72,3753-3763;Karp,P.H.et al.(2002)An in vitro model ofdifferentiated human airway epithelia.Methods Mol.Biol.188,115-137;Mathis,C.et al.(2013)Human bronchial epithelial cells exposed in vitro to cigarettesmoke at the air-liquid interface resemble bronchial epithelium from humansmokers.American Journal of Physiology-Lung Cellular and MolecularPhysiology;Maunders,H.et al.(2007)Human bronchial epithelial celltranscriptome:gene expression changes following acute exposure to wholecigarette smoke in vitro.Am J Physiol Lung Cell Mol Physiol.292,L1248-56;Pezzulo,A.A.et al.(2011)The air-liquid interface and use of primary cellcultures are important to recapitulate the transcriptional profile of in vivoairway epithelia.Am J Physiol Lung Cell Mol Physiol.300,L25-31]。在先前的研究中,在暴露给在气液界面处的主流CS达14分钟外加24小时的后暴露的正常人类支气管上皮细胞的器官型体外培养物和来自吸烟者的支气管刷检之间,可转换机理被识别[Mathis,C.et al.(2013)Human bronchial epithelial cells exposed in vitro to cigarettesmoke at the air-liquid interface resemble bronchial epithelium from humansmokers.American Journal of Physiology-Lung Cellular and MolecularPhysiology](图3A)。该例的目的是比较暴露给在气液界面处的主流CS达14分钟外加24小时的后暴露的正常人类支气管上皮细胞的器官型体外培养物与来自体内支气管刷检的转录组数据之间的异生物质代谢分数。这些分析可以被扩展以将异生物质代谢网络模型用作CS暴露的读出器。图3B示出了异生物质代谢网络的上下文中的三个体内数据集和一个体外数据集的评估。图3C示出了异生物质代谢网络模型的上下文中的体内数据集与体外数据集的单独比较(i-iii)。每个数据点表示网络中的节点。每幅图中的插图示出网络中节点下的基因表达的可比较性。图3B和图3C示出在暴露给CS的体内系统和吸烟者支气管刷检中,网络中节点的相似活动。通过对比,网络中节点下游的基因的差异表达没有明显关联(图2B和图2C中的插图)。总之,本公开证明了在网络节点级别体内和体外情况的可比较性优于差异表达基因级别上的可比较性。
例2:用于CS暴露和停止后C57/B16老鼠的肺中的受扰动过程的量化的机理性方法
慢性阻塞性肺病(COPD)是世界上慢性病和死亡的主要原因[Mathers,CD.andLoncar,D.(2006)Projections of global mortality and burden of disease from2002to 2030.PLoS medicine.3,e442]。暴露给CS的C57/B16老鼠提供了对肺气肿发起和发展的有价值的洞察[Churg,A.Cosio,M.and Wright,J.L.(2008)Mechanisms of cigarettesmoke-induced COPD:insights from animal models.American Journal ofPhysiology-Lung Cellular and Molecular Physiology.294,L612-L631],虽然这只模拟了早期人类COPD的以降低的肺功能、呼吸道中的异常炎症反应、小呼吸道重塑和肺泡组织的毁坏为特征的某些方面[Pauwels,R.A.and Rabe,K.F.(2004)Burden and clinicalfeatures of chronic obstructive pulmonary disease(COPD).Lancet.364,613-20;Rabe,K.F.et al.(2007)Global strategy for the diagnosis,management,andprevention of chronic obstructive pulmonary disease:GOLD executive summary.AmJ Respir Crit Care Med.176,532-55]。
生物影响因子 除了NPA之外,生物影响因子(BIF)算法被用于该用例。BIF是用于由于生物系统被暴露给一个或若干刺激而引起的生物影响的聚集的量。具体地,BIF提供在网络模型中捕捉的所有过程的系统范围的分数及其相关联的NPA分数。图4A示出了例示出各种网络和相对应的个体扰动幅度的生物影响因子圆锥,从而示出了各种机理对总体生物影响因子的贡献。
使用网络方法分析转录组数据 基于机理的系统毒理学策略[Hoeng,J.et al.(2012)A network-based approach to quantifying the impact of biologicallyactive substances.Drug Discov Today.17,413-8]可以被应用以获得机理性洞察并量化在暴露给烟雾的老鼠肺部中激活的各种生物过程。具体地,转录组数据被从暴露给主流CS达2、3、7个月的老鼠以及分别跟着2个月和5个月的停止时段的2个月和3个月的烟雾暴露之后的数据获得。与Beckett等人的研究[Beckett,E.L.et al.(2013)A new short-termmouse model of chronic obstructive pulmonary disease identifies a role formast cell tryptase in pathogenesis.Journal of Allergy and ClinicalImmunology]的发现类似,老鼠在仅2个月的CS暴露后肺部患上肺气肿,这由肺部形态计量和组织病理分析特征化。
总体生物影响因子(BIF)被使用如下网络计算:肺部炎症过程网络(IPN)、细胞增殖网络[Westra,J.W.et al.(2011)Construction of a computable cell proliferationnetwork focused on non-diseased lung cells.BMC Syst Biol.5,105]、细胞应激网络[Schlage,W.K.et al.(2011)A computable cellular stress network model for non-diseased pulmonary and cardiovascular tissue.BMC Syst Biol.5,168]以及构成DNA损伤、自噬、细胞死亡(凋亡和坏死)和衰老网络(DACS)的网络(DACS)[Gebel,S.et al.(2013)Construction of a Computable Network Model for DNA Damage,Autophagy,Cell Death,and Senescence Bioinformatics and Biology Insights 7,97-117]。图4A示出了每个时间点处CS暴露和对照组暴露的老鼠肺部的相对BIF。CS对肺部生物过程的影响在3个月的CS暴露后位于其最高处并且在停止后显著降低。类似于与肺部功能和病理学有关的端点,影响的程度取决于烟雾暴露的持续时间和停止的长度。显著的是,当老鼠在2个月的CS暴露后被转换到新鲜空气时,相对BIF在第7个月之前降低至几乎可忽略的级别,表明肺部中的分子变化几乎完全逆转。
图4B使用肺部炎症过程网络(IPN)、细胞增殖网络、细胞应激网络以及构成DNA损伤、自噬、细胞死亡(凋亡和坏死)和衰老网络(DACS)的子网络示出了暴露给烟雾的老鼠肺部的相对生物影响因子数据。图4B中的条形图示出相对于最大响应群(REF)的BIF值。δ值(-1到1)指示底层网络扰动相对于最大响应群(REF)有多相似。分数通过使用来自与时间匹配的对照老鼠对比的CS和停止老鼠的转录组谱数据被计算。一般地,将BIF分解到其各个网络模型中可以识别在每个时间点对疾病表型最有贡献的生物过程。根据在支气管肺泡灌洗液(BALF)中测得的病理学和分子学端点二者,肺部炎症在所有时间点处是对CS的优势响应。有趣的是,虽然炎症似乎在跟着2个月的CS暴露的5个月停止之后减弱了,但是凋亡和增殖仍然存在。如组织学分析所确定的,这可能反映了似乎已从CS暴露部分恢复的受损肺部中正在进行的修复过程。
图4C例示了示出针对各种治疗组将总体相对BIF分解为其主要机理成分(从细胞增殖到炎症)的星状图。给定的治疗组中的标签示出用于该特定治疗的每个网络的贡献(按百分比)。它们的和为100%。星状图具有八个轴,并且图4C右手边的图例列出八个颜色编码成分。这些在每个星状图中按逆时针方向排列,从在垂直向上轴(即,北)上对齐的部分中的细胞增殖开始,经过左上(西北)轴上的细胞应激,依次到达右上(东北)轴上的IPN,所以在左上角的星状图(用于CS(2m))中,八个成分的值为3%(细胞增殖)、3.7%(细胞应激)、3.1%(凋亡)、0.6%(自噬)、0%(DNA损伤)、0%(坏死)、11.4%(衰老)和78.2%(IPN);其他每个图具有相同的排列。
图4D是来自暴露给烟雾的老鼠的支气管肺泡灌洗液(BALF)细胞计数的图形表示。细胞测量在每个肺中被按数量报告。当特别是网络BIF和肺部炎症被与BALF中的细胞计数相比较时,存在明显一致;CS暴露导致炎症细胞流入支气管肺泡空间,并且该影响在停止后消失。这证明BIF对于捕捉烟雾暴露后肺部的炎症变化非常敏感并且很好地反映了停止时段后的恢复。
图4E是用于巨噬细胞活化的、针对肺部炎症过程网络(IPN)内的依细胞类型而定的子网络的NPA计算以及来自BALF的对应测量的图形表示,并且图4E是用于上皮促炎信号传导的、针对肺部炎症过程网络(IPN)内的依细胞类型而定的子网络的NPA计算以及来自BALF的对应测量的图形表示。在图4E和图4F二者中,有颜色的巨噬细胞测量被按任意单位报告。配合基级别被按pg/mL报告。误差条表示95%的置信区间。
肺的IPN包括若干不同的依细胞类型而定的子网络,并且巨噬细胞活化(图4E)和上皮促炎信号传导子网络(图4F)在暴露给烟雾的老鼠肺部中如何被扰动可被仔细分析。对于总体巨噬细胞活化,在子网络活化和BALF细胞数量变化之间存在一致性(图4E)。在聚集的分数的机理性衰竭中,每个网络节点的个体扰动可以被调查。典型网络节点及其对应的BALF分析物测量的示例可以针对每个子网络模型被示出以将主要组织信号传导的行为和其替代测量相比较。趋势在网络模型中的节点分数和BALF分析物之间是一致的(图4E和图4F)。有趣的是,很多情况下,当BALF测量指示炎症在停止后已减弱时,增加的NPA分数指示网络仍被扰动。这强调了网络方法的有效性和敏感性,提供了对疾病进展的机理性洞察并捕捉了不一定反映在替代测量(BALF分析物)中的主要组织中的任何剩余信号传导。剩余信号可能是由于不一定反映在BALF室中的、肺泡空间中聚集的巨噬细胞和其他炎症细胞(称为巨噬细胞巢)的存在[W.Stinn,A.et al.(2012)Lung inflammatory effects,tumorigenesis,and emphysema development in a long-term,inhalation study withcigarette mainstream,smoke in mice.Toxicol,Set.305:49-64]。虽然与替代测量的关联用作我们的方法的原理证明,但是机理性洞察可以被用来研发允许更聪明的实验设计的可测试假设。
本公开描述了获取对暴露(例如,生物活动物质和环境损害)的影响的定量系统级机理性洞察的能力具有范围从药品研发到消费者安全不等的各种实际应用。例如,候选化合物可以针对其对在治疗上相关的信号传导途径的影响(例如,细胞周期的抑制)被筛选,或者由化学暴露调节的分子机理可以针对其与健康风险的可能关联(例如,DNA损伤的诱导)而被定量地评价。无论最终目标是治疗干预还是伤害降低,这些示例都突显了评估暴露的生物影响的迫切需要。
根据该公开的实现方式,五个生物网络模型在肺部上下文中被构建[Schlage,W.K.et al.(2011)A computable cellular stress network model for non-diseasedpulmonary and cardiovascular tissue.BMC Syst Biol.5,168;Westra,J.W.et al.(2011)Construction of a computable cell proliferation network focused on non-diseased lung cells.BMC Syst Biol.5,105;Gebel,S.et al.(2013)Construction of aComputable Network Model for DNA Damage,Autophagy,Cell Death,and SenescenceBioinformatics and Biology Insights 7,97-117]。这些网络模型为创建诸如慢性阻塞性肺病(COPD)或囊胞性纤维症之类的肺部疾病模型提供了理想的基底,并且如本文所描述的,当与能够测定被建模生物过程的扰动的数量的算法相结合时发挥其全部能力。
本公开的系统和方法以客观、系统和可计量的方式评价了暴露的生物影响,实现了针对给定的活动物质或混合物的、系统范围的全机理性的生物影响量度的计算。本文描述的结果表明从药品研发到消费者产品测试和环境影响分析的各种领域的人类疾病研究都能够得益于本方法的使用。
本文引用的每个参考文献通过引用被分别全部结合于此。
虽然该公开的实现方式已参考特定示例被具体示出和描述,但是本领域技术人员应理解,在不脱离所附权利要求定义的公开的范围的情况下可对其进行各种形式和细节改变。该公开的范围因此由所附权利要求指示并且落入权利要求的等同物的范围和含义的所有改变因此打算被包含。

Claims (13)

1.一种用于量化生物系统响应于媒介的扰动的计算机化方法,包括:
在处理电路处接收与生物系统对媒介的响应相对应的一组治疗数据,其中,生物系统包括多个生物实体,每个生物实体与生物实体中的至少一个其他生物实体相互作用;
接收与未暴露于媒介的生物系统的响应相对应的一组对照数据;
通过识别所述多个生物实体的第一子集来识别表示生物系统中的第一生物过程的第一计算因果网络模型;
通过识别所述多个生物实体的第二子集来识别表示生物系统中的第二生物过程的第二计算因果网络模型;
在处理电路处并且利用所述一组治疗数据和所述一组对照数据来计算第一计算因果网络模型的第一分数,该第一分数表示所述多个生物实体的第一子集响应于媒介的第一扰动;
在处理电路处并且利用所述一组治疗数据和所述一组对照数据来计算第二计算因果网络模型的第二分数,该第二分数表示所述多个生物实体的第二子集响应于媒介的第二扰动;
通过聚集第一分数和第二分数来获得聚集分数并且调节聚集分数以反映第一计算因果网络模型与第二计算因果网络模型之间的交集,来量化生物系统响应于媒介的扰动,其中,所述交集包括所述多个生物实体的第三子集,该第三子集中的每个生物实体属于第一子集和第二子集,
其中,调节聚集分数以反映所述交集包括:
计算点积,该点积将第一计算因果网络模型与第二计算因果网络模型之间的交集考虑在内,以抵消所述交集对聚集分数的影响,其中,所述点积表示第一计算因果网络模型和第二计算因果网络模型的正交部分的贡献并且定义正交直和,以及
基于该点积来调节第一分数和第二分数中的至少一个。
2.如权利要求1所述的计算机化方法,还包括:通过以下步骤来确定第一分数的统计显著性以评估第一分数相对于第一计算因果网络模型的特异性:
将第一计算因果网络模型修改N次以生成N个测试模型;
利用所述一组治疗数据和所述一组对照数据来计算所述N个测试模型中的每个测试模型的测试分数,以获得N个测试分数;以及
将第一分数与所述N个测试分数进行比较,以使得在第一分数超过所述N个测试分数的预定阈值百分比的情况下,将第一分数确定为是统计显著的。
3.如权利要求2所述的计算机化方法,其中,第一计算因果网络模型中的每个生物实体是由节点上的标签表示的基因,并且所述修改包括随机地重新指派第一计算因果网络模型内的节点上的标签。
4.如权利要求2所述的计算机化方法,其中:
第一计算因果网络模型还包括一组边,每条边连接第一子集中的两个生物实体,并且,
所述修改包括随机地将所述一组边中的各边重新指派为位于第一子集中的两个其他生物实体之间。
5.如权利要求4所述的计算机化方法,其中:
所述一组边中的n条边指示第一子集中的两个生物实体之间的否定关系;
所述一组边中的m条边指示第一子集中的两个生物实体之间的肯定关系;并且
在不考虑相应边是指示否定关系还是指示肯定关系的情况下执行对各相应边进行的随机的重新指派。
6.如权利要求1所述的计算机化方法,其中,第一计算因果网络模型和第二计算因果网络模型中的每个代表生物系统中的生物机理。
7.如权利要求1所述的计算机化方法,其中,计算第一分数包括评估第一计算因果网络模型底层的有符号有向图的半范数,其中所述有符号有向图包括所述多个生物实体的第一子集中的生物实体的节点以及连接生物实体对的边。
8.如权利要求7所述的计算机化方法,其中:
评估半范数包括评估邻接矩阵,
邻接矩阵中的各相应要素指示第一子集中的生物实体的相应对之间的边的符号,
在边指示生物实体的相应对之间的否定关系的情况下,所述符号是负的,以及
在边指示生物实体的相应对之间的肯定关系的情况下,所述符号是正的。
9.如权利要求7所述的计算机化方法,其中:
通过计算向量f和矩阵Q的二次型来评估第一分数半范数,
所述向量f包括代表所述一组治疗数据与所述一组对照数据之间的差异的活动值,并且
所述矩阵Q是通过评估第一对角矩阵和第二对角矩阵而被算出的,第一对角矩阵代表所述有符号有向图中的离开节点的外出边,第二对角矩阵代表所述有符号有向图中的进入节点的进入边。
10.如权利要求9所述的计算机化方法,其中,所述矩阵Q是通过将第一对角矩阵与第二对角矩阵相加而被算出的。
11.如权利要求9所述的计算机化方法,其中:
所述矩阵Q是通过从第一对角矩阵与第二对角矩阵的和减去一度量而被算出的,所述度量至少部分地基于邻接矩阵,
邻接矩阵中的各相应要素指示第一子集中的生物实体的相应对之间的边的符号,
在边指示生物实体的相应对之间的否定关系的情况下,所述符号是负的,以及
在边指示生物实体的相应对之间的肯定关系的情况下,所述符号是正的。
12.如权利要求11所述的计算机化方法,其中,邻接矩阵是加权矩阵,以使得邻接矩阵中的各相应要素通过与相对应的下游节点的数量相关联的值被加权。
13.一种计算机化系统,包括配置有非临时性计算机可读指令的处理设备,该非临时性计算机可读指令当被执行时使处理设备执行如权利要求1-12中任一项所述的方法。
CN201480023094.2A 2013-04-23 2014-04-22 在系统毒理学中使用机理网络模型的系统和方法 Active CN105308604B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361815188P 2013-04-23 2013-04-23
US61/815,188 2013-04-23
PCT/EP2014/058159 WO2014173912A1 (en) 2013-04-23 2014-04-22 Systems and methods for using mechanistic network models in systems toxicology

Publications (2)

Publication Number Publication Date
CN105308604A CN105308604A (zh) 2016-02-03
CN105308604B true CN105308604B (zh) 2019-10-11

Family

ID=50543588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480023094.2A Active CN105308604B (zh) 2013-04-23 2014-04-22 在系统毒理学中使用机理网络模型的系统和方法

Country Status (7)

Country Link
US (1) US20160063176A1 (zh)
EP (1) EP2989578B1 (zh)
JP (1) JP6397894B2 (zh)
CN (1) CN105308604B (zh)
CA (1) CA2910061C (zh)
HK (1) HK1219549A1 (zh)
WO (1) WO2014173912A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2608122A1 (en) 2011-12-22 2013-06-26 Philip Morris Products S.A. Systems and methods for quantifying the impact of biological perturbations
KR101721528B1 (ko) * 2015-05-28 2017-03-31 아주대학교산학협력단 질병 네트워크로부터 동반 발병 확률을 제공하는 방법
CN105224823B (zh) * 2015-09-02 2018-12-25 苏州协云基因科技有限公司 一种药物基因靶点预测方法
US11165648B1 (en) * 2019-09-26 2021-11-02 Juniper Networks, Inc. Facilitating network configuration testing
CN112786108B (zh) * 2021-01-21 2023-10-24 北京百度网讯科技有限公司 分子理解模型的训练方法、装置、设备和介质
CN113077841B (zh) * 2021-03-01 2022-05-24 华中科技大学 一种预测调控酵母自噬的功能基因的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008079269A2 (en) * 2006-12-19 2008-07-03 Genego, Inc. Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
EP2608122A1 (en) * 2011-12-22 2013-06-26 Philip Morris Products S.A. Systems and methods for quantifying the impact of biological perturbations
WO2013034300A2 (en) * 2011-09-09 2013-03-14 Philip Morris Products S.A Systems and methods for network-based biological activity assessment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A network-based approach to quantifying the impact of biologically active substances";Julia Hoeng et al;《Drug Discovery Today》;20120531;第11卷(第9-10期);413-418 *

Also Published As

Publication number Publication date
CA2910061A1 (en) 2014-10-30
EP2989578A1 (en) 2016-03-02
EP2989578B1 (en) 2023-03-29
HK1219549A1 (zh) 2017-04-07
WO2014173912A1 (en) 2014-10-30
US20160063176A1 (en) 2016-03-03
JP6397894B2 (ja) 2018-09-26
CN105308604A (zh) 2016-02-03
JP2016520907A (ja) 2016-07-14
CA2910061C (en) 2023-08-15

Similar Documents

Publication Publication Date Title
CN105308604B (zh) 在系统毒理学中使用机理网络模型的系统和方法
CN103827896B (zh) 用于基于网络的生物活动评价的系统和方法
JP6407242B2 (ja) ネットワークに基づく生物学的活性評価のためのシステムおよび方法
JP6138787B2 (ja) トポロジーネットワーク攪乱を特徴づけるためのシステムおよび方法
JP6568860B2 (ja) 異物代謝の撹乱を評価するシステムおよび方法
JP7381815B1 (ja) 適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム
JP7275334B2 (ja) 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ
Lucas et al. Cross-study projections of genomic biomarkers: an evaluation in cancer genomics
Choukrallah et al. Toxicopanomics: Application of Genomics, Transcriptomics, Proteomics, Metabolomics, and Lipidomics in Predictive Mechanistic Toxicology
Stein Mapping Molecular Changes in Human Neuropsychiatric Disorders to Zebrafish Behavioral Profiles
Belcastro et al. Computational Toxicology
Kogevinas 0430 Individual variability, from candidate G* E to GEWIS
Lanoy How to evaluate effect of–treatment, biomarker-exposure in observational settings: causal modeling
Rekaya et al. Misclassification in binary responses and effect on genome-wide association studies
Bax et al. E-Nose Urine Analysis for Non-Invasive Diagnosis of Prostate Cancer: Focus on Data Processing for Drift Compensation
Rotenberg et al. 0410 Long night shifts among health workers and physical and mental health: the influence of on-shift nap and domestic work

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1219549

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant