CN111684531B - 分析和优化代谢网络的方法 - Google Patents

分析和优化代谢网络的方法 Download PDF

Info

Publication number
CN111684531B
CN111684531B CN201880087406.4A CN201880087406A CN111684531B CN 111684531 B CN111684531 B CN 111684531B CN 201880087406 A CN201880087406 A CN 201880087406A CN 111684531 B CN111684531 B CN 111684531B
Authority
CN
China
Prior art keywords
molecular
node
nodes
edges
bipartite graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880087406.4A
Other languages
English (en)
Other versions
CN111684531A (zh
Inventor
J.汤姆森
F.鲁索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
X Development LLC
Original Assignee
X Development LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by X Development LLC filed Critical X Development LLC
Publication of CN111684531A publication Critical patent/CN111684531A/zh
Application granted granted Critical
Publication of CN111684531B publication Critical patent/CN111684531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本文描述了一种用于分析二分图数据结构以缩合代谢网络的反应路径的方法。细胞的代谢网络构造为二分图,在二分图中,分子节点表示代谢中的分子,连接分子节点的边表示化学反应或过程。二分图中的分子节点根据导入和导出每个节点的边的数量进行分类。如果二分图的结构指示分子节点对代谢网络的数学模型的通量值解没有贡献,则从二分图中阻断或去除该节点及其连接的反应路径。因此,可以降低二分图的复杂度,并识别关键的节点和路径。

Description

分析和优化代谢网络的方法
技术领域
本描述通常涉及在稳定状态(steady state)假设下通过分析网络的数据结构表示并阻断或去除网络的通量值解的非贡献反应路径来识别代谢网络的特征。
背景技术
活生物体细胞的代谢系统可以被概念化为反应物和产物之间的路径的链接网络。该链接网络可以用在代谢的数学模拟中以重现细胞行为,并尝试识别关键的代谢路径以及代谢变化对较大细胞环境的影响。然而,即使是简单的生物体,代谢系统中的分子和反应的数量也可能从数百到数千不等。代谢网络的庞大规模使其计算笨拙,每次数学模拟都需要很长的运行时间。此外,由于网络的路径通常来自各种来源,诸如原始文献、数据库和生物化学教科书,因此很难使用几十种以上的化合物来评估网络的正确性。网络的笨拙特性也使得很难识别网络中的关键路径或者破坏或影响代谢的潜在目标。
发明内容
代谢网络可以构造为具有两个不同的节点集的二分图。第一个是表示代谢中的分子的分子节点,第二个是表示可能涉及多个不同角色的分子的生化过程或反应的过程节点。二分图中的边将分子节点连接到表示它们参与的反应的过程节点。边存储有关分子节点在过程节点的反应中扮演的角色的信息。通过分析二分图的结构,可以根据导入和导出每个分子节点的边数的数量对分子节点进行分类,其中,边的总数指示该分子在其中扮演了角色的反应总数。当二分图用于进行稳定状态假设的代谢的数学模拟中时,仅代谢网络的某些部分可能对所得到的数学解有贡献。稳定状态假设提供了一组标准,可以用来减小二分图的规模。遵循这些标准并使用节点的边计数可以减少代谢网络,从而减少与模拟代谢相关的计算,还可以识别代谢的关键反应路径和分子节点。
一种用于分析二分图数据结构以缩合(condense)代谢网络的反应路径的方法,包括在二分图数据结构中接收代谢网络。二分图数据结构包括多个分子节点,并且每个分子节点都是代谢反应中的分子。二分图数据结构包括连接多个分子节点中至少两个分子节点的多个边,其中,每个边导出第一分子节点并导入第二分子节点表示第一分子是反应物且第二个分子是产物的代谢反应。该方法包括对于二分图数据结构中的每个分子节点,基于导入每个分子节点的边的第一数量,确定每个分子是其产物的代谢反应的第一数量。该方法包括对于二分图数据结构中的每个分子节点,基于导出每个分子节点的边的第二数量,确定每个分子是其反应物的代谢反应的第二数量;该方法包括响应于确定第一数量的边中没有一个导入第三分子节点,或第二数量的边中没有一个导出所述第三分子节点,阻断二分图数据结构中连接到第三分子节点的所有分子节点和边的第一反应路径。
附图说明
图1是示出根据一个实施例的构造为二分图的代谢网络的框图。
图2是根据一个实施例的代谢网络中的汇合节点的图示。
图3是根据一个实施例的代谢网络中的分叉节点的图示。
图4是根据一个实施例的在代谢网络中的联结节点的图示。
图5是根据一个实施例的代谢网络中的孤立(orphan)节点的图示。
图6是根据一个实施例的代谢网络中的未使用的节点的图示。
图7是根据一个实施例的代谢网络中的未制成(unmade)的节点的图示。
图8是根据一个实施例的代谢网络中的中间节点的图示。
图9A是根据一个实施例的代谢网络的简略图形表示。
图9B是根据一个实施例的图9A的代谢网络的阻断的路径的简略图形表示。
图10A是根据一个实施例的第一简化代谢网络的简略图形表示。
图10B是根据一个实施例的图10A的第一简化代谢网络的去除的路径的简略图形表示。
图10C是根据一个实施例的最终简化代谢网络的简略图形表示。
图11示出根据一个实施例的用于分析二分图数据结构以缩合代谢网络的反应路径的过程。
图12示出了根据一个实施例的使用二分图的结构来识别和缩合具有非零通量解的代谢网络的反应路径的过程。
图13是根据一个实施例的全细胞模型的背景下的代谢网络的框图。
具体实施方式
I、背景
细胞的代谢系统可以被概念化为反应物和产物之间的路径的链接网络。该链接网络可以被构造为两个不同的节点集之间的二分图数据结构。第一个是表示代谢中的分子的分子节点,第二个是表示可能涉及多个不同角色的分子的生化过程或反应的过程节点。二分图中的边将分子节点连接到表示它们参与的反应的过程节点。边存储有关分子节点在过程节点的反应中扮演的角色的信息。如本文所述,二分图中表示的代谢“路径”是分子节点和过程节点之间沿着它们的连接边(诸如,第一分子节点、第一角色边、第一过程、第二角色边、第二分子等)可穿过的路径。通过将二分图中的所有代谢输入和代谢产物链接起来,可以将细胞的整个代谢系统转换为节点和边的反应网络,其结构反映了网络中每个分子和过程之间的生化关系。
代谢网络的数学模拟着重于求解网络中分子的浓度,其逻辑是生化过程的行为由生化过程中涉及的分子的累积或减少来反映。例如,如果生化过程频繁发生,则此行为可以转化为反应物分子的浓度的降低和产物分子的浓度的增加。因此,尽管代谢网络由分子和过程组成,但网络的数学模拟中的未知变量可以限制为未知分子浓度,而不会丢失信息,因为浓度隐含地描述了过程。
二分图数据结构很好地用于代谢网络的计算模拟,因为该图存储了数据结构中的每个变量(诸如,分子和过程)及其相对关系(诸如,边)。代谢的计算模拟可以单独使用,也可以与其他细胞过程的模型(诸如,基因表达、DNA修复、细胞通讯等)结合使用以构建“全细胞”计算模型。
然而,即使是简单的生物体,代谢系统中结点和边的数量也可能从数百到数千不等。要建立二分图,可以参考许多来源来识别构成细胞代谢网络的分子、酶、辅因子等。这些来源可能包括原始文献、数据库、生物化学教科书、会议报告或任何其他原始来源文献。二分图的内容可以手动填充以在二分图数据结构中形成代谢网络。一旦建立了代谢系统的完整二分图,其庞大的规模使其计算笨拙,从而导致运行时间长并降低了模拟的易用性。此外,由于路径通常来自各种来源,因此很难用数十种以上的化合物来评估网络的正确性。例如,来自一个原始来源的代谢路径可能具有其路径到另一代谢路径的冗余部分,导致不必要的额外计算。然而,由于网络的规模,这种冗余可能不容易识别。
类似地,二分图的规模使得难以识别代谢网络的每个路径或任何单个分子节点、过程节点或边的相对重要性。例如,特定的代谢路径可能基本上不会对代谢功能做出贡献,并且可以在不影响代谢网络的数学模拟的情况下被去除或阻断。相反,其他代谢路径可能是至关重要的,使得该路径中的节点或边的任何变化都会导致数学模拟的崩溃。特别是当代谢网络与表示其他细胞过程的其他亚单位整合在一起时,代谢网络的某些部分的相对重要性可能并不明显。例如,由分子节点表示的分子可以用于代谢之外的其他亚单位,这种关系在从原始来源构建初始二分图时可能不会立即显现。作为另一个例子,代谢网络的某些部分可能不会对代谢模拟的数学解做出重大贡献,但是可能包含在其他数学过程中表示的其他细胞过程中使用的重要前体,因此将其从二分图中阻断或去除会影响整个细胞模型。
使用二分图数据结构的代谢的数学模拟可以是化学计量的质量平衡模型,该模型将由反应路径中的分子节点表示的多个分子联系起来。在这些模型中,二分图的分子节点之间的每个反应路径的化学计量系数作为反应约束,其中每个反应的化学计量由元素和电荷平衡固定,因此完全与时间无关。化学计量的质量平衡模型可以与通量平衡分析(fluxbalance analysis,FBA)、常微分方程(ordinary differential equation,ODE)模型、偏微分方程(partial differential equation,PDE)模型、蒙特卡洛模拟或这些的某种组合一起使用。在给定反应路径中的分子节点之间的质量平衡约束以及由二分图给出的整体网络结构的情况下,这些数学模拟得出可能的分子浓度的解空间。
这些化学计量的质量平衡模型在求解分子浓度时假设稳定状态解。例如,在FBA中,模型还可以假设通过“生物量”函数(由目标函数的化学计量系数表示)的通量将在数学上最大化,这一假设被解释为意味着细胞将最大化生长。因此,在给定化学计量系数的约束,并给定存储在二分图中的分子节点和过程节点之间的相对关系的情况下,FBA使目标函数最大化。FBA的假设允许确定通过每种代谢路径的稳定状态通量的精确、单一解。ODE、PDE和/或Monte Carlo模型也可以假设相关或相似的稳定状态解。这些模型中的每一个可以被配置为使通量值或等效物的目标函数最大化,或者被配置为相对于某些其他目标函数(注入,使生物量以外的值最大化的目标函数)运行。
需要一种降低数学模拟代谢网络的计算复杂度并简化网络以更好地识别各种代谢路径的相对重要性的方法。在假设稳定状态解的数学模型(诸如,FBA)的背景下使用二分图为减少代谢网络中的路径的数量及其在二分图中的相应节点和边提供了数学标准和原理。遵循FBA和其他具有稳定状态假设的稳定状态数学模型的标准,可以在不影响代谢网络的数学模拟的情况下缩小二分图。
II、零通量路径的意义
以FBA为典型例子,二分图的数学相关路径是在运行FBA模拟之后在系统的稳定状态下具有通量值的路径。这意味着,在稳定状态下,代谢路径具有进入路径的非零通量以及离开路径的非零通量。在生物学上,这被解释为意味着在系统的稳定状态下,该路径从代谢网络外部吸收分子,并将分子输出到代谢网络外部的细胞的其他部分。尽管路径中可能存在中间分子和节点,但是FBA通量值解仅提供代谢网络在代谢边界处的输入和输出的值。
因此,如果在稳定状态下通过代谢路径的通量为零,则该路径可以从二分图中阻断,而不会影响FBA的解。在这些稳定状态假设下,在达到稳定状态之前发生的通量值的任何中间时间行为(表示产物的累积、产物的消耗等)都与代谢的数学模拟不相关。因此,零通量的代谢路径可被认为是“死胡同”路径。
分析代谢网络的二分图表示的结构提供了一种识别死胡同、零通量路径的方法。为了具有非零通量,并因此对FBA或采用稳定状态假设的任何其他数学模型的解做出贡献,将每种反应物转换为产物,使得该路径跨越从输入边界到输出边界的代谢网络的整个长度。如二分图中所反映的,这转化为要求所有分子节点都包含至少一个导入分子节点的边和至少一个导出分子节点的边。相反,死胡同零通量路径将具有至少一个分子节点,这至少一个分子节点不具有导入分子节点的边或导出分子节点的边。
死胡同路径导致零通量的事实是稳定状态和质量平衡假设的直接结果。如果分子节点没有导入其的边或者没有从其导出的边,那么对于分子节点处通量值之和为零的要求,唯一可能的解是任何连接的边具有零通量。例如,如果一个分子没有导入(leadinginto)其的边,但是有从其导出(leading out)的一个边,则产生净零通量的唯一解是使导出分子节点的边的通量值为零。因此,零通量路径可以通过计算二分图中向特定节点连入(connect in)的边的数量以及二分图中从特定节点连出(connect out)的边的数量来确定。
一旦被识别,可以通过阻断与死胡同零通量路径相关联的分子节点和边来简化二分图。可以添加进一步的检查以确认分子节点和边可以在二分图中被阻断而不会显著影响代谢网络的数学模拟,诸如FBA的通量值解。
III、中间路径的意义
除了死胡同路径以外,在FBA的标准下,二分图可以进一步简化。由于FBA解仅给出代谢输入和输出的矢量解,因此网络中的中间分子节点仅与FBA解相关,因为它们保留了输入边界处的输入通量与输出边界处的输出通量之间的反应路径。例如,在第一个节点和最后一个节点之间有20个中间分子节点的路径中,这20个中间分子节点将不会对导入第一个节点的输入通量或导出最后一个节点的输出通量做出贡献。可以通过去除20个中间分子节点来简化二分图,前提是它们不影响任何其他路径。
分析二分图的结构提供了一种识别中间分子节点的方法。中间分子节点包含一个导入分子节点的边和一个导出分子节点的边。除以下所述的某些例外情况外,可以通过去除分子节点和与识别出的中间分子节点相关的边来简化二分图,而不会显着影响代谢网络的数学模拟,诸如FBA的通量向量解。
下面更详细地描述分析二分图结构以简化代谢网络的进一步的实施例。
IV、代谢网络作为二分图
图1是示出根据一个实施例的构造为二分图的代谢网络的框图。如前所述,二分图由两个不同的节点集组成,即分子和过程,它们通过边连接。然而,如图1-图10C所示,二分图已被扩展以更好地可视化代谢网络的结构。应当理解,本文所示的分子节点全部包含在第一集合内,而本文所示的过程节点全部包含在第二集合内。本文所示的边将第一集合中的分子节点连接到第二集合中的过程节点。
扩展的二分代谢网络100包括输入分子节点102。输入分子节点102表示代谢的输入分子,并且是二分代谢网络100的输入边界。输入分子节点102中的每一个通过边112连接到过程节点114中的至少一个。过程节点114中每一个通过边126连接到分子节点128。
因此,输入分子节点102中的每一个通过过程节点114以及边112和126连接到分子节点128中的至少一个。分子节点128表示代谢的第一产物。取决于二分代谢网络100的路径中的分子和过程节点的数量,在示出从输入分子节点102到输出分子节点140的反应路径的扩展的二分代谢网络100中可以存在任何数量的附加分子节点和边。输出分子节点140表示代谢的输出,并且是二分代谢网络100的输出边界。
A.二分代谢网络的范围
扩展的二分代谢网络100包括在代谢网络的稳定状态数学模拟中使用的所有分子和过程。例如,二分代谢网络100包含在代谢网络的FBA模型中使用的所有分子和过程。在一些示例中,使用多个数学子单元来模拟代谢网络,每个数学子单元对代谢网络的不同部分进行建模。在一些示例中,并非对所有数学子单元都做出稳定状态假设。在这些示例中,扩展的二分代谢网络100可以仅包含具有稳定状态假设的子单元中包括的分子和过程。在其他示例中,扩展的二分代谢网络100包含代谢网络的所有分子和过程,并且如下所述,在具有稳定状态假设的数学模型中使用的扩展的二分代谢网络100仅有一部分被简化和缩合。
B.二分图中的过程节点
如本文所述,过程节点(诸如,过程节点114)描述了生化环境中的分子作用,包括但不限于化学反应、调节相互作用、结合、转运或其他。因此,过程节点114、过程节点A 116、过程节点B 116、过程节点C 120、过程节点D122和过程节点124中的每一个都描述了扩展的二分代谢网络100内的不同分子作用。过程节点包括许多描述性元数据字段,这些元数据字段提供有关过程的信息,包括但不限于分子及其在过程中的关联角色的列表、反应速率信息以及过程、过程中可能涉及的子过程所需的能量或其他更详细的信息。
C.二分图中的分子节点
如本文所述,在构造为二分图的代谢网络中,分子节点(诸如,输入分子节点102、分子节点128和输出分子节点140)是表示代谢中存在的分子或化学元素的二分图的节点。输入分子节点102、分子节点128和输出分子节点140被理解为一起包含在二分图的分子节点集中,但是在扩展的二分代谢网络100中被分开示出,以示出输入分子节点102和输出分子节点140之间的反应路径。分子节点可以表示小分子,诸如水、二氧化碳、质子等,或者大分子,诸如蛋白质、脂质、醇、有机酸、维生素等。如在二元代谢网络100中存储的,分子节点可以包含描述该分子的多个元数据字段。分子节点的元数据可以包括分子名称、分子式、氨基酸序列、大分子结构、电荷、化学或物理性质(pKa、熔点、溶解度等)和任何组成分子。另外,一些非物理属性可以包含在分子节点的元数据中,包括药物相互作用、3D结构等。分子节点不需要包含先前描述的元数据类别中的每一个的信息。
D.二分图中的输入节点
输入分子节点102表示是代谢的输入并且因此是扩展的二分代谢网络100的输入的分子。输入分子节点102可以包括来自上游细胞过程、是代谢的输入的分子,以及细胞的细胞质中的分子,以及细胞模型能够从其外部环境获得并在代谢网络中使用的分子。所有输入分子节点102和输入锚定均具有输入通量值解。输入分子节点102的输入通量值解可以通过使用扩展的二分代谢网络100求解FBA模型来确定。扩展的二分代谢网络100中的分子节点的输入通量值解表示分子在代谢系统的稳定状态下进入代谢网络的速率。分子节点的输入通量可以概念化为分子的代谢“需求”。在一些示例中,所有输入锚定和输入分子节点102的通量值解均非零。在其他示例中,输入分子节点102和输入锚定的子集的输入通量值解为0。
输入分子节点102的分子被“锚定”在扩展的二分代谢网络100内,并作为输入锚定1 104、输入锚定2 106、输入锚定3 108到输入锚定N 110存储在输入分子节点102内,其中,N是输入分子节点102的总数。如本文所使用的,“锚定”节点(诸如,输入锚定1 104、输入锚定2 106、输入锚定3 108到输入锚定N 110)是始终包括在扩展的二分代谢网络100的FBA分析中的分子节点。这样,当扩展的二分代谢网络100被简化和缩合时,它们与扩展的二分代谢网络100的其余部分分离,如参考图6-图10C更进一步详细地描述的。如上所述,在使用扩展的二分代谢网络100进行数学模拟期间,由输入锚定(输入锚定1 104、输入锚定2106、输入锚定3 108到输入锚定N 110)表示的分子不必存在于细胞内。
在一个示例中,输入锚定1 104表示来自上游细胞过程、是细胞代谢的直接输入的分子。例如,上游细胞过程可能是转录,使得输入锚定1 104分子是先前在细胞中使用的RNA分子,然后在细胞的代谢中分解。输入锚定1104具有输入通量值解,如从扩展的二分代谢网络100的数学模型(诸如,FBA模型)计算得出的。因此输入锚定1104处于扩展的二分代谢网络100的“边界”处,并且以由其输入通量值解给出的速率进入扩展的二分代谢网络100,该速率表示RNA消耗的代谢速率。
在另一示例中,输入锚定2 106是细胞代谢的直接输入,但是它不存在于上游细胞过程内,而是由细胞通过膜转运路径或某些其他细胞机制获得。在一些示例中,输入锚定2106可以是葡萄糖、水、氨基酸或任何其他代谢输入中的任何一种。在扩展的二分代谢网络100的数学模拟期间,输入锚定2 106在细胞内可能没有浓度。替代地,输入锚定2 106可以存在于细胞外部的环境中,并且通过膜转运路径,细胞将输入锚定2 106传递至扩展的二分代谢网络100。输入锚定2 106可以包含将其链接到膜转运路径或其他细胞机制的元数据,从膜转运路径或其他细胞机制获得输入锚定2106到扩展的二分代谢网络100。
在另一示例中,输入锚定3 108可以在细胞的细胞质内具有恒定或接近恒定的存在,使得输入锚定3 108的分子以某种浓度存储在代谢网络外部、但在细胞模型内。因此输入锚定3 108的输入通量表示输入锚定3108从细胞的存储浓度到扩展的二分代谢网络100的运动。
E.边链接节点
边将二分图中的分子节点(诸如,输入分子节点102)链接到过程节点(诸如,过程节点114)。例如,边112将输入分子节点102连接到过程分子节点114。具体地,单个边112将单个输入分子节点102连接到过程节点114中的单个过程节点。边112中的每个边表示输入分子节点102的输入分子在由过程节点114表示的生化过程中的角色。例如,如扩展的二分代谢网络100中所示,输入锚定1 104通过边112中的边连接到过程节点114中的过程A116。该边表示输入锚定1 104是反应物的化学反应或过程,其中该过程是过程A,并且输入锚定1104的角色由该边表示。
边112的方向(诸如,从输入分子节点102指向第一分子节点114)指示化学反应的方向。因此,从第一分子节点指向过程节点并从该过程节点指向第二分子节点的边指示在由过程节点表示的化学反应中,第一分子是反应物,第二分子是产物。如本文所述,“导出”分子节点的边指示化学反应使用该分子作为反应物,并且指示在代谢网络中化学反应的方向是向前远离该分子。如本文所述,“导入”分子节点的边指示化学反应产生该分子作为产物,并且在代谢网络中化学反应的方向是向前朝向该分子。例如,导出输入分子节点102的边112指示它们是反应物分子,而导入分子节点128的边126指示它们是产物分子。
然后,扩展的二分代谢网络100包括分子节点128,其被示出为利用边126连接到过程节点114。输入分子节点102可以是由过程节点114表示的化学反应中的反应物,然后该化学反应产生分子节点128作为产物。边126指示在过程节点114中的哪一个产生分子节点128中的哪一个,以及化学反应的方向。并非所有的分子节点128都可以用于后续的过程节点(未示出)。这可能是由于分子节点128中的一些是未使用或未制成的分子节点。参照图6、7和9-10C进一步详细描述未使用和未制成的分子节点。在一些示例中,分子节点128中的一些可以是化学反应中的反应物,该化学反应产生输入分子节点102作为产物,使得边126导出这些分子节点128并导入过程节点114,并且使得边112中的一些导出过程节点114并导入输入分子节点102。这可能是由于扩展的二分代谢网络100的循环部分和/或分子节点128中的一个是孤立分子节点。参照图5进一步详细描述孤立分子节点。在任何情况下,输入分子节点102、过程节点114和分子节点128之间的关系将在扩展的二分代谢网络100中由诸如边112和126的边指示。
例如,如图1所示,过程A116是生化过程,其产生由边126中的两个单独的边表示的两个输出分子,并且将单个分子(输入锚定1 104)作为输入,输入锚定1 104通过边112中的单个边连接到过程A 116。过程A 116连接到分子节点128中的分子Q 130。过程A 116还通过边126中的第二边连接到分子节点128中的分子T 136。因此,扩展的二分代谢网络100的结构指示代谢内的分子节点和过程节点之间的生化关系。
边112和126可以存储元数据,进一步指定在扩展的二分代谢网络100内,连接的分子在连接的过程中扮演的角色的细节。例如,边112和126包括所连接的分子和过程之间的化学计量平衡。连接过程A 116和分子Q 130的边包括产生分子Q 130的反应的化学计量。边112和126还可以包括化学反应中涉及的酶、辅因子或其他促进分子。边112和126可以包括蛋白质折叠操作以及这些促进分子在细胞中的运动,以及活性位点的速率、位置和数量。附加地或替代地,边112和126存储活化能、吉布斯自由能变化,运动学性质和描述化学反应的本领域已知的其他热力学性质。边112和126可以存储此信息以及与描述化学反应或过程相关的任何其他信息,这些化学反应或过程在扩展的二分代谢网络100内将分子节点从反应物转换为产物。
边112和126具有关联的通量值,通量值是在过程中使用分子节点的速率,然而由于这些边不在代谢的边界处,因此在使用扩展的二分代谢网络的FBA模型中,它们可能无法求解。通过扩展的二分代谢网络100并且在分子节点与过程节点之间的通量方向由边的方向指示。例如,导出过程A 116并导入分子Q 130的边具有关联的通量速率,该通量速率指示过程A 116产生分子Q 130的速率。输入锚定的通量值是二分代谢网络100的输入通量值,并且可以通过二分代谢网络100的数学模拟(诸如,FBA模型模拟)来确定。
F.二分图的输出节点
在扩展的二分代谢网络100内可以有任意数量的分子和过程节点。最终,扩展的二分代谢网络100以输出分子节点140结尾。输出分子节点包括任意数量的输出锚定分子,诸如输出锚定1 142、输出锚定2 144、输出锚定3 146至输出锚定M 148,其中M是扩展的二分代谢网络100的输出分子的总数。如扩展的二分代谢网络100所示,输出分子节点140中的每一个表示代谢的输出。因此,输出分子节点140可以用于代谢下游的细胞过程,存储在细胞内,通过膜转运路径输出和/或代谢外部的细胞中的任何其他用途。这些细胞过程中的每一个都可以具有自己的关联数学模型和模拟。参考图11,更进一步详细描述在全细胞数学模型内代谢外部的细胞过程。
所有输出分子节点140和输出锚定均具有输出通量值解。输出分子节点140的输出通量值解可以通过使用扩展的二分代谢网络100求解FBA模型来确定。扩展的二分代谢网络100中的分子节点的输出通量值解表示该分子在代谢系统的稳定状态下离开代谢网络的速率。分子节点的输出通量可以概念化为分子的代谢“产物”。在一些示例中,所有输出锚定和输出分子节点140的通量值解均非零。在其他示例中,输出分子节点140和输出锚定的子集的输出通量值解为0。
输出分子节点140中的每一个被指定为“锚定”节点。因此,如参照图6-10进一步详细描述的,当简化并缩合扩展的二分代谢网络100时,输出锚定1 142、输出锚定2 144、输出锚定3 146至输出锚定M 148与扩展的二分代谢网络100的其余部分分离。在扩展的二分代谢网络100的给定模拟期间,并非所有输出锚定都需要产生,然而扩展的二分代谢网络100内的至少一个反应路径必须能够产生输出分子节点140作为其最终产物。因此,二分代谢网络中的至少一个边导入输出分子节点140中的每一个。
输入分子节点102、分子节点128和输出分子节点140一起存储在二分图中作为第一集合。它们可以各自存储为阵列,或者以本领域已知的任何其他数据结构存储。输入分子节点102、边112、过程节点114、边126、分子节点128和输出分子节点140被填充到扩展的二分代谢网络100中,作为来自各种来源(诸如,原始文献、数据库、生物化学教科书、会议演讲或任何其他原始来源文献)的分子节点和过程节点。当最初输入到扩展的二分代谢网络100中时,扩展的二分代谢网络100中可能存在冗余,或者分子节点之间的反应路径是死胡同,使得在扩展的二分代谢网络100的稳定状态下,通过该路径的通量为零。
代谢网络内所有分子和过程之间的生化关系因此被转换为边、过程节点和连接的分子节点的结构以形成扩展的二分代谢网络100。为了识别代谢网络的特征,诸如反应路径或死胡同路径的相对重要性,可以分析扩展的二分代谢网络100的结构。具体地,每个分子及其对应的分子节点与其他分子及分子节点的生化关系由进入和离开每个节点的边给出。通过根据进入和离开每个节点的边的数量对分子节点进行分类,可以缩合和简化二分代谢网络100,并且可以识别重要的反应路径。下文参照图2-10C更详细地描述二分代谢网络100内的分子节点的分类。
V、汇合节点
图2是根据一个实施例的代谢网络中的汇合200的图示。如图2所示,节点206是汇合节点。汇合节点是二分图(诸如,二分代谢网络100)中的任何分子节点,其具有多个导入该节点的边和单个导出该节点的边。例如,三个过程节点202各自在导入节点206的边204中具有连接的边。因此,过程节点202中的每一个都是将分子节点206作为产物的化学反应或过程。单个边208导出分子节点206。边208导入过程节点210。边208表示分子节点206作为反应物参与由过程节点210表示的过程。作为示例,将黄嘌呤5'-磷酸(Xanthosine 5’-phosphate,XMP)表示为二分图中的汇合结点,因为它可以通过两个单独的化学反应产生,并被单个反应消耗。
当导入该节点的边的数量大于一且导出该节点的边的数量为一时,二分图中的分子节点被分类为汇合200。通过计算二分图中导入每个分子节点和导出每个分子节点的边的数量,可以在二分图内识别并分类汇合200。
VI、分叉节点
图3是根据一个实施例的代谢网络中的分叉300的图示。如图3所示,节点306是分叉节点。分叉节点是二分图(诸如,扩展的二分代谢网络100)中的任何分子节点,其具有单个导入该节点的边和多个导出该节点的边。例如,边304导出过程节点302并导入分子节点306。因此,边304表示从过程节点302的单个化学反应产生分子节点306。边304是唯一导入节点306的边。多个边308导出分子节点306并导入过程节点310。因此,节点306是由过程节点表示的化学反应中的每一个的反应物。作为示例,UDP葡萄糖在二分图中被表示为一个分叉节点,因为它是由UTP和葡萄糖制成的,但在代谢中的许多下游化学反应中是反应物。
当导入分子节点的边的数量为一且导出分子节点的边的数量大于一时,二分图中的分子节点被分类为分叉300。通过对二分图中导入和导出每个分子节点的节点的数量进行计数,可以识别并分类二分图内的分叉300。
VII、联结(nexus)节点
图4是根据一个实施例的代谢网络中的联结400的图示。如图4所示,节点406是联结。联结400是二分图(诸如,扩展的二分代谢网络100)中的任何分子节点,其具有多个导入该分子节点的边和多个导出该分子节点的边。例如,三个过程节点402中的每一个在导出过程节点并导入分子节点406的边404中具有边。因此,过程节点402中的每一个都是产生分子节点406作为产物的化学反应。分子节点406是由过程节点410表示的三个化学反应中的反应物。边408中的每一个导出分子节点406并导入过程节点410中的一个过程节点。因此,过程节点410中的每一个是化学反应,其中分子节点406是反应物。例如,ATP和其他常见的代谢辅助因子在二分图中将会被表示为联结节点,因为许多反应会产生它,并且许多反应会消耗它。
当导入分子节点的边的数量大于一且导出该分子节点的边的数量也大于一时,二分图中的该分子节点被分类为联结400。通过计算二分图中导入和导出每个分子节点的边的数量,可以识别并分类二分图内的联结400。
VIII、孤立节点
图5是根据一个实施例的代谢网络中的孤立500的图示。如图5所示,节点508是孤立。孤立500是二分图(诸如,二分代谢网络100)中的任何分子节点,其具有单个导入该分子节点的边和单个导出该分子节点的边,并且两个边导入和导出相同的过程节点。这意味着孤立节点既是过程的产品又是过程的反应物。例如,边504导出过程节点502并导入分子节点508。因此,过程节点502是产生分子节点508的单个化学反应。边506导出分子节点508并导入过程节点502。因此,分子节点508是由过程节点502表示的单个化学反应中的反应物。例如,氧化的谷胱甘肽可以在二分图中表示为孤立,因为它是可逆的谷胱甘肽过氧化物酶反应的产物,但是随后未用于下游化学反应。
当导入该分子节点的边的数量为一,导出该分子节点的边的数量为一,且离开节点和进入节点走向相同的过程节点时,二分图中的分子节点被分类为孤立500。通过计算二分图中导入和导出每个分子节点的节点的数量,并检查它们是否连接到相同的第二分子,可以识别并分类二分图内的孤立500。
IX、未使用的节点
图6是根据一个实施例的代谢网络中的未使用的节点600的图示。如图6所示,分子节点606是未使用的节点。未使用的节点是二分图(诸如,扩展的二分代谢网络100)中的任何分子节点,其具有零个导出该节点的边。对于没有边导出未使用的节点的生物学解释是未使用的节点不在任何化学反应或过程中被消耗或使用。例如,过程节点602是产生分子节点606的每个生化过程,如边604所示。边604中的每一个都导出过程节点602中的过程节点并导入分子节点606。然而,分子节点606没有任何从其导出的边,因此它在二分图中不是任何化学反应中的反应物。作为示例,还原的铁氧还蛋白可以在二分图中表示为未使用的节点,因为它是由不可逆反应产生的,并且随后不在代谢内使用。
“未使用”的结果是分子节点606可能导致二分图的某些部分变成死胡同,或者在稳定状态下与零通量值相关联。由于导出未使用的节点的边的数量为零,因此二分图的结构指示该节点未使用,并且通量为零。然而,可能由于分子与代谢之外的其他过程之间的其他连接,或者由于二分图的不准确或不完整,分子节点将具有非零通量,影响其他分子的通量值,和/或影响细胞的整体生长速率。求解通量值以及运行细胞模型的数学模拟将确认这些检查中的每一个。然而,通过分析二分图的结构将分子分类为未使用,在进一步检查之后将分子节点标记为潜在阻断。这些将参考图9B进一步详细描述。
如果未使用的节点实际上具有零通量,则未使用的分子节点606防止其所连接的反应路径跨越从输入锚定到输出锚定的二分图。因此,它所连接的反应路径在稳定状态下没有通过代谢网络的净通量或运动。这会影响连接到未使用的分子节点606的分子节点和过程节点以及边。二分图中未使用的分子节点606影响的节点和边的总数取决于二分图中连接到分子节点606的上游部分的结构。如图6所示,不考虑超过过程节点602的上游反应,但是参考图9A-10C更详细地描述未使用的节点600对上游连接的节点和边的全部影响。在一些示例中,反应路径中未使用的节点600的存在可能导致阻断反应路径。
在中间时间尺度上,可能发生由过程节点602表示的反应,使得它们产生分子节点606。然而,由于分子节点606随后未用于任何反应,所以由过程节点602的反应产生的任何浓度的分子节点606在反应路径中累积浓度,直到其在能量上不再有利于由过程节点602代表的反应的发生。在该示例中,在稳定状态下,至少直接连接到未使用的节点606的边604将具有零通量。这些零通量边604可能导致其他连接的上游反应路径在稳定状态下也具有零通量。例如,如果在二分图中分子节点606上游的节点(诸如,过程节点602)未连接至任何其他反应路径,并且仅涉及引向分子节点606的反应路径,则分子节点606的累积也使这些其他边也具有零通量。参照图9A-10C对此进行更详细的描述。因此,在某些情况下,分子节点606阻断所有连接的上游反应路径(诸如,连接到过程节点602的任何节点和边)。
因为未使用的节点(诸如,分子节点606)导致至少引向未使用的分子节点600的连接边具有零通量,所以在某些情况下,可以将未使用的节点从二分图中阻断,而不影响通过使用二分图的数学模拟确定的通量平衡解。如果分子节点606具有零通量,则由过程节点602表示的化学反应不会在稳定状态下发生。因此,尽管在二分图中存在分子节点606、边604和过程节点602的事实,但是出于在稳定状态下通过代谢网络的通量的目的,它们不会对代谢数学模型的数学解做出贡献,因此是多余的计算和变量,增加了二分图的复杂性。因此,它们可以从二分图和求解通量值解的数学计算中被阻断,而不影响这些解。在阻断未使用的节点之前,可以首先阻断反应路径,并且可以进行多次检查以确认未使用的节点具有零通量,并且不影响整个细胞内的其他分子通量值和/或其他模型。将参考图9B进一步详细描述这些检查。
当节点的输出边的数量为零时,二分图中的分子节点被分类为未使用。导入分子节点的边的数量与未使用的节点的分类无关。通过对二分图中导出每个分子节点的边的数量进行计数,可以识别并表征二分图内的未使用的分子节点600。
X、未制成的节点
图7是根据一个实施例的代谢网络中的未制成的节点700的图示。如图7所示,分子节点702是未制成的节点。未制成的节点是二分图(诸如,扩展的二分代谢网络100)中的任何分子节点,其具有零个导入该节点的边。没有边导入未制成的节点的生物学解释是未制成的结点不是由代谢内的任何化学反应或过程产生的,也不是来自上游细胞过程、细胞内存储或通过来自细胞外部环境的膜转运路径的、代谢的输入。作为示例,D-胭脂碱可以在二分图中表示为未制成的分子节点,因为它被转化为精氨酸和2-酮戊二酸,但在代谢内没有D-胭脂碱的来源。
例如,过程节点706是使用分子节点702作为反应物的化学反应,如边704所示。边704中的每一个导出分子节点702并导入过程节点706。然而,分子节点702没有任何导入其的边,因此在二分图中不是任何化学反应的产物。因此,分子节点702被分类为“未制成”。
“未制成”的结果是分子节点702可能导致二分图的某些部分变成死胡同,例如,在稳定状态下具有零通量值。由于导入未制成的节点的边的数量为零,因此二分图的结构指示该节点是未制成的,并且具有零通量。然而,类似于未使用的节点,可能由于分子与代谢之外的其他过程之间的其他连接,或者由于二分图的不准确或不完整,分子节点将具有非零通量,影响其他分子和过程的通量值,和/或影响细胞的整体生长速率。求解通量值以及运行细胞模型的数学模拟将确认这些检查中的每一个。然而,通过分析二分图的结构将分子分类为未制成,在进一步检查之后,将分子节点标记为潜在阻断。这些将参考图9B进一步详细描述。
如果未制成的节点事实上具有零通量,则未制成的分子节点702防止其所连接的反应路径跨越从输入锚定到输出锚定的二分图。因此,它所连接的反应路径在稳定状态下没有通过代谢网络的净通量或运动。这会影响连接到未制成的分子节点702的分子节点和过程节点以及边。在二分图中未制成的分子节点702影响的节点和边的数量取决于二分图中的下游连接部分的结构。如图7所示,不考虑超过过程节点706的下游反应,但是参考图9A-10C更详细地描述未制成的分子节点702的存在对下游连接的节点和边的全部影响。在一些示例中,反应路径中未制成的分子节点702的存在可能导致阻断反应路径。
如果未制成的分子节点702确实具有零通量,则未制成的分子节点702对如图7所示的二分图的部分的直接影响是,在分子节点702所位于的代谢网络的稳定状态下,连接的边704具有的通量值为零。至少分子节点702和过程节点706之间的反应路径变成二分图的死胡同。在中间时间尺度上,细胞中可能存在由分子节点702表示的某种浓度的分子,并且它们用于由过程节点706表示的反应中。然而,由于分子节点702是未制成的,因此不是在代谢内创建的,也不在稳定状态下作为二分图的输入分子节点(诸如,参照图2进一步详细描述的输入分子节点102)中的一个从外部代谢中接收,由过程节点706表示的反应将不再发生,因为要么不存在分子702,要么在中间时间尺度已经用尽了任何小浓度。因此,边704在稳定状态下具有零通量。取决于二分图的下游结构,边704的零通量可能会影响过程节点706。例如,如果过程节点706连接到具有非零通量值的二分图的其他部分,则它们将会对通量值的计算做出贡献并保留在二分图中。然而,如果过程节点706没有连接到具有非零通量值的二分图的其他部分,则零通量的边704将导致过程节点706也具有零通量。参照图9A-10C更详细地描述未制成的节点700对二分图的较大部分的影响。
由于未制成的节点(诸如,分子节点702)导致至少导出未制成的节点700的连接边具有零通量,因此在某些情况下,可以在二分图中阻断未制成的节点,而不影响通过使用二分图的数学模拟确定的通量平衡解。由于分子节点702具有零通量,所以由过程节点706表示的化学反应不会在稳定状态下发生。因此,尽管在二分图中存在分子节点702和边704的事实,但出于在稳定状态下通过代谢网络的通量的目的,它们不会对代谢数学模型的数学解做出贡献,因此是多余的计算和变量,增加了二分图的复杂性。因此,可以在二分图和求解通量值解的数学计算中阻断它们,而不影响这些解。可以进行多次检查以确认未制成的节点具有零流量,并且不影响整个细胞内的其他分子通量值和/或其他模型。将参考图9B进一步详细描述这些检查。
当节点的输入边的数量为零时,二分图中的分子节点被分类为未制成。导出分子节点的边的数量与未制成的节点的分类无关。通过对二分图中导入每个分子节点的边的数量,可以识别并表征二分图内的未制成的节点700。
XI、免于分类的锚定节点
当将二分图的分子节点分类为未使用的节点600或未制成的节点700时,不考虑二分图中的锚定(诸如,代谢的输入和代谢的输出),并且免于分类为未使用或未制成。这确保了在二分图内不会去除或阻断代谢界面和较大细胞环境中的分子。例如,如图1所示,输入分子节点102不被认为是未制成的节点,输出分子节点140不被认为是未使用的节点。
XII、中间体
图8是根据一个实施例的代谢网络中的中间节点800的图示。如图8所示,分子节点806是中间节点。中间节点是二分图(诸如,扩展的二分代谢网络100)中的任何分子节点,其具有导入该节点的一个边和导出该节点的一个边。中间体的生物学解释是,中间节点的分子仅用作较大反应路径中两个其他过程之间的前体分子。
例如,中间分子节点806具有从过程节点802导入其的单个边804。然后,中间分子节点806具有从其导出并朝向过程节点810的单个边808。因此,中间分子节点806仅用作过程节点802和过程节点810之间的中间、前体分子。虽然中间分子节点806在生物学上可能是实现此所必需的,但出于二分图的基于通量的数学模拟的目的,分子节点806在计算上可能无关紧要,并在数学模型上导致不必要的计算负担。
当在FBA模型中使用二分图模拟代谢时,FBA计算求解代谢网络的目标处的通量值,意思是与输入分子节点102和输出分子节点140相关联的通量值,如图1所示。在二分图中由于中间分子节点800的存在而导致的通量值可能不会对FBA解做出贡献。可以从二分图中去除中间分子节点以缩合反应路径并减少数学模型中的变量的数量。因此,去除中间节点800减轻了数学模拟的计算负担,并且缩合了代谢网络以更好地识别对网络至关重要并且可能是破坏或改变代谢网络的潜在目标的节点。参考图9A-10C描述关于去除中间节点800的进一步的细节。
当节点的输入边的数量为一且分子节点的输出边的数量为一时,二分图中的分子节点被分类为中间节点800。通过对二分图中的导入和导出每个分子节点的边的数量进行计数,可以识别并表征二分图内的中间节点800。XIII、示例代谢网络的简化
图9A是根据一个实施例的代谢网络900的简略图形表示。分别与图11和图12的过程1100和1200同时描述图9A。代谢网络900是二分图数据结构中的代谢网络的图形表示。例如,代谢网络900可以是扩展的二分代谢网络100的图形表示,如参考图1进一步详细描述的。如图9A-10C所示,代谢网络900已经被简化为仅包括分子节点,这是因为简化代谢网络900的决定基于根据图2-8的类别对分子节点进行分类。应当理解,图9A-10C中所示的分子结点之间的边表示生化过程,使得图9A-10C中导入和导出分子结点的边的数量等于过程节点和分子节点的二分图数据结构中导入和导出分子结点的边的数量。图9A-10C的图形表示中的过程节点的简化简单地流线化了代谢网络900的视觉表示。
在1102,过程1100接收二分图数据结构中的代谢网络。这可以是本文所述的代谢网络900,在一些示例中,其是扩展的二分代谢网络100的图形表示,如参照图1进一步详细描述的。在1202,过程1200接收二分图数据结构中的代谢网络。这可以是本文所述的代谢网络900,在一些示例中,其是扩展的二分代谢网络100的图形表示,如参照图1进一步详细描述的。
代谢网络900具有输入锚定902和输出锚定904。输入锚定902在图9A-10C中示出为有界框,表示代谢网络900的锚定输入节点。输入锚定902可以是如图1所示的输入分子节点102,包含输入锚定1 104、输入锚定2 106、输入锚定3 108至输入锚定N 110。输出锚定904在图9A-10C中示出为有界框,表示代谢网络900的锚定输出节点。输出锚定904可以是如图1所示的输出分子节点140,包含输出锚定1142、输出锚定2 144、输出锚定3 146至输出锚定M148。当识别代谢网络900的未使用的、未制成的或中间节点时,不考虑输入锚定902和输出锚定904。在简化代谢网络900之后,在图10A中示出了其余反应途径的特定锚定。
代谢网络900包含多个互连的分子节点(诸如,分子节点904)和多个边(诸如,边906)。代谢网络900是未简化且未缩合的代谢网络,因此可以包含未制成的节点、未使用的节点和中间节点。代谢网络900可以由原始文献、数据库、生物化学教科书、会议报告或任何其他原始来源文献汇编而成。XIV、未使用的节点和未制成的节点对代谢网络的影响
代谢网络中的路径是从输入锚定顺序遍历到输出锚定的所连接的节点和边的有序集合。在代谢网络的二分图中,代谢网络的路径是从输入锚定到输出锚定分子节点的节点和边的有序集合。代谢网络的路径在生物学上表示在将输入锚定分子转化为输出锚定分子时发生的一系列化学反应。如果代谢网络的路径包括未使用的分子节点,则代谢网络的路径由从输入锚定顺序遍历到未使用的分子节点的所连接的节点和边的有序集合组成。因此,具有未使用的分子节点的路径不能从输入锚定到输出锚定完全遍历代谢网络。如果代谢网络的路径包括未制成的分子节点,则代谢网络的路径由从未制成的分子节点顺序遍历到输出锚定的所连接的节点和边的有序集合组成。因此,具有未制成的分子节点的路径将不会从输入锚定到输出锚定完全遍历代谢网络。如果路径同时包含未使用的分子节点和未制成的分子节点,则代谢网络的路径将由从未使用的分子节点顺序遍历到未使用的分子节点的所连接的节点和边的有序集合组成。如果代谢网络的路径包含孤立节点,则该路径既可以从输入锚定或输出锚定开始,也可以在输入锚定或输出锚定结束。
因为未简化的代谢网络900可能包含不影响代谢网络900的数学模拟的通量值解的分子节点,所以与代谢网络900关联的计算可能包含比求解输入和输出锚定分子的通量值解严格需要的方程、约束和变量更多的方程、约束和变量。例如,未使用的分子节点可能导致具有多个分子节点和边的整个反应路径,这些分子节点和边在代谢网络的稳定状态下均具有零通量。反应路径的零通量意味着它不会影响非零通量值解。然而,在计算中,每个分子节点和边都可能贡献变量、方程和约束,这些变量、方程和约束会添加到总体计算中,从而增加计算成本,而最终不会影响稳定状态下的解。因此,可以在对代谢网络900进行分析之后减少和缩合反应路径,从而降低模拟代谢网络900的计算负担。下面进一步详细描述用于识别所有未使用的、未制成的和中间节点并相应地减少代谢网络900的过程。
A.分类
对于代谢网络900中的每个分子节点,通过确定进入每个分子节点的边的数量来确定每个分子节点是其产物的代谢反应的数量。这可以在过程1100的1104处,其中,对于二分图数据结构的每个分子节点,确定每个分子是其产物的代谢反应的第一数量。例如,对于每个分子节点,对导入分子的边的总数进行计数。对于代谢网络900中的每个分子节点,通过确定从每个分子节点出去的边的数量来确定每个分子节点是其反应物的代谢反应的数量。这可以对应于过程1100的1106,其中,对于二分图数据结构的每个分子节点,确定每个分子是其反应物的代谢反应的第二数量。例如,对于每个分子节点,对导出每个分子的边的总数进行计数。
一旦确定了导入和导出每个分子节点的边的总数,就可以基于图2-8中定义的类别对每个分子节点进行分类。每个分子节点的类别可以作为元数据与分子节点一起存储在二分图中。如果将分子节点分类为汇合200、分叉300、联结400或孤立500中的任何一个,则可以存储每个分子节点的类别,并不采取进一步的动作。如果将分子分类为未使用的节点600、未制成的节点700或中间节点800中的任何一个,则仍然可以存储每个分子的类别,但是可以在二分图数据结构中将分子节点标记为潜在的去除或阻断。
如图9A所示,在第一次确定每个分子节点的类别之后,未简化的代谢网络900中的总共六个分子节点被识别为未使用或未制成的节点。如图9所示,未使用的节点908、910和912具有向它们导入的边,但是零个边从它们导出。因此,未使用的节点908、910和912虽然由代谢路径产生,但随后不在化学反应中用作反应物,并且在代谢网络900的稳定状态下可以具有零通量。如图9所示,未制成的节点914、916和918具有导出分子节点的边,但是具有零个导入分子节点的边。因此,未制成的节点914、916和918虽然可以用于下游的代谢路径,但是不在代谢网络内制成,并且在代谢网络900的稳定状态下可以具有零通量。
一旦被分类,未使用的节点908、910和912以及未制成的节点914、916和918的反应路径被识别。未使用的节点(诸如,未使用的节点908、910和912)的反应路径由连接到未使用的节点的所有节点和边以及未连接节点上游的所有连接的节点和边组成,不包括连接的输入锚定。未制成的节点(诸如,未制成的节点914、916和918)的反应路径由连接到未制成的节点的所有节点和边以及未制成节点下游的所有连接的节点和边组成,不包括连接的输出锚定。未使用和未制成的节点的反应路径将在下面进一步详细描述。
B.阻断反应路径
图9B是根据一个实施例的图9A的代谢网络900的阻断的路径的简略图形表示。分别与图11和图12的过程1100和1200同时描述图9B。代谢网络920与图9A的代谢网络900的不同之处在于,被分类为未使用或未制成的分子节点的反应路径被阻断。在第二次迭代每个分子节点的类别之后,由于反应路径被阻断,因此可以识别新的未使用和未制成的分子节点。
代谢网络900的分子节点908、910和912被分类为未使用。结果,在代谢网络920中,分子节点908、910和912的反应路径被阻断。这可以对应于过程1100的1108,其中,响应于确定第一数量的边中没有一个导入分子节点,或者第二数量的边中没有一个导出分子节点,二分图数据结构中连接到分子节点的所有节点和边的第一反应路径被阻断。这也可以对应于过程1200的1204,其中,包含至少一个未使用或未制成的分子节点的每个反应路径被阻断。未使用的节点的反应路径由连接在输入锚定902和未使用的节点之间的所有节点和边组成。分子节点和边是未使用的节点的“上游”,这意味着在二分图中,节点和边的连接集合终止于导入未使用的节点的边。如代谢网络900和920的图形表示所示,“上游”路径在视觉上在未使用的节点的左侧。
阻断代谢网络(诸如,代谢网络920)的反应路径,包括将代谢网络的反应路径从网络的数学模拟取出。可以在二分图中标记阻断的反应路径,以将其识别为潜在的零通量路径。具体而言,阻断的反应路径将仍然存储在二分图数据结构中,因此仍然在代谢网络中“存在”,但不会用于代谢网络的数学模拟。在一些实例中,阻断反应路径包括将零通量值分配给反应路径内的一个或多个边。另外地或可替代地,阻断反应路径包括将零浓度分配给反应路径内的一个或多个分子节点。在这两个示例中,可以将零通量值和/或零浓度值添加到二分图的边和/或节点的元数据中。可以使用在数学上消除节点和边对代谢网络的数学模拟的计算做出的贡献的任何其他方法。
如图9B所示,在将未使用的分子节点910分类之后,连接的路径在阻断的路径924处被阻断以形成代谢网络920。类似地,未使用的分子节点908导致阻断的路径922,而未使用的分子节点912导致阻断的路径928。
在类似的过程中,代谢网络900的分子节点914、916和918被分类为未制成。结果,在代谢网络920中,分子节点914、916和918的反应路径被阻断。这可以对应于过程1100的1108,其中,响应于确定第一数量的边中没有一个导入分子节点,或者第二数量的边中没有一个导出分子节点,二分图数据结构中所有节点和连接到分子节点的边的第一反应路径被阻断。这也可以对应于过程1200的1204,其中,包含至少一个未使用或未制成的分子节点的每个反应路径被阻断。未制成的节点的反应路径由连接在未制成的节点和输出锚点904之间的所有节点和边组成。节点和边是未制成的节点的“下游”,这意味着在二分图中,下游节点和边的连接集合以导出未使用的节点的边开始。如代谢网络900和920的图形表示所示,“下游”路径在视觉上在未使用的节点的右边。
如图9B所示,在对未制成的节点914进行分类之后,连接的路径在阻断的路径926处被阻断以形成代谢网络920。类似地,未制成的节点916导致阻断的路径920,未制成的节点918导致阻断的路径930。
C.检查阻断的路径
为了确定阻断的路径920、922、924、928和930是否对代谢网络的模拟的数学解没有影响,运行检查以确定所识别的阻断的路径是否确实具有通过代谢网络900的零通量。在一些示例中,求解使用包括所有路径的代谢网络900的FBA模拟,并获得被识别为阻断的路径的路径的通量值解集。还获得了其余代谢路径的第一通量值解集。如果用于模拟代谢的数学模型是FBA,则所识别的阻断的路径可能具有精确的0通量值。然而,在用于模拟代谢的数学模型基于ODE、PDE、Monte Carlo方法或依赖于方程组的数值解的任何其他数学模型的情况下,由于模型内的统计和数值近似,所识别的阻断的路径可能没有精确的0通量值。然而,阈值在0以内的通量值被认为具有“零通量”。在获得包括所识别的阻断的路径的代谢网络的通量值的第一集合之后,运行第二次FBA模拟,这次使用代谢网络920,其中所识别的阻断通路在代谢网络和二分图中实际阻断。获得了其余代谢路径的第二通量值解集。在将所识别的阻断的路径从代谢网络900阻断以产生代谢网络920之前和之后,对其余代谢网络的通量值解进行比较。
如果所识别的阻断的路径的通量值在被包括在代谢网络的数学模拟中时为零,并且在被阻断后,其余代谢路径的第一通量值解集在第二通量值解集的阈值内,则所识别的阻断的路径在代谢网络920中保持阻断。如果不满足这些条件中的任一个,或者结果不确定,则阻断的通路解除阻断或返回到二分图中,并且任何所识别的未使用和/或未制成的分子节点和边包括在使用二分图的代谢模型的未来计算中。
在一些示例中,运行附加检查以确定未使用和未制成的节点对整个细胞的影响。整个细胞模型内的代谢网络的示例在图11中示出。例如,可以利用包括在数学模拟中的所识别的阻断的路径来确定细胞的生长速率。阻断这些路径后,可以确定细胞的第二生长速率。如果第一生长速率在第二生长速率的阈值内,则所识别的阻断的路径可以在代谢网络920中保持阻断。然而,如果第二生长速率超出第一生长速率的阈值,则阻断的路径可以返回到二分图中,以使所识别的未使用和/或未制成的分子节点和边包括在使用二分图的代谢模型的未来计算中。
D.分类的多次迭代
阻断代谢网络中的路径可能导致新的未使用或未制成的分子节点的形成。例如,如果一个分子节点只有从其导出的一个边,而该边是阻断的路径的一部分,则阻断该路径将导致该分子节点变成未使用的节点。然而,在分子节点的第一分类中,该分子节点不会被分类为未使用。对于未制成的节点,可能会发生类似的过程。因此,在初始分类并随后阻断反应路径之后,需要后续的分类以确定是否创建了任何新的未使用或未制成的节点。
在阻断路径920、922、924和926之后,通过对导入每个分子节点和导出每个分子节点的边的数量进行计数,再次对代谢网络920的分子节点进行分类。参照图2-8进一步详细描述分类。在一些示例中,该后续分类识别新的未使用或新的未制成的分子节点。例如,如图9B所示,阻断的路径926导致新的未使用的分子节点932和936以及新的未制成的节点934。如上所述,然后这些新的未使用和未制成的节点的反应路径被识别为潜在的阻断的路径,进行检查,并可以保持从代谢网络中去除或返回到代谢网络中。阻断的路径返回到二分图中意味着所有先前被阻断的节点和边解除阻断,从而将它们包括在二分图结构以及使用二分图的代谢模型的未来计算中。该过程可以继续进行,直到在代谢网络内没有新的未使用或未制成的分子节点被识别为止。这可以对应于过程1100的1108,其中,响应于确定第一数量的边中没有一个导入分子节点,或者第二数量的边中没有一个导出分子节点,二分图数据结构中所有分子节点和连接到该分子节点的边的第一反应途径被阻断。这也可以对应于过程1200的1204,其中,包含至少一个未使用或未制成的分子节点的每个反应路径被阻断。
因此,阻断未使用和未制成的分子节点的反应路径的过程可能会减少二分图中的节点和边的数量。通过阻断这些反应路径,可以将与模拟代谢网络900相关的计算简化为影响代谢网络900的通量值解的反应路径。假设如图9B所示阻断的路径以及新的未使用的和新的未制成的分子节点均被确定为具有零通量,并且将它们从代谢网络900中阻断不会改变阈值边界之外的通量值解,那么它们可以在代谢网络920中保持被阻断。随后的代谢网络被示出并参考图10A-10C进一步详细讨论。
XV、去除中间节点
图10A是根据一个实施例的第一简化代谢网络1000的简略图形表示。下面与图12的过程1200同时描述图10A-10B的过程。第一简化代谢网络1000是如图9A所示的代谢网络900,其在所有未使用和未制成的分子节点的反应路径被阻断之后。如图10A所示,阻断的路径已经视觉上从代谢网络920中消除,但是可以保留为二分图中的阻断的路径。此外,其余代谢路径的输入锚定1001、1003、1005在输入锚定902内示出。其余代谢路径的输出锚定1007和1009也在输出锚定904内示出。第一简化代谢网络1000可以表示与原始的未简化的代谢网络900相比计算量的显著减少。然而,通过去除中间分子节点以及代谢路径的随后缩合,可以进一步简化第一简化代谢网络1000。该过程在下面进一步详细地描述,并且可以对应于过程1200的1206,其中,包含至少一个中间分子节点的每个反应路径被缩合。如前面关于图8所描述的,除了定义输入锚定902和输出锚定904之间的反应路径之外,中间分子节点对代谢网络的通量平衡解没有贡献。中间分子节点可以通过用新的边取代它们来去除,该新边通过剩余的过程节点将与中间节点直接相邻的分子节点连接起来,从而保留了反应路径,同时缩合了中间节点及其两个连接的边。
因此,如本文所述,从二分图中去除路径或节点包括通过在二分图中的相邻分子节点之间形成新的边来“短路”该路径或节点。因此,二分图被重新构造,使得中间节点和/或路径不被输入锚定和输出锚定之间的剩余反应路径遍历。
例如,首先通过分析二分图的结构来识别和分类简化代谢网络的中间节点。因此,对于第一简化代谢网络100中的每个分子节点,确定输入边和输出边的数量,并且每个节点根据图2-8中描述的类别进行分类。如第一简化代谢网络100所示,上部反应路径的分子节点A 1002、B 1004、D 1008、E1010、H 1016、I 1018、J 1020、K 1022、M 1026和N 1028均被识别为中间节点,因为这些分子节点中的每一个都有单个导入该节点的边和单个导出该分子节点的边。然后,上部反应路径构成输入锚定1001、分子节点C 1006、分子节点F 1012、分子节点G 1014、分子节点L 1024和输出锚定1007。在底部反应路径中,分子节点O 1030、P1032、S 1038、T 1040、U 1042、X 1048和Y 1050也被识别为底部反应路径的中间节点。然后,底部反应路径构成输入锚定1003、输入锚定1005、分子节点R 1036、分子节点V 1044、分子节点W 1046和输出锚定1009。
XVI、形成新的边
图10B是根据一个实施例的图9A的第一简化代谢网络1000的去除的中间节点的简略图形表示。结果是第二简化代谢网络1051。如图10B所示,去除的中间体是具有中间分子节点的反应路径的部分,如图10A中所分类。对于每个去除的中间分子节点及其相邻的边,绘制边以将紧相邻的分子节点和任何剩余过程节点链接起来。在去除中间分子节点之前,与关于图9A-9B描述的相同的检查程序可以确认去除中间分子节点不影响代谢网络的通量值解。该过程可以对应于过程1200的1206,其中,包含至少一个中间分子节点的每个反应路径被缩合。
例如,如图10A所示,分子节点A 1002和B 1004被分类为中间节点。如在去除的中间体1052处所示,分子节点A 1002和B 1004以及它们的相邻边从代谢网络去除。在输入锚定1001和分子节点C 1006之间创建了新的边1074,中间节点A 1002和B 1004先前已连接。因此,边1074替换了去除的中间体1052,同时保留输入锚定1001和分子节点C 1006之间的反应路径,其保持在上部反应路径中。在二分图中,去除中间节点意味着去除被分类为中间节点的分子节点以及导入该中间节点的边和导出该中间节点的边。在相邻的剩余分子节点之间,形成有效地使中间路径短路的新的边,例如图10B中所示的边1074。尽管如图10B和10C所示新的边是单个边,但是应当理解,在二分数据结构内,可以在剩余分子节点与保持反应路径结构的过程节点之间形成任意数量的边。例如,输入锚定1001和分子节点C 1006之间的边1074可以是将输入锚定1001和分子节点C 1006链接到先前连接到去除的中间体1052的任何过程节点的任何数量的边。
类似地,在去除的中间体1054处,分子节点D 1008及其相邻边从二分图中去除。在去除的中间点1056处,分子节点E 1010及其相邻边从二分图中去除。边1076替换了去除的中间体1054和去除的中间体1056。在去除的中间体1058处,分子节点H 1016和I 1018都从二分图中去除。在去除的中间体1060处,分子节点J 1020和K 1022也都被去除。边1078替换了去除的中间体1058和去除的中间体1060。在去除的中间体1062处,分子节点M1026和N1028被去除。边1080替换了去除的中间体1062。
在底部反应路径中,在去除的中间体1064处,分子节点O 1030和P 1032从二分图中去除。边1082替换了去除的中间体1064。在去除的中间体1066处,分子节点Q 1034被去除,并被边1084替换。在去除的中间体1068处,分子节点S 1038、T 1040和U 1042被去除。边1086替换了去除的中间体1068。在去除的中间体1072处,分子节点X 1048被去除。在去除的中间体1070处,分子节点Y 1050被去除。边1088替换了去除的中间体1072和去除的中间体1070。
A.中间体的迭代分类
在图10A中去除被分类为中间体的分子节点后,可以形成新的中间体。例如,在对剩余分子节点进行分类的第二次迭代之后,新的中间分子节点C1006、F 1012、G 1014和L1024被识别和分类。然后这些新的中间体可以被去除,并被新的边替换,如下面参考图10C所示。可以对其余的分子节点进行分类,并去除任何识别的中间节点,直到找不到新的中间节点为止。例如,如图10B所示,在去除了新的中间节点C 1006、F 1012、G 1014和L 1024之后,在代谢网络内没有新的中间节点形成。该过程可以对应于过程1200的1206,其中,包含至少一个中间分子节点的每个反应路径被缩合。
B.新的边
除了先前连接到去除的中间分子节点的任何过程节点之间的链接之外,新形成的边(在图10B被示为边1074、边1076、边1078、边1080、边1078、边1082、边1084、边1086和边1088)保留并存储它们替换的去除的中间体的元数据。因此,例如,边1086可以存储在分子节点S 1038、T 1040、U 1042以及它们每个的相邻边处存储的全部或一些元数据。存储在边1086中的元数据信息可以保留有关分子节点S 1038和分子节点T 1040之间的化学反应的化学计量的元数据信息,以及分子节点S 1038和T 1040的分子式。将去除的中间体的元数据保留在新形成的边中,使代谢路径减少存储在二分图数据结构中的节点和边的数量,以及与使用二分图的任何数学模拟相关的计算,而不会丢失潜在影响代谢途径的信息。例如,如图10B所示,分子节点B 1004可以从上部代谢路径中去除,但是通过将分子节点B 1004存储在边1074中,分子节点B 1004可以保留为中断或影响输入锚定1001和输出锚定1007之间的代谢途径的潜在目标。
新识别的中间分子节点(分子节点C 1006、分子节点F 1012、分子节点G 1014和分子节点L 1024)类似地从代谢路径中去除,并用新的边替换,新的边可以保留去除的中间路径的元数据。该过程可以对应于过程1200的1206,其中包含至少一个中间分子节点的每个反应路径被缩合。结果在图10C处示出。
XVII、最终简化代谢网络
图10C是根据一个实施例的最终简化代谢网络1090的简略图形表示。图10B中所示的新识别的中间分子结点被去除,并用边1092代替,该边将输入锚定1001和输出锚定1007连接起来。如图10C所示,最终简化代谢网络1084由锚定分子节点和被分类为汇合节点、分叉节点、联结节点或孤立节点之一的分子节点组成,如参照图2-5所描述的。因此,在第一简化代谢网络1000中示出的由十四个分子节点和17个连接的边组成的输入锚定1001和输出锚定10076之间的上部代谢反应路径被简化为单个边1092。连接输入锚定1003和1005与输出锚定1009的下部反应路径从如第一简化代谢网络1000所示的十一个分子节点和十四个边简化为三个分子节点和六个边。
使用最终简化代谢网络1090,可以使用具有稳定状态假设的数学模拟(诸如,代谢的FBA模型)来求解每个锚定分子(输入锚定1001,输入锚定1003,输入锚定1005,输出锚定1007和输出锚定1009)的通量值解。
将最终的简化的代谢网络1090与图9A所示的原始的代谢网络900进行比较,阻断零通量路径的过程以及通过去除中间分子节点来缩合剩余反应路径的过程导致二分图中的分子节点和边的数量显著减少。这转化为与使用这些二分图执行代谢网络900的数学模拟相关的计算的减少。如图9A-10C所示的代谢网络可能比细胞代谢网络中所有分子节点和边的真实表示小几个数量级,并在此描述为分析二分图结构导致复杂性降低的一个示例。然而,将图9A至图10C所示的二分图减小的益处放大几个数量级,可能导致代谢网络的二分图的规模减小50%。
XVIII、全细胞模型中的代谢网络
图13是根据一个实施例的在全细胞模型1300的背景下的代谢网络的框图。在简化二分图代谢网络之后,该网络可以并入全细胞模型中,其中输入分子节点102和输入锚定902与代谢外部的上游细胞过程相接。例如,输入分子节点102和输入锚定902可以源自全细胞模型1300中所示的任何细胞过程子单元,诸如细胞修复子单元1302、复制子单元1304、基因表达子单元1308和/或蜂窝通信子单元1310。类似地,输出分子节点140和输出锚定904与下游细胞过程相接,使得代谢分子的产物是细胞修复子单元1302、复制子单元1304、基因表达子单元1308和/或蜂窝通信子单元1310的输入。因此,与输入分子节点102和输入锚定相关联的输入通量值可以表示代谢网络1306从这些细胞过程吸收分子的速率。与输出分子节点140和输出锚定904相关联的输出通量值类似地可以表示这些细胞过程将代谢产物吸收到它们自己的化学反应的速率。
在阻断被分类为未使用或未制成的分子节点之前,可以确定全细胞模型1300的生长速率。全细胞模型1300的生长速率可以由全细胞模型1300内所有细胞过程中的生物量的变化速率表示。因此,在从二分图中阻断未使用或未制成的分子节点之前,可以运行全细胞模型1300的模拟,并确定生长速率。然后,可以在二分图中阻断未使用或未制成的分子节点及其反应路径。通过运行具有这些节点和阻断的路径的全细胞模型1300的模拟来确定第二生长速率。如果全细胞模型1300的第一生长速率在第二生长速率的阈值内,则未使用或未制成的分子节点在二分图中保持阻断。如果生长速率超出阈值,则阻断的路径和分子节点返回到二分图中,以使这些节点和路径不再被阻断,并包括在代谢模型的未来计算中。当将全细胞模型1300的第一生长速率与具有阻断的路径和分子节点的细胞模型的第二生长速率进行比较时,运行许多模拟。例如,可以对全细胞模型1300和具有阻断的路径和分子节点的模型运行100次模拟。可以比较所得分布的平均值和方差。如果在阻断路径之前和之后的均值和方差彼此相同或在彼此的阈值之内,则路径可以保持阻断。如果均值和方差不相同或相差大于阈值,则阻断的路径可以解除阻断并返回到二分图中。
已经描述了多个实施例。然而,将理解的是,在不脱离本发明的精神和范围的情况下,可以做出各种修改。
应当理解,本公开的附图和描述已经被简化以说明与清楚理解本公开相关的元件,同时为了清楚起见,省去了在典型系统中发现的许多其他元件。本领域普通技术人员可以认识到,在实施本公开时其他元件和/或步骤是期望和/或需要的。然而,因为这样的元件和步骤在本领域中是公知的,并且因为它们不促进对本公开的更好的理解,所以这里不提供对这样的元件和步骤的讨论。本文的公开内容针对本领域技术人员已知的对此类元件和方法的所有此类变型和修改。
上面的描述的某些部分根据算法和信息操作的符号表示来描述实施例。这些算法的描述和表示通常由数据处理领域的技术人员用来将其工作的实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行了描述,但应理解为由计算机程序或等效电路、微代码等实施。
可以单独地或与其他设备组合地用一个或多个硬件或软件模块来执行或实施本文描述的任何步骤、操作或过程。在一个实施例中,用计算机程序产品实施软件模块,该计算机程序产品包括包含计算机程序代码的计算机可读非暂时性介质,计算机程序代码可以由计算机处理器运行以执行所描述的任何或所有步骤、操作或过程。
本发明的实施例还可以涉及通过本文描述的计算过程生产的产品。这样的产品可以包括由计算过程产生的信息,其中该信息被存储在非暂时性的、有形的计算机可读存储介质上,并且可以包括本文描述的计算机程序产品或其他数据组合的任何实施例。
如本文所使用的,对“一个实施例”或“实施例”的任何引用意味着结合该实施例描述的特定元件、特征、结构或特性包括在至少一个实施例中。说明书中各个地方出现的短语“在一个实施例中”不一定都指的是同一实施例。
如本文所使用的,术语“包括”、“包含”、“具有”或其任何其他变型旨在覆盖非排他性包含。例如,包括一系列元素的过程、方法、物品或设备不一定仅限于那些元素,而是可以包括未明确列出的或此类过程、方法、物品或设备固有的其他元素。此外,除非另有明确相反的声明,否则“或”是指包含性的“或”而不是排他性的“或”。例如,条件A或B由以下任一项满足:A为真(或存在)且B为假(或不存在),A为假(或不存在)且B为真(或存在),以及A和B均为真(或存在)。
此外,使用“一个”或“一种”来描述本文的实施方式的元件和组件。这样做仅仅是为了方便并给出本发明的一般意义。该描述应被理解为包括一个或至少一个,并且单数也包括复数,除非很明显它另有含义。
尽管已经图示和描述了特定的实施例和应用,但是应当理解,所公开的实施例不限于本文所公开的精确构造和组件。在不脱离所附权利要求书所限定的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员而言显而易见的各种修改、改变和变化。

Claims (17)

1.一种用于分析二分图数据结构以缩合代谢网络的反应路径的方法,包括:
接收二分图数据结构中的代谢网络,包括:
多个分子节点,其中,每个分子节点包括代谢反应中的分子;
多个边,连接所述多个分子节点中的至少两个分子节点,其中,每个边导出第一分子节点并导入第二分子节点表示其中第一分子是反应物且第二分子是产物的代谢反应;
对于所述二分图数据结构中的每个分子节点,基于导入每个分子节点的边的第一数量,确定每个分子是其产物的代谢反应的第一数量;
对于所述二分图数据结构中的每个分子节点,基于导出每个分子节点的边的第二数量,确定每个分子是其反应物的代谢反应的第二数量;以及
响应于确定所述第一数量的边中没有一个导入第三分子节点,或所述第二数量的边中没有一个导出所述第三分子节点,阻断所述二分图数据结构中连接到所述第三分子节点的所有分子节点和边的第一反应路径。
2.根据权利要求1所述的方法,还包括:
响应于阻断所述二分图数据结构中连接到所述第三分子节点的所有分子节点和边的第一反应路径:
在所述代谢网络的稳定状态下,接收所述第一反应路径中的第一通量值;以及
如果在所述稳定状态下所述第一通量值低于通过所述第一反应路径的阈值通量,则从所述二分图数据结构中阻断所述第一反应路径。
3.根据权利要求2所述的方法,还包括:
在所述代谢网络的稳定状态下,接收第二反应路径的第二通量值;
在所述代谢网络的稳定状态下,接收所述第二反应路径的第三通量值;以及
响应于确定所述第三通量值在所述第二通量值的阈值之外,将所述第一反应路径返回到所述二分图数据结构。
4.根据权利要求2所述的方法,还包括:
响应于从所述二分图数据结构中阻断所述第一反应路径,将所述第一反应路径存储在补充二分图数据结构中。
5.根据权利要求1所述的方法,还包括:
响应于确定导入所述第二分子节点的边的所述第一数量的是一,并且导出所述第二分子节点的边的所述第二数量的是一,从所述二分图数据结构中去除所述第二分子节点。
6.根据权利要求5所述的方法,还包括:
响应于从所述二分图数据结构中去除所述第二分子节点,用至少一个新的边替换所述第一分子节点和连接到所述第二分子节点的第四分子节点。
7.根据权利要求6所述的方法,还包括:
将第二分子节点的信息存储在所述第一分子节点与所述第四分子节点之间的所述至少一个新的边内。
8.根据权利要求1所述的方法,还包括:
将所述二分图数据结构中的每个分子节点分类为以下各项中的一个:汇合节点、联结节点、分叉节点、孤立节点、未使用的节点、未制成的节点或中间节点。
9.根据权利要求1所述的方法,还包括:
确定导入每个分子节点的边的所述第一数量和导出每个分子节点的边的所述第二数量,直到所述二分图数据结构中的所有分子节点包含至少三个连接的边的总和,或者接收指示在所述代谢网络的稳定状态下通过反应路径的零通量的通量值。
10.根据权利要求1所述的方法,还包括:
在所述代谢网络的数学模拟中,接收使用所述二分图数据结构的细胞模型的生长速率。
11.根据权利要求10所述的方法,其中,所述代谢网络的数学模拟至少部分基于通量平衡分析(FBA)模型。
12.一种使用二分图的结构来识别和缩合具有非零通量解的代谢网络的反应路径的方法,包括:
接收二分图数据结构中的代谢网络,其中,所述代谢网络中的每个反应路径包括所述二分图数据结构中的至少一个分子节点和连接到所述至少一个分子节点的至少一个边;
对于所述二分图数据结构中的每个反应路径:
阻断包含至少一个未使用的分子节点或未制成的分子节点的每个反应路径;
缩合包含至少一个中间分子节点的每个反应路径,
如果导出分子节点的边的数量为零,则将所述分子节点分类为未使用的分子节点,
如果导入分子节点的边的数量为零,则将所述分子节点分类为未制成的分子节点,以及
如果导入分子节点的边的第一数量为一且导出所述分子节点的边的第二数量为一,则将所述分子节点分类为中间分子节点。
13.根据权利要求12所述的方法,其中,缩合包含至少一个中间分子节点的每个反应路径还包括:
去除所述中间分子节点;
在所述二分图数据结构中的前一个分子节点和后一个分子节点之间形成缩合的边。
14.根据权利要求12所述的方法,还包括:
响应于阻断包含至少一个未使用的分子节点或未制成的分子节点的每个反应路径,在所述代谢网络的稳定状态下接收第一反应路径中的第一通量值,其中,所述第一反应路径包含至少一个未使用的分子或未制成的分子;以及
如果所述第一通量值指示在所述代谢网络的稳定状态下没有通过所述第一反应路径的运动,则从所述二分图数据结构中阻断所述第一反应路径。
15.根据权利要求14所述的方法,还包括:
在阻断包含至少一个未使用的分子节点或未制成的分子节点的每个反应路径之前,在所述代谢网络的稳定状态下接收第二反应路径中的第二通量值;
响应于从所述二分图数据结构中阻断所述第一反应路径,在所述代谢网络的稳定状态下接收所述第二反应路径的第三通量值;以及
响应于确定所述第三通量值在所述第二通量值的阈值之外,将所述第一反应路径返回到所述二分图数据结构中。
16.一种非暂时性计算机可读存储介质,包含在处理器上可运行的、用于分析二分图数据结构以缩合代谢网络的反应路径的计算机程序代码,所述计算机程序代码用于:
接收二分图数据结构中的代谢网络,包括:
多个分子节点,其中,每个分子节点包括代谢反应中的分子;
多个边,连接所述多个分子节点中的至少两个分子节点,其中,每个边导出第一分子节点并导入第二分子节点表示第一分子是反应物且第二分子是产物的代谢反应;
对于所述二分图数据结构中的每个分子节点,基于导入每个分子节点的边的第一数量,确定每个分子是其产物的代谢反应的第一数量;
对于所述二分图数据结构中的每个分子节点,基于导出每个分子节点的边的第二数量,确定每个分子是其反应物的代谢反应的第二数量;以及
响应于确定所述第一数量的边中没有一个导入第三分子节点,或所述第二数量的边中没有一个导出所述第三分子节点,阻断所述二分图数据结构中连接到所述第三分子节点的所有分子节点和边的第一反应路径。
17.根据权利要求16所述的计算机可读存储介质,还包括:
确定导入每个分子节点的边的所述第一数量和导出每个分子节点的边的所述第二数量,直到所述二分图数据结构中的所有分子节点包含至少三个连接的边的总和,或者接收指示在所述代谢网络的稳定状态下通过反应路径的运动的通量值。
CN201880087406.4A 2018-01-22 2018-12-17 分析和优化代谢网络的方法 Active CN111684531B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/876,962 US11024403B2 (en) 2018-01-22 2018-01-22 Method for analyzing and optimizing metabolic networks
US15/876,962 2018-01-22
PCT/US2018/066036 WO2019143434A1 (en) 2018-01-22 2018-12-17 Method for analyzing and optimizing metabolic networks

Publications (2)

Publication Number Publication Date
CN111684531A CN111684531A (zh) 2020-09-18
CN111684531B true CN111684531B (zh) 2023-09-29

Family

ID=65024021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880087406.4A Active CN111684531B (zh) 2018-01-22 2018-12-17 分析和优化代谢网络的方法

Country Status (4)

Country Link
US (1) US11024403B2 (zh)
EP (1) EP3743917B1 (zh)
CN (1) CN111684531B (zh)
WO (1) WO2019143434A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798933B (zh) * 2020-06-23 2024-03-01 苏州浦意智能医疗科技有限公司 一种基于深度学习的分子对接判别方法
CN112435715B (zh) * 2020-11-12 2024-03-22 中国科学院深圳先进技术研究院 代谢路径预测方法、装置、终端设备及存储介质
CN114927173B (zh) * 2022-04-06 2024-03-05 西北工业大学 基于标签相关性和图表示学习的代谢路径预测方法
CN115062567B (zh) * 2022-07-21 2023-04-18 北京芯思维科技有限公司 图数据中邻接节点集合的缩合操作方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148717A (zh) * 2010-02-04 2011-08-10 明仲 一种二分网络中社团检测方法及装置
CN102663272A (zh) * 2012-03-14 2012-09-12 天津大学 氧化葡萄糖酸杆菌的基因组尺度代谢网络构建和分析方法
CN102663924A (zh) * 2012-04-06 2012-09-12 江南大学 一种树干毕赤酵母基因组规模代谢网络模型构建及分析方法
CN103843000A (zh) * 2011-08-26 2014-06-04 菲利普莫里斯生产公司 用于表征拓扑网络扰动的系统和方法
EP2869209A1 (en) * 2013-11-05 2015-05-06 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Subgraph covers as representations for sparse graphs
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法
WO2017027559A1 (en) * 2015-08-10 2017-02-16 Massachusetts Institute Of Technology Systems, apparatus, and methods for analyzing and predicting cellular pathways
CN106934253A (zh) * 2011-06-10 2017-07-07 菲利普莫里斯生产公司 用于基于网络的生物活动评价的系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100225650A1 (en) * 2009-03-04 2010-09-09 Grzybowski Bartosz A Networks for Organic Reactions and Compounds
WO2014015196A2 (en) 2012-07-18 2014-01-23 The Board Of Trustees Of The Leland Stanford Junior University Techniques for predicting phenotype from genotype based on a whole cell computational model

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148717A (zh) * 2010-02-04 2011-08-10 明仲 一种二分网络中社团检测方法及装置
CN106934253A (zh) * 2011-06-10 2017-07-07 菲利普莫里斯生产公司 用于基于网络的生物活动评价的系统和方法
CN103843000A (zh) * 2011-08-26 2014-06-04 菲利普莫里斯生产公司 用于表征拓扑网络扰动的系统和方法
CN102663272A (zh) * 2012-03-14 2012-09-12 天津大学 氧化葡萄糖酸杆菌的基因组尺度代谢网络构建和分析方法
CN102663924A (zh) * 2012-04-06 2012-09-12 江南大学 一种树干毕赤酵母基因组规模代谢网络模型构建及分析方法
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法
EP2869209A1 (en) * 2013-11-05 2015-05-06 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Subgraph covers as representations for sparse graphs
WO2017027559A1 (en) * 2015-08-10 2017-02-16 Massachusetts Institute Of Technology Systems, apparatus, and methods for analyzing and predicting cellular pathways

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. Miyak 等.A graph analysis method to detect metabolic sub-networks based on phylogenetic profile.《2004 IEEE Computational Systems Bioinformatics Conference》.2004,全文. *
Vassily Hatzimanikatis 等.Analysis and design of metabolic reaction networks via mixed-integer linear optimization.《Systems Engineering》.1996,全文. *
何胜 等.一种由代谢方程构建网络的方法及其实现.《计算机与应用化学》.全文. *

Also Published As

Publication number Publication date
EP3743917A1 (en) 2020-12-02
EP3743917B1 (en) 2021-07-14
US20190228130A1 (en) 2019-07-25
US11024403B2 (en) 2021-06-01
WO2019143434A1 (en) 2019-07-25
CN111684531A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111684531B (zh) 分析和优化代谢网络的方法
Saelens et al. A comparison of single-cell trajectory inference methods
CN107818141B (zh) 融入结构化要素识别的生物医学事件抽取方法
US8200589B2 (en) System and method for network association inference, validation and pruning based on integrated constraints from diverse data
Zanga et al. A survey on causal discovery: Theory and practice
Titov et al. Constituent parsing with incremental sigmoid belief networks
CN113011191A (zh) 一种知识联合抽取模型训练方法
Moutinho et al. Quantum link prediction in complex networks
Balaji et al. Text Summarization using NLP Technique
Cairoli et al. Abstraction of Markov population dynamics via generative adversarial nets
Zhao et al. Safe semi-supervised classification algorithm combined with active learning sampling strategy
Tikka et al. Sequential input selection algorithm for long-term prediction of time series
CN114360637A (zh) 一种基于图注意力网络的蛋白质-配体亲和力评价方法
Gunawardena et al. DCCNMF: Deep Complementary and Consensus Non-negative Matrix Factorization for multi-view clustering
Bellot Pujalte Study of gene regulatory networks inference methods from gene expression data
Zhang et al. msiDBN: a method of identifying critical proteins in dynamic PPI networks
Simões et al. EvoPhylo: An r package for pre‐and postprocessing of morphological data from relaxed clock Bayesian phylogenetics
Gutiérrez-Vargas et al. Modeling preference heterogeneity using model-based decision trees
Sharma Classification and Regression Trees: The use and significance of Trees in analytics
Lachaud et al. Scalable Missing Data Imputation With Graph Neural Networks
Noè et al. Ancestral causal learning in high dimensions with a human genome-wide application
Ozoh et al. Appraisal of Predictive Techniques using Computational Methods
Bettisworth Uncommon Problems in Phylogenetic Inference
Li et al. Objective Bayesian analysis of Weibull mixture cure model
Liang DEEP LEARNING FOR STATISTICAL DATA ANALYSIS: DIMENSION REDUCTION AND CAUSAL STRUCTURE INFERENCE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant