CN1836234A - 用于生物化学信息的信息管理系统 - Google Patents

用于生物化学信息的信息管理系统 Download PDF

Info

Publication number
CN1836234A
CN1836234A CNA2004800232855A CN200480023285A CN1836234A CN 1836234 A CN1836234 A CN 1836234A CN A2004800232855 A CNA2004800232855 A CN A2004800232855A CN 200480023285 A CN200480023285 A CN 200480023285A CN 1836234 A CN1836234 A CN 1836234A
Authority
CN
China
Prior art keywords
mentioned
variable
approach
ims
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800232855A
Other languages
English (en)
Inventor
佩尔泰利·瓦尔佩拉
梅利斯·科尔默
塔尔莫·佩利卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Medicel Oy
Original Assignee
Medicel Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Medicel Oy filed Critical Medicel Oy
Publication of CN1836234A publication Critical patent/CN1836234A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种用于管理生物化学信息(200)的信息管理系统。该生物化学信息(200)包括数据集(202),并且每个数据集包括一个变量值矩阵,其包含按行和列组织的变量值;上述变量值矩阵中的行的行描述列表,其使用一种变量描述语言;上述变量值矩阵中的列的列描述列表,其使用该变量描述语言;以及对上述变量值矩阵中的所有值公共的一个或多个定维的定维描述,其使用该变量描述语言。通过将上述数值存储为一个标量矩阵可以获得的一个益处是,可以用许多例如自组织图或者其他聚类算法的商业上可得到的数据挖掘工具对上述矩阵进行分析,这些工具不容易处理有量纲的值。

Description

用于生物化学信息的信息管理系统
技术领域
本发明涉及一种用于管理生物化学信息的信息管理系统(缩写为“IMS”)。
背景技术
生物化学研究以任何科学学科中从未见过的速度带来了大量的数据。在本发明下的一个问题涉及对大量的快速变化信息进行组织的困难。IMS系统可以是自由形态的或者结构化的。一个众所周知的自由形态的IMS的例子是研究机构的局域网,其中信息制作者(研究员等)能够利用例如字处理器、电子数据表、数据库等等的任何一般可得到或者专有的应用程序,以任意格式输入信息。一个结构化的IMS是指一个具有系统范围规则用于在一个统一的数据库中存储信息的系统。
一个结构化的IMS的一个问题在于它不能容纳新的类型的信息,或者输入新的类型的信息可能需要各种绕过(work-around)技术。另一方面,一个自由形态的IMS遭受需要外部知识来解释已存储的信息的缺点。例如,这意味着一个实验的文档包含数值,但这些数值的完整意义和/或上述实验的安排没有包括在上述文档中。或者,如果上述实验被完全记录,则上述文档可能会非常长并且不清楚。
发明内容
本发明的一个方面是提供一个信息管理系统(后面缩写为“IMS”)以缓解上面的缺点。该IMS应该是逻辑上完整的,以便只需尽可能少的外部信息来解释包含在上述IMS中的信息。另外,包含在上述IMS中的信息应该是结构化的,以便上述信息能够被种类繁多的信息处理工具访问。
本发明的目标通过一个IMS实现,在独立权利要求中声明了该IMS的特征。在从属权利要求中公开了本发明的优选实施方式。
一个根据本发明的IMS可以被用来存储有关其他生物材料的种群、个体、试剂或者样本(任何可以作为生物学/生物化学系统或者它的部分来研究的事物)的信息。该IMS最好包括一个实验数据库。一个实验可以是现实的实验(wet lab)或者模拟的实验(“in-silico”)。根据本发明,两种实验类型产生结构上相似的变量数据集,每个变量数据集包括:
-一个用于以行-列组织描述变量值的变量值矩阵;
-上述变量值矩阵中的行的行描述列表,其使用一种变量描述语言;
-上述变量值矩阵中的列的列描述列表,其使用一种变量描述语言;以及
-对上述变量值矩阵中所有值公共的一个或多个定维的定维描述,其使用一种变量描述语言。
每个实验的数值最好以标量(无量纲的)数存储在一个具有行-列组织的变量值矩阵中。这种标量数的行-列矩阵可以进一步被种类繁多的现成或者专有应用程序处理。具有单独的行和列描述列表,用于分别描述上述变量值矩阵中行和列的意义。一个单独的定维描述描述了对上述变量值矩阵中所有值公共的定维。为了将任意变量值链接至IMS的结构化信息,上述行和列描述列表以及定维描述以一种变量描述语言记录。
通过使用上述变量描述语言(=VDL)获得的一个益处是,IMS在很大程度上是自给自足的。需要很少或不需要外部信息来解释上述数值。而且,强制执行对变量表达式的自动语法检查是一个相对简单的任务。上述VDL的一个基本特征是它允许以不同的详细等级的变量描述。例如,上述VDL可以描述根据变量(例如计数、质量、浓度)、单位(例如条、千克、摩尔/升)、生物化学实体(例如特定的转录物、特定的蛋白质或者特定的化合物)量化的事物。上述VDL也能够指定一个特定的量化有效的位置。该位置可以用多级-位置等级体系中的生物材料术语来表示(例如环境、种群、个体、试剂、样本、有机体、器官、组织、细胞类型)。上述VDL也能够指定绝对的和相对的时间和时间间隔。因此上述VLD事实上能够表示任何类型的生物化学信息。另一方面,在所给出的上下文中多余的细节可以省略。
XML(可扩展标记语言)是一种众所周知的可用作变量描述语言的语言的例子。然而,XML的一个问题是,它事实上意在描述任何类型的结构化信息,这导致了对于人类可读性较差的冗长的表达式。因此,本发明的一种优选的实施方式涉及一种变量描述语言,该语言相对于XML更适合于描述生物化学变量。而且,以XML和它的生物化学或者数学的变型,例如SBML(系统生物学标记语言)或者CellML(细胞标记语言)或者MathML(数学标记语言)的表达式,当作为用于描述在数学模型中的生物化学变量的自文档化符号使用时,它们通常是太长或者太复杂。因此,本发明的另一种优选实施方式包括一种简洁但可扩展的VDL,其克服了XML和它的变型的问题。
通过将数值存储为标量矩阵获得的益处是,可以利用许多例如自组织图或者其他聚类算法的商业上可得到的数据挖掘工具对该矩阵进行分析,这些工具不容易处理有纲量的值。因此,行和列的描述被分开存储。通过使用一个第三列表即定维描述可以获得的益处是,对行和列公共的维数不需要被复制到行和列的描述列表。
通过将每个数据集(每个数据集包括一个变量值矩阵、行和列描述列表以及一个定维描述)存储为数据容器,并且在一个数据库中只存储该容器的地址或标识符,可以提高IMS的处理速度。假定SQL(结构化查询语言)或者其他数据库查询被用来取回上述数据集,上述单一容器方法显著地减少了由SQL查询将处理的个体数据项的数量。当需要个体数据元素时,可以利用例如电子数据表或平面文件数据库系统的合适的工具对整个容器进行处理。然而,基于SQL的实现是一种内部地表示这种数据集的有利的方式,特别是当数据是稀疏的或者存在冗余的变量描述时,可以通过在一个适当的数据表中只存储一次每个数据项来有效地存储它们。
根据本发明的变量数据集的另一个优点是很好的支持了明确定义的上下文。上下文定义了一个实验的范围,wet-lab或者in-silico。每一个上下文根据生物材料、变量和时间来定义。
根据本发明的另一种优选实施方式,上述IMS还包括一个包含对象或表的生物化学实体数据库。上述变量描述语言包括变量描述,每个变量描述包括一对或多对关键词和名称。对于上述生物化学实体数据库的每个对象或表,有一个参考该对象和表的关键词。这种实施方式方便了对将被存储的信息的自动语法或者其他检查。
本发明的另一个方面是一个用来存储生物途径的结构化描述的数据库,该生物途径至少由途径、生物化学实体、联系和相互作用构成,其中:
-每个途径与一个或多个联系具有关系;
-每个联系将一个生物化学实体和一个相互作用连接起来;并且
-每个途径与一个特定的位置指示具有关系。
每个相互作用最好与一个或多个反应动力学规律具有关系。
IMS最好包括一个用于将多个预先确定的角色指示之一与每个联系关联起来的逻辑例行程序。这个已关联的角色指示指示了在上述相互作用中生物化学实体的角色,而这多个预先确定的角色包括基质、产物、催化剂和抑制剂。
IMS最好包括一个用于将一个化学计算系数与每个联系关联起来的逻辑例行程序,其中该化学计算系数指示了在上述相互作用中所消耗或所产生的生物化学实体的分子数量。
上述特定的位置指示最好包括一个多级别的位置等级体系,其中一个生物化学实体的位置被明确地表示并且独立于该生物化学实体。相反,许多系统通过如“鼠科P53”的简单文本串联来含蓄地存储位置信息,其中上述生物化学实体的名称包含一个含蓄的位置指示(老鼠)。
此外,IMS最好包括一个用户接口逻辑,用于示出生物途径的结构化描述的视图。该用户接口逻辑最好包括用于示出生物化学途径的生物化学实体、相互作用和/或联系上的被测或者被扰动的变量的视图的装置。
为了管理大规模的和/或相互联系的途径,IMS最好包括用于将多个途径组合成复杂途径的途径联系。
在另一种优选的实施方式中,IMS包括一个方程生成逻辑,用于为多个生物化学实体中的每一个自动地产生一个方程,其中每个方程基于途径、联系、相互作用和反应动力学规律,描述了上述生物化学实体的定量变量的改变,并且其中上述方程生成逻辑可用来通过组合所有与上述生物化学实体相关联的流量产生方程。上述方程可以像一个微分方程和/或差分方程一样描述上述变化。
为了处理包含噪声(随机波动等)的信号,上述方程包括一个或多个噪声变量。
IMS最好包括一个模拟逻辑,该逻辑用上述方程和一组初始和/或边界条件来模拟途径。
为了取回与一种例如基因的自抑制机制的特定模式相匹配的途径,IMS最好包括一个模式匹配逻辑。该模式匹配逻辑最好包括用于取回包含循环的途径的装置。该模式匹配逻辑也可以取回与一种特定模式相匹配的途径,其中这种特定模式参考基因本体。
IMS最好包括一个用户接口逻辑,用于示出相互联系的数据集之间的数据踪迹。
本发明的另一个方面是一个自动的途径繁殖逻辑,用于在一个数据库中自动地繁殖(populating)生物化学信息,通过:
-接收来自一个或多个序列数据库的基因信息,其中该基因信息与一个基因的标识符和该基因的编码区域相关联;以及
-从上述基因信息自动地生成生物化学途径。
上述基因信息可以包括基因和产物,并且IMS包括一个确定上述基因和产物之间的中间步骤的逻辑。
上述自动途径繁殖逻辑可以接收一个基因和蛋白质对的描述,并且上述中间步骤包括一个如生物化学实体的转录物;从上述基因到上述转录物的转录相互作用;以及从上述转录物到上述蛋白质的翻译相互作用。
为了避免重复信息,上述途径繁殖逻辑最好检查一个相似的蛋白质是否已经被存储在上述数据库中。因为不同的用户可以给予一个蛋白质多个不同的名称,所以一种简单的基于名称的检查是不够的。替代的,一种优选的检查基于包含在上述蛋白质中的一个或多个氨基酸序列。
IMS最好包括一个用户接口逻辑,用于提供自动地生成的生物化学途径以由用户完成。
本发明的另一个方面是一个用于位置信息的明确的数据元素。用于位置信息的数据元素最好是分等级的。一个优选的等级体系包括五个等级的递增详细:有机体-器官-组织-细胞类型-细胞区室。
另一种优选的实施方式通过存储等级体系的一个第六等级,即细胞区室内的空间点来增加详细等级。因为细胞的形状变化,所以表示一个细胞或者细胞区室内的空间点并不是无关重要的任务。一些细胞象球体,一些看起来像砖块等等。对于这样的细胞,可以分别使用极坐标系或笛卡儿坐标系。但是一个简单的极坐标或者笛卡儿坐标系对于形状极其复杂的神经细胞来说是明显不够的。因此,IMS最好存储多个空间参考模型,并且上述空间点被表示为一个特定的参考模型的相应区域。上述位置信息甚至可以是一个特定参考模型、该特定模型内的一个区域加上这个区域内的一个坐标集的组合。
因为上述位置信息是分等级的,与一些含蓄地存储位置的系统相反,IMS容忍例如“鼠科P53”的不完整的信息作为每个生物化学实体的名称的一部分。当获得一条新的生物化学信息时,我们能够存储与该实验相匹配的位置信息,其中该条信息从该实验得到。之后,当获得更多的信息时,上述位置信息能够进一步被归纳或者指定。
本发明的另一个方面是一种IMS,用于无论什么情况下,根据相同的数据元素来描述上述生物化学信息和生成这些信息的实验。换句话说,无论什么情况下,用于生物化学信息的数据结构和用于实验的数据结构参考同样的数据元素。例如,用于实验的数据结构参考了一个输入数据元素和一个输出数据元素,这两个元素可以是特定的生物材料样本。根据本发明,上述用于生物化学信息的数据结构使用同样的数据元素来描述上述生物材料样本。
在用于生物化学信息的数据结构和用于实验的数据结构之间共享公共的数据元素可以带来某些益处。例如,实现一个完整的跟踪系统是一个相对简单的任务,该系统能够跟踪每条生物材料或者每条生物化学信息的历史。而且,这样一种IMS支持许多类型的产量分析。例如,本发明的一种优选实施方式涉及一种根据联系和相互作用来描述生物化学途径的特定方法。该IMS可以通过跟踪每种资源(时间、人、资金等等)所增加的连接数量来监视产量。
本发明的一种优选实施方式包括一个用于管理具有如下结构的项目数据库的项目编辑器。该项目数据库可用来存储多个项目。每个项目包括一个或多个实验。每个实验涉及一种用于从一个实验输入产生一个实验输出的特定方法。另外,每个实验最好指定人力和/或者实验资源。实验输入和实验输出都被指定为生物材料(wet-lab)或者数据实体(in-silico)。上述方法涉及一种方法描述。最好也有一个被相似地指定为生物材料或者数据实体的实验目标。
附图说明
下面将借助于参考了附图的优选实施方式来更详细的描述本发明,其中
图1是一个可以使用本发明的IMS的框图;
图2是IMS的一个数据结构的实体-关系模型;
图3A和3B示出了优选的变量描述语言,或者VDL;
图3C示出了在VDL中的变量表达式的语法检查过程;
图4示出了在VDL中的复合变量表达式的例子;
图5示出了VDL如何被用来表示不同的数据上下文;
图6A到6C示出了根据本发明的各种优选实施方式的数据集;
图7A是存储在IMS中的途径的框图;
图7B示出了包含简单途径的复杂途径的例子;
图7C示出了涉及模拟和布尔流率方程的途径的例子;
图8示出了一条途径的可视化形式;
图9A示出了在IMS的实验部分中的实验对象;
图9B示出了根据一组期望的结果项目计划的创建;
图10示出了IMS的生物材料部分的基于对象实现的例子;
图11A和11B根据两个例子说明了数据的可跟踪性;
图12A示出了用于描述和管理IMS中复杂工作流的信息-实体关系。
图12B示出了包括一个在客户端终端执行的图形化工作流编辑器的客户端-服务器体系架构。
图12C示出了工作流编辑器如何将工作流表示成工具和数据实体的网络,这些数据实体是工具的输入或者输出;
图12D示出了图12A中所示的信息-实体关系的增强形式;
图13示出了用于工作流管理器的示范的用户接口;
图14A到14C示出了从基因序列数据库的途径的自动繁殖过程;
图15示出了各种细胞类型的空间参考模型;并且
图16A到16E示出了与搜索匹配途径相匹配的模式。
具体实施方式
图1是本发明可以在其中使用的信息管理系统IMS的简化框图。在这个例子中,IMS实现为客户端/服务器系统。多个例如图形工作站的客户端终端CT,经由一个例如局域网或者互联网的网络NW访问一个服务器S(或者服务器组)。该服务器包括或者连接至一个数据库DB。上述服务器内的信息处理逻辑和上述数据库内的数据构成了IMS。上述数据库DB由结构和内容组成。本发明的一种优选实施方式提供了对上述IMS的数据库DB的结构的改进。上述服务器S还包括各种处理逻辑。一个通信逻辑提供用于与上述客户端终端通信的基本服务器功能。最好有一个用于创建各种用户接口的用户接口逻辑。可以有各种检查用于检查即将被输入的数据的意义(例如语法或者范围检查)。一个非常有用的特征是一个项目管理器,该管理器具有提供数据的视觉跟踪的跟踪逻辑。
上述服务器(或者服务器组)S也包括各种用于数据分析、可视化、数据挖掘等等的数据处理工具。把上述数据集存储为以行-列组织的容器(代替通过SQL查询来对每个数据项单独寻址)的一个益处是,能够利用商业上可得到的分析或者可视化工具来轻易地处理这些行和列的数据集。在描述实际发明的实施方式之前,也就是,用于管理工作流和软件工具的IMS之前,将结合图2到11B描述用于描述生物化学数据的优选实施方式。将结合图12A到18描述用于管理工作流和软件工具的IMS的详细实施方式。
数据集
图2是上述IMS的一个数据库结构200的实体-关系模型。该数据库结构200包括以下主要部分:基本变量/单位204、数据集202、实验208、生物材料210、途径212以及可选的,位置214。
数据集202描述了存储在上述IMS中的数值。每个数据集由变量集、生物材料信息和时间组成,其被组织成:
-一个用于以行-列组织描述变量值的变量值矩阵;
-上述变量值矩阵中的行的行描述列表,其使用一种变量描述语言;
-上述变量值矩阵中的列的列描述列表,其使用一种变量描述语言;以及
-对在上述变量值矩阵中的所有值公共的一个或多个定维的一个定维描述,其使用一种变量描述语言。
上述变量描述语言通过描述以变量(例如计数、质量、浓度)、单位(例如条、千克、摩尔/升)、生物化学实体(例如特定的转录物、特定的蛋白质、特定的化合物)量化的事物,并且通过描述一个生物材料的多等级的位置等级体系(例如环境、种群、个体、试剂、样本、有机体、器官、组织、细胞类型)中上述量化有效的一个位置(例如人类_眼睑_上皮细胞_细胞核)和上述量化有效时的相关时间表示,来将信息模型的语义对象和语法元素绑定在一起。
注意从基本变量/单位部分204和时间部分206到数据集部分202存在多对多的关系。这意味着每个数据集202典型地包括一个或多个基本变量/单位和一个或多个时间表示。在数据集部分202和实验部分208之间存在多对多的关系,这意味着每个数据集202涉及一个或多个实验208,并且每个实验涉及一个或多个数据集202。将结合图6A到6C进一步描述数据集部分的优选实现。
基本变量/单位部分204描述了在IMS中使用的基本变量和单位。在一种简单实现中,每个基本变量记录包括单位域,这意味着每个变量(例如质量)仅可以以一个单位(例如千克)表示。在一种更灵活的实施方式中,上述单位被存储在一个单独的表中,这允许以例如千克或磅的多个单位表示基本变量。
基本变量是可以用作如所指的变量,或者可以将它们组合以形成更复杂的变量,例如一个特定时间点的特定样本中的化合物的浓度。
时间部分206存储数据集202的时间部分。优选地,一个数据集的时间部分包括相对(停表)时间和绝对(日历)时间。例如,相对时间可以用来描述化学反应发生的速度。连同每一个数据集一起存储绝对时间信息也有多个有根据的原因。绝对时间以日历时间指示相应事件发生的时间。这样的绝对时间信息可以用来计算任何实验事件之间的相对时间。它也可用于发现并修理故障的目的。例如,如果在某个时间检测到一个故障仪器,则应该检查在检测到故障之前采用该仪器进行的实验。
实验部分208存储所有对IMS已知的实验。有两种主要的实验类型,通常称作现实的实验(wet-lab)和模拟的实验(in-silico)。但是从数据集202的角度来看,所有的实验看起来是相同的。实验部分208充当数据集202和两种主要实验类型之间的桥梁。除了已经完成的实验,实验部分208可以用来存储未来的实验。将结合图9A描述实验的优选的基于对象的实现。实验部分的一个关键设计目标是如将结合图11进行进一步描述的数据的可跟踪性。
生物材料部分210存储IMS中有关其他生物材料的种群、个体、试剂或者样本(任何可以作为生物化学系统或它的部分来研究的事物)的信息。优选地,通过VDL分等级地描述每个生物材料,或者以例如根据种群、个体、试剂和样本的变化的详细等级,在数据集202中描述生物材料。将结合图10描述生物材料210的优选的基于对象的实现。
生物材料部分210描述现实世界的生物材料,而途径部分212描述生物材料的理论模型。生物化学途径与电子线路的电路图有点相似。有多种方法来描述一个IMS中的途径,但图2概述了一种有利的实现。在图2示出的例子中,每个途径212包括一个或多个联系216,每个联系涉及一个生物化学实体218和一个相互作用222。
上述生物化学实体存储在一个生物化学实体部分218中。在图2示出的例子中,每个生物化学实体是一个类对象,其子类为基因218-1、转录物218-2、蛋白质218-3、大分子复合体218-4和化合物218-5。优选地,有一个选项用来存储例如温度的非生物刺激物(abioticstimuli)218-6,其与相互作用有潜在的联系并且对相关反应动力学规律有潜在影响。
数据库参考部分220充当到外部数据库的桥梁。部分220中的每个数据库参考是一个内部生物化学实体218和一个外部数据库的实体,例如Affymetrix有限公司的特定探针组,之间的关系。
相互作用部分222存储不同生物化学实体之间的包括反应的相互作用。反应动力学规律(Kinetic law)部分224描述影响上述相互作用的反应动力学规律(猜测的或者实验验证的)。将结合图7A、7B和8描述途径的优选的和更详细的实现。
根据本发明的一种优选实施方式,IMS还存储多等级的位置信息214。生物材料部分210和途径部分212参考上述多等级的位置信息。例如,关于涉及生物材料的信息,图2中所示的组织能够实现从在一端处的种群等级下至在另一端处的在一个细胞内的空间点(坐标)的任何详细或者精确的等级。在图2所示的例子中,位置信息包括有机体214-1(例如人类)、器官214-2(例如心脏、胃)、组织214-3(例如平滑肌组织、神经组织)、细胞类型214-4(例如柱状上皮细胞)、细胞区室214-5(例如细胞核、细胞质)和空间点214-6(例如相对于一个矩形参考细胞的维数的x=0.25,y=0.50,z=0.75)。有机体最好存储为一个分类树,该分类树中每个已知有机体具有一个节点。上述器官、组织、细胞类型和细胞区室块可以实现为简单的列表。以预先设定的列表作为参考存储上述位置信息的一个益处是这样的参考促使自动语法检查。因此不可能存储参考了一个不存在的或拼写错误的器官或有机体的位置信息。
根据本发明的另一种优选实施方式,位置信息也可以包括空间信息214-6,例如在有机体-细胞等级体系中最详细的位置的一个空间点。如果上述最详细的位置指示一个特定的细胞或细胞区室,则该空间点可以根据相对空间坐标进一步确定上述信息。依赖于细胞类型,上述空间坐标可以是笛卡尔或极坐标。将结合图15对空间点作进一步讨论。
除了图2所示的位置等级体系的6个等级之外,向上述有机体增加更多一些关系是有利的。就有机体,从特殊的到普通的,包括个体、种群和环境的关系尤其有利。利用这种等级安排,一个生物化学实体(例如样本)能够以任何所期望的分辨率,下至一个细胞内的特定空间坐标,事实上与在地球上的任何位置相关联。
这种位置信息的益处是一种改进的和系统的方法来比较样本的位置与如需要被相关测量结果验证的途径一样的理论构造的位置。
图2中所示的多等级的位置等级体系结合例如基因转移和克隆的现代基因操纵技术是尤其有利的。作为比较,一些现有技术的系统用简单的文本串联(例如“鼠科P53”)来标记生物实体。这样一个简单的文本串联将一个特定的有机体硬编码为一个特定的位置。如果上述生物实体的位置发生变化,它的名称也发生变化,这破坏了一个定义明确的数据库系统的完整性。相反地,图2中所示的IMS能够轻易的确定例如已移植到一只老鼠的一头猪的P53基因,或者对一个父有机体和一个克隆的有机体加以区别。
变量描述语言
图3A到3C示出了一种优选的变量描述语言,或者“VDL”。一般而言,一个变量是具有一个值,并且表现了一个生物化学系统(现实的生物材料或者理论模型)的状态的任何事物。当一个IMS投入使用时,设计者不知道将遇到哪种生物材料或者将执行哪种实验或者从那些实验中获得什么结果。因此,变量描述不得不对未来的扩展开放。另一方面,开放性和灵活性不应导致混乱,这就是为什么在上述变量描述上必须执行定义明确的规则。一种可扩展变量描述语言(“VDL”)可以最好的满足这些需求。
可扩展标记语言(XML)是这样的可扩展语言的一个例子,其原则上可以被用来描述生物化学变量。XML表达式可以相当容易地被计算机解释。然而,XML表达式趋向非常长,这使得对人类来说它们的可读性变得很差。因此,需要有一种比XML更简洁和对人和计算机来说可读性更好的可扩展VDL。
一种可扩展VDL的思想是,允许变量表达式是“自由但是不混乱的”。为了使这种思想更形象化,我们可以说IMS应该只允许预定的变量,但是不需要编程技巧上述预定的变量集也应该是可扩展的。例如,如果要对上述变量表达式执行的语法检查在一个语法检查例行程序中是严格地编码的,任何新的变量表达式都需要重新编程。在严格的秩序和混乱之间的一个最佳折中可以通过将可允许的变量关键词存储到一个例如数据表或文件的数据结构中来实现,上述结构不用编程就可修改。常规的访问准许技术可以用来确定哪些用户被授权来增加新的可允许的变量关键词。
图3A示出了在一种优选的VDL中的变量描述。变量描述30包括了由定界符分开的一个或多个关键词和名称对31。如图3A的例子中所示,每个关键词-名称对31包括一个关键词32、一个开始定界符33(例如一个开括号)、一个(变量)名称34和一个结束定界符35(例如一个闭括号)。例如,“Ts[2002-11-26 18:00:00]”(没有引号)是一个时间戳的例子。如果有多个关键词-名称对31,它们可以由例如空格字符或者适合的前置词的一个分隔符36分开。该分隔符和第二关键词-名称对31用虚线画出,因为它们是可选的。元素32到36之间的“&”号表示串串联。就是说,上述“&”不包括在一个变量描述中。
至于语言的语法,一个变量描述可以包括任意数量的关键词-名称对31。但是例如一个时间集合的对31的任意组合,在语义上没有意义。
图3B示出了典型关键词的表38。在表38中紧接每个条目的是它的纯文本描述38’和说明性例子38”。注意上述表38存储在IMS中,而剩下的表38’和38”不需要存储(它们只用来阐明表38中每个关键词的意义)。例如关键词“T”的例子“T[-2.57E-3]”,它是一种表示在一个时间参考之前-2.57毫秒的方法。该时间参考可以用一个时间戳关键词“Ts”来指示。
关键词T和Ts分别实现相对(停表)时间和绝对(日历)时间。将时间表示为相对和绝对时间的组合的一个微小的缺点是,每个时间点具有理论上无穷的等价表达式的集合。例如,“Ts[2002-11-26 18:00:30]”和“Ts[2002-11-26 18:00:00]T[00:00:30]”是等价的。因此,最好有一个以有意义的方式处理上述时间表达式的搜索逻辑。
如图3C中将示出的,通过将每个可允许的关键词的条目存储进在IMS内的表38中,强制执行对输入的变量的自动语法检查是可能的。
优选的VDL的语法形式上可以用如下面的表示:
<变量描述>::=<关键词>“[“<名称>”]”{{分隔符}<关键词>“[“<名称>”]”}<结束>
<关键词>::=<一个预先定义的关键词,参考例如表38>
<名称>::=<字符串>|“*”为在一个相关数据表中的任何名称
例如名称周围的“[”和“]”的显式定界符的用途是允许名称中的任何字符,包括空格(当然,排除定界符)。
一个优选的关键词集38包括3种关键词:什么、哪里和何时。例如变量、单位、生物化学实体、相互作用等等的“什么”关键词,指示了什么已经或者即将被观测到。例如样本、种群、个体、位置等等的“哪里”关键词,指示了上述观测已经或者即将在哪儿进行。例如时间或者时间戳的“何时”关键词,指示了上述观测的时间。
图3C示出了用于自动语法检查的一个可选的过程。一个形式VDL的益处是它允许自动语法检查。图3C示出了用于执行这样一种语法检查的状态机300。状态机可以用计算机例行程序实现。一个有效的关键词导致从初始状态302到第一中间状态304的迁移。任何其他的导致到错误状态312的迁移。一个开始定界符导致从第一中间状态304到第二中间状态306的迁移。任何其他的导致到错误状态312的迁移。
在上述开始定界符之后,除了一个结束定界符之外的任何字符作为名称的一部分被接受,并且上述状态机保持在第二中间状态306。只有变量表达式的提前结束导致到错误状态312的迁移。一个结束定界符导致到第三状态308的迁移,其中一个关键词/名称对已经被有效地检测到。一个有效的分隔符字符导致返回到第一中间状态304。检测到上述变量表达式的末尾导致到“OK“状态310的迁移,其中上述变量表达式被认为语法上是正确的。
图4示出了在VDL中的复合变量表达式的例子。复合变量表达式是具有多个关键词/名称对的表达式。注意当加入限定词时变量如何变得更加特定。参考标记401到410表示五对等价表达式,每对的第一个表达式较长或者较冗长,而第二个更加简洁。对于计算机而言,冗长的和简洁的表达式是无差别的,但是人类阅读者会发现冗长形式更容易理解。利用参考表38,图4中的表达式不需要加以解释。例如,表达式409和410以摩尔/升/秒来定义相互作用EC 2.7.7.13-PSA1自始至终的反应率。参考标记414表示意味着任意单位的任意有机体的任意蛋白质的任意变量的变量表达式“V[*]P[*]O[*]U[*]”。参考标记415和417表示用于两种不同时间表示的两种不同变量表达式。变量表达式415定义了一个3小时的时间间隔,而变量表达式417定义了一个10秒的时间间隔(时间戳前5秒开始并且在时间戳后5秒结束)。变量表达式418是等级体系的位置表达式的一种表达式。如图2所示,上述位置信息最好是分级的,并且包括与有机体214-1、器官214-2、组织214-3、细胞类型214-4、细胞区室214-5和/或空间点214-6相关的数据库。变量表达式418(“L[人类眼睑上皮细胞细胞核]”)是这样一个多等级的等级体系位置信息的可视化表达式。它的有机体关系214-1指示人类,它的器官关系指示214-2眼睑,它的细胞类型关系214-4指示上皮细胞而且它的细胞区室关系214-5指示细胞核。在这个例子中,上述多等级的等级体系位置不指示任何细胞区室或者细胞内的空间点或者特定的组织。
注意不管人们以什么语言使用IMS,对用于变量表达式的一种语言取得一致意见是有益的。作为替代,IMS可以包括一种将变量表达式翻译成各种人类语言的翻译系统。
如上所描述,该VDL本质上是明确定义的,因为只有通过了图3C所示的语法检查的表达式才是可接受的。上述VDL是开放的,因为可允许的关键词被存储在可扩展的表38中。上述VDL是简洁的,因为上述本质上关键词使用了尽可能最少数量的字母或者字符。最常用的关键词由单个字母构成,或者如果一个字母的关键词是含义模糊的则由两个字母构成。这里所描述VDL是简洁的另一个原因是,它不使用以开始关键词-结束关键词对的关键词,例如“<ListOfProteins>...</ListOfProteins>”,对于XML和它的变型其是典型的。这里描述的VDL的另一个特有的特征是上述关键词不被段落(新的行)字符分开,这就是为什么大部分表达式只需要比文档中的或计算机显示器上的少的多的单行。实际上,上述发明的VDL不需要任何分隔符(只要例如“]”的结束定界符),但是例如空格或者前置词的分隔符可以用来增加人类的可读性。
数据上下文
图5示出了VDL如何被用来表示不同的生物化学研究的范围或者数据上下文。所有不管以何种方式取样、测量、建模、仿真或者处理的变量能够被表示为:
a)在一个时间点处的生物材料样本的单一值;
b)生物材料的时间函数;
c)基于可利用的生物材料样本的分布于每个时间点的随机变量;或者
d)在生物化学数据上下文中的随机过程。
a)、b)和c)是d)的映射,d)是上述系统最充分的表现。IMS中的所有数据存在于一个3维的上下文空间之中,其相关于:
1.变量列表(“什么”);
2.现实的生物材料或者途径模型列表(“哪里”);
3.时间点或者时间间隔列表(“何时”)。
参考数字500总体上表示N+2维的上下文空间,其具有分别用于变量(N)、生物材料和时间的轴。一个非常详细的变量表达式510指定了一个变量(以摩尔/升的甘露糖浓度)、生物材料(种群abcd1234)和一个时间戳(2003年6月10日12:30)。上述变量的值是1.3摩尔/升。因为变量表达式510指定了上下文空间中的所有坐标,所以其由在上下文空间500中的一个点511来表示。
下一个变量表达式520是较不详细的,因为它没有指定时间。因此,变量表达式520由在上下文空间500中的时间函数521来表示。
第三变量表达式530指定了时间但没有指定生物材料。因此,它由属于在某个指定时间处的实验的所有生物材料的分布531来表示。
第四变量表达式540既没有指定时间也没有指定生物材料,它由一个时间函数集541和一个各种生物材料的分布集542来表示。
利用由变量描述语言使得可能的各种表达式和合适地组织的数据集(接下来将描述),研究者事实上可以不受限制地将一个生物化学系统的时间-状态空间当作一个多维的随机过程来研究。该系统的统计方面基于相关生物材料的事件空间,而动态方面基于时间-空间。当相关实验被记录时可以登记生物材料数据和时间。
所有的定量测量、数据分析、建模和仿真结果能够在新的分析技术中重新使用来发现相关的背景信息,例如当需要用该数据来解释各种应用时的被测量生物材料的表型。
数据集
图6A到6C示出了根据本发明各种优选实施方式的数据集。wet-lab和in-silico实验类型最好以相似结构的数据集进行存储。通过将与wet-lab和in-silico实验相关的数据存储在结构相似的数据集中,来自wet-lab实验的输出数据就可能被用作到n-silico实验的输入数据,例如,不需要介入任何数据格式转换。在图6A中,一个示范的数据集610描述了多个mRNA分子的表达水平(示出了mRNA1到mRNA6)。数据集610是存储在图2所示的数据集部分202中的数据集的一个例子。数据集610包括611到614的4个矩阵。变量值矩阵614以行-列组织描述了变量值的值。行描述列表613指定了上述变量值矩阵的行的意义。列描述列表612指定了上述变量值矩阵的列的意义。最后,一个定维(fixed dimension)描述611指定了对上述变量值矩阵614中所有值公共的一个或多个定维。注意上述变量值矩阵614由标量数构成。剩下的矩阵610到613用VDL指定了它们的内容的意义。
图6A也示出了数据集610的一种人类可读形式615。注意上述数据集的人类可读形式615只是为了更好的理解该实施方式而示出。人类可读形式615不需要被存储在任何地方,而且无论何时出现需要时都可以根据上述数据集610自动地创建该形式。上述人类可读形式615是例如电子数据表文件的数据集的一个例子,其典型地被存储在用于生物化学研究的现有技术的IMS系统中。该IMS最好包括一个用户接口逻辑,用于在存储格式611-614和人类可读形式615之间进行自动双向转换。
图6B示出了另一个数据集620。数据集620也指定了6个mRNA分子的表达水平,但是这些表达水平不是不同个体的表达水平,而是在4个不同时间处的单个种群的表达水平。在数据集620中,定维描述621指定了数据与在某个日期和时间处的某个酵母的样本xyz相关。列描述列表622指定了这些列指定了4个时间实例的数据,也就是在上述定维描述621中的时间戳之后的0、30、60和120秒。行描述列表623与前面例子中的相应列表613非常相似,唯一的不同在于最后一行指示温度而不是患者年龄。上述变量值矩阵624包含实际的数值。
可以将每个数据集(例如数据集610)分割成4个不同的部分(矩阵611到614),以便611到614的每个矩阵成为单独可寻址的数据结构,例如计算机文件系统中的一个文件。作为替代,上述变量值矩阵可以存储在单个可寻址数据结构中,而剩下的3个矩阵(定维描述和行/列描述符)可以存储在一个第二数据结构中,例如标题为“公共”、“行”和“列”的单个文件。这里的一个关键要素是上述变量值矩阵存储在一个单独的数据结构中,因为它是保存实际数值的数据集的部分。如果上述数值存储在一个例如文件或者表的单独可寻址数据结构中,则它可以被例如数据挖掘等的各种数据处理应用轻易处理。另一个益处在于构成各个矩阵的个体数据元素不需要被SQL查询处理。一个SQL查询仅仅检索一个数据集的地址或者其他标识符,而不是例如矩阵611到614内的数字和描述的个体数据元素。
图6C示出了上述数据集的一种替代的实现。这种实现是特别有利的,因为它使用了稀疏数据,或者如果有冗余变量描述,则通过将每个数据项只存储一次到一个适合的数据表中来有效率地存储这些描述。图6C所示的例子存储的数据与图6B所示的完全相同,但以不同的组织。变量值矩阵634是一个3*n矩阵,其中n是实际数据项的数量。数据项存储在列634C中,该列包括与图6B的变量值矩阵622完全相同的数据(尽管如省略号所指示一些元素被隐藏)。除了列634C之外,上述变量值矩阵634包括一个行指示符列634A和一个列指示符列634B,它们指示了相应的数据项所属的行和列。当数据非常稀疏时上述变量值矩阵634是尤其有利的,因为不需要存储空条目。另一方面,上述变量值矩阵634需要明确的行和列指示符。
在图6C的例子中,数据的意义,即行/列描述符和公共描述符,被存储在一个具有关键词、值、行和列条目的矩阵或者表630中。上述矩阵630的部分631对应于图6B中所示的定维描述621。上述定维描述621中的3个元素即种群、样本和时间戳,作为单独的行存储在矩阵630的部分631中。例如,第一行有一个条目,其关键词为“Po”(=种群)、相应的值为“酿酒酵母”、行和列的每一个为“-1”。在这个例子中,“-1”是一个对所有的行或列有效的特定值。由于部分631对所有的行和列有效,它的内容对应于图6B中所示的定维描述621。部分633对应于图6B的行描述623。在部分633中,上述列指示符为“-1”,其表示“任何列”。上述部分633的第一行表示关键词“V”(=变量)和它的值(“表达水平”)对行1到6是有效的。接下来的六行是用于行1到6的六个不同的行描述符,等等。最后,部分632对应图6B中的列描述符622。这里,上述行都为“-1”,因为上述列描述符对所有的行都是有效的。
就人类读者而言,图6C中所示的矩阵630和634包括与图6B中的公共和行/列描述符621到623的完全相同的信息。但是通过存储单独的对象类和对象标识符的条目可以使计算机更容易解释数据。这个特征消除了一些额外的处理步骤,例如经由在图3B中所示的关键词表38进行数据查找。
途径
图7A是存储在IMS中的途径的框图。根据本发明的一种优选实施方式的IMS借助于系统部分和部分间的联系的结构化途径模型700来描述每个生物化学系统。上述系统部分为生物化学实体218和相互作用222。上述生物化学实体218和相互作用222之间的联系216被认作独立的对象,其扮演了每个途径的每个相互作用中的每个生物化学实体的角色(例如基质、产物、催化剂或者抑制剂)。一个联系能够保存特定于每个生物化学实体和相互作用对的属性(例如一个化学计算系数)。如之前所述,IMS最好存储位置信息,并且每个途径212涉及生物位置214。可以根据已被包括进途径的详细等级由一个或多个途径描述一个生物位置。
如图7A中所示,每个联系216充当一个连接三个元素的T形连接点,这三个元素即相互作用222、生物化学实体218和途径212。换句话说,相互作用222和生物化学实体218的连接是途径特定的,与全局相对。这表示一个生物化学研究者可以更改涉及一个给定的生物化学实体的相互作用数据,而这个更改只影响由上述途径元素212所指示的特定途径。这个特征被认为可以降低研究者更改途径定义所面对的心理阈值。
在一种基于对象的实现中,上述生物化学途径模型基于三类对象:生物化学实体(分子)218、相互作用(化学反应、转录、翻译、装配、分解、转移等等)222和途径的相互作用与生物化学实体之间的联系216。该思想是分类这三个对象,以用它们自己的属性来使用它们,并且使用联系来保存在每个相互作用中的每个生物化学实体的化学计算系数和角色(例如基质、产物、催化剂或抑制剂),相互作用发生在一个特定的生物化学网络中。这种方法的一个益处是上述明确模型的清楚,以及当多个用户通过联系更改同一途径联系时更容易同步。用户接口逻辑可以被设计来提供上述途径的易理解的视图,如将结合图8示出的那样。
反应动力学规律部分224描述了影响相互作用的理论的或者实验的反应动力学规律。例如,从一个基质到一个化学反应的流量(flux)可以由下面的方程表示:
V = V max &CenterDot; [ S ] &CenterDot; [ E ] K + [ S ]
其中V是基质的流率,Vmax和K是常量,[S]是基质浓度而[E]是酶浓度。整个相互作用的反应率可以通过用基质的化学计算系数除以流量计算出。相反地,每个反应动力学规律表现了一个相互作用的反应率,由此任何特定的流量可以通过用反应率乘以特定联系的化学计算系数计算出。以上如图8中相互作用EC2.7.7.14_PSA1的反应率的反应动力学规律,可以以VDL作如下表示:
V[率]I[EC2.7.7.14_PSA1]=Vmax·V[浓度]C[GTP]·V[浓度]P[PSA1]/(K+V[浓度]C[GTP])
从相互作用EC2.7.7.14_PSA1到化合物GDP-D-甘露糖的流量可以以VDL作如下表示:
V[流量]I[EC2.7.7.14_PSA1]C[GDP-D-甘露糖]=c1·V[率]I[EC2.7.7.14_PSA1]=Vmax·V[浓度]C[GTP]·V[浓度]P[PSA1]/(K+V[浓度]C[GTP]),
这里c1是从相互作用EC2.7.7.14_PSA1到化合物GDP-D-甘露糖的联系的化学计算系数,且c1=1。在上面的例子中,反应动力学规律是变量V[浓度]C[GTP]和V[浓度]P[PSA1]的连续函数。另外,一些途径的正确描述需要不连续反应动力学规律。
图7C示出了包括模拟(连续)和布尔(离散)方程的混合途径模型的可视化形式。在这个模型中,只要基因A744和蛋白质B745存在化合物RNA 741可以经由相互作用(反应)X743转变为转录物mRNA 742。相互作用Y746是相互作用X743的逆过程并且将转录物mRNA转变回化合物RNA。
如图7C中相互作用X的反应率的反应动力学规律可以表示为如下的VDL条件的不连续布尔函数:
V[率]I[X]=
k IF V[计数]G[A]>0 AND V[计数]P[B]>0 and V[计数]C[RNA]>0 ELSE
0
从相互作用X到转录物mRNA的流量可以以VDL作如下表示:
V[流量]I[X]Tr[mRNA]=
c2·V[率]I[X]=
k IF V[计数]G[A]>0 AND V[计数]P[B]>0 and V[计数]C[RNA]>0 ELSE
0
这里c2是从相互作用X到转录物mRNA的联系的化学计算系数,且c2=1。
让图7C中从相互作用Y到化合物RNA的流量变为如下的转录物mRNA的计数的连续函数:
V[流量]I[Y]C[RNA]=
c3·V[率]I[Y]=c3·k2·V[计数]Tr[mRNA]
这里c3是从相互作用X到转录物mRNA的联系的化学计算系数,且k2是该反应动力学规律的另一个常量。
如果一个生物化学实体的浓度或计数取决于一个特定的位置,则在上述反应动力学规律中表示的每个变量可以用一个特定的位置L[...]来指定。
一个生物化学网络可能不是处处有效。换句话说,上述网络典型地是位置相关的。这就是为什么途径212和生物上相关离散位置214之间具有如图1和7A所示出的关系。
复杂途径能够包含其他途径700。为了将不同途径700联系到一起,上述模型支持途径联系702,其中每个途径联系可具有高达5个关系,其将结合图7B进行描述。
图7B示出了包含较简单途径的复杂途径的一个例子。如果两个或多个途径具有公共相互作用(例如将生物化学实体从一个位置移至另一个位置的转移类型相互作用)或相关位置之间运动的公共生物化学实体,则可以将它们组合在一起。否则,途径被认为是独立的。
由参考标记711表示的途径A是到途径B和C的主要途径,途径B和C分别由参考标记712和713表示。上述途径711到713与上面描述的途径700基本相似。两个途径联系720和730将途径B712和途径C713联系到一个主途径A711。例如,途径联系720与途径A711有一个主途径关系721;与途径B712有一个来自(from)-途径关系722;以及与途径C713有一个至(to)-途径关系723。另外,它与途径B712和C713有公共-实体关系724、725。简单地说,上述公共-实体关系724、725表示途径B和C共享由上述关系724、725所指示的生物实体。
另一个途径联系730与途径A711有主-途径关系和来自-途径关系,并且与途径C713有至-途径关系。另外,它与途径B712和途径C713分别有公共-相互作用关系734、735。这表示途径B和C共享由上述关系734、735指示的相互作用。
上面描述的途径模型支持随着知识的增长逐渐地构造的不完整的途径模型。研究者可以选择所需要的详细等级。一些途径可以以一种相对粗略的方式进行描述。另外一些途径可以被描述到反应动力学规律和/或空间坐标。上述模型也支持来自现有的基因序列数据库的不完整信息。例如,一些途径描述可以单独地描述基因转录和翻译,而其他将它们当作一个组合的相互作用。每个氨基酸可以被单独地处理或者所有的氨基酸可以被组合成一个被称作氨基酸的实体。
上述途径模型也支持自动建模过程。当相关反应动力学规律对每个相互作用可利用时,可以自动地生成每个生物化学实体的浓度的时间导数的节点方程。作为一个特定的情况,化学计算平衡方程式可以自动地生成,用于流量平衡分析。上述途径模型也支持自动的端到端的工作流,包括经由建模对测量数据的抽取、附加限制的列入和方程组的解答,直到各种数据分析和潜在的自动注解。
自动途径建模可以基于途径拓扑数据、用来描述变量名称的VDL表达式、可应用的反应动力学规律以及数学或逻辑操作符和函数。未知的参数可以从测量数据估计或推出。可以使用缺省单位以简化变量描述语言表达式。
如果反应动力学规律是VDL变量的连续函数,生物化学实体的定量变量(例如浓度)可以被建模成这些定量变量的普通微分方程。通过设置每个生物化学实体的定量变量的时间导数等于来自与上述生物化学实体联系的所有相互作用的流量之和减去所有从上述生物化学实体到与上述生物化学实体联系的所有相互作用的流出流量,来形成普通微分方程。
例子:
dV[浓度]C[GDP-D-甘露糖]/dV[时间]=
V[流量]I[EC 2.7.7.13_PSA1]C[GDP-D-甘露糖]+...
    -V[流量]C[GDP-D-甘露糖]I[EC...    ]-...
...
dV[浓度]C[水]/dV[时间]=V[流量]C[水]I[EC...]+...
       -V[流量]C[水]I[EC...     ]-...
在另一方面,如果反应动力学规律是VDL变量的不连续函数,生物化学实体的定量变量(例如浓度或计数)可以被建模成这些定量变量的差分方程。通过设置在两个时间点的每个生物化学实体的定量变量的差值等于在差分时间点之间的时间间隔中来自与上述生物化学实体联系的所有相互作用的输入量之和减去从上述生物化学实体到与上述生物化学实体联系的所有相互作用的流出量,来形成上述差分方程。
例子:V[计数]Tr[mRNA]T[t+Δt]-V[计数]Tr[mRNA]T[t]=
V[流量]I[X]Tr[mRNA]·Δt-V[流量]I[Y]Tr[mRNA]·Δt+
       V[...]...-V[...]...V[计数]C[RNA]T[t+Δt]-V[计数]C[RNA]T[t]=
V[流量]I[Y]C[RNA]·Δt-V[流量]I[X]C[RNA]·Δt+V[...]...-
     V[...]...
...
如果有连续和不连续的反应动力学规律与一个联系生物化学实体的相互作用相关联,则差分方程从上述生物化学实体这样写出以便根据每个联系的方向来加上或减去连续或不连续流量。
这样可以用所给初始或边界条件为仿真的目的生成一个完整的“混合”方程系统。初始条件和边界条件可以由上面所描述的数据集(见图6A到6C)来表示。
在上面所描述的微分和差分方程中,生物化学实体特定流量可以由反应率乘以化学计算系数来代替。
在静态的情况下,上述导数和差值都是零。这导致了一个具有反应率变量的代数方程集合的流量平衡模型(不需要反应动力学规律),其中上述代数方程集合描述了特定相互作用的反应率的可能集合。0=V[率]I[EC2.7.7.13_PSA1]+...
 -V[率]I[EC...  ]-......0=V[率]I[EC...]+...
-V[率]I[EC...    ]-...或者0=V[率]I[X]-V[率]I[Y]+V...]...-V[...]...0=V[率]I[Y]-V[率]I[X]+V[...]...-V[...]......
用户可以提供他们的限制可能解集的测量结果或者附加限制和目标函数。
另一个优选的特征是能够在流量平衡分析中为噪声建模。我们可以在上述目标函数中添加需要最小化的人工噪声变量。噪声变量在上面所描述的数据集中给出。这有助于容忍具有合理结果的不准确的测量。
这里所描述的模型也支持途径解决方案的可视化(活动约束)。通常情况,建模导致了一个需要反应动力学规律的混合方程模型。它们可以以不同方法在数据库中积累,但是有些缺省的规律可以当需求时使用。在一般的方程中,相互作用特定的反应率可以由反应动力学规律来代替,例如Michaels-Menten规律,其包含基质和酶的浓度。例子:
V[反应率]I[EC 2.7.7.13_PSA1]=
5.2*V[浓度]P[PSA1]*V[浓度]C[...]/(3.4+V[浓度]C[...])
该方程可以转变成下面的形式:dV[浓度]C[GDP-D-甘露糖]/dV[时间]=5.2*V[浓度]P[PSA1]*V[浓度]C[...]/(3.4+
V[浓度]C[...])+...
-7.9*V[浓度]P[...]*V[浓度]C[...]/(...)...dV[浓度]C[水]/dV[时间]=10.0*V[浓度]P[...]*V[浓度]C[...]/(...)+...
-8.6*V[浓度]P[...]*V[浓度]C[...]/(...)-...或者V[计数]Tr[mRNA]T[t+Δt]-V[计数]Tr[mRNA]T[t]=
(k如果V[计数]G[A]>0 AND V[计数]P[B]>0 and V[计
数]C[RNA]>0否则0)·Δt-c3·k2·V[计数]Tr[mRNA]·Δt+
V[...]...-V[....]...V[计数]C[RNA]T[t+Δt]-V[计数]C[RNA]T[t]=
c3·k2·V[计数]Tr[mRNA]·Δt-(k如果V[计数]G[A]>0 AND
V[计数]P[B]>0 and V[计数]C[RNA]>0否则0)·Δt+V[...]...
-V[...]...
具有替代的实现方式。例如,代替上面所作的替代,我们可以单独地计算反应动力学规律并且反复地用数值代替特定的反应率。
这样结构化途径模型的益处是,其中途径元素与例如相互作用类型和/或化学计算系数和/或位置的相互作用数据相关联,例如上面所描述的方程的流率方程可以由自动建模过程生成,这极大地方便了生物化学途径的计算机辅助仿真。因为每个反应动力学规律具有与一个相互作用相关联的数据库,并且每个相互作用经由一个特定的联系与一个生物化学实体相关联,上述建模过程可以自动地组合所有反应动力学规律,这些规律描述一个特定生物化学实体的创建或消耗,从而根据上面所描述的例子自动地生成流量平衡方程。
这样一个结构化途径模型的另一个益处是,分等级体系的途径可以由计算机解释。例如,用户接口逻辑能够轻易地提供将结合图8示出的分等级体系的途径的可理解视图。
图8示出了一个途径的可视化形式,其总体上由参考数字800表示。一个用户接口逻辑基于图1和7A中所示元素212到214描绘了可视化途径800。圆810表示生物化学实体。方框820表示相互作用而边830表示联系。从一个生物化学实体到一个相互作用的实箭头840表示其中由上述相互作用所消耗的生物化学实体的基质联系。从一个相互作用到一个生物化学实体的实箭头表示其中由上述相互作用产生的生物化学实体的产物联系。虚箭头860表示其中生物化学实体既不被消耗也不被产生但使或加速上述相互作用的活化。具有横条末端的虚线870表示其中生物化学实体既不被消耗也不被产生但抑制或减缓上述相互作用的抑制。非零的化学计算系数与基质或产物联系840、850相关联。在控制联系(例如活化860或抑制870)中上述化学计算系数为零。
而且,被测量或被控制的变量能够可视化并且定位在相关的生物化学实体上。例如,参考数字881表示一个生物化学实体的浓度,参考数字882表示一个相互作用的反应率以及参考数字883表示一个联系的流量。
联系的准确角色、与相互作用相关的反应动力学规律和每个途径的生物上相关位置提供了现有途径模型的改进。例如,图7A到8中所示的模型通过改变元素的数量来支持变化详细等级的描述。另外,如果明确的反应动力学规律已知,上述模型支持它们的列入。
这种技术也支持在所显示途径上的测量结果的图形化表示。上述被测变量可以与基于对象名称的图形化途径表示的细节相关联。
注意由参考数字200和700(图2和7A)所表示的数据库结构提供了一种方法,用于存储一个生物化学途径的拓扑而不是它的视图800。上述视图可以从上述拓扑生成,并且在之后进行存储。上述视图800的元素和相互联系可以直接地基于上述存储的途径700。所显示元素的位置最初可由一个软件例行程序选出,该程序优化了例如重叠联系的数量的一些预先设定的准则。这种技术是从印刷电路设计领域中得出的。IMS可以为用户提供用于手工地整理上述视图的图形化工具。在手动编辑版本中的每个元素的放置可以被存储在一个例如文件的单独数据结构中。
实验
IMS最好包括一个实验项目管理器。一个项目包括一个或多个实验,例如取样、处理、扰动、饲养、培养、操作、纯化、克隆或其他组合、分离、测量、分类、文件管理(documentation)或in-silico工作流。
实验项目管理器的一个益处是,所有的测量结果或受约束的条件或扰动(“什么”)、生物材料和生物材料中的位置(“哪里”)、相关实验的定时(“何时”)以及方法(“怎样”),能够被记录来解释实验数据。另一个益处来自当存储实验数据为按前面说明的数据集时可以利用变量描述语言的可能性。
图9A示出了IMS的实验部分中的一个实验对象。存储在IMS中的每一个项目902包括一个或多个实验904。每一个实验904与设备数据906、用户数据908和方法数据910相关联。每个方法实体910涉及实验输入914和实验输出920。连同相关的时间信息一起,实验输入914将例如一个生物材料916(例如种群、个体、试剂或样本)或一个数据实体918(例如受约束的条件)的相关输入联系到上述实验。
连同相关的时间信息一起,实验输出920将例如一个生物材料922(例如种群、个体、试剂或样本)或一个数据实体924(例如测量结果、文档、分类结果或其他结果)的相关输出联系到上述实验。例如,如果上述输入包括一个生物材料的一个特定样本,则上述实验可以产生同一有机体的一个不同编号的样本。另外,上述实验输出920可以包括以各种数据实体形式的结果(例如图6A和6B中所示的数据集,或文档或电子数据表文件)。上述实验输出920也可以包括数据实体中的基因型分类和/或表型分类。
实验输入914和实验输出920具有分别由项915和921表示的相关时间的事实可以提高数据的可跟踪性。时间915、921指示了例如样本获取、扰动等相关生物化学事件发生的时间。数据可跟踪性将结合图11A和11B作进一步描述。
一个实验也具有一个目标930,其典型地是一个生物材料932(例如种群、个体、试剂或样本)但in-silico实验的目标可以是一个数据实体934。
上述方法实体910与描述上述方法的一个方法描述912相关联。方法描述912旁的循环表示一个方法描述可以参考其他方法描述。
实验输入914和实验输出920是特定的生物材料916、922或数据实体918、924,它们是与图2中相应元素相同的数据元素。如果上述实验是一个wet-lab实验,则上述输入和输出生物材料916、922是图2中生物材料210的两个实例(相同的或不同的)。例如,它们可以是两个特定的样本210-4。
因为生物化学信息(图2中的参考数字200)和项目信息用公共数据实体描述,所以项目管理器可以跟踪每条信息的历史。它也能够监视产量,如每个资源(例如人年)增加信息的数量。
上述实验项目管理器最好包括一个具有用户接口的项目编辑器,该用户接口支持用于项目活动的项目管理功能。这提供了系统生物化学项目中同样有用的标准项目管理的所有益处。
上述项目编辑器的一个优选实现能够跟踪各种实验中所有的生物材料、它们的样本和所有数据,这些实验包括wet-lab操作和in-silico数据处理。
一个实验项目可以表示为实验活动、目标生物材料和可交付输入或输出的一个网络,输入或输出为生物材料或数据实体。
在复杂性方面,图9A示出了一个最差情形。很少有现实实验包括图9A中所示的所有元素。例如,如果实验是一个医学或生物化学处理,典型地,上述输入和输出部分914、920指示某一个患者或者生物化学样本。一个可选的条件元素可以描述上述患者或样本处理之前的条件。上述输出部分是一个已被处理的患者或样本。
在取样的情况下上述输入部分则指示一个生物材料将被取样,而上述输出部分指示一个特定的样本。在样本处理的情况下,则上述输入部分指示一个即将被处理的样本,而上述输出部分指示已被处理的样本。在一个组合实验中上述输入部分指示多个将被组合的样本,而上述输出部分指示已被组合的确定的样本。相反地,在一个分离实验中上述输入部分指示一个将被分离的样本,而上述输出部分指示多个被分离出的确定的样本。在一个测量实验中上述输入部分指示一个将被测量的样本,而上述输出部分是一个包含测量结果的数据实体。在一个分类实验中上述输入部分指示一个将被分类的样本,而上述输出部分指示一个表型和/基因型。在一个培养实验中上述输入和输出部分指示一个特定的种群,而上述实验部分可以包括培养器皿的身份。
为了描述复杂实验,需要有实验联接器(binder)(不单独示出)以这样一种方式组合多个实验,该方式与上述途径联系700、720、730组合各个途径的方法有点类似。
图9B示出了根据一组期望结果对一个项目计划的创建。在图9B中所示的项目计划是项目计划的一个典型样本,其可以用图9A中所示的系统创建。如图9A中所示,一个实验输入914由一个方法910处理成一个实验输出920,该输出也可作为实验输入应用到另一个方法,等等。在图9B中,如混合976和扰动970的矩形表示一些方法,而例如样本974和种群966的生物材料表示实验输入和/或输出。
如果图9B中所示的项目计划由设计者在一个图形化用户接口上创建,则它是不需要加以说明的。但是引人感兴趣的是图9A中所示的系统的项目结构使得可以为IMS提供一个例行程序,用于根据期望结果自动地创建项目计划,或者至少一些它的中间动作。
假定一个研究者希望获得四个数据集,即描述即将被输入进一个种群966的扰动集合的扰动数据952,以及来自上述种群966的取样测量数据954A-954C。上述被标记为Po[种群]并在数据集952和954A-954C中指定的种群966,是一个生物材料实验目标932和930(见图9A)的实例。它将在数据集952所指定的时间受到扰动970的影响。上述扰动970由得自上述数据集952的扰动变量数据以及混合方法910的一个方法描述912的混合实验976所准备,上述方法利用一个处方数据实体980作为实验输入918,并且生物材料978A和978B作为实验输入916,以及一个样本974作为生物材料实验输出922。三种取样操作964A-964C将在数据集954A-954C所指定的时间创建实验目标966,即Po[种群],的三个样本962A-962C。样本962A-962C在测量实验960A-960C中被分析,上述测量实验得自数据集954A-954C的测量变量数据和测量方法910的方法描述912。上述样本962A-962C是实验输入916(见图9A)的实例而上述数据实体958A-958C是实验输出924的实例。
这样,当数据集的变量数据被映射进方法描述912中的方法时,可以由预先设定的方法910以及方法描述912与数据集952和954A-954C的信息,确定实验目标930、中间实验904以及输入914和输出920,其具有所要求的定时915和921。
由用于自动创建项目计划的逻辑所面对的问题是如何确定从数据集954A-954C到种群966的中间步骤。上述逻辑基于一种这样的思想,在一种典型的研究设施中,任何类型的测量数据只能够由一个有限的测量方法集创建。假定第一数据集954A包含只有一个方法描述912(见图9A)的数据。在这样一个情形中那方法,即测量960A能够被自动地选择。如果余下的数据集954B和954C包含可通过多种测量方法获得的数据类型,上述逻辑可以提供潜在的方法候选用于由用户的选择。但是一旦用户已经选择了合适的测量方法960B和960C,上述逻辑就可以推出需要三个样本960A到960C用于三种测量。因为需要三个样本,且取样是产生一个样本的唯一操作,所以也需要三个对种群966的取样操作964A到964C。同样的思想可以应用于来为被定为研究目标的扰动实验推出特定的混合或其他准备实验。因此图9A中所示的系统的基于对象的项目描述可以被一个逻辑用来自动地创建至少一些如图9B中所示的项目计划中的中间动作。
另外,上述逻辑也可以推出用于项目计划的动作的有利时间戳。如图9B中所示,每个动作有一个相关的时间戳Ts[时间]。假定研究者希望预先确定用于对种群966取样的时间戳的优化集合。上述时间戳被示为Ts[t5]、Ts[t7]和Ts[t9]。上述逻辑可以使用结合途径(图7A到8)描述的反应动力学规律,并且实现响应于扰动970将在种群966中发生的仿真。上述仿真最可能将导致用一段时间开始、接着到达顶点、最终稳定的活动。上述研究者或上述逻辑自己可以确定这样的时间戳的优化集合,从而上述活动的所有主要阶段(开始、顶点、稳定)将被测量充分地覆盖。
生物材料描述
图10示出了IMS的生物材料部分的基于对象的实现的例子。注意这只是一个例子,许多生物材料可以不利用图10中所示的所有元素来充分地描述。上述生物部分210与它的子元素210-1到210-4,以及位置部分214与它的子元素214-1到214-5一起已经结合图2简要地进行了描述。除了之前描述的元素之外,图10示出了一个生物材料210可以与一个条件元素1002、一个表型元素1004和一个数据实体元素1006具有多对多的关系。一个可选的有机体联接器1008可以用来组合(混合)不同的有机体。例如,上述有机体联接器1008可以指示某一个种群包括有机体1的百分之x和有机体2的百分之y。
上述有机体元素214-1下面的一个循环1010表示有机体最好以分类描述进行描述。图10的下半部分示出了这种分类描述的两个例子。例子1010A是一个大肠杆菌的特定样本的分类描述。例子1010B是白三叶草的分类描述。
结合图3A到3C描述的变量描述语言可以被用来描述涉及这样的生物材料和/或它们的位置的变量。例子:
V[浓度]P[P53]U[mol/l]ld[患者X]L[人类细胞质]=0.01。
这种位置信息的一个益处是一种改进的和系统的方法,用于比较样本位置和如需要被相关测量结果验证的途径的理论构造的位置。
通过实质上按图10中所示存储生物材料部分可获得的另一个优点涉及数据的可视化。例如,生物材料可以用它们的表型替代。这种替代的一个例子是某些个体被分类为“过敏的”,其对于人类而言远比一个仅仅的身份更直观。
数据可跟踪性
数据可跟踪性基于与实验输入和输出914和921分别相关联的时间信息915和921(见图9A)。图11A和11B根据两个例子示范了数据可跟踪性。图11A示出了取样场景。所有样本从由参考数字1102所表示的某个个体A获得。参考数字1104总体上表示四个箭头,每个箭头对应于在某个时间处的某个取样。例如,在时间5处获得样本4,如参考数字1106所指示。通过使用结合图3A到4示出的VDL,在时间5处的样本4可被表示为Sa[4]T[5]。表达式Sa[4]T[5]=ld[A]T[5]表示样本4在时间5处从个体A获得。
在时间12处从样本4中获得另外两个样本。如箭头1108所示,通过分离细胞核从样本4获得样本25。参考数字1112表示样本25的观测(测量),即蛋白质P53的浓度,其在这个例子中示为4.95。
图11B示出了这样一种场景中的数据可跟踪性,其中一个扰动由向个体B1150给予某些化合物所引起。如参考数字1152到1158所示,在时间1处向样本40施加10克剂量的化合物abcd,而这个样本在时间6处被给予个体B。参考数字1160表示在时间5处将甘露糖给予个体B。图11B的下半部分与图11A相似,因此省略单独的描述。
例如图11A和11B中所包含的显示图象帮助用户去了解上述观测基于什么。改进的数据可跟踪性的益处包括对实验输入和输出的相关定时的更好的理解,以及错误的减少和对异常的更易解释。
必须清楚现实情形要远比一页图上所能合理地显示的复杂得多。因此图11A和11B示出了数据可跟踪性的原理。为了支持复杂情形,上述可视化逻辑前面应该加上让用户仅仅看到感兴趣的主题的用户激活的过滤器。例如,如果一个用户只对图11A中所示的样本25感兴趣,则只有事件链(样本)1102-1106-1110-1112能够显示。
工作流描述
图12A示出了用于描述和管理IMS中事实上任意复杂度的工作流的信息-实体关系。一个工作流1202可以包含其他工作流,如箭头1203所指示。最低级别的工作流包含一个工具定义1208。每个工作流有一个所有者用户1220。每个工作流属于一个项目1218。(项目已经结合图9A和9B讨论。)
根据工具名称、类别、描述、源、pre(前)标签、可执行、输入、输出和服务对象类来定义工具(如果不是缺省的)。这个信息被存储在一个工具表或数据库1208中。
一个输入定义包括pre标签、id号码、名称、描述、数据实体类型、post(后)标签、命令行次序、可选状态(强制的或可选的)。这个信息被存储进工具输入联接器1210或工具输出联接器1212中。在一种现实的实现中,将工具1208、工具输入联接器1210和工具输出联接器1212存储到单个盘文件中是方便的,这种实现的一个例子在图16A和16B中示出。
根据数据实体类型名称、描述、数据种类(例如文件、具有子目录和文件的目录、数据集、数据库等)向系统定义数据实体类型。因现有工具的兼容性规则,有多个数据实体类型属于同一种类但具有不同的语法或者语义,因此属于不同的数据实体类型。这个信息被存储在数据实体类型1214中。工具服务器联接器1224指示了在其中能够执行工具的一个工具服务器1222。如果只有一个工具服务器1222,则上述工具服务器联接器1224可以省略。
给定类型的数据实体可用来控制不同的工具的兼容性,这些工具可能是兼容或不兼容的。这使开发这样一个用户接口变为可能,在该接口中系统可帮助用户在不具有每个工具的详细情况的提前认识的情况下创建有意义的工作流。
上述包含用户数据的数据实体实例存储在数据实体1216中。当构建工作流时,相关数据实体通过工作流输入1204或工作流输出1206联系至相关工具输入。参考数字1200总体上表示各种数据实体,其在现实情况中构成输入或输出数据的实际实例。
图12B示出了一个客户端-服务器体系架构,其包括一个在客户端终端CT中执行的图形化工作流编辑器1240。上述图形化工作流编辑器1240经由一个工作流服务器1242与工具服务器1224中的一个执行器以及一个服务对象相联系。上述图形化工作流编辑器1240被用来准备、执行、监视和观察与一个工作流数据库1246通信的数据实体和工作流。上述工作流服务器1242通过使用一个或多个工具服务器1244来管理工作流的执行。相关工具服务器的地址可以从服务器表1222(图12A)中发现。
每个工具服务器1244包括一个执行器和一个能够调用被安装在工具服务器上的任何独立工具的服务对象。上述执行器通过一个标准化的服务对象,管理着对具有相关数据实体的工作流的所有相关工具的执行。上述服务对象为执行器提供一个公共接口来运行任何独立软件工具。工具特定的信息可以在一个XML文件中描述,该文件被用来为在工具数据库中(图12A中的项1208)的每个工具初始化元数据。上述服务对象接收输入和输出数据,并且通过使用工具定义信息,它可以准备用于执行上述工具所需的命令行。
图12A和12B中所示的工作流/工具管理器可以轻易地集成传统工具和第三方工具。上述工作流/工具管理器的其他益处包括工作流的完整文件管理、易重用性和自动执行。例如,上述工作流/工具管理器可以隐藏第三方工具的专有接口并且用IMS的公共GUI代替它们。因此用户可以利用一个公共图形化用户接口的功能来准备、执行、监视和观察工作流和它们的数据实体。
注意图12A示出了一种信息-实体关系,其示出了不同类型的实体、工具等之间的相互关系。例如,图12A示出了一个工具输入联接器1210定义了一个工具1208的输入和一个数据实体类型1214之间的关系,该类型可以是或可以不是与如由工具的输出联接器1212所定义的代表工具输出的数据实体类型的类型相同。
图12C从一个终端用户的角度示出了工具和数据实体的相互关系。可利用的工具和数据实体可以组合成任意复杂度的逻辑网络(工作流),其中一个工具的输出联系至下一个工具的输入,等等。注意每个工具只需要定义一次。对于一个工具的每个实例化的执行,具有可以为每个图形“工具”图标创建的一个子工作流1202(或者图12D中的工作1202’)。参考数字1250表示输入数据实体,在这个例子中它是数据实体1和2。参考数字1252表示工作流输入。参考数字1254表示在这个工作流中使用的工具X、Y和Z。在这个例子中上述工作流输入1252将数据实体1和2绑定到利用工具X和Y的子工作流,并将数据实体1、3和4也绑定到利用工具Y和Z的子工作流。参考数字1256表示工作流输出,在这个例子中它将数据实体3和4绑定到利用工具X的子工作流,并将数据实体5、6和7绑定到利用工具Y和Z的子工作流。参考数字1258表示中间数据实体,其构成调用工具X的一个子工作流的输出,并向调用工具Y和Z的另一个子工作流提供输入。参考数字1260表示输出数据实体,在这个例子中它是数据实体5、6和7。每个工作流输入1252或工作流输出1256是图12A中所示的各个类1204、1206的实例。通过联系工具和对于每个输入或输出具有正确的数据实体类型的数据实体,工具输入联接器1210和输出联接器1212在一个图形化用户接口中被用来帮助用户构建工作流。
如图12C所示,上述工作流输入1252或工作流输出1256共同地定义了一个从输入数据实体1250到输出数据实体1260的数据流网络,从而每个工作流输入1252将一个特定的数据实体联系至一个工具1254的输入,而每个工作流输出1256将工具的输出联系至一个特定的数据实体,该数据实体可以是一个中间数据实体1258或一个输出数据实体1260。在对工作流进行拓扑排序的基础上执行工具。这种工作流对于需要用不同的输入一再地重复的复杂任务是最有用的。
图12C中示出的实施方式隐藏了某些例如子工作流、工作流输入和输出的抽象概念,但是示出了更多的例如数据实体、工具、工具输入和工具输出的具体的事物。
图12D示出了图12A中所示的信息-实体关系的一种增强形式。具有小于1224的参考数字的项已结合图12A描述,这里将不再描述。图12D中所示的实施方式比图12A所示的实施方式有多处增强。
一处增强是图12A的分等级的工作流1202、1203已被分成工作流1202和工作1202’,其中工作1202’是等级体系的最低级别并且不包含任何子工作流。一个工作流的外部输入和输出是分别由工作流输入1236和工作流输出1238定义的。上述工作流的外部输入和输出不需要任何只在工作流内使用的内部数据实体定义总体的输入和输出。上述工作流的内部数据实体由工作输入1204’和工作输出1206’定义。
另一处增强是上述工作输入1204’和工作输出1206’没有直接地联系至一个数据实体1216而是经由一个数据实体列表1226,该数据实体列表经由一个数据实体到列表联接器1228联系至数据实体1216。这处增强的一个益处是一个工作的输入或输出可以包括数据实体列表。当多个数据实体将被相似地处理时,这就简化了终端用户动作。技术上来说,上述数据实体列表1226将多个数据实体指定为一个工作的输入1204’和输出1206’,上述列表中的每个数据实体被工具1208单独地但以同等的方式处理。
第三处增强是一个结构化-数据-实体-类型联接器1230用于处理例如图6A和6B中所示的数据集610和620的结构化数据实体。这样的数据集每个包括四个实体(描述公共、行、列和值矩阵),并且上述结构化数据实体可以由上述结构化-数据-实体-类型联接器1230定义。因此终端用户不用考虑数据实体之间的相互关系。
此外,每个工具1208具有相关选项1238和/或退出代码1239。上述选项1238可以用来向软件工具输入各种参数,如结合脚本文件处理所知的那样。上述选项1238将结合图16B和16B(见项1650-1670和1696-1697)作进一步讨论。上述退出代码(或者错误代码)1239可以被用来经由上述服务对象、执行器、工作流服务器和图形化工作流编辑器,将工具的终止状态传递回用户。例如,如果一个工具的操作因为一些处理错误而被中断,则在一个后续工具中实施它的打算的任务是没有意义但可以让用户知道终止状态。退出代码的例子将在图16B中示出(见部分1680)。
图12D中示出的另一处可选的增强是上述类型定义1214包含一个本体(ontology)定义。上述本体定义的一个益处是一个工具的至/来自一个数据实体的类型检查不需逐字地成功而只需概念上成功。例如,一个工具的定义可以规定工具以“富文本格式”输出文件,而另一个工具的定义规定工具处理(输入)“文本”文件。将“文本”和“富文本格式”做逐字比较将失败但一个适当配置的本体定义能够指示“富文本格式”是“文本”文件的一个子类,由此上述本体类型检查能够成功。
图13示出了用于工作流管理的一个示范的用户接口1300。一个标题栏1302和菜单栏1304对于熟悉图形化用户接口的人来说是不需解释的。一个工具选择框1310列出了所有可利用的工具。一个工具描述框1320示出了所选工具的描述。一个工具输入框1330和工具输出框1340分别列出了和描述了所选工具的输入和输出。一个图形化工作流编辑框1350示出了被编辑的工作流的内容,即以图形化格式的各种数据实体和工具的相互关系。上述图形化工作流编辑框1350大体上示出了与图12C中所示的相似的主题,但是在图12C中重点为工具、数据实体和联接器之间的逻辑关系,而图13示出了一个更真实的实际用户接口的视图。在这个例子中,如由联系箭头1356所示,数据实体1352是工具1354的一个输入。如由联系箭头1360所示,工具1354的输出是数据实体1358。如由联系箭头1364所示,是工具1354的输出的数据实体1358将用作工具1362的输入之一。工具1362有其他三个输入1366、1368和1370。在这个例子中,输入1366和1368是数据实体,而输入1370包含各种可选或用户可设置参数。输入参数尤其是非可选参数的另一种方法将在图16B中示出(见在配置文件1600中的选项部分1650-1670)。工具1362的输出是数据实体1372,其也是整个工作流的输出。实际上,在工作流编辑器框1350中编辑的工作流可以是某个上级或父工作流的一个子工作流,如在图12A中由箭头1203示出,并且这个子工作流的输出将被用作上级工作流的一个输入。
图13中的元素与图12A或12D中的元素有如下关联。每个用一个例如图标1352的“文件”类型图标显示的数据实体1352、1358,是图12A或12D中数据实体类1216的一个实例。在上述工具选择框1310中示出的工具是图12A或12D中工具类1208的实例。当将它们的潜在执行实例化为图12A中的子工作流或图12D中的工作时,它们可以从上述工具选择器框1310中选出。作为图12A中子工作流1202或图12D中工作1202’的实例,在被编辑的工作流中使用相关工具1354和1362的子工作流或工作。
被编辑的父工作流是工作流类1202的一个实例。由图形化用户接口响应用户输入创建的箭头1356、1364等表示一个工作或工作流输入1204’、1204的实例。当上述工作流被执行时,这些箭头将一个数据实体作为一个输入联系至一个将通过执行工具来完成的工作。相关工具用例如图标1354的一个“工具”类型图标来指示。上述工具输入联接器1210能够进行每个联系的数据实体的实例的类型检查。箭头1360表示一个工作或工作流输出1206、1206’的实例。当上述工作流被执行时,通过执行上述工具这些箭头将数据实体联系为工作的输出。上述相关工具用一个“工具”类型图标指示。上述工具输出联接器1212能够进行每个联系的数据实体的实例的类型检查。
这种实现的一个益处是图12A和12D中所示的明确定义的类型定义支持彻底的类型检查,这确保了数据的可靠性和完整性。在上述用户接口1300中,可以实现这样上述类型检查,从而一个数据实体和一个工具之间的相互联系只能在上述类型检查成功后被执行。另外,上述数据实体类型可以在上述被选择的工具的输入框1330和输出框1340中显示。
此外,例如子工作流和工作流输入、工作流输出、工作输入和工作输出的抽象概念对上述图形化用户接口的用户隐藏,但是更多的例如数据实体、工具、工具输入和工具输出的具体元素作为直观的图标和箭头对用户可视。
在定量数据的情况下,上述数据实体1216、1352等最好被组织成数据集610、620,并且更具体地被组织成已经结合图6A和6B描述的变量值矩阵614、624。在这个情况中变量值矩阵614、624的一个益处是,可以从多个源获得的软件工具只需要处理阵列而不需处理维数或矩阵行或列描述符。
上述图形化用户接口最好以一种新颖的方式使用已知的“拖放”技术。在传统的图形化用户接口中,拖放技术这样工作,从而如果一个用户将一个盘文件的图标拖到一个软件工具的图标之上,则操作系统将这个用户输入解释为一条用指定软件工具打开指定盘文件的指令。但是本发明最好这样使用拖放技术,从而指定的盘文件(或者任何其他数据实体)不被指定工具立即处理。替代的,一个数据实体到一个软件工具的相互联系被保存到被创建或被更新的工作流中。使用熟悉的拖放隐喻来创建保存的工作流(替代触发ad-hoc动作)可以提供多个益处。例如,保存的工作流能够经过或不经过更改而轻易地重复,替代完全重新创建每个工作流。另一个益处是保存的工作流支持工作流的跟踪。
专用的工具输入和输出联接器使得可以使用事实上任意第三方处理工具。新的、传统的或第三方工具的集成变得容易和系统。
工作流的系统的概念隐藏了第三方工具的专有接口,并且用IMS的公共图形用户接口替代上述专有接口。因此用户可以用一个公共图形用户接口的功能来准备、执行、监视和观察工作流和它们的数据实体。另外,这样的系统的工作流概念支持系统的和完整的文件管理、易重用和自动执行。
数据实体的概念对实验具有任意数据提供了全面的可能性。然而,数据实体类型的概念使得可以理解、确定和控制不同工具的兼容性。如数据集的定量数据的组织,其每个包括一个无量纲的变量值矩阵,提供了来自第三方的软件工具和上述数据集之间的最大兼容性,因为这些工具不需要将数据从维数或数据描述符中分离出来。
由于上述图形化接口,具有生物化学专业知识的研究者可以轻易地将生物上相关数据实体联系至可利用的输入或输出,或者从可利用的输入或输出联系上述生物上相关数据实体,并且得到立即可视化的反馈。没有经验的用户可以重用已有的工作流,以仅仅通过改变输入数据实体重复标准工作流。对每个特定工具的命令行的语法和语义细节进行研究的需求,可以委派给技术上合格的人来完成,其中这个人将新的工具集成到上述系统。这个益处起源于从上述工作流创建中将工具定义分离出来。生物化学专家可以集中精力在工作流创建上(根据数据实体、工作、工作流、工作输入、工作流输入、工作输出、工作流输出来定义),而上述工具定义(工具、工具输入联接器、工具输出联接器、选项、退出代码)被委派给信息技术专家来完成。
从基因序列数据库的途径的自动繁殖
一个具有如结合7A到8描述的途径模型的IMS支持不完整的途径。这是因为途径是根据基本部分来定义的,当更多的信息获知时可以增加基本部分。这种能力的一个益处是上述IMS可以提供有用于从来自外部(通常是商业化的)序列数据库的途径的自动繁殖的硬件和软件装置。所需要的是,到外部数据库的访问装置、每个特定数据库的解析逻辑,以及用于从外部数据库所提供的特征表或其他信息中得到途径部分(或它们中的至少一些)的逻辑。注意上述序列数据库提供途径模型的不明确信息。它们仅仅提供基因信息、它们的编码区域和/或由上述基因编码的蛋白质。但是一个合适的逻辑可以从该信息中推出上述途径部分中的至少一些。上述逻辑可以借助于明确定义的生物化学实体(一个特定的基因和一个特定的蛋白质集合)将由序列数据库提供的注解解释成大量的关系,只要上述序列数据库没有明确告知的这些关系已经被存储在上述途径数据库中(图7A和图7B)。上述序列数据库中也没有告知的相互作用(转录和翻译),不能利用基本的生物化学知识来完整地描述,但是借助于明确定义的生物化学实体和基本生物化学概念,可以在上述途径模型中完整地描述相互作用之间的联系。上述序列数据库甚至不需要包含转录物信息。替代的,上述发明的逻辑可以确定转录物并确定和命名它们。命名通常是必需的,因为mRNA分子通常不与基因或蛋白质类似地被命名。
因此,一个具有上面结合图7A到8描述的途径模型的IMS是基于联系和相互作用的,并且该IMS支持不完整的途径模型。这对从外部数据库中自动地确定联系是一个有用的附加,即使上述相互作用需要在更多信息可利用之后完成。
这里所用的生物学的中心法则表示微生物过程的当前科学观点,而且更具体地表示特定基因到特定转录物的转录和特定转录物到特定蛋白质的翻译。但是具有详细的生物学中心法则信息的系统的途径完全不存在。当基于基因、转录物和蛋白质构建一个实际基因调节网络时,这样的途径将是一个合理的出发点。现有技术途径仅仅包含部分信息(例如如果一个基因的产物是另一个基因的已知调节剂则这两个基因联系在一起)。基因、转录物和蛋白质的关系在机器可读的途径内没有被大量描述。一个解释是这些转录物没有被系统地确定,因此,它们不容易被呈现为途径中相互作用的元素。大途径的创建也被例如命名和建模途径可扩展性等等多个问题所阻碍。根据上述中心法则的途径趋向于复杂化,并且完全没有认识到这样复杂的途径可充分地模型化。
该实施方式从任何典型的DNA序列数据库中取得明确定义的基因,该数据库包含具有它们的DNA序列的确定的基因。这个输入数据不包括明确的例如相互作用的途径数据,其可以解释为什么DNA序列数据库中被隐藏的途径信息的潜能迄今为止被忽视。一个典型的DNA序列数据库提供每个基因的编码区域的注解,每个基因提供DNA序列的一个特定部分,该DNA序列已知为对一个转录物部分和/或一个蛋白质部分进行编码。一些以特定的平面(flat)文件格式或XML格式的DNA序列数据库是可利用的,其包含用于特定关键词注解的FT行或特征表(例如编码区域/序列“CDS”),以及指示上述已注解特征的序列位置的一个字段。典型地,有一些数据库参考,用于基因,有时也用于蛋白质。
一个基因能够根据它的DNA序列、染色体上它的位置以及携带基因的其他基因分子来客观地确定,并能够根据各种名称和数据库参考来主观地确定。
一个转录物可以根据它的RNA序列来客观地确定,该序列得自于相关基因的DNA序列。信使RNA包含已经从相关基因的DNA序列的蛋白质编码区间得到的RNA序列。每一个相关转录物需要被命名。如果没有其他基因产物,则相关转录物可以根据相关基因命名,否则它根据上述基因和它编码的蛋白质命名。
一个RNA序列的三个连续基为一个蛋白质的序列编码一个氨基酸。这表示一个信使RNA编码一个蛋白质,该蛋白质根据它的氨基酸序列来客观地确定或根据它的多个名称或数据库参考来主观地确定。生物化学实体的相似性需要基于客观确定数据进行检查。生物化学实体的名称必须在所有处理途径的应用中保持一致。
该实施方式组合了一个途径模型、一个用于更改和检查途径的网络拓扑的逻辑以及一种对生物化学实体(至少为基因、转录物和蛋白质)的客观和主观确定的管理,这种管理基于基因序列数据、具有与数据库名称相关联的生物化学实体的一致使用的名称的数据库参考数据结构、数据库中使用的id_name以及包含生物化学实体的主观确定的id-string。上述序列数据和主观确定从一个具有不明确相互作用或途径数据的基因序列数据库中取出。
图14A示出了一个过程1400,用于从一个基因序列数据库的途径的自动繁殖。在这个例子中,在一个序列数据库中有两个由参考数字1402和1408表示的已确定基因G1和G2。在该数据库的特征表中有已注解的DNA序列。
在典型的基因序列数据库中,有行标识符、关键词,以及用于特征注解的限定词信息或者序列位置。虽然具有许多不同的标识符、关键词和限定词,但可以利用一些一般共性。
例如,EMBL序列数据库具有如下特征表:
 行 关键词 位置/限定词
 FTFTFTFTFTFT CDS...db_xref=“SWISS-PROT:P49746”.../gene=“THB S3”... 22..2892...
有这样的FT行,上述FT行(特征表)具有指示编码区域的CDS(编码序列)关键词,以及向基因(//gene=“THBS3”)和它们的蛋白质(db_xref=“SWISS-PROT:P49746”)提供各种数据库参考的特定限定词。这表示由THBS3确定的基因具有一个由“SWISS-PROT:P49746”确定的蛋白质产物,并且在该基因和蛋白质之间必定有一个mRNA。名称需要被转换成建议名称(见图2中名称表226)。
让我们假定有特征被注解为有剪接变异产物P1、P2和P3(参考数字1442、1444和1446)的基因G1(由参考数字1402表示)。在这样一个情况中,一个自动繁殖例行程序能够推出必定有三个剪接变异mRNA,即从Tr1=G1到P1的mRNA、Tr2=G2到P2的mRNA和Tr3=G3到P3的mRNA。这些剪接变异mRNA用参考数字1422、1424和1426表示。
让我们进一步假设有一个特征被注解为具有一个产物P4,1448的基因G2,1408。则上述自动繁殖例行程序可以推出必定有一个mRNA,即从G2到P4的Tr4=mRNA,1428。
基于上面的信息,如图14A所示的一个骨架途径可以被自动地创建。
起初,转录相互作用可以用利用核糖核苷酸基质以及之后用已知的转录因子机械地完成。翻译相互作用可以用氨基酸和核糖体完成。上述相互作用虽然是仍不完整的,但是如果存在具有一个已确定的mRNA和蛋白质的已注解特征,则RNA序列数据库可以被用来形成翻译相互作用。
就硬件和软件而言,IMS需要对外部数据库进行访问。许多数据库可以用一个普通的互联网浏览器访问。因此,自动繁殖软件需要仿真一个互联网浏览器或者输出可兼容命令。另外,上述IMS需要一个每个数据库的输出如何安排的信息和解析逻辑。
组成了一个单个逻辑图的图14B和14C,示出了一个用于从基因序列数据库自动地繁殖途径的逻辑例行程序1450,该基因序列数据库提供不明确的途径信息。上述例行程序开始于步骤1451,在该步骤中输入途径名称和位置名称(将被繁殖的途径),以及基因序列文件(例如EMBL平面文件)。在步骤1452中上述逻辑解析基因序列数据(例如EMBL FT行),用于创建外显子记录:Coding sequence annotation(TRUE/FALSE)
   Start point of exon(integer)
   End point of exon(integer)
   DNA sequence from start_point to end_point(string of acgt)
   Database reference of gene(eg based on EMBL/gene qualifier)
         database name(string eg EMBL)
         id_name(string eg/gene)
         id_string(string eg THBS3)
Database reference of protein(eg based on EMBL db_xref)
         database name(string eg SWISS_PROT)
          id_name(string eg AC)
          id_string(string eg P49746)
在步骤1453中上述逻辑从外显子记录中搜索下一个基因。如果没有基因被发现,则上述过程结束。在步骤1455中上述逻辑经一个数据库参考表(不单独示出)将数据库参考翻译成一个基因名称。在步骤1456中上述逻辑从与上述基因相关的外显子记录中搜索下一个蛋白质。如果没有蛋白质被发现,则上述逻辑进入步骤1470。在步骤1458中,如果没有更多的蛋白质被发现,则上述逻辑返回步骤1453。在步骤1459中上述逻辑经一个数据库参考表(不单独示出)将数据库参考翻译成一个蛋白质名称。
在步骤1460中,上述逻辑检查在上述途径中在该基因和该蛋白质之间是否有任何联系的转录物,从而上述基因控制一个转录相互作用并且该转录相互作用产生一个转录物并且该转录物控制一个翻译相互作用并且该翻译相互作用产生上述蛋白质。在步骤1461中,如果转录物被发现,上述逻辑返回步骤1456。在步骤1462到1467,上述逻辑创建如下的途径信息:
转录物:mRNA_from_<基因名称>_to_<蛋白质名称>
相互作用:mRNA_转录_<基因名称>_<蛋白质名称>
相互作用:翻译_<蛋白质名称>
到途径的控制联系:基因控制转录
到途径的产物联系:转录产生转录物
到途径的控制联系:转录物控制翻译相互作用
到途径的产物联系:翻译相互作用产生蛋白质
在步骤1468中,一些其他的生物化学实体(例如氨基酸和核糖体)可以可选地被联系至转录和翻译。接着上述逻辑返回步骤1453。如果缺少蛋白质确定则涉及图14C所示的步骤。在步骤1470中上述逻辑发现上述基因的下一个外显子。如果没有外显子被发现,上述逻辑返回步骤1453。在步骤1472中上述逻辑连接外显子的潜在剪接变异序列。在步骤1473中上述逻辑连接相应的氨基酸序列。在步骤1474中上述逻辑存储潜在的蛋白质的连接的氨基酸序列。在步骤1475中上述逻辑创建具有这些氨基酸序列的潜在的蛋白质。在步骤1476中上述逻辑检查相似的蛋白质是否已经被存储在上述数据库中。如果是,则在步骤1477中上述逻辑删除侯选蛋白质并且利用当前基因和已有的相似蛋白质从步骤1459继续。否则,在步骤1478中上述逻辑利用当前基因和新的蛋白质从步骤1459继续。应当注意这里所描述的途径模型能够容纳比从商业化基因序列数据库等获得的更多的详细信息。这表示上述发明的途径模型可以只是从商业化序列数据库部分地繁殖。但是考虑到大量的生物数据,即使部分自动繁殖也好于完全地手动繁殖。这里描述的途径模型支持不完整的途径信息的事实极大地方便了这种部分自动繁殖。上述途径模型支持不完整的途径信息,因为上述途径被存储为生物化学实体、相互作用、位置等等之间的系统的数据库关系。相比较,一些现有技术系统用简单文本串联(例如“人类_P53”)标记途径元素。如果文本串联中加入更多的限定词,例如一个特殊个体的标识符,则完全不同的标签被创建(例如“人类_12345_P53”),这破坏了数据库系统的完整性。
空间参考模型
图15示出了各种细胞类型的空间参考模型。在前曾声明一个简单笛卡儿或极坐标系统对一些细胞类型是足够的。最好使上述坐标系统归一化,从而使从一个参考点的最大距离是1。
有许多这样的细胞类型,对于它们一个简单的笛卡儿或极坐标系统是不够的。例如,干细胞是定向的,这表示它们具有一个前端和一个后端。神经细胞甚至更复杂。因此,IMS最好包括多个空间参考模型,并且空间点被表示为一个参考模型和该参考模型中一个区域的组合。
图15示出了三个参考模型例子。参考模型1500是一个简单的坐标系统,例如一个三维笛卡儿坐标系统。对于一些细胞类型,一个或两个坐标就足够了。如果涉及的细胞类型具有旋转对称,则一个极坐标系统可能好于一个笛卡儿坐标系统。
参考模型1510基于将一个细胞分成多个区域。区域的数量应该这样选择,从而一条生物化学信息在整个区域内有效。参考模型1510适于例如干细胞的紧凑(compact)定向细胞。上述模型1510是定向的但旋转对称。它有一个前端区域1511,一个后端区域1516、一个细胞核区域1514和各种中间区域1512、1513和1515。上述前端和后端可以相对于一些梯度来选择,例如一个化合物的递减浓度。
参考模型1520是一个对神经细胞拓扑进行建模的例子。它具有一个细胞核区域1521、围绕该细胞核的各个部分1522、1523、一个体细胞区域1524、一个轴突区域1525等等。如果需要,归一化空间坐标可以用来进一步增加详细等级。例如,一个轴突的纵向中点处的外表面的一个点可以用{1520,1525,(0.5,1)}表示,其中1520表示参考模型,1525表示该参考模型内的区域,0.5是沿上述轴突的一个规范化纵向坐标并且1表示沿着上述轴突的横截面的半径的100%。
模式匹配
图16A到16C示出了一种用于搜索与给定模式相匹配的途径的技术。根据本发明的另一个优选实施方式,IMS包括一个能够搜索拓扑模式(途径图形)的模式匹配逻辑。在模式匹配中,上述搜索标准没有约束并且搜索可以基于例如通配符或基因本体。
图16A示出了一个示范途径,其是用于模式匹配的一个典型侯选。图16A使用与图8相同的附图符号。参考数字1600总体上表示这样一个途径,其模仿自抑制,即一个基因表达由该基因所编码的产物(蛋白质)调节的过程。途径模型1600如下模仿一个调节过程。基因A1602与相互作用B1606有一种“活化”关系1604。相互作用B1606与转录物C1610有一种“产生”关系1608,该转录物与相互作用D1614有“活化”关系1612。相互作用D1614与蛋白质E1618有一种“产生”关系1616,与相互作用B1606的“抑制”关系1620这样的结束导致了自调节。
图16B总体上示出了一个模式匹配逻辑1650。假定一个研究者希望为自调节机制搜索IMS。为了支持这样的搜索,IMS最好包括一个模式匹配逻辑1650,该逻辑被安排来基于包括通配符的搜索标准1652执行通配符搜索。在这个例子中,上述搜索标准1652如下:G[*]活化I[*]产生Tr[*]活化I[*]产生P[*]抑制@3
这个例子包括两个特定符号。由参考符号1652A表示的星号“*”,是匹配任何字符串的通配符表达式。在信息技术领域中这种通配符是众所周知的,但是只有依靠存储生物化学信息的系统的方法才有可能使用这种通配符。由参考符号1652B表示的最后一项“@3”是另一个特定字符,并且表示搜索标准1652中的第三项,即被任意基因G[*](=第一项)活化(=第二项)的相互作用I[*]。模式匹配逻辑1650可以处理如“@3”1652B的参考在搜索标准1652中前面项的特定项的事实,使得上述模式匹配逻辑1650能检索包含循环的途径。
除了上述可以包括通配符的搜索标准1652,上述模式匹配逻辑1650可以有另一个输入1654,该输入指示潜在途径列表。该列表可以是特定途径的明确列表,或者是被表示为进一步搜索标准的不明确列表,进一步搜索标准基于上述途径模型的元素(对于潜在搜索标准,见图7A到8)。作为它的输出,上述模式匹配逻辑1650产生与搜索标准1652相匹配的途径列表1656。
例如,可以按如图16C中所示的递归树搜索算法1670来实现上述模式匹配逻辑1650。步骤1672开始一个数据库查询,该查询返回与研究者的查询参数相匹配的途径列表1654。例如,上述查询参数可以涉及这样位置214,该位置在图2中被更详细的示出,从而该位置指示一个人的肝脏。在步骤1674中,如果没有发现更多的匹配途径,则该过程结束。当一条途径被取出用于研究时,上述搜索标准1652的第一元素在步骤1676中被选择。在步骤1678中,在当前途径中对与上述搜索标准的第一元素相匹配的元素的下一个进行搜索。在步骤1680中,如果当前途径不再有与标准的第一元素相匹配的元素,则将尝试下一个途径。在步骤1682中,从当前途径递归地构造出树结构1682,以当前元素当作树结构的根节点。在步骤1684中测试当前被测树结构是否与搜索标准1652相匹配。如果是,则在步骤1686中当前途径被标记为是一个良好途径。例如,当前途径可以被拷贝到上述匹配途径列表1656。如果当前树结构与搜索标准1652不匹配,在步骤1688中,测试所有来自当前途径元素的树结构是否都已经被尝试。如果不是,则上述过程返回步骤1682,在该步骤中构造下一个树结构。如果所有来自当前途径元素的树结构都已经被尝试,则上述过程返回步骤1676-1678,在这些步骤中上述搜索标准1652的第一元素被再次取出,并且尝试另一个匹配途径元素作为根节点,用于构造匹配树结构的侯选,等等。
至于步骤1682的实现,其中树结构从测试中的途径构造,树搜索算法在编程文献中公开。在一个标准树搜索算法中,通常不允许循环,但是在步骤1682中,如果一个循环与上述搜索标准1652中的循环相匹配,则该循环是允许的。
图16B中所示的例子基于文本通配符。一个更有能力的系统可以利用本体数据库实现。这表示在图16C的步骤1682中,上述匹配测试基于本体查询而不是通配符匹配。
在图16B和16C所示的实施方式中,上述搜索标准(途径模式)以文本形式表示。也可以输入这样一种途径模式,将以通常输入IMS的途径的相同的方式搜索该模式。图16A示出了一种传统途径1600的例子,虽然在现实情况中,标识符A到E将被生物化学实体的实际标识符替代。图16D示出了一种途径模式(图形)1660,该模式与途径1600在结构上相同,但是通配符用来替代生物化学实体的一些或所有标识符。在这个例子中,可以将途径模式(图形)1660的一个标识符输入途径匹配逻辑1650,而不是文本搜索标准1652。
图16E示出了一个示范的SQL查询1690,用于取回与途径模式1660相匹配的途径。在这个例子中已经生成这样的搜索标准从而pathway_id=2对应途径Pw[...]L[...]。SQL查询1690的内容可以作如下解释。SELECT语句取回变量C1_id到C5_id的值的五个id域。FROM从句指定上述查询将从联系表取回那些联系,这些联系的id域在SELECT语句中被请求。WHERE从句指定如下条件:
-所有联系必须具有pathway_id=2(途径模式的id);
-联系C1的类型为3(控制);
-联系C2的类型为3(产生);
-联系C3的类型为3(控制);
-联系C4的类型为3(产生);
-联系C5的类型为3(抑制)。
这些联系的对象类(基因、转录物、...)如下:
-联系C1和C3有一个公共实体,C4和C5也是这样;
-联系C1和C2有一个公共相互作用;
-联系C3和C4有一个公共相互作用;
-联系C5和C1有一个公共相互作用;
-联系C5和C2有一个公共相互作用;
当查询1690被处理时,它的结果集指示满足上面的标准的途径。在上述已取回的途径中,只要上述五个联系已经借助于它们的id域被缺点,模式(图形)1660将容易定位。
上述搜索标准的生成包括下面步骤:
1.读取途径模式(搜索的图形)的联系;
2.基于它们的号码,生成SELECT语句和FROM从句;
3.形成基于途径模式的WHERE从句的条件;
4.为联系类型形成条件;
5.为联系的对象类构造条件;
6.为连接上述联系的生物化学实体形成确定条件;
7.为连接上述联系的相互作用形成确定条件;
如果上述途径图形中的一些实体已经通过GO类或它自己的名称被确定,则SQL查询的生成包括进一步的条件,其中注解所联系的GO类或者实体的名称限制登录结果集合。
通过结合图7A到8描述的系统的途径模型,以及结合图3A到5描述的系统的变量描述语言,极大的促进了这样一个相对简单的数据库查询的拓扑模式匹配。
对本领域的人而言,随着技术进步,上述发明概念可以以不同方式实现。上述发明和它的实施方式不受上面所描述的例子限制,而是可以在权利要求的范围内变化。
缩略词
IMS:信息管理系统
VDL:变量描述语言
SQL:结构化查询语言
XML:可扩展标记语言

Claims (15)

1.一种用于管理生物化学信息(200)的信息管理系统[=“IMS”],该IMS包括:
一个服务器(S)和一个数据库(DB),其中该数据库包括作为变量数据集(202,610,620,630)的上述生物化学信息(200),其中每个变量数据集包括:
一个变量值矩阵(614,624,634),其包含按行和列组织的变量值;
上述变量值矩阵中的行的行描述列表(613,623,633),其使用一种变量描述语言(30);
上述变量值矩阵中的列的列描述列表(612,622,632),其使用该变量描述语言(30);以及
对上述变量值矩阵中的所有值公共的一个或多个定维的定维描述(611,621,631),其使用该变量描述语言(30)。
2.根据权利要求1的IMS,其中上述服务器(S)包括一个文件系统,并且独立于上述行描述列表、列描述列表或者定维描述,经该文件系统可寻址上述变量值矩阵(614,624,634)。
3.根据权利要求1或者2的IMS,其中:
上述变量描述语言(30)包括变量描述,每个变量描述包括一对或多对关键词(32)和名称(34);并且
上述IMS包括一个可允许关键词表(38)。
4.根据权利要求3的IMS,还包括一个用于对以上述变量描述语言所表示的变量执行一个语法检查的逻辑(300)。
5.根据权利要求3或者4的IMS,其中上述IMS包括复合变量表达式,每个复合变量表达式包括由操作符和/或函数所分离的两个或者更多变量表达式。
6.根据前面任何一个权利要求的IMS,还包括由至少途径(212)、生物化学实体(218)、联系(216)和相互作用(222)构成的生物化学途径(700)的结构化描述,其中:
每个途径(212)与一个或多个联系(216)有关系;
每个联系(216)连接一个生物化学实体(218)和一个相互作用(222);并且
每个途径(212)与一个特定的位置指示(214)有关系。
7.根据权利要求6的IMS,其中每个相互作用(222)与一个或者多个反应动力学规律(224)有关系。
8.根据权利要求6或者7的IMS,还包括用于将多个预先确定的角色之一和每个联系相关联的装置,其中上述角色指示上述生物化学实体(218)在上述相互作用(222)中的角色,并且上述多个预先确定的角色包括基质(840)、产物(850)、催化剂(860)和抑制剂(870)。
9.根据权利要求6到8中任何一个的IMS,还包括用于将一个化学计算系数与每个联系相关联的装置,其中上述化学计算系数指示在上述相互作用(222)中所消耗或所产生的上述生物化学实体(218)的分子的数量。
10.根据权利要求6到9中任何一个的IMS,还包括一个用户接口逻辑,用于示出生物化学途径(700)的上述结构化描述的视图(800)。
11.根据权利要求10的IMS,其中上述用户接口逻辑包括用于示出生物化学途径(700)的生物化学实体(881)、相互作用(882)和/或联系(883)上的被测或者被扰动的变量的视图(800)的装置。
12.根据权利要求6到11中任何一个的IMS,还包括用于将多个途径(711-713)组合成复杂途径的途径联系(720,730)。
13.根据前面任何一个权利要求的IMS,还包括一个用户接口逻辑,用于示出相互关联的变量数据集之间的数据轨迹(1102-1174)。
14.根据前面任何一个权利要求的IMS,其中现实的生物化学实体和模拟实验被存储在结构上相似的变量数据集中。
15.一种用于管理生物化学信息(200)的方法,该方法包括将上述生物化学信息(200)存储为变量数据集(202,610,620,630),其中每个变量数据集包括:
一个变量值矩阵(614,624,634),其包含按行和列组织的变量值;
上述变量值矩阵中的行的行描述列表(613,623,633),其使用一种变量描述语言(30);
上述变量值矩阵中的列的列描述列表(612,622,632),其使用该变量描述语言(30);以及
对上述变量值矩阵中的所有值公共的一个或多个定维的定维描述(611,621,631),其使用该变量描述语言(30)。
CNA2004800232855A 2003-07-04 2004-07-02 用于生物化学信息的信息管理系统 Pending CN1836234A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
FI20031025 2003-07-04
FI20031026 2003-07-04
FI20031020 2003-07-04
FI20031028 2003-07-04
FI20031027 2003-07-04
FI20031027A FI117067B (fi) 2003-07-04 2003-07-04 Informaationhallintajärjestelmä biokemiallista informaatiota varten
FI20045040 2004-02-16

Publications (1)

Publication Number Publication Date
CN1836234A true CN1836234A (zh) 2006-09-20

Family

ID=27636065

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800232855A Pending CN1836234A (zh) 2003-07-04 2004-07-02 用于生物化学信息的信息管理系统

Country Status (4)

Country Link
US (1) US20050010369A1 (zh)
EP (1) EP1494142A1 (zh)
CN (1) CN1836234A (zh)
FI (1) FI117067B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法
CN104866248A (zh) * 2015-06-12 2015-08-26 中国地质大学(武汉) 一种量化语义块关系的方法及装置
WO2017101112A1 (zh) * 2015-12-18 2017-06-22 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
CN107978362A (zh) * 2016-10-25 2018-05-01 西门子医疗有限公司 在医院网络中利用数据分布的查询

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143094A1 (en) * 2005-12-15 2007-06-21 Torres Robert J Systems, methods, and media for integrating and driving experimental design and analysis
AU2014274224B2 (en) * 2013-05-28 2016-06-09 Five3 Genomics, Llc Paradigm drug response networks
US11853032B2 (en) 2019-05-09 2023-12-26 Aspentech Corporation Combining machine learning with domain knowledge and first principles for modeling in the process industries
US11782401B2 (en) 2019-08-02 2023-10-10 Aspentech Corporation Apparatus and methods to build deep learning controller using non-invasive closed loop exploration
WO2021076760A1 (en) 2019-10-18 2021-04-22 Aspen Technology, Inc. System and methods for automated model development from plant historical data for advanced process control
US11630446B2 (en) * 2021-02-16 2023-04-18 Aspentech Corporation Reluctant first principles models
US11556696B2 (en) * 2021-03-15 2023-01-17 Avaya Management L.P. Systems and methods for processing and displaying messages in digital communications

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6341279B1 (en) * 1998-10-12 2002-01-22 Starwave Corporation Method and apparatus for event modeling
US6434558B1 (en) * 1998-12-16 2002-08-13 Microsoft Corporation Data lineage data type
US6343295B1 (en) * 1998-12-16 2002-01-29 Microsoft Corporation Data lineage
JP3545271B2 (ja) * 1999-09-14 2004-07-21 富士通株式会社 Cadシステム、cad連携システム、cadデータ管理方法及び記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法
CN104866248A (zh) * 2015-06-12 2015-08-26 中国地质大学(武汉) 一种量化语义块关系的方法及装置
WO2017101112A1 (zh) * 2015-12-18 2017-06-22 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
CN107978362A (zh) * 2016-10-25 2018-05-01 西门子医疗有限公司 在医院网络中利用数据分布的查询
CN107978362B (zh) * 2016-10-25 2022-12-02 西门子医疗有限公司 在医院网络中利用数据分布的查询

Also Published As

Publication number Publication date
FI20031027A (fi) 2005-01-05
FI20031027A0 (fi) 2003-07-04
FI117067B (fi) 2006-05-31
EP1494142A9 (en) 2005-09-07
EP1494142A1 (en) 2005-01-05
US20050010369A1 (en) 2005-01-13

Similar Documents

Publication Publication Date Title
Somerville et al. Plant biology in 2010
Pearl et al. The CATH Domain Structure Database and related resources Gene3D and DHS provide comprehensive domain family information for genome analysis
Mueller et al. AraCyc: a biochemical pathway database for Arabidopsis
CN1082208C (zh) 从语言中性源程序产生语言专用接口定义的系统和方法
CN1153161C (zh) 使用智能注释来组织、链接和操作不同数据对象的系统和方法
CN1573744A (zh) 进行非结构化信息管理和自动文本分析的系统和方法
CN1137320A (zh) 用于建立关系型数据库模式的语义目标模型化系统
CN1535429A (zh) 可重用数据标记语言
Bernasconi et al. Empowering virus sequence research through conceptual modeling
CN1839401A (zh) 信息处理装置及信息处理方法
CN101048732A (zh) 面向对象的数据集成服务体系结构
Stoltzfus et al. Sharing and re-use of phylogenetic trees (and associated data) to facilitate synthesis
AU2016287731A1 (en) Laboratory experiment data exploration and visualization
CN1365470A (zh) 构造和使用知识库的方法
CN1535433A (zh) 基于分类的可扩展交互式文档检索系统
CN1752963A (zh) 文档信息处理设备、文档信息处理方法及处理程序
CN1240522A (zh) 用于计算机应用程序开发和执行的方法、系统和数据结构
WO2003106998A1 (en) Systems and methods for constructing genomic-based phenotypic models
CN1836234A (zh) 用于生物化学信息的信息管理系统
Tahir Ul Qamar et al. ppsPCP: a plant presence/absence variants scanner and pan-genome construction pipeline
CN1266645C (zh) 知识的自动生成方法、知识的自动生成系统、自动设计方法及其自动设计系统
CN1266633C (zh) 语音查询中的辨音方法
Altenhoff et al. OMA orthology in 2024: improved prokaryote coverage, ancestral and extant GO enrichment, a revamped synteny viewer and more in the OMA Ecosystem
Fernandez-Ricaud et al. PROPHECY—a database for high-resolution phenomics
Vankadavath et al. Computer aided data acquisition tool for high-throughput phenotyping of plant populations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication