JP2007520773A - 生化学情報のための情報管理システム - Google Patents
生化学情報のための情報管理システム Download PDFInfo
- Publication number
- JP2007520773A JP2007520773A JP2006516238A JP2006516238A JP2007520773A JP 2007520773 A JP2007520773 A JP 2007520773A JP 2006516238 A JP2006516238 A JP 2006516238A JP 2006516238 A JP2006516238 A JP 2006516238A JP 2007520773 A JP2007520773 A JP 2007520773A
- Authority
- JP
- Japan
- Prior art keywords
- variable
- data
- ims
- biochemical
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/10—Boolean models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Business, Economics & Management (AREA)
- Physiology (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
生化学情報(200)を管理する情報管理システム。生化学情報(200)は、データセット(202)を含み、各データセットは、行および列として編成された変数値を含む変数値行列と、変数値行列内の行の、変数記述言語の行記述リストと、変数値行列内の列の、変数記述言語の列記述リストと、変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とを含む。数値をスカラ行列として記憶することによって得られる恩恵は、自己編成マップまたは他のクラスタ化アルゴリズムのような、次元化された値を処理するのが容易でない、多くの市販のデータマイニングツールで、行列を解析できることである。
【選択図】 図1
【選択図】 図1
Description
本発明は、生化学情報を管理するための情報管理システム(information management system, IMS)に関する。
生化学の研究は、科学の何れの分野にも見られなかった割合で莫大な量のデータを持ってきた。本発明の基礎となる問題は、膨大な量の迅速に変化する情報を編成する難しさに関する。IMSシステムは、自由な形式をとるか、または自由に構成されることができる。自由な形式のIMSの周知の例は、研究機関のローカルエリアネットワークであり、情報の生産者(研究者、など)が、ワードプロセッサ、スプレッドシート、データベース、等のような、一般的に入手可能な、または所有権を保護されたアプリケーションプログラムの何れかを使用して、情報を任意のフォーマットで入力することができる。構造化されたIMSとは、統合されたデータベースに情報を記憶するためのシステム全体の規則をもつシステムを意味する。
構造化されたIMSに関する問題は、それが新しいタイプの情報に適応しなかったり、または新しいタイプの情報を入力することが種々の対処技術を必要とし得ることである。他方で、自由な形式のIMSは、記憶された情報を解釈するのに、外部の知識を必要とし得るという欠点がある。これは、例えば、実験の文書が数値は含んでいるが、その文書には数値または実験の仕組み、あるいはこの両者の完全な意味が含まれていないことを意味する。そうではなくて、実験が完全に文書化されているときは、文書は非常に長く、不明瞭になりがちである。
本発明の態様では、上述の欠点を軽減する情報管理システム(以下では、短縮して、“IMS”)を提供する。IMSは、IMS内に含まれている情報を解釈するのに必要とされる外部情報が可能な限り少ないように、論理的に完全であるべきである。さらに加えて、IMS内に含まれている情報は、多様な情報処理ツールによってアクセスされることができるように構造化されるべきである。
本発明の目的は、独立特許請求項に記載されていることによって特徴付けられるIMSによって達成される。本発明の好ましい実施形態は、従属特許請求項に開示されている。
本発明にしたがうIMSは、個体群、個体、他の生体材料の試薬または試料(生物学/生化学システムまたはその構成要素として研究されることができるもの)に関する情報を記憶するのに使用され得る。IMSは、実験データベースを含むことが好ましい。実験は、実際の実験(“ウエットラボ(wet lab)”)であっても、または模擬実験(“インシリコ(in-silico)”)であってもよい。本発明にしたがって、両者の実験形式では、構造的に類似した変数データセットを生成し、各変数データセットは、
−変数値を行−列編成で記述する変数値行列と、
−変数値行列内の行の、変数記述言語の行記述リストと、
−変数値行列内の列の、変数記述言語の列記述リストと、
−変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とを含む。
−変数値を行−列編成で記述する変数値行列と、
−変数値行列内の行の、変数記述言語の行記述リストと、
−変数値行列内の列の、変数記述言語の列記述リストと、
−変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とを含む。
各実験の数値は、スカラ(無次元)数として、行−列編成をもつ変数値行列に記憶されることが好ましい。スカラ数のこのような行−列の行列は、多様な既製の、または所有権を保護されたアプリケーションプログラムでも処理されることができる。変数値行列内の行および列の意味をそれぞれ記述するための異なる行記述リストおよび列記述リストがある。異なる固定次元の記述は、変数値行列内の全ての値に共通の固定次元を記述している。行記述リスト、列記述リスト、および固定次元の記述は、任意の変数値をIMSの構造化された情報にリンクするために、変数記述言語で書かれる。
変数記述言語(variable description language, VDL)の使用によって得られる恩恵は、IMSがほぼ自足できるということである。数値を解釈するのに、外部情報はほとんど、または全く必要とされない。さらに加えて、変数表現に対して自動シンタックス検査を強制することは比較的に簡単なタスクである。VDLの本質的な特徴は、それが、変数の記述を異なる詳細レベルで可能にしたことである。例えば、VDLは、変数(例えば、計数、質量、濃度)、単位(例えば、pieces(個、枚、片、本、等)、kg、mol/l)、生化学エンティティ(例えば、特定の転写産物、特定蛋白質、または特定化合物)によって量子化されるものを記述し得る。VDLは、量子化が妥当である特定の位置を特定することもできる。位置は、マルチレベルの位置階層において生体材料用語(例えば、環境、個体群、個体、試薬、試料、有機体、器官、組織、細胞型)によって表現され得る。VDLは、絶対および相対時間と、時間間隔とを特定することもできる。したがって、VDLは、ほぼ何れの種類の生化学情報も表現することができる。他方で、所与の文脈において不必要な詳細は省かれ得る。
拡張可能なマーク付け言語(eXtensible Markup Language, XML)は、変数記述言語として使用されることができる言語の周知の例である。しかしながら、XMLに関する問題は、これが、実質的にあらゆる種類の構造化された情報を記述することを意図されていて、その結果、人間が完全に読むことができない、非常に長い表現になることである。したがって、本発明の好ましい実施形態は、生化学変数を記述するのに、XMLよりも、よりよく適した変数記述言語に関する。さらに加えて、XML、およびその生化学または数学の変形、例えば、システム生物学マーク付け言語(Systems Biology Markup Language, SBML)、細胞マーク付け言語(Cell Markup Language, CellML)、または数式記述マーク付け言語(Mathematical Markup Language, MathML)における表現は、一般に、生化学変数を数学モデルで記述する自己文書化記号としての働きをするには、長過ぎるか、または複雑過ぎる。したがって、本発明の別の好ましい実施形態は、XMLおよびその変形の問題を克服した、コンパクトであるが拡張可能なVDLを含む。
数値をスカラ行列として記憶することによって得られる恩恵は、自己編成マップまたは他のクラスタ化アルゴリズムのような、次元化された値を処理するのが容易でない、多くの市販のデータマイニングツールで、行列を解析できることである。したがって、行および列の記述は、別々に記憶される。第3のリスト、すなわち、固定次元の記述の使用によって得られる恩恵は、行および列に共通の次元を、行および列の記述リストに複製する必要がないことである。
IMSの処理は、各データセット(各データセットは、変数値行列、行記述リスト、列記述リスト、および固定次元の記述を含む)をデータのコンテナとして記憶し、データベースにコンテナのアドレスまたは識別子のみを記憶することによって、高速化することができる。データセットを検索するのに、構造化照会言語(structured query language, SQL)または他のデータベース照会が使用されると仮定すると、単一コンテナのアプローチは、SQL照会によって処理される個々のデータ項目の数を格段に低減する。個々のデータ要素が必要とされるときは、コンテナ全体が、スプレッドシートまたは単層ファイルデータベースシステムのような適切なツールによって処理されることができる。しかしながら、SQLに基づく実施は、とくに、データが希薄であるとき、または各データ項目を適切なデータテーブルに1回だけ記憶することによって効率的に記憶されることができる冗長の変数記述があるときは、この種のデータセットを内部で表わす効果的なやり方であり得る。
本発明にしたがう変数データセットの別の長所は、適切に定義された文脈を良好に支援することである。文脈は、実験の範囲、すなわち、ウエットラボまたはインシリコの何れかを定める。各文脈は、生体材料、変数、および時間に関して定められる。
本発明の別の好ましい実施形態にしたがうと、IMSは、オブジェクトまたはテーブルを含む生化学エンティティのデータベースも含む。変数記述言語は、各変数の記述が、キーワードと名前との1つ以上の対を含む変数の記述を含む。生化学エンティティのデータベースの各オブジェクトまたはテーブルごとに、そのオブジェクトまたはテーブルを参照するキーワードがある。この実施形態は、記憶されている情報に対して行われる自動シンタックス検査または他の検査を容易にする。
本発明の別の好ましい実施形態にしたがうと、IMSは、オブジェクトまたはテーブルを含む生化学エンティティのデータベースも含む。変数記述言語は、各変数の記述が、キーワードと名前との1つ以上の対を含む変数の記述を含む。生化学エンティティのデータベースの各オブジェクトまたはテーブルごとに、そのオブジェクトまたはテーブルを参照するキーワードがある。この実施形態は、記憶されている情報に対して行われる自動シンタックス検査または他の検査を容易にする。
本発明の別の態様は、生物学的経路の構造化された記述を記憶するデータベースであって、これは、少なくとも、経路、生化学エンティティ、接続、および相互作用から形成され、
−各経路は、1つ以上の接続への関係をもつ;
−各接続は、1つの生化学エンティティと1つの相互作用とを接合する;
−各経路は、特定の位置表示への関係をもつ。
−各経路は、1つ以上の接続への関係をもつ;
−各接続は、1つの生化学エンティティと1つの相互作用とを接合する;
−各経路は、特定の位置表示への関係をもつ。
各相互作用は、1つ以上の運動の法則への関係をもつことが好ましい。
IMSは、いくつかの所定の役割表示の1つを各接続に関係付ける論理ルーチンを含むことが好ましい。関係付けられた役割表示は、相互作用における生化学エンティティの役割を示し、いくつかの所定の役割は、基質、生成物、アクチベータ、およびインヒビタを含む。
IMSは、いくつかの所定の役割表示の1つを各接続に関係付ける論理ルーチンを含むことが好ましい。関係付けられた役割表示は、相互作用における生化学エンティティの役割を示し、いくつかの所定の役割は、基質、生成物、アクチベータ、およびインヒビタを含む。
IMSは、化学量論係数を各接続に関係付ける論理ルーチンを含むことが好ましく、化学量論係数は、相互作用において消費または生成される生化学エンティティの分子数を示す。
特定の位置表示は、マルチレベルの位置階層を含むことが好ましく、生化学エンティティの位置は、生化学エンティティについて、明示的に、個別に表現される。対照的に、多くのシステムは、“murine P53”のような簡単なテキストの連結によって、位置情報を暗黙的に記憶し、生化学エンティティの名前は、位置の暗黙的表示を含む(マウス)。
特定の位置表示は、マルチレベルの位置階層を含むことが好ましく、生化学エンティティの位置は、生化学エンティティについて、明示的に、個別に表現される。対照的に、多くのシステムは、“murine P53”のような簡単なテキストの連結によって、位置情報を暗黙的に記憶し、生化学エンティティの名前は、位置の暗黙的表示を含む(マウス)。
さらに加えて、IMSは、生物学的経路の構造化された記述の視覚化を示すためのユーザインターフェイス論理を含むことが好ましい。ユーザインターフェイス論理は、生化学エンティティ、相互作用、および/または生物学的経路の接続に対する局所化された測定された、または変動する(perturbated)変数の視覚化を示す手段を含むことが好ましい。
大きい、または相互接続された、あるいはこの両者の経路を管理するために、IMSは、幾つかの経路を複合の経路(complex pathway)へ結合する経路接続を含むことが好ましい。
別の好ましい実施形態では、IMSは、幾つかの生化学エンティティの各々の式を自動的に生成する式生成論理を含む。ここで、式の各々は、経路、接続、相互作用、および運動の法則に基づく、生化学エンティティの量的変数の変化を記述し、式生成論理は、生化学エンティティと関係付けられた全てのフラックスを結合することによって、式を生成するように働くことができる。微分方程式または差分方程式、あるいはこの両者のような式が、変化を記述し得る。
別の好ましい実施形態では、IMSは、幾つかの生化学エンティティの各々の式を自動的に生成する式生成論理を含む。ここで、式の各々は、経路、接続、相互作用、および運動の法則に基づく、生化学エンティティの量的変数の変化を記述し、式生成論理は、生化学エンティティと関係付けられた全てのフラックスを結合することによって、式を生成するように働くことができる。微分方程式または差分方程式、あるいはこの両者のような式が、変化を記述し得る。
雑音(不規則な変動(fluctuation)、等)を含む信号を処理するために、式は、1つ以上の雑音変数を含む。
IMSは、この式と、一組の初期および/または境界条件とを使用して、経路をシミュレートするシミュレーション論理を含むことが好ましい。
IMSは、この式と、一組の初期および/または境界条件とを使用して、経路をシミュレートするシミュレーション論理を含むことが好ましい。
遺伝子の自己抑制機構のような、特定のパターンに整合する経路を検索するために、IMSは、パターン照合論理を含むことが好ましい。パターン照合論理は、ループを含む経路を検索する手段を含むことが好ましい。パターン照合論理は、特定のパターンに整合する経路を検索することもできる。ここでは、特定のパターンは、遺伝子のオントロジを指す。
IMSは、相互に関係するデータセット間のデータトレースを示すユーザインターフェイス論理を含むことが好ましい。
本発明のさらに別の態様は、
−遺伝子の識別子と遺伝子のコード化区域との関連付けである遺伝子情報を、1つ以上の配列データベースから受取ることと、
−前記遺伝子情報から生化学経路を自動的に生成することとによって、生化学情報をデータベースに自動的にポピュレートするための自動経路ポピュレーション論理である。
本発明のさらに別の態様は、
−遺伝子の識別子と遺伝子のコード化区域との関連付けである遺伝子情報を、1つ以上の配列データベースから受取ることと、
−前記遺伝子情報から生化学経路を自動的に生成することとによって、生化学情報をデータベースに自動的にポピュレートするための自動経路ポピュレーション論理である。
遺伝子情報は、遺伝子および生成物を含み、IMSは、遺伝子と生成物との間の中間のステップを判断する論理を含む。
自動経路ポピュレーション論理は、遺伝子と蛋白質との対の記述を受取ることができ、中間ステップは、生化学エンティティとしての転写産物、遺伝子から転写産物への転写の相互作用、および転写産物から蛋白質への翻訳の相互作用を含む。
自動経路ポピュレーション論理は、遺伝子と蛋白質との対の記述を受取ることができ、中間ステップは、生化学エンティティとしての転写産物、遺伝子から転写産物への転写の相互作用、および転写産物から蛋白質への翻訳の相互作用を含む。
情報を複製するのを避けるために、経路ポピュレーション論理は、類似の蛋白質がデータベースに既に記憶されているかどうかを検査することが好ましい。単純な名前に基づく検査は、異なるユーザが、1つの蛋白質に幾つかの異なる名前を与えていることがあるので、不出来なものである。その代りに、好ましい検査は、蛋白質に含まれている1つ以上のアミノ酸配列に基づく。
IMSは、ユーザによる完了のために自動的に生成される生化学経路を与えるためのユーザインターフェイス論理を含むことが好ましい。
本発明のさらに別の態様は、位置情報の明示的なデータ要素である。位置情報のデータ要素は、階層形であることが好ましい。好ましい階層は、5つのレベル、すなわち、大きいものから小さいものへの順に、有機体−器官−組織−細胞型−細胞内区画を含む。
本発明のさらに別の態様は、位置情報の明示的なデータ要素である。位置情報のデータ要素は、階層形であることが好ましい。好ましい階層は、5つのレベル、すなわち、大きいものから小さいものへの順に、有機体−器官−組織−細胞型−細胞内区画を含む。
別の好ましい実施形態は、階層の6番目のレベル、すなわち、細胞内区画の空間点を記憶することによって詳細のレベルを高める。細胞の形状は変化するので、細胞または細胞内区画内の空間点を表わすことは、取るに足らない作業ではない。細胞には、球体に似たものや、ブロックのようなもの、等がある。このような細胞には、極座標系またはデカルト座標系をそれぞれ使用することができる。単純な極座標系またはデカルト座標系は、形状が極端に複雑な神経細胞には明らかに不十分である。したがって、IMSは、いくつかの空間参照モデルを記憶することが好ましく、空間点は、特定の参照モデルの関連する区域として表現される。位置情報は、さらに、特定の参照モデルと、特定モデル内の区域、およびその区域内の座標の組の組み合せである。
位置情報は、階層形であるので、“murine P53”のように、各生化学エンティティの名前の一部として位置を暗黙的に記憶する幾つかのシステムとは対照的に、IMSは不完全な情報を許容する。新しい生化学情報が得られると、その情報が得られた実験に整合する位置情報を記憶することができる。後で、より多くの情報が得られると、位置情報はさらに一般化されるか、または特定されることができる。
本発明のさらに別の態様は、生化学情報とその情報を生成する実験とを、同じデータ要素によって適切であるどんなところにでも記述するIMSである。言い換えると、生化学情報のデータ構造と実験のデータ構造とは、同じデータ要素を、適切であるどんなところでも参照する。例えば、実験のデータ構造は、両者が特定の生体材料試料であり得る、入力データ要素および出力データ要素を参照する。本発明にしたがうと、生化学情報のデータ構造は、同じデータ要素を使用して、生体材料試料を記述する。
生化学情報のデータ構造と、実験のデータ構造との間で共通のデータ要素を共用することは、ある特定の効果をもたらす。例えば、各生体材料情報または各生化学情報の履歴を追跡できる完全な追跡システムを実施することが、比較的に簡単なタスクになる。さらに加えて、このようなIMSは、多くのタイプの生産性解析を支援する。例えば、本発明の好ましい実施形態は、接続および相互作用によって生化学経路を記述する特定のやり方に関する。IMSは、資源(例えば、時間、人、財源、等)ごとの追加される接続数を追跡することによって生産性を監視し得る。
本発明の好ましい実施形態は、次の構造をもつプロジェクトデータベースを管理するプロジェクトエディタを含む。プロジェクトデータベースは、いくつかのプロジェクトを記憶することができる。各プロジェクトは、1つ以上の実験を含む。各実験は、実験入力から実験出力を生成する特定の方法に関係する。さらに加えて、各実験は、人間または装置、あるいはこの両者の資源を特定することが好ましい。実験入力と実験出力との両者は、生体材料(ウエットラボ)またはデータエンティティ(インシリコ)として特定される。方法は、方法の記述に関係する。生体材料またはデータエンティティのように同様に特定される実験目標もあることが好ましい。
次に、本発明は、添付の図面を参照して、好ましい実施形態によってより詳しく記載される。
図1は、本発明が使用され得る情報管理システム、IMSの簡単なブロック図である。この例では、IMSは、クライアント/サーバシステムとして実施されている。図のワークステーションのような、いくつかのクライアント端末(client terminal, CT)は、ローカルエリアネットワークまたはインターネットのような、ネットワーク(network, NW)を介して、サーバ(またはサーバの組)(server, S)にアクセスする。サーバは、データベース(database, DB)を含むか、または接続されている。サーバ内の情報処理論理およびデータベース内のデータが、IMSを構成する。データベースDBは、構造と内容とを含む。本発明の好ましい実施形態は、IMSのデータベースDBの構造を向上する。サーバSも、種々の処理論理を含む。通信論理は、クライアント端末と通信するための基本的なサーバの機能を与える。種々のユーザインターフェイスを生成するユーザインターフェイス論理があることが好ましい。入力されるデータに意味があるかを検査するための種々の検査(例えば、シンタックス検査または範囲検査)があり得る。非常に有益な特徴は、データを視覚的にトレースするトレーシング論理をもつプロジェクトマネージャである。
サーバ(またはサーバの組)Sは、データ解析、視覚化、データマイニング、等のための種々のデータ処理ツールも含む。(各データ項目をSQL照会によって個別に扱うのではなく)データセットをコンテナとして行−列編成で記憶することの恩恵は、行および列をもつこのようなデータセットが、市販の解析または視覚化ツールで容易に処理され得ることである。実際の発明、すなわち、ワークフローおよびソフトウエアツールを管理するIMSの実施形態を記述する前に、生化学データを記述している好ましい実施形態が、図2ないし11Bに関連して記述される。ワークフローおよびソフトウエアツールを管理するIMSの詳細な実施形態は、図12Aないし18に関連して記述される。
データセット
図2は、IMSのデータベース構造200のエンティティ関係性モデルである。データベース構造200は、次の主要なセクション、すなわち、基本変数/単位204、データセット202、実験208、生体材料210、経路212、およびオプションで、位置214を含む。
図2は、IMSのデータベース構造200のエンティティ関係性モデルである。データベース構造200は、次の主要なセクション、すなわち、基本変数/単位204、データセット202、実験208、生体材料210、経路212、およびオプションで、位置214を含む。
データセット202は、IMSに記憶されている数値を記述する。各データセットは、変数の組、すなわち、
−変数値を行−列編成で記述する変数値行列と、
−変数値行列内の行の、変数記述言語の行記述リストと、
−変数値行列内の列の、変数記述言語の列記述リストと、
−変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とで編成された生体情報および時間から成る。
−変数値を行−列編成で記述する変数値行列と、
−変数値行列内の行の、変数記述言語の行記述リストと、
−変数値行列内の列の、変数記述言語の列記述リストと、
−変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とで編成された生体情報および時間から成る。
変数記述言語は、変数(例えば、計数、質量、濃度)、単位(例えば、pieces(個、枚、片、本、等)、kg、mol/l)、生化学エンティティ(例えば、特定の転写産物、特定の蛋白質、または特定の化合物)、および生体材料(例えば、環境、個体群、個体、試薬、試料、有機体、器官、組織、細胞型)のマルチレベルの階層において量子化が妥当である位置(例えば、human eyelid epith nuc)によって量子化されるものと、量子化が妥当であるときの時間の相対的表現とを記述することによって、情報モデルのシンタックスの要素とセマンティックのオブジェクトとを結び付ける。
基本変数/単位セクション204および時間セクション206から、データセットセクションへの多対多の関係性があることに注意すべきである。これは、各データセット202が、通常、1つ以上の基本変数/単位と1つ以上の時間表現とを含むことを意味する。データセットセクション202と実験セクション208との間に多対多の関係性があり、これは、各データセット202が1つ以上の実験208に関係し、各実験が1つ以上のデータセット202に関係することを意味する。データセットセクションの好ましい実施は、図6Aないし6Cを参照して別途記述される。
基本変数/単位セクション204は、IMSにおいて使用される基本変数および単位を記述する。簡単な実施では、各基本変数のレコードは、単位フィールドを含み、これは、各基本変数(例えば、質量)が1つのみの単位(例えば、キログラム)で表現され得ることを意味する。より柔軟な実施形態では、単位は別々のテーブル内に記憶され、したがって、基本変数を、キログラムまたはポンドのような、多数の単位で表現することができる。
基本変数は、それ自体で使用され得る変数であるか、または特定の時間点における特定の試料の化合物の濃度のような、より複雑な変数を形成するために結合され得る。
時間セクション206は、データセット202の時間成分を記憶する。データセットの時間の構成要素は、相対(ストップウオッチ)時間と絶対(カレンダ)時間とを含む。例えば、相対時間は、化学反応が行われる速度を表わすのに使用され得る。絶対時間情報を各データセットと共に記憶する妥当な理由もある。絶対時間は、対応するイベントが行われたときを、カレンダ時間で示す。このような絶対時間情報は、何れかの実験イベント間の相対時間を計算するのに使用され得る。これは、トラブルシューティングのためにも使用され得る。例えば、ある特定の時間に故障した機器が検出されると、故障の検出前にその機器を使って行われた実験が検査されるべきである。
時間セクション206は、データセット202の時間成分を記憶する。データセットの時間の構成要素は、相対(ストップウオッチ)時間と絶対(カレンダ)時間とを含む。例えば、相対時間は、化学反応が行われる速度を表わすのに使用され得る。絶対時間情報を各データセットと共に記憶する妥当な理由もある。絶対時間は、対応するイベントが行われたときを、カレンダ時間で示す。このような絶対時間情報は、何れかの実験イベント間の相対時間を計算するのに使用され得る。これは、トラブルシューティングのためにも使用され得る。例えば、ある特定の時間に故障した機器が検出されると、故障の検出前にその機器を使って行われた実験が検査されるべきである。
実験セクション208は、IMSに知られている全ての実験を記憶する。2つの主要な実験タイプがあり、一般に、ウエットラボおよびインシリコと呼ばれている。しかしながら、データセット202の観点から見ると、全ての実験は同じに見える。実験セクション208は、データセット202と2つの主要な実験タイプとの間の橋渡しの役をする。既に実行された実験に加えて、実験セクション208は、将来の実験を記憶するのに使用され得る。好ましいオブジェクトを用いた実験の実施は、図9Aに関連して記述される。実験セクションの重要な設計の目標は、図11に関連して別途記述される。
生体材料セクション210は、個体群、個体、他の生体材料(生化学システムまたはその構成要素として研究されることができるもの)の試薬または試料に関する情報をIMSに記憶する。生体材料は、VDLを使用して、各生体材料を、例えば、個体群、個体、試薬、および試料によって、階層的に、または種々の詳細のレベルで記述することによって、データセット202内に記述されることが好ましい。生体材料セクション210の好ましいオブジェクトを用いた実施は、図10に関係して記述される。
生体材料セクション210が、実在の生体材料を記述する一方で、経路セクション212は、生体材料の論理モデルを記述する。生化学経路は、電子回路の回路図に若干似ている。IMSにおいて経路を記述する幾つかのやり方があるが、図2は、都合の良い実施を概略的に示している。図2に示されている例では、各経路212は、1つ以上の接続216を含み、各接続は、1つの生化学エンティティ218と1つの相互作用222とに関係している。
生化学エンティティは、生化学エンティティセクション218に記憶される。図2に示されている例では、各生化学エンティティは、クラスオブジェクトであり、そのサブクラスは、遺伝子218-1、転写産物218-2、蛋白質218-3、高分子合成物218-4、および化合物218-5がある。相互作用への潜在的な接続、および相対的な運動の法則への潜在的な影響をもつ、温度のような、非生物の刺激218-6を記憶するオプションがあることが好ましい。
データベース参照セクション220は、外部データベースへの橋渡しの役をする。セクション220内の各データベース参照は、内部の生化学エンティティ218と、Affymetricx incの特定のプローブセットのような、外部のデータベースのエンティティとの間の関係である。
相互作用セクション222は、種々の生化学エンティティ間の、反応を含む、相互作用を記憶する。運動の法則セクション224は、相互作用に影響を与える(仮説の、または実験的に実証された)運動の法則を記述する。経路の好ましく、かつより詳しい実施は、図7A、7B、および8関連して記述される。
本発明の好ましい実施形態にしたがうと、IMSは、マルチレベルの位置情報214も記憶する。マルチレベルの位置情報は、生体材料セクション210および経路セクション212によって参照される。例えば、生体材料に関係する情報を考えるとき、図2に示されている編成は、一方の端部における個体群レベルから、他方の端部における細胞内の空間点(座標)まで、詳細または精度の何れのレベルも可能にする。図2に示されている例では、位置情報は、有機体214-1(例えば、人間)、器官214-2(例えば、心臓、胃)、組織214-3(例えば、平滑筋組織、神経組織)、細胞型214-4(例えば、円柱上皮細胞)、細胞内区画214-5(例えば、核、細胞質)、および空間点214-6(例えば、長方形の基準細胞の寸法に対してx=0.25、y=0.50、z=0.75)を含む。有機体は、各既知の有機体へのノードをもつ分類木として記憶されることが好ましい。器官、組織、細胞型、および細胞内区画のブロックは、単純なリストとして実施され得る。既定のリストへの参照として位置情報を記憶する恩恵は、このような参照が自動シンタックス検査を強制することである。したがって、存在しない、あるいは綴りを間違った器官または有機体を参照する位置情報を記憶することは、不可能である。
本発明の別の好ましい実施形態にしたがって、位置情報は、有機体から細胞への階層における最も詳細な位置内に、空間点のような、空間情報214-6も含むことができる。最も詳細な位置が特定の細胞または細胞内区画を示すときは、空間点は、その情報を相対空間座標によってさらに特定し得る。細胞型に依存して、空間座標は、デカルト座標または極座標であり得る。空間点は、図15を参照して別途記載されるであろう。
図2に示されている位置階層の6つのレベルに加えて、有機体に幾つかのより多くの関係を追加することが好都合である。有機体についてのとくに都合のよい関係は、特定的なものから包括的なものまで、すなわち、個体、個体群、および環境を含む。このレベル配置を使うと、生化学エンティティ(例えば、試料)は、何れかの希望の分解能で、細胞内の特定の空間座標までの、事実上、地球上の何れの位置とも関係付けられ得る。
この種の位置情報の恩恵は、試料の位置と、経路のような理論上の構成体の位置(関連する測定結果によって実証される必要がある)とを比較する向上した体系化されたやり方であることである。
図2に示されているマルチレベルの位置階層は、遺伝子の転移およびクローニングのような、最新の遺伝子操作技術に関連して、とくに好都合である。対照的に、いくつかの従来技術のシステムは、簡単なテキストの連結(例えば、“murine P53”)で、生物学的エンティティを示している。このような簡単なテキストの連結は、特定の有機体を特定の位置へハードコード化する。生物学的エンティティの位置が変わると、その名前も変わり、したがって、適切に定義されたデータベースシステムの完全性を破壊する。対比して、図2に示されているIMSは、マウスへ移植された豚のP53の遺伝子を容易に識別するか、または親の有機体とクローンの有機体とを区別することができる。
変数記述言語
図3Aないし3Cは、好ましい変数記述言語、すなわち“VDL”を示している。概して、変数は、値をもつものであり、生化学システム(現実の生体材料または理論上のモデルの何れか)の状態を表わす。IMSが使用されるとき、設計者は、何れの種類の生体材料に出会うことになるか、何れの種類の実験が行われることになるか、またはそれらの実験から、何れの結果が得られるかを知らない。したがって、変数の記述は、将来の拡張に対して開いていなければならない。他方で、開放性および柔軟性は無秩序になるべきではなく、したがって、変数の記述に対して、適切に定義された規則が実施されるべきである。これらの要求は、拡張可能な変数記述言語(“VDL”)によって最も良くかなえられる。
図2に示されているマルチレベルの位置階層は、遺伝子の転移およびクローニングのような、最新の遺伝子操作技術に関連して、とくに好都合である。対照的に、いくつかの従来技術のシステムは、簡単なテキストの連結(例えば、“murine P53”)で、生物学的エンティティを示している。このような簡単なテキストの連結は、特定の有機体を特定の位置へハードコード化する。生物学的エンティティの位置が変わると、その名前も変わり、したがって、適切に定義されたデータベースシステムの完全性を破壊する。対比して、図2に示されているIMSは、マウスへ移植された豚のP53の遺伝子を容易に識別するか、または親の有機体とクローンの有機体とを区別することができる。
変数記述言語
図3Aないし3Cは、好ましい変数記述言語、すなわち“VDL”を示している。概して、変数は、値をもつものであり、生化学システム(現実の生体材料または理論上のモデルの何れか)の状態を表わす。IMSが使用されるとき、設計者は、何れの種類の生体材料に出会うことになるか、何れの種類の実験が行われることになるか、またはそれらの実験から、何れの結果が得られるかを知らない。したがって、変数の記述は、将来の拡張に対して開いていなければならない。他方で、開放性および柔軟性は無秩序になるべきではなく、したがって、変数の記述に対して、適切に定義された規則が実施されるべきである。これらの要求は、拡張可能な変数記述言語(“VDL”)によって最も良くかなえられる。
拡張可能なマーク付け言語(XML)は、原則として、生化学変数を記述するのに使用され得る拡張可能な言語の一例である。どちらかと言えば、XMLの表現は、コンピュータによって容易に解釈可能である。しかしながら、XMLの表現は、非常に長くなりがちであり、このために、人間はそれらを完全に読み出すことができない。したがって、XMLよりも、よりコンパクトで、人間およびコンピュータにとってより容易に読み出すことができる拡張可能なVDLが必要とされる。
拡張可能なVDLの発想は、許容変数表現が“自由であるが、無秩序でない”というものである。この発想をより形式的にすると、IMSは、所定の変数のみを許すべきであるが、所定の変数の組は、プログラミングの技能なしに拡張可能であるべきであると言うことができる。例えば、シンタックス検査のルーチンにおいて、変数表現に対して行われるシンタックス検査が、しっかりとコード化されているとき、新しい変数表現は再プログラミングを必要とする。厳格な順序と無秩序との間の最適な折り合いは、データテーブルまたはファイルのような、データ構造に許容変数キーワードを記憶することによって実施されることができ、これは、プログラミングなしに変更可能である。何れのユーザが新しい許容変数キーワードを加える権限を与えられるかを判断するのに、標準のアクセス承認技術が採用され得る。
図3Aは、好ましいVDLの変数の記述を示している。変数の記述30は、区切り記号によって分割された、キーワードと名前の1つ以上の対31を含む。図3Aの例に示されているように、各キーワードと名前との対31は、キーワード32、(開始括弧のような)開始区切り記号33、(変数)名前34、および(閉じ括弧のような)閉じ区切り記号35から成る。例えば、“Ts[2002−11−26 18:00:00]”(引用符は除く)は、タイムスタンプの例である。多数のキーワード−名前の対31があるとき、対は、スペース文字または適切な前置詞のような分離記号36によって分離されることができる。分離記号および第2のキーワード−名前の対31は、オプションであるので、点線で示されている。要素32ないし36間のアンド記号は、列(string)の連結を示す。したがって、アンド記号は、変数の記述に含まれない。
言語のシンタックスに関して、変数の記述は、任意の数のキーワード−名前の対31を含み得る。しかしながら、時間の集中のような、対31の任意の組み合せは、セマンティクス的に、意味がないことがある。
図3Bは、一般的なキーワードテーブル38を示している。テーブル38内の各エントリの隣りは、そのプレーンテキストの記述38'および説明の例38''である。テーブル38は、IMSに記憶されているが、残りのテーブル38'および38''は必ずしも記憶されていない(これらは、テーブル38内の各キーワードの意味を明らかにすることをのみを意図されている)ことに注意すべきである。例えば、キーワード“T”の例は、“T[−2.57E−3]”であり、これは、時間基準前の−2.57秒の1つの表現法である。時間基準は、タイムスタンプのキーワード“Ts”によって示され得る。
図3Bは、一般的なキーワードテーブル38を示している。テーブル38内の各エントリの隣りは、そのプレーンテキストの記述38'および説明の例38''である。テーブル38は、IMSに記憶されているが、残りのテーブル38'および38''は必ずしも記憶されていない(これらは、テーブル38内の各キーワードの意味を明らかにすることをのみを意図されている)ことに注意すべきである。例えば、キーワード“T”の例は、“T[−2.57E−3]”であり、これは、時間基準前の−2.57秒の1つの表現法である。時間基準は、タイムスタンプのキーワード“Ts”によって示され得る。
TおよびTsのキーワードは、それぞれ、相対(ストップウオッチ)時間と絶対(カレンダ)時間とを実施する。相対時間と絶対時間との組合せとして時間を表現することの僅かな欠点は、各時間点が、理論上、対応表現の無限の組をもつことである。例えば、“Ts[2002−11−26 18:00:30]”と“Ts[2002−11−26 18:00:00]T[00:00:30]”とは等しい。したがって、意味のあるやり方で、時間の表現を処理する検索論理があることが好ましい。
IMS内のテーブル38に各許容キーワードのエントリを記憶することによって、図3Cに示されているように、入力される変数に対して自動シンタックス検査を強制することができる。
好ましいVDLのシンタックスは、公式的には、次のように表現され得る。
好ましいVDLのシンタックスは、公式的には、次のように表現され得る。
キーワード38の好ましい組は、3種類のキーワード、すなわち、何、どこ、およびいつを含む。変数、単位、生化学エンティティ、相互作用、等のような、“何”のキーワードは、何が観察されたか、または観察されるかを示す。試料、個体群、個体、位置、などのような、“どこ”のキーワードは、どこで観察が行われたか、または行われるかを示す。時間またはタイムスタンプのような、“いつ”のキーワードは、観察の時間を示す。
図3Cは、自動シンタックス検査のオプションの処理を示している。公式的なVDLの恩恵は、それが自動シンタックス検査を可能にすることである。図3Cは、このようなシンタックス検査を行う状態機械300を示している。状態機械は、コンピュータのルーチンのように実施されることができる。妥当なキーワードは、初期状態302から、第1の中間状態304へ遷移させる。他のものは、エラー状態312へ遷移させる。開始区切り記号は、第1の中間状態304から、第2の中間状態306へ遷移させる。他のものは、エラー状態312へ遷移させる。
開始区切り記号の後で、閉じ区切り記号を除く何れの文字も、名前の一部として承認され、状態機械は、第2の中間状態306に留まる。変数表現の終了が早過ぎるときのみ、エラー状態312へ遷移させる。閉じ区切り記号は、第3の中間状態308へ遷移させ、ここでは、1つのキーワード/名前の対が、妥当として検出されている。妥当な分離記号文字は、第1の中間状態304へ戻させる。変数表現の終了を検出することは、“OK”状態310へ遷移させ、ここでは、変数表現がシンタックス的に正しいと考えられる。
図4は、VDLの複合変数表現(compound variable expression)の例を示す。複合変数表現は、多数のキーワード/名前の表現である。修飾子が加えられるとき、変数がどれくらいより特定的になるかに注意すべきである。参照符号401および410は、5つの対の対応表現を示し、各対の第1の表現は、より長い、またはより言葉で説明されていて、第2の表現は、よりコンパクトである。コンピュータにとっては、言葉で説明されている表現とコンパクトな表現とは同じであるが、人間の読者には、言葉で説明されている形がより理解し易いことが分かるであろう。テーブル38を参照することによって、図4内の表現は、説明なしで分かるであろう。例えば、表現409および410は、1秒当たりの1リットル当たりのモルで相互作用EC2.7.7.13−PSA1による反応速度を定めている。参照符号414は、変数表現“V[*]P[*]O[*]U[*]”を示し、これは、何れかの単位における何れかの有機体の何れかの蛋白質の何れかの変数を意味する。参照符号415および417は、2つの異なる時間表現に対する2つの異なる変数表現を示している。変数表現415は、4時間の時間間隔を定め、変数表現417は、10秒の時間間隔(タイムスタンプの5秒前で始まり、その5秒後に終了する)を定めている。変数表現418は、階層形位置表現の表現である。図2に示されているように、好ましくは、位置情報は、階層形であり、有機体214-1、器官214-2、組織214-3、細胞型214-4、細胞内区画214-5、および/または空間点214-6へのデータベース関係を適宜含む。変数表現418は、(“L[human eyelid epith nuc]”)は、このようなマルチレベルの階層形位置情報の視覚された表現である。その有機体の関係214-1は人間(human)を示し、その器官の関係214-2はまぶた(eyelid)を示し、その細胞型の関係214-4は上皮細胞(epithelial cell)を示し、その細胞内区画の関係214-5は細胞核(nucleus)を示している。この例では、マルチレベルの階層の位置は、細胞または細胞内区画内の何れの特定の組織または空間点も示していない。
IMSを使用するときに、人間の言語とは関係なく、1つの言語を変数表現に認めることは有益であることに注意すべきである。その代りに、IMSは、変数表現を種々の人間の言語に翻訳する翻訳システムを含んでもよい。
図3Cに示されているシンタックス検査に合格した表現のみが承認されるので、上述で実質的に記述されたVDLは、適切に定められている。許容キーワードは、拡張可能なテーブル38に記憶されているので、VDLは開かれている。キーワードには、実質的に最少数の文字(letter)および記号が使用されるので、VDLはコンパクトである。大抵の共通のキーワードは、1文字から成るか、または1文字のキーワードが不明瞭であるときは、2文字から成る。本明細書に記載されているVDLがコンパクトである別の理由は、これが、XMLおよびその派生において一般的である、“〈ListOfProtains〉...〈/ListOfProtains〉”のような、開始キーワード−閉じキーワードの対のキーワードを使用していないからである。本明細書に記載されているVDLのさらに別の文字の特有の特徴は、キーワードが、段落(新しい行(line))記号によって分離されていないことであり、これは、大抵の表現が、文書またはコンピュータのディスプレイにおける1行よりも相当に少ないことを要求するからである。実際には、本発明のVDLは、(“]”のような、閉じ区切り記号を除いて)何れの分離記号も必要としないが、スペースまたは前置詞のような分離記号は、人間にとっての読み易さを高めるのに使用され得る。
図3Cに示されているシンタックス検査に合格した表現のみが承認されるので、上述で実質的に記述されたVDLは、適切に定められている。許容キーワードは、拡張可能なテーブル38に記憶されているので、VDLは開かれている。キーワードには、実質的に最少数の文字(letter)および記号が使用されるので、VDLはコンパクトである。大抵の共通のキーワードは、1文字から成るか、または1文字のキーワードが不明瞭であるときは、2文字から成る。本明細書に記載されているVDLがコンパクトである別の理由は、これが、XMLおよびその派生において一般的である、“〈ListOfProtains〉...〈/ListOfProtains〉”のような、開始キーワード−閉じキーワードの対のキーワードを使用していないからである。本明細書に記載されているVDLのさらに別の文字の特有の特徴は、キーワードが、段落(新しい行(line))記号によって分離されていないことであり、これは、大抵の表現が、文書またはコンピュータのディスプレイにおける1行よりも相当に少ないことを要求するからである。実際には、本発明のVDLは、(“]”のような、閉じ区切り記号を除いて)何れの分離記号も必要としないが、スペースまたは前置詞のような分離記号は、人間にとっての読み易さを高めるのに使用され得る。
データの文脈
図5は、生化学研究の種々のデータの文脈または範囲を表現するのに、VDLがどのように使用されることができるかを示している。任意のやり方でサンプリング、測定、モデル化、シミュレーション、または処理された全ての変数は、
a)ある時間点における生体材料試料の1つの値、
b)生体材料の時間関数、
c)使用可能な生体材料試料に基づく各時間点における分布をもつ確率変数、または、
d)生化学のデータの文脈における確率過程として表現され得る。
図5は、生化学研究の種々のデータの文脈または範囲を表現するのに、VDLがどのように使用されることができるかを示している。任意のやり方でサンプリング、測定、モデル化、シミュレーション、または処理された全ての変数は、
a)ある時間点における生体材料試料の1つの値、
b)生体材料の時間関数、
c)使用可能な生体材料試料に基づく各時間点における分布をもつ確率変数、または、
d)生化学のデータの文脈における確率過程として表現され得る。
a)、b)、およびc)は、システムの最も豊かな表現であるd)の射影である。IMSにおける全てのデータは、
1.変数のリスト(“何”)、
2.現実の生体材料または経路モデルのリスト(“どこ”)、
3.時間点または時間間隔のリスト(“いつ”)への関係をもつ三次元の文脈空間に存在する。
1.変数のリスト(“何”)、
2.現実の生体材料または経路モデルのリスト(“どこ”)、
3.時間点または時間間隔のリスト(“いつ”)への関係をもつ三次元の文脈空間に存在する。
参照番号500は、全体的に、変数(N)、生体材料、および時間の各々に対して1本の軸をもつN+2次元の文脈空間を示している。非常に詳細な変数表現510は、変数(マンノースの濃度、mols/l)、生体材料(個体群 abcd1234)、タイムスタンプ(2003年6月10日の12時30分)を特定している。変数の値は、1.3moles/lである。変数表現510は、文脈空間内の全ての座標を特定しているので、文脈空間500内の点511によって表現される。
次の変数表現520は、時間を特定していない点で、詳細がより少ない。したがって、変数表現520は、文脈空間500において時間の関数521によって表現されている。
第3の変数表現530は、時間は特定しているが、生体材料を特定していない。したがって、これは、特定の時間における実験に属する全ての生体材料の分布531によって表現される。
第3の変数表現530は、時間は特定しているが、生体材料を特定していない。したがって、これは、特定の時間における実験に属する全ての生体材料の分布531によって表現される。
第4の変数表現540は、時間も、生体材料も特定していない。これは、時間関数の組541および種々の生体材料の分布の組542によって表現されている。
変数記述言語および(次に説明される)適切に編成されたデータセットによって可能にされる種々の表現によって、研究者は、多次元の確率過程として生化学システムの時間状態空間を調べる実質的に無制限の可能性をもつ。システムの確率の観点は、関連する生体材料の事象空間に基づき、動的な観点は、時空に基づく。関連する実験が文書化されるとき、生体材料データおよび時間が登録されることができる。
変数記述言語および(次に説明される)適切に編成されたデータセットによって可能にされる種々の表現によって、研究者は、多次元の確率過程として生化学システムの時間状態空間を調べる実質的に無制限の可能性をもつ。システムの確率の観点は、関連する生体材料の事象空間に基づき、動的な観点は、時空に基づく。関連する実験が文書化されるとき、生体材料データおよび時間が登録されることができる。
全ての量的測定値、データ解析、モデル、およびシミュレーション結果は、新しい解析技術において、種々の応用においてデータが解釈される必要があるときに、測定された生体材料の表現型のような、関連する背景情報を検出するのに、再使用されることができる。
データセット
図6Aないし6Cは、本発明の種々の好ましい実施形態にしたがうデータセットを示している。ウエットラボおよびインシリコの両者の実験形式は、同様の構成のデータセットとして記憶されることが好ましい。ウエットラボおよびインシリコの実験に関係するデータを、同様に構成されたデータセットに記憶することによって、例えば、何れの仲介のデータフォーマットに変換することなく、ウエットラボの実験からの出力データを、インシリコの実験への入力データとして使用することができる。図6Aにおいて、例示的なデータセット610は、多数のmRNA分子の表現レベル(mRNA1ないしmRNA6が示されている)を記述している。データセット610は、図2に示されているデータセットセクション202に記憶されているデータセットの例である。データセット610は、4つの行列611ないし614を含む。変数値行列614は、変数値の値を行−列編成で記述している。行記述リスト613は、変数値行列の行の意味を特定している。列記述リスト612は、変数値行列の列の意味を特定している。最後に、固定次元の記述611は、変数値行列614内の全ての値に共通の1つ以上の固定次元を特定している。変数値行列614は、スカラ数で構成されていることに注意すべきである。残りの行列610ないし613は、VDLを使用して、それらの内容の意味を特定している。
図6Aないし6Cは、本発明の種々の好ましい実施形態にしたがうデータセットを示している。ウエットラボおよびインシリコの両者の実験形式は、同様の構成のデータセットとして記憶されることが好ましい。ウエットラボおよびインシリコの実験に関係するデータを、同様に構成されたデータセットに記憶することによって、例えば、何れの仲介のデータフォーマットに変換することなく、ウエットラボの実験からの出力データを、インシリコの実験への入力データとして使用することができる。図6Aにおいて、例示的なデータセット610は、多数のmRNA分子の表現レベル(mRNA1ないしmRNA6が示されている)を記述している。データセット610は、図2に示されているデータセットセクション202に記憶されているデータセットの例である。データセット610は、4つの行列611ないし614を含む。変数値行列614は、変数値の値を行−列編成で記述している。行記述リスト613は、変数値行列の行の意味を特定している。列記述リスト612は、変数値行列の列の意味を特定している。最後に、固定次元の記述611は、変数値行列614内の全ての値に共通の1つ以上の固定次元を特定している。変数値行列614は、スカラ数で構成されていることに注意すべきである。残りの行列610ないし613は、VDLを使用して、それらの内容の意味を特定している。
図6Aは、データセット610の人間が読むことができる形615も示している。データセットの人間が読むことができる形615は、この実施形態をよりよく理解するために示されていることに注意すべきである。人間が読むことができる形615は、必ずしもどこかに記憶されているわけではなく、そうする必要が生じたときはいつでも自動的にデータセット610から生成されることができる。人間が読むことができる形615は、スプレッドシートファイルのようなデータセットの例であり、これは、一般に、生化学研究のための従来技術のIMSシステムに記憶されている。IMSは、記憶フォーマット611ないし614と人間が読むことができる形615との間の自動の双方向の変換のためのユーザインターフェイス論理を含むことが好ましい。
図6Bは、別のデータセット620を示している。データセット620も、6個のmRNA分子の表現レベルを特定しているが、これらは、異なる個体の表現レベルではなくて、4つの異なる時間における単一の個体群の表現レベルである。データセット620において、固定次元の記述621は、データが、ある特定の日付および時間における、ある特定の酵母の試料xyzに関係していることを特定している。列記述リスト622は、列が、時間の4つの瞬間、すなわち、固定次元の記述621におけるタイムスタンプの0、30、60、および120秒後におけるデータを特定することを特定している。行記述リスト623は、前の例の対応するリスト613に非常に似ているが、最後の行が、患者の年齢(age)ではなく、温度(temperature)を示していることのみが異なる。変数値行列624は、実際の数値を含んでいる。
各データセット(例えば、データセット610)を4つの異なる構成要素(行列611ないし614)に分割することができ、したがって、各行列611ないし614は、コンピュータのファイルシステム内のファイルのような、個々にアドレス指定可能なデータ構造である。その代りに、変数値行列を、1つのアドレス指定可能なデータ構造に記憶し、一方で、残りの3つの行列(固定次元の記述、行記述子、および列記述子)を、“共通”、“行”、および“列”というヘッディングをもつ1つのファイルのような、第2のデータ構造に記憶してもよい。ここで、重要な要素は、変数値行列が実際の数値を保持するデータセットの構成要素であるので、それが別々のデータ構造に記憶されることである。数値は、ファイルまたはテーブルのような、個々にアドレス指定可能なデータ構造に記憶されるとき、データマイニング、等のような、異なるデータ処理応用によって容易に処理されることができる。別の恩恵は、異なる行列を構成している個々のデータ要素が、SQL照会によって処置される必要がないことである。SQL照会は、行列611ないし614内の数値および記述のような、個々のデータ要素ではなく、データセットのアドレスまたは他の識別子のみを検索する。
図6Cは、データセットの別の実施を示している。この実施は、希薄なデータにおいてか、または各データ項目を適切なデータテーブルに1回のみ記憶することによって効率的に記憶されることができる冗長の変数の記述があるときに、とくに有利である。図6Cに示されている例は、図6Bに示されたデータと全く同じものを記憶するが、編成が異なっている。変数値行列634は、3×nの行列であり、ここで、nは、実際のデータ項目の数である。データ項目は、列634Cに記憶され、これは、図6Bの変数値行列622と全く同じデータを含んでいる(しかしながら、省略記号によって示されているように、いくつかの要素が隠されている)。列634Cに加えて、変数値行列634は、行表示列634Aおよび列表示列634Bを含み、これは、対応するデータ項目が属している行および列を示している。ヌルのエントリは記憶される必要がないので、データが非常に希薄であるときは、変数値行列634はとくに有利である。他方で、変数値行列634は、明示的な行および列の表示を必要とする。
図6Cの例では、データの意味、すなわち行記述子、列記述子、および共通の記述子は、キーワード、値、行、および列のエントリをもつ行列またはテーブル630に記憶される。行列630のセクション631は、図6Bに示されている固定次元の記述621に対応する。固定次元の記述621内の3つの要素、すなわち個体群、試料、およびタイムスタンプは、行列630のセクション631では、別々の行として記憶されている。例えば、第1の行は、キーワードに対して“Po”(=個体群)、対応する値に対して“Saccharomyces cerevisiae”、および行および列の各々に対して“−1”のエントリをもつ。この例では、“−1”は、全ての行または列において妥当な特定値である。セクション631は、全ての行および列に対して妥当であるので、その内容は、図6Bに示されている固定次元の記述621に対応する。セクション633は、図6Bの行の記述623に対応する。セクション633では、列の表示は“−1”であり、これは“任意の列”を意味する。セクション633の1行目は、キーワード“V”(=変数)およびその値(“expression level”)が、行1ないし6において妥当であることを意味している。次の6行は、行1ないし6に対する6つの異なる記述子、等である。最後に、セクション632は、図6Bの列の記述622に対応する。ここでは、列記述子は、全ての行に対して妥当であるので、行は、全て“−1”である。
人間の読者に関する限り、図6Cに示されている行列630および634は、図6Bの共通、行、および列の記述子621ないし623と全く同じ情報を含んでいる。しかしながら、オブジェクトクラスおよびオブジェクト識別子に対して別々のエントリを記憶することによって、コンピュータによるデータの解釈を容易にすることができる。この特徴は、図3Bに示されているキーワードテーブル38によるデータのルックアップのような、いくつかの特別な処理ステップを無くす。
経路
図7Aは、IMSに記憶されている経路のブロック図である。本発明の好ましい実施形態にしたがうIMSは、システム構成要素と構成要素間接続との構造化された経路モデル700によって、各生化学システムを記述する。システム構成要素は、生化学エンティティ218および相互作用222である。生化学エンティティ218と相互作用222との間の接続216は、各経路の各相互作用における各生化学エンティティの役割(例えば、基質、生成物、アクチベータ、およびインヒビタ)を表わす独立のオブジェクトとして認識される。接続は、各生化学エンティティおよび相互作用の対に特定の属性(例えば、化学量論係数)を保持することができる。既に記載したように、IMSは、位置情報を記憶することが好ましく、各経路212は、生物学的位置214に関係する。1つの生物学的位置は、経路に含まれている詳細のレベルに依存して、1本以上の経路によって記述され得る。
図7Aは、IMSに記憶されている経路のブロック図である。本発明の好ましい実施形態にしたがうIMSは、システム構成要素と構成要素間接続との構造化された経路モデル700によって、各生化学システムを記述する。システム構成要素は、生化学エンティティ218および相互作用222である。生化学エンティティ218と相互作用222との間の接続216は、各経路の各相互作用における各生化学エンティティの役割(例えば、基質、生成物、アクチベータ、およびインヒビタ)を表わす独立のオブジェクトとして認識される。接続は、各生化学エンティティおよび相互作用の対に特定の属性(例えば、化学量論係数)を保持することができる。既に記載したように、IMSは、位置情報を記憶することが好ましく、各経路212は、生物学的位置214に関係する。1つの生物学的位置は、経路に含まれている詳細のレベルに依存して、1本以上の経路によって記述され得る。
図7Aに示されているように、各接続216は、3つの要素、すなわち、相互作用222、生化学エンティティ218、および経路212を接合するT字接合としての役割を果たす。言い換えると、相互作用222と生化学エンティティ218との接合は、汎用ではなく、経路別である。これは、生化学の研究者が、所与の生化学エンティティに関係する相互作用のデータを変更でき、この変更は、経路要素212によって示されている特定の経路のみに影響を与えることを意味する。この特徴は、経路の定義を変更する研究者が直面する心理的な閾値を下げると考えられる。
オブジェクトを用いた実施において、生化学経路モデルは、オブジェクトの3つのカテゴリ、すなわち生化学エンティティ(分子)218、相互作用(化学反応、転写、翻訳、アセンブリ、ディスアセンブリ、転座、等)222、および経路における生化学エンティティと相互作用との間の接続216に基づいている。その発想は、これらの3つのオブジェクトをそれら自身の属性を用いて使用するために、それらを分け、接続を使用して、個々の生化学ネットワーク内で行われる各相互作用における各生化学エンティティの役割(例えば、基質、生成物、アクチベータ、およびインヒビタ)と化学量論係数とを保持するというものである。このアプローチの恩恵は、明示的モデルを分かり易くし、かつ何人かのユーザが同じ経路接続を接続により変更しているとき、同期化を簡単にすることである。図8に関係して示されるように、ユーザインターフェイスの論理は、経路を分かり易く視覚化するように設計されることができる
運動の法則のセクション224は、相互作用に影響を与える理論上の、または実験に基づく運動の法則を記述している。例えば、基質から化学反応へのフラックスは、次の式によって表現されることができる。
運動の法則のセクション224は、相互作用に影響を与える理論上の、または実験に基づく運動の法則を記述している。例えば、基質から化学反応へのフラックスは、次の式によって表現されることができる。
図7Cは、アナログ(連続)式およびブール(ディスクリート)式の両者を含むハイブリッドの経路モデルの視覚化された形を示す。このモデルにおいて、化合物RNA741は、相互作用(反応)X743を介して転写産物のmRNA742に変換されるが、これは、遺伝子A744および蛋白質B745が存在するときのみである。相互作用Y746は、相互作用X743の逆の処理であり、転写産物のmRNAを化合物RNAに変換する。
図7Cにおける相互作用Xの反応速度のような運動の法則は、VDLの条件の不連続のブール関数として、次のように表現されることができる。
図7Cにおける相互作用Yから化合物RNAへのフラックスが、転写産物のmRNAの計数の連続係数であるとし、次に示す。
生化学エンティティの濃度または計数が、個々の位置に依存するとき、運動の法則に表わされている各変数は、個々の位置L[...]で特定され得る。
生化学ネットワークは、どこでも妥当であるわけではない。言い換えると、ネットワークは、通常、位置に依存する。このために、図1および7Aに示されているように、経路212と、生物学的に関連するディスクリートな位置214とが関係する。
複合の経路は、他の経路700を含むことができる。異なる経路700を一緒に接続するために、モデルは経路接続702を支援し、その各々は、5つまでの関係をもち、それらは、図7Bに関連して記述される。
複合の経路は、他の経路700を含むことができる。異なる経路700を一緒に接続するために、モデルは経路接続702を支援し、その各々は、5つまでの関係をもち、それらは、図7Bに関連して記述される。
図7Bは、より単純な経路を含む複合の経路の例を示す。2本以上の経路が、例えば、関連する位置間を移動できる共通の生化学エンティティか、または共通の相互作用(例えば、生化学エンティティを1つの位置から別の位置へ移動する転座タイプの相互作用)をもつとき、それらは結合されることができる。そうでないときは、経路は切り離されていると考えられる。
参照符号711によって示されている経路Aは、参照符号712および713によってそれぞれ示されている経路BおよびCへの主要経路(main pathway)である。経路711ないし713は、基本的に、上述の経路700に似ている。2つの経路接続720および730は、経路BおよびC、すなわち712および713を、主要経路A711に結合する。例えば、経路接続720は、経路A711へのmain経路関係721;経路B712へのfrom経路関係722;および経路C713へのto経路関係723をもつ。さらに加えて、これは、経路B712およびC713への共通のエンティティ関係724、725をもつ。平易な言い方では、共通のエンティティ関係724、725は、経路BおよびCが、関係724、725によって示される生物学的エンティティを共用することを意味する。
他方の経路接続730は、経路A711へのmain経路関係およびfrom経路関係の両者と、経路C713へのto経路関係とをもつ。さらに加えて、これは、経路B712およびC713への共通の相互作用関係734、735をもつ。これは、経路BおよびCが、関係734、735によって示される相互作用を共用することを意味する。
上述の経路モデルは、漸進的に構築されることができる不完全な経路モデルを、増加する知識と共に支援する。研究者は、詳細レベルを、必要に応じて選択することができる。何本かの経路は、比較的に大雑把に記述され得る。他の経路は、運動の法則または空間座標、あるいはこの両者まで記述され得る。モデルは、既存の遺伝子配列のデータベースからの不完全な情報も支援する。例えば、何本かの経路の記述は、遺伝子の転写と翻訳とを別々に記述し得る一方で、他のものは、それらを、1つの結合された相互作用として扱う。各アミノ酸を別々に扱っても、または全てのアミノ酸を、アミノ酸と呼ばれる1つのエンティティに結合してもよい。
経路モデルは、自動モデル化処理も支援する。関連する運動の法則が各相互作用において使用可能であるとき、ノード式が、各生化学エンティティの濃度の時間導関数のために、自動的に生成されることができることに注意すべきである。特別な場合として、化学量論の平衡方程式が、フラックスの平衡解析のために、自動的に生成されることができる。経路モデルは、自動の端から端までのワークフローも支援する。これは、追加の制約を含むモデル化による測定データの抽出、式のグループを解くこと、種々のデータ解析および潜在的な自動注釈付けまでを含む。
自動的な経路のモデル化は、経路トポロジデータ、変数名を記述するのに使用されるVDL表現、応用可能な運動の法則、並びに数学的または論理的演算子および関数に基づくことができる。正確に分からないパラメータは、測定データから推定または推測されることができる。変数記述言語の表現を簡単にするために、デフォルトのユニットを使用することができる。
運動の法則がVDL変数の連続関数であるときは、生化学エンティティの量的変数(例えば、濃度)は、これらの量的変数の一般の微分方程式としてモデル化されることができる。一般の微分方程式は、生化学エンティティに接続される全ての相互作用から来るフラックスの和に等しい各生化学エンティティの量的変数の時間導関数を設定し、生化学エンティティから、生化学エンティティへ接続される全ての相互作用への全ての出力フラックスを減算することによって、形成される。
例を示す。
例を示す。
このようにして、シミュレーションのために、所与の初期条件または境界条件を使って、完全な“ハイブリッド”の式システムを生成することができる。初期条件または境界条件は、上述のデータセットによって表現されることができる(図6Aないし6C参照)。
上述の微分および差分方程式において、生化学エンティティ別のフラックスは、化学量論係数によって乗算される反応速度によって置換されることができる。
統計の場合に、微分または差分はゼロである。したがって、反応速度変数の代数方程式の組でフラックス平衡モデルが得られる(運動の法則は不要である)。ここで、代数方程式の組は、特定の相互作用の反応速度の実行可能な組を記述する。
統計の場合に、微分または差分はゼロである。したがって、反応速度変数の代数方程式の組でフラックス平衡モデルが得られる(運動の法則は不要である)。ここで、代数方程式の組は、特定の相互作用の反応速度の実行可能な組を記述する。
また別の好ましい特徴は、フラックス平衡解析において雑音をモデル化できることである。目的関数では最小化される必要がある人為雑音変数を加えることができる。雑音変数は、上述のデータセットに与えられている。これは、不正確な測定を合理的な結果で許すのを助ける。
本明細書に記載されているモデルは、経路の解(アクティブな制約)の視覚化も支援する。一般的な場合に、モデル化は、運動の法則が必要とされるとき、ハイブリッドの式のモデルになる。それらは、異なるやり方でデータベース内に累積されることができるが、必要に応じて使用できる幾つかのデフォルトの法則があってもよい。一般式において、相互作用別の反応速度は、運動の法則、例えば、酵素および基質の濃度を含むミハエリス−メンテンの法則によって置換される。
例を次に示す。
例を次に示す。
経路要素が相互作用タイプおよび/または化学量論係数および/または位置のような相互作用データと関係付けられる、このような構造化された経路モデルの恩恵は、上述の式のようなフラックスレートの式が自動モデル化処理によって生成されることができることであり、これは、生化学経路のコンピュータ支援のシミュレーションを非常に容易にする。各運動の法則は相互作用へのデータベース関係をもち、各相互作用は特定の接続を介して生化学エンティティに関係するので、モデル化処理は、特定の生化学エンティティの生成または消費を記述する全ての運動の法則を自動的に結合し、それによって、上述の例にしたがうフラックス平衡方程式を自動的に生成することができる。
このような構造化された経路モデルの別の恩恵は、階層形経路がコンピュータによって解釈されることができることである。例えば、ユーザインターフェイス論理は、図8に関連して示されるように、階層形経路の容易に理解できる視覚化を与えることができ得る。
図8は、参照番号800によって全体的に示されている、経路の視覚化された形を示している。ユーザインターフェイス論理は、図1および7Aに示されている要素212ないし224に基づく視覚化された経路800を示す。円810は、生化学エンティティを表わしている。四角形820は、相互作用を表わし、縁端部830は接続を表わしている。生化学エンティティから相互作用への実線の矢印840は、基質の接続を表わし、ここで、生化学エンティティは相互作用によって消費される。相互作用から生化学エンティティへの実線の矢印850は、生成物の接続を表わし、ここで、生化学エンティティは相互作用によって生成される。点線の矢印860は、活性化を表わし、ここで、生化学エンティティは消費も、生成もされないが、相互作用を可能にするか、または促進する。点線およびバーの終端870は、抑制を表わし、ここで、生化学エンティティは、消費も、生成もされないが、相互作用を抑制するか、または遅らせる。ゼロ以外の化学量論係数は、基質または生成物の接続840、850と関係付けられている。制御接続(例えば、活性化860または抑制870)において、化学量論係数はゼロである。
さらに加えて、測定または制御される変数は、視覚化され、関連する生化学エンティティに局所化されることができる。例えば、参照番号881は、生化学エンティティの濃度を示し、参照番号882は、相互作用の反応速度を示し、参照番号883は、接続のフラックスを示す。
接続、相互作用と関係付けられる運動の法則、および各経路の生物学的に関連する位置の正確な役割は、従来技術の経路モデルを向上する。例えば、図7Aないし8に示されているモデルは、要素の数を変えることによって種々の詳細のレベルの記述を支援する。さらに加えて、モデルは、明示的な運動の法則が分かっているときは、それらを含むことを支援する。
この技術は、表示されている経路の測定結果のグラフィック表現も支援する。測定された変数は、オブジェクトの名前に基づいて、グラフィックの経路表現の詳細に相関させられることができる。
参照番号200および700(図2および7A)によって示されているデータベース構造は、その視覚化800ではなく、生化学経路のトポロジを記憶する手段を与えることに注意すべきである。別途記載するように、視覚化は、トポロジから生成され、後で記憶されることができる。視覚化800の要素および相互接続は、記憶されている経路700に直接的に基づく。表示される要素の位置は、重複する接続の数のような、幾つかの所定の基準を最適化するソフトウエアルーチンによって最初に選択されることができる。このような技術は、プリント回路設計の分野から知られている。IMSは、ユーザに、視覚化を手動で整理するグラフィックツールを用意してもよい。したがって、各要素を手動で編集される形にすると、ファイルのような別々のデータ構造に記憶されることができる。
参照番号200および700(図2および7A)によって示されているデータベース構造は、その視覚化800ではなく、生化学経路のトポロジを記憶する手段を与えることに注意すべきである。別途記載するように、視覚化は、トポロジから生成され、後で記憶されることができる。視覚化800の要素および相互接続は、記憶されている経路700に直接的に基づく。表示される要素の位置は、重複する接続の数のような、幾つかの所定の基準を最適化するソフトウエアルーチンによって最初に選択されることができる。このような技術は、プリント回路設計の分野から知られている。IMSは、ユーザに、視覚化を手動で整理するグラフィックツールを用意してもよい。したがって、各要素を手動で編集される形にすると、ファイルのような別々のデータ構造に記憶されることができる。
実験
IMSは、実験プロジェクトマネージャを含むのが好ましい。プロジェクトは、サンプリング、処理または処置(treatment)、変動(perturbation)、フィーディング、培養、操作、精製、クローニングまたは他の組み合せ、分離、測定、分類、文書化、またはインシリコワークフローのような1つ以上の実験を含む。
IMSは、実験プロジェクトマネージャを含むのが好ましい。プロジェクトは、サンプリング、処理または処置(treatment)、変動(perturbation)、フィーディング、培養、操作、精製、クローニングまたは他の組み合せ、分離、測定、分類、文書化、またはインシリコワークフローのような1つ以上の実験を含む。
実験プロジェクトマネージャの恩恵は、実験データの解釈のために、全ての測定結果または制御された条件または変動(“何”)、生体材料および生体材料における位置(“どこ”)、関連する実験のタイミング(“いつ”)、並びに方法(“どのように”)を記録できることである。別の恩恵は、実験データを、上述で説明したデータセットとして記憶するときに、変数記述言語を使用できることから来る。
図9Aは、IMSの実験セクションにおける実験オブジェクトを示す。IMSに記憶されているように、各プロジェクト902は、1つ以上の実験904を含む。各実験904は、装置データ906、ユーザデータ908、および方法データ910への関係をもつ。各方法エンティティ910は、実験入力914および実験出力920に関係する。実験入力914は、生体材料916(例えば、個体群、個体、試薬、または試料)、あるいはデータエンティティ918(例えば、制御された条件)のような関連する入力を、関連する時間情報と共に、実験へ接続する。
実験出力920は、生体材料922(例えば、個体群、個体、試薬、または試料)、あるいはデータエンティティ924(例えば、測定結果、文書、分類結果、または他の結果)のような関連する出力を、関連する時間情報と共に、実験へ接続する。例えば、入力が生体材料の特定の試料を含むとき、実験は、同じ有機体の異なる数の試料を生成し得る。さらに加えて、実験出力920は、(図6Aおよび6Bに示されているデータセット、すなわち、文書またはスプレッドシートファイルのような)種々のデータエンティティの形で、結果を含み得る。実験出力920は、データエンティティ内に表現型分類または遺伝子型分類、あるいはこの両者も含み得る。
データのトレーサビリティは、実験入力914および実験出力920が、それぞれ、項目915および921によって示されている関連する時間をもつことによって向上するであろう。時間915、921は、試料採取、変動、等のような関連する生化学イベントが行われたときを示す。データのトレーサビリティは、図11Aおよび11Bに関連してさらに記述されるであろう。
実験は、目標930ももち、これは、通常、生体材料932(例えば、個体群、個体、試薬、または試料)であるが、インシリコ実験の目標は、データエンティティ934であってもよい。
方法エンティティ910は、方法を記述する方法の記述912への関係をもつ。方法の記述912のすぐ隣りのループは、方法の記述が別の方法の記述を参照し得ることを意味する。
方法エンティティ910は、方法を記述する方法の記述912への関係をもつ。方法の記述912のすぐ隣りのループは、方法の記述が別の方法の記述を参照し得ることを意味する。
実験入力914および実験出力920は、特定の生体材料916、922またはデータエンティティ918、924の何れかであり、これらは、図2の対応する要素と同じデータ要素である。実験がウエットラボ実験であるときは、入力および出力の生体材料916、922は、図2の生体材料210の2つのインスタンス(同じまたは異なる)である。例えば、これらは、2つの特定の試料210-4であってもよい。
生化学情報(図2内の参照番号200)およびプロジェクト情報は、共通のデータエンティティで記述されるので、プロジェクトマネージャは各情報の履歴を追跡することができる。これは、資源(例えば、人/年)当たりの追加情報量として生産性を監視することもできる。
実験プロジェクトマネージャは、プロジェクト活動のプロジェクト管理機能を支援するユーザインターフェイスをもつプロジェクトエディタを含むことが好ましい。これは、システムの生化学プロジェクトにおいても有益な標準のプロジェクト管理の恩恵の全てを与える。
プロジェクトエディタの好ましい実施では、全ての生体材料、それらの試料、および全てのデータを、ウエットラボ動作およびインシリコデータ処理を含む種々の実験によってトレースすることができる。
実験プロジェクトは、実験活動と、目標の生体材料と、生体材料またはデータエンティティである入力または出力の成果物とのネットワークとして表現されることができる。
実験プロジェクトは、実験活動と、目標の生体材料と、生体材料またはデータエンティティである入力または出力の成果物とのネットワークとして表現されることができる。
複雑さに関して、図9Aは、最悪の場合のシナリオを示している。あるとしても、少数の、実際の実験は、図9Aに示されている全ての要素を含む。例えば、実験が医療または生化学の処置または処理(treatment)であるとき、入力および出力セクション914、920は、一般に、ある特定の患者または生化学試料を示す。オプションの状態要素は、処置または処理前の患者または試料の状態を記述し得る。出力セクションは、処置または処理された患者または試料である。
サンプリングの場合に、入力セクションは、サンプリングされる生体材料を示し、出力セクションは、特定の試料を示す。試料操作の場合に、入力セクションは、操作されることになる試料を示し、出力セクションは、操作された試料を示す。合成の実験では、入力セクションは、合成されることになるいくつかの試料を示し、出力セクションは、合成され、識別された試料を示す。対照的に、分別の実験では、入力セクションは、分別されることになる資料を示し、出力セクションは、幾つかの分別され、識別された試料を示す。測定実験では、入力セクションは、測定されることになる試料を示し、出力セクションは、測定結果を含むデータエンティティである。分類実験では、入力セクションは、分類されることになる試料を示し、出力セクションは、表現型または遺伝子型、あるいはこの両者を示す。培養実験では、入力および出力セクションは、特定の個体群を示し、装置セクションは、培養容器の識別を含み得る。
複雑な実験を記述するために、経路接続700、720、730が種々の経路を結合するやり方に若干似たやり方で、いくつかの実験を結合する実験バインダ(単独で示されていない)があることがある。
図9Bは、1組の希望の結果からのプロジェクト計画の生成を示す。図9Bに示されているプロジェクト計画は、図9Aに示されているシステムで生成されることができるプロジェクト計画の代表的な例である。図9Aに示されているように、実験入力914は、方法910によって実験出力920へ処理され、これは別の方法への実験入力、等として適用され得る。図9Bでは、混合976および変動970のような長方形は、方法を表わし、一方で、試料974および個体群966のような生体材料は、実験入力または出力、あるいはこの両者を表わす。
図9Bは、1組の希望の結果からのプロジェクト計画の生成を示す。図9Bに示されているプロジェクト計画は、図9Aに示されているシステムで生成されることができるプロジェクト計画の代表的な例である。図9Aに示されているように、実験入力914は、方法910によって実験出力920へ処理され、これは別の方法への実験入力、等として適用され得る。図9Bでは、混合976および変動970のような長方形は、方法を表わし、一方で、試料974および個体群966のような生体材料は、実験入力または出力、あるいはこの両者を表わす。
図9Bに示されているプロジェクト計画は、設計者によってグラフィカルユーザインターフェイスにおいて生成されるときは、説明は要らない。しかしながら、それを興味深くするものは、図9Aに示されている体系化されたプロジェクト構造が、1組の希望の結果から、プロジェクト計画またはその中間の行為の少なくとも幾つかを自動的に生成するルーチンを、IMSに与えるのを可能にすることである。
研究者が、4つのデータセット、すなわち、個体群966へ入力されることになる1組の変動を記述している変動データ952と、個体群966からのサンプリングされた測定データ954Aないし954Cとを得ることを望んでいると仮定する。Po[popula]と示されていて、データセット952、および954Aないし954Cに特定されている個体群966は、生体材料の実験目標932および930(図9A参照)のインスタンスである。これは、データセット952に特定されている時間に、変動970によって影響を受ける。変動970は、データセット952の変動変数データおよび混合方法910の方法の記述912から得られる混合実験976によって、実験入力918としての配合データエンティティ980、実験入力916としての生体材料978Aおよび978B、並びに生体材料実験出力922としての試料974と共に準備される。3つのサンプリング動作964Aないし964Cは、実験目標966、すなわちPo[popula]の3つの試料962Aないし962Cを、データセット954Aないし954Cに特定されている時間に生成するであろう。試料962Aないし962Cは、データセット954Aないし954Cの測定変数データおよび測定方法910の方法の記述912から得られる測定実験960Aないし960Cにおいて解析される。試料962Aないし962Cは、実験入力916(図9A参照)のインスタンスであり、データエンティティ958Aないし958Cは、実験出力924のインスタンスである。
このようにして、実験目標930、中間の実験904、並びに要求されるタイミング915および921をもつ入力914および出力920は、データセットの変数データが方法の記述912における方法にマップされるとき、データセット952、954A、954B、および954Cの情報、既定の方法910、並びに方法の記述912によって判断されることができる。
自動プロジェクト計画を生成する論理が直面する問題は、データセット954Aないし954Cから個体群966への中間ステップをどのように判断するかである。論理は、一般の検索機能において、測定データの何れのタイプも、測定方法の制限された組のみによって生成されることができるかという発想に基づく。第1のデータセット954Aが含むデータは、方法の記述912(図9A参照)のみにあると仮定する。このような場合は、方法、すなわち測定960Aが自動的に選択されることができる。残りのデータセット954Bおよび954Cが、幾つかの測定方法によって得ることができるデータのタイプを含むとき、論理は、ユーザが選択するための潜在的な方法の候補を与えることができる。しかしながら、ユーザが適切な測定方法960Bおよび960Cを選択すると直ぐに、論理は、3つの試料960Aないし960Cが3つの測定に必要とされることを暗示することができる。3つの試料が必要とされるので、個体群966の3つのサンプリング動作964Aないし964Cも必要とされる。その理由は、サンプリングが、試料を生成する唯一の動作であるからである。同じ発想は、研究対象の対象にされる変動実験のための特定の混合または他の準備の実験を得るために適用されることができる。したがって、図9Aに示されている体系化されたオブジェクトを用いたプロジェクトの記述は、図9Bに示されているプロジェクト計画において、少なくとも幾つかの中間の行為を自動的に生成する論理によって使用されることができる。
さらに加えて、論理は、プロジェクト計画の行為のための有益なタイムスタンプも推測することができる。図9Bに示されているように、各行為は、関係付けられたタイムスタンプTs[時間]をもつ。研究者が、個体群966のサンプリングのためのタイムスタンプの最適化された組を前もって判断したいと仮定する。タイムスタンプは、Ts[t5]、Ts[t7]、およびTs[t9]として示されている。論理は、経路(図7Aないし8)に関係して記述された運動の法則を使用し、変動970に応答して個体群966において生じるであろうことのシミュレーションを実行することができる。最も有望なシミュレーションは、開始するのに若干の時間がかかり、その後にピークに達し、最後に、横ばい状態になる活動になる。研究者または論理自体は、活動の全ての主要な段階(開始、ピーク、横ばい)が、測定値によって適切に含まれるように、タイムスタンプの最適化された組を判断することができる。
生体材料の記述
図10は、IMSの生体材料セクションのオブジェクトを用いた実施の例を示している。これは、ほんの一例であり、多くの生体材料は、図10に示されている全ての要素がなくても、適切に記述され得ることに注意すべきである。生体材料セクション210とその下位要素210-1ないし210-4、および位置セクション214とその下位要素214-1ないし214-5は、図2に関連して簡潔に記述されている。既に記述された要素に加えて、図10は、生体材料210が、状態要素1002、表現型要素1004、およびデータエンティティ要素1006への多対多の関係をもち得ることを示している。オプションの有機体バインダ1008は、異なる有機体を組み合せる(配合する)のに使用されることができる。例えば、有機体バインダ1008は、ある特定の個体群が、xパーセントの有機体1およびyパーセントの有機体2を含むことを示し得る。
図10は、IMSの生体材料セクションのオブジェクトを用いた実施の例を示している。これは、ほんの一例であり、多くの生体材料は、図10に示されている全ての要素がなくても、適切に記述され得ることに注意すべきである。生体材料セクション210とその下位要素210-1ないし210-4、および位置セクション214とその下位要素214-1ないし214-5は、図2に関連して簡潔に記述されている。既に記述された要素に加えて、図10は、生体材料210が、状態要素1002、表現型要素1004、およびデータエンティティ要素1006への多対多の関係をもち得ることを示している。オプションの有機体バインダ1008は、異なる有機体を組み合せる(配合する)のに使用されることができる。例えば、有機体バインダ1008は、ある特定の個体群が、xパーセントの有機体1およびyパーセントの有機体2を含むことを示し得る。
有機体要素214-1の下のループ1010は、有機体が好ましくは分類の記述に記述されていることを意味する。図10の下半分は、このような分類の記述の2つの例を示している。例1010Aは、大腸菌の特定の試料の分類の記述である。例1010Bは、ホワイトクローバの分類の記述である。
図3Aないし3Cに関連して記述されている変数記述言語は、このような生体材料またはそれらの位置、あるいはこの両者に関係する変数を記述するのに使用されることができる。例を示す。
図10に実質的に示されている生体材料セクションを記憶することによって得られる別の長所は、データの視覚化に関係する。例えば、生体材料は、それらの表現型と置換されることができる。このような置換の例は、ある特定の個人が“アレルギー性”であると分類されることであり、これは、単なる識別よりも、人間にとって、はるかにより直感的に分かる。
データのトレーサビリティ
データのトレーザビリティは、それぞれ、実験の入力および出力914および920と関係付けられた時間情報915および921に基づく(図9A参照)。図11Aおよび11Bは、データのトレーサビリティを、2つの例に照らして示している。図11Aは、サンプリングのシナリオを示している。全ての試料は、参照番号1102によって示されている、ある特定の個人Aから得られる。参照番号1104は、全体的に、4本の矢印を示し、その各々は、ある特定の時間における、ある特定のサンプリングに対応する。例えば、参照番号1106によって示されているように、時間5において、試料4が得られる。図3Aないし4に関連して示されているVDLを使用すると、時間5における試料4は、Sa[4]T[5]として表現されることができる。表現Sa[4]T[5]=Id[4]T[5]は、試料4が、時間5において個人Aから得られたことを意味する。
データのトレーザビリティは、それぞれ、実験の入力および出力914および920と関係付けられた時間情報915および921に基づく(図9A参照)。図11Aおよび11Bは、データのトレーサビリティを、2つの例に照らして示している。図11Aは、サンプリングのシナリオを示している。全ての試料は、参照番号1102によって示されている、ある特定の個人Aから得られる。参照番号1104は、全体的に、4本の矢印を示し、その各々は、ある特定の時間における、ある特定のサンプリングに対応する。例えば、参照番号1106によって示されているように、時間5において、試料4が得られる。図3Aないし4に関連して示されているVDLを使用すると、時間5における試料4は、Sa[4]T[5]として表現されることができる。表現Sa[4]T[5]=Id[4]T[5]は、試料4が、時間5において個人Aから得られたことを意味する。
時間12において、試料4から、2つの別の試料が得られる。矢印1108によって示されているように、試料25は、核を分割することによって、試料4から得られる。参照番号1112は、試料25の実測値(測定値)、すなわち蛋白質P53の濃度を示し、この例では、4.95として示されている。
図11Bは、ある特定の化合物を個人B1150に投与することによって、変動が生じるシナリオにおけるデータのトレーサビリティを示している。参照番号1152ないし1158によって示されているように、化合物abcdの10グラムの用量が、時間1において試料40に適用され、その試料は、時間6において個人Bに投与される。参照番号1170は、時間5において個人Bへマンノースを投与することを示している。図11Bの下半分は、図11Aに類似しており、別々の記述は省かれている。
図11Aおよび11Bに含まれているもののようなイメージを示すことは、ユーザが、実測が何に基づいているかを理解するのを助ける。向上したデータのトレーサビリティの恩恵は、実験の入力および出力の関連するタイミング、エラーの低減、並びに異常のより簡単な説明をよりよく理解することを含む。
実際の場合は、1枚の図面上に合理的に示されることができるものよりも、はるかにより複雑であり得ることが理解されるべきである。したがって、図11Aおよび11Bは、データのトレーサビリティの原理を示している。複雑な場合を支援するには、ユーザに関心のあるトピックのみを見せるユーザ起動フィルタが、視覚化の論理よりも優先されるすべきである。例えば、ユーザが、図11Aに示されている試料25のみに関心があるとき、イベント(試料)のチェーン1102−1106−1110−1112のみが表示されることができる。
ワークフローの記述
図12Aは、IMS内の実質的に任意の複雑さのワークフローを記述し、管理する情報−エンティティの関係性を示している。ワークフロー1202は、矢印1203によって示されているように、別のワークフローを含み得る。最下レベルのワークフローは、ツールの定義1208を含む。各ワークフローは、オーナユーザ1220をもつ。各ワークフローは、プロジェクト1218に属する。(プロジェクトは、図9Aおよび9Bに関連して、記載された。)
ツールは、(デフォルトでないときは)ツール名、カテゴリ、記述、源、プレタグ、実行ファイル、入力、出力、およびサービスオブジェクトクラスに関して定められる。この情報は、ツールテーブルまたはデータベース1208に記憶される。
図12Aは、IMS内の実質的に任意の複雑さのワークフローを記述し、管理する情報−エンティティの関係性を示している。ワークフロー1202は、矢印1203によって示されているように、別のワークフローを含み得る。最下レベルのワークフローは、ツールの定義1208を含む。各ワークフローは、オーナユーザ1220をもつ。各ワークフローは、プロジェクト1218に属する。(プロジェクトは、図9Aおよび9Bに関連して、記載された。)
ツールは、(デフォルトでないときは)ツール名、カテゴリ、記述、源、プレタグ、実行ファイル、入力、出力、およびサービスオブジェクトクラスに関して定められる。この情報は、ツールテーブルまたはデータベース1208に記憶される。
入力定義は、プレタグ、id番号、名前、記述、データエンティティタイプ、ポストタグ、コマンドラインオーダ、オプションの状態(必須または選択)を含む。この情報は、ツール入力バインダ1210またはツール出力バインダ1212に記憶される。実際の実施では、ツール1208、ツール入力バインダ1210、およびツール出力バインダ1212を1つのディスクファイル内に記憶することが便利であり、その例は、図16Aおよび16Bに示されている。
データエンティティタイプは、データエンティティタイプ名、記述、データカテゴリ(例えば、ファイル、サブディレクトリおよびファイルをもつディレクトリ、データセット、データベース、等)によって、システムに定められている。同じカテゴリに属しているが、異なるシンタックスまたはセマンティクスをもち、その結果、既存のツールの互換性の規則のために異なるデータエンティティタイプに属する幾つかのデータエンティティタイプがある。この情報は、データエンティティタイプ1214に記憶される。ツールサーババインダ1224は、ツールを実行することができるツールサーバ1222を示す。ツールサーバ1222が1つのみであるときは、ツールサーババインダ1224を省くことができる。
タイプ別のデータエンティティは、互換性がある、または互換性がない異なるツールの互換性を制御するのに使用される。これは、システムが、ユーザが各ツールの詳細に関する事前の知識がなくても、意味のあるワークフローを生成するのを助けるユーザインターフェイスを開発する可能性を与える。
ユーザデータを含むデータエンティティのインスタンスは、データエンティティ1216に記憶される。ワークフローが構築されるとき、関連するデータエンティティは、ワークフロー入力1204またはワークフロー出力1206を介して、関連するツール入力に接続される。参照番号1200は、全体的に、種々のデータエンティティを示し、これらは、実際の状況において、入力または出力データの実際のインスタンスを構成する。
図12Bは、クライアント端末(client terminal, CT)において実行されるグラフィカルワークフローエディタ1240を含むクライアント−サーバアーキテクチャを示している。グラフィカルワークフローエディタ1240は、ワークフローサーバ1242を介して、ツールサーバ1244内のエグゼキュータおよびサービスオブジェクトに接続する。グラフィカルワークフローエディタ1240は、ワークフローデータベース1246と通信しているワークフローおよびデータエンティティを準備し、実行し、監視し、および表示するのに使用される。ワークフローサーバ1242は、1つ以上のツールサーバ1244を使用することによってワークフローの実行に当たる。関連するツールサーバのアドレスは、サーバテーブル1222(図12A参照)から検出することができる。
各ツールサーバ1244は、エグゼキュータおよびサービスオブジェクトを含み、ツールサーバ上にインストールされているスタンドアロンツールを呼び出すことができる。エグゼキュータは、関連するデータエンティティのワークフローの全ての関連するツールを、標準化されたサービスオブジェクトによって実行することを管理する。サービスオブジェクトは、エグゼキュータがスタンドアローンのソフトウエアツールを実行するために、共通のインターフェイスを与える。ツール別の情報は、XMLファイルに記述されることができ、ツールデータベース(図12Aの項目1208)において各ツールのメタデータを初期設定するのに使用される。サービスオブジェクトは、入力および出力データを受信し、ツール定義情報を使用することによって、ツールを実行するための要求コマンドラインを準備することができる。
図12Aおよび12Bに示されているワークフロー/ツールマネージャは、従来のツールおよびサードパーティのツールを容易に統合する。ワークフロー/ツールマネージャの他の恩恵は、ワークフローの完全な文書化、簡単な再使用可能性、および自動実行を含むことである。例えば、ワークフロー/ツールマネージャは、サードパーティのツールの所有権を保護されたインターフェイスを隠し、それらをIMSの共通のGUIと置換することができる。したがって、ユーザは、共通のグラフィカルユーザインターフェイスの機能を使用して、ワークフローおよびそれらのデータエンティティを準備し、実行し、監視し、表示することができる。
図12Aは、異なるタイプのエンティティ、ツール、等の間の相互の関係を示す情報−エンティティの関係性を示していることに注意すべきである。図12Aは、例えば、ツール入力バインダ1210が、ツール1208の入力とデータエンティティタイプ1214との間の関係を定義していることを示しており、これは、ツール出力バインダ1212によって定義されるツールの出力を表わすものと同じタイプであっても、そうでなくてもよい。
図12Cは、エンドユーザの観点からツールとデータエンティティとの相互関係を示している。使用可能なツールおよびデータエンティティは、任意の複雑さの論理ネットワーク(ワークフロー)として結合されることができ、1つのツールの出力は、次のツールの入力に接続される、等である。各ツールは、1回のみ定義される必要があることに注意すべきである。ツールの各インスタンス化された実行において、各グラフィックの“ツール”のアイコンごとに生成されることができる子ワークフロー1202(または、図12Dに示されているワーク1202’)がある。参照番号1250は、入力データエンティティを示し、これは、この例では、データエンティティ1および2である。参照番号1252は、ワークフロー入力を示す。参照番号1254は、このワークフローにおいて使用されるツールX、Y、およびZを示す。この例では、ワークフロー入力1252は、ツールXおよびYを使用して、データエンティティ1および2を子ワークフローに結び付け、さらに、ツールYおよびZを使用して、データエンティティ1、3、および4を子ワークフローに結び付ける。参照番号1256は、ワークフロー出力を示し、これは、この例では、ツールXを使用して、データエンティティ3および4を子ワークフローに結び付け、ツールYおよびZを使用して、データエンティティ5、6、および7を子ワークフローに結び付ける。参照番号1258は、中間データエンティティを示し、これは、ツールXを呼ぶ子ワークフローからの出力を構成し、ツールYおよびZを呼ぶ別の子ワークフローを入力へ与える。参照番号1260は、出力データエンティティを示し、これは、この例では、データエンティティ5、6、および7である。各ワークフロー入力1252またはワークフロー出力1256は、図12Aに示されている各クラス1204、1206のインスタンスである。ツール入力バインダ1210および出力バインダ1212は、グラフィカルユーザインターフェイスにおいて使用され、ツールおよびデータエンティティを、各入力または出力のための正しいデータエンティティタイプと接続することによって、ワークフローを構築する際にユーザを助ける。
図12Cに示されているように、ワークフロー入力1252またはワークフロー出力1256は、入力データエンティティ1250から出力データエンティティ1260のデータフローネットワークを一括して定義し、その結果、各ワークフロー入力1252は特定のデータエンティティをツール1254の入力へ接続し、各ワークフロー出力1256はツールの出力を特定のデータエンティティへ接続する。特定のデータエンティティは、中間データエンティティ1258または出力データエンティティ1260であり得る。ツールは、ワークフローのトポロジのソーティングに基づいて実行される。このようなワークフローは、異なる入力を使って、何度も反復される必要のある複雑なタスクにとって最も有益である。
図12Cに示されている実施形態は、子ワークフロー、ワークフロー入力、およびワークフロー出力のような、ある特定の抽象的な概念を隠しているが、データエンティティ、ツール、ツール入力、およびツール出力のような、より具体的なものを示している。
図12Dは、図12Aに示されている情報−エンティティの関係性の拡張されたものを示している。参照番号1224よりも小さい参照番号をもつ項目は、図12Aに関連して記述されており、再び記述されない。図12Dに示されている実施形態は、図12Aに示されているものよりも幾つかの拡張をもつ。
1つの拡張は、図12Aの階層形ワークフロー1202、1203が、ワークフロー1202とワーク1202’とに分割されていることから成り、ここで、ワーク1202’は、階層の最下レベルであり、何れの子ワークフローも含まない。ワークフローの外部入力および出力は、それぞれ、ワークフロー入力1236およびワークフロー出力1238によって定められるワークフローである。ワークフローの外部入力および出力は、ワークフロー内のみで使用される内部データエンティテがなくても、全体的な入力および出力を定める。ワークフローの内部データエンティティは、ワーク入力1204’およびワーク出力1206’によって定められる。
別の拡張は、ワーク入力1204’およびワーク出力1206’がデータエンティティ1216に直接に接続されず、データエンティティリスト1226を介して接続され、データエンティティリスト1226が、データエンティティ対リストバインダ1228を介して、データエンティティ1216に接続されるということから成る。この拡張の恩恵は、ワークの入力または出力が、データエンティティリストを含むことができるということである。これは、多数のデータエンティティが同様に処理されることになるときに、エンドユーザの動作を簡単にする。技術的に言うと、データエンティティリスト1226は、ワークの入力1204'または出力1206’として幾つかのデータエンティティを特定し、その結果、リスト内のデータエンティティは、ツール1208によって、別々であるが、連係して処理される。
第3の拡張は、図6Aおよび6Bに示されているデータセット610および620のような構造化されたデータエンティティを処理するための構造化されたデータエンティティタイプバインダ1230である。このようなデータセットは、各々が(共通、行、列、および値行列を記述している)4つのデータエンティティから成り、各構造化されたデータエンティティは、構造化されたデータエンティティタイプバインダ1230によって定義されることができる。したがって、エンドユーザは、データエンティティの相互関係に関係しない。
さらに加えて、各ツール1208は、関係付けられたオプション1238または出口コード1239、あるいはこの両者をもち得る。オプション1238は、スクリプトファイル処理に関連してよく知られているように、種々のパラメータをソフトウエアツールに入力するのに使用され得る。オプション1238は、図16Bおよび16Cに関連して別途記載される(項目1650ないし1670および1696ないし1697参照)。出口コード(またはエラーコード)1239は、ツールの最終状態を、サービスオブジェクト、エグゼキュータ、ワークフローサーバ、およびグラフィカルワークフローエディタを介して、ユーザへ伝えるのに使用されることができる。例えば、ツールの動作が、何らかの類の処理エラーのために中断されると、次のツールにおいて意図されたタスクを実行する点はほとんどないが、ユーザに最終状態を知らせる。出口コードの例は、図16Bに示される(セクション1680参照)。
図12Dに示されているまた別のオプションの拡張は、タイプの定義1214がオントロジ定義を含むことである。オントロジ定義の恩恵は、データエンティティへ/からのツールのタイプ検査が、リテラルではなくて、概念上で成功すればよいということである。例えば、あるツールの定義は、ツールが“リッチテキストフォーマット”のファイルを出力することを特定し、一方で、別のツールの定義は、ツールが“テキスト”ファイルを処理(入力)することを特定する。“テキスト”と“リッチテキストフォーマット”とのリテラルの比較は成功しないが、適切に構成されたオントロジの定義では、“リッチテキストフォーマット”が“テキスト”ファイルのサブクラスであると示すことができ、したがって、オントロジタイプの検査は成功する。
図13は、ワークフローマネージャの例示的なユーザインターフェイス1300を示している。タイトルバー1302およびメニューバー1304は、グラフィカルユーザインターフェイスに精通した者には、説明なしで分かる。ツールセレクタボックス1310は、全ての使用可能なツールを示している。ツール記述子ボックス1320は、選択されたツールの記述を示している。ツール入力ボックス1330およびツール出力ボックス1340は、それぞれ、選択されたツールの入力および出力を示し、記述している。グラフィカルワークフローエディタボックス1350は、編集されるワークフローの内容、すなわち、種々のデータエンティティおよびツールの相互関係をグラフィック形式で示している。グラフィカルワークフローエディタボックス1350は、基本的に、図12Cに示されているのと同様の題材を示しているが、図12Cでは、ツール、データエンティティ、およびバインダ間の論理的な関係が強調されており、一方で、図13は、実際のユーザインターフェイスのよりリアルな表示を示している。この例では、データエンティティ1352は、接続の矢印1356によって示されているように、ツール1354の入力である。ツール1354の出力は、接続の矢印1360によって示されているように、データエンティティ1358である。ツール1354の出力であるデータエンティティ1358は、接続の矢印1364によって示されているように、ツール1362の入力の1つとして使用されるであろう。ツール1362は、3つの別の入力1366、1368、および1370をもつ。この例では、入力1366および1368は、データエンティティであり、入力1370は、種々のオプションの、またはユーザが設定ができるパラメータを含む。パラメータ、とくにオプションでないパラメータを入力する別のやり方は、図16Bにおいて示される(構成ファイル1600内のオプションセクション1650ないし1670参照)。ツール1362の出力は、データエンティティ1372であり、これは、ワークフロー全体の出力でもある。実際には、ワークフローエディタボックス1350において編集されるワークフローは、図12Aの矢印1203によって示されているような、何らかの親または上位レベルのワークフローの子ワークフローであり、その子ワークフローの出力は、その上位レベルのワークフローの入力として使用されるであろう。
次に示すように、図13の要素は、図12Aまたは12D内の要素に関係している。アイコン1352のように“ファイル”形のアイコンで示されている、各データエンティティ1352、1358は、図12Aまたは12D内のデータエンティティクラス1216のインスタンスである。ツールセレクタボックス1310内に示されているツールは、図12Aまたは12D内のツールクラス1208のインスタンスである。これらは、図12Aの子ワークフローまたは図12Dのワークのような、潜在的な実行をインスタンス化するときに、ツールセレクタボックス1310から選択されることができる。関連するツール1354および1362の子ワークフローまたはワークは、図12Aの子ワークフロー1202のインスタンスとしてか、または図12D内のワーク1202'のインスタンスとして編集されるワークフローにおいて使用される。
編集される親ワークフローは、ワークフロークラス1202のインスタンスである。ユーザ入力に応答してグラフィカルユーザインターフェイスによって生成される矢印1356、1364、等は、ワークまたはワークフロー入力1204’、1204のインスタンスを表わしている。これらの矢印は、ワークフローが実行されるときに、ツールを実行することによって行われるであろうワークへの入力として、データエンティティを接続する。関連するツールは、アイコン1354のような“ツール”形のアイコンで示されている。ツール入力バインダ1210は、データエンティティの各接続されたインスタンスのタイプ検査を可能にする。矢印1360は、ワークまたはワークフロー1206、1206'のインスタンスを表わしている。これらの矢印は、ワークフローが実行されるときに、ツールを実行することによって行われるであろうワークからの出力として、データエンティティを接続する。関連するツールは、“ツール”形のアイコンで示されている。ツール出力バインダ1212は、データエンティティの各接続されたインスタンスのタイプ検査を可能にする。
この実施の恩恵は、図12Aおよび12Dに示されている適切に定義されたタイプ定義が、データの信頼性および完全性を保証する徹底したタイプ検査を支援することである。ユーザインターフェイス1300において、タイプ検査は、タイプ検査が成功であるときのみ、データエンティティとツールとの相互作用の接続を実行することができるように、実施され得る。さらに加えて、データエンティティタイプは、選択されたツールの入力ボックス1330および出力ボックス1340に示されることができる。
ここでも、子ワークフロー、ワークフロー入力、ワークフロー出力、ワーク入力、およびワーク出力のような、抽象的な概念は、グラフィカルユーザインターフェイスのユーザから隠されているが、データエンティティ、ツール、ツール入力、およびツール出力のような、より具体的な要素は、直感的に分かるアイコンおよび矢印としてユーザに視覚化されている。
量子データの場合に、データエンティティ1216、1352、等は、図6Aおよび6Bに関連して記述された、データセット610、620のように編成されることが、好ましく、変数値行列614、624のように編成されることが、とくに好ましい。この環境における変数値行列614、624の恩恵は、いくつかの源から得られ得るソフトウエアツールが、次元、あるいは行列の行または列の記述子ではなく、配列(array)のみを処理すればよいことである。
グラフィカルユーザインターフェイスは、斬新なやり方ではなく、“ドラッグ アンド ドロップ”として知られている技術を採用していることが好ましい。従来のグラフィカルユーザインターフェイスにおいて、ドラッグ アンド ドロップ技術は、ユーザが、ソフトウエアツールのアイコンの一番上のディスクファイルのアイコンをドラッグするとき、オペレーティングシステムが、このユーザ入力を、特定されたソフトウエアツールで特定されたディスクファイルを開く命令として解釈するように働く。しかしながら、本発明は、特定のディスクファイル(または、何れかの別のデータエンティティ)が特定のツールによって直ちに処理されないように、ドラッグ アンド ドロップ機能を使用していることが好ましい。その代りに、データエンティティのソフトウエアツールへの相互接続は、生成または更新されるワークフロー内にセーブされる。よく知られているドラッグ アンド ドロップのメタファーを使用して、(暫定的な動作をトリガするのではなく)セーブされたワークフローを生成することは、幾つかの恩恵を与える。例えば、セーブされたワークフローは、各ワークフローを全て再生成するのではなく、変更して、あるいは変更せずに、容易に反復されることができる。別の恩恵は、セーブされたワークフローが、ワークフローのトレーシングを支援することである。
専用のツール入力および出力バインダは、何れかのサードパーティのデータ処理ツールを事実上使用することを可能にする。新しい、従来の、またはサードパーティのツールの統合は、簡単で、体系的にされる。
ワークフローの体系的な概念では、サードパーティのツールの所有権を保護されたインターフェイスを隠し、所有権を保護されたインターフェイスを、IMSの共通のグラフィカルユーザインターフェイスに置換する。したがって、共通のグラフィカルユーザインターフェイスの機能を使用して、ワークフローおよびそれらのデータエンティティを準備し、実行し、監視し、表示することができる。さらに加えて、このような体系的なワークフローの概念では、体系的で完全な文書化、簡単な再使用可能性、および自動的な実行を支援する。
ワークフローの体系的な概念では、サードパーティのツールの所有権を保護されたインターフェイスを隠し、所有権を保護されたインターフェイスを、IMSの共通のグラフィカルユーザインターフェイスに置換する。したがって、共通のグラフィカルユーザインターフェイスの機能を使用して、ワークフローおよびそれらのデータエンティティを準備し、実行し、監視し、表示することができる。さらに加えて、このような体系的なワークフローの概念では、体系的で完全な文書化、簡単な再使用可能性、および自動的な実行を支援する。
データエンティティの概念は、何れかのデータを使った実験に全般的な可能性を与えることである。しかしながら、データエンティティタイプの概念は、異なるツールの互換性を理解し、識別し、制御することを可能にする。サードパーティからのソフトウエアツールは、データを次元またはデータ記述子から切り離す必要がないので、各々が無次元の変数値行列を含む、データセットのような量子データの編成は、データセットとそのツールとの間に最大の互換性を与える。
グラフィカルインターフェイスのために、生化学の専門知識をもつ研究者は、使用可能な入力への、または出力からの生化学的に関連するデータエンティティを容易に接続し、直ちに視覚上のフィードバックを得ることができる。経験の少ないユーザは、単に入力データエンティティを変更することによって、既存のワークフローを再使用して、標準のワークフローを反復することができる。各特定のツールのコマンドラインのシンタックスおよびセマンティクスの詳細について知る必要は、新しいツールをシステムに統合する技術的適格者に委ねることができる。この恩恵は、ツールの定義をワークフローの生成と切り離すことから生じている。生化学の専門家は、(データエンティティ、ワーク、ワークフロー、ワーク入力、ワークフロー入力、ワーク出力、およびワークフロー出力に関して定められている)ワークフローの生成に集中することができる一方で、ツールの定義(ツール、ツール入力バインダ、ツール出力バインダ、オプション、出口コード)は、情報技術の専門家に委ねられる。
遺伝子配列のデータベースからの経路の自動ポピュレーション
図7Aないし8に関連して実質的に記載されている経路をもつIMSは、不完全な経路を支援している。これは、経路が、基本構成要素によって定められ、より多くの情報が得られると、これを追加できるからである。この能力の恩恵は、IMSが、外部(多くの場合は、市販)の配列データベースからの経路の自動ポピュレーションのためのハードウエアおよびソフトウエア手段もつことができるということである。必要とされるものは、外部データベースへのアクセス手段、各特定のデータベースのためのパーシング論理、および外部データベースによって与えられる特徴テーブルまたは他の情報から経路構成要素(またはそれらの少なくともいくつか)を得るための論理である。配列データベースは、経路モデルについての明示的な情報を与えないことに注意すべきである。それらは、遺伝子についての情報、コード化区域、および/または遺伝子によってコード化される蛋白質についての情報を与えるだけである。しかしながら、適切な論理は、この情報から経路構成要素の少なくともいくつかを推測することができる。適切に定義された生化学エンティティ(特定の遺伝子または特定の蛋白質の組)による関係の配列データベースは、明示的には何も伝えず、これらの関係が経路のデータベース(図7Aおよび7B参照)に記憶されると直ぐに、この論理は、これらの関係の非常に大きなかたまりとして配列データベースによって与えられる注釈付けを解釈することができる。相互作用(転写および翻訳)の配列データベースも何も伝えず、相互作用は、基本的な生化学の知識を使用して、完全に記述されることはできないが、適切に定義された生化学エンティティおよび基本的な生化学の概念によって、相互作用間の接続は、経路モデルに完全に記述されることができる。それどころか、配列データベースが転写産物の情報を含むことでさえ不要である。その代わりに、本発明の論理は、転写産物を判断し、それらを識別して、名前を付けることができる。mRNA分子は、通常、遺伝子または蛋白質と同様に、名前を付けられないので、名前を付けることが必要であることが多い。
図7Aないし8に関連して実質的に記載されている経路をもつIMSは、不完全な経路を支援している。これは、経路が、基本構成要素によって定められ、より多くの情報が得られると、これを追加できるからである。この能力の恩恵は、IMSが、外部(多くの場合は、市販)の配列データベースからの経路の自動ポピュレーションのためのハードウエアおよびソフトウエア手段もつことができるということである。必要とされるものは、外部データベースへのアクセス手段、各特定のデータベースのためのパーシング論理、および外部データベースによって与えられる特徴テーブルまたは他の情報から経路構成要素(またはそれらの少なくともいくつか)を得るための論理である。配列データベースは、経路モデルについての明示的な情報を与えないことに注意すべきである。それらは、遺伝子についての情報、コード化区域、および/または遺伝子によってコード化される蛋白質についての情報を与えるだけである。しかしながら、適切な論理は、この情報から経路構成要素の少なくともいくつかを推測することができる。適切に定義された生化学エンティティ(特定の遺伝子または特定の蛋白質の組)による関係の配列データベースは、明示的には何も伝えず、これらの関係が経路のデータベース(図7Aおよび7B参照)に記憶されると直ぐに、この論理は、これらの関係の非常に大きなかたまりとして配列データベースによって与えられる注釈付けを解釈することができる。相互作用(転写および翻訳)の配列データベースも何も伝えず、相互作用は、基本的な生化学の知識を使用して、完全に記述されることはできないが、適切に定義された生化学エンティティおよび基本的な生化学の概念によって、相互作用間の接続は、経路モデルに完全に記述されることができる。それどころか、配列データベースが転写産物の情報を含むことでさえ不要である。その代わりに、本発明の論理は、転写産物を判断し、それらを識別して、名前を付けることができる。mRNA分子は、通常、遺伝子または蛋白質と同様に、名前を付けられないので、名前を付けることが必要であることが多い。
したがって、主に図7Aないし8に関連して既に記述された経路モデルをもつIMSは、接続および相互作用に基づき、IMSは不完全な経路モデルを支援する。より多くの情報が使用可能であるときに、後で相互作用が完全にされなければならないときでさえ、外部データベースから接続を自動的に判断することは、有益な追加である。
ここで使用されているように、生物学のセントラルドグマは、微生物処理、とくに、特定の遺伝子の特定の転写産物への転写、および特定の転写産物の特定の蛋白質への翻訳の現在の科学的な見解を意味する。しかしながら、詳細な生物学のセントラルドグマ情報をもつ体系化された経路は、そのままでは存在しない。このような経路は、遺伝子、転写産物、および蛋白質に基づいて、現実的な遺伝子調節ネットワークを構築するときの、合理的な起点であるであるだろう。従来技術の経路は、部分的な情報、例えば(一方の遺伝子の生成物が他方の遺伝子の既知の調節因子であるときに、一緒に接続される遺伝子)のみを含む。遺伝子、転写産物、および蛋白質の関係性は、機械可読な経路にあまり記述されていない。1つには、転写産物は体系的に識別されず、したがって、経路における相互作用の要素として容易に提示されないと説明される。大きい経路の生成も、名前付け、および経路のスケーラビリティのモデル化、等といった、いくつかの問題によって妨げられる。セントラルドグマにしたがう経路は、複雑になりがちであり、このような複雑さをもつ経路を適切にモデル化できるということを達成することは、全く些細なことではない。
この実施形態では、識別された遺伝子をそれらのDNA配列と共に含む一般的なDNA配列データベースから、適切に識別された遺伝子を取る。この入力データは、相互作用のような、明示的な経路データを含まず、このために、DNA配列データベース内の隠された経路情報の潜在性は、これまで無視されてきた。一般的なDNA配列データベースは、転写産物の一部または蛋白質の一部、あるいはこの両者をコード化するための既知のDNA配列の特定の部分を与える各遺伝子のコード化区域の注釈付けを与える。いくつかのDNA配列データベースは、特定の単層ファイルフォーマットまたはXMLフォーマットにおいて使用可能であり、いわゆる特徴テーブル(feature table)またはFTラインと、特定のキーワードの注釈付け(例えば、コード化区域/配列(coding area/sequence)に対して“CDS”)と、注釈を付けられた特徴の一連の位置を示すフィールドとを含む。一般に、遺伝子のための、およびときには、蛋白質のためのデータベース参照がある。
遺伝子は、客観的には、そのDNA配列と、遺伝子を保持している染色体および他の遺伝子分子上の位置とによって、主観的には、種々の名前およびデータベース参照によって識別されることができる。
転写産物は、関連する遺伝子のDNA配列から得られるRNA配列によって客観的に識別されることができる。メッセンジャーRNAは、関連する遺伝子のDNA配列の蛋白質コード化区域から得られたDNA配列を含む。各関連する転写産物には、名前を付ける必要がある。これは、他に遺伝子の生成物がないときは、関連する遺伝子によって名前を付けられることができるが、そうでなければ、それがコード化する遺伝子および蛋白質によって名前を付けられることができる。
転写産物は、関連する遺伝子のDNA配列から得られるRNA配列によって客観的に識別されることができる。メッセンジャーRNAは、関連する遺伝子のDNA配列の蛋白質コード化区域から得られたDNA配列を含む。各関連する転写産物には、名前を付ける必要がある。これは、他に遺伝子の生成物がないときは、関連する遺伝子によって名前を付けられることができるが、そうでなければ、それがコード化する遺伝子および蛋白質によって名前を付けられることができる。
RNA配列の3つの連続する塩基は、蛋白質の配列における1つのアミノ酸をコード化する。これは、1つのメッセンジャーRNAが、そのアミノ酸配列によって客観的に、あるいはそのいくつかの名前またはデータベース参照によって主観的に識別されることができる1つの蛋白質をコード化することを意味する。生化学エンティティの類似性は、客観的な識別データに基づいて検査されることができる。生化学エンティティの名前は、経路を処理する全ての応用において一貫して使用されなければならない。
この実施形態は、経路モデル;経路のネットワークトポロジを変更し、検査する論理;遺伝子配列データに基づく(少なくとも、遺伝子、転写産物、および蛋白質のための)生化学エンティティの客観的および主観的識別の管理;並びにデータベース名と関係付けられる生化学エンティティの一貫して使用される名前、すなわちデータベースにおいて使用されるid nameおよび生化学エンティティの主観的識別を含むid stringをもつデータベース参照データ構造を含む。配列データおよび主観的識別は、明示的な相互作用または経路データをもたない遺伝子配列データベースから取られる。
図14Aは、遺伝子配列データベースからの経路の自動ポピュレーションのための処理1400を示している。この例では、配列データベース内に2つの識別された遺伝子G1およびG2があり、参照番号1402および1408で示されている。データベースの特徴テーブルには、注釈を付けられたDNA配列がある。
一般的な遺伝子配列データベースには、ライン識別子、キーワード、および特徴の注釈付けのための一連の位置または修飾子の情報がある。多くの異なる識別子、キーワード、および修飾子があるが、いくつかの全般的な共通性を使用することができる。
例えば、EMBL配列データベースは、次のような特徴テーブルをもつ。
例えば、EMBL配列データベースは、次のような特徴テーブルをもつ。
スプライス変異の生成物P1、P2、およびP3(参照番号1442、1444、および1446)をもつ遺伝子G1(参照番号1402によって示されている)をもつと注釈を付けられた特徴があると仮定する。このような場合に、自動ポピュレーションルーチンは、3つのスプライス変異のmRNA、すなわち、G1からP1へのTr1=mRNA、G2からP2へのTr2=mRNA、およびG3からP3へのTr3=mRNAがあるに違いないと推測することができる。3つのスプライス変異のmRNAは、参照番号1422、1424、および1426によって示されている。
さらに、1つの生成物P4 1448をもつ遺伝子G2 1408をもつと注釈を付けられた特徴があると仮定する。このとき、自動ポピュレーションのルーチンは、G2からP4への1つのmRNA、すなわちTr4=mRNA 1428があるに違いないと推測することができる。
上述の情報に基づいて、図14Aに示されているもののような、スケルトン経路が自動的に生成されることができる。
先ず、転写の相互作用は、リボヌクレオチド基質を使って、その後で、既知の転写要素を使って機械的に完了されることができる。翻訳の相互作用は、アミノ酸およびリボソームを使って完了されることができる。相互作用はまだ完了されていないが、識別されたmRNAおよび蛋白質について注釈を付けられた特徴があるとき、翻訳の相互作用を形成するのに、RNA配列のデータベースが使用されることができる。
先ず、転写の相互作用は、リボヌクレオチド基質を使って、その後で、既知の転写要素を使って機械的に完了されることができる。翻訳の相互作用は、アミノ酸およびリボソームを使って完了されることができる。相互作用はまだ完了されていないが、識別されたmRNAおよび蛋白質について注釈を付けられた特徴があるとき、翻訳の相互作用を形成するのに、RNA配列のデータベースが使用されることができる。
ハードウエアおよびソフトエアに関して、IMSは、外部データベースへのアクセスを必要とする。多くのデータベースへは、通常のインターネットブラウザを使ってアクセスすることができる。したがって、自動ポピュレーションソフトウエアは、インターネットブラウザをエミュレートするか、さもなければ、互換性のあるコマンドを出力する必要がある。さらに加えて、IMSは、各データベースの出力がどのように配置されるかというパーシング論理および情報を必要とする。
1つの論理図を形成している図14Bおよび14Cは、明示的な経路情報を与えない遺伝子配列データベースから経路を自動的にポピュレートするための論理ルーチン1450を示している。ルーチンは、ステップ1451で始まり、ここでは、ルーチンは、入力として、経路名、位置名(ポピュレートされる経路)、および遺伝子配列ファイル(例えば、EMBL単層ファイル)を取る。ステップ1452では、論理は、次に示すエキソンのレコードを生成する遺伝子配列データ(例えば、EMBLのFTライン)をパースする。
ステップ1460では、論理は、この遺伝子とこの蛋白質との間に経路で接続された転写産物があり、その結果、遺伝子が転写の相互作用を制御し、転写の相互作用が転写産物を生成し、転写産物が翻訳の相互作用を生成し、翻訳の相互作用が蛋白質を生成するかどうかを検査する。ステップ1461において、何れかが検出されると、論理はステップ1456へ戻る。ステップ1462ないし1467では、論理は、次のような経路情報を生成する。
空間参照モデル
図15は、種々の細胞型のための空間参照モデルを示している。単純なデカルトまたは極座標系は、いくつかの細胞型にとって十分であり得ることは、既に記載した。座標系は、基準点からの最大距離が1であるように正規化されることが好ましい。
図15は、種々の細胞型のための空間参照モデルを示している。単純なデカルトまたは極座標系は、いくつかの細胞型にとって十分であり得ることは、既に記載した。座標系は、基準点からの最大距離が1であるように正規化されることが好ましい。
単純なデカルトまたは極座標系では不十分である、多くの細胞型がある。例えば、幹細胞は方向性であり、これは、幹細胞が、正面端部および後面端部をもつことを意味する。神経細胞は、さらに一層複雑である。したがって、IMSは、幾つかの空間参照モデルを含むことが好ましく、空間点は、参照モデルと、参照モデル内の区域との組合せとして表現される。
図15は、3つの参照モデルの例を示している。参照モデル1500は、三次元のデカルト座標系のような、単純な座標系である。いくつかの細胞型では、1つか、または2つの座標で十分である。問題の細胞型が回転対称であるときは、デカルト座標系よりも、極座標系がよいであろう。
参照モデル1510は、細胞を幾つかの区域に分割したものに基づく。区域の数は、生化学情報が区域全体で妥当であるように選択されるべきである。参照モデル1510は、幹細胞のような、コンパクトな方向性細胞に適している。これは、正面端部区域1511、後面端部区域1516、核区域1514、および種々の中間区域1512、1513、および1515をもつ。正面端部および後面端部は、化合物の低減濃度のような、何らかの勾配に関係して選択されることができる。
参照モデル1520は、神経細胞のトポロジのモデル化の例である。これは、核区域1521、核の周りの種々の部分1522、1523、体細胞区域1524、および軸索区域1525、等をもつ。正規化された空間座標は、必要とされるときに、詳細レベルをさらに相当に高めるのに使用されることができる。例えば、軸索の外側表面の長手方向の中点における点は、{1520,1525,(0.5,1)}で表現されることができ、ここで、1520は、参照モデルを示し、1525は、参照モデル内の区域を示し、0.5は、軸索に沿う正規化された長手方向の座標であり、1は、軸索の断面に沿って半径の100%であることを意味する。
パターン照合
図16Aないし16Cは、所与のパターンに整合する経路を検索する技術を示す。本発明のさらに好ましい実施形態にしたがって、IMSは、トポロジパターン(経路のモチーフ)を検索することができるパターン照合論理を含む。パターン照合では、検索基準は緩和され、検索は、例えば、ワイルドカードまたは遺伝子のオントロジに基づくことができる。
図16Aないし16Cは、所与のパターンに整合する経路を検索する技術を示す。本発明のさらに好ましい実施形態にしたがって、IMSは、トポロジパターン(経路のモチーフ)を検索することができるパターン照合論理を含む。パターン照合では、検索基準は緩和され、検索は、例えば、ワイルドカードまたは遺伝子のオントロジに基づくことができる。
図16Aは、パターン照合の一般的な候補である例示的な経路を示している。図16Aは、図8と同じ図面表記法を使用している。参照番号1600は、全体的に、自己抑制、すなわち、遺伝子の表現を、その遺伝子によってコード化される生成物(蛋白質)によって調節する処理をモデル化する経路を示す。経路モデル1600は、次に示す調節処理をモデル化する。遺伝子A1602は、相互作用B1606に対して“活性化”1604関係をもつ。相互作用B1606は、転写産物C1610に対して“生成”関係1608をもち、また、転写産物C1610は、相互作用D1614に対して“活性化”関係1612をもつ。相互作用D1614は、蛋白質E1618に対して“生成”関係1616をもち、ここで終了し、蛋白質E1618は、相互作用B1606に対する“抑制”関係1620によって、自己調節する。
図16Bは、全体的に、パターン照合論理1650を示している。研究者が、このような自己調節機構についてIMSを検索することを望んでいると仮定する。このような検索を支援するために、IMSは、ワイルドカードを含み得る検索基準1652に基づいて、ワイルドカードの検索を実行するように定められたパターン照合論理1650を含むことが好ましい。この例では、検索基準1652は、次のようなものである。
ワイルドカードを含み得る検索基準1652に加えて、パターン照合論理1650は、潜在的な経路のリストを示す別の入力1654をもち得る。リストは、特殊な経路の明示的なリストであっても、または経路モデルの要素に基づく別の検索基準として表現される暗示的なリストであってもよい(潜在的な検索基準については、図7Aないし8参照)。出力として、パターン照合論理1650は、検索基準1652に整合する経路のリスト1656を生成する。
例えば、パターン照合論理1650は、図16Cに示されている反復的な木検索アルゴリズム1670として実施されることができる。ステップ1672では、データベース照会を開始し、研究者の照会パラメータに整合する経路のリスト1654を戻す。例えば、照会パラメータは、図2により詳しく示されている位置214に関係し、位置は人間の肝臓を示す。ステップ1674において、整合する経路が他に検出されないときは、処理は終了する。対象の経路が取られると、ステップ1676において、検索基準1652の最初の要素が選択される。ステップ1678では、現在の経路において、検索基準の第1の要素に整合する次の要素が検索される。ステップ1680では、現在の経路が、基準の第1の要素に整合する要素を他にもたないときは、次の経路が試みられることになる。ステップ1682では、現在の要素を木構造の根ノードとして採用して、木構造が、現在の経路から反復的に構成される。ステップ1684では、現在試験されている木構造が検索基準1652に整合するかどうかが試験される。整合するときは、現在の経路は、ステップ1686において、好適なものとして示される。現在の木構造が検索基準1652に整合しないときは、ステップ1688において、現在の経路要素からの全ての木構造が試みられたかどうかについて試験が行われる。整合しないときは、処理はステップ1682へ戻り、ここでは、次の木構造が構成される。現在の経路要素から全ての木構造が検索される試みられると、処理は、ステップ1676ないし1678へ戻り、ここでは、検索基準1652の第1の要素が再び採用され、別の整合している経路要素が、木構造に整合する候補を構成する根ノードとして試みられる、等である。
試験にかけられている経路から木構造が構成されるステップ1682の達成に関して、木検索アルゴリズムが、プログラミング文献において開示される。正規の木検索アルゴリズムにおいて、ループは、普通は許可されないが、ステップ1682において、ループが、検索基準1652内のループに整合するとき、そのループは許可される。
図16Bに示されている例は、テキストのワイルドカードに基づく。さらに一層有能なシステムは、オントロジのデータベースで達成される。これは、図16Cのステップ1682において、照合試験が、ワイルドカードの照合ではなく、オントロジの照会に基づくことを意味する。
図16Bおよび16Cに示されている実施形態において、検索基準(経路パターン)は、テキスト形式で表現されていた。検索される経路パターンを、経路が通常IMSへ入力されるやり方で、入力することもできる。図16Aは、従来の経路1600の例を示しているが、実際の状況では、識別子AないしEは、生化学エンティティの実際の識別子によって置換される。図16Dは、経路1600に構造上は一致しているが、生化学エンティティの識別子の一部または全てが、ワイルドカードに置換されている経路パターン(モチーフ)1660を示す。この例では、経路パターン(モチーフ)1660の識別子は、テキストの検索基準1652ではなく、パターン照合論理1650へ入力されることができる。
図16Eは、経路パターン1660に整合する経路を検索する例示的なSQL照会1690を示している。この例では、検索基準は、pathway id=2が経路Pw[...]L[...]に対応するように生成されている。SQL照会1690の内容は、次のように解釈することができる。SELECT文は、変数C1 idないしC5 idの値の5つのidフィールドを検索する。FROM句は、照会が、SELECT文において要求されたidフィールドの接続を含む接続テーブルから、検索されることを特定する。WHERE句は、次の条件を特定する:
−全ての接続は、pathway id=2(経路パターンのid)をもたなければならない;
−接続C1は、タイプ3(制御)である;
−接続C2は、タイプ3(生成)である;
−接続C3は、タイプ3(制御)である;
−制御C4は、タイプ3(生成)である;
−制御C5は、タイプ3(抑制)である。
−全ての接続は、pathway id=2(経路パターンのid)をもたなければならない;
−接続C1は、タイプ3(制御)である;
−接続C2は、タイプ3(生成)である;
−接続C3は、タイプ3(制御)である;
−制御C4は、タイプ3(生成)である;
−制御C5は、タイプ3(抑制)である。
接続のオブジェクトクラス(遺伝子、転写産物、...)を次に示す:
−接続C1とC3とは共通のエンティティをもち、C4とC5とも同様である;
−接続C1とC2とは、共通の相互作用をもつ;
−接続C3とC4とは、共通の相互作用をもつ;
−接続C5とC1とは、共通の相互作用をもつ;
−接続C5とC2とは、共通の相互作用をもつ。
−接続C1とC3とは共通のエンティティをもち、C4とC5とも同様である;
−接続C1とC2とは、共通の相互作用をもつ;
−接続C3とC4とは、共通の相互作用をもつ;
−接続C5とC1とは、共通の相互作用をもつ;
−接続C5とC2とは、共通の相互作用をもつ。
照会1690が処理されると、結果の組は、上述の基準を満たす経路を示す。検索される経路において、5つの接続がidフィールドによって識別されると直ぐに、パターン(モチーフ)1660は簡単に局所化される。
検索基準の生成は、次のステップを含む:
1.経路パターンの(検索するモチーフ)接続を読み出すステップ;
2.それらの数に基づいて、SELECT文およびFROM句を生成するステップ;
3.経路パターンに基づいて、WHERE句の条件を形成するステップ;
4.接続のタイプに対する条件を形成するステップ;
5.接続のオブジェクトクラスに対する条件を形成するステップ;
6.接続を接合する生化学エンティティの識別条件を形成するステップ;
7.接続を接合する相互作用に対して識別条件を形成するステップ。
検索基準の生成は、次のステップを含む:
1.経路パターンの(検索するモチーフ)接続を読み出すステップ;
2.それらの数に基づいて、SELECT文およびFROM句を生成するステップ;
3.経路パターンに基づいて、WHERE句の条件を形成するステップ;
4.接続のタイプに対する条件を形成するステップ;
5.接続のオブジェクトクラスに対する条件を形成するステップ;
6.接続を接合する生化学エンティティの識別条件を形成するステップ;
7.接続を接合する相互作用に対して識別条件を形成するステップ。
経路モチーフにおけるエンティティの幾つかが、それ自身の名前またはGOクラスによって識別されると、SQL照会の生成は、別の条件を含み、エンティティの名前または注釈付けによって接続されるGOクラスは、結果の組へのエントリを制限する。
比較的に単純なデータベース照会によるこのようなトポロジのパターン照合は、図7Aないし8に関連して記述された体系化された経路モデルと、図3Aないし5に関連して記述された体系化された変数記述言語とによって相当に容易にされる。
比較的に単純なデータベース照会によるこのようなトポロジのパターン照合は、図7Aないし8に関連して記述された体系化された経路モデルと、図3Aないし5に関連して記述された体系化された変数記述言語とによって相当に容易にされる。
当業者には、技術的進歩にしたがって、発明的な概念を種々のやり方で実施できることが容易に分かるであろう。本発明およびその実施形態は、上述の例に制限されず、特許請求項の範囲内で変更され得る。
頭辞語
IMS(Information Management System):情報管理システム。
VDL(Variable Description Language):変数記述言語。
SQL(Structured Query Language):構造化照会言語。
XML(Extendible Markup Language):拡張マーク付け言語。
頭辞語
IMS(Information Management System):情報管理システム。
VDL(Variable Description Language):変数記述言語。
SQL(Structured Query Language):構造化照会言語。
XML(Extendible Markup Language):拡張マーク付け言語。
200・・・データベース構造、202・・・データセットセクション、204・・・変数/単位セクション、206・・・時間セクション、208・・・実験セクション、210・・・生体材料セクション、212・・・経路セクション、214・・・位置セクション、214-1・・・有機体セクション、214−2・・・器官セクション、214−3・・・組織セクション、214−4・・・細胞型セクション、214-5・・・細胞内区画、214−6・・・空間点セクション、216・・・接続セクション、218・・・生化学エンティティセクション、218-1・・・遺伝子セクション、218-2・・・転写産物セクション、218-3・・・蛋白質セクション、218-4・・・高分子化合物セクション、218-5・・・化合物セクション、218-6・・・非生物の刺激セクション、220・・・データベース参照セクション、222・・・相互作用セクション、224・・・運動の法則セクション、226・・・名前テーブル、30・・・変数の記述、31・・・キーワードと名前の対、32・・・キーワード、33・・・開始区切り記号、34・・・(変数)名前、35・・・閉じ区切り記号、36・・・分離記号、38・・・キーワードテーブル、38'・・・プレーンテキストの記述、38''・・・説明の例、300・・・状態機械、302・・・初期状態、304,306,308・・・中間状態、310・・・許可状態、312・・・エラー状態、401ないし418,510,520,530,540・・・変数表現、500・・・文脈空間、511・・・点、521,541・・・時間関数、531,542・・・分布、610,620,952,954・・・データセット、611,621・・・固定次元表現、612,622・・・列記述リスト、613,623・・・行記述リスト、614,624・・・変数値行列、615・・・人間が読むことができる形、630,634・・・行列、631・・・621に対応するセクション、632・・・622に対応するセクション、633・・・623に対応するセクション、634C・・・624に対応するセクション、634A・・・データ項目の行表示列、634B・・・データ項目の列表示列、700・・・経路モデル、702,720,730・・・経路接続、711・・・経路A、712・・・経路B、713・・・経路C、721,722,723・・・経路関係、724,725・・・エンティティ関係、734,735・・・相互作用関係、741・・・複合のRNA、742・・・転写産物のmRNA、743,746・・・相互作用、744・・・遺伝子A、745・・・蛋白質B、800・・・経路、810・・・生化学エンティティ、820・・・相互作用、830・・・接続、840・・・基質の接続、850・・・生成物の接続、860・・・活性化、870・・・抑制、881・・・生化学エンティティの濃度、882・・・相互作用の反応速度、883・・・接続のフラックス、902,1218・・・プロジェクト、904・・・実験、906・・・装置データ、908・・・ユーザデータ、910・・・方法データ、912・・・方法の記述、914・・・実験入力、916,922,932,978・・・生体材料、918,924,934,958,980,1200,12161250,1258,1260,1352,1358,1366,1368,1370,1372・・・データエンティティ、920・・・実験出力、930・・・目標、960・・・測定、962,974・・・試料、964・・・サンプリング動作、966・・・個体群、970・・・変動、976・・・混合、1002・・・状態要素、1004・・・表現型要素、1006・・・データエンティティ要素、1008・・・有機体バインダ、1010・・・ループ、1010A,1010B・・・分類の記述、1102・・・個人A、1150・・・個人B、1202・・・ワークフロー、1202'・・・ワーク、1204,1236,1252・・・ワークフロー入力、1204'・・・ワーク入力、1206,1238,1256・・・ワークフロー出力、1206'・・・ワーク出力、1208・・・ツールの定義、1210・・・ツール入力バインダ、1212・・・ツール出力バインダ、1214・・・データエンティティタイプ、1220・・・オーナユーザ、1222,1244・・・ツールサーバ、1224・・・ツールサーババインダ、1240・・・グラフィカルワークフローエディタ、1242・・・ワークフローサーバ、1246・・・ワークフローデータベース、1254,1354,1362・・・ツール、1226・・・データエンティティリスト、1228,1230・・・バインダ、1238・・・オプション、1239・・・出口コード、1300・・・ユーザインターフェイス、1302・・・タイトルバー、1304・・・メニューバー、1310・・・ツールセレクタボックス、1320・・・ツール記述子ボックス、1330・・・ツール入力ボックス、1340・・・ツール出力ボックス、1350・・・ワークフローエディタボックス、1356,1360,1364・・・接続の矢印、1400・・・処理、1402,1408・・・遺伝子、1442,1444,1446,1448・・・生成物、1422,1424,1426・・・スプライス変異のmRNA、1450・・・論理ルーチン、1500,1510,1520・・・参照モデル、1511・・・正面端部区域、1512,1513,1515・・・中間区域、1514・・・核区域、1516・・・後面端部区域、1521・・・核区域、1522,1523・・・核の周りの部分、1524・・・体細胞区域、1525・・・軸索区域、1600・・・経路モデル、1602・・・遺伝子A、1604・・・活性化関係、1606・・・相互作用B、1608,1616・・・生成関係、1610・・・転写産物C、1614・・・相互作用D、1620・・・抑制関係、1650・・・パターン照合論理、1652・・・検索基準、1654・・・別の入力、1656・・・経路リスト、1670・・・木検索アルゴリズム、1660・・・経路パターン、1690・・・SQL照会。
Claims (15)
- 生化学情報を管理する情報管理システム(Information Management System, IMS)であって、
サーバ(server, S)とデータベース(database, DB)とを含み、データベースが、前記生化学情報を変数データセットとして含み、各変数データセットが、
行および列として編成された変数値を含む変数値行列と、
変数値行列内の行の、変数記述言語の行記述リストと、
変数値行列内の列の、変数記述言語の列記述リストと、
変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とを含む情報管理システム。 - サーバ(S)が、ファイルシステムを含み、変数値行列が、行記述リスト、列記述リスト、または固定次元の記述とは無関係に、ファイルシステムによってアドレス指定可能である請求項1記載のIMS。
- 変数記述言語が変数の記述を含み、各変数の記述が、キーワードおよび名前の1つ以上の対を含み、
IMSが、許容キーワードのテーブルを含む請求項1または2記載のIMS。 - 前記変数記述言語で表現されている変数にシンタックス検査を行なう論理をさらに含む請求項3記載のIMS。
- IMSが複合変数表現を含み、各複合変数表現が、演算子または関数、あるいはこの両者によって分けられる2つ以上の変数表現を含む請求項3または4記載のIMS。
- 少なくとも、経路、生化学エンティティ、接続、および相互作用から形成される生化学経路の構造化された記述をさらに含むIMSであって、
各経路が1つ以上の接続への関係をもち、
各接続が1つの生化学エンティティと1つの相互作用とを接合し、
各経路が特定の位置表示への関係をもつ請求項1ないし5の何れか1項記載のIMS。 - 各相互作用が1つ以上の運動の法則への関係をもつ請求項6記載のIMS。
- 幾つかの所定の役割の1つを各接続に関係付ける手段をさらに含むIMSであって、役割が、相互作用における生化学エンティティの役割を示し、幾つかの所定の役割が、基質、生成物、アクチベータ、およびインヒビタを含む請求項6または7記載のIMS。
- 化学量論係数を各接続に関係付ける手段をさらに含むIMSであって、化学量論係数が、相互作用において消費または生成される生化学エンティティの分子数を示す請求項6ないし8の何れか1項記載のIMS。
- 生化学経路の前記構造化された記述の視覚化を示すユーザインターフェイス論理をさらに含む請求項6ないし9の何れか1項記載のIMS。
- ユーザインターフェイス論理が、生化学エンティティ、相互作用、および/または生化学経路の接続に対して局所化される測定または変動される変数の視覚化を示す手段を含む請求項10記載のIMS。
- 幾つかの経路を複合の経路へ結合する経路接続をさらに含む請求項6ないし11の何れか1項記載のIMS。
- 相互に関係する変数データセット間のデータトレース(1102ないし1174)を示すユーザインターフェイス論理をさらに含む請求項1ないし12の何れか1項記載のIMS。
- 実際の生化学エンティティおよびインシリコ実験が、構造的に類似した変数データセットに記憶されている請求項1ないし13の何れか1項記載のIMS。
- 生化学情報を管理する方法であって、前記生化学情報を変数データセットとして記憶することを含み、各変数データセットが、
行および列として編成された変数値を含む変数値行列と、
変数値行列内の行の、変数記述言語の行記述リストと、
変数値行列内の列の、変数記述言語の列記述リストと、
変数値行列内の全ての値に共通する1つ以上の固定次元の、変数記述言語の固定次元の記述とを含む方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20031020A FI117988B (fi) | 2003-07-04 | 2003-07-04 | Informaationhallintajärjestelmä biokemiallista informaatiota varten |
FI20031025A FI118101B (fi) | 2003-07-04 | 2003-07-04 | Informaationhallintajärjestelmä biokemiallista informaatiota varten |
FI20031028A FI118063B (fi) | 2003-07-04 | 2003-07-04 | Informaationhallintajärjestelmä biokemiallista informaatiota varten |
FI20031026A FI117068B (fi) | 2003-07-04 | 2003-07-04 | Informaationhallintajärjestelmä biokemiallista informaatiota varten |
FI20031027A FI117067B (fi) | 2003-07-04 | 2003-07-04 | Informaationhallintajärjestelmä biokemiallista informaatiota varten |
FI20045040A FI118102B (fi) | 2003-07-04 | 2004-02-16 | Informaationhallintajärjestelmä työvirtojen hallitsemiseksi |
PCT/FI2004/000424 WO2005003999A1 (en) | 2003-07-04 | 2004-07-02 | Information management system for biochemical information |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007520773A true JP2007520773A (ja) | 2007-07-26 |
Family
ID=33568951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006516238A Pending JP2007520773A (ja) | 2003-07-04 | 2004-07-02 | 生化学情報のための情報管理システム |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2007520773A (ja) |
AU (1) | AU2004254729A1 (ja) |
CA (1) | CA2531131A1 (ja) |
WO (1) | WO2005003999A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003856A (ja) * | 2006-06-22 | 2008-01-10 | Hitachi Software Eng Co Ltd | 生命科学解析支援プログラム及び生命科学解析支援装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI118868B (fi) * | 2005-09-26 | 2008-04-15 | Medicel Oy | Informaationhallintajärjestelmä biokemiallisen informaation hallintaa varten |
FI119160B (fi) * | 2005-10-10 | 2008-08-15 | Medicel Oy | Tietokannan hallintajärjestelmä |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138130A (en) * | 1995-12-08 | 2000-10-24 | Inventure Technologies, Inc. | System and method for processing data in an electronic spreadsheet in accordance with a data type |
-
2004
- 2004-07-02 JP JP2006516238A patent/JP2007520773A/ja active Pending
- 2004-07-02 WO PCT/FI2004/000424 patent/WO2005003999A1/en active Application Filing
- 2004-07-02 AU AU2004254729A patent/AU2004254729A1/en not_active Abandoned
- 2004-07-02 CA CA002531131A patent/CA2531131A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008003856A (ja) * | 2006-06-22 | 2008-01-10 | Hitachi Software Eng Co Ltd | 生命科学解析支援プログラム及び生命科学解析支援装置 |
Also Published As
Publication number | Publication date |
---|---|
CA2531131A1 (en) | 2005-01-13 |
AU2004254729A1 (en) | 2005-01-13 |
WO2005003999A1 (en) | 2005-01-13 |
WO2005003999A8 (en) | 2005-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lacroix et al. | Bioinformatics: managing scientific data | |
US7856317B2 (en) | Systems and methods for constructing genomic-based phenotypic models | |
Stevens et al. | Ontology-based knowledge representation for bioinformatics | |
EP1494156A2 (en) | Information management system for managing workflows | |
Shaker et al. | The biomediator system as a tool for integrating biologic databases on the web | |
EP1494142A9 (en) | Information management system for biochemical information | |
EP1494159A2 (en) | Information management system for biochemical information | |
EP1494160A2 (en) | Information management system for biochemical information | |
US7340485B2 (en) | Information management system for biochemical information | |
EP1494141A2 (en) | Information management system for biochemical information | |
JP2007520773A (ja) | 生化学情報のための情報管理システム | |
Farmerie et al. | Biological workflow with BlastQuest | |
Doms et al. | Ontologies and text mining as a basis for a semantic web for the life sciences | |
Bada et al. | GOAT: the gene ontology annotation tool | |
Maier | CORE576: An Exploration of the Ultra-Structure Notational System for Systems Biology Research | |
Freier et al. | iUDB: an object-oriented system for modelling, integration and analysis of gene controlled metabolic networks | |
Chen | A bioinformatics discovery-oriented computing framework | |
Sidhu et al. | Introduction to data modeling | |
Leser et al. | Next Generation Data Integration f th Lif S i or the Life Sciences | |
Rubin et al. | The National Center for Biomedical Ontology: Advancing Biomedicine through Structured | |
HASEGAWA | Genome Databases Current Implementation Practices | |
Sucaet | Integration of large datasets for plant model organisms | |
Rab | BioCreative II. 5 Workshop 2009 | |
Brent et al. | Methods, Knowledge Support, and Experimental Tools for Modeling |