JP2002544632A - 遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム - Google Patents

遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム

Info

Publication number
JP2002544632A
JP2002544632A JP2000618927A JP2000618927A JP2002544632A JP 2002544632 A JP2002544632 A JP 2002544632A JP 2000618927 A JP2000618927 A JP 2000618927A JP 2000618927 A JP2000618927 A JP 2000618927A JP 2002544632 A JP2002544632 A JP 2002544632A
Authority
JP
Japan
Prior art keywords
sample
data
result
database
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000618927A
Other languages
English (en)
Inventor
ビング レン,
リチャード ヤング,
ピーター ヤング,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whitehead Institute for Biomedical Research
Original Assignee
Whitehead Institute for Biomedical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whitehead Institute for Biomedical Research filed Critical Whitehead Institute for Biomedical Research
Publication of JP2002544632A publication Critical patent/JP2002544632A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 本発明の目的は、例えば、チップまたは遺伝子アレイから得られたゲノム情報のようなデータを分析するために必要なプロセスの多くを自動化することである。このようなプロセスは、以下を包含する:データセットをロードする工程、このデータが比較され得るように異なるアレイからのデータを再スケーリングする工程、データ管理および分析。別の目的は、分析の結果の解釈を容易にするデータ視覚化ツールを提供することである。本発明のなお別の目的は、研究者が個々の実験からできるだけ多くのことを学ぶ能力を減少させることなく、研究者がデータベースにおける異なるサンプルを比較することを可能にすることである。

Description

【発明の詳細な説明】
【0001】 (関連出願) 本出願は、同時係属中の標題「Relational Database M
anagement System For Gene Array Data
」の米国仮特許出願第60/134,793号(1999年5月19日出願)(
この仮特許出願の全体が本明細書中に参考として援用される)の出願日の優先権
を主張する。
【0002】 (発明の背景) アレイベースの発現分析ツールにより、生物体のゲノムの全てまたは一部につ
いてRNA発現レベルの同時測定が可能である。酵母ゲノムにおける(ならびに
いくつかの他の生物体について)全てのORF(オープンリーディングフレーム
)をプローブするアレイ、すなわち「発現チップ」が現在利用可能である。10
,000のヒト遺伝子およびEST(発現された配列タグ)までの発現レベルを
プローブするチップもまた利用可能である。並行発現分析の利用しやすさは、遺
伝子発見の新たな時代の先駆けとなった。そこで、生物体の全ての遺伝子の挙動
が並行して測定可能である。この広範に適用可能な技術は、酵母生物学、機能的
ゲノム、薬物発見および他の領域における問題に適用されている。
【0003】 発現の輪郭をかたどることが生物学研究を前進させ続けるという見込みが大い
にあるにも拘わらず、アレイ技術を使用することを試みる誰もが、生物学的デー
タを生成する能力がデータを解釈する能力を意味しないことを直ぐに発見する。
結果として、発現分析ツールにより生成された大量のデータセットの管理および
解釈は、生物学的研究のネックになった。発現データを分析するために使用され
る技術(紙と鉛筆からコンピューター化されたスプレッドシートの範囲に及ぶ)
は、大量のデータセットにより提示された問題:例えば、フィルタリングノイズ
、データセット間の比較、ゲノム全体の注釈、実験誤差の測定、および100,
000もの多くのデータポイントからの意味をなす情報の抽出を解決するための
適切な手段を提供しない。従って、研究者が、特定の条件にわたった個々の遺伝
子についての情報を抽出し、そして種々の実験条件下で発現の再モデル化の全体
像を提供するために大量のデータを統合することが可能なデータ分析ツールが必
要である。
【0004】 (発明の要旨) 本発明の目的は、例えば、チップまたは遺伝子アレイから得られたゲノム情報
のようなデータを分析するために必要なプロセスの多くを自動化することである
。このようなプロセスは、以下を包含する:データセットをロードする工程、こ
のデータが比較され得るように異なるアレイからのデータを再スケーリングする
工程、データ管理および分析。別の目的は、分析の結果の解釈を容易にするデー
タ視覚化ツールを提供することである。本発明のなお別の目的は、研究者が個々
の実験からできるだけ多くのことを学ぶ能力を減少させることなく、研究者がデ
ータベースにおける異なるサンプルを比較することを可能にすることである。
【0005】 これらおよび他の目的を達成するために、遺伝子アレイデータの分析により生
成された結果を保存し、比較し、そして提示する方法および関連データベース管
理システムが提供される。ウェブサーバーは、データベースにゲノム情報を保存
する保存システムとつながっている。クライアントシステムは、標準的なウェブ
プロトコル(例えば、HTTP)を利用して、ネットワーク(例えば、インター
ネット)上でウェブサーバーに接続している。ウェブサーバーは、クライアント
にウェブページを送り、このページを通じて、クライアントのユーザーはゲノム
情報をデータベースへロードし得る。クライアントユーザーは、チップまたはア
レイにハイブリダイズした生物体のゲノムサンプルからアップロードするために
ゲノム情報を得る。ゲノム情報を構成するデータベースを用いて、クライアント
ユーザーは、双方向で選択し、そしてネットワーク上で選択したサンプルに対す
る分析を行う。分析により生成された結果は、データベースの一部になる遺伝子
リストまたは遺伝子リストのリストである。次いで、これらの遺伝子リストまた
は遺伝子リストのリストは、他の以前に保存されたリストと、またはユーザーが
生成した、そして/またはユーザーが選択した遺伝子リストと比較され得る。従
って、その後のデータベースのユーザーが他者により行われた研究を検討し得、
そしてその研究を彼ら自身の研究に組み込み得る。
【0006】 1つの局面において、本発明は、データを分析するための方法を特徴とする。
この方法は、データを提供する工程およびデータを再スケーリングして、再スケ
ーリングデータを生成する工程を包含する。再スケーリングデータは、サンプル
結果と同じデータベースに保存され得る。再スケーリングデータは、予め選択さ
れたパラメーターのセットと関連づけられる。サンプルセットは、この関連づけ
られた再スケーリングデータから生成される。分析をこのサンプルセットに対し
て行って、サンプル結果を生成し、そしてこのサンプル結果をデータベースに保
存する。この保存されたサンプル結果を前の結果と関連づける。前の結果は、デ
ータベースに以前保存されたサンプル結果、ユーザーが生成した結果、またはユ
ーザーが選択した結果であり得る。
【0007】 1つの実施形態において、保存されたサンプル結果は、リストのリストである
。リストのリストにおける各リストは、遺伝子のリストである。別の実施形態に
おいて、保存されたサンプル結果は、ビットベクトルのセットである。なおさら
なる実施形態において、関連づける工程は、上記サンプル結果を前の結果と比較
する工程を包含する。保存されたサンプル結果を前の結果と関連づける工程の結
果は、データベースに保存され得る。
【0008】 別の局面において、本発明は、データを分析するシステムを特徴とする。この
システムは、データを再スケーリングする較正器および再スケーリングデータと
関連づけられた、予め選択されたパラメーターのセットを含む。サンプルセット
は、関連づけられた再スケーリングデータから生成される。アナライザーは、サ
ンプルセットに対する分析を行って、サンプル結果を生成する。データベースは
サンプル結果を保存する。連想装置(associator)は、保存されたサ
ンプル結果と前の結果とを関連づける。前の結果は、データベースに以前保存さ
れたサンプル結果、ユーザーが生成した結果、またはユーザーが選択した結果で
あり得る。
【0009】 (詳細な説明) 図1は、ネットワーク30上で計算システム(サーバー)20とつながってい
る計算システム(クライアント)10を示す。サーバー20は、ゲノム情報の保
存および本発明の原理に従って、ゲノム情報に対して行われた分析の結果の保存
を提供する保存システム40とつながっている。示されるより多くのクライアン
トおよびサーバーがネットワーク30に接続され得ることが理解されるべきであ
る。別のシステムとして図1に示されるが、別の実施形態において、クライアン
ト10およびサーバー20は、同じ機械であり得る。
【0010】 クライアント10は、任意のパーソナルコンピューター(例えば、286、3
86、486、Pentium(登録商標)、Pentium(登録商標) I
I)、薄型クライアントデバイス(thin−client device)、
Macintoshコンピューター、Windows(登録商標)ベースの端末
コンピューター、ネットワークコンピューター、ワイヤレスデバイス、情報アプ
ライアンス(information appliance)、RISC Po
wer PC、X−デバイス、ワークステーション、ミニコンピューター、メイ
ンフレームコンピューター、またはグラフィカルユーザーインターフェイスを有
する他の計算デバイスであり得る。クライアント10によりサポートされたWi
ndows(登録商標)適応(Windows(登録商標)−oriented
)プラットフォームとしては、Windows(登録商標)3.x、Windo
ws(登録商標)95、Windows(登録商標)98、Windows(登
録商標) NT3.51、Windows(登録商標) NT4.0、Wind
ows(登録商標) CE、Windows(登録商標)ベースの端末のための
Windows(登録商標) CE、Macintosh、Java(登録商標
)、およびUnix(登録商標)が挙げられ得る。クライアント10は、ディス
プレイスクリーン、キーボード、メモリ、プロセッサ、および入力/出力デバイ
ス(例えば、マウス)をサポートするための従来のハードウェアを含む。
【0011】 クライアント10はまた、ブラウザソフトウェア12(例えば、Redmon
d WashingtonのMicrosoft Corporationによ
り作られたMicrosoft Internet ExplorerTM)を含
むソフトウェアを有する。ブラウザソフトウェア12は、サーバー20にグラフ
ィカルユーザーインターフェイスを提供する。ウェブブラウザを通じて、クライ
アント10は、保存システム40からデータを検索するための検索要求を開き(
develop)、そして投入する(submit)。一般に、クライアントの
ユーザーは、図示ボタン(graphical button)、プルダウンメ
ニュー、スクロールバーなどを指してクリックするためのキーボードおよび入力
デバイス用いて、保存システム40の問い合わせを定式化し(formulat
e)する。これらの問い合わせは、ネットワーク30上のサーバー20に投入さ
れる。
【0012】 サーバー20は、クライアントユーザーの要求に応じて、保存システム40中
の情報にアクセスするためのソフトウェアを走らせるために、そしてクライアン
ト10に情報を転送するためのインターフェイスを提供するために必要なハード
ウェアを含む。1つの実施形態において、サーバー20は、クライアント10に
ページデータを提供し、ウェブページを維持し、URLを処理し、そしてネット
ワーク30上の他の部分(例えば、ワークステーション、保存システム、プリン
ター)へのもしくは他のネットワークへのアクセスを制御するためのワールドワ
イドウェブプロトコル(例えば、HTTPプロトコル)をサポートしているウェ
ブサーバー32として作動する。1つの実施形態において、サーバー20は、W
indos(登録商標) NT 4.0ワークステーション上で走る233MH
z Pentium(登録商標) IIである。マルチユーザー性能を改善する
別の実施形態において、サーバー20は、4つの400MHzプロセッサおよび
1GBのRAMを備えたSolaris 2.6オペレーティングシステムを走
らせるUltra−4 Sparcワークステーションである(Sun Mic
rosystemsにより製造される)。
【0013】 示されるように、サーバー20は、ワールドワイドウェブサーバー32、ワー
ルドワイドウェブインターフェイス34、およびデータベース管理システム(D
BMS)36を備える。ウェブインターフェイス34は、保存システム40中の
情報にアクセスする問い合わせを生成するために必要な実行可能なコードを含む
(例えば、Standard Query Language(SQL)ステー
トメントのようなデータベース言語ステートメント)。ウェブインターフェイス
34はまた、PL/SQL、PerlおよびJava(登録商標)で書かれたウ
ェブアプリケーションを含む。ウェブアプリケーション上で、クライアントユー
ザーは、保存システム40にゲノム発現データファイルを直接アップロードする
ことが可能である(本明細書中以降ローダー35という)。他に、ウェブアプリ
ケーションは、保存システム40にウェブインターフェイスを提供し、そして無
制限数の実験と生物体遺伝子の機能的分類との間で正規化および比較のようなデ
ータ分析を行う。
【0014】 一般に、データベース管理システム(DBMS)36は、ウェブベースの検索
エンジンとして働く。この検索エンジンにより、クライアントユーザーは、名称
または遺伝子説明でユーザーが特定したキーワードに従って、任意の数の遺伝子
を検索することが可能である。検索エンジンはまた、ユーザーが選択したサンプ
ルセットにおける選択した遺伝子についての発現情報を見つけだし、そしてダウ
ンロードするように作動する。1つの実施形態において、DBMS36は、We
bDBを備えたOracleTM DBMS36である。これは、ダイナミックH
TML(Hypertext Markup Language)を実行するた
めにOracleにより製造された製品である。
【0015】 保存システム40は、情報を維持する種々のシステムのいずれかであり得る。
これらのシステムとしては、例えば、データベースサーバー、大きなバイナリフ
ァイルを有するファイル保存システム、遺産的なミニコンピューターまたは保存
されているメインフレームコンピューターが挙げられる。1つの実施形態におい
て、保存システム40は、関連データベース44を含み、ここで情報が関連フォ
ーマットで保存される。関連データベース44は、データベース44に保存され
た情報を保持するために行と列のテーブルを含む。各テーブルは、その表におけ
る行を固有に識別する値を保存する任意の列もしくは列のセットである一次キー
を有する。関連データベース44のテーブルはまた、二次キーとして機能する列
または列のセットを含み得る。二次キー列の値を用いて、別のテーブルの一次キ
ーの値を適合させる。関連データベース44は、データベース44内の関係に対
して行われる操作のセットをサポートする。
【0016】 保存システム40の関連データベース44の実行は、種々の方法で達成され得
る。例えば、関連データベース44の1つの実施形態は、OracleTMデータ
ベースである。関連データベース44の別の実施形態の例は、SybaseTM
ータベースである。
【0017】 ネットワーク30は、ローカルエリアネットワーク(LAN)、インターネッ
ト、またはインターネットすなわちワールドワイドウェブのようなワイドエリア
ネットワーク(WAN)であり得る。クライアント10のユーザーは、通常の電
話回線、LANまたはWANリンクを含む種々の接続(例えば、T1、T3、5
6kb、X.25)、ブロードバンド接続(ISDN、フレームリレー、ATM
)およびワイヤレス接続を介してネットワーク30に接続され得る。接続は、種
々の通信プロトコル(例えば、HTTP、TCP/IP、IPX、SPX、Ne
tBIOS、Ethernet(登録商標)、RS232、および直接非同期接
続)を用いて確立され得る。
【0018】 操作の間、クライアント10は、ブラウザソフトウェア12を起動し、そして
サーバー20に対応するリソースロケーター(resource locato
r)を特定することによりサーバー20に接続する。リソースロケーターは、特
にUniform Resource Locator(URL)といわれるが
、ネットワーク30上のリソースに対するパスを規定する任意の型のアドレスス
キームが用いられて、本発明の原理を実施し得る。応答時に、サーバー20のウ
ェブサーバー32は、クライアント10にドキュメントまたはウェブページ38
を送る。1つの実施形態において、ウェブページは、HTMLで書かれる。他の
ドキュメントタイプ(例えば、XML、SGML)を用いて本発明の原理を実施
し得る。最初のウェブページ38は、ユーザー名およびパスワードを供給するこ
とによって、ブラウザソフトウェア12にユーザーがログオンすることを促し得
る。クライアントユーザーによる適切な応答は、ブラウザ12とサーバー20と
の間で認証セッションを確立し得る。このような認証は、クライアントユーザー
が保存システム40に保存された情報へのアクセスが許可される前に必要であり
得る。
【0019】 クライアント10のスクリーン上でのドキュメント38のディスプレイは、グ
ラフィカルユーザーインターフェイス14を提示する。このインターフェイスは
、クライアントユーザーが保存システム40にアクセスするために彼または彼女
の要求を定式化するために使用され得る。このグラフィカルユーザーインターフ
ェイス14は、ユーザーが特定した用語を受け入れるために1つ以上のフィール
ドを含む。この用語を入力するために、ユーザーは、マウス42を用いてフィー
ルドをクリックし得、そしてキーボードを用いて用語をタイプし得る。ドキュメ
ント38はまた、サーバー20またはネットワーク30上の他の場所のサーバー
にある他のドキュメントを示す埋め込まれたハイパーリンクを含み得る。代替的
な実施形態において、ドキュメント38は、クライアント10にラインモードイ
ンターフェイスを提示する。このインターフェイスを介して、クライアントユー
ザーは、例えば、Oracleにより作られたSQLPLUSTMツールを用いて
、コマンドを投入する。
【0020】 ウェブブラウザ12は、ウェブサーバー32に対するクライアントの要求を書
式設定し、そして転送する。これはウェブインターフェイス34に要求を送る。
サーバー20のウェブインターフェイス34は、要求をデータベース言語(例え
ば、SQL)での問い合わせに変換する。サーバー20のデータベース管理シス
テム36は、問い合わせを利用して、データベース44に保存された関連情報に
アクセスし、そして適切なフォーマットでサーバー20に情報を戻す。次いで、
ウェブサーバー32は、データベース情報を含む新たなドキュメント38を作成
し、そしてクライアント10に新たなドキュメント38を転送する。ここでデー
タベース情報は、グラフィカルユーザーインターフェイス14に表示される。
【0021】 図2は、本発明の原理に従うデータベース44中の情報にアクセスするための
プロセスの実施形態を示す。クライアントユーザーは、データベース44に生デ
ータをアップロードする(工程100)。1つの実施形態において、データは、
ゲノムデータである。他の型のデータを用いて、本発明の原理を実施し得る。生
のゲノムデータは、「チップ」(または「アレイ」)から得られる。チップは、
グリッドレイアウトで基材表面で合成されたか、またはスポットされたかのいず
れかであるDNAプローブを有する固体基材である。チップは、数百から数万の
プローブを含み得、これらの各々は、目的の1ヌクレオチド配列に対応する。次
いで、ヌクレオチド配列は、目的の遺伝的特徴に対応する(例えば、特定のタン
パク質についてのコード)。例えば、プローブとは、特定のタンパク質またはア
ミノ酸配列をコードするmRNA鎖をいい得る。他の非mRNAプローブもまた
チップに配置され、このようにヌクレオチド配列は、遺伝子の上流の領域をいい
得るか、またはミトコンドリアmRNAもしくは他の遺伝物質をいい得る。例え
ば、Affymetrix GeneChipTMプラットフォームは、アレイ上
の各プローブセットについて平均差スコアおよびプレゼントコール(prese
nt call)(すなわち、メッセージの存在または非存在の尺度)として生
のゲノムデータを決定する。1つの実施形態において、スポットあたりの多重測
定(アレイ上のプローブの各セットについての平均強度およびバックグラウンド
値を含む)がサポートされる。
【0022】 本明細書中以降で使用される場合、データセットは、生物体のゲノムにまたが
るチップのセット(またはゲノムのいくつかのサブセット)に対する1つのサン
プルのハイブリダイゼーションから得られたゲノムデータを含む。サンプルとは
、特定の遺伝子型を有する生物体(例えば、酵母)の特定の遺伝系統から増殖し
た細胞のコロニーをいう。従って、本発明のデータベースサービスは、各サンプ
ルを独立して取り扱う。
【0023】 各サンプルを、このサンプルをかき乱すためになされる作用である、特定の処
理に供する。このサンプルはまた、それに関連する処理のための時間を有し得る
。1つの実験は、コントロールサンプルおよび試験サンプル、ならびにこのよう
なサンプルに適用された分析のセットである。しばしば、いくつかのハイブリダ
イゼーションが、品質管理の目的で繰り返される。従って、単一の処理の効果を
試験する実験は、多くのサンプルを含み得る。他の実験は、処理の効果の動力学
を研究し、従って、サンプルが各測定時点に対応する、時間経過を包含する。
【0024】 工程104において、生のゲノムデータが再スケーリングされる(工程104
)。生ゲノムデータの再スケーリングは、以下にさらに詳細に記載されるが、異
なるチップのためのデータセットが一緒に分析されることを可能にする。クライ
アントユーザは、再スケーリングされたデータのための参照セットを選択する(
工程108)。参照セットとは、同じパラメータを使用して、一般的に1つのサ
ンプルに関して標準化された、サンプルのセットである。同じ参照セットにおい
て再スケーリングされたサンプルは、「分析」において直接比較され得る。サン
プルは、複数の参照セットに関して再スケーリングされて、再スケーリングされ
たサンプルの異なるセット間の比較を可能にし得る。これは、異なる再スケーリ
ング決定を行うことを可能にする(例えば、コントロールベース対バルクシグナ
ルベース、異なる最低値など)が、データベース44の大きなセグメントにわた
る迅速な比較を行うオプションを、依然として提供する。
【0025】 例えば、コントロールベースの再スケーリングのために、外来RNA種が、サ
ンプルRNAに、既知の量で、出発材料のコントロールとして、添加される。プ
ローブは、これらの外来RNAのチップ上に存在し、従って、適切な再スケーリ
ング定数を推定するために、これらのシグナルが、チップごとに比較され得る。
別の実施例として、バルクシグナルの標準化のために、チップ上の全てのプロー
ブ(またはプローブのいくらかの大きなサブセット)の全シグナルが、合計また
は平均される。この合計または平均が、チップ間で比較される。この技術は、同
じ型のチップの比較のみのためである。さらに、発現に大きな変化が生じて全体
のシグナルを減少させる場合には、この技術は非効果的であり得る。
【0026】 ウェブインターフェース34は、再スケーリングされたサンプルを使用して、
サンプルセットを作製する(工程112)。ウェブインターフェース34のウェ
ブアプリケーションは、ユーザ指定分析を、このサンプルセットに対して実施す
る(工程116)。以下にさらに詳細に記載するように、1つの実施形態は、以
下の2つのタイプの分析を与える:(1)ルールベースの分析;および(2)非
階層クラスター化分析。
【0027】 ユーザ指定分析の実施は、結果(本明細書中以下で「サンプル結果」)を生じ
る。1つの実施形態において、サンプル結果は、いくつかの様式で同時発現され
た遺伝子のリスト(すなわち、「遺伝子リスト」)である。遺伝子のリストの例
示的な表現は、以下の通りである: サンプル結果: 遺伝子1 遺伝子2 遺伝子3。
【0028】 別の実施形態において、サンプル結果は、遺伝子のリストのリスト(すなわち
、遺伝子リストのリスト)である。遺伝子のリストのリストの例示的な表現は、
以下の通りである: サンプル結果: 結果タイプ1に対する遺伝子リスト: 遺伝子1 遺伝子2 結果タイプ2に対する遺伝子リスト: 遺伝子3 遺伝子4。
【0029】 なお別の実施形態において、サンプル結果は、ビットベクトルのセットである
。ビットベクトルのセットの例示的な表現は、以下の通りである:
【0030】
【表1】 サンプル結果の他の実施形態はまた、遺伝子リスト中の遺伝子に関する情報を
含む。例えば、各遺伝子は、その遺伝子に関する信頼計量を表すスカラー値に関
連し得る(例えば、1のスカラー値は、その遺伝子が存在することに関する情報
を意味する;0は、その遺伝子が存在することに関する情報を意味しない)。従
って、サンプル結果の実施形態は、遺伝子のリスト、および各遺伝子に関連する
スカラー値を含む。別の例として、クラスター化分析(以下に記載する)により
作製されるサンプル結果は、遺伝子のリストに関連する中心のリスト、およびこ
れらの遺伝子間の関係のネットワークを表すグラフを作成し得る。この実施例に
関して、サンプル結果は、遺伝子のリストに加えて、中心のリストおよびグラフ
を含む。サンプル結果のこれらの実施形態は、単なる例示であり、そして本発明
の原理を実施するために使用され得るサンプル結果の種々の実施形態を制限する
ことを意図されない。
【0031】 ルールベースの分析は、特定の基準に従って、「アップ」または「ダウン」で
あった遺伝子を含む結果を生成する。例えば、「アップ」結果に一致する遺伝子
のリスト中の遺伝子は、コントロールサンプルと試験サンプルの両方の少なくと
も1つの反復における、存在の信頼レベルを有し、そしてコントロールから試験
までの発現において、2以上の相対変化を、少なくとも100の強度点の絶対差
で示した。別の例として、「ダウン」結果として同定された遺伝子のリストは、
アップ結果と類似であるが、相対的な差は下向きの方向であった(すなわち、0
.5以下)。
【0032】 サンプル結果の他の例は、「出現」および「消失」を含む。「出現」と呼ばれ
る結果は、発現レベルが全てのコントロールサンプルにおける非存在および全て
の試験サンプルにおける存在としてマークされた特徴を含む。このような遺伝子
の発現レベルは、検出不可能から検出可能となったレベルである。「消失」と呼
ばれる結果は、発現レベルが全てのコントロールサンプルにおける存在および全
ての試験サンプルにおける非存在としてマークされた、遺伝子の特徴を含む。
【0033】 サンプル結果は、データベース44に格納される(工程120)。クライアン
トユーザ(または同じクライアント10もしくは異なるクライアントシステムを
介してデータベースにアクセスする、他の任意のクライアントユーザ)は、格納
されたサンプル結果を、以前の結果と関連付け得る(工程124)。1つの実施
形態において、この関連付けは、格納されたサンプル結果と以前の結果との間で
の比較である。1つの実施形態における比較は、格納されたサンプル結果と以前
の結果との両方に出現する遺伝子を探す。
【0034】 以前の結果は、データベース44の情報に対して実施された以前の分析から誘
導された、別のサンプル結果であり得るか、または以前の結果は、データベース
44に格納された、ユーザが作成したリストもしくは予め規定されたリストであ
り得る。予め規定されたリストの例は、MIPSにより作成された、カテゴリー
分類リストである。MIPSとは、タンパク質配列のためのMunich情報セ
ンターを表し、そして遺伝子の種々の機能的カテゴリー分類をインターネット上
で公開する、バイオインフォマティックスグループである。以下は、MIPSに
より公開された、酵母遺伝子の機能的カテゴリー分類のほんの一部の例である。
【0035】
【表2】 MIPSリストの各項目は、機能的カテゴリーに関するさらなる情報へのハイ
パーリンクである。例えば、「other tRNA−transcripti
on activities(4 ORFs)」ハイパーリンクを選択すると、
「other tRNA−transcription activities
(他のtRNA転写活性)」のカテゴリーに入る、以下の遺伝子のリストを含む
ウェブページが提供される:
【0036】
【表3】 データベース44に格納され得る、ユーザが作成したリストまたはユーザが選択
したリストの他の例は、染色体、転写因子標的、および機能的カテゴリー(例え
ば、代謝遺伝子)のリストである。
【0037】 図3は、図1に記載したローダー35の実行の際に、クライアント10に表示
されるグラフィカルユーザインターフェース130の実施形態を図示する。ロー
ダー35は、ネットワーク30に接続された任意のコンピュータシステム(例え
ば、クライアント10)からのファイルアップロードを補助し、そしてデータセ
ットを内部ウェブサイトからロードするための、HTTPプロトコル補助を提供
する。さらに、ローダー35は、クライアントユーザが、ロードされたデータセ
ットを、実験を説明する情報(例えば、遺伝株(欄138内)、使用した増殖条
件(欄134内)、およびサンプル処理(欄136内))と関連付けることを可
能にする。さらに、チップおよび試薬の品質に関する問題を追跡するために、チ
ップロット番号が、欄139に入力され得る。
【0038】 1つの実施形態において、ローダー35は、共通ゲートウェイインターフェー
ス(CGI)プログラムおよびモジュールのスイート、PERLへの書き込みに
より、実行され、これは、データベース44へのデータセットのアップロードを
取り扱う。perlは、テキストファイル処理のために効果的であり、そして簡
単な十分に補助されたデータベースインターフェースを提供する。ローダー35
は、他の様式で(例えば、アプリケーションプログラムインターフェース(AP
I)として)実行され得ることが、理解されるべきである。
【0039】 データセットロード時間を最小に維持するため、従ってクライアントユーザへ
の認容可能な双方向応答を提供するために、ローダー35は、生データ行を、行
ごとに、空の一時的な表に挿入する。次いで、ローダー35は、一度に、生デー
タを選択し、そして全てのデータセットを含む大きな表に挿入する。1つの実施
形態において、この大きな表は、1.6×106の行を含む。このロード最適化
技術は、挿入時間を改善し、そしてロールバックスペースの消費を有意に減少さ
せる。また、この最適化技術は、挿入時間を、表のサイズよりむしろ挿入される
データセットのサイズに比例させる。
【0040】 (データセットの再スケーリング) 異なるチップについてのデータセットを一緒に分析し得る前に、このデータセ
ット内の生データの較正または再スケーリングが、必要である。再スケーリング
は、実験の性質に依存して、種々の方法で実施され得る。例えば、既知の量の外
因性コントロールRNAを、1つのチップから読まれるデータ値から別のチップ
から読まれるデータ値へと再スケーリングするために、使用し得る。全体のmR
NA集団が安定なままであると予測される実験については、バルクシグナルスケ
ーリング法がまた、使用され得る。全体の発現が有意に影響を受ける状況(例え
ば、温度感受性の変異に起因して、転写装置の一部がノックアウトまたは不活化
される場合)においては、コントロールに基づく再スケーリングが適切である。
図3をさらに参照すると、ローダー35は、データセットがロードされる場合に
、クライアントユーザーが、再スケーリングの方法(欄135内の参照セットを
特定することによる)および関連するパラメータを選択することを可能にする。
ローダー35はまた、再スケーリングのための代表的なパラメータを提示する、
デフォルトオプションのセットを(欄137内に)提供する。
【0041】 再スケーリングを実行するために、参照セットが、再スケーリングのためのコ
ントロールとして使用されるサンプル、再スケーリングアルゴリズムおよび再ス
ケーリングが必要とする任意のパラメータ、ならびにチップがコントロールサン
プル由来のチップに再スケーリングされるサンプルのセットを含むように、規定
される。現在の全ての利用可能な再スケーリングアルゴリズムは、参照セットの
内容に関して安定である;すなわち、さらなるサンプルを参照セットに追加する
ことが、参照セット中に既に存在するサンプルの再スケーリングされた値に影響
を与えない。サンプルは、1つより多い参照セットに追加され得、この場合には
、再スケーリングされた値が、各参照セットに関して別個に格納される。
【0042】 全てのデータのタイプが、直接的に比較可能であるわけではない。例えば、特
定の測定は、所定の観点においてのみ有用であり、一方で他の測定は、実験条件
のセットに関して絶対的である。データセットの再スケーリングは、クライアン
トユーザによってグラフィカルユーザインターフェースを介して規定されるよう
に、直接的に比較可能であり得るデータ値に関してのみ生じるが、異なる参照セ
ット由来のデータ値の直接的な比較を可能にしない。ユーザは、サンプルが正し
く標準化された(すなわち、適切な参照セットに追加された)ことを保証する。
サンプルが正しく標準化された場合には、このデータベースシステムは、クライ
アントユーザが参照セット間での比較を行うことを制限し、従って、標準化にわ
たる比較を防止する。異なる参照セット由来のデータ値の比較は、より高いレベ
ルにおいて起こる(例えば、「データの採集」と呼ばれる節に関して以下に記載
するような、「データの採集」の間)。
【0043】 (遺伝子名スペース) データベース44内の情報の問い合わせおよび異なるチップからの情報の比較
を可能にするために、プローブ名が、チップ製造業者によって各生物に関する独
特のセットの遺伝子特徴名に対して提供された物理的プローブ名をマッピングす
る一連の表を通して、「標準化」される。従って、ゲノムデータは、2つの形式
(生の処理されていないデータ、ならびに分析および問い合わせのために最適化
された(例えば遺伝子特徴名で)形式)でデータベース44に格納される。
【0044】 データセットの遺伝子特徴名スペースへのこのマッピングは、サンプル間の比
較を単純化する。この名前スペースは、チッププローブにより測定される、1つ
の遺伝子の特徴(例えば、遺伝子、遺伝素フラグメント、遺伝子の群、または遺
伝子間領域)あたり1つのエントリーを含む、遺伝子特性表により表される。物
理的チッププローブから遺伝子特徴へとマッピングするために、提示される各遺
伝子特長についてのチップ上で「最良の」プローブを、実験的に選択した規則の
セットに基づいて選択するスキームが使用される。さらに、技術間の比較(例え
ば、異なるチップ製造業者由来)を行うために、チップにより問い合わせられる
全ての遺伝子を説明する独自の遺伝子カタログが使用され、その結果、2つの異
なる登録番号のもとで説明される同一の遺伝子の測定が、依然として比較され得
る。
【0045】 (データ検索) データセットのローディングおよび再スケーリングの後に、クライアントユー
ザは、クライアントユーザがサンプルのセットにわたって遺伝子のセットを選択
することを可能にする検索ツール(すなわち、サーバ20のウェブアプリケーシ
ョン)を使用して、データベース44から情報を抽出し得、そして得られる行列
を、テキストまたはHTML表としてダウンロードし得る。クライアントユーザ
は、得られるファイルを、局所(すなわち、クライアント10)分析のためのス
プレッドシートにロードし得る。
【0046】 (データ編成−プロジェクトおよび遺伝子カテゴリー) データベース44に格納された情報を編成するために、分析において使用した
データを、プロジェクトに分割する。各プロジェクトは、サンプルセットを含み
、これは、同じ参照セット由来の関連するサンプルの群である。次いで、これら
のサンプルセットを分析して、結果のセット(すなわち、サンプル結果)を作製
し得る。各サンプル結果は、遺伝子のリストまたは遺伝子リストのリスト、およ
びその遺伝子リストを説明する数値的な値(例えば、中心のような)を含み得る
。恐らく、遺伝子リスト中の遺伝子は、実験において同時発現された遺伝子であ
る。各プロジェクトは、個体(例えば、研究者)に関連する。データベース44
の概要において、図6に関して以下に記載される、各プロジェクトは、PROJ
ECTS表へのエントリーである。
【0047】 (遺伝子の群) データベース44内の情報を編成するための別の機構は、遺伝子をユーザ規定
のカテゴリーに分類することである。次いで、これらのカテゴリーが、群に分類
され得る。上記のMIPS関数カテゴリーは、この編成機構の1例である。以下
のデータの採集の節にさらに詳細に記載するように、これらのユーザ規定の遺伝
子のリストのデータは、ユーザ指定の分析により作成された遺伝子のリスト(ま
たは遺伝子リストのリスト)と比較され得る。
【0048】 (データ抽出) データベース44内の情報の格納の様式は、クライアントユーザ(例えば、ス
プレッドシートを使用する)による、外部分析(すなわち、局所分析)のための
データセットの抽出を容易にする。さらに、クライアントユーザは、特徴の群に
わたって複数のサンプルに関するデータセットを抽出し得る。特徴に対するセッ
ト操作(すなわち、AND、ORなど)もまた、補助される。例えば、特定の時
間経過実験にわたってアップレギュレートされた遺伝子のセットは、ダウンレギ
ュレートされた遺伝子と組み合わせられ得る。得られる行の組合せセットは、特
定の時間経過実験に関与するサンプルまたは外部分析のための何らかの他の時間
経過実験に関与するサンプルにわたって抽出され得る。
【0049】 (データセット分析) データベース44に格納されたデータセットを分析するために、クライアント
ユーザは、サンプルをサンプルセットにグループ化する。上記のように、サンプ
ルセット中の全てのサンプルが同じ参照セットに由来し、そしてサンプルセット
は、データ編成の目的で、プロジェクトのもとで格納される。分析は、サンプル
セットにおけるサンプルの比較を生成して、発現がいくつかの特定の様式で影響
を受けた遺伝子特徴の複数のリストを誘導する。以前に注目した実施形態におい
て、サンプルセットは、以下の2つのツールのうちの一方を使用して分析され得
る:ルールベースの分析および非階層クラスター化。
【0050】 (規則に基づく分析) サンプルセット中で、各サンプルは役割を果たす(例えば、野生型レプリカ0
、時点15分レプリカ1)。レプリカは、反復された実験であり、これは、実験
ノイズを制御するための分析によって使用され得る。サンプルに役割を割り当て
た後で、クライアントユーザは、これらのサンプルの分析に適用する規則を選択
する。クライアントユーザは、あらかじめ決定した規則のセットからの適用する
ための規則を選択する。次いで、ウェブインターフェース34は、DBMS36
中の選択した規則を実行して、影響を受けた遺伝子のリスト(単数または複数)
を生成する。次いで、このサンプルは、クライアントユーザによる引き続く検索
に利用可能であるデータベース44に保存される。
【0051】 規則に基づく分析は、遺伝子が同時発現することを決定するあらかじめ決定さ
れた規則のセットをユーザが選択することを可能にする。規則の1つの例は、「
係数2で発現レベルが変化するすべてのORF」である。別の規則の例は、「複
製を越えて平均発現レベルが時間とともに単調増加し、各時点についての測定の
少なくとも半分が高い信頼性がある、すべてのORF」である。図4は、規則に
基づく分析を実行するためにクライアントユーザに提供される典型的なグラフィ
カルユーザインターフェース140の画面の一場面である。
【0052】 1つの実施形態において、規則に基づく分析は、統計的なプログラムのRパッ
ケージを使用する外部モジュールとして実行され、このプログラムは、数学的モ
デリングのためのSプログラミング言語の実行であり、DBMS 36を通して
データベース44と相互作用する。R言語は、IhakaおよびGentlem
an(1996)「R:A Language for Data Analy
sis and Graphics」、Journal of Computa
tional and Graphical Statistics、5、29
9−314に記載されている。PERLで書かれたCGIプログラムは、Rプロ
グラムを制御して、グラフィカルユーザインターフェースを提供する。Rで書か
れた分析は、サンプルセットにわたる発現レベルに対応するデータベース44か
らの値の行列を抽出し得、そしてその遺伝的特徴が同時に調節されているかを決
定し得る。Rプログラムは、データベース44中の規則に基づく分析の結果を直
接ロードする。
【0053】 (クラスター化分析) 一般的に、クラスター化分析は、これらのパターンがそのように見えるべきで
あるものについての以前の知見を必要とすることなしに遺伝子発現のパターンの
検出を可能にする。サンプルセットを規定した後に、クライアントユーザは、サ
ンプルセットにおけるサンプルのデータを搬出し得、そしてこのようなパターン
を検出するための種々の分析ツールを使用し得る。1つの型の分析ツールの例は
、クラスター遺伝子に対する自己組織化マップアルゴリズムを適用する。このよ
うな分析ツールの1つは、GENECLUSTERと呼ばれ、これは、Whit
ehead Institute Center For Genome Re
search of Cambridge、Massachusettsによっ
て作製されているソフトウェアである。他の分析ツールは、サンプルセットを分
析するために使用され得る。
【0054】 次いで、分析ツールは、データベース44に対する分析を生じる出力ファイル
をアップロードする。次いで、このような出力ファイルは、規則に基づく分析に
よって生成された結果として、同じ特定のフォーマット(例えば、遺伝子のリス
ト)で保存される。例えば、分析ツールによって生成される、得られるクラスタ
ーおよび関連する質量中心(centroid)(すなわち、平均発現プロフィ
ール)は、「データの採集」の節において以下で記載されるようなさらなる分析
のためにデータベース44に戻される。本発明の特徴は、分析ツールによって生
成される結果が、特定のフォーマットで保存され、使用される分析の型に関わら
ず、異なる分析によって生成される結果の比較を可能にすることである。この特
定のフォーマットは、根底にあるデータベース構造を改変することなく、分析ツ
ールとして働く種々のプログラムの付加を可能にする。
【0055】 (データの可視化) サンプルセットの分析後、クライアントユーザは、分析に関連する遺伝子およ
びそれらの発現レベルの得られるリストを、Java(登録商標)アプレットの
実行を通してプラウズし得る。Java(登録商標)アプレットは、カラーディ
スプレイを用いて強度のレベルまたは強度の倍数の変化をプロットし、そして多
数の遺伝子の発現レベルの同時的な可視化を生成する。倍数変化とは、処理した
細胞対処理していない細胞(すなわち、変異体細胞対野生型細胞)の間のmRN
Aの発現の相対的変化をいう。その比が>=1である場合、正の数であり、そし
てその比が>1である場合、負の逆数の比であることが報告されている。さらに
、Rパッケージのプログラムは、データを可視化するためのプロットツールのセ
ットを提供する。例えば、いくつかのRプログラムは、チップまたはサンプル間
のlogの倍数変化のヒストグラムをプロットする。
【0056】 (データの採集) 上記に記載した分析および可視化のツールは、クライアントユーザが少ない数
のサンプルに関与する質問に対する解答を探し出すことを可能にする。本発明の
原理に従って、クライアントユーザはまた、異なるデータセットまたは全体のデ
ータベース44を含む、質問に対する解答を探し出すことが可能である。以下に
記載されるように、遺伝子の異なるリストを比較する能力は、データを採集する
能力を提供する。
【0057】 上記に記載したように、サンプル結果はデータベース44中に遺伝子のセット
(すなわち、リスト)として保存される。結果として、サーバ20に接続された
クライアントのいかなるユーザも、他のクライアントユーザの分析によって生成
された結果を通してブラウズおよび検索し得る。遺伝子についてのそのような検
索は、名称、株、サンプル、状態、または遺伝子メンバーであることによる。例
えば、クライアントユーザは、問い合わせ(例えば、「何の分析が遺伝子Xにつ
いての発現の変化を示したか」)に対する解答が得られ得る。
【0058】 サンプル結果がデータベース44に保存された後に、クライアントユーザはま
た、他の以前に保存されたサンプル結果とこれらのサンプル結果を比較し得る。
さらに、このような保存されたサンプル結果は、他の遺伝子のリスト(例えば、
ユーザ定義された遺伝子のリストまたは文献に由来する遺伝子の分類(例えば、
MIPS機能カタログ))と比較され得る。この能力は、外部情報(例えば、科
学文献から抽出された知見)に対するサンプル結果の比較を可能にする。クライ
アントユーザは、彼らが選択したどのような判断基準にも基づく、このような知
見を分類し得る。これらのユーザ定義された分類は、データベース44中に保存
されるサンプル結果との比較を容易にするために適用される特定のフォーマット
を有する。
【0059】 この特定のフォーマットは、提示する情報(例えば、機能および構造による、
MIPS分類)のための半階層スキームに従う。サンプル結果を分類と比較する
場合、そのサンプル結果は、同時発現された遺伝子のリストであると見なされる
【0060】 1つの実施形態において、先の結果とのサンプル結果の比較の結果は、データ
ベース44に保存される。サンプル結果に対するサンプル結果の比較は、2つの
セット間の比較に対して論理的に等価である(例えば、このセット1のメンバー
(遺伝子)はまた、セット2のメンバーであり、これらの遺伝子は、単にセット
1のメンバーである)ので、この比較の結果は、先の結果を保存するために使用
された同じ関係の表中に保存され得る。従って、比較的に実行されたリストのビ
ットベクトルまたはリストのいずれかが使用され得る。
【0061】 例えば、第1のサンプル結果が遺伝子1および遺伝子2を含み、そして第2の
サンプル結果が遺伝子1および遺伝子3を含むならば、第1のサンプル結果およ
び第2のサンプル結果の比較は、遺伝子1を含む第3の結果(すなわち、2つの
サンプル結果の交差点)を生成する。次いで、この第3の結果は、第1のサンプ
ル結果および第2のサンプル結果と同様に、表中にエントリーとして保存され得
る。
【0062】 図5は、サンプル結果および/またはユーザ選択もしくはユーザ生成遺伝子分
類の間の関係を作るためにサーバ20からクライアントユーザに提供されるグラ
フィカルユーザインターフェース150の実施形態を示す。このインターフェー
ス150を通して、クライアントユーザは、特定の遺伝子に影響を及ぼすデータ
セットについて、または機能および発現の間の相関を同定するためにデータベー
ス44全体にわたる検索を実行する。インターフェース150は、2つのセクシ
ョン152および154を含む。各セクション152および154は、第1のグ
ラフィカルボックス156、156’ (これは先の結果を特定するためである
)、および第2のグラフィカルボックス158、158’(これはサンプル結果
を特定するためである)を有する。クライアントユーザは、それぞれ、各セクシ
ョン152、154で、2つのボックス156または158(および156’ま
たは158’)の1つを選択する。ドロップダウンメニューは、各ボックス15
6、156’、158、158’について現れ、これは、データベース44にお
いて利用可能である先の結果またはサンプル結果のメニューを示す。クライアン
トユーザは、所望の先の結果またはサンプル結果をこのメニューから選択し、そ
して選択された先の結果またはサンプル結果の関連する記載がそれぞれのボック
スに現れる。従って、クライアントユーザは、3つのタイプの比較のうちの1つ
を開始し得る:(1)先の結果と先の結果、(2)先の結果とサンプル結果、お
よび(3)サンプル結果とサンプル結果。「投入問い合わせ」ボタン160を選
択する際に、比較が2つの選択された結果の間で実行される。
【0063】 クライアントユーザがインターフェース150を通して答えるように試み得る
問い合わせの例は、「条件Xの下でアップレギュレートされる遺伝子のうちのど
れがリボソーム複合体のメンバーをコードしているか」および「どの条件が酵素
活性Yと有意な重複を示すか」である。このようなデータ採集問い合わせは、セ
ット比較を含み、そしてSQLにおける部分的に拘束されるカルテシアン積とし
て実行される。
【0064】 図6は、データベース44の組織化の実施形態を表すスキーマ200を示す。
スキーマ200は、表、各表における1以上の属性、および表間の関連性(表間
の矢印によって同定される)を含む。第1のキーである属性には下線を付す。示
される表および各表の下に列挙された属性は、排他的であることを意図しない。
スキーマ200は、本発明の原理を実行するための他の表および表の属性を含み
得る。
【0065】 示されるように、そのスキーマは、SAMPLE_ON_CHIP表202、
TSV_FILES表204、およびTSV_RAW表206を含む。SAMP
LE_ON_CHIP表202は、生データのサンプルをファイルと関連付ける
ためのSample_ID属性およびFile_ID属性を有する。File_
IDは、TSV_FILE表204を指し示す第2のキーとして作動する。TS
V_Raw表6060は、データセットと関連する生データ値を保存する。TS
V_Raw表606の属性は、File_IDであり。これはまた、TSV_F
iles表204を示す。TSV_FILES表204は、データベース44中
にロードされた各データセットに対応する1つの行を含み、そしてTSV_RA
W表206は、データファイル中に存在する各プローブについての1つの行を含
む。
【0066】 このスキーマは、SAMPLES表208、GROW_CONDITION表
210、およびSTRAIN表212もまた含む。SAMPLE表208は、増
殖条件および株をそれぞれ有する、表208中の各サンプルと関連するCOND
ITION_ID属性およびSTRAIN_ID属性を含む。CONDITIO
N_ID属性は、GROW_CONDITION表210を検索するための第2
のキーとして作動し、そしてSTRAIN_ID属性は、STRAIN表212
を検索するための第2のキーとして作動する。STRAIN表212における各
エントリーは、生物の特定の株の記載を提供し、そしてGROW_CONDIT
ION表210中の各エントリーは、株が増殖する条件下の記載を提供する。S
AMPLES表208もまた、SAMPLE_ON_CHIP表202のSAM
PLE_ID属性に対応するSAMPLE_ID属性を含む。
【0067】 スキーマ200中の他の表は、REFERENCE_SET表214、SAM
PLE_IN_REFERENCE_SET表216、ABS_EXPRESS
ION表218、およびABC_DATA_TAB表220を含む。REFER
ENCE_SET表214は、同じセットのパラメーターおよび単一のコントロ
ールサンプルを使用して、一緒に再スケーリングしたサンプルをグループ化する
。コントロールサンプル以外の各サンプルは、コントロールサンプルと関連する
パラメーターおよび値を使用して再スケーリングする。SAMPLE_IN_R
EFERENCE_SET表216は、サンプルセットと参照セットとの間の関
連性を維持する。SAMPLE_IN_REFERENCE_SET表216は
、SAMPLES表208を指し示すREFERENCE_SET表214およ
びSample_ID属性を検索するための第2のキーであるReferenc
e_set_ID属性を含む。
【0068】 ABS_EXPRESSION表218は、参照セットに挿入されるすべての
チップについてのエントリーを保存する。ABS_EXPRESSION表21
8の属性は、再スケーリングすることを記載する情報(例えば、スケーリング因
子および参照チップ)を保存する。ABS_DATA_TAB表220は、再ス
ケーリングしたデータ値を保存し、そしてSAMPLE_IN_REFEREN
CE_SET表216を指し示す。
【0069】 スキーマ200においてなお他の表は、SAMPLE_SET表222、AN
ALYSIS_RESULTS表224、GENE_IN_LIST表226、
PROJECTS表228、SAMPLE_IN_PROJECTS表230、
SAMPLE_IN_SSET表232、およびANALYSIS_PARAM
ETERS表234を含む。
【0070】 SAMPLE_SET表222は、分析されるサンプルを互いにグループ化す
る。1つの実施形態において、サンプルセット中のすべてのサンプルは、同じサ
ンプル参照セットに由来する。ANALYSIS_RESULTS表224は、
分析によって生成されたサンプル結果を保持する。分析によって生成される各サ
ンプル結果についてのANALYSIS_RESULTS表224における1つ
のエントリーが存在する。1回の分析は、複数の遺伝子リストを生成し得ること
に留意のこと(従って、サンプル結果は、遺伝子リストのリストである)。AN
ALYSIS_PARAMETERS表234は、所定の分析を実行するために
使用されるパラメーターを同定する。実行される各分析についてのANALYS
IS_PARAMETERS表234において1つのエントリーが存在する。G
ENE_IN_LIST表226は、サンプル結果を、そのような結果が含む遺
伝子の特徴と結合させる。サンプル結果において同定される各遺伝子についての
GENE_IN_LIST表226において、1つのエントリーが存在する。
【0071】 「データの組織化」の節において上記で記載したように、PROJECTS表
228は、サンプルの任意のグループおよびこのようなサンプル由来のサンプル
セットを含む組織化された構築物であるプロジェクトを保持する。間接的に、P
ROJECTS表228は、分析をグループ化する。SAMPLE_IN_PR
OJECT表230は、プロジェクトにおけるサンプルあたり1つのエントリー
を含む。SAMPLE_IN_SSET表232(これは、サンプルセット中の
プロジェクトにおいてサンプルあたり1つのエントリーを含む)は、サンプルセ
ットを有するプロジェクトにおいてサンプルと関連する。
【0072】 (操作の例) 本発明の全体の操作は、以下の実施例において例証される。特に、この実施例
は、クライアントユーザが、いかにして生のゲノムデータをデータベース44に
ロードし、データベース44中でゲノムデータ由来のサンプル結果を生成し、そ
して、保存されているサンプル結果を、他の以前に保存されているサンプル結果
およびユーザによって選択されたかユーザによって生成された遺伝子のリストと
関連付けることによっていかにしてデータ収集を行うかを実証する。
【0073】 4つのサンプル:2つのコンロトールサンプルおよび2つの欠失変異体「cs
e2/med9」にわたって、2つの遺伝子、YOR095C(「RK11」)
およびYFL014W(「HSP12」)で実行される以下の実験を考えてみる
。RK11の発現は、この実験において2分の1より下に低下し、そしてHSP
12が少なくとも2倍増加することを仮定する。
【0074】 データを、スキャニングソフトウェアによって生成されるアレイあたり1デー
タファイルからロードする。再び図3を参照すると、クライアントユーザに提示
されるグラフィカルユーザインターフェース130は、データファイル(データ
をそこからロードする)を同定するための、およびサンプル情報をそのデータと
関連付けるための欄132を含む。この実施例において、4つのデータファイル
が存在し、これは、1つのサンプルと関連する4つのチップの各々についてのも
のである。各データファイルは、アレイ上に位置したプローブあたり1以上の目
的の測定を含む。ローダー35は、各データファイルを複数の表(TSV_RA
W206表およびTSV_FILES204表を含む)にアップロードする。次
いで、TSV_FILES表204は、ロードされた各データセットについて1
つの行を含む。TSV_RAW表206は、以下の表1の例について示されるよ
うに、データファイル中に存在する各プローブについて1つの行を含む:
【0075】
【表4】 SAMPLE_ON_CHIP表202を使用して、データセットは、サンプ
ルおよびチップ(アレイ)を記載するサンプル情報と関連付けられる。以下の表
2に示されるように、このチップ(アレイ)上でサンプルがハイブリダイズされ
る:
【0076】
【表5】 次いで、ロードされたデータは、再スケーリングパラメーターのあらかじめ決
定されたセット(参照セット)に関して再スケーリングされ得る。各データファ
イルについての再スケーリング定数は、以下の表3に示されるように、ABS_
EXPRESSION表218中に保存される:
【0077】
【表6】 生データを、適切な再スケーリング係数で割り、そしてABS DATA
ABテーブル220に保存する。このABS DATA TABテーブル220
を使用して、各データポイントを、以下の表4に示すように、プローブが問い合
わせる遺伝子と関連付ける。 (表4)
【0078】
【表7】 上記の再スケーリングプロセスを、分析中に比較されるべき全てのサンプルに
ついて繰り返す。ここで図4を参照すると、型141の分析(ここでは、静的分
析(「SA」)が選択され、そして一緒に分析される再スケーリングしたサンプ
ル142が、サンプルセットを規定するために選択される。静的分析は、平衡状
態の系(例えば、ノックアウト、欠失、変異)について適切な分析である。再ス
ケーリングしたサンプル142は、以下の表5に示されるように、SAMPLE
IN SAMPLE SET232に収集される。サンプルセット中の全ての
サンプルは、同じ参照セットから誘導される。 (表5)
【0079】
【表8】 型144および複製146フィールドは、サンプルセット内のサンプル間の比
較を組み立てるために使用される。実施例の静的分析について、サンプル型「W
T」(すなわち、野生型)のサンプルは、サンプル型「MT」(すなわち、変異
型)のサンプルに対して比較される。また、複製サンプルは、同じ複製のサンプ
ルに対して比較される。例えば、複製1サンプルは、複製1サンプルに対して比
較され、そして複製2サンプルは、複製2サンプルに対して比較される。様々な
他の型の比較が可能である。例えば、サンプルセット内のサンプルを比較するた
めの別の方法は、変異体の複製値を平均し、そしてその平均値を野生型の値の平
均値で割ることである。
【0080】 選択された分析が行われ、そしてサンプル結果が保存される。この例において
、行われた分析は、各遺伝子について、コントロールサンプルの平均発現レベル
を試験サンプルの平均発現レベルと比較し、この遺伝子が、2倍(アップまたは
ダウンのいずれか)より多く異なるか否かを決定する。試験サンプルがコントロ
ールサンプルの少なくとも2倍(2×)である場合、遺伝子は「アップ」結果が
割り当てられる。試験サンプルが、少なくとも2倍低い場合、この遺伝子は「ダ
ウン」結果が割り当てられる。以下の表6を参照すると、選択された分析(ここ
では、ANALYSIS ID 900)は、遺伝子の複数のリストを生成し得
る分析の例(すなわち、複数のリストのうちの一リスト):「アップ」遺伝子に
ついての一方のリスト、および「ダウン」遺伝子についての他方のリストを例示
する。 (表6)
【0081】
【表9】 表7に示すように、GENE IN LISTテーブル226は、各遺伝子を
、その遺伝子に適切な結果(単数または複数)と関連付けする: (表7)
【0082】
【表10】 ここで、「分析xおよび分析yにおいて、どの遺伝子が「アップ」であったか
」というような質問に対する解答が、データベース44によって提供され得る。
本実施例において、遺伝子YFLO14Wは、「アップ」結果を有する遺伝子で
ある。
【0083】 また、「集合X<>集合Y、かつ{X}={Y}であるような、2つの集合、
XおよびYを見出しなさい」(すなわち、任意の2つの重なり集合を見出しなさ
い)のような徹底的な検索が実施され得る。例えば、遺伝子YFL014Wにつ
いて、ユーザーの規定したセットのフィルターセット(例えば、MIPSカテゴ
リー)を検索して、表8に示される群流の遺伝子YFL014Wを見出し得る。
表8は、遺伝子YFL014Wを含むカテゴリーを含む関係表中の列の部分集合
である。 (表8)
【0084】
【表11】 選択した分析(ANALYSIS ID=900)が、複数の遺伝子が「アッ
プ」結果であったことを決定した場合、これらのカテゴリーのいずれかの遺伝子
と、「アップ」結果の遺伝子との重なりの統計的有意性が評価され得る。
【0085】 図7は、以前にデータベース44に保存されたサンプル結果中の遺伝子YF0
14Cを検索する場合に生成される、クライアント10におけるディスプレイ2
40の例を示す。この遺伝子調査は、「cse2/med9」、「sin4」お
よび「srb10」実験242についての結果「up」におけるHSP12(Y
FL014C)を示す。各サンプル結果について保存されたさらなる情報(すな
わち、各実験について、倍数変化の値243および図解表示244(ここでは、
cse2/med9実験について9.35、sin4実験について11.51、
およびsrb10実験について32.75))もまた示される。
【0086】 本発明は、特定の好ましい実施形態に関して示されそして記載されてきたが、
上記特許請求の範囲により規定されるような本発明の精神および範囲から逸脱す
ることなく、形態および詳細の様々な変更がここでなされることが当業者に理解
されるべきである。
【図面の簡単な説明】
本発明は、添付の特許請求の範囲における詳細事項とともに指摘される。上記
の本発明の利点ならびに本発明のさらなる利点は、添付の図面とともに上記の説
明を参照することによりよりよく理解され得る。
【図1】 図1は、本発明の原理に従うデータベースサービスを提供するクライアント−
サーバーネットワークのブロック図である。
【図2】 図2は、本発明の原理に従ってクライアントユーザーがデータベースにアクセ
スするプロセスの実施形態のフロー図である。
【図3】 図3は、本発明のデータベースにサンプルデータを入力するためにクライアン
トユーザーに提示されたグラフィカルユーザーインターフェイスの実施形態を示
すスクリーン図である。
【図4】 図4は、サンプルのセットに対して規則(rule)ベースの分析を行うため
に、クライアントユーザーに提示されたグラフィカルユーザーインターフェイス
の実施形態を示すスクリーン図である。
【図5】 図5は、サンプル結果間および/またはユーザー選択もしくはユーザー生成分
類間での比較を行うために、クライアントユーザーに提示されたグラフィカルユ
ーザーインターフェイスの実施形態を示すスクリーン図である。
【図6】 図6は、図1のデータベースのスキームの実施形態のブロック図である。
【図7】 図7は、データベースに保存されたサンプル結果における特定の遺伝子につい
ての検索の結果を報告するために、クライアントユーザーに提示されたグラフィ
カルユーザーインターフェイスの実施形態を示すスクリーン図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,CA,C H,CN,CR,CU,CZ,DE,DK,DM,DZ ,EE,ES,FI,GB,GD,GE,GH,GM, HR,HU,ID,IL,IN,IS,JP,KE,K G,KP,KR,KZ,LC,LK,LR,LS,LT ,LU,LV,MA,MD,MG,MK,MN,MW, MX,MZ,NO,NZ,PL,PT,RO,RU,S D,SE,SG,SI,SK,SL,TJ,TM,TR ,TT,TZ,UA,UG,UZ,VN,YU,ZA, ZW (72)発明者 ヤング, リチャード アメリカ合衆国 マサチューセッツ 02493, ウエストン, ハイランド ス トリート 216 (72)発明者 ヤング, ピーター アメリカ合衆国 マサチューセッツ 02143, サマービル, ローウェル ス トリート 48 Fターム(参考) 4B024 AA11 CA01 CA09 CA12 HA12 HA14 HA19 5B075 ND20 NR12 QS20 QT10 UU26

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上のデータを分析するための方法であって、該
    方法は、以下の工程: データを受信する工程; 該データを再スケーリングして、再スケーリングしたデータを生成する工程; 該再スケーリングしたデータをパラメータの予め選択したセットと関連付けす
    る工程; 該関連付けした再スケーリングしたデータからサンプルセットを生成する工程
    ; 該サンプルセットについての分析を行って、サンプル結果を生成する工程; 該サンプル結果をデータベースに保存する工程;および 該保存したサンプル結果を前の結果と関連付ける工程、を包含する、方法。
  2. 【請求項2】 前記前の結果が、以前に前記データベースに保存されたサン
    プル結果である、請求項1に記載の方法。
  3. 【請求項3】 前記前の結果がユーザーが生成した結果である、請求項1に
    記載の方法。
  4. 【請求項4】 前記前の結果がユーザーが選択した結果である、請求項1に
    記載の方法。
  5. 【請求項5】 前記再スケーリングしたデータを、前記サンプル結果と同じ
    データベースに保存する、請求項1に記載の方法。
  6. 【請求項6】 前記保存されたサンプル結果が、リストのうちの1つのリス
    トである、請求項1に記載の方法。
  7. 【請求項7】 前記リスト中の各リストが遺伝子のリストである、請求項6
    に記載の方法。
  8. 【請求項8】 前記保存されたサンプル結果が、ビットベクトルのセットで
    ある、請求項1に記載の方法。
  9. 【請求項9】 前記関連付けする工程が、前記サンプル結果を前記前の結果
    と比較する工程を包含する、請求項1に記載の方法。
  10. 【請求項10】 前記保存したサンプル結果を前記前の結果と関連付ける工
    程の結果を、前記データベースに保存する工程をさらに包含する、請求項9に記
    載の方法。
  11. 【請求項11】 提供されたデータを再スケーリングするため、コントロー
    ルとして使用される参照セットを規定する工程をさらに包含する、請求項1に記
    載の方法。
  12. 【請求項12】 データを分析するためのシステムであって、該システムは
    、以下: 該データを再スケーリングする較正器; 該再スケーリングしたデータと関連付けられたパラメータの予め選択したセッ
    ト; 該関連付けされた再スケーリングしたデータから生成したサンプルセット; 該サンプルセットについての分析を行い、サンプル結果を生成するアナライザ
    ー; 該サンプル結果を保存するデータベース;および 該保存されたサンプル結果を前の結果と関連付ける連想装置、を備える、シス
    テム。
  13. 【請求項13】 前記前の結果が、以前に前記データベースに保存されたサ
    ンプル結果である、請求項12に記載のシステム。
  14. 【請求項14】 前記前の結果がユーザーが生成した結果である、請求項1
    2に記載のシステム。
  15. 【請求項15】 前記前の結果がユーザーが選択した結果である、請求項1
    2に記載の方法。
JP2000618927A 1999-05-19 2000-05-19 遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム Pending JP2002544632A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13479399P 1999-05-19 1999-05-19
US60/134,793 1999-05-19
PCT/US2000/013823 WO2000070556A2 (en) 1999-05-19 2000-05-19 A method and relational database management system for storing, comparing, and displaying results produced by analyses of gene array data

Publications (1)

Publication Number Publication Date
JP2002544632A true JP2002544632A (ja) 2002-12-24

Family

ID=22465036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000618927A Pending JP2002544632A (ja) 1999-05-19 2000-05-19 遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム

Country Status (5)

Country Link
EP (1) EP1190382A2 (ja)
JP (1) JP2002544632A (ja)
AU (1) AU5031500A (ja)
CA (1) CA2372163A1 (ja)
WO (1) WO2000070556A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001238202A1 (en) * 2000-02-11 2001-08-20 Napro Biotherapeutics, Inc. Integrated genomic services
EP1356412A2 (en) * 2000-08-10 2003-10-29 Glaxo Group Limited A global electronic medicine response profile testing network
GB2366011B (en) * 2000-08-14 2004-10-13 Biotrace Ltd Data processing system
US7657470B1 (en) 2000-12-20 2010-02-02 Demandtec, Inc. Financial model engine
US7617119B1 (en) 2000-12-20 2009-11-10 Demandtec, Inc. Price optimization with rule relaxation
US9773250B2 (en) 2000-12-20 2017-09-26 International Business Machines Corporation Product role analysis
US7302410B1 (en) 2000-12-22 2007-11-27 Demandtec, Inc. Econometric optimization engine
US9785953B2 (en) 2000-12-20 2017-10-10 International Business Machines Corporation System and method for generating demand groups
US9165270B2 (en) 2000-12-20 2015-10-20 International Business Machines Corporation Predicting likelihood of customer attrition and retention measures
US10496938B2 (en) 2000-12-20 2019-12-03 Acoustic, L.P. Generating product decisions
US10204349B2 (en) 2000-12-20 2019-02-12 International Business Machines Corporation Analyzing customer segments
US8010404B1 (en) 2000-12-22 2011-08-30 Demandtec, Inc. Systems and methods for price and promotion response analysis
US7133863B2 (en) 2000-12-28 2006-11-07 Intel Corporation Method and apparatus to search for information
US6631367B2 (en) 2000-12-28 2003-10-07 Intel Corporation Method and apparatus to search for information
CA2377213A1 (en) * 2001-03-20 2002-09-20 Ortho-Clinical Diagnostics, Inc. Method for providing clinical diagnostic services
US6553352B2 (en) 2001-05-04 2003-04-22 Demand Tec Inc. Interface for merchandise price optimization
US7386519B1 (en) 2001-11-30 2008-06-10 Demandtec, Inc. Intelligent clustering system
US7249033B1 (en) 2001-11-30 2007-07-24 Demandtec Inc. Apparatus and method for selective merchandise price optimization
US7249032B1 (en) 2001-11-30 2007-07-24 Demandtec Inc. Selective merchandise price optimization mechanism
US9785951B1 (en) 2006-02-28 2017-10-10 International Business Machines Corporation Scalable tuning engine
US9858579B1 (en) 2006-02-28 2018-01-02 International Business Machines Corporation Plan tuning engine
US20100161607A1 (en) * 2008-12-22 2010-06-24 Jasjit Singh System and method for analyzing genome data
CN111584011B (zh) * 2020-04-10 2023-08-29 中国科学院计算技术研究所 面向基因比对的细粒度并行负载特征抽取分析方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5692107A (en) * 1994-03-15 1997-11-25 Lockheed Missiles & Space Company, Inc. Method for generating predictive models in a computer system
JPH11501741A (ja) * 1995-01-27 1999-02-09 インサイト ファーマシューティカルズ インク. 微生物学的データを保存し解析するコンピュータシステム
US6083693A (en) * 1996-06-14 2000-07-04 Curagen Corporation Identification and comparison of protein-protein interactions that occur in populations
AU6244099A (en) * 1998-09-11 2000-04-03 Gene Logic, Inc. Genomic knowledge discovery

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル

Also Published As

Publication number Publication date
AU5031500A (en) 2000-12-05
WO2000070556A2 (en) 2000-11-23
EP1190382A2 (en) 2002-03-27
WO2000070556A3 (en) 2001-08-16
CA2372163A1 (en) 2000-11-23

Similar Documents

Publication Publication Date Title
JP2002544632A (ja) 遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム
Sherlock et al. The stanford microarray database
US6229911B1 (en) Method and apparatus for providing a bioinformatics database
US9183349B2 (en) Sequence-centric scientific information management
US10275711B2 (en) System and method for scientific information knowledge management
US20030171876A1 (en) System and method for managing gene expression data
US20060020398A1 (en) Integration of gene expression data and non-gene data
US8364665B2 (en) Directional expression-based scientific information knowledge management
WO2002073504A1 (en) A system and method for retrieving and using gene expression data from multiple sources
US20020067358A1 (en) Data analysis software
WO2002071059A1 (en) A system and method for managing gene expression data
Vilo et al. Expression profiler
Comander et al. Argus—a new database system for Web-based analysis of multiple microarray data sets
Dahlquist Using Gen MAPP and MAPPFinder to View Microarray Data on Biological Pathways and Identify Global Trends in the Data
JP4365121B2 (ja) 遺伝子データ処理装置及び遺伝子データ処理方法
Horng et al. Database of repetitive elements in complete genomes and data mining using transcription factor binding sites
Do et al. Comparative evaluation of microarray-based gene expression databases
WO2000016220A1 (en) Method and apparatus for providing an expression data mining database and laboratory information management
Dai et al. Dynamic integration of gene annotation and its application to microarray analysis
Bouton et al. DRAGON and DRAGON View: Information Annotation and Visualization Tools for Large‐Scale Expression Data
Wiklund Storage and visualisation of genomic information
Pastor et al. GeneReg: integration of experimental data on the DNA transcription process
JP2003526133A6 (ja) 発現データ・マイニング・データベースおよび実験室情報管理を提供する方法および装置
JP2003526133A (ja) 発現データ・マイニング・データベースおよび実験室情報管理を提供する方法および装置
Feng et al. An integrated cancer biomarker information system