JP2002544632A

JP2002544632A - 遺伝子アレイの分析により生成した結果を保存し、比較し、そして表示するための方法および関連データベース関係型システム

Info

Publication number: JP2002544632A
Application number: JP2000618927A
Authority: JP
Inventors: ビングレン，; リチャードヤング，; ピーターヤング，
Original assignee: Whitehead Institute for Biomedical Research
Current assignee: Whitehead Institute for Biomedical Research
Priority date: 1999-05-19
Filing date: 2000-05-19
Publication date: 2002-12-24
Also published as: AU5031500A; WO2000070556A2; EP1190382A2; WO2000070556A3; CA2372163A1

Abstract

(57)【要約】本発明の目的は、例えば、チップまたは遺伝子アレイから得られたゲノム情報のようなデータを分析するために必要なプロセスの多くを自動化することである。このようなプロセスは、以下を包含する：データセットをロードする工程、このデータが比較され得るように異なるアレイからのデータを再スケーリングする工程、データ管理および分析。別の目的は、分析の結果の解釈を容易にするデータ視覚化ツールを提供することである。本発明のなお別の目的は、研究者が個々の実験からできるだけ多くのことを学ぶ能力を減少させることなく、研究者がデータベースにおける異なるサンプルを比較することを可能にすることである。

Description

【発明の詳細な説明】

【０００１】（関連出願）本出願は、同時係属中の標題「ＲｅｌａｔｉｏｎａｌＤａｔａｂａｓｅＭ
ａｎａｇｅｍｅｎｔＳｙｓｔｅｍＦｏｒＧｅｎｅＡｒｒａｙＤａｔａ
」の米国仮特許出願第６０／１３４，７９３号（１９９９年５月１９日出願）（
この仮特許出願の全体が本明細書中に参考として援用される）の出願日の優先権
を主張する。

【０００２】（発明の背景）アレイベースの発現分析ツールにより、生物体のゲノムの全てまたは一部につ
いてＲＮＡ発現レベルの同時測定が可能である。酵母ゲノムにおける（ならびに
いくつかの他の生物体について）全てのＯＲＦ（オープンリーディングフレーム
）をプローブするアレイ、すなわち「発現チップ」が現在利用可能である。１０
，０００のヒト遺伝子およびＥＳＴ（発現された配列タグ）までの発現レベルを
プローブするチップもまた利用可能である。並行発現分析の利用しやすさは、遺
伝子発見の新たな時代の先駆けとなった。そこで、生物体の全ての遺伝子の挙動
が並行して測定可能である。この広範に適用可能な技術は、酵母生物学、機能的
ゲノム、薬物発見および他の領域における問題に適用されている。

【０００３】発現の輪郭をかたどることが生物学研究を前進させ続けるという見込みが大い
にあるにも拘わらず、アレイ技術を使用することを試みる誰もが、生物学的デー
タを生成する能力がデータを解釈する能力を意味しないことを直ぐに発見する。
結果として、発現分析ツールにより生成された大量のデータセットの管理および
解釈は、生物学的研究のネックになった。発現データを分析するために使用され
る技術（紙と鉛筆からコンピューター化されたスプレッドシートの範囲に及ぶ）
は、大量のデータセットにより提示された問題：例えば、フィルタリングノイズ
、データセット間の比較、ゲノム全体の注釈、実験誤差の測定、および１００，
０００もの多くのデータポイントからの意味をなす情報の抽出を解決するための
適切な手段を提供しない。従って、研究者が、特定の条件にわたった個々の遺伝
子についての情報を抽出し、そして種々の実験条件下で発現の再モデル化の全体
像を提供するために大量のデータを統合することが可能なデータ分析ツールが必
要である。

【０００４】（発明の要旨）本発明の目的は、例えば、チップまたは遺伝子アレイから得られたゲノム情報
のようなデータを分析するために必要なプロセスの多くを自動化することである
。このようなプロセスは、以下を包含する：データセットをロードする工程、こ
のデータが比較され得るように異なるアレイからのデータを再スケーリングする
工程、データ管理および分析。別の目的は、分析の結果の解釈を容易にするデー
タ視覚化ツールを提供することである。本発明のなお別の目的は、研究者が個々
の実験からできるだけ多くのことを学ぶ能力を減少させることなく、研究者がデ
ータベースにおける異なるサンプルを比較することを可能にすることである。

【０００５】これらおよび他の目的を達成するために、遺伝子アレイデータの分析により生
成された結果を保存し、比較し、そして提示する方法および関連データベース管
理システムが提供される。ウェブサーバーは、データベースにゲノム情報を保存
する保存システムとつながっている。クライアントシステムは、標準的なウェブ
プロトコル（例えば、ＨＴＴＰ）を利用して、ネットワーク（例えば、インター
ネット）上でウェブサーバーに接続している。ウェブサーバーは、クライアント
にウェブページを送り、このページを通じて、クライアントのユーザーはゲノム
情報をデータベースへロードし得る。クライアントユーザーは、チップまたはア
レイにハイブリダイズした生物体のゲノムサンプルからアップロードするために
ゲノム情報を得る。ゲノム情報を構成するデータベースを用いて、クライアント
ユーザーは、双方向で選択し、そしてネットワーク上で選択したサンプルに対す
る分析を行う。分析により生成された結果は、データベースの一部になる遺伝子
リストまたは遺伝子リストのリストである。次いで、これらの遺伝子リストまた
は遺伝子リストのリストは、他の以前に保存されたリストと、またはユーザーが
生成した、そして／またはユーザーが選択した遺伝子リストと比較され得る。従
って、その後のデータベースのユーザーが他者により行われた研究を検討し得、
そしてその研究を彼ら自身の研究に組み込み得る。

【０００６】１つの局面において、本発明は、データを分析するための方法を特徴とする。
この方法は、データを提供する工程およびデータを再スケーリングして、再スケ
ーリングデータを生成する工程を包含する。再スケーリングデータは、サンプル
結果と同じデータベースに保存され得る。再スケーリングデータは、予め選択さ
れたパラメーターのセットと関連づけられる。サンプルセットは、この関連づけ
られた再スケーリングデータから生成される。分析をこのサンプルセットに対し
て行って、サンプル結果を生成し、そしてこのサンプル結果をデータベースに保
存する。この保存されたサンプル結果を前の結果と関連づける。前の結果は、デ
ータベースに以前保存されたサンプル結果、ユーザーが生成した結果、またはユ
ーザーが選択した結果であり得る。

【０００７】１つの実施形態において、保存されたサンプル結果は、リストのリストである
。リストのリストにおける各リストは、遺伝子のリストである。別の実施形態に
おいて、保存されたサンプル結果は、ビットベクトルのセットである。なおさら
なる実施形態において、関連づける工程は、上記サンプル結果を前の結果と比較
する工程を包含する。保存されたサンプル結果を前の結果と関連づける工程の結
果は、データベースに保存され得る。

【０００８】別の局面において、本発明は、データを分析するシステムを特徴とする。この
システムは、データを再スケーリングする較正器および再スケーリングデータと
関連づけられた、予め選択されたパラメーターのセットを含む。サンプルセット
は、関連づけられた再スケーリングデータから生成される。アナライザーは、サ
ンプルセットに対する分析を行って、サンプル結果を生成する。データベースは
サンプル結果を保存する。連想装置（ａｓｓｏｃｉａｔｏｒ）は、保存されたサ
ンプル結果と前の結果とを関連づける。前の結果は、データベースに以前保存さ
れたサンプル結果、ユーザーが生成した結果、またはユーザーが選択した結果で
あり得る。

【０００９】（詳細な説明）図１は、ネットワーク３０上で計算システム（サーバー）２０とつながってい
る計算システム（クライアント）１０を示す。サーバー２０は、ゲノム情報の保
存および本発明の原理に従って、ゲノム情報に対して行われた分析の結果の保存
を提供する保存システム４０とつながっている。示されるより多くのクライアン
トおよびサーバーがネットワーク３０に接続され得ることが理解されるべきであ
る。別のシステムとして図１に示されるが、別の実施形態において、クライアン
ト１０およびサーバー２０は、同じ機械であり得る。

【００１０】クライアント１０は、任意のパーソナルコンピューター（例えば、２８６、３
８６、４８６、Ｐｅｎｔｉｕｍ（登録商標）、Ｐｅｎｔｉｕｍ（登録商標）Ｉ
Ｉ）、薄型クライアントデバイス（ｔｈｉｎ−ｃｌｉｅｎｔｄｅｖｉｃｅ）、
Ｍａｃｉｎｔｏｓｈコンピューター、Ｗｉｎｄｏｗｓ（登録商標）ベースの端末
コンピューター、ネットワークコンピューター、ワイヤレスデバイス、情報アプ
ライアンス（ｉｎｆｏｒｍａｔｉｏｎａｐｐｌｉａｎｃｅ）、ＲＩＳＣＰｏ
ｗｅｒＰＣ、Ｘ−デバイス、ワークステーション、ミニコンピューター、メイ
ンフレームコンピューター、またはグラフィカルユーザーインターフェイスを有
する他の計算デバイスであり得る。クライアント１０によりサポートされたＷｉ
ｎｄｏｗｓ（登録商標）適応（Ｗｉｎｄｏｗｓ（登録商標）−ｏｒｉｅｎｔｅｄ
）プラットフォームとしては、Ｗｉｎｄｏｗｓ（登録商標）３．ｘ、Ｗｉｎｄｏ
ｗｓ（登録商標）９５、Ｗｉｎｄｏｗｓ（登録商標）９８、Ｗｉｎｄｏｗｓ（登
録商標）ＮＴ３．５１、Ｗｉｎｄｏｗｓ（登録商標）ＮＴ４．０、Ｗｉｎｄ
ｏｗｓ（登録商標）ＣＥ、Ｗｉｎｄｏｗｓ（登録商標）ベースの端末のための
Ｗｉｎｄｏｗｓ（登録商標）ＣＥ、Ｍａｃｉｎｔｏｓｈ、Ｊａｖａ（登録商標
）、およびＵｎｉｘ（登録商標）が挙げられ得る。クライアント１０は、ディス
プレイスクリーン、キーボード、メモリ、プロセッサ、および入力／出力デバイ
ス（例えば、マウス）をサポートするための従来のハードウェアを含む。

【００１１】クライアント１０はまた、ブラウザソフトウェア１２（例えば、Ｒｅｄｍｏｎ
ｄＷａｓｈｉｎｇｔｏｎのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎによ
り作られたＭｉｃｒｏｓｏｆｔＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ^TM）を含
むソフトウェアを有する。ブラウザソフトウェア１２は、サーバー２０にグラフ
ィカルユーザーインターフェイスを提供する。ウェブブラウザを通じて、クライ
アント１０は、保存システム４０からデータを検索するための検索要求を開き（
ｄｅｖｅｌｏｐ）、そして投入する（ｓｕｂｍｉｔ）。一般に、クライアントの
ユーザーは、図示ボタン（ｇｒａｐｈｉｃａｌｂｕｔｔｏｎ）、プルダウンメ
ニュー、スクロールバーなどを指してクリックするためのキーボードおよび入力
デバイス用いて、保存システム４０の問い合わせを定式化し（ｆｏｒｍｕｌａｔ
ｅ）する。これらの問い合わせは、ネットワーク３０上のサーバー２０に投入さ
れる。

【００１２】サーバー２０は、クライアントユーザーの要求に応じて、保存システム４０中
の情報にアクセスするためのソフトウェアを走らせるために、そしてクライアン
ト１０に情報を転送するためのインターフェイスを提供するために必要なハード
ウェアを含む。１つの実施形態において、サーバー２０は、クライアント１０に
ページデータを提供し、ウェブページを維持し、ＵＲＬを処理し、そしてネット
ワーク３０上の他の部分（例えば、ワークステーション、保存システム、プリン
ター）へのもしくは他のネットワークへのアクセスを制御するためのワールドワ
イドウェブプロトコル（例えば、ＨＴＴＰプロトコル）をサポートしているウェ
ブサーバー３２として作動する。１つの実施形態において、サーバー２０は、Ｗ
ｉｎｄｏｓ（登録商標）ＮＴ４．０ワークステーション上で走る２３３ＭＨ
ｚＰｅｎｔｉｕｍ（登録商標）ＩＩである。マルチユーザー性能を改善する
別の実施形態において、サーバー２０は、４つの４００ＭＨｚプロセッサおよび
１ＧＢのＲＡＭを備えたＳｏｌａｒｉｓ２．６オペレーティングシステムを走
らせるＵｌｔｒａ−４Ｓｐａｒｃワークステーションである（ＳｕｎＭｉｃ
ｒｏｓｙｓｔｅｍｓにより製造される）。

【００１３】示されるように、サーバー２０は、ワールドワイドウェブサーバー３２、ワー
ルドワイドウェブインターフェイス３４、およびデータベース管理システム（Ｄ
ＢＭＳ）３６を備える。ウェブインターフェイス３４は、保存システム４０中の
情報にアクセスする問い合わせを生成するために必要な実行可能なコードを含む
（例えば、ＳｔａｎｄａｒｄＱｕｅｒｙＬａｎｇｕａｇｅ（ＳＱＬ）ステー
トメントのようなデータベース言語ステートメント）。ウェブインターフェイス
３４はまた、ＰＬ／ＳＱＬ、ＰｅｒｌおよびＪａｖａ（登録商標）で書かれたウ
ェブアプリケーションを含む。ウェブアプリケーション上で、クライアントユー
ザーは、保存システム４０にゲノム発現データファイルを直接アップロードする
ことが可能である（本明細書中以降ローダー３５という）。他に、ウェブアプリ
ケーションは、保存システム４０にウェブインターフェイスを提供し、そして無
制限数の実験と生物体遺伝子の機能的分類との間で正規化および比較のようなデ
ータ分析を行う。

【００１４】一般に、データベース管理システム（ＤＢＭＳ）３６は、ウェブベースの検索
エンジンとして働く。この検索エンジンにより、クライアントユーザーは、名称
または遺伝子説明でユーザーが特定したキーワードに従って、任意の数の遺伝子
を検索することが可能である。検索エンジンはまた、ユーザーが選択したサンプ
ルセットにおける選択した遺伝子についての発現情報を見つけだし、そしてダウ
ンロードするように作動する。１つの実施形態において、ＤＢＭＳ３６は、Ｗｅ
ｂＤＢを備えたＯｒａｃｌｅ^TM ＤＢＭＳ３６である。これは、ダイナミックＨ
ＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）を実行するた
めにＯｒａｃｌｅにより製造された製品である。

【００１５】保存システム４０は、情報を維持する種々のシステムのいずれかであり得る。
これらのシステムとしては、例えば、データベースサーバー、大きなバイナリフ
ァイルを有するファイル保存システム、遺産的なミニコンピューターまたは保存
されているメインフレームコンピューターが挙げられる。１つの実施形態におい
て、保存システム４０は、関連データベース４４を含み、ここで情報が関連フォ
ーマットで保存される。関連データベース４４は、データベース４４に保存され
た情報を保持するために行と列のテーブルを含む。各テーブルは、その表におけ
る行を固有に識別する値を保存する任意の列もしくは列のセットである一次キー
を有する。関連データベース４４のテーブルはまた、二次キーとして機能する列
または列のセットを含み得る。二次キー列の値を用いて、別のテーブルの一次キ
ーの値を適合させる。関連データベース４４は、データベース４４内の関係に対
して行われる操作のセットをサポートする。

【００１６】保存システム４０の関連データベース４４の実行は、種々の方法で達成され得
る。例えば、関連データベース４４の１つの実施形態は、Ｏｒａｃｌｅ^TMデータ
ベースである。関連データベース４４の別の実施形態の例は、Ｓｙｂａｓｅ^TMデ
ータベースである。

【００１７】ネットワーク３０は、ローカルエリアネットワーク（ＬＡＮ）、インターネッ
ト、またはインターネットすなわちワールドワイドウェブのようなワイドエリア
ネットワーク（ＷＡＮ）であり得る。クライアント１０のユーザーは、通常の電
話回線、ＬＡＮまたはＷＡＮリンクを含む種々の接続（例えば、Ｔ１、Ｔ３、５
６ｋｂ、Ｘ．２５）、ブロードバンド接続（ＩＳＤＮ、フレームリレー、ＡＴＭ
）およびワイヤレス接続を介してネットワーク３０に接続され得る。接続は、種
々の通信プロトコル（例えば、ＨＴＴＰ、ＴＣＰ／ＩＰ、ＩＰＸ、ＳＰＸ、Ｎｅ
ｔＢＩＯＳ、Ｅｔｈｅｒｎｅｔ（登録商標）、ＲＳ２３２、および直接非同期接
続）を用いて確立され得る。

【００１８】操作の間、クライアント１０は、ブラウザソフトウェア１２を起動し、そして
サーバー２０に対応するリソースロケーター（ｒｅｓｏｕｒｃｅｌｏｃａｔｏ
ｒ）を特定することによりサーバー２０に接続する。リソースロケーターは、特
にＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ（ＵＲＬ）といわれるが
、ネットワーク３０上のリソースに対するパスを規定する任意の型のアドレスス
キームが用いられて、本発明の原理を実施し得る。応答時に、サーバー２０のウ
ェブサーバー３２は、クライアント１０にドキュメントまたはウェブページ３８
を送る。１つの実施形態において、ウェブページは、ＨＴＭＬで書かれる。他の
ドキュメントタイプ（例えば、ＸＭＬ、ＳＧＭＬ）を用いて本発明の原理を実施
し得る。最初のウェブページ３８は、ユーザー名およびパスワードを供給するこ
とによって、ブラウザソフトウェア１２にユーザーがログオンすることを促し得
る。クライアントユーザーによる適切な応答は、ブラウザ１２とサーバー２０と
の間で認証セッションを確立し得る。このような認証は、クライアントユーザー
が保存システム４０に保存された情報へのアクセスが許可される前に必要であり
得る。

【００１９】クライアント１０のスクリーン上でのドキュメント３８のディスプレイは、グ
ラフィカルユーザーインターフェイス１４を提示する。このインターフェイスは
、クライアントユーザーが保存システム４０にアクセスするために彼または彼女
の要求を定式化するために使用され得る。このグラフィカルユーザーインターフ
ェイス１４は、ユーザーが特定した用語を受け入れるために１つ以上のフィール
ドを含む。この用語を入力するために、ユーザーは、マウス４２を用いてフィー
ルドをクリックし得、そしてキーボードを用いて用語をタイプし得る。ドキュメ
ント３８はまた、サーバー２０またはネットワーク３０上の他の場所のサーバー
にある他のドキュメントを示す埋め込まれたハイパーリンクを含み得る。代替的
な実施形態において、ドキュメント３８は、クライアント１０にラインモードイ
ンターフェイスを提示する。このインターフェイスを介して、クライアントユー
ザーは、例えば、Ｏｒａｃｌｅにより作られたＳＱＬＰＬＵＳ^TMツールを用いて
、コマンドを投入する。

【００２０】ウェブブラウザ１２は、ウェブサーバー３２に対するクライアントの要求を書
式設定し、そして転送する。これはウェブインターフェイス３４に要求を送る。
サーバー２０のウェブインターフェイス３４は、要求をデータベース言語（例え
ば、ＳＱＬ）での問い合わせに変換する。サーバー２０のデータベース管理シス
テム３６は、問い合わせを利用して、データベース４４に保存された関連情報に
アクセスし、そして適切なフォーマットでサーバー２０に情報を戻す。次いで、
ウェブサーバー３２は、データベース情報を含む新たなドキュメント３８を作成
し、そしてクライアント１０に新たなドキュメント３８を転送する。ここでデー
タベース情報は、グラフィカルユーザーインターフェイス１４に表示される。

【００２１】図２は、本発明の原理に従うデータベース４４中の情報にアクセスするための
プロセスの実施形態を示す。クライアントユーザーは、データベース４４に生デ
ータをアップロードする（工程１００）。１つの実施形態において、データは、
ゲノムデータである。他の型のデータを用いて、本発明の原理を実施し得る。生
のゲノムデータは、「チップ」（または「アレイ」）から得られる。チップは、
グリッドレイアウトで基材表面で合成されたか、またはスポットされたかのいず
れかであるＤＮＡプローブを有する固体基材である。チップは、数百から数万の
プローブを含み得、これらの各々は、目的の１ヌクレオチド配列に対応する。次
いで、ヌクレオチド配列は、目的の遺伝的特徴に対応する（例えば、特定のタン
パク質についてのコード）。例えば、プローブとは、特定のタンパク質またはア
ミノ酸配列をコードするｍＲＮＡ鎖をいい得る。他の非ｍＲＮＡプローブもまた
チップに配置され、このようにヌクレオチド配列は、遺伝子の上流の領域をいい
得るか、またはミトコンドリアｍＲＮＡもしくは他の遺伝物質をいい得る。例え
ば、ＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐ^TMプラットフォームは、アレイ上
の各プローブセットについて平均差スコアおよびプレゼントコール（ｐｒｅｓｅ
ｎｔｃａｌｌ）（すなわち、メッセージの存在または非存在の尺度）として生
のゲノムデータを決定する。１つの実施形態において、スポットあたりの多重測
定（アレイ上のプローブの各セットについての平均強度およびバックグラウンド
値を含む）がサポートされる。

【００２２】本明細書中以降で使用される場合、データセットは、生物体のゲノムにまたが
るチップのセット（またはゲノムのいくつかのサブセット）に対する１つのサン
プルのハイブリダイゼーションから得られたゲノムデータを含む。サンプルとは
、特定の遺伝子型を有する生物体（例えば、酵母）の特定の遺伝系統から増殖し
た細胞のコロニーをいう。従って、本発明のデータベースサービスは、各サンプ
ルを独立して取り扱う。

【００２３】各サンプルを、このサンプルをかき乱すためになされる作用である、特定の処
理に供する。このサンプルはまた、それに関連する処理のための時間を有し得る
。１つの実験は、コントロールサンプルおよび試験サンプル、ならびにこのよう
なサンプルに適用された分析のセットである。しばしば、いくつかのハイブリダ
イゼーションが、品質管理の目的で繰り返される。従って、単一の処理の効果を
試験する実験は、多くのサンプルを含み得る。他の実験は、処理の効果の動力学
を研究し、従って、サンプルが各測定時点に対応する、時間経過を包含する。

【００２４】工程１０４において、生のゲノムデータが再スケーリングされる（工程１０４
）。生ゲノムデータの再スケーリングは、以下にさらに詳細に記載されるが、異
なるチップのためのデータセットが一緒に分析されることを可能にする。クライ
アントユーザは、再スケーリングされたデータのための参照セットを選択する（
工程１０８）。参照セットとは、同じパラメータを使用して、一般的に１つのサ
ンプルに関して標準化された、サンプルのセットである。同じ参照セットにおい
て再スケーリングされたサンプルは、「分析」において直接比較され得る。サン
プルは、複数の参照セットに関して再スケーリングされて、再スケーリングされ
たサンプルの異なるセット間の比較を可能にし得る。これは、異なる再スケーリ
ング決定を行うことを可能にする（例えば、コントロールベース対バルクシグナ
ルベース、異なる最低値など）が、データベース４４の大きなセグメントにわた
る迅速な比較を行うオプションを、依然として提供する。

【００２５】例えば、コントロールベースの再スケーリングのために、外来ＲＮＡ種が、サ
ンプルＲＮＡに、既知の量で、出発材料のコントロールとして、添加される。プ
ローブは、これらの外来ＲＮＡのチップ上に存在し、従って、適切な再スケーリ
ング定数を推定するために、これらのシグナルが、チップごとに比較され得る。
別の実施例として、バルクシグナルの標準化のために、チップ上の全てのプロー
ブ（またはプローブのいくらかの大きなサブセット）の全シグナルが、合計また
は平均される。この合計または平均が、チップ間で比較される。この技術は、同
じ型のチップの比較のみのためである。さらに、発現に大きな変化が生じて全体
のシグナルを減少させる場合には、この技術は非効果的であり得る。

【００２６】ウェブインターフェース３４は、再スケーリングされたサンプルを使用して、
サンプルセットを作製する（工程１１２）。ウェブインターフェース３４のウェ
ブアプリケーションは、ユーザ指定分析を、このサンプルセットに対して実施す
る（工程１１６）。以下にさらに詳細に記載するように、１つの実施形態は、以
下の２つのタイプの分析を与える：（１）ルールベースの分析；および（２）非
階層クラスター化分析。

【００２７】ユーザ指定分析の実施は、結果（本明細書中以下で「サンプル結果」）を生じ
る。１つの実施形態において、サンプル結果は、いくつかの様式で同時発現され
た遺伝子のリスト（すなわち、「遺伝子リスト」）である。遺伝子のリストの例
示的な表現は、以下の通りである：サンプル結果：遺伝子１遺伝子２遺伝子３。

【００２８】別の実施形態において、サンプル結果は、遺伝子のリストのリスト（すなわち
、遺伝子リストのリスト）である。遺伝子のリストのリストの例示的な表現は、
以下の通りである：サンプル結果：結果タイプ１に対する遺伝子リスト：遺伝子１遺伝子２結果タイプ２に対する遺伝子リスト：遺伝子３遺伝子４。

【００２９】なお別の実施形態において、サンプル結果は、ビットベクトルのセットである
。ビットベクトルのセットの例示的な表現は、以下の通りである：

【００３０】

【表１】サンプル結果の他の実施形態はまた、遺伝子リスト中の遺伝子に関する情報を
含む。例えば、各遺伝子は、その遺伝子に関する信頼計量を表すスカラー値に関
連し得る（例えば、１のスカラー値は、その遺伝子が存在することに関する情報
を意味する；０は、その遺伝子が存在することに関する情報を意味しない）。従
って、サンプル結果の実施形態は、遺伝子のリスト、および各遺伝子に関連する
スカラー値を含む。別の例として、クラスター化分析（以下に記載する）により
作製されるサンプル結果は、遺伝子のリストに関連する中心のリスト、およびこ
れらの遺伝子間の関係のネットワークを表すグラフを作成し得る。この実施例に
関して、サンプル結果は、遺伝子のリストに加えて、中心のリストおよびグラフ
を含む。サンプル結果のこれらの実施形態は、単なる例示であり、そして本発明
の原理を実施するために使用され得るサンプル結果の種々の実施形態を制限する
ことを意図されない。

【００３１】ルールベースの分析は、特定の基準に従って、「アップ」または「ダウン」で
あった遺伝子を含む結果を生成する。例えば、「アップ」結果に一致する遺伝子
のリスト中の遺伝子は、コントロールサンプルと試験サンプルの両方の少なくと
も１つの反復における、存在の信頼レベルを有し、そしてコントロールから試験
までの発現において、２以上の相対変化を、少なくとも１００の強度点の絶対差
で示した。別の例として、「ダウン」結果として同定された遺伝子のリストは、
アップ結果と類似であるが、相対的な差は下向きの方向であった（すなわち、０
．５以下）。

【００３２】サンプル結果の他の例は、「出現」および「消失」を含む。「出現」と呼ばれ
る結果は、発現レベルが全てのコントロールサンプルにおける非存在および全て
の試験サンプルにおける存在としてマークされた特徴を含む。このような遺伝子
の発現レベルは、検出不可能から検出可能となったレベルである。「消失」と呼
ばれる結果は、発現レベルが全てのコントロールサンプルにおける存在および全
ての試験サンプルにおける非存在としてマークされた、遺伝子の特徴を含む。

【００３３】サンプル結果は、データベース４４に格納される（工程１２０）。クライアン
トユーザ（または同じクライアント１０もしくは異なるクライアントシステムを
介してデータベースにアクセスする、他の任意のクライアントユーザ）は、格納
されたサンプル結果を、以前の結果と関連付け得る（工程１２４）。１つの実施
形態において、この関連付けは、格納されたサンプル結果と以前の結果との間で
の比較である。１つの実施形態における比較は、格納されたサンプル結果と以前
の結果との両方に出現する遺伝子を探す。

【００３４】以前の結果は、データベース４４の情報に対して実施された以前の分析から誘
導された、別のサンプル結果であり得るか、または以前の結果は、データベース
４４に格納された、ユーザが作成したリストもしくは予め規定されたリストであ
り得る。予め規定されたリストの例は、ＭＩＰＳにより作成された、カテゴリー
分類リストである。ＭＩＰＳとは、タンパク質配列のためのＭｕｎｉｃｈ情報セ
ンターを表し、そして遺伝子の種々の機能的カテゴリー分類をインターネット上
で公開する、バイオインフォマティックスグループである。以下は、ＭＩＰＳに
より公開された、酵母遺伝子の機能的カテゴリー分類のほんの一部の例である。

【００３５】

【表２】ＭＩＰＳリストの各項目は、機能的カテゴリーに関するさらなる情報へのハイ
パーリンクである。例えば、「ｏｔｈｅｒｔＲＮＡ−ｔｒａｎｓｃｒｉｐｔｉ
ｏｎａｃｔｉｖｉｔｉｅｓ（４ＯＲＦｓ）」ハイパーリンクを選択すると、
「ｏｔｈｅｒｔＲＮＡ−ｔｒａｎｓｃｒｉｐｔｉｏｎａｃｔｉｖｉｔｉｅｓ
（他のｔＲＮＡ転写活性）」のカテゴリーに入る、以下の遺伝子のリストを含む
ウェブページが提供される：

【００３６】

【表３】データベース４４に格納され得る、ユーザが作成したリストまたはユーザが選択
したリストの他の例は、染色体、転写因子標的、および機能的カテゴリー（例え
ば、代謝遺伝子）のリストである。

【００３７】図３は、図１に記載したローダー３５の実行の際に、クライアント１０に表示
されるグラフィカルユーザインターフェース１３０の実施形態を図示する。ロー
ダー３５は、ネットワーク３０に接続された任意のコンピュータシステム（例え
ば、クライアント１０）からのファイルアップロードを補助し、そしてデータセ
ットを内部ウェブサイトからロードするための、ＨＴＴＰプロトコル補助を提供
する。さらに、ローダー３５は、クライアントユーザが、ロードされたデータセ
ットを、実験を説明する情報（例えば、遺伝株（欄１３８内）、使用した増殖条
件（欄１３４内）、およびサンプル処理（欄１３６内））と関連付けることを可
能にする。さらに、チップおよび試薬の品質に関する問題を追跡するために、チ
ップロット番号が、欄１３９に入力され得る。

【００３８】１つの実施形態において、ローダー３５は、共通ゲートウェイインターフェー
ス（ＣＧＩ）プログラムおよびモジュールのスイート、ＰＥＲＬへの書き込みに
より、実行され、これは、データベース４４へのデータセットのアップロードを
取り扱う。ｐｅｒｌは、テキストファイル処理のために効果的であり、そして簡
単な十分に補助されたデータベースインターフェースを提供する。ローダー３５
は、他の様式で（例えば、アプリケーションプログラムインターフェース（ＡＰ
Ｉ）として）実行され得ることが、理解されるべきである。

【００３９】データセットロード時間を最小に維持するため、従ってクライアントユーザへ
の認容可能な双方向応答を提供するために、ローダー３５は、生データ行を、行
ごとに、空の一時的な表に挿入する。次いで、ローダー３５は、一度に、生デー
タを選択し、そして全てのデータセットを含む大きな表に挿入する。１つの実施
形態において、この大きな表は、１．６×１０⁶の行を含む。このロード最適化
技術は、挿入時間を改善し、そしてロールバックスペースの消費を有意に減少さ
せる。また、この最適化技術は、挿入時間を、表のサイズよりむしろ挿入される
データセットのサイズに比例させる。

【００４０】（データセットの再スケーリング）異なるチップについてのデータセットを一緒に分析し得る前に、このデータセ
ット内の生データの較正または再スケーリングが、必要である。再スケーリング
は、実験の性質に依存して、種々の方法で実施され得る。例えば、既知の量の外
因性コントロールＲＮＡを、１つのチップから読まれるデータ値から別のチップ
から読まれるデータ値へと再スケーリングするために、使用し得る。全体のｍＲ
ＮＡ集団が安定なままであると予測される実験については、バルクシグナルスケ
ーリング法がまた、使用され得る。全体の発現が有意に影響を受ける状況（例え
ば、温度感受性の変異に起因して、転写装置の一部がノックアウトまたは不活化
される場合）においては、コントロールに基づく再スケーリングが適切である。
図３をさらに参照すると、ローダー３５は、データセットがロードされる場合に
、クライアントユーザーが、再スケーリングの方法（欄１３５内の参照セットを
特定することによる）および関連するパラメータを選択することを可能にする。
ローダー３５はまた、再スケーリングのための代表的なパラメータを提示する、
デフォルトオプションのセットを（欄１３７内に）提供する。

【００４１】再スケーリングを実行するために、参照セットが、再スケーリングのためのコ
ントロールとして使用されるサンプル、再スケーリングアルゴリズムおよび再ス
ケーリングが必要とする任意のパラメータ、ならびにチップがコントロールサン
プル由来のチップに再スケーリングされるサンプルのセットを含むように、規定
される。現在の全ての利用可能な再スケーリングアルゴリズムは、参照セットの
内容に関して安定である；すなわち、さらなるサンプルを参照セットに追加する
ことが、参照セット中に既に存在するサンプルの再スケーリングされた値に影響
を与えない。サンプルは、１つより多い参照セットに追加され得、この場合には
、再スケーリングされた値が、各参照セットに関して別個に格納される。

【００４２】全てのデータのタイプが、直接的に比較可能であるわけではない。例えば、特
定の測定は、所定の観点においてのみ有用であり、一方で他の測定は、実験条件
のセットに関して絶対的である。データセットの再スケーリングは、クライアン
トユーザによってグラフィカルユーザインターフェースを介して規定されるよう
に、直接的に比較可能であり得るデータ値に関してのみ生じるが、異なる参照セ
ット由来のデータ値の直接的な比較を可能にしない。ユーザは、サンプルが正し
く標準化された（すなわち、適切な参照セットに追加された）ことを保証する。
サンプルが正しく標準化された場合には、このデータベースシステムは、クライ
アントユーザが参照セット間での比較を行うことを制限し、従って、標準化にわ
たる比較を防止する。異なる参照セット由来のデータ値の比較は、より高いレベ
ルにおいて起こる（例えば、「データの採集」と呼ばれる節に関して以下に記載
するような、「データの採集」の間）。

【００４３】（遺伝子名スペース）データベース４４内の情報の問い合わせおよび異なるチップからの情報の比較
を可能にするために、プローブ名が、チップ製造業者によって各生物に関する独
特のセットの遺伝子特徴名に対して提供された物理的プローブ名をマッピングす
る一連の表を通して、「標準化」される。従って、ゲノムデータは、２つの形式
（生の処理されていないデータ、ならびに分析および問い合わせのために最適化
された（例えば遺伝子特徴名で）形式）でデータベース４４に格納される。

【００４４】データセットの遺伝子特徴名スペースへのこのマッピングは、サンプル間の比
較を単純化する。この名前スペースは、チッププローブにより測定される、１つ
の遺伝子の特徴（例えば、遺伝子、遺伝素フラグメント、遺伝子の群、または遺
伝子間領域）あたり１つのエントリーを含む、遺伝子特性表により表される。物
理的チッププローブから遺伝子特徴へとマッピングするために、提示される各遺
伝子特長についてのチップ上で「最良の」プローブを、実験的に選択した規則の
セットに基づいて選択するスキームが使用される。さらに、技術間の比較（例え
ば、異なるチップ製造業者由来）を行うために、チップにより問い合わせられる
全ての遺伝子を説明する独自の遺伝子カタログが使用され、その結果、２つの異
なる登録番号のもとで説明される同一の遺伝子の測定が、依然として比較され得
る。

【００４５】（データ検索）データセットのローディングおよび再スケーリングの後に、クライアントユー
ザは、クライアントユーザがサンプルのセットにわたって遺伝子のセットを選択
することを可能にする検索ツール（すなわち、サーバ２０のウェブアプリケーシ
ョン）を使用して、データベース４４から情報を抽出し得、そして得られる行列
を、テキストまたはＨＴＭＬ表としてダウンロードし得る。クライアントユーザ
は、得られるファイルを、局所（すなわち、クライアント１０）分析のためのス
プレッドシートにロードし得る。

【００４６】（データ編成−プロジェクトおよび遺伝子カテゴリー）データベース４４に格納された情報を編成するために、分析において使用した
データを、プロジェクトに分割する。各プロジェクトは、サンプルセットを含み
、これは、同じ参照セット由来の関連するサンプルの群である。次いで、これら
のサンプルセットを分析して、結果のセット（すなわち、サンプル結果）を作製
し得る。各サンプル結果は、遺伝子のリストまたは遺伝子リストのリスト、およ
びその遺伝子リストを説明する数値的な値（例えば、中心のような）を含み得る
。恐らく、遺伝子リスト中の遺伝子は、実験において同時発現された遺伝子であ
る。各プロジェクトは、個体（例えば、研究者）に関連する。データベース４４
の概要において、図６に関して以下に記載される、各プロジェクトは、ＰＲＯＪ
ＥＣＴＳ表へのエントリーである。

【００４７】（遺伝子の群）データベース４４内の情報を編成するための別の機構は、遺伝子をユーザ規定
のカテゴリーに分類することである。次いで、これらのカテゴリーが、群に分類
され得る。上記のＭＩＰＳ関数カテゴリーは、この編成機構の１例である。以下
のデータの採集の節にさらに詳細に記載するように、これらのユーザ規定の遺伝
子のリストのデータは、ユーザ指定の分析により作成された遺伝子のリスト（ま
たは遺伝子リストのリスト）と比較され得る。

【００４８】（データ抽出）データベース４４内の情報の格納の様式は、クライアントユーザ（例えば、ス
プレッドシートを使用する）による、外部分析（すなわち、局所分析）のための
データセットの抽出を容易にする。さらに、クライアントユーザは、特徴の群に
わたって複数のサンプルに関するデータセットを抽出し得る。特徴に対するセッ
ト操作（すなわち、ＡＮＤ、ＯＲなど）もまた、補助される。例えば、特定の時
間経過実験にわたってアップレギュレートされた遺伝子のセットは、ダウンレギ
ュレートされた遺伝子と組み合わせられ得る。得られる行の組合せセットは、特
定の時間経過実験に関与するサンプルまたは外部分析のための何らかの他の時間
経過実験に関与するサンプルにわたって抽出され得る。

【００４９】（データセット分析）データベース４４に格納されたデータセットを分析するために、クライアント
ユーザは、サンプルをサンプルセットにグループ化する。上記のように、サンプ
ルセット中の全てのサンプルが同じ参照セットに由来し、そしてサンプルセット
は、データ編成の目的で、プロジェクトのもとで格納される。分析は、サンプル
セットにおけるサンプルの比較を生成して、発現がいくつかの特定の様式で影響
を受けた遺伝子特徴の複数のリストを誘導する。以前に注目した実施形態におい
て、サンプルセットは、以下の２つのツールのうちの一方を使用して分析され得
る：ルールベースの分析および非階層クラスター化。

【００５０】（規則に基づく分析）サンプルセット中で、各サンプルは役割を果たす（例えば、野生型レプリカ０
、時点１５分レプリカ１）。レプリカは、反復された実験であり、これは、実験
ノイズを制御するための分析によって使用され得る。サンプルに役割を割り当て
た後で、クライアントユーザは、これらのサンプルの分析に適用する規則を選択
する。クライアントユーザは、あらかじめ決定した規則のセットからの適用する
ための規則を選択する。次いで、ウェブインターフェース３４は、ＤＢＭＳ３６
中の選択した規則を実行して、影響を受けた遺伝子のリスト（単数または複数）
を生成する。次いで、このサンプルは、クライアントユーザによる引き続く検索
に利用可能であるデータベース４４に保存される。

【００５１】規則に基づく分析は、遺伝子が同時発現することを決定するあらかじめ決定さ
れた規則のセットをユーザが選択することを可能にする。規則の１つの例は、「
係数２で発現レベルが変化するすべてのＯＲＦ」である。別の規則の例は、「複
製を越えて平均発現レベルが時間とともに単調増加し、各時点についての測定の
少なくとも半分が高い信頼性がある、すべてのＯＲＦ」である。図４は、規則に
基づく分析を実行するためにクライアントユーザに提供される典型的なグラフィ
カルユーザインターフェース１４０の画面の一場面である。

【００５２】１つの実施形態において、規則に基づく分析は、統計的なプログラムのＲパッ
ケージを使用する外部モジュールとして実行され、このプログラムは、数学的モ
デリングのためのＳプログラミング言語の実行であり、ＤＢＭＳ３６を通して
データベース４４と相互作用する。Ｒ言語は、ＩｈａｋａおよびＧｅｎｔｌｅｍ
ａｎ（１９９６）「Ｒ：ＡＬａｎｇｕａｇｅｆｏｒＤａｔａＡｎａｌｙ
ｓｉｓａｎｄＧｒａｐｈｉｃｓ」、ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａ
ｔｉｏｎａｌａｎｄＧｒａｐｈｉｃａｌＳｔａｔｉｓｔｉｃｓ、５、２９
９−３１４に記載されている。ＰＥＲＬで書かれたＣＧＩプログラムは、Ｒプロ
グラムを制御して、グラフィカルユーザインターフェースを提供する。Ｒで書か
れた分析は、サンプルセットにわたる発現レベルに対応するデータベース４４か
らの値の行列を抽出し得、そしてその遺伝的特徴が同時に調節されているかを決
定し得る。Ｒプログラムは、データベース４４中の規則に基づく分析の結果を直
接ロードする。

【００５３】（クラスター化分析）一般的に、クラスター化分析は、これらのパターンがそのように見えるべきで
あるものについての以前の知見を必要とすることなしに遺伝子発現のパターンの
検出を可能にする。サンプルセットを規定した後に、クライアントユーザは、サ
ンプルセットにおけるサンプルのデータを搬出し得、そしてこのようなパターン
を検出するための種々の分析ツールを使用し得る。１つの型の分析ツールの例は
、クラスター遺伝子に対する自己組織化マップアルゴリズムを適用する。このよ
うな分析ツールの１つは、ＧＥＮＥＣＬＵＳＴＥＲと呼ばれ、これは、Ｗｈｉｔ
ｅｈｅａｄＩｎｓｔｉｔｕｔｅＣｅｎｔｅｒＦｏｒＧｅｎｏｍｅＲｅ
ｓｅａｒｃｈｏｆＣａｍｂｒｉｄｇｅ、Ｍａｓｓａｃｈｕｓｅｔｔｓによっ
て作製されているソフトウェアである。他の分析ツールは、サンプルセットを分
析するために使用され得る。

【００５４】次いで、分析ツールは、データベース４４に対する分析を生じる出力ファイル
をアップロードする。次いで、このような出力ファイルは、規則に基づく分析に
よって生成された結果として、同じ特定のフォーマット（例えば、遺伝子のリス
ト）で保存される。例えば、分析ツールによって生成される、得られるクラスタ
ーおよび関連する質量中心（ｃｅｎｔｒｏｉｄ）（すなわち、平均発現プロフィ
ール）は、「データの採集」の節において以下で記載されるようなさらなる分析
のためにデータベース４４に戻される。本発明の特徴は、分析ツールによって生
成される結果が、特定のフォーマットで保存され、使用される分析の型に関わら
ず、異なる分析によって生成される結果の比較を可能にすることである。この特
定のフォーマットは、根底にあるデータベース構造を改変することなく、分析ツ
ールとして働く種々のプログラムの付加を可能にする。

【００５５】（データの可視化）サンプルセットの分析後、クライアントユーザは、分析に関連する遺伝子およ
びそれらの発現レベルの得られるリストを、Ｊａｖａ（登録商標）アプレットの
実行を通してプラウズし得る。Ｊａｖａ（登録商標）アプレットは、カラーディ
スプレイを用いて強度のレベルまたは強度の倍数の変化をプロットし、そして多
数の遺伝子の発現レベルの同時的な可視化を生成する。倍数変化とは、処理した
細胞対処理していない細胞（すなわち、変異体細胞対野生型細胞）の間のｍＲＮ
Ａの発現の相対的変化をいう。その比が＞＝１である場合、正の数であり、そし
てその比が＞１である場合、負の逆数の比であることが報告されている。さらに
、Ｒパッケージのプログラムは、データを可視化するためのプロットツールのセ
ットを提供する。例えば、いくつかのＲプログラムは、チップまたはサンプル間
のｌｏｇの倍数変化のヒストグラムをプロットする。

【００５６】（データの採集）上記に記載した分析および可視化のツールは、クライアントユーザが少ない数
のサンプルに関与する質問に対する解答を探し出すことを可能にする。本発明の
原理に従って、クライアントユーザはまた、異なるデータセットまたは全体のデ
ータベース４４を含む、質問に対する解答を探し出すことが可能である。以下に
記載されるように、遺伝子の異なるリストを比較する能力は、データを採集する
能力を提供する。

【００５７】上記に記載したように、サンプル結果はデータベース４４中に遺伝子のセット
（すなわち、リスト）として保存される。結果として、サーバ２０に接続された
クライアントのいかなるユーザも、他のクライアントユーザの分析によって生成
された結果を通してブラウズおよび検索し得る。遺伝子についてのそのような検
索は、名称、株、サンプル、状態、または遺伝子メンバーであることによる。例
えば、クライアントユーザは、問い合わせ（例えば、「何の分析が遺伝子Ｘにつ
いての発現の変化を示したか」）に対する解答が得られ得る。

【００５８】サンプル結果がデータベース４４に保存された後に、クライアントユーザはま
た、他の以前に保存されたサンプル結果とこれらのサンプル結果を比較し得る。
さらに、このような保存されたサンプル結果は、他の遺伝子のリスト（例えば、
ユーザ定義された遺伝子のリストまたは文献に由来する遺伝子の分類（例えば、
ＭＩＰＳ機能カタログ））と比較され得る。この能力は、外部情報（例えば、科
学文献から抽出された知見）に対するサンプル結果の比較を可能にする。クライ
アントユーザは、彼らが選択したどのような判断基準にも基づく、このような知
見を分類し得る。これらのユーザ定義された分類は、データベース４４中に保存
されるサンプル結果との比較を容易にするために適用される特定のフォーマット
を有する。

【００５９】この特定のフォーマットは、提示する情報（例えば、機能および構造による、
ＭＩＰＳ分類）のための半階層スキームに従う。サンプル結果を分類と比較する
場合、そのサンプル結果は、同時発現された遺伝子のリストであると見なされる
。

【００６０】１つの実施形態において、先の結果とのサンプル結果の比較の結果は、データ
ベース４４に保存される。サンプル結果に対するサンプル結果の比較は、２つの
セット間の比較に対して論理的に等価である（例えば、このセット１のメンバー
（遺伝子）はまた、セット２のメンバーであり、これらの遺伝子は、単にセット
１のメンバーである）ので、この比較の結果は、先の結果を保存するために使用
された同じ関係の表中に保存され得る。従って、比較的に実行されたリストのビ
ットベクトルまたはリストのいずれかが使用され得る。

【００６１】例えば、第１のサンプル結果が遺伝子１および遺伝子２を含み、そして第２の
サンプル結果が遺伝子１および遺伝子３を含むならば、第１のサンプル結果およ
び第２のサンプル結果の比較は、遺伝子１を含む第３の結果（すなわち、２つの
サンプル結果の交差点）を生成する。次いで、この第３の結果は、第１のサンプ
ル結果および第２のサンプル結果と同様に、表中にエントリーとして保存され得
る。

【００６２】図５は、サンプル結果および／またはユーザ選択もしくはユーザ生成遺伝子分
類の間の関係を作るためにサーバ２０からクライアントユーザに提供されるグラ
フィカルユーザインターフェース１５０の実施形態を示す。このインターフェー
ス１５０を通して、クライアントユーザは、特定の遺伝子に影響を及ぼすデータ
セットについて、または機能および発現の間の相関を同定するためにデータベー
ス４４全体にわたる検索を実行する。インターフェース１５０は、２つのセクシ
ョン１５２および１５４を含む。各セクション１５２および１５４は、第１のグ
ラフィカルボックス１５６、１５６’ （これは先の結果を特定するためである
）、および第２のグラフィカルボックス１５８、１５８’（これはサンプル結果
を特定するためである）を有する。クライアントユーザは、それぞれ、各セクシ
ョン１５２、１５４で、２つのボックス１５６または１５８（および１５６’ま
たは１５８’）の１つを選択する。ドロップダウンメニューは、各ボックス１５
６、１５６’、１５８、１５８’について現れ、これは、データベース４４にお
いて利用可能である先の結果またはサンプル結果のメニューを示す。クライアン
トユーザは、所望の先の結果またはサンプル結果をこのメニューから選択し、そ
して選択された先の結果またはサンプル結果の関連する記載がそれぞれのボック
スに現れる。従って、クライアントユーザは、３つのタイプの比較のうちの１つ
を開始し得る：（１）先の結果と先の結果、（２）先の結果とサンプル結果、お
よび（３）サンプル結果とサンプル結果。「投入問い合わせ」ボタン１６０を選
択する際に、比較が２つの選択された結果の間で実行される。

【００６３】クライアントユーザがインターフェース１５０を通して答えるように試み得る
問い合わせの例は、「条件Ｘの下でアップレギュレートされる遺伝子のうちのど
れがリボソーム複合体のメンバーをコードしているか」および「どの条件が酵素
活性Ｙと有意な重複を示すか」である。このようなデータ採集問い合わせは、セ
ット比較を含み、そしてＳＱＬにおける部分的に拘束されるカルテシアン積とし
て実行される。

【００６４】図６は、データベース４４の組織化の実施形態を表すスキーマ２００を示す。
スキーマ２００は、表、各表における１以上の属性、および表間の関連性（表間
の矢印によって同定される）を含む。第１のキーである属性には下線を付す。示
される表および各表の下に列挙された属性は、排他的であることを意図しない。
スキーマ２００は、本発明の原理を実行するための他の表および表の属性を含み
得る。

【００６５】示されるように、そのスキーマは、ＳＡＭＰＬＥ＿ＯＮ＿ＣＨＩＰ表２０２、
ＴＳＶ＿ＦＩＬＥＳ表２０４、およびＴＳＶ＿ＲＡＷ表２０６を含む。ＳＡＭＰ
ＬＥ＿ＯＮ＿ＣＨＩＰ表２０２は、生データのサンプルをファイルと関連付ける
ためのＳａｍｐｌｅ＿ＩＤ属性およびＦｉｌｅ＿ＩＤ属性を有する。Ｆｉｌｅ＿
ＩＤは、ＴＳＶ＿ＦＩＬＥ表２０４を指し示す第２のキーとして作動する。ＴＳ
Ｖ＿Ｒａｗ表６０６０は、データセットと関連する生データ値を保存する。ＴＳ
Ｖ＿Ｒａｗ表６０６の属性は、Ｆｉｌｅ＿ＩＤであり。これはまた、ＴＳＶ＿Ｆ
ｉｌｅｓ表２０４を示す。ＴＳＶ＿ＦＩＬＥＳ表２０４は、データベース４４中
にロードされた各データセットに対応する１つの行を含み、そしてＴＳＶ＿ＲＡ
Ｗ表２０６は、データファイル中に存在する各プローブについての１つの行を含
む。

【００６６】このスキーマは、ＳＡＭＰＬＥＳ表２０８、ＧＲＯＷ＿ＣＯＮＤＩＴＩＯＮ表
２１０、およびＳＴＲＡＩＮ表２１２もまた含む。ＳＡＭＰＬＥ表２０８は、増
殖条件および株をそれぞれ有する、表２０８中の各サンプルと関連するＣＯＮＤ
ＩＴＩＯＮ＿ＩＤ属性およびＳＴＲＡＩＮ＿ＩＤ属性を含む。ＣＯＮＤＩＴＩＯ
Ｎ＿ＩＤ属性は、ＧＲＯＷ＿ＣＯＮＤＩＴＩＯＮ表２１０を検索するための第２
のキーとして作動し、そしてＳＴＲＡＩＮ＿ＩＤ属性は、ＳＴＲＡＩＮ表２１２
を検索するための第２のキーとして作動する。ＳＴＲＡＩＮ表２１２における各
エントリーは、生物の特定の株の記載を提供し、そしてＧＲＯＷ＿ＣＯＮＤＩＴ
ＩＯＮ表２１０中の各エントリーは、株が増殖する条件下の記載を提供する。Ｓ
ＡＭＰＬＥＳ表２０８もまた、ＳＡＭＰＬＥ＿ＯＮ＿ＣＨＩＰ表２０２のＳＡＭ
ＰＬＥ＿ＩＤ属性に対応するＳＡＭＰＬＥ＿ＩＤ属性を含む。

【００６７】スキーマ２００中の他の表は、ＲＥＦＥＲＥＮＣＥ＿ＳＥＴ表２１４、ＳＡＭ
ＰＬＥ＿ＩＮ＿ＲＥＦＥＲＥＮＣＥ＿ＳＥＴ表２１６、ＡＢＳ＿ＥＸＰＲＥＳＳ
ＩＯＮ表２１８、およびＡＢＣ＿ＤＡＴＡ＿ＴＡＢ表２２０を含む。ＲＥＦＥＲ
ＥＮＣＥ＿ＳＥＴ表２１４は、同じセットのパラメーターおよび単一のコントロ
ールサンプルを使用して、一緒に再スケーリングしたサンプルをグループ化する
。コントロールサンプル以外の各サンプルは、コントロールサンプルと関連する
パラメーターおよび値を使用して再スケーリングする。ＳＡＭＰＬＥ＿ＩＮ＿Ｒ
ＥＦＥＲＥＮＣＥ＿ＳＥＴ表２１６は、サンプルセットと参照セットとの間の関
連性を維持する。ＳＡＭＰＬＥ＿ＩＮ＿ＲＥＦＥＲＥＮＣＥ＿ＳＥＴ表２１６は
、ＳＡＭＰＬＥＳ表２０８を指し示すＲＥＦＥＲＥＮＣＥ＿ＳＥＴ表２１４およ
びＳａｍｐｌｅ＿ＩＤ属性を検索するための第２のキーであるＲｅｆｅｒｅｎｃ
ｅ＿ｓｅｔ＿ＩＤ属性を含む。

【００６８】ＡＢＳ＿ＥＸＰＲＥＳＳＩＯＮ表２１８は、参照セットに挿入されるすべての
チップについてのエントリーを保存する。ＡＢＳ＿ＥＸＰＲＥＳＳＩＯＮ表２１
８の属性は、再スケーリングすることを記載する情報（例えば、スケーリング因
子および参照チップ）を保存する。ＡＢＳ＿ＤＡＴＡ＿ＴＡＢ表２２０は、再ス
ケーリングしたデータ値を保存し、そしてＳＡＭＰＬＥ＿ＩＮ＿ＲＥＦＥＲＥＮ
ＣＥ＿ＳＥＴ表２１６を指し示す。

【００６９】スキーマ２００においてなお他の表は、ＳＡＭＰＬＥ＿ＳＥＴ表２２２、ＡＮ
ＡＬＹＳＩＳ＿ＲＥＳＵＬＴＳ表２２４、ＧＥＮＥ＿ＩＮ＿ＬＩＳＴ表２２６、
ＰＲＯＪＥＣＴＳ表２２８、ＳＡＭＰＬＥ＿ＩＮ＿ＰＲＯＪＥＣＴＳ表２３０、
ＳＡＭＰＬＥ＿ＩＮ＿ＳＳＥＴ表２３２、およびＡＮＡＬＹＳＩＳ＿ＰＡＲＡＭ
ＥＴＥＲＳ表２３４を含む。

【００７０】ＳＡＭＰＬＥ＿ＳＥＴ表２２２は、分析されるサンプルを互いにグループ化す
る。１つの実施形態において、サンプルセット中のすべてのサンプルは、同じサ
ンプル参照セットに由来する。ＡＮＡＬＹＳＩＳ＿ＲＥＳＵＬＴＳ表２２４は、
分析によって生成されたサンプル結果を保持する。分析によって生成される各サ
ンプル結果についてのＡＮＡＬＹＳＩＳ＿ＲＥＳＵＬＴＳ表２２４における１つ
のエントリーが存在する。１回の分析は、複数の遺伝子リストを生成し得ること
に留意のこと（従って、サンプル結果は、遺伝子リストのリストである）。ＡＮ
ＡＬＹＳＩＳ＿ＰＡＲＡＭＥＴＥＲＳ表２３４は、所定の分析を実行するために
使用されるパラメーターを同定する。実行される各分析についてのＡＮＡＬＹＳ
ＩＳ＿ＰＡＲＡＭＥＴＥＲＳ表２３４において１つのエントリーが存在する。Ｇ
ＥＮＥ＿ＩＮ＿ＬＩＳＴ表２２６は、サンプル結果を、そのような結果が含む遺
伝子の特徴と結合させる。サンプル結果において同定される各遺伝子についての
ＧＥＮＥ＿ＩＮ＿ＬＩＳＴ表２２６において、１つのエントリーが存在する。

【００７１】「データの組織化」の節において上記で記載したように、ＰＲＯＪＥＣＴＳ表
２２８は、サンプルの任意のグループおよびこのようなサンプル由来のサンプル
セットを含む組織化された構築物であるプロジェクトを保持する。間接的に、Ｐ
ＲＯＪＥＣＴＳ表２２８は、分析をグループ化する。ＳＡＭＰＬＥ＿ＩＮ＿ＰＲ
ＯＪＥＣＴ表２３０は、プロジェクトにおけるサンプルあたり１つのエントリー
を含む。ＳＡＭＰＬＥ＿ＩＮ＿ＳＳＥＴ表２３２（これは、サンプルセット中の
プロジェクトにおいてサンプルあたり１つのエントリーを含む）は、サンプルセ
ットを有するプロジェクトにおいてサンプルと関連する。

【００７２】（操作の例）本発明の全体の操作は、以下の実施例において例証される。特に、この実施例
は、クライアントユーザが、いかにして生のゲノムデータをデータベース４４に
ロードし、データベース４４中でゲノムデータ由来のサンプル結果を生成し、そ
して、保存されているサンプル結果を、他の以前に保存されているサンプル結果
およびユーザによって選択されたかユーザによって生成された遺伝子のリストと
関連付けることによっていかにしてデータ収集を行うかを実証する。

【００７３】４つのサンプル：２つのコンロトールサンプルおよび２つの欠失変異体「ｃｓ
ｅ２／ｍｅｄ９」にわたって、２つの遺伝子、ＹＯＲ０９５Ｃ（「ＲＫ１１」）
およびＹＦＬ０１４Ｗ（「ＨＳＰ１２」）で実行される以下の実験を考えてみる
。ＲＫ１１の発現は、この実験において２分の１より下に低下し、そしてＨＳＰ
１２が少なくとも２倍増加することを仮定する。

【００７４】データを、スキャニングソフトウェアによって生成されるアレイあたり１デー
タファイルからロードする。再び図３を参照すると、クライアントユーザに提示
されるグラフィカルユーザインターフェース１３０は、データファイル（データ
をそこからロードする）を同定するための、およびサンプル情報をそのデータと
関連付けるための欄１３２を含む。この実施例において、４つのデータファイル
が存在し、これは、１つのサンプルと関連する４つのチップの各々についてのも
のである。各データファイルは、アレイ上に位置したプローブあたり１以上の目
的の測定を含む。ローダー３５は、各データファイルを複数の表（ＴＳＶ＿ＲＡ
Ｗ２０６表およびＴＳＶ＿ＦＩＬＥＳ２０４表を含む）にアップロードする。次
いで、ＴＳＶ＿ＦＩＬＥＳ表２０４は、ロードされた各データセットについて１
つの行を含む。ＴＳＶ＿ＲＡＷ表２０６は、以下の表１の例について示されるよ
うに、データファイル中に存在する各プローブについて１つの行を含む：

【００７５】

【表４】ＳＡＭＰＬＥ＿ＯＮ＿ＣＨＩＰ表２０２を使用して、データセットは、サンプ
ルおよびチップ（アレイ）を記載するサンプル情報と関連付けられる。以下の表
２に示されるように、このチップ（アレイ）上でサンプルがハイブリダイズされ
る：

【００７６】

【表５】次いで、ロードされたデータは、再スケーリングパラメーターのあらかじめ決
定されたセット（参照セット）に関して再スケーリングされ得る。各データファ
イルについての再スケーリング定数は、以下の表３に示されるように、ＡＢＳ＿
ＥＸＰＲＥＳＳＩＯＮ表２１８中に保存される：

【００７７】

【表６】生データを、適切な再スケーリング係数で割り、そしてＡＢＳＤＡＴＡＴ
ＡＢテーブル２２０に保存する。このＡＢＳＤＡＴＡＴＡＢテーブル２２０
を使用して、各データポイントを、以下の表４に示すように、プローブが問い合
わせる遺伝子と関連付ける。（表４）

【００７８】

【表７】上記の再スケーリングプロセスを、分析中に比較されるべき全てのサンプルに
ついて繰り返す。ここで図４を参照すると、型１４１の分析（ここでは、静的分
析（「ＳＡ」）が選択され、そして一緒に分析される再スケーリングしたサンプ
ル１４２が、サンプルセットを規定するために選択される。静的分析は、平衡状
態の系（例えば、ノックアウト、欠失、変異）について適切な分析である。再ス
ケーリングしたサンプル１４２は、以下の表５に示されるように、ＳＡＭＰＬＥ
ＩＮＳＡＭＰＬＥＳＥＴ２３２に収集される。サンプルセット中の全ての
サンプルは、同じ参照セットから誘導される。（表５）

【００７９】

【表８】型１４４および複製１４６フィールドは、サンプルセット内のサンプル間の比
較を組み立てるために使用される。実施例の静的分析について、サンプル型「Ｗ
Ｔ」（すなわち、野生型）のサンプルは、サンプル型「ＭＴ」（すなわち、変異
型）のサンプルに対して比較される。また、複製サンプルは、同じ複製のサンプ
ルに対して比較される。例えば、複製１サンプルは、複製１サンプルに対して比
較され、そして複製２サンプルは、複製２サンプルに対して比較される。様々な
他の型の比較が可能である。例えば、サンプルセット内のサンプルを比較するた
めの別の方法は、変異体の複製値を平均し、そしてその平均値を野生型の値の平
均値で割ることである。

【００８０】選択された分析が行われ、そしてサンプル結果が保存される。この例において
、行われた分析は、各遺伝子について、コントロールサンプルの平均発現レベル
を試験サンプルの平均発現レベルと比較し、この遺伝子が、２倍（アップまたは
ダウンのいずれか）より多く異なるか否かを決定する。試験サンプルがコントロ
ールサンプルの少なくとも２倍（２×）である場合、遺伝子は「アップ」結果が
割り当てられる。試験サンプルが、少なくとも２倍低い場合、この遺伝子は「ダ
ウン」結果が割り当てられる。以下の表６を参照すると、選択された分析（ここ
では、ＡＮＡＬＹＳＩＳＩＤ９００）は、遺伝子の複数のリストを生成し得
る分析の例（すなわち、複数のリストのうちの一リスト）：「アップ」遺伝子に
ついての一方のリスト、および「ダウン」遺伝子についての他方のリストを例示
する。（表６）

【００８１】

【表９】表７に示すように、ＧＥＮＥＩＮＬＩＳＴテーブル２２６は、各遺伝子を
、その遺伝子に適切な結果（単数または複数）と関連付けする：（表７）

【００８２】

【表１０】ここで、「分析ｘおよび分析ｙにおいて、どの遺伝子が「アップ」であったか
」というような質問に対する解答が、データベース４４によって提供され得る。
本実施例において、遺伝子ＹＦＬＯ１４Ｗは、「アップ」結果を有する遺伝子で
ある。

【００８３】また、「集合Ｘ＜＞集合Ｙ、かつ｛Ｘ｝＝｛Ｙ｝であるような、２つの集合、
ＸおよびＹを見出しなさい」（すなわち、任意の２つの重なり集合を見出しなさ
い）のような徹底的な検索が実施され得る。例えば、遺伝子ＹＦＬ０１４Ｗにつ
いて、ユーザーの規定したセットのフィルターセット（例えば、ＭＩＰＳカテゴ
リー）を検索して、表８に示される群流の遺伝子ＹＦＬ０１４Ｗを見出し得る。
表８は、遺伝子ＹＦＬ０１４Ｗを含むカテゴリーを含む関係表中の列の部分集合
である。（表８）

【００８４】

【表１１】選択した分析（ＡＮＡＬＹＳＩＳＩＤ＝９００）が、複数の遺伝子が「アッ
プ」結果であったことを決定した場合、これらのカテゴリーのいずれかの遺伝子
と、「アップ」結果の遺伝子との重なりの統計的有意性が評価され得る。

【００８５】図７は、以前にデータベース４４に保存されたサンプル結果中の遺伝子ＹＦ０
１４Ｃを検索する場合に生成される、クライアント１０におけるディスプレイ２
４０の例を示す。この遺伝子調査は、「ｃｓｅ２／ｍｅｄ９」、「ｓｉｎ４」お
よび「ｓｒｂ１０」実験２４２についての結果「ｕｐ」におけるＨＳＰ１２（Ｙ
ＦＬ０１４Ｃ）を示す。各サンプル結果について保存されたさらなる情報（すな
わち、各実験について、倍数変化の値２４３および図解表示２４４（ここでは、
ｃｓｅ２／ｍｅｄ９実験について９．３５、ｓｉｎ４実験について１１．５１、
およびｓｒｂ１０実験について３２．７５））もまた示される。

【００８６】本発明は、特定の好ましい実施形態に関して示されそして記載されてきたが、
上記特許請求の範囲により規定されるような本発明の精神および範囲から逸脱す
ることなく、形態および詳細の様々な変更がここでなされることが当業者に理解
されるべきである。

【図面の簡単な説明】

本発明は、添付の特許請求の範囲における詳細事項とともに指摘される。上記
の本発明の利点ならびに本発明のさらなる利点は、添付の図面とともに上記の説
明を参照することによりよりよく理解され得る。

【図１】図１は、本発明の原理に従うデータベースサービスを提供するクライアント−
サーバーネットワークのブロック図である。

【図２】図２は、本発明の原理に従ってクライアントユーザーがデータベースにアクセ
スするプロセスの実施形態のフロー図である。

【図３】図３は、本発明のデータベースにサンプルデータを入力するためにクライアン
トユーザーに提示されたグラフィカルユーザーインターフェイスの実施形態を示
すスクリーン図である。

【図４】図４は、サンプルのセットに対して規則（ｒｕｌｅ）ベースの分析を行うため
に、クライアントユーザーに提示されたグラフィカルユーザーインターフェイス
の実施形態を示すスクリーン図である。

【図５】図５は、サンプル結果間および／またはユーザー選択もしくはユーザー生成分
類間での比較を行うために、クライアントユーザーに提示されたグラフィカルユ
ーザーインターフェイスの実施形態を示すスクリーン図である。

【図６】図６は、図１のデータベースのスキームの実施形態のブロック図である。

【図７】図７は、データベースに保存されたサンプル結果における特定の遺伝子につい
ての検索の結果を報告するために、クライアントユーザーに提示されたグラフィ
カルユーザーインターフェイスの実施形態を示すスクリーン図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ヤング，リチャードアメリカ合衆国マサチューセッツ 02493，ウエストン，ハイランドストリート 216 (72)発明者ヤング，ピーターアメリカ合衆国マサチューセッツ 02143，サマービル，ローウェルストリート 48 Ｆターム(参考） 4B024 AA11 CA01 CA09 CA12 HA12 HA14 HA19 5B075 ND20 NR12 QS20 QT10 UU26

Claims

【特許請求の範囲】

【請求項１】ネットワーク上のデータを分析するための方法であって、該
方法は、以下の工程：データを受信する工程；該データを再スケーリングして、再スケーリングしたデータを生成する工程；該再スケーリングしたデータをパラメータの予め選択したセットと関連付けす
る工程；該関連付けした再スケーリングしたデータからサンプルセットを生成する工程
；該サンプルセットについての分析を行って、サンプル結果を生成する工程；該サンプル結果をデータベースに保存する工程；および該保存したサンプル結果を前の結果と関連付ける工程、を包含する、方法。
【請求項２】前記前の結果が、以前に前記データベースに保存されたサン
プル結果である、請求項１に記載の方法。
【請求項３】前記前の結果がユーザーが生成した結果である、請求項１に
記載の方法。
【請求項４】前記前の結果がユーザーが選択した結果である、請求項１に
記載の方法。
【請求項５】前記再スケーリングしたデータを、前記サンプル結果と同じ
データベースに保存する、請求項１に記載の方法。
【請求項６】前記保存されたサンプル結果が、リストのうちの１つのリス
トである、請求項１に記載の方法。
【請求項７】前記リスト中の各リストが遺伝子のリストである、請求項６
に記載の方法。
【請求項８】前記保存されたサンプル結果が、ビットベクトルのセットで
ある、請求項１に記載の方法。
【請求項９】前記関連付けする工程が、前記サンプル結果を前記前の結果
と比較する工程を包含する、請求項１に記載の方法。
【請求項１０】前記保存したサンプル結果を前記前の結果と関連付ける工
程の結果を、前記データベースに保存する工程をさらに包含する、請求項９に記
載の方法。
【請求項１１】提供されたデータを再スケーリングするため、コントロー
ルとして使用される参照セットを規定する工程をさらに包含する、請求項１に記
載の方法。
【請求項１２】データを分析するためのシステムであって、該システムは
、以下：該データを再スケーリングする較正器；該再スケーリングしたデータと関連付けられたパラメータの予め選択したセッ
ト；該関連付けされた再スケーリングしたデータから生成したサンプルセット；該サンプルセットについての分析を行い、サンプル結果を生成するアナライザ
ー；該サンプル結果を保存するデータベース；および該保存されたサンプル結果を前の結果と関連付ける連想装置、を備える、シス
テム。
【請求項１３】前記前の結果が、以前に前記データベースに保存されたサ
ンプル結果である、請求項１２に記載のシステム。
【請求項１４】前記前の結果がユーザーが生成した結果である、請求項１
２に記載のシステム。
【請求項１５】前記前の結果がユーザーが選択した結果である、請求項１
２に記載の方法。