JP2004535612A

JP2004535612A - 遺伝子発現データの管理システムおよび方法

Info

Publication number: JP2004535612A
Application number: JP2002569930A
Authority: JP
Inventors: ビクターマルコヴィッツ、; ソドロストパログル、; ケビンマクローリン、; ジョンエム．キャンプベル、; ドミトリークライロブ、; イ−ミンエイ．チェン、; アンソニーコスキー、; ドウドルジナウ、
Original assignee: ジーンロジックインコーポレイテッド
Priority date: 2001-03-05
Filing date: 2002-03-05
Publication date: 2004-11-25
Also published as: EP1366359A1; WO2002071059A1; CA2440035A1

Abstract

本発明は、効率的な探究および解析をサポートするリレーショナルフォーマットにおいて、遺伝子発現、遺伝子注解、および試料情報を解析するシステムおよび方法であって、さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、ＤＮＡ断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスを提供することと、１つ以上のＤＮＡ断片の遺伝子発現に関する照会を受信することと、１つ以上のＤＮＡ断片の遺伝子発現レベルを決定することと、遺伝子発現レベルを臨床データベースと断片インデックスに相関させることと、前記相関の結果を表示することとを含むシステムおよび方法に関する。

Description

【技術分野】
【０００１】
（関連出願の相互参照）
本願は、２００１年３月５日に出願された「遺伝子発現データの管理システムおよび方法」と題された米国特許出願第０９／７９７，８３０号の優先権を主張し、その内容全体を参照により本願明細書に援用し、同出願において、非仮出願から仮出願への変更申請書が提出されている。
【０００２】
（発明の背景）
発明の分野
本発明は、一般的に、生物学的情報の格納および検索用のリレーショナルデータベースに関する。さらに詳しく言えば、本発明は、効率的な探究および解析を支援するリレーショナルフォーマットで、遺伝子発現、遺伝子注解、および試料情報を提供するためのシステムおよび方法に関する。
【背景技術】
【０００３】
関連技術の説明
ＤＮＡマイクロアレイは、規則正しい二次元行列にＤＮＡ試料（例えば、ゲノムＤＮＡ、ｃＤＮＡ、またはオリゴヌクレオチド）を含むガラスマイクロスライドまたはナイロンメンブレンである。ＤＮＡマイクロアレイは、遺伝子発現およびゲノムクローンを解析したり、単一塩基変位多型（「ＳＮＰ」）を検出したりするために使用することができる。マイクロアレイを作製するために使用されるＤＮＡは、ある一定の発達段階中に、ある一定の経路にある特定の組織に発現する遺伝子や、薬剤や他の試剤での処理後に特定の組織に発現する遺伝子など、関係のある遺伝子群からのものである場合が多い。このような遺伝子群の発現は、マイクロアレイにリンクされたＤＮＡ配列に対する蛍光標識したＲＮＡまたはＤＮＡのハイブリダイゼーションを測定することにより定量化される。遺伝子発現をプロファイルすることにより、臓器および組織の発達、微生物感染、および腫瘍形成による転写変化をモニタリングすることができる。
【０００４】
バイオチップとしても知られるＤＮＡマイクロアレイは、ガラス表面上のモノマーヌクレオチドをリンクしてオリゴヌクレオチドを作ることによって作製できる。ポリメラーゼ連鎖反応（ＰＣＲ）産物および有機体遺伝子のアレイの作製に一般的な別の方法では、数千のＤＮＡ試料を表面にスポットするためのロボット器具が使用される。このように高スループットのアプローチを用いると、再現性および生産性が高まる。
【０００５】
アレイの作製では、９６〜１５００ウェルマイクロプレートからガラスマイクロスライド上の１００〜２００μｍスポットに１〜２ｎｌのＤＮＡ試料を移す。これは、ソリッドピンを使って１回スポットするか、「スプリット」ピンを使って複数回スポットすることにより達成される。出力は、ピン、入力マイクロプレート、および出力マイクロスライドの数により決定される。表面蛍光計などのマイクロアレイリーダーも、この式の一部である。大学の研究、小規模および大規模のバイオ製薬会社、および大規模臨床試験研究でマイクロアレイが使用されているため、これらの多様な需要を満たすためのさまざまな器具および統合システムが存在する。
【０００６】
Ａｆｆｙｍｅｔｒｉｘ社（カリフォルニア州サンタクララ）は、診断や薬剤開発産業を支援可能な大量生産方法を提供している。Ａｆｆｙｍｅｔｒｉｘ社が提供するＧｅｎｅＣｈｉｐ技術では、固相化学とフォトリソグラフィとを組み合わせてｉｎｓｉｔｕにプローブを作る所有権を有する方法により製造されたガラスマイクロアレイが使用される。ガラスウェハは、ハイブリダイゼーションが実行されるプラスチックカートリッジにパッケージングされる。いくつかのハードウェアコンポーネントが、ＧｅｎｅＣｈｉｐセットを形成する。ＧｅｎｅＣｈｉｐＦｌｕｉｄｉｃｓＳｔａｔｉｏｎ４００が、試料をプローブアレイカートリッジに導入する。ＨｙｂｒｉｄｉｚａｔｉｏｎＯｖｅｎ６４０は、最大６４個のカートリッジを処理する。ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ社は、Ａｆｆｙｍｅｔｒｉｘ社のマイクロアレイ専用に使用されるＧｅｎｅＡｒｒａｙスキャナ（モノクロ：２０μｍ解像度）を設計し、このスキャナは、ＧｅｎｅＣｈｉｐセットに組み込むために、Ａｆｆｙｍｅｔｒｉｘ社により販売されている。また、Ａｆｆｙｍｅｔｒｉｘ社は、データ収集、ＡＡＤＭ（商標）（「ＡｆｆｙｍｅｔｒｉｘＡｎａｌｙｓｉｓＤａｔａＭｏｄｅｌ」）データベースフォーマット、データマイニング、および電力多消費環境用のマルチユーザ実験情報管理システム（「ＬＩＩＭＳ」）システムの一連のソフトウェアソルーションを提供している。
【０００７】
今日のＤＮＡマイクロアレイ技術を用いれば、さまざまな薬理学的処置の後、またはさまざまな毒物学的損傷にさらされた後、さまざまな疾病状態にある間、どの遺伝子またはＳＮＰがオンまたはオフにされているかを示すための大量のデータを容易に収集できる。しかしながら、これらの技術を用いて収集可能なデータ量は非常に多いが、脈絡がない場合が多い。遺伝子データの関連性は、他の情報との関係により決定される場合が多い。例えば、ある病気の過程で特定遺伝子の発現が増大することが分かれば、その情報は重要な情報となる。さらに、このデータを、さまざまなタイプの臨床データ、例えば、患者の年齢、性別、体重、臨床発達段階、病気の進行段階などと相関する必要性がある。当分野で必要とされているものは、ＤＮＡマイクロアレイを用いて獲得可能な大量の遺伝子およびＳＮＰ発現データを、テストされる試料からの対応する臨床データと相関させることである。
【発明の開示】
【発明が解決しようとする課題】
【０００８】
上述した必要性を満たすために、本発明により、重大な臨床的所見を有するヒトおよび実験動物からの正常および病変の組織または細胞株を相関させて、ターゲットの選択および優先順位付けを可能にして、特定の病気のメカニズムの研究を実現する方法およびシステムが提供される。さらに、本発明により、ヒトおよび動物の組織または細胞株に処置用の化合物が及ぼす影響を検査する能力を利用するシステムおよび方法が提供される。遺伝子発現データを既知の処置および実験パラメータと比較することにより、処置用化合物の作用メカニズムと実験モデルシステムの特徴を容易に研究することができる。同様に、本発明により、前臨床環境と臨床環境の両方で組織および細胞に毒性のある化合物が及ぼす影響を検査できるシステムが提供される。
【課題を解決するための手段】
【０００９】
（発明の簡単な概要）
本発明の目的は、ＤＮＡマイクロアレイを用いて獲得可能な大量の遺伝子およびＳＮＰ発現データを、テストされる試料からの対応する臨床データと相関させるためのシステムおよび方法を提供することである。
【００１０】
本発明の別の目的は、ヒトおよび動物の組織または細胞株に処置用化合物が及ぼす影響を検査する能力を利用するシステムおよび方法を提供することである。
【００１１】
本発明の別の目的は、重大な臨床的所見を有するヒトおよび実験動物からの正常および病変の組織または細胞株を相関させて、ターゲットの選択および優先順位付けを可能にして、特定の病気のメカニズムの研究を実現する方法およびシステムを提供することである。
【発明を実施するための最良の形態】
【００１２】
マイクロアレイ技術により、大量の遺伝子発現データを生成できるようになる。これらの技術を効率的に用いるためには、大量の初期および誘導された（解析された）遺伝子発現データを管理および探究するためのメカニズムが必要である。さらに、試料プロファイルおよび遺伝子注解データの脈絡に設定される場合、情報の生物学的な意味を調べる価値が高められる。データのフォーマットと解釈は、基礎となる技術に多く依存する。したがって、遺伝子発現データを探究するためには、複数のプラットフォームにわたって、試料と遺伝子注解を有する遺伝子発現データを統合するためのメカニズムが必要である。本発明は、遺伝子発現および関連するデータを管理および探究するためのデータウェアハウス方法を用いる。
【００１３】
一般的に、本発明により、大量のデータを格納するためのデータウェアハウスを含み、効率的な遺伝子発現の探究および分析を支援する構造を備えたシステムが提供される。データウェアハウスは、正常組織と病変組織、実験的な動物モデルと細胞組織、およびさまざまな処置済みの状態と未処置の状態に関する定量的な遺伝子発現情報を含んでよい。また、データウェアハウスは、試料、臨床プロファイル、および豊富な遺伝子注解に関する広範囲にわたる情報を含んでもよい。
【００１４】
本発明の一実施形態において、データウェアハウスは、別々の試料、遺伝子注解、および遺伝子発現多次元データ空間としてモデリングされてよい。従来のオンライン分析処理（「ＯＬＡＰ」）の次元縮小および集約操作の観点から言えば、これらのデータ空間の基本的な動作は、複雑な遺伝子発現解析動作用に使用されてよい。データウェアハウス管理ツールは、データの一貫性を維持するために使用され、方法に特化した一貫性の法則が、データの移行および統合過程の正確な実行をチェックし、ドメインに特化した法則は、試料、発現、および遺伝子注解データを有効にする。本発明の一実施形態によれば、インターネットのサイトｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｇｅｎｂａｎｋで入手可能なＧｅｎＢａｎｋのパブリックドメインデータベースなどの別の遺伝子発現データベースからの遺伝子発現データに、一様な分析インタフェースを与えるための記録が使用されてよい。
【００１５】
本発明の一実施形態を簡潔に記載してきたが、本発明をより完全に理解できるように、基本的なデータウェアハウスの概念について記載する。しかしながら、読者は、本発明が本願明細書に提示される特定の詳細に限定されることなく実施されてよいことを理解されたい。
【００１６】
基本的なデータウェアハウスの概念
遺伝子発現データのデータ管理インフラストラクチャは、２つの主要な目的、すなわち、データの獲得とデータの解析を満たすものでなければならない。これらの目的を達成するのに必要とされるデータベース技術は、実質的に異なるものである。データの獲得は、オペレーショナルデータベースの従来のアプリケーションであり、迅速なコンテンツ置換とともに、実時間での迅速なデータ更新を支援する必要性を特徴とする。一般的に、オペレーショナルデータベースは、更新性能を最適化するようにデザインされたものである。オペレーショナルデータベースとは対照的に、データウェアハウスは、実時間ではなく周期的なコンテンツの蓄積とともに、大量のデータの迅速な探究を支援する必要性を特徴とする。データウェアハウスにある情報は、さまざまな、一般的に異種のソースからのものであるため、情報の統合を要する。一般的に、データウェアハウスは、より高速なデータアクセスとオンライン分析処理の照会性能を最適化するようにデザインされている。
【００１７】
データウェアハウスのコアには、ファクトオブジェクトと関連付けられた主要な測定属性があり、測定属性の値は、ウェアハウスを直接用いて解析されるか、またはＯＬＡＰメカニズムを介して分析される。ファクトオブジェクトは、異なる次元のオブジェクトの脈絡にモデリングされ、各次元は、１つ以上のカテゴリー属性により特徴付けられる。さらに、カテゴリー属性は、特殊化階層に体系化されてよい。データウェアハウスアプリケーションの典型的な一例として、特定の日に店舗で販売される製品が挙げられ、この場合、販売量は測定オブジェクトであり、製品、店舗、および日付は関連する次元であり、製品はカテゴリー（例えば、服、電子機器）により特徴付けられ、店舗は場所（例えば、都市、州）により特徴付けられ、日付は時間（例えば、年、月、日）により特徴付けられる。
【００１８】
データウェアハウスは、一般に、図１に示した例により示されるようなスターリレーショナルスキーマを用いて構造化され、同図において、各次元は、遺伝子テーブル１０４のようなテーブルにより表される。ファクトテーブルである発現テーブル１０２は、測定オブジェクトに関する主要な情報を含み、次元テーブル１０４、１０６、および１０８との関係を有する。スノーフレークスキーマは、より複雑な次元の構造を表すための補助テーブルを与えることにより、スタースキーマを拡張する。スノーフレークスキーマについては、図３を参照しながら以下にさらに記載する。
【００１９】
ＯＬＡＰアプリケーションは、要約などの集合関数を測定値に適応できる多次元データ空間としてデータウェアハウスを見なす。他のＯＬＡＰ動作は、（１）多次元空間上での射影（スライス）と、射影された次元にわたった範囲の選択（ダイス）とを組み合わせる、スライスアンドダイス動作としても知られる選択および射影の動作の組み合わせと、（２）ロールアップ動作としても知られ、所与の次元と関連付けられた分類階層の１つのレベルにわたったその次元における測定の集合動作（例えば、要約）と、（３）集合動作の逆のものである、ドリルダウン動作としても知られる分解動作とを含む。例えば、二次元空間（例えば、場所と日付）のデータを見るために、射影動作（スライス）を適用することができ、特定の日に販売された製品を見るために、選択動作（ダイス）を使用することができ、所与の製品カテゴリー（例えば、電子機器）の販売量を要約するために、集合動作を使用することができる。
【００２０】
製品の売上高などの比較的単純で正確な実際のファクトを表すデータを処理する従来のデータウェアハウスアプリケーションとは異なり、科学的データ一般、特に、遺伝子発現データは、複雑なものであり、不明確な現象を表す場合が多い。例えば、データを生成するために用いられる基礎となる科学的な方法の進展に反映して、データは時間の経過とともに変化することがあり、複雑な分析方法を用いて行う実験結果の解釈を表す場合が多い。
【００２１】
したがって、遺伝子発現データの複雑性により、３つのデータベース、すなわち、試料、断片インデックス、および遺伝子発現のデータベースに区分けされたデータのモデリングが必然的に伴う。当業者であれば、これらのデータベースは、基礎となる科学的な方法の進展に伴い、更新またはリフレッシュが必要となる場合があることを理解されよう。
【００２２】
遺伝子発現の探究解析システム
以下、いくつかの図面において同様の番号が同様の構成要素を表す図面を参照すると、本発明の態様が描写されている。図２および以下の記載は、本発明が実施されてよい適切な計算アーキテクチャを一般的に記載することを意図したものである。
【００２３】
図２を参照すると、データ管理システム（「ＤＭＳ」）２１０と、データウェアハウス（「ＤＷ」）２２０とを含む遺伝子発現データ管理インフラストラクチャが示されている。本発明の一実施形態によれば、ＤＭＳ２１０は、オペレーショナルデータベースと、データの獲得および生成データの管理をサポートする実験情報管理システム（「ＬＩＭＳ」）アプリケーションとを含む。
【００２４】
本発明の一実施形態によれば、ＤＷ２２０は、試料および遺伝子注解データと統合され、要約および補正された遺伝子発現データを含み、効率的なデータの探究およびマイニングを支援する。前述したように、ＤＷ２２０は、３つのデータベース、すなわち、試料データベース２２２と、断片インデックスデータベース２２４と、遺伝子発現データベース２２６とに区分けされてよい。
【００２５】
本発明の一実施形態によれば、遺伝子発現データは、ＡｆｆｙｍｅｔｒｉｘＣｏｒｐｏｒａｔｉｏｎ（カリフォルニア州サンタクララ）が販売するＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐプラットフォームを用いて生成されてよく、特定の分野と拡張性のあるＡｆｆｙｍｅｔｒｉｘＡｎａｌｙｓｉｓＤａｔａＭｏｄｅｌ（「ＡＡＤＭ」）リレーショナルフォーマットで表されてよい。ＡＡＤＭ表示において、遺伝子発現データ空間の方法には、２つの解析方法、すなわち、細胞の平均化とチップの解析が伴う。本発明の一実施形態によれば、細胞の平均化とチップの解析の結果は、２つのファクトテーブル、すなわち、ＭＥＡＳＵＲＥＭＥＮＴ＿ＥＬＥＭ＿ＲＥＳＵＬＴ（「ＭＥＲ」）と、ＡＢＳ＿ＧＥＮＥ＿ＥＸＰＲ＿ＲＥＳＵＬＴ（「ＡＧＥＲ」）テーブルのそれぞれに格納されてよい。ＤＷ２２０には大量のデータが含まれるため、両方のテーブルの管理に問題がある場合がある。例えば、あるヒト試料が、ＭＥＲテーブルに１２５万行、ＡＧＥＲテーブルの４万２千行になる５つの実験結果を伴うことがある。したがって、本発明によれば、ＡＧＥＲテーブルは、ＯＬＡＰのような多次元アレイを用いて探究されてよい。さらに、ＭＥＲテーブルは、区分けされ記録されてよい。読者は、プロトコルバージョン、解析ソフトウェア構造、および解析方法などの実験パラメータが、ＤＷ２２０に格納されてもよいことを理解されたい。
【００２６】
再度、図２を参照すると、マイクロアレイ実験により生成された生データファイルを格納するための記録２３０が与えられる。さらに、記録２３０は、ＭＥＲテーブルのプローブ対データに第３ストレージを与える。
【００２７】
本発明の一実施形態において、記録２３０は、多層ストレージシステムとして体系化されてよい。第１の層は、リレーショナルデータベースと、ネットワークファイルシステムを含み、データベースは、プローブ対データのコンテンツベースの高速検索を行うためのインデックスを維持するのに対して、ネットワークファイルシステムは、ＤＷ２２０にある試料のＣＥＬおよびＤＡＴファイルなどのプローブ対データおよび画像データを格納する。第２の層は、全てのデータファイルとともに、過程追跡データおよび中間データファイルなど、ＤＭＳ２１０により生成された全ての補助的なファイルを格納するニアライン光磁気ストレージシステムをベースにしている。データファイルの生成に関しては、ＤＭＳ２１０の詳細な記載を参照しながら、以下にさらに詳細に記載する。記録２３０の第３の層は、復元性および耐故障性を高める第２のオフラインバックアップストレージシステムである。
【００２８】
本発明の一実施形態によれば、ＤＷ２２０の試料、断片インデックス、および遺伝子発現データベース２２２、２２４、および２２６は、エクスプローラ２４０を用いて、集合的または個別に探究することができ、このエクスプローラは、遺伝子および試料セットの構築、遺伝子および試料セットの脈絡における遺伝子発現データの解析、およびユーザ作業環境２５０などの個々または集団解析作業環境の管理を支援する。
【００２９】
図２に示すように、多次元遺伝子発現行列（「ＧＸＭ」）を与え、ＤＭ２２０に格納されたコアデータに迅速にアクセスするために、実行時間データ表示２６０が与えられてもよい。多次元ＧＸＭは、遺伝子発現データを探究するために使用されてよく、基礎となる遺伝子発現技術プラットフォームから独立したデータ表示を与える。本発明の一実施形態において、データは、各試料／プローブ対の不在／存在コール、強度、および各試料に対して利用可能なチップを含んでよい。実行時間データ表示は、高性能の遺伝子発現解析を行うことを意図したシステムコンポーネントである実行時間エンジンの一部である。本発明の一実施形態において、実行時間エンジン２６０へのプログラミングアクセスは、基礎となる実行およびメモリモデルを反映するための低水準Ｃ＋＋ＡＰＩを介したものであってよい。さらに、遺伝子セットおよび試料セットなど、さまざまな高水準概念をサポートするために、高水準Ｃ＋＋ＡＰＩが使用されてもよく、これについては、以下でさらに詳細に記載する。さらに、高水準解析機能を実行するための追加のクラスおよび方法をサポートするために、高水準Ｃ＋＋ＡＰＩをベースにしたＩＤＬインタフェースが与えられてよい。
【００３０】
エクスプローラ２４０および実行時間エンジン２６０により支援される解析方法により、遺伝子発現データを操作するための効率的なメカニズムが得られる。図２の計算アーキテクチャの中間層は、追加の分析ツールを統合するためのある範囲のＡＰＩを支援する。ＡＰＩのリストは、遺伝子発現記録（ＧＸＡ）とのコールレベルインタフェースと、照会トランスレータ（データベース照会用のミドルウェア）と、ユーザ管理２３５、２３７、および２５５の作業環境ＡＰＩとを含む。
【００３１】
本発明の実施形態によれば、エクスプローラ２４０は、さまざまな解析方法およびツールに対応する。例えば、本発明による基本的な遺伝子発現解析動作の１つは、遺伝子シグネチャツールである。遺伝子シグネチャツールは、試料セットＳにわたって遺伝子セットＧから一貫して存在および不在の遺伝子を同定する。ＧおよびＳに関する遺伝子シグネチャの結果は、一対｛ＣＰＣ（Ｇ，Ｓ），ＣＡＧ（Ｇ，Ｓ）｝からなり、ここで、ＣＰＧは一貫して存在する遺伝子を表し、ＣＡＧは一貫して不在の遺伝子を表す。遺伝子シグネチャを計算するさいに、（カード（５）−ｋ）などの閾値が使用される場合が多く、ここで、カード（Ｓ）はセットＳの集合数を表し、ｋは１，２，．．．，ｎである。遺伝子シグネチャ差解析ツールが、２つの遺伝子シグネチャ解析の結果を比較し、４つの新しい断片セットを計算し、２つの遺伝子シグネチャ解析とは、第１の存在遺伝子セットと第２の不在遺伝子セットの両方における解析と、第１の不在遺伝子セットと第２の存在遺伝子セットの両方における解析と、両方の存在遺伝子セットにおける解析と、両方の不在遺伝子セットにおける解析である。
【００３２】
遺伝子シグネチャの精度は、試料セットのサイズに依存し、試料セットが大きいほど、個々の間で発現差のある遺伝子の排除が確保される。試料セットＳの遺伝子シグネチャは、任意の新しい試料をＳに追加することにより、ＣＰＧ（Ｇ，Ｓ）∪ＣＡＧ（Ｇ，Ｓ）が２．５％以下減少すれば正確であると見なされる。
【００３３】
ＣＰＧは、一貫して存在する遺伝子を表し、ＣＡＧは一貫して不在の遺伝子を表し、ＩＰＧは一貫せずに存在する遺伝子を表し、ＩＡＧは一貫せずに不在の遺伝子を表す。ＧをＤＷでモニタリングされる全遺伝子断片として、Ｓを試料セットとする。存在／不在コールは、Ｇの遺伝子を４つのグループＣＰＧ、ＩＰＧ、ＪＡＧ、ＣＡＧに順序付ける。シグネチャ解析が、以下のように、複数の試料セットＳｉ，．．．，Ｓｎに一般化されてよい。すなわち、以下の対により規定されるセットＳｉ対セットＳ２，．．．，Ｓｎの発現差のある遺伝子。
【００３４】
｛（ＣＰＧ（Ｇ，Ｓｉ）∩ＣＡＧ（Ｇ，Ｓ２）∩．．．∩ＣＡＧ（Ｇ，Ｓｎ）），
（ＣＡＧ（Ｇ，Ｓ１）∩ＣＰＧ（Ｇ，Ｓ２）∩．．．∩ＣＰＧ（Ｇ，Ｓｎ））｝。
【００３５】
以下の対により規定されるセットＳ１対セットＳ２，．．．，Ｓｎの固有の一貫して発現した遺伝子。
【００３６】
｛（ＣＰＧ（Ｇ，Ｓｉ）∩ＩＰＧ（Ｇ，Ｓ２）∩．．．∩ＩＰＧ（Ｇ，Ｓｎ）），
（ＣＡＧ（Ｇ，Ｓ１）∩ＩＡＧ（Ｇ，Ｓ２）∩．．．∩ＩＡＧ（Ｇ，Ｓｎ））｝。
【００３７】
以下の対により規定されるＳ１，．．．，Ｓｎの共通の一貫して発現した遺伝子。
【００３８】
｛（ＣＰＧ（Ｇ，Ｓｉ）∩．．．∩ＣＰＧ（Ｇ，Ｓｎ）），
（ＣＡＧ（Ｇ，Ｓｉ）∩．．．∩ＣＡＧ（Ｇ，Ｓｎ））｝。
【００３９】
以下の対により規定されるＳ１，．．．，Ｓｎの共通の一貫せずに発現した遺伝子。
【００４０】
｛（ＩＰＧ（Ｇ，Ｓ１）∩．．．∩ＩＰＧ（Ｇ，Ｓｎ）），
（ＩＡＧ（Ｇ，Ｓｉ）∩．．．∩ＩＡＧ（Ｇ，Ｓｎ））｝。
【００４１】
エクスプローラ２４０により支援される追加の遺伝子発現解析動作は、フォールド（折り畳み構造）の変化の解析と、試料セットの解析を含む。フォールドの変化の解析は、遺伝子セットＧの各遺伝子断片に対して、試料セットＳと制御試料セットとの間の平均ログ発現値の比を計算し、この分析の第１のステップには、試料次元上での遺伝子発現の平均化を伴う。試料セットの解析は、遺伝子が一貫して発現する試料セットＳにわたった遺伝子セットＧの各遺伝子に対して、発現レベルの範囲を計算する。この解析の第１のステップには、遺伝子セットからの全ての遺伝子が一貫して（存在または不在）発現する遺伝子である試料セットの試料の同定が伴う。
【００４２】
遺伝子および試料の照会は、試料セットおよび遺伝子セットの規定を支援する。遺伝子配列を照会することにより、ユーザは、遺伝子配列が、断片インデックスデータベース２２４にある遺伝子またはＥＳＴの任意のものと一致するかを決定することができる。
【００４３】
クラスタリングにより、発現プロファイルに基づいた類似した遺伝子または類似した試料群を同定することができる。このような公知の技術は、仮定を予想することなく、データセットの構造を知るために有用である。
【００４４】
電子ノーザンツール分析は、ＤＷ２２２に表示される全ての組織タイプにわたって、遺伝子およびＥＳＴの発現値の範囲を決定する。さらに詳しく言えば、ユーザ規定の遺伝子セットおよび１つ以上の試料セットが、断片が存在する全ての試料に対して、各試料セットにわたって遺伝子セットにある各遺伝子断片の発現レベルの範囲を報告するために使用される。この範囲は、ユーザにより特定される上位および下位百分位数レベルを用いて報告される。例えば、ユーザが、上位および下位百分位数レベルとして１００％と０％を選択すれば、分析は、全ての存在コールに対しての最大および最小の発現レベル範囲を報告する。
【００４５】
遺伝子発現データが特定の（例えば、代謝）経路または染色体細胞遺伝学的マップのフレームワークで表される経路および染色体マップなどの遺伝子注解の脈絡において、遺伝子発現探究の結果をさらに考察することができる。経路の視覚化では、経路に含まれる遺伝子または遺伝子産物の発現レベルを示すために、カラーバンドで蛍光マークが付けられた代謝または信号経路の部分を表すグラフが用いられる。このバンドは、別々の矩形に水平方向に分割されてよく、それぞれは、特定の試料の発現レベルに対応する。この代わりとして、経路の視覚化は、フォールドの変化の解析とともに使用されてよく、バンドの色はフォールドの変化値に対応する。
【００４６】
代謝経路において、部分は、ＥＣ数により同定されるものであってよい酵素活性を表す。酵素をコード化する強発現遺伝子および弱発現遺伝子は、それぞれ、暗い陰影と明るい陰影が付けられている。複数の遺伝子が、多数の異なるアルコールデヒドロゲナーゼなど、同じ活性をもつ酵素をコード化してよい。さらに、複数の断片が、同じ遺伝子を表してよい。基礎となる経路ダイヤグラムは、ｗｗｗ．ｇｅｎｏｍｅ．ｅｄ．ｊｐ／ｋｅｇｇで入手可能なＫＥＧＧなどのパブリックソースから得たものであってよい。経路の視覚化は、特定の試料セットおよび遺伝子セットに対して実行されてよい。遺伝子セットは、遺伝子シグネチャツール、遺伝子シグネチャ差またはフォールド変化解析ツールを用いて試料セットから間接的に計算されてよく、または直接選択されてよい。
【００４７】
また、遺伝子データ探究の結果は、マサチューセッツ州ケンブリッジのＳｐｏｔｆｉｒｅＣｏｒｐｏｒａｔｉｏｎにより市販されているＳｐｏｔｆｉｒｅなどの第三者ツールを用いて視覚的に検討することもでき、または、ワシントン州シアトルのＭａｔｈｓｏｆｔＣｏｒｐｏｒａｔｉｏｎにより市販されているＳ−ｐｌｕｓ、カリフォルニア州サンカルロスのＳｉｌｉｃｏｎＧｅｎｅｔｉｃｓのＧｅｎｅＳｐｒｉｎｇ、Ｐａｒｔｅｋなどの統計ツールを用いて解析用に出力保存することもできる。
【００４８】
当業者であれば、本発明をネットワーク環境で実行してよいことを理解するであろう。ネットワークは、当業者に公知のように（例えば、イーサネット、ＩＢＭトークンリングなどを用いて）、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、またはインターネットを含む従来の多数のネットワークシステムの任意のものであってよい。さらに、本発明は、ファイアウォールおよび／または暗号などのデータセキュリティシステムを使用してもよい。
【００４９】
本発明の実施形態による適切な計算アーキテクチャを簡単に記載してきたが、アーキテクチャのコンポーネントについてより詳細に記載する。
【００５０】
データウェアハウス
再度、図２を参照すると、データウェアハウス（ＤＷ）２２０は、非常に大量のデータを維持するために与えられ、効率的な遺伝子発現探究および解析を支援する構造を備えている。本発明の一実施形態において、ＤＷ２２０は、前章に記載した試料、遺伝子注解、および遺伝子発現データの空間を具体化する３つの部分からなるデータベースの統合体である。ＤＷ２２０には、データの一貫性および品質の検証を通過した後にデータが統合されるステージング領域から、試料、遺伝子注解、および発現データがロードされる。また、ステージング領域は、データがさまざまな変換を受けている間、ＤＷ２２０のデータソースとＤＷ２２０との間にバッファを与える一時的なデータベース（図示せず）を備えてもよい。
【００５１】
以下、図３を参照すると、本発明の一実施形態によるデータウェアハウス２２０が示されている。試料データベース２２２は、解析処理用の独立したデータ空間を形成する。試料データ空間２２２にあるファクトオブジェクトは、マイクロアレイ実験においてスクリーニングされる生物学的材料を表す生体試料である。
【００５２】
生体試料は、タイプと種を有する。生体試料のタイプは、組織、細胞株、処理済みＲＮＡなどであり、種特異的な（例えば、ヒト、動物）ドナーから生じるものである。本発明の一実施形態において、ヒトの生体試料は、エキスパート再評価により完全化された１つ以上のＱＣタイプまたはＱＣレコードに関連付けられる。病理ＱＣ再検討は、所与の組織に現れる正確な病理学的過程をドキュメント化する。画像ＱＣ再検討は、マイクロアレイチップのスキャンされた画像上に見受けられる任意の欠陥をドキュメント化する。ＱＣ再検討は、組織試料の全ての単一断片に実行される。
【００５３】
生体試料が、２つ以上のゲノム試料を生じるものであってよい。ゲノム試料は、生成実験室でスクリーニングされる実体である。ゲノム試料は、十分なＲＮＡを生じることができる量を与えるように、所与の試料からの２つ以上の断片に基づいたものであってよい。当業者であれば、マウスの臓器からの試料など、場合によっては、ゲノム試料を生成するために、いくつかの生体試料が必要になる場合があることを認識するであろう。生体試料が、ＲＮＡまたはＩＶＴタイプのものであれば、生体試料とゲノム試料との間に１対１の対応関係がある。
【００５４】
以下、図４を参照すると、例示的な試料属性が示されている。本発明の一実施形態によれば、試料の構造的および形態的特徴（例えば、組織部位、診断、病気、病気の段階など）、ドナーデータ（例えば、ヒトドナーの場合は人口学的および臨床的記録、または動物ドナーの場合は系統、遺伝的修正、および処置情報）など、遺伝子発現解析に有益な特性を記述する属性に試料が関連付けられてよい。また、試料は、さまざまな研究に関連するものであってもよいため、いくつかの時間／処理グループにグループ化することができる。さらに詳しく言えば、試料は、収集過程およびそれぞれの研究に依存するように、他の試料に関係付けられる。例えば、試料の関連性の収集過程のいくつかの既知の形態は、明確にマッチする試料、例えば、同一摘出物からの肝臓癌の試料と正常な肝臓の試料と、潜在的に関連性のある試料、例えば、共通する状態と何ら関係のない同一ドナーからの試料と、試料系列、例えば、病気の進行の初期、中期、後期段階からの試料などの順序付けられた試料セットと、時系列、例えば、１時間、６時間、および２４時間、それぞれ調剤で処置を施した後の同様のドナー群からの試料とを含む。
【００５５】
さらに、試料は、さまざまな研究により他の試料に関係付けられてよい。本発明により提供される１つのタイプの研究は、時間超過で試料／被験者の投与反応に関連付けられる毒物学研究である。ヒトまたは齧歯類動物などの被験者は、通常、複数の投与群に分けられ、複数の時間点で観察される。齧歯類動物の研究において、生体試料は、犠牲時間とともに、いくつかの時間点で取られてよい。したがって、研究は、特定の時間および投与量のグループにグループ化された多数の生体試料からなるものであってよい。グループは、ドナーグループまたは生体試料グループのいずれかとして見なされるものであってよい。
【００５６】
再度、図４を参照すると、さまざまなソースから試料が獲得され、試料情報を構造化し、異種のフォーマットでコード化してよい。フォーマットの差は、捕捉されたデータタイプから、解剖学的構造、診断、および薬物処置を表すために使用されるさまざまな統制された用語までに及ぶ。異なるソースから試料を捕捉するのを支援するために、試料データ空間は、試料データ空間の複雑性に応じて、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされる。図４は、試料空間をモデリングするためのスノーフレークスキーマを示す。試料カテゴリー属性は、試料組織および診断のそれぞれに対して、統制された用語、または医薬品の体系的命名法（「ＳＮＯＭＥＤ」）の構造および形態軸などの既存の分類法を用いて与えられる分類階層に組織化できる。
【００５７】
ＯＬＡＰのような操作は、さまざまな分類法に従って試料空間内を移動するために使用できる。例えば、図５を参照すると、特定の診断に対して生物学的試料５０２を解析するには、病理次元５０４の診断および射影の選択が伴う場合がある。さらに、本発明の一実施形態において、ドナーデータ５０６の分類が臓器・組織階層を使用する場合、組織のタイプに関して試料を要約することにより、組織のタイプで分類された試料の総数が得られ、さらに、臓器のタイプに関して要約することにより、臓器のタイプ（例えば、肝臓、脳）で分類された試料の総数が得られる。
【００５８】
本発明の一実施形態によれば、試料は、公開試料または非公開試料のいずれかとして分類されてよい。言い換えれば、試料は、試料およびそれから導出された遺伝子発現データの帰属の点で分類されてよい。帰属は、試料により生成されたデータへのアクセスを制限するために使用されてよい。例えば、試料は、情報へのアクセスを規定する提携、プロジェクト、および可視性の属性を含んでよい。例えば、試料からのデータは、情報を要求した全ての人または特定の提携者が見ることができるものであってよい。
【００５９】
以下、再度、図３を参照すると、試料データのような遺伝子断片データが、断片インデックスデータベース２２４として示す別のデータ空間として見なされてよい。断片インデックスデータベース２２４にあるファクトオブジェクトは、マイクロアレイを用いて検査される実体を表す遺伝子断片である。例えば、Ａｆｆｙｍｅｔｒｉｘチップの場合、遺伝子断片は、チップ上に配置されたオリゴヌクレオチドプローブを合成するために用いられるＤＮＡ配列を表す。遺伝子断片は、２つの主要な次元、すなわち、マイクロアレイデザインおよび生物学的注解にまたがって体系化される。
【００６０】
マイクロアレイデザインは、アレイ上での配列断片の配置を含むチップタイプデザインの物理的特徴を記述する。この情報は、マイクロアレイの製造業者により提供され、マイクロアレイ実験における信号を解釈するために使用される。遺伝子断片の生物学的注解は、Ｇｅｎｂａｎｋ、Ｕｎｉｇｅｎｅ配列クラスタのメンバー、ＬｏｃｕｓＬｉｎｋの既知の遺伝子との関連、および機能的および経路の特徴などの公開配列データベースにおける関連する一次配列入力を含む生物学的脈絡を決定することを含む。
【００６１】
当業者が認識するように、ＧｅｎＢａｎｋとは、国立衛生研究所（「ＮＩＨ」）の遺伝子配列データベースであり、インターネットのサイトｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｇｅｎｂａｎｋで入手可能な全て公開され入手可能なＤＮＡ配列の注解付きのコレクションである。さらに、ＵｎｉＧｅｎｅとは、ＧｅｎＢａｎｋの配列を遺伝子配向クラスタの非冗長セットに自動的に区分けするためのシステムであり、サイトｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖｆＵｎｉＧｅｎｅ／で入手可能である。最後に、ＬｏｃｕｓＬｉｎｋは、補正された配列および遺伝子座に関する記述的情報への単一の照会インタフェースを提供し、サイトｗｗｗ．ｌｏｃｕｓｌｉｎｋ．ｃｏｍで入手可能である。ＬｏｃｕｓＬｉｎｋは、公式の学名、別名、配列受入、表現型、ＥＣ数、ＭＩＭ数、ＵｎｉＧｅｎｅクラスタ、相同性、マップ位置、および関連するウェブサイトに関する情報を提供している。
【００６２】
再度、図３を参照すると、遺伝子断片注解は、さまざまな遺伝子データソースからの情報を統合することを含む。したがって、断片インデックスデータベース２２４は、図６に示す例により示されているように、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされてもよい。
【００６３】
断片インデックスデータベース２２４の１つの重要な態様は、記録された遺伝子注解の基礎となる科学の進展である。例えば、遺伝子断片と既知の遺伝子との関連性は、Ｕｎｉｇｅｎｅクラスタの進展や、ＬｏｃｕｓＬｉｎｋに記録された既知の遺伝子入力の補正により変化することがある。遺伝子データが進展すると、遺伝子発現データ解析の結果に影響を及ぼすことがあるため、その追跡が必須となる。しかしながら、遺伝子データ変化は、従来のデータウェアハウスにおける履歴データ変化とは異なるものであり、履歴データ変化は、通常、既知の明白なファクト（例えば、製品の価格）の変化を記録するのに対して、進展する遺伝子データ変化は、科学的なファクトに関して既知のものの変化を記録するものであることを、読者は認識されたい。したがって、遺伝子注解および遺伝子配列データ３０２および３０４の抽出、検証、およびＤＷ２２０への統合が必要なだけではなく、科学の進展を反映させるためにリフレッシュする必要がある。
【００６４】
ＯＬＡＰのような操作は、主に、生物学的注解次元に沿って断片インデックスデータベース２２４を移動するために使用することができる。例えば、代謝経路と関連付けられた遺伝子断片の検証には、代謝経路の選択および経路次元での射影が伴うことがある。さらに詳しく言えば、以下の階層、例えば、既知の遺伝子に対する種から染色体の階層を用いた遺伝子注解データの分類において、既知の遺伝子の遺伝断片を要約すると、それらと既知の遺伝子との関連性で分類された断片の総数が得られ、染色体に関してさらに要約すると、染色体で分類された遺伝子断片の総数が得られる。
【００６５】
再度、図３を参照すると、遺伝子注解および試料データのような遺伝子発現データが、遺伝子発現データベース２２６として示す別のデータ空間として見なされてもよい。遺伝子発現データは、メリーランド州ゲーサーズバーグのＧｅｎｅＬｏｇｉｃＣｏｒｐｏｒａｔｉｏｎにより市販されているＲＥＡＤＳ技術、およびテキサス州ヒューストンのＬａｒｋＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐｏｒａｔｉｏｎにより市販されているＱＰＣＲ技術を用いて生成されたデータを含んでよい。当業者は、異なるプラットフォームから生じた遺伝子発現データが、共通のデータフォーマットを用いるのではなく、独立して管理および構造化されてよいことを認識されたい。異なるプラットフォームを用いて生成された遺伝子発現データは、共通の試料（すなわち、異なる技術を用いて実行される試料）または共通の遺伝子を介して相関されてよい。
【００６６】
遺伝子発現データを探究するために使用される多次元ＧＸＡは、基礎となる遺伝子発現技術のプラットフォームから独立したデータ表現を与える。したがって、ＧＸＡは、ＧｅｎｅＣｈｉｐ、ＲＥＡＤＳ、ＱＰＣＲ、およびｃＤＮＡマイクロアレイプラットフォーム３１０、３１２、３１４、および３１６などのさまざまなプラットフォームを用いて生成された遺伝子発現データを一様に探究するために使用することができる。ＧＸＡは、上述した遺伝子発現動作を実行し、高度なデータマイニングアルゴリズムを統合するためのフレームワークを与える。
【００６７】
遺伝子発現データ空間２２６のファクトオブジェクトは、遺伝子発現値である。遺伝子発現データは、いくつかの粒度レベルで規定されてよい。スキャナなどの測定器具で生成されたデータは、最高レベルの粒度で規定される。解析プログラムが、データを量的な遺伝子発現測定値に変える。例えば、Ａｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐは、（ａ）ピクセル強度の平均化およびセルレベル強度の計算を行い、各セルがマイクロアレイ上の１つのプローブに対応したセル平均化ステップと、その後に行うステップである、（ｂ）マイクロアレイ上の各遺伝子またはＥＳＴ断片に対応する約２０個のプローブ対の強度を「要約」することにより、遺伝子発現値を生成するチップ解析ステップとを含む。ＧｅｎｅＣｈｉｐ発現値は、存在／不在（「ＰＡ」）コールと、絶対遺伝子発現測定値とからなる。ＱＰＣＲなどの別のプラットフォームは、参照試料に対する、遺伝子当たりおよび試料当たりの発現値を報告する。本発明により、異なるプラットフォームまたは解析方法で生成された遺伝子発現値の表示を支援する多次元構造が提供される。
【００６８】
遺伝子発現データ空間の４つの主要な次元は、遺伝子、試料、方法、および実験であり、遺伝子および試料により、遺伝子注解および試料データ空間２２４および２２２のそれぞれとの関係が得られる。遺伝子発現データ空間２２６は、図７に示す例により示されているように、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされる。
【００６９】
本発明の一実施形態において、実験次元は、遺伝子発現データを、チップロット、実験プロトコル、およびソフトウェアバージョンなどのパラメータにリンクする。これらのパラメータは、データ発現過程を指す。
【００７０】
方法次元は、ＧｅｎｅＣｈｉｐＰＡ値およびＧｅｎｅＣｈｉｐで生成された絶対遺伝子発現値など、異なる解析方法を用いて生成された、異なる遺伝子発現値をモデリングする。遺伝子発現値は、存在、不在、辺縁、または不明コールに分類することができる。
【００７１】
ＯＬＡＰオペレータの変形が、遺伝子発現データ空間２２６における基本的な演算を規定するために使用されてよく、これは、より複雑なデータ解析演算を規定するために使用することができる。
【００７２】
例えば、試料、遺伝子、および発現測定タイプからなる三次元の単純化された遺伝子発現データ空間において、遺伝子ｇおよび試料ｓの発現値を戻す評価関数ｖが規定されてよい。発現測定タイプＥが、Ｅ_ＰＡまたはＥ_Ａｂｓのいずれかであり、測定値が、存在ｐ、不在ａ、または辺縁／不明コールｍのいずれかであり、Ｅ_Ａｂｓ測定値が、絶対遺伝子発現値である場合、ｖ（ｇ，ｓ，ｐ）は、ｇがＥ_ＰＡにおいてｓに対して存在コールと関連付けられれば、「１」として規定され、そうでなければ、「０」として規定されてよく、ｖ（ｇ，ｓ，ａ）は、ｇがＥ_ＰＡにおいてｓに対して不在コールと関連付けられれば、「−１」として規定され、そうでなければ、「０」として規定されてよく、ｖ（ｇ，ｓ，ｘ）は、ｇがｓに存在すれば、「１」として規定され、ｇがｓに不在すれば、「−１」として規定され、どちらでもなければ、「０」として規定されてよく、ｖ（ｇ，ｓ，ａｂｓ）は、Ｅ_Ａｂｓにおいてｇおよびｓに対しての絶対遺伝子発現値として規定されてよい。
【００７３】
さらに、試料の選択は、ある一定のプロファイルをもつ試料セットを抽出するために、試料データ空間２２２で規定されてよい。例えば、試料セットは、喫煙歴をもたない４０〜６０歳の年齢群からの腺癌をもつ男性の結腸試料からなるものであってよい。
【００７４】
同様に、遺伝子の選択は、ある一定の特性をもつ遺伝子セットを抽出するために、遺伝子注解データ空間２２４で規定されてよい。例えば、遺伝子セットは、エストロゲン代謝経路に蛋白質の生成物が含まれた染色体２２の遺伝子からなるものであってよい。遺伝子および試料セットは、以下に記載する遺伝子発現動作において使用されてよい。
【００７５】
当業者であれば、任意の遺伝子および試料セットにわたって遺伝子発現データを解析することは、生物学的に意味がない場合があることを理解されたい。例えば、異なる種からの試料で遺伝子発現を解析することは、生物学的に意味のある結果を生じない場合がある。結果的に、遺伝子および試料の操作は、遺伝子発現解析の観点から、結果的に得られるセットの一貫性を確保するために、制約される必要がある。
【００７６】
さらに、当業者であれば、遺伝子発現の要約機能が、全試料および遺伝子セット次元または遺伝子セットおよび試料セットで規定でき、この場合、試料セットは試料選択を用いて特定され、遺伝子セットは遺伝子選択を用いて特定されたものであることを理解されたい。
【００７７】
試料次元での遺伝子発現の要約は、遺伝子セットにおける各遺伝子に対して、試料セットにおける試料にわたって遺伝子発現測定値を要約する。例えば、遺伝子セットＧおよび試料セットＳが与えられると、Ｓに関する遺伝子発現の要約により、Ｇにおける各遺伝子およびＥＰＡにおける各ｅに対して、発現要約σ（ｇ，ｅ，Ｓ）が得られる。要約σ（ｇ，ｅ，Ｓ）は、各対ｇおよびｅに対して、Ｓの全試料にわたる発現測定値の合計からなり、すなわち、σ（ｇ，ｅ，Ｓ）＝Ｓｕｍ［ｖ（ｇ，ｓ_ｉ，ｅ）｜Ｓにおけるｓ_ｉ］である。
【００７８】
遺伝子次元での遺伝子発現の要約は、試料セットにおける各試料に対して、遺伝子セットにおける全ての遺伝子にわたって遺伝子発現測定値を要約する。例えば、遺伝子セットＧおよび試料セットＳが与えられると、Ｇに関する遺伝子発現の要約により、Ｓにおける各試料およびＥＰＡにおけるｅに対して、発現要約σ（ｓ，ｅ，Ｇ）が得られる。要約σ（ｓ，ｅ，Ｇ）は、各対ｓおよびｅのＧの全遺伝子にわたる発現測定値の合計からなり、すなわち、σ（ｓ，ｅ，Ｓ）＝Ｓｕｍ［ｖ（ｇ_ｉ，ｓ，ｅ）｜Ｇにおけるｇ_ｉ］である。
【００７９】
試料次元における遺伝子発現の平均化は、遺伝子セットにおける各遺伝子に対して、試料セットにおける試料にわたって絶対遺伝子発現値を平均化する。例えば、遺伝子セットＧおよび試料セットＳが与えられると、Ｓ，Ｍ（Ｇ，Ｓ）での遺伝子発現値の平均化により、Ｇにおける各遺伝子ｇ_ｉに対して、平均発現値セットμ（ｇ_ｉ，Ｓ）が得られ、すなわち、Ｍ（Ｇ，Ｓ）＝｛μ（ｇ_ｉ，Ｓ）｜μ（ｇ_ｉ，Ｓ）ｍｅａｎ［ｖ（ｇ，ｓ_ｊ，ａｂｓ）Ｓにおけるｓ_ｊ］，Ｇにおけるｇ_ｉ｝である。
【００８０】
ＯＬＡＰオペレータの変形を用いていくつかの基本的な演算について簡潔に記載したが、より複雑なデータ解析演算が規定されてよい。さらに詳しく言えば、一貫して発現する遺伝子の演算は、試料セットにおいて一貫して存在する遺伝子および一貫して不在の遺伝子のセットを規定するために、遺伝子セットおよび試料セットにわたって規定されてよい。
【００８１】
例えば、所与の遺伝子セットＧおよび試料セットＳにおいて、Ｓにおける一貫して存在する遺伝子（「ＣＰＧ」）および一貫して不在の遺伝子（「ＣＡＧ」）のセットが、以下のように規定されてよい。すなわち、ＣＰＧ（Ｇ，Ｓ）＝｛ｇ_ｉ｜σ（ｇ_ｉ，ｐ，Ｓ）カード（Ｓ）およびＧにおけるｇ_ｉ｝；ＣＡＧ（Ｇ，Ｓ）＝｛ｇ_ｉ｜−σ（ｇ_ｉ，ａ，Ｓ）＝カード（Ｓ）およびＧにおけるｇ_ｉ｝である。
【００８２】
次いで、一貫せずに発現する遺伝子「（ＩＥＧ）」のセットは、以下のように規定されてよい：
ＩＥＧ（Ｇ，Ｓ）＝Ｇ−ＣＰＧ（Ｇ，Ｓ）−ＣＡＧ（Ｇ，Ｓ）。
【００８３】
当業者であれば、セットＣＰＧ（Ｇ，Ｓ）、ＣＡＧ（Ｇ，Ｓ）、およびＩＥＧ（Ｇ，Ｓ）は、試料セットＳにおいて遺伝子が発現する方法に対して、遺伝子Ｇのセットを区分けすることを認識されたい。言い換えれば概セットは、どの対も共通元を持たない。他の演算は、ＣＰＧ、ＣＡＧ、およびＩＥＧの演算を用いて規定することができ、特に、ＩＰＧ（Ｇ，Ｓ）は、Ｓにおいて一貫せずに存在する遺伝子を規定し、ＩＡＧ（Ｇ，Ｓ）は、Ｓにおいて一貫せずに不在の遺伝子を規定する。例えば、ＩＰＧ（Ｇ，Ｓ）＝ＩＥＧ（Ｇ，Ｓ）∪ＣＡＧ（Ｇ，Ｓ）；ＩＡＧ（Ｇ，Ｓ）＝ＩＥＧ（Ｇ，Ｓ）∪ＣＰＧ（Ｇ，Ｓ）である。
【００８４】
同様の演算は、所与の遺伝子セットからの遺伝子が、所与の試料セットに全て存在するか、または全ての不在かのいずれかである試料のサブセットを規定してよい。例えば、所与の遺伝子セットＧおよび試料セットＳにおいて、Ｇ遺伝子全てが、一貫して存在（「ＣＰＳ」）、一貫して不在（「ＣＡＳ」）、または一貫せずに発現（「ＩＥＳ」）するＳの試料のサブセットは、以下のように規定されてよい：
ＣＰＳ（Ｇ，Ｓ）＝｛ｓ_ｉ｜σ（ｓ_ｉ，ｐ，Ｇ）＝カード（Ｇ）およびＳにおけるｓ_ｉ｝；
ＣＡＳ（Ｇ，Ｓ）＝｛ｓ_ｉ｜−σ（ｓ_ｉ，ａ，Ｇ）＝カード（Ｇ）およびＳにおけるｓ_ｉ｝；および
ＩＥＳ（Ｇ，Ｓ）＝Ｓ−ＣＰＳ（Ｇ，Ｓ）−ＣＡＳ（Ｇ，Ｓ）。
【００８５】
本発明の一実施形態において、ＣＰＧ、ＣＡＧ、ＣＰＳ、およびＣＡＰの演算は、遺伝子が存在または不在のＳにおける試料の総数からの試料の最小数の点で、遺伝子発現の一貫性を規定するための追加の閾値Ｔを用いて変更されてよい。
【００８６】
さらに、遺伝子セットにおいて発現した遺伝子と、別の試料セットにおいて発現した遺伝子とを対比するために、導出された演算を使用することができる。例えば、所与の遺伝子セットＧおよび試料セットＳ１およびＳ２において、
セットＳ１対セットＳ２において発現差のある遺伝子の場合、
ＣＰＧ（Ｇ，Ｓ１）∩ＣＡＧ（Ｇ，Ｓ２）
は、Ｓ１の試料において一貫して存在し、Ｓ２の試料において一貫して不在のＧ遺伝子セットを規定し、
ＣＡＧ（Ｇ，Ｓ１）∩ＧＰＣ（Ｇ，Ｓ２）
は、Ｓ１の試料において一貫して不在し、Ｓ２の試料において一貫して存在するＧ遺伝子セットを規定し、
セットＳ１対セットＳ２において固有の一貫して存在する遺伝子の場合、
ＣＰＧ（Ｇ，Ｓ１）∩ＩＰＧ（Ｇ，Ｓ２）
は、Ｓ１の試料においてのみ一貫して存在する（すなわち、Ｓ２の試料において一貫して存在しない）Ｇ遺伝子セットを規定し、
ＣＡＧ（Ｇ，Ｓ１）∩ＩＡＧ（Ｇ，Ｓ２）
は、Ｓ１の試料においてのみ一貫して不在のＧ遺伝子セットを規定し、
Ｓ１およびＳ２において共通の一貫せずに発現する遺伝子の場合、
ＣＰＧ（Ｇ，Ｓ１）∩ＣＰＧ（Ｇ，Ｓ２）
は、Ｓ１の試料とＳ２の試料の両方において一貫して存在するＧ遺伝子セットを規定し、
ＣＡＧ（Ｇ，Ｓ１）∩ＣＡＧ（Ｇ，Ｓ２）
は、Ｓ１の試料およびＳ２の試料の両方において一貫して存在するＧ遺伝子セットを規定し、
Ｓ１およびＳ２において共通の一貫して発現する遺伝子の場合、
ＩＰＧ（Ｇ，Ｓ１）∩ＩＰＧ（Ｇ，Ｓ２）
は、Ｓ１の試料およびＳ２の試料の両方において一貫せずに発現するＧ遺伝子セットを規定し、
ＩＡＧ（Ｇ，Ｓ１）∩ＩＡＧ（Ｇ，Ｓ２）
は、Ｓ１の試料およびＳ２の試料の両方において一貫せずに存在するＧ遺伝子セットを規定する。
【００８７】
遺伝子と試料の相関演算は、遺伝子発現値タイプに関する遺伝子発現要約が、遺伝子発現データ空間２２６に適用された後、遺伝子セットおよび試料セットにわたって規定することができる。遺伝子の相関は、類似性、いわゆる距離の測定を用いて規定することができる。試料セットＳにわたった２つの遺伝子ｇ１およびｇ２の類似性は、Ｓの試料全てにわたる｜ｖ（ｓ，ｇ１，ｘ）−ｖ（ｓ，ｇ２，ｘ）｜の合計により測定される。したがって、Ｓの各試料ｓに対して、ｖ（ｓ，ｇ１，ｘ）＝ｖ（ｓ，ｇ２，ｘ）であれば、遺伝子ｇ１およびｇ２は、Ｓに同様に発現する。
【００８８】
当業者であれば、遺伝子と試料の相関は、それらの類似性に基づいて遺伝子および試料をグループ化またはクラスタリングするさいに使用することができることを認識されたい。
【００８９】
本発明の実施形態によるデータウェアハウス２２０について簡潔に記載してきたが、以下、データ管理システム２１０についてより詳細に記載する。
【００９０】
データ管理システム
本発明の一実施形態によれば、Ａｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐ技術およびＲＥＡＤＳ特性差発現プロファイリング技術を用いて、高スループット生産環境で、遺伝子発現データが生成されてよい。また、ＧｅｎｅＣｈｉｐとＲＥＡＤＳの結果を検証するために、ＱＰＣＲが使用されてもよい。
【００９１】
大規模なデータの処理には、大量のデータの獲得、体系化、管理、統合、および探究を行うためのデータ管理機能が必要である。図２は、データ管理システム（ＤＭＳ）２１０により管理されている外部データソースおよび格納部を含む、本発明の高水準アーキテクチャを示す。
【００９２】
本発明の一実施形態によれば、ＤＭＳ２１０は、データの獲得および生成データの管理を支援するオペレーショナルデータベースおよびＬＩＭＳアプリケーションを含む。
【００９３】
ＤＭＳ２１０は、データ入力、データ移送、および報告ツールを介して、さまざまな試料獲得および品質制御プロトコルに支援を提供する。システムは、データ収集中の一貫性を確保するために、ＳＮＯＭＥＤなど、ドメイン特有の用語および分類法を使用し、試料データ空間２２２と適合性のある構造を備えたデータベースにデータを記録する。
【００９４】
さらに、ＤＭＳ２１０は、ＧｅｎｅＬｏｇｉｃのＡｆｆｙｍｅｔｒｉｘベースの遺伝子発現生成およびＡｆｆｙｍｅｔｒｉｘ社のＧｅｎｅＣｈｉｐＬＩＭＳとのシームレス統合の高スループットに対する支援を提供する。
【００９５】
ＤＭＳ２１０は、遺伝子発現実験、ＱＣ／ＱＡ、および過程データを管理する。本発明の一実施形態において、Ａｆｆｙｍｅｔｒｉｘ専有のフォーマットのファイルに、ＧｅｎｅＣｈｉｐシステムにより生成された遺伝子発現実験データが与えられ、すなわち、（ａ）スキャンされたマイクロアレイのバイナリ画像がＤＡＴに含まれ、（ｂ）ＤＡＴファイルは、マイクロアレイ上のプローブの平均強度を生成するセル平均化解析演算を用いて、ＣＥＬファイルに変換され、および（ｃ）ＣＥＬファイルは、マイクロアレイにプローブされた遺伝子断片の発現値を生成するチップ解析演算により、ＣＨＰファイルに変換される。最後に、ＧｅｎｅＣｈｉｐＬＩＭＳは、ＣＥＬおよびＣＨＰファイルおよび過程データを、ＡＡＤＭスキーマに基づいてリレーショナル表現にする出版演算をサポートし、それを一時的なデータベースに格納する。
【００９６】
ＤＭＳ２１０は、試料データ管理システムをＧｅｎｅＣｈｉｐＬＩＭＳおよびチップＱＣモジュールとシームレスに統合するため、コンポーネントデータ管理システム間のデータの一貫性および効率的なデータフローを確保する。チップＱＣコンポーネントは、画像ソフトウェアとマニュアルの視覚解析の両方を用いてチップ画像の欠陥を検出し、これらの欠陥により影響を受けるプローブをマスキングするために使用される。さらに、ＤＭＳ２１０は、複数のＧｅｎｅＣｈｉｐＬＩＭＳシステムを介して並列出版を行うサポートを提供することにより、データの生成速度を加速させる。
【００９７】
さらに図２を参照すると、本発明の一実施形態によれば、ＤＭＳ２１０は、ＧｅｎｅＣｈｉｐＬＩＭＳにより生成されたデータの方向付けを以下のように行う。すなわち、ＤＡＴ、ＣＥＬ、ＣＨＰファイルが記録２３０に送信され、必要なデータ統合、変換、有効化、および補正がデータをＤＷ２２０にロードする前に実行されるＤＷ２２０ステージングに、リレーショナルＡＡＤＭフォーマットの遺伝子発現データおよびＱＣデータが転送される。例えば、本発明の一実施形態によれば、一貫性のチェックは、ファイル名を試料名にマッチさせること、ファイル名をアレイタイプにマッチさせること、複製データを防止すること、ＳＮＯＭＥＤなどの統制用語に対して組織タイプをチェックすること、ＣＨＰファイルが正確な遺伝子リストを含むことをチェックすること、セル数が正確であることをチェックすること、関連するデータが含まれないことをチェックすることを含んでよい。
【００９８】
ＲＥＡＤＳおよびＱＰＣＲ遺伝子発現データのデータ管理は、ＧｅｎｅＬｏｇｉｃ社が所有権を有するシステムにより与えられてよい。ＲＥＡＤＳおよびＱＰＣＲデータは、高水準オブジェクトモデルで表現され、リレーショナルデータベースに格納される。また、リレーショナルフォーマットのデータが、ＣｅｎｅＣｈｉｐデータと同様の方法で取り扱われるＤＷ２２０ステージング領域に転送される間、ＲＥＡＤＳおよびＱＰＣＲファイルが記録される。
【００９９】
本発明の２，３の特異的な実施形態を記載してきたが、本発明は、特許請求の範囲に記載されるような本発明の趣旨または範囲から逸脱することなく、多数の他の特定の形態で実施されてよいことを理解されたい。
【０１００】
本発明は、遺伝子発現データの探究およびマイニングを支援するために体系化された少なくとも３つのデータベースの統合を含む、生物学的情報の格納および検索用のリレーショナルデータベースに関する。少なくとも３つのデータベースは、（１）さまざまなアッセイを用いてスクリーニングされた組織および細胞株（以下、これら両方を生体試料と呼ぶ）の量的な遺伝子発現測定値を格納する遺伝子発現データベースと、（２）生体試料およびドナーに関する情報を格納する臨床データベースと、（３）全断片（全長遺伝子およびＥＳＴ）の生物学的特性（注解）の包括的データベースである断片インデックスとを含む。
【０１０１】
本発明の好適な実施形態において、組織および細胞株から量的な遺伝子発現測定値を格納するための遺伝子発現データベースは、Ａｆｆｙｍｅｔｒｉｘのヒト、ラット、およびマウスのマイクロアレイを用いてスクリーニングされる。遺伝子発現データベースにおける情報は、所定の品質制御基準および機能的な規定に見合うように体系化されることが好ましいことを認識されたい。
【０１０２】
本発明の好適な実施形態において、臨床データベースに格納された生体試料特有の情報は、病理、診断、発生および処置事実を含む。ドナー情報は、ドナーの人口統計情報、ヒトドナーの場合は臨床履歴、および動物モデルの場合は実験テストを含む。ＳＮＯＭＥＤなどの確立された学名と適合する規格化された用語を用いて、臨床データが記録される。
【０１０３】
本発明の好適な実施形態において、断片インデックスは、Ａｆｆｙｍｅｔｒｉｘ社の遺伝子発現マイクロアレイ上の全断片（全長遺伝子およびＥＳＴ）の生物学的特性（注解）の包括的データベースである。断片注解は、公式ＨＵＧＯ学名の遺伝子との関連性と、公開データベースの関連する入力とのリンクと、公開データベースから検索および要約された表現型、構造、機能、および経路の情報を含むことが好ましい。
【０１０４】
本発明の生物学的情報の格納および検索用のリレーショナルデータベースの主要な目的は、遺伝子発現への包括的なアクセスおよび生物学的解析のサポートを提供することである。本発明のアーキテクチャにおいて、これらの目的は、本発明のリレーショナルデータベースが提供する照会能力とともに、データベースの生物学的に重要なオンライン解析プロセッサを支援するアプリケーションサーバにより達成される。生物学的に重要なオンライン解析プロセッサは、生物学的情報の格納および検索用のリレーショナルデータベースにあるデータの大規模遺伝子発現解析を検証して、有機体の生理機能の機能的な状態を特徴付ける遺伝子発現パターンを明らかにする。アプリケーションサーバにより支援される演算は、フィルタリング、クラスタリング、要約、比較、遺伝子発現データの経路へのマッピングを含む。
【０１０５】
アプリケーションサーバを含む生物学的情報の格納および検索用のリレーショナルデータベースの機能性は、リレーショナルデータベース・ユーザインタフェースを介してユーザに与えられる。本発明の好適な実施形態において、リレーショナルデータベース・ユーザインタフェースは、２つのフォーマットで与えられ、第１のフォーマットは、ウェブアプリケーションであり、第２のフォーマットは、Ｊａｖａクライアントアプリケーションである。
【０１０６】
生物学的情報の格納および検索用のリレーショナルデータベースと、アプリケーションサーバと、クライアント側ユーザインタフェースと、ユーザの作業環境データ空間は、遺伝子発現データおよび解析に対して３層アーキテクチャを規定することが好ましい。好適な実施形態において、このシステムは、記録、すなわち、生物学的情報の格納および検索用のリレーショナルデータベースに、実験のデータファイルおよび全実験のデータを格納する外部ファイルシステムと統合される。
【０１０７】
生物学的情報の格納および検索用のリレーショナルデータベースは、ゲノム解析生産パイプラインにより発生する遺伝子発現データリポジトリ（貯蔵所）である。リレーショナルデータベース管理システムとは、生産パイプラインのデータフローを支援するバックボーンデータ管理インフラストラクチャである。リレーショナルデータベース管理システムは、主要なコンポーネントが明確に規定されたプロトコルを含むソフトウェアモジュールによりインタフェースされた複雑な分散型の異種システムである。
【０１０８】
主要コンポーネント、好ましくは、リレーショナルデータベース管理システムの主要コンポーネントは、（１）リレーショナルデータベース管理システムと、（２）ゲノム解析生産試料追跡システムと、（３）実験ファイルを生成する過程をドキュメント化するアプリケーションと、（４）実験ファイルをリレーショナル表現にするソフトウェアモジュールと、（５）欠陥検査ソフトウェアモジュールである。
【０１０９】
本発明の好適な実施形態において、組織リポジトリ情報管理システムは、生体リポジトリの生産サイクルを支援する情報システムであり、この支援は、生体試料の受入および目録の管理、病理判定および臨床データの入力、および生物学的情報の格納および検索用のリレーショナルデータベースへの臨床データの出力保存とを含む。
【０１１０】
本発明の好適な実施形態において、ゲノム解析生産試料追跡システムは、生産パイプラインに沿った試料の移動に伴い試料を追跡するスプレッドシートの集合体からなる。本発明の別の好適な実施形態において、実験ファイルを生成する過程をドキュメント化するアプリケーションは、各実験に対して、ＤＡＴ、ＣＥＬ、およびＣＨＰファイルに関係する。このような過程のドキュメント化は、Ａｆｆｙｍｅｔｒｉｘ社のデータベースに格納されることが好ましい。このアプリケーションは、データ入力オーバヘッドを最小限に抑える。
【０１１１】
本発明の好適な実施形態において、実験ファイルをリレーショナル表現にするソフトウェアモジュールは、いくつかの並列出版エンジンをサポートし、生産の標準的な操作手順および出版過程がうまく実行されたことを確証するために、一連の一貫性チェックも実行する。また、このソフトウェアモジュールは、個々のデータベースをテキストファイルに（テーブルごとに）打ち出し、それらをステージングＵＮＩＸサーバの指定領域に転送することが好ましい。
【０１１２】
本発明の別の好適な実施形態において、欠陥検査モジュールは、生成された発現データの品質に影響を与える欠陥がないか、チップ画像（ＤＡＴファイル）が検査される半自動工程である。この工程の結果は、１回の実験につき１度の品質制御報告であり、ステージングＵＮＩＸサーバにも移送される。
【０１１３】
これらのデータストリームの全体は、リレーショナルデータベース管理システムと、生物学的情報の格納および検索用のリレーショナルデータベースとの間のインタフェースを規定する。さらに詳しく言えば、これら全てのデータストリームは、ウェアハウス構築過程が起こるステージング領域、すなわち、データの有効化、変換、および統合に入れられる。
【０１１４】
さまざまなデータソースからステージングへのデータの移送は、データ移送プロトコルにより制御される。本発明の好適な実施形態において、これらのデータ移送プロトコルは、発現データ移送プロトコルと、臨床データの組織リポジトリ情報管理システムと、チップ欠陥移送プロトコルとを含む。
【０１１５】
発現データ移送プロトコルは、電子メール報告によりドキュメント化されたデイリー出版と、ＴＸＴファイル（各遺伝子発現データテーブルにつき１つ）およびＬＳＴファイルへ打ち出すことによるデータの出版（出版エンジンにつき）と、ＴＸＴファイルの行数の確認、ｆｔｐ工程によるプレステージング（ＵＮＩＸサーバ上の着信ディレクトリ）へのファイルのコピーと、ｆｔｐ工程の完了時にｆｔｐ工程が済んだことを、出版オペレータがステージングＤＢＡに通知することと、ステージングＤＢＡによるファイルの行数の確認と、生物学的情報の格納および検索用のリレーショナルデータベースにロード報告の電子メールを送信して完了されるステージングへのロードと、ロード時間から１日（２４時間）でプロトコルトリガーをステージングすることとを含むことが好ましい。
【０１１６】
本発明の好適な実施形態では、データの統合、すなわち、並列および個別の出版過程により生成した実験データをまとめるプロセスが利用される。高スループット要求を満たし、異なる設備で実験データファイルを生成できるようにするために、出版の並列処理が導入される。
【０１１７】
このようなデータ統合は、ＡＡＤＭ出版データをスキャンおよび有効化し、連続した順序で並列出版過程により生成された識別子を調節する働きをする。このようなデータ統合は、プロセスに特化した有効化法則がシステムにより追加および強化可能であるという意味で、拡張可能なものである。
【０１１８】
本発明の別の好適な実施形態において、遺伝子発現統合が与えられる。遺伝子発現統合とは、実験データと、臨床および公開遺伝子データ（断片インデックス）との統合を指す。遺伝子発現統合は、ステージングデータベースで実行されるタスクである。
【０１１９】
本発明は、データベーススキーマによりさらに特徴付けられる。このスキーマそのものは、４つの関連するサブスキーマ、すなわち、（１）プローブアレイデザインと、（２）実験セットアップと、（３）解析結果と、（４）プロトコルパラメータとに分割できることが好ましい。
【０１２０】
プローブアレイデザインに関して、スキーマのこの部分は、プローブのアレイの物理的および生物学的デザインを記述するデータを保有する。このサブスキーマの最重要部分は、生物学的アイテム（遺伝子断片）と特定のプローブアレイタイプにおけるブロックとの関連性である。プローブアレイタイプは、ＰＲＯＢＥ＿ＡＲＲＡＹ＿ＤＥＳＩＧＮテーブルに記録される。ＰＲＯＢＥ＿ＡＲＲＡＹ＿ＤＥＳＩＧＮインスタンスは、発現チップタイプの物理的レイアウトを記述する。ＰＲＯＢＥＡＲＲＡＹ＿ＤＥＳＩＧＮは、ＳＣＨＥＭＥ＿ＵＮＩＴエンティティとのＡＮＡＬＹＳＩＳ＿ＳＣＨＥＭＥ関係により関係付けられる。しかしながら、データ統合の一般的なデザインの目標は、物理的デザインと論理的デザインとの間に１対１の関係が存在する発現プローブアレイの場合、いくつかの「論理的な」デザインを物理的なチップデザインに取り付けることができることである。これは、ＳＣＨＥＭＥ＿ＵＮＩＴＳとＳＣＨＥＭＥ＿ＢＬＯＣＫＳとの間の１対１の対応ということになる。各ブロックが、単一の遺伝子断片を質問する。ブロック単位が原子に分割される。遺伝子発現プローブアレイにおいて、原子は２つのセルからなる。各セルは、２５−ｍｅｒオリゴヌクレオチドプローブに対応する。遺伝子断片を表すブロックは、約２０のプローブ対からなり、各プローブ対は、完全なマッチとミスマッチのプローブセルを有する原子に対応する。
【０１２１】
ＡＡＤＭプローブアレイデザインサブスキーマは、任意の遺伝子発現探究の照会に使用されない／不要な部分を含む。このサブスキーマの意図は、さまざまなＡｆｙｍｅｔｒｉｘ社のプローブアレイデザインを保有することであるため、プローブの強度を生物学的アイテムと関係付けるために、Ａｆｆｙｍｅｔｒｉｘ社の解析ソフトウェアが使用される。
【０１２２】
実験セットアップサブスキーマは、任意の遺伝子発現実験において使用されたプローブアレイと適用されたターゲットに関する情報を保有する。ＥＸＰＥＲＩＭＥＮＴとは、物理的チップとターゲットが「つながれる」間のイベントである。ターゲットがチップに適用されると、チップのプローブがターゲットの遺伝子領域をハイブリダイズする。チップ表面は、ハイブリダイゼーションの結果が永久的に印刷されるＤＡＴファイルを生成するためにスキャンされる。引き続いて、ＤＡＴファイルは、有益な生物学的データを抽出するために解析される。実験は、プロトコルにより制御される。プロトコルは、実験を行う方法を指示し、実験中の環境条件に関する管理情報およびデータを捕捉する。データベースは、実験ごとに記録（またはオブジェクト）を捕捉することにより、実験結果と、ターゲットに処理された組織と、その結果得られたデータセット（ＤＡＴを介して）との間に関連性をもたせることができる。
【０１２３】
ＴＡＲＧＥＴは、生体試料から準備されるため、実験と試料特異的な情報との間をつなげる実体である。このようなＡＡＤＭにおける関連性は、ターゲットを記述するために１つのパラメータしか支援しないため、非常に制限的なものであり、これは、ＴＡＲＧＥＴ＿ＴＹＰＥである。
【０１２４】
ＰＨＹＳＩＣＡＬ＿ＰＲＯＢＥ＿ＡＲＲＡＹ（チップ）は、ハイブリダイゼーションおよびスキャン実験を実行するために使用される物理的装置である。物理的チップは、シリアル番号により識別され、特定のプローブアレイデザインに属し、使用期限がある。
【０１２５】
解析結果サブスキーマは、セル平均化、絶対遺伝子発現および比較遺伝子発現解析を含むさまざまな解析からの結果を格納する。セル平均化および絶対遺伝子発現解析のみを使用することが好ましい。
【０１２６】
解析プロセスは、以下のように進む。ハイブリダイゼーション／スキャン実験が、ＤＡＴファイルと呼ぶ画像ファイルを生成する。ＤＡＴファイルが解析され、その量的表現、すなわち、ＣＥＬファイルが生成される。この解析をセル解析と呼ぶ。セル解析は、第１に、画像のセル（プローブに対応）を分離するようにグリッドを合わせ、第２に、セルにある全てのピクセルに対して平均強度値を計算する。ＡＡＤＭにおいて、セル解析の結果は、ＭＥＡＳＵＲＥＭＥＮＴ＿ＥＬＥＭＥＮＴ＿ＲＥＳＵＬＴテーブル（短縮してＭＥＲ）に格納される。チップ解析と呼ばれる次の解析ステップが、ＣＥＬファイル上で「発現コーリング」を実行する。このプロセスの結果は、平均強度および存在／不在（Ｐ／Ａ）コールを含むチップ上の全ての遺伝子断片の遺伝子発現の断定である。チップ解析の結果は、ＡＢＳＧＥＮＥ＿ＥＸＰＲ＿ＲＥＳＵＬＴＳテーブル（短縮してＡＧＥＲ）に格納される。スキーマのＡＮＡＬＹＳＩＳテーブルは、実行される任意の解析の解析記録を格納する。解析記録は、解析ＩＤ（キー）で識別され、例えば、解析用に使用されるプロトコル、解析スキーム（およびチップタイプ）、アルゴリズム、分析者、および解析が実行されたデータセットに関係する。
【０１２７】
解析に対する入力データセットは、ＡＮＡＬＹＳＩＳ＿ＤＡＴＡ＿ＳＥＴテーブルに記録される。データセットは、データセットの集合体にグループ化される。ＡＡＤＭは、解析間で多数対多数の関係をモデリングしないように、ＡＮＡＬＹＳＩＳ＿ＤＡＴＡ＿ＳＥＴ＿ＣＯＬＬＥＣＴＩＯＮテーブルを使用し、解析データセットＡＮＡＬＹＳＩＳ＿ＤＡＴＡ＿ＳＥＴは、解析の各タイプ、すなわち、セル解析およびチップ解析の記録を格納する。セル解析において、入力データセットは、実験（ＤＡＴファイル）である。チップ解析において、入力データセットは、解析である。プロトコルパラメータに関して、このサブスキーマは、実験セットアップと、ハイブリダイゼーション実験と、セルおよびチップの解析の間に捕捉されたパラメータを含む。このサブスキーマのデータは、データ生成プロセスの追跡を望む生産および高品質制御グループにとって必須のものである。また、生物学的情報の格納および検索用のリレーショナルデータベースは、発現データを意味のある比較可能なサブセットに区分けするために、生産標準操作手順のバージョンなど、ある一定のプロトコルパラメータの値を使用する。
【０１２８】
特に好適な実施形態において、本発明により、ステージングデータベースが提供される。このステージングデータベースは、いくつかのウェアハウス構築プロセスが起こる領域である。ステージングデータベースは、ＵＮＩＸサーバ上で稼動するＯｒａｃｌｅデータベースであることが好ましく、いくつかのｆｔｐ工程がデータ管理ツールにより発生したデータを預けるプレステージング領域としても機能する。
【０１２９】
このようなステージングデータベースを利用するさい、ステージングプロトコルを実行することが好ましい。このようなステージングプロトコルにおいて、ステージングの発現データが処理され変換される。ステージングプロトコルは、プレステージングからステージングデータベースに発現データがロードされるたびに実行されるステップのルーチンである。ステージングプロトコルは、出版ＳＯＰバージョン３．０に規定されている学名に従って発現実験に名前を付けることを想定している。有効な実験名は、１３文字長ストリングｎｎｎｎｎｃｃｃｃｃｃｃｓｒであることが好ましい。
【表１】

【０１３０】
ステージングデータベースにより、上述していない他の特定の実施形態を管理することができるようになる。例えば、ステージングを介した実験の通路は、ＧＬＧＣ＿ＥＸＰＥＲＩＭＥＮＴテーブルを用いて追跡できる。ステージングプロトコルがとるステップは、生産が１つのチップにつきシングルスキャンまたはダブルスキャンのいずれを行うかに左右される。ダブルスキャンの場合、ステージングプロトコルは、スキャンを第一と第二に分類し、第二の発現存在／不在コールを第一に統合し、第一をウェアハウスに移送する。
【０１３１】
ステージングプロトコルの別のオプションのステップは、このプロセス中に生成されるプローブ対のタイプに依存する。１つ目のオプションは、プローブレベルのセル強度と、１つのＡｆｆｙｍｅｔｒｉｘ遺伝子断片につき全てのプローブの要約された発現コールとを含む「要約された」プローブ対データを生成することである。２つ目のオプションは、実験ごとのプローブのセル強度を別のカンマで区切られたテキストファイルに単純に格納することである。ステージングプロトコルのステップは、（１）ステージングデータベースを出力保存およびバックアップすることと、（２）着信ディレクトリにあるデータファイルの一貫性をチェックすることと、（３）データをデータ統合テーブルにロードすることと、（４）ＧＬＧＣ＿ＥＸＰＥＲＩＭＥＮＴテーブルを更新することと、（５）複数のスキャンで実験のランク（第一／第二）を計算することと、（６）第一と第二の実験を統合することと、（７）第一実験データをリレーショナルデータベースに移送することと、（８）「要約された」プローブ対データを生成することと、（９）移送されたデータを削除することと、（１０）ステージングの活動に関する統計を生成することと、（１１）ステージングデータベースを出力保存およびバックアップすることである。ステップ１、２、３、４、７、９、１０および１１は強制である。ステップ５および６は、ダブルスキャンの状況をさす。ステップ８は、「要約された」プローブ対データが計算される場合のみ適用され、計算されなければ、ステップ２において、プレーンプローブ対データが生成される。
【０１３２】
リレーショナルデータベースに移送された実験データは、遺伝子断片あたりの要約された発現コール、すなわちＡＧＥＲテーブルであり、プローブ強度、すなわちＭＥＲテーブルではない。プローブ強度は、実験名の名前が付けられたテキストファイルに格納され、記録に向けられる。
【０１３３】
ステージングデータベースの別の重要な機能は、発現データの統合であり、すなわち、発現データを臨床データベースおよび断片インデックスとリンクさせることである。これらのデータは、リレーショナルデータベースに物理的に「まとめられる」ことになるが、ステージングデータベースは、この能力を付加する。さらに詳しく言えば、臨床データに関して、実験名を復号化し、それからゲノム解析試料番号を抽出する。この番号は、生体リポジトリＩＤに関連付けられており、したがって、生産追跡システムにより出力保存されたＢＩＯ＿２＿ＧＥＮを介して、試料および臨床情報に関連付けられている。テーブルＧＬＧＣ＿ＥＸＰＥＲＩＭＥＮＴは、この実験に対して実行されるセル解析とチップ解析の両方のＡＮＡＬＹＳＩＳ＿ＩＤにゲノム解析番号を関連付けた後、参照完全性制約により、対応するデータ記録がＡＧＥＲおよびＭＥＲテーブルに存在することが確保される。ＭＥＲテーブルに対する制約は、ＭＥＲデータが利用不可であるため、ＧＸＤＢにおいて無効である。
【０１３４】
断片インデックスの統合は、リレーショナルデータベースにおいて直接行われるタスクである。断片インデックスは、デザインにより、ＡＡＤＭのＢＩＯＬＯＧＩＣＡＬ＿ＩＴＥＭテーブルのアイテムとまったく同じ順序で、遺伝子断片リストａ．ｋ．ａアイテムを維持する。ＡＧＥＲから断片インデックスＡＦＦＹ＿ＩＴＥＭテーブルへ異種キーを追加することにより、統合が与えられる。
【０１３５】
さらなる統合タスクは、実験データからのチップ上の欠陥遺伝子断片のマスキングと、試料完了制約の強化とを含む。チップ品質制御は、セルおよびチップの解析に取り込まれてはならないスキャンされた画像にある欠陥スポットを同定する。品質制御プロセスは、プレステージ領域に移送されたファイルにおいて、画像欠陥により影響を受けた実験ごとの遺伝子断片を報告する。これらのファイルは、存在／不在（Ｐ／Ａ）コールを不明（Ｕ）にすることにより、発現データポイントをマスクアウトするために使用される。古いＰ／Ａコールは保存され、品質制御報告が再び戻ってきたときにいつでも回復させることができる。
【０１３６】
ヒト４２Ｋセットなどのセットにグループ化されたチップを用いて作業するには、同じゲノム試料をいくつかのチップ上で使う必要がある。各試料に対して４２Ｋ発現データポイントのベクトルを完了するために、全５チップからのデータが、データベースに存在する必要がある。完全な発現ベクトルを作るために、試料ごとに全てのチップを獲得するプロセスを、試料完了と呼ぶ。本発明のアーキテクチャの好適な実施形態により、ステージング、リレーショナルデータベースで試料完了を強化することができるようになる。
【０１３７】
本発明の好適な実施形態において、ロード中、データの一貫性がチェックされる。適用されることが好ましい一貫性の法則は、プレステージングへの移送前に出版するさいにチェックされる法則のサブセットである。以下の法則は、実験／チップごとに適用されることが好ましい。
【表２】

【０１３８】
本発明の別の好適な実施形態において、ステージングデータベースは、ＳＱＬ照会能力を備えた適切なリレーショナルデータベースである。また、ステージングデータベースは、ステージング活動を追跡するために報告を与えることが好ましい。このような報告は、ステージングデータベースへのロードが生じると発行されるステージングロード報告と、１週間ごとのステージング活動、すなわち、リレーショナルデータベースにロードされた実験数、それに移送された実験数などを報告するステージング週別報告と、ダブルスキャン実験を再考し、５日間を超える期間「相補」スキャンを待機する（保留状態にある）実験の実験名を報告するステージング週別例外報告とを含む。
【０１３９】
本発明の別の好適な実施形態において、リレーショナルデータベースにより、ＧｅｎｅＥｘｐｒｅｓｓプロセスモデルの支援ができるようになる。ＡＡＤＭテーブルのリスト。
【表３】

【０１４０】
本発明の一つの態様は、生物学的情報の格納および検索用のリレーショナルデータベースにおけるデータのデータ完全性を確保することである。データベース参照統合性は、データベーススキーマにモデリングされたデータの関係を維持する。さまざまなアプリケーション特化法則と一般的に生物学的法則がデータの構築される必要がある。これは、アプリケーション特化法則と一般的な生物学的法則を同定し、アプリケーション特化法則および一般的な生物学的表現法則をＰＬ／ＳＱＬ関数に変換し、その結果得られた関数を法則ベースで生物学的情報の格納および検索用のリレーショナルデータベース内に格納することにより達成される。これらのアプリケーション特化法則および一般的な生物学的関数は、リレーショナルデータベースに格納されたデータの精度および完全性を確保するために、リレーショナルデータベース法則エンジンにより定期的に実行されることになることを認識されたい。
【０１４１】
生物学的情報の格納および検索用のリレーショナルデータベースとともに使用するのに適したアプリケーション特化法則および一般的な生物学的法則がいくつかあることを認識されたい。例示的な法則は、チップ一貫性の法則と、チップ欠陥報告一貫性の法則と、臨床データ／遺伝子発現データ一貫性と、断片／遺伝子発現データ一貫性の法則と、発現完全性の法則とを含む。
【０１４２】
チップ一貫性の法則は、一貫性に対してマイクロアレイを評価し、出版およびデータステージング時にチェックされることが好ましい。チップ欠陥報告一貫性の法則は、一貫性に対してチップ欠陥報告を評価する。例えば、実験ごとのチップ欠陥報告の遺伝子断片名は、その実験でのチップタイプの遺伝子断片名と一致しなければならない。臨床データ一貫性の法則は、臨床データの内部的な一貫性を評価する。臨床データ／遺伝子発現データ一貫性は、遺伝子発現データと臨床データの一貫性を評価する。例えば、臨床データベースにある臓器名は、同じ試料の遺伝子発現データのターゲットタイプ値と一致しなければならない。マッチングは、さまざまな粒度で実行されることが好ましく、すなわち、臓器「小脳」は、ターゲットタイプ「脳」と一致する。断片／遺伝子発現データ一貫性は、遺伝子発現データと断片インデックスデータの一貫性を評価する。好ましくは、この法則は、ＡＮＡＬＹＳＩＳ＿ＳＣＨＥＭＥ．ＩＤにつながれたＢＩＯＬＯＧＩＣＡＬ＿ＩＴＥＭのＩＤおよびＩＴＥＭ＿ＮＡＭＥが、断片インデックスのＡＦＦＹ＿ＮＡＭＥのＩＴＥＭ＿ＩＤ、ＡＦＦＹ＿ＮＡＭＥ、およびＯＮ＿ＣＨＩＰ属性とマッチすることを検証する。発現完全性の法則は、生物学的知識に基づいている。例えば、遺伝子が特定の組織タイプに存在することが分かっていれば、それは、リレーショナルデータベースに存在するものでなければならない。この法則の特別なクラスは、遺伝子の存在または不在に関して事前知識があるハウスキーピング（またはスパイキング）遺伝子を取り扱う。図８は、本発明の完全性制約強化システムの一実施形態を表す。アプリケーション特化法則および一般的な生物学的法則は、モジュール８０１および８０２により体系化され、法則レジストリ８００に格納される。アプリケーション特化または一般的生物学的関数が実行され、エラーが検出されると、システムは、エラーコードを生成し、および／または、エラーエンジン８０３によりエラーを訂正する。さらに、ログおよび検査エンジン８０４が、その実行のログおよび検査を作成する。
【０１４３】
生物学的情報の格納および検索用のリレーショナルデータベースは、実験ごとにデータを獲得するが、ユーザは、試料ごとにデータを見ることが好ましい。好適な実施形態において、ユーザは、所有権および許可に基づいて、試料を制約された範囲で見ることになる。生物学的情報の格納および検索用のリレーショナルデータベースにあるデータは、パーティション、すなわち、アクセス権により体系化されることが好ましい。さらに、データパーティションは、リレーショナルデータベースから、別々のより小さなアクセスグループに特化したデータベースにクローンされてよい。リレーショナルデータベースにある試料データベクトルは、試料の帰属する全てのデータをさし、例えば、ヒト４２Ｋの場合、試料データベクトルは、５チップ実験で生成された全ての４２Ｋデータ点を含むことになる。同じ試料で数回の実行がある場合があるため、リレーショナルデータベースには試料ごとにいくつかのデータベクトル候補が存在する場合がある。ゲノム解析０００１２が３つの可能なデータベクトルをもつ場合、このようなシナリオの１つを、以下の表に挙げる。
【表４】

【０１４４】
パーティショニングとは、試料データベクトルを、パーティショニングスキームまたはパーティショニングタイプに従って分離するプロセスである。例えば、試料データベクトルは、プロジェクト、組織常態（病変または正常）、臓器、共同などに従って区分けすることができる。区分けされた試料データベクトルは、特定ユーザに対してアクセスを制限することができる。
【０１４５】
試料ごとの一次データベクトルの構築は、生産により規定される発見的法則を用いて自動的に行われるか、自動グループ化を手動で無効にすることにより行われる。例えば、各タイプの２つ以上のチップ、例えば、２つのＡチップが試料ごとに利用可能であれば、より大きな実行番号のものは、一次ベクトルに進む。試料データベクトルを規定する実験グループは、テーブルに格納される。
【０１４６】
ＥＸＰＥＲＩＭＥＮＴ＿ＧＲＯＵＰ
【表５】

【０１４７】
属性ＭＡＳＫおよびＣＭＡＳＫは、パーティショニング用に使用される。これらの値は、所与の試料に対するパーティショニング特性に基づいたものである。ＣＭＡＳＫ属性は、ユーザからの要求に対してデータをフィルタリングするために使用され、ＭＡＳＫ属性は、スキーマを物理的にパーティショニング（Ｏｒａｃｌｅ８パーティション）するために使用可能な数値である。試料が特定のパーティションに存在してはならない場合、これらの属性は、試料データベクトルをグローバルパーティションの一部分にする初期値をとる。これは、いくつかの例を用いて最良に理解される。以下の例は、マスクの部分を形成するために、値と数値コードを有する可能なパーティショニング変数を使用する方法を示す。
【表６】

【０１４８】
Ｎを属性の値の総数とし、ゲノム解析００１２０はＪＴにのみをアクセス可能にし、組織を悪性の肝臓から取り出す。その場合、以下のマスクを有する。
【表７】

【０１４９】
ＣＭＡＳＫは、「０１０００３０１」になる。ＭＡＳＫは、値（０１０００３０１）ベースＮを有することになる。本発明の別の実施形態において、臨床データベースは、Ｏｒａｃｌｅ８ｉデータベースサーバ上に構築される。
【０１５０】
組織リポジトリ情報管理システムは、生体リポジトリを管理する情報システムである。目録システムであることに加え、このシステムは、生体試料の病理および臨床記録にデータ入力ツールを提供する。組織リポジトリ情報管理システムは、ＭｉｃｒｏＳｏｆｔＡｃｃｅｓｓのバックエンドデータベース上で実行されることが好ましい。サーバ側スクリプトは、ＡｃｃｅｓｓデータベースファイルからＡＳＣＩＩテキストファイルとしてデータを出力保存することが好ましい。これらのファイルは、好ましくは、ｆｔｐにより、プレステージング領域に転送された後、臨床データ用のステージングデータベースにロードされる。ロード中、臨床データの完全性は、法則のリストによりチェックされ、例えば、ドナーの年齢は［１，９９］の範囲内でなければならず、体重はメートル法単位で表示されなければならない、などである。
【０１５１】
臨床データベースには、組織リポジトリ情報管理システムからのデータのサブセットしか必要ではなく、ロードプロトコルは、適切なもののみを選択することが好ましい。全てのチェックがうまく回帰した後、リレーショナルデータベースに新しいデータが移送される。
【０１５２】
組織リポジトリ情報管理システムのスキーマは、３つのデータユニット、すなわち、（１）組織の詳細と、（２）ドナー属性と、（３）統制された用語とに分割されることが好ましい。
【０１５３】
試料の詳細の属性は、ＢＩＯＳＡＭＰＬＥおよびＦＲＡＧＭＥＮＴテーブルに体系化される。ＢＩＯＳＡＭＰＬＥは、ＳＩＴＥ（発生部位）、ＳＯＵＲＣＥ（発生源）、ＯＲＧＡＮ＿ＮＡＭＥ．ＨＩＳＴＯＬＯＧＹ、ＰＡＴＩＥＮＴ＿ＤＩＡＧＮＯＳＩＳ、およびＰＡＴＨＯＬＯＧＹ＿ＤＩＡＧＮＯＳＩＳなどの組織特異的属性を保有する。ＢＩＯＳＡＭＰＬＥは、物理的な生体試料の実体に関する情報を捕捉する。
【０１５４】
組織ＦＲＡＧＭＥＮＴとは、生体試料の物理的断片である。これらの断片は、実験を通して使われ、固有のＧＥＮＯＭＩＣＳ番号を割り当てられる。また、ＦＲＡＧＭＥＮＴテーブルは、ＷＥＩＧＨＴ＿ＡＣＴＵＡＬ（メートル単位、すなわち、ｋｇ単位での実際の体重）、ＷＥＩＧＨＴ＿ＥＳＴＩＭＡＴＥＤなど、断片の他の属性も保有する。組織名および組織構造フィールドは、ＳＮＯＭＥＤに見られるような規格化された用語に関係し、統制された用語（ＣＶ）から値を取る。同様に、診断フィールドは、ＳＮＯＭＥＤに関係し、関連付けられたＣＶを有する。
【０１５５】
メインテーブルは、ＤＯＮＯＲである。これは、さまざまなドメインにわたるヒトドナー属性を有し、例えば、ＨＥＩＧＨＴ、ＷＥＩＧＨＴ、ＲＡＣＥ、ＤＡＴＥ＿ＯＦ＿ＢＩＴＨなどの一般的な属性や、ＤＥＡＴＨ＿ＣＡＵＳＥ、ＤＥＡＴＨ＿ＡＧＥなどの死亡フィールド、運動習慣、食事プロファイル、睡眠習慣、喫煙習慣、アルコール、および英気回復薬習慣などのさまざまなデータフィールドを有する。
【０１５６】
ＤＯＮＯＲファクトテーブルは、５つの他の詳細なテーブルにリンクされることが好ましい。すなわち、ＨＩＳＴＯＲＹ＿ＦＡＭＩＬＹ−ドナーの家族の診断と、ＨＩＳＴＯＲＹ＿ＭＥＤＩＣＡＬ−患者の治療履歴と、ＨＩＳＴＯＲＹ＿ＳＵＲＧＩＣＡＬ−患者の手術履歴および麻酔（ＨＩＳＴＯＲＹ＿ＳＵＲＧＩＣＡＬ＿ＡＮＥＳＴＨＥＳＩＡ）と、ＨＩＳＴＯＲＹ＿ＭＥＤＩＣＡＴＩＯＮ−患者の薬物治療履歴と、ＨＩＳＴＯＲＹ＿ＬＡＢ＿ＴＥＳＴ−患者の実験テスト履歴である。
【０１５７】
臨床データベースを他のコンポーネントにリンクする属性は、ゲノム解析識別番号である。チップ遺伝子発現を介する全ての断片は、固有のゲノム解析識別番号を得る。これらの識別子は、試料の準備中に割り当てられ、実験名の一部をなす。また、ゲノム解析識別番号は、断片テーブルに格納される。遺伝子発現データスキーマにおけるＡＢＳ＿ＧＥＮＥ＿ＥＸＰＲ＿ＲＥＳＵＬＴ、ＡＮＡＬＹＳＩＳ、ＥＸＰＥＲＩＭＥＮＴ、ＧＬＧＣ＿ＥＸＰＥＲＩＭＥＮＴテーブルは、対応する試料を介して実行される実験に対する臨床データベースに試料ＩＤを含むＢＩＯＳＡＭＰＬＥ＿ＩＤを有する。このプロセスは、臨床データロードプロトコルの一部として実行され、格納されたプロシージャが、ジョブを実行するように生産データベース上の上記テーブルを更新する。また、同一の格納されたプロシージャは、新しい実験が生産ウェアハウスに出版されたときにも実行される。
【０１５８】
本発明のリレーショナルデータベースは、３層記録システムを利用することが好ましい。３層とは、（１）オンラインネットワークディスクファイルシステムと、（２）ニアラインストレージと、（３）オフラインＤＬＴテープバックアップである。オンラインネットワークディスクファイルシステムは、ネットワークディスクシステム（ＮｅｔｗｏｒｋＡｐｐｌｉａｎｃｅＦ７２０）に基づいたものである。また、ネットワークファイルシステムは、ＮＴネットワークに認識可能なものである。ディスク空間は、２つのパーティション、すなわち、記録用のものと、データ配信構築用のものとに体系化される。ＵＮＩＸとＷｉｎｄｏｗｓの両方からアクセス可能なファイルシステムにある各試料の完全な情報セットが維持される。情報は、ゲノム解析識別番号で体系化され、実験名によりさらに細分化可能である。このディレクトリ構造に情報を格納することにより、フィルタリング要求に基づいて配信セットを構築することがより容易になる。ニアラインストレージは、ＨＰＳｕｐｅｒｓｔｏｒｅ光磁気ジュークボックスを元にしており、生産により生成される全てのデータファイルのバックアップデバイスとして働き、オンライン記録のバックアップでもある。
【０１５９】
プレステージングディレクトリ、データベースサーバ、およびオンライン記録をバックアップするために、オフラインＤＬＴテープバックアップが使用される。
【０１６０】
本発明の別の態様は、新しいチップセットを利用するために、データベースを修正することである。さまざまな種から組織の遺伝子発現を解析するための新しい遺伝子チップが、定期的に入手可能であることを認識されたい。例えば、これらは、３〜５チップのチップセットにグループ化されることが好ましい。好適な遺伝子セットは、ヒトの場合、Ｈｕ４２Ｋセット、マウスの場合、Ｍｕ１１Ｋセット、およびラットの場合、ＲＧ＿Ｕ３４セットである。別の好適な遺伝子セットは、６０Ｋセットとしても知られるＡｆｆｙｍｅｔｒｉｘＨＧ＿Ｕ９５チップセットである（このチップセットの５つのチップが、約６０，０００個の遺伝子断片を表すため）。
【０１６１】
２つのヒト遺伝子セットに現れる遺伝子断片のほとんどは相補物を有するが、各断片をプローブするために使用されるオリゴヌクレオチドは、２つのセット間で異なる場合がある。このような状況において、クロスチップセット解析が利用できず、すなわち、遺伝子セットは、異なるチップセットからの遺伝子断片の混合物を含まないことがある。さらに、試料照会は、チップセットごと、さらには種ごとに制限されることが好ましい。すなわち、試料セットにある全ての試料は、照会が実行されたときに選択されたチップセットのチップから実験を行わなければならない。試料照会を適切にするために使用されるチップセットは、試料セットの属性として保存される。
【０１６２】
さらに、解析用に入力された試料セットに関連付けられたチップセットにより解析が制限される。すなわち、複数の試料セットが入力されると、試料セットは、全て同一のチップセット属性をもたなければならない。解析により生成された遺伝子セットは、このチップセットに対してのみ遺伝子断片を含むようにフィルタリングされることになる。本発明の別の態様は、データの正規化である。正規化を行うことにより、互いに比較可能な異なる遺伝子チップ実験から発現値が報告されるため、２つの異なる試料が、遺伝子断片に対して同じ発現値を生じれば、断片に対するｍＲＮＡ転写の濃度が、２つの試料において同じであるという適度な信頼が得られる。チップの製造プロセスの違いや他の要因により、正規化されていない強度値は、同じＲＮＡ濃度の断片に対して、チップ実験ごとに大きなばらつきがある。
【０１６３】
このばらつきを調節するための多数の好適な方法がある。好適に、本発明は、３つの方法、すなわち、スケーリング、正規化、および標準曲線の正規化を支援する。スケーリングにおいて、この正規化プロセスの結果として、平均差強度値（または「ＡｖｅＤｉｆｆ」）が生成される。正規化された値は、正規化されていない値をスケールファクタで乗算することにより計算される。スケールファクタは、実験における全ての値に対して同じものであり、以下のように計算される：
１．実験において全ての正規化されていないＡｖｅＤｉｆｆ値をとる。その値の最上位２％および最下位２％を切り捨てる。すなわち、実験で１０，０００の発現値が生じれば、値を整列させて、最下位にある２００の値と最上位にある２００の値を切り捨てる。
【０１６４】
２．残りの値の平均値に等しい「調整平均値」を計算する。
【０１６５】
３．スケールファクタＳＦ＝１００／（調整平均値）を計算する。
【０１６６】
別の正規化方法は、単一のチップ実験からの発現強度値が、小さいまたは大きい発現値を考慮するか否かに応じて、異なる分布を有するという観察に基づいたものである。ほとんどがノイズであると考えられる小さな値は、平均値０でほぼ正規分布されるのに対して、大きな値は、対数正規分布にほぼ従い、すなわち、それらの対数は、ゼロでない平均値で正規分布される。スケーリングが、実験において同じスケールファクタを全ての発現値に適用するのに対して、正規化は、「非エクスプレッサ」（小さな値）および「エクスプレッサ」（大きな値）に対して別のスケールファクタを計算する。アルゴリズムへの入力は、スケーリングＡｖｅＤｉｆｆ値であり、１００に等しい調整平均値を設定するためにすでにスケーリングされている。アルゴリズムは、負の値の標準偏差ＳＤノイズを計算し、これは非エクスプレッサからのものと考えられる。次いで、全ての負の値と、２．０^＊ＳＤノイズより小さい全ての正の値を、１／ＳＤノイズに比例するスケールファクタで乗算する。２．０^＊ＳＤより大きい値は、エクスプレッサからのものと考えられる。これらの値に対して、対数の標準偏差ＳＤ対数（信号）が計算される。次いで、対数は、１／ＳＤ対数（信号）に比例するスケールファクタにより乗算され、累乗される。ついで、その結果得られた値は、別のスケールファクタにより乗算され、２．０^＊ＳＤノイズの両側にあるスケーリングされていない値から正規化値に不連続点がないように選択される。
【０１６７】
第３の正規化方法は、「標準曲線正規化」と呼ばれるもので、「スパイクイン正規化」と呼ばれることもある。この正規化方法は、チップ実験からのオリジナルの発現強度値を、試料に発現した各遺伝子に対する実際のｍＲＮＡ濃度に関係付ける。これを行うために、特定の遺伝子断片の既知の濃度は、試料ＲＮＡ混合物に「スパイクイン（打ち込み）」された後、それをチップにハイブリダイゼーションしなければならない。（スパイクインに対してバクテリア遺伝子が使用されるため、試料ドナーからは追加のＲＮＡの寄与がないことになる。）
【０１６８】
チップ実験は、スパイクイン遺伝子断片に対して強度測定値を生じる。理想的に、強度は、濃度とともに線形に増大するため、強度が濃度に対してプロットされれば、データ点を結ぶ基点から直線を引き、その傾斜を用いて、チップ上の他の遺伝子断片に対するｍＲＮＡ濃度を推量することが可能でなければならない。実際、この関係をゆがめるノイズおよび非線形の影響があるが、それでも、データ点との最良の適合である基点からの直線を引くことができる。この直線は、「標準曲線」として知られている。標準曲線正規化を実行するために、実行時間エンジン（ＲＴＥ）ローダは、スパイクインデータが利用可能である各チップ実験に対する標準曲線を適合させ、濃度値を獲得するために、標準曲線の傾斜により各遺伝子断片に対する強度測定値を分割する。（負の値およびある一定の感度カットオフより低い値が別々にマッピングされ、このマッピングは、別のドキュメントに記述される。）濃度値（ピコモル単位）は、強度ではなく発現値として報告される。
【０１６９】
試料の一部分のみがスパイクインを有することがあるため、ＲＴＥは、スパイクインをもたない試料に対する濃度値を生成しないことになる。したがって、フォールド変化などの解析ツールを実行する場合、標準曲線正規化が選択されれば、本発明は、入力試料にある全ての試料が十分のスパイクインを有するかを確認するチェックを行う。持たなければ、データベースは、一定の試料が解析において使用できず、計算を終了するという警告を発することになる。さらに、濃度値は、強度値とは異なる範囲（通常、より小さい）にあるため、標準曲線の正規化されたデータをフィルタリングする場合、より小さい閾値を使用することが必要である。
【０１７０】
本発明の別の好適な実施形態は、発現差のある配列の制限酵素解析（「ＲＥＡＤＳ」）から得られた遺伝子発現データと組み合わせたデータベースの構成である。毒性実験からのいくつかの試料が、両方のプラットフォームを用いて処理される。チップデータは、遺伝子発現データベースに格納される。ＲＥＡＤＳデータは、ＴｏｘＲＥＡＤＳとして知られる別のデータベースに格納される。本発明の好適な実施形態において、本発明のデータベースにあるデータ値から関係するＴｏｘＲＥＡＤＳデータにリンクが作成される。
【０１７１】
ほとんどの毒性実験は、研究の脈絡内で実行され、実験動物または細胞培養のグループが、さまざまな処理を受け、異なる時間点の後処理で、それらから試料が収集される。例えば、ある研究では、３つの異なる時間点でラットの肝臓に２つの異なる毒素投与量を与えた影響を、同じ時間点で生理的食塩水を注射したラットからの肝臓と比較して検査する。データの品質を高めるために、反復実験が実行される。すなわち、数匹の動物が同じ投与量で処理され、同じ時間点で試料採取される。反復実験からの試料の各グループは、研究グループとして知られる。試料セット照会ツールにより、研究に属する試料を検索し、研究グループによりそれらをグループ化することができる。
【０１７２】
ＲＥＡＤＳデータは、異なる研究グループにある試料からの処理されたｍＲＮＡ断片をゲルの異なるレーン上に流し、断片長により分離する電気泳動から生じる。ゲルのいくつかのレーンにおいて他のものより暗い色のバンドで表された発現差のある断片がコアされ、配列され、可能であれば、既知の遺伝子にマッチされる。上述したように、バンドの強度の測定値など、これらの断片のデータは、ＴｏｘＲＥＡＤＳデータベースに格納される。また、ＲＥＡＤＳゲルで見つけられるこれらの遺伝子断片（ＲＥＡＤＳ断片として知られる）のいくつかは、１つ以上の遺伝子チップ上に表されてもよい。この場合、発現データは、両方のプラットフォームから利用可能なものであってよい。好ましくは、遺伝子発現データベースのデータディスプレイからＴｏｘＥｘｐｒｅｓｓ報告へのリンクが作成されるため、ＲＥＡＤＳデータおよびチップデータは、並列に見られてよい。
【０１７３】
ＲＥＡＤＳ断片の発現データが、特定の研究の脈絡内においてのみ意味があるため、ユーザが、自らが興味のある研究を選択しなければならないことに留意することは重要である。ユーザがＴｏｘＲＥＡＤＳリンクの追加を選択する場合、ツールは、利用可能な研究を記載したダイアログボックスを表示することが好ましい。次いで、ユーザは、このリストから１つ以上の研究を選択し、ダイアログにある追加ボタンをクリックすると、結果テーブルは、選択された各研究に関する追加のＴｏｘＲＥＡＤＳリンクコラムを表示することになる。ＴｏｘＲＥＡＤＳリンクコラムは、そのコラムの研究にあるＲＥＡＤＳ断片に関連付けられた照会結果にある各遺伝子断片に対して矢印アイコンを表示する。ユーザがこのアイコンをクリックすると、遺伝子発現データベースは、関連付けられた研究にある対応するＲＥＡＤＳ断片に関する方向ページに移行するように、ユーザのＷｅｂブラウザを方向付ける。ＲＥＡＤＳゲルの各レーン（ひいては、ＲＥＡＤＳ断片に対応する各バンド）は、まとめて蓄積されたいくつかの個々の試料から生じるものであってよい。通常、各研究グループにある試料はまとめて蓄積されているため、ＲＥＡＤＳ試料は研究グループごとに１つであり、異なる時間点の制御試料（別の研究グループにある遺伝子発現試料データベースに格納されているもの）は、１つのＲＥＡＤＳ制御試料にまとめて蓄積される。
【０１７４】
個々の試料と蓄積されたＲＥＡＤＳ試料との関係付けをユーザが行いやすいようにするために、ＴｏｘＥｘｐｒｅｓｓユーザには、所定の試料セットの集合体が与えられることが好ましい。これらは、各ＴｏｘＥｘｐｒｅｓｓ研究に対してサブフォルタ下に体系化され、各試料セットは、蓄積されたＲＥＡＤＳ試料に対応する試料を含む。ユーザが、遺伝子発現データベースにおけるＴｏｘＲＥＡＤＳリンクをクリックする場合、特定の研究内の選択された遺伝子断片に関連付けられたＲＥＡＤＳ断片に関する情報を示す報告が表示されることが好ましい。テーブルの行は、研究における異なる蓄積されたＲＥＡＤＳ試料に対応してよく、最も右側の列は、各ＲＥＡＤＳ実験からの発現強度値、および対応するチップ実験からの平均発現値（スケーリングおよび正規化の両方を使用）を示してよい。テーブルのフィールドのいくつか（例えば、ＲＥＡＤＳ断片）が、それらに関連付けられた矢印アイコンをもつものであってよい。これらは、詳細な報告へのリンクとして作用し得る。例えば、ユーザが、ＲＥＡＤＳ断片名の隣にあるアイコンをクリックすると、ユーザのＷｅｂブラウザは、そのＲＥＡＤＳ断片に関する詳細な報告に移行する。
【０１７５】
各ＲＥＡＤＳ断片詳細報告は、クロマトグラムトレースファイルへのリンクを含むことが好ましい。このファイルを見るために、Ｗｅｂブラウザは、ファイルの読取りおよび表示が可能なプログラムを開始するように構成されなければならない。本発明の別の態様は、遺伝子シグネチャ解析である。試料セットの遺伝子シグネチャ解析は、試料セットのチップセットに現れた遺伝子断片の全てから、２つの遺伝子断片セット、すなわち、試料セット内に一貫して発現するものと、一貫して発現しないものとを抜き出す。遺伝子シグネチャ解析を実行するために、２つの閾値パーセンテージ、すなわち、１つは「存在」セット、もう１つは「不在」セットとして、発現の「一貫性」を定量化することが必要である。発現の一貫性は、試料セットにおいて、どの程度遺伝子（断片）が発現するか、または発現しないかということの測定値である。例えば、試料セットに５つの試料があり、ユーザが、存在および不在の閾値パーセンテージをそれぞれ８０％および８０％に設定すれば、遺伝子シグネチャ解析は、５つの試料から少なくとも４つに存在する遺伝子の１つのセットと、５つの試料から少なくとも４つに不在の別のセットを計算する。遺伝子シグネチャ解析の結果を表示できる方法にはさまざまなものがある。解析が終了した後、その結果は、遺伝子シグネチャ解析ウィンドウの要約タブに表示されることが好ましい。このウィンドウは、存在遺伝子セットにある遺伝子断片数を表示するパネルと、不在遺伝子セットにある遺伝子断片数を表示するパネルと、試料セット名およびそれが含む試料数を提示する。初期設定要約コラムは、ゲノム解析ＩＤ、実験、全存在コール、全不在コール、全不明コール、存在コール（存在遺伝子セット）、不明コール（存在遺伝子セット）、不在コール（不在遺伝子セット）、および不明コール（不在遺伝子セット）を含むことが好ましい。ウィンドウの下部において、遺伝子シグネチャ履歴が表示されることが好ましい。これは、解析を計算するために使用された閾値、解析が実行された日時、および解析に使用された実行時間エンジン（ＲＴＥ）のバージョンに関する情報を提示する。
【０１７６】
本発明の別の実施形態において、遺伝子シグネチャ解析を表示することにより、遺伝子シグネチャ解析に関する詳細を表示することができる。オプションは、試料の詳細、属性、実験、試料、ドナー、および表示オプションを含むことが好ましい。別の好適な実施形態において、Ｅｘｃｅｌワークシートへの要約の出力保存、Ｗｅｂブラウザへの要約の出力保存、または要約の印刷が可能である。
【０１７７】
遺伝子シグネチャ曲線を表示するさい、２つの表示オプション、すなわち、「断片数対試料数」および「断片数対閾値パーセンテージ」があることが好ましい。「断片数対試料数」オプションは、一対の遺伝子シグネチャ曲線、すなわち、存在遺伝子セットのものと、不在遺伝子セットのものとを表示する。この表示は、試料セットが有効な遺伝子シグネッチャを生成できる程度に大きいものかという視覚的な感覚をユーザに与える目的のものである。「断片数対閾値パーセンテージ」オプションは、閾値パーセンテージの関数として、存在および不在遺伝子の総数を表示する。例えば、３４の試料のうち３１に有資格断片が存在または不在であることを意味する９０％に両方の閾値が設定されれば、存在および不在セットにある断片数は、それぞれ約４，０００および１７，０００になる。閾値が７５％（より厳しい）に設定されれば、セットはそれぞれ７，９４４および２４，１５５になる。遺伝子断片結果に関する詳細な情報は、「遺伝子セット結果」に表示されることが好ましい。例えば、存在または不在遺伝子セットにある遺伝子断片のリストを表示するために、「遺伝子セット結果」ウィンドウは、縦方向または横方向のいずれかでの結果のスプリットビューを選択するためのドロップダウン式のボックスと、「存在遺伝子セット」結果を表示するタブと、「不在遺伝子セット」結果を表示するタブと、選択されたタブに応じた「存在または不在遺伝子セット」にある遺伝子数と、使用される正規化のタイプに関するステートメントと、「存在または不在遺伝子セット」ビューの両方にある遺伝子結果のテーブルとを提示することが好ましい。
【０１７８】
本発明の別の好適な実施形態において、選択された遺伝子断片に関する詳細な情報が表示される。オプションは、断片の詳細、属性、既知遺伝子、試料の詳細、属性、実験、試料、ドナー、および配列クラスタを含むことが好ましい。本発明の別の態様は、配列クラスタにおいて遺伝子断片を表示することができることである。配列クラスタオプションは、試料断片が分類されたＵｎｉｇｅｎｅクラスタの脈絡で遺伝子断片のビューを提示する。また、対応する試料または試料セットにわたって、同じＵｎｉｇｅｎｅクラスタにおいて全ての遺伝子断片の発現値を有するテーブルを表示することもできる。
【０１７９】
また、本発明により、ユーザ選択の遺伝子属性とともに特定の断片に関するデータを表示することもできる。これらの属性は、遺伝子シグネチャ統計（存在頻度、平均値、中央値、標準偏差、発現およびコール値（遺伝子当たり１行、試料セットの全試料にわたった断片に対する存在／不在コールおよび量的発現値が表示される）、および発現およびコール値（試料当たり遺伝子当たり１行、試料当たり断片当たり１行は、断片に対する実際の存在／不在コールおよび量的発現値を含む）を含むことが好ましい。本発明の別の態様は、発現値が既知の経路上にある場合の経路表示を提示する経路ビューアである。遺伝子によりコード化される蛋白質や酵素は、カラーバンドで強調表示される。色は、遺伝子断片の発現レベルを表すことができ、極限発現値（負および正）に対してより濃い色となる。カラーバンドをクリックすると、酵素や蛋白質をコード化する遺伝子断片の発現レベルに関する追加情報を表示する詳細ウィンドウを開くことができる。詳細なウィンドウが開かれ、テーブルにある異なる遺伝子断片が選択されると、蛋白質や酵素の新しいセットが強調表示されることが好ましい（断片が同じノードセットにマッピングされない場合）。断片が２つ以上の蛋白質や酵素にマッピングされれば、アプリケーションはランダムに１つを選択し、必要であれば、それをビューにスクロールし、詳細なウィンドウ表示を更新する。また、経路のフルビューを得たり、経路の特定領域にズームしたりすることも可能である。経路テーブルにおいて遺伝子断片が選択されると、断片がマッピングする経路にある全てのノードは「強調表示」されることが好ましい。
【０１８０】
経路の表示は、いくつかのフォーマットで与えられ、好ましくは、試料セットの中央値（中央発現値は、入力試料セットにある全ての試料にわたって、経路を重複する選択された遺伝子セットにある各断片に対して表示される）と、試料セットの平均値（平均発現レベルは、入力試料セットにある全ての試料にわたって、経路を重複する選択された遺伝子セットにある各断片に対して表示される）と、未加工発現値（未加工発現レベルは、入力試料セットにおける全ての試料にわたり、経路を重複する選択された遺伝子セットにある各断片に対して表示されることになる）を含む。
【０１８１】
本発明の別の態様は、染色体マップ上の発現値を与えるディスプレイを提示する染色体ビューアである。染色体ダイヤグラムは、マーカの数および表示されるマッチ数に関するステートメント、すなわち、染色体の断片の総数および現行の遺伝子セットからの数に関するステートメントと、ディスプレイオプションに関するステートメントと、結果データを含むテーブルと、発現値を表示する縦軸とともに、染色体画像を表示するパネルとを表示することが好ましい。好適な実施形態において、遺伝子断片が染色体上のどの場所に位置するかを決定するために、遺伝子断片は、テーブルから選択されて、染色体ダイヤグラムに、対応する遺伝子断片の存在が示されることになる。染色体ビューアに好適なディスプレイオプションがある。これらは、試料セットの中央値、試料セットの平均値、試料の未加工発現値、および試料の存在／不在コール値を含む。
【０１８２】
本発明の別の態様は、共有遺伝子を明らかにするために遺伝子セットを交差させるか、または遺伝子セット間の差を表示するかのいずれかを可能にする遺伝子セットのフィルタリング手段を与える遺伝子マスクオプションである。遺伝子シグネチャ解析を計算するために、特定の試料の「辺縁」コールを有する断片は、「不在」断片と同じものとして扱われる。「不明」コールを有する断片が、遺伝子シグネチャ計算において無視される。特定の断片に対して、ｐ、ｍ、およびａが、それぞれ、断片が存在、辺縁、および不在の場合の試料の数であれば、分数ｐ／（ｐ＋ｍ＋ａ）と（ｍ＋ａ）／（ｐ＋ｍ＋ａ）が計算され、これらの分数は、断片は、遺伝子シグネチャセットのいずれかに属するかを決定するために、存在および不在の閾値パーセンテージに対して比較される。例えば、試料セットＳ＝｛ｓ１，ｓ２，ｓ３，ｓ４｝および遺伝子｛ｇ１，ｇ２，ｇ３，ｇ４，ｇ５，ｇ６，ｇ７，ｇ８，ｇ９｝とする以下の表に示す存在／不在／辺縁／不明コール値が遺伝子発現データウェアハウスに含まれるとする。（実際には、数千の遺伝子のデータがあるが、説明を目的として９つの遺伝子しか示していない。）各遺伝子の列の最下部には、試料セットＳでの各遺伝子の存在、不在、辺縁コールの数から計算されたパーセンテージが示されている。
【表８】

【０１８３】
存在および不在の閾値パーセンテージの両方が７５％に設定されていると仮定する。その場合、この試料セットに対して、遺伝子シグネチャ演算は、遺伝子｛ｇ１，ｇ２，ｇ３，ｇ４｝を含む「存在遺伝子セット」と、｛ｇ５，ｇ６，ｇ７，ｇ９｝を含む「不在遺伝子セット」を戻す。また、遺伝子シグネチャ解析は、存在および不在セットにある各遺伝子の平均値、中央値、および標準偏差を計算する。ユーザは、遺伝子シグネチャ結果に表示されるこれらの値の任意または全てを選択することができる。
【０１８４】
遺伝子シグネチャの曲線は、試料セットにある各試料の存在遺伝子総数を計算し、試料を存在遺伝子総数により昇順に並べ、第１の試料にある存在遺伝子のセットに対してＰを初期化し（曲線にある第１の点の高さはＰの遺伝子の数である）、Ｐを第２の試料にある存在遺伝子のセットと交差させ、試料セットにある各遺伝子に対して繰り返すことにより計算される。曲線にある連続点の高さは、各交差ステップ後のＰにある遺伝子の数である。各点のＸ軸成分は、格納された試料セットにある対応する試料のインデックスである。また、この解析は、不在遺伝子に対しても実行され、交差セット総数は、別のグラフ上にプロットされる。遺伝子シグネチャの存在および不在遺伝子セットを生成するために使用される方法は、遺伝子シグネチャ曲線を計算するために使用されるアルゴリズムと同一のものではない。遺伝子シグネチャの計算は、存在／不在遺伝子セットを獲得するために、閾値パーセンテージを利用するが、曲線の計算は利用しない。
【０１８５】
さらに、Ｕ（不明）およびＮ（発現データなし。すなわち、紛失チップとの試料）コールは、遺伝子シグネチャと遺伝子シグネチャ曲線との間との相違を生成するさいに重要な役割を担う。例えば、Ｓ_ｉが試料であり、Ｇ_ｉが遺伝子である場合の以下のコール値行列を考慮する。
【表９】

【０１８６】
１００％閾値をもつ存在遺伝子セットを獲得するための遺伝子シグネチャ計算は、４つの遺伝子の総数をもつ以下の遺伝子セット｛Ｇ１，Ｇ２，Ｇ３，Ｇ４｝を生じる。計算アルゴリズムは、発現データが存在する試料のみを含むことにより、部分的なチップセットおよび紛失データの修正を行う。したがって、４つの遺伝子の全ては、それらのうちの各々が４つの試料のうち３つにのみ存在しているとコールされても、存在遺伝子セットに含まれる。しかしながら、遺伝子シグネチャ曲線は、存在遺伝子セットに対して以下のデータを生じる。
【表１０】

【０１８７】
本発明において、ゼロに等しい「遺伝子数」の値はプロットされない。したがって、ｘ軸に示される試料の最大数は、試料セットにある試料の数とは異なる場合があり、存在および不在の遺伝子シグネチャ曲線との間で異なる場合もある。アルゴリズムは、最初に、試料を存在総数により昇順に並べた後、Ｐを第１の試料にある存在遺伝子のセットに対して初期化する。曲線にある第１のバーの高さはＰにある遺伝子の数であり、Ｐは第２の試料にある存在遺伝子のセットと交差し、Ｐに残る遺伝子の数は曲線にある第２のバーの高さとして示される。このプロセスは、試料セットにある各試料に対して繰り返される。Ｕ（不明）およびＮ（試料のデータなし）コールは、これらの「相違」を生成するさいの重要な役割を担う。この例は、同じデータ上にこれらの２つのアルゴリズムによりどのように外見上の相違が生成されるかを示す。したがって、ヒストグラムチャートにある最後の要素が、遺伝子セットのサイズと同じでない値を獲得するとともに、ｘ軸が試料セットのサイズに等しくない値を獲得することができる。
【０１８８】
本発明の別の態様は、本発明の遺伝子発現データベースを用いて作成された２つの遺伝子シグネチャの結果を比較する遺伝子シグネチャ差解析である。これらの２つのシグネチャを用いて、解析は、４つの新しい遺伝子断片セットを計算する。遺伝子シグネチャ差解析は、２つの遺伝子シグネチャを比較する（これらは、事前に計算および保存されたものでなければならない）。解析は、４つの新しい遺伝子断片セットからのものである。すなわち、第１の遺伝子シグネチャの存在遺伝子セットと第２の不在遺伝子セットの両方にあるものと、第１の遺伝子シグネチャの不在遺伝子セットと第２の存在遺伝子セットの両方にあるものと、存在遺伝子セットの両方にあるものと、不在遺伝子セットの両方にあるものである。
【０１８９】
遺伝子シグネチャ差解析を獲得した後、要約ビュー、遺伝セット結果ビュー、経路ビュー、および染色体マップビューを含む多数の好適なフォーマットに結果が存在し得る。好ましくは、要約ビューは、以下の情報、すなわち、２つの入力遺伝子シグネチャの名前、それらが最後に修正された時、使用される試料セットのサイズ、遺伝子シグネチャを計算するために使用される閾値、それらの存在および不在遺伝子セットのサイズ、４つの交差セット、すなわち＜第１の遺伝子シグネチャ＞にのみ存在、＜第２の遺伝子シグネチャ＞にのみ存在、両方の（遺伝子シグネチャ）に存在、両方の（遺伝子シグネチャ）に不在、の４つの内にある遺伝子断片数を要約したテーブル、解析の日時および使用される実行時間エンジンのバージョンを記録する履歴パネルを含む。遺伝子シグネチャ差は、２つの遺伝子シグネチャに対する存在および不在遺伝子セットを用いて、４つの新しい断片セットを計算する。これは、以下のセット、すなわち、第１の遺伝子シグネチャの存在セットと第２の不在セットにある断片を含むセットと、第１の遺伝子シグネチャの不在セットと第２の存在セットにある断片を含むセットと、両方の存在セットにある断片を含むセットと、両方の不在セットにある断片を含むセットを用いて達成される。
【０１９０】
本発明の別の態様は、フォールド変化率を計算するために、制御試料セットと実験試料セットとの間のチップセットにおける各遺伝子断片の平均発現レベルを比較するフォールド変化解析である。フォールド変化解析は、試料セット対の間での発現差のある遺伝子の発現の変化を定量化する。各断片に対してフォールド変化を計算した後、断片は、フォールド変化値で分類される。
【０１９１】
フォールド変化解析の結果は、各フォールド変化ブラケットにある遺伝子の数と、制御および実験セット間のフォールド変化の方向の要約として表示されることが好ましい。好ましくは、このような要約は、制御試料セットの全ておよびそれぞれにおける試料の数のリストと、実験試料の全ておよびそれらが含む試料の数のリストと、実験および制御試料セットの両方に不在した断片を遺伝子総数に含むようにユーザが選択するチェックボックスと、以下の範囲、すなわち、・１００・以上、１０から１００・、５から１０・、４から５・、３から４・、２から３・、１から２・、および変化なしの範囲のフォールド変化をもつ、遺伝子断片の数を記載したテーブルを表示する。
【０１９２】
数は、以下のように分割されることが好ましい。すなわち、実験セット対制御セットにおいてフォールド変化「上昇」の数と、実験セット対制御セットにおいてフォールド変化「下降」の数と、実験セット対制御セットにおいて全変化の総数である。
【０１９３】
フォールド変化解析結果に関するより詳細なデータを獲得するために、本発明は、４つの異なる結果表示、すなわち、遺伝子断片のフィルタリング、遺伝子断片の表示、経路の表示、染色体マップの表示を提供することが好ましい。
【０１９４】
「遺伝子断片をフィルタリング」表示により、以前に保存した遺伝子セットを用いて報告された遺伝子をフィルタリングすることができる。ユーザは、フィルタとして使用するための遺伝子セットを選択し、フィルタに含まれる遺伝子だけが表示されることになる。
【０１９５】
「遺伝子断片」表示は、縦方向また横方向のいずれかのスプリットビューを選択するドロップダウンボックスと、表示される遺伝子断片の数のステートメントと、遺伝子結果のテーブルとを提示することが好ましい。
【０１９６】
「経路」ビューは、発現値が既知の経路上にある経路ディスプレイを提示する。
【０１９７】
「染色体」ビューは、染色体マップ上の発現値を与えるディスプレイを提示する。
【０１９８】
フォールド変化解析は、量的発現値で動作する。これは、選択された遺伝子断片セットの各々に対して、制御試料セットおよび実験試料セットにおける発現強度の幾何平均の比率を計算する。フォールド変化は、この比率に等しい。比率が１より小さく、ユーザが大きさと方向をもつフォールド変化の表示を選択すれば、フォールド変化の大きさは、「下降」の方向をもつ、比率の逆数である。異なる実験試料セットとマッチした制御試料セットとの間で、複数のフォールド変化比較が並列に実行されてよい。解析は、各試料セット対の間での平均発現値のフォールド変化により遺伝子断片を分類し、フォールド変化がユーザ指定の範囲内にある断片またはユーザ指定の遺伝子セットの断片に関する詳細な発現情報を報告する。また、可能であれば、信頼度制限値およびｐ値も計算される。アルゴリズムは、両側Ｗｅｌｃｈ修正された２標本ｔ検定に基づいている。各試料セットの発現強度の対数は正規分布され（我々のデータとかなり良好にマッチする）、各制御試料セットの分散が、比較する対象の実験セットの分散と異なると仮定する。ｐ値は、複数の比較に対して修正されないことに留意されたい。ｔ検定に使用される帰無仮説は、発現値の対数の分布平均値が、２つの試料セットにおいて同じであるということである。別の仮設は、平均値が異なるということである。報告されるｐ値は、観察されたものと極端に同じ平均値の差（ひいては、フォールド変化）が、帰無仮説下において獲得されるという確率の推定値である。フォールド変化値の信頼度制限値は、仮定の同じセットに従って計算される。初期値では、９５％信頼度制限値が計算され、異なる信頼度レベルがユーザにより指定できる。報告する上位および下位９５％信頼度制限値は、上記の仮定下において、分布平均値の実際の比率が区間内にあるという９５％確率が存在する場合の区画の推定範囲である。両方の試料セットは、２つ以上の試料をもたなければならない。試料セットの一方または両方が１つの試料しかもたなければ、以下に記載するアルゴリズムを用いて、フォールド変化を報告することはできるが、信頼度制限値およびｐ値は計算できない。フォールド変化は、断片ごとに計算される。すなわち、フォールド変化アルゴリズムは、各断片に別々に適用される。ユーザは、解析に対して、ＧｅｎｅＬｏｇｉｃ正規化、標準曲線正規化、またはＡｆｆｙｍｅｔｒｉｘ正規化された発現値を選択するオプションを有するが、同じ正規化が、全試料および遺伝子にわたって使用されなければならない。正規化またはスケーリングを用いて、発現値に下限が適用され、使用される下限値は、ノイズパラメータＱに基づくものであり、選択される正規化のタイプに依存する。ＧｅｎｅＬｏｇｉｃ正規化された発現値（「ＧＬ発現値」）に対して、各チップは、１０に等しい標準化されたノイズレベルＱを有する。さらに正確に言えば、各チップ上のノイズの分布は、正規化の一部として推定され、発現値は、０付近のＧＬ発現値の標準偏差が１０に等しいものであるように再計算される。
【０１９９】
発現値をスケーリングするために、解析は、Ａｆｆｙｍｅｔｒｉｘソフトウェアにより各チップ実験に対して計算され、ＧＸＤＢデータベースに格納された実際のノイズ値Ｑ＝ＲａｗＱ^＊ＳＦを用いる。また、ユーザは、遺伝子が存在するとコールされた各遺伝子に対してのみ試料を用いてフォールド変化を計算するオプションを有する。このオプションが選択されると、各試料に対する試料の数ｎ_ｘおよびｎ_ｙは、異なる遺伝子ごとにばらつきがあり、全ての遺伝子に対してｐ値および信頼度制限値を計算することができなくなることがある。アルゴリズムへの入力は、２つの試料セットＸおよびＹと、１つの遺伝子セットと、ユーザ指定の信頼度レベルＣＬ（０と１００％の間、初期設定９５％）である。
【０２００】
フォールド変化アルゴリズムは、以下のとおりである。試料セットＸおよび遺伝子セットの遺伝子断片ｆに対して、以下のことを実行する：
１．まず、下限値を発現データに適用する。ｅ_ｆｉを、試料ｉにある断片ｆの正規化された発現値とする。正規化が用いられれば、ｅ_ｆｉを最大（ｅ_ｆｉ，２０）に設定する。スケーリングが用いられれば、ｅ_ｆｉを最大（ｅ_ｆｉ，２^＊Ｆ_ｆｉ ^＊ＲａｗＱ_ｆｉ）に設定し、ここで、ＲａｗＱ_ｆｉをおよびＳＦ_ｆｉは、試料ｉに対して断片ｆを含むチップ上のチップ実験からのＲａｗＱおよびスケールファクタパラメータである。その結果がｅ_ｆｉ＜２０であれば、ｅ_ｆｉを２０に設定する。標準曲線正規化が用いられれば、ｅ_ｆｉのみが残され、下限値は適用されない。
【０２０１】
２．試料セットＸにおけるｎ_ｘ個の試料の発現レベルを｛ｅ_ｆｉ：ｉ＝１，２，．．．，ｎ_ｘ｝として、対数ｘ_ｉ＝ｌｎ（ｅ_ｆｉ）を計算する。
【０２０２】
３．平均値（ｘ）、すなわち、ｍｅａｎ（ｘ）＝（ｘ_ｉのｉの合計）／ｎ_ｘを計算する。
【０２０３】
４．分散（ｘ）、すなわち、ｖａｒ（ｘ）＝（（ｘ_ｉ−ｍｅａｎ（ｘ））２のｉの合計）／（ｎ_ｘ−１）を計算する。
【０２０４】
５．試料セットＹに対してステップ１〜４を繰り返す。
【０２０５】
６．ｔ統計値を計算する：ｔ＝（ｍｅａｎ（ｘ）−ｍｅａｎ（ｙ））／ｓ
式中、ｓ＝ｓｑｒｔ（ｖａｒ（ｘ）／ｎ_ｘ＋ｖａｒ（ｙ）／ｎ_ｙ）である。
【０２０６】
７．ｐ値と信頼度制限値を計算するためには、累積Ｔ確率分布関数Ｐｔ（ｔ，ＤＦ）および逆関数ｔＩｎｖｅｒｓｅ（ｐ，ＤＦ）が必要である。（非整数）自由度パラメータを計算する：
ＤＦ＝１／（ｃ^２／（ｎ_ｘ−１）＋（（１−ｃ）^２）／（ｎ_ｙ−１））
式中、ｃ＝ｖａｒ（ｘ）／（ｎ_ｘ ^＊ｓ^２）である。
【０２０７】
８．Ｐｖａｌ＝Ｐｒｏｂ（｜Ｔ｜＞ｔ）＝２^＊（１−Ｐｔ（ｔ，ＤＦ））によりｐ値を計算する。式中、Ｐｔ（ｔ，ＤＦ）はＤＦ自由度をもつ累積Ｔ分布であり、ｔは上記に特定した統計である。
【０２０８】
９．フォールド変化率ＦＣおよび上限および下限の信頼度制限値を計算する。ユーザ指定の信頼度レベルＣＬを与えて、ＴＩ＝ｓ^＊ｔＩｎｖｅｒｓｅ（（１００＋ＣＬ）／２００，ＤＦ）を計算する。次に、以下の式を用いて、フォールド変化および信頼度制限値が計算される：
ｍ＝ｍｅａｎ（ｘ）−ｍｅａｎ（ｙ）ＦＣ＝ｅｘｐ（ｍ）
下限信頼度制限値＝ｅｘｐ（ｍ−ＴＩ）
上限信頼度制限値＝ｅｘｐ（ｍ＋ＴＩ）。
【０２０９】
フォールド変化の方向は、ＦＣ＞１であれば「上昇」として、ＦＣ＜１であれば「下降」として報告され、フォールド変化の大きさは、ＦＣ＞１であればＦＣであり、ＦＣ＜１であれば１／ＦＣである。制御および実験の試料セットの間の各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類され、ある一定の範囲内にあるフォールド変化をもつ断片の総数を示す要約報告が生成される。通常、ユーザは、ある一定の値より大きなフォールド変化の大きさを有する全ての遺伝子断片に関心がある。
【０２１０】
両方の試料セットにある全ての試料が不在コールを戻す断片は、総数に含まれるか、またはそこから排除されてよい。不在遺伝子フィルタリングが制御および実験試料セットおよび遺伝子Ｇを与え、２つの試料セットにわたった遺伝子Ｇの強度の幾何平均の比率として、Ｇのフォールド変化が計算される。
【０２１１】
遺伝子が存在する試料のみを使用することをユーザが選択すれば、Ｇが不在であるとコールされた試料の強度は、幾何平均の計算から排除され、そうでなければ、全ての強度が含まれる。いずれの場合も、選択された正規化に応じて、下限値が強度に適用される。正規化が用いられれば、下限値が２０である（すなわち、２０より小さな全ての強度を２０に置き換えた後、幾何平均を計算する）。スケーリングが選択されれば、特定のチップ実験から強度に適用された下限値は、その実験に対して計算されたＱ値の２倍である（すなわち、各試料／チップ対に対して異なる下限値が使用される）。
【０２１２】
信頼度レベルの信頼度制限値は、強度の対数の平均値の差に両側Ｗｅｌｃｈ修正されたｔ検定を用いて計算される。ｔ検定のＷｅｌｃｈフォームは、比較される試料の２つのグループ間で分散が一般に等しくないために使用される。強度の対数は、正常分布からのものとされ、負でない値に対して我々の観察と一致する。信頼度の範囲は、加法スケール上のフォールド変化推定値を中心として対称的なものではないが、乗法スケール上のフォールド変化推定値を中心に対称的であり、比率に対する適切なスケールタイプである（例えば、フォールド変化）。
【０２１３】
本発明の別の態様は、ユーザ規定の遺伝子セットおよび１つ以上の試料セットを入力とし、ユーザ指定の存在／不在コールをもつ試料の全てに対して、各試料セットの遺伝子セットにある各遺伝子断片に対して発現レベルの範囲を報告する電子ノーザン解析（Ｅノーザン）である。
【０２１４】
Ｅノーザン解析における遺伝子の発現値の範囲は、各試料セットにある試料に対する値でのユーザ選択の百分位数の一対として報告されることが好ましい。初期設定により、各試料セットでの２５番目および７５番目の百分位数にある値が示される。ユーザは、異なる百分位数を選択してよい。例えば、ユーザは、各試料セットに対して、０番目の百分位数（最小発現値）と、１００番目の百分位数（最大値）を表示するように選択してよい。ユーザ指定の百分位数に加え、中央発現値（５０番目の百分位数）が報告されることが好ましい。
【０２１５】
電子ノーザン解析は、１つ以上の試料セットおよび遺伝子セットを用いて計算される。遺伝子セットは、以前に作成され保存された遺伝子セットであるか、または遺伝子シグネチャ差の結果的に得られる遺伝子セットのいずれかであってよい。
【０２１６】
電子ノーザン解析の好適な結果表示は、垂直方向または水平方向のいずれかのスプリットビューを選択するためのドロップダウンリストと、Ａｆｆｙｍｅｔｒｉｘ断片の数と、行数と、使用される上位および下位の百分位数と、使用される正規化と、百分位数を計算するために使用されるコールタイプ（存在、不在、または辺縁）とを含む。
【０２１７】
本発明の別の好適な実施形態において、電子ノーザン解析は、断片、属性、既知の遺伝子、試料の詳細、実験、試料、ドナー、配列クラスタ、およびＥノーザンプロットを含む、選択された遺伝子断片に関する詳細な情報を表示することが好ましい。
【０２１８】
Ｅノーザンプロットは、選択されたＡｆｆｙｍｅｔｒｉｘ断片に対する電子ノーザン結果および発現値の視覚的表現を表示する。Ｅノーザンプロットビューの頂上部分は、Ａｆｆｙｍｅｔｒｉｘ断片の選択された属性を表示する。プロットは、個々の試料に対する発現値に対応する目盛りまたは円を示し、ボックスの端部がユーザ指定の百分位数値を表す半透明のボックスプロットと重ね合わされている。また、プロットは、１つの入力試料セットごとに１行ずつ、遺伝子に対して複数の行を表示する。これらは、遺伝子が存在するとコールされている各試料セットにある試料のパーセンテージを示す棒グラフと対になっている。垂直バーは、中央値および四分位数範囲の±１．５倍の中央値に表示される。プロットのＸ軸は、目盛りをつけたマーカを示す。
【０２１９】
電子ノーザン解析（または、Ｅノーザン）は、入力として、ユーザ規定の遺伝子セットおよび１つ以上の試料セットをとり、ユーザ指定の存在／不在コール値を有する全ての試料にわたって、各試料セットの遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ遺伝子断片に対する発現レベルの範囲を報告する。この範囲は、百分位数値を用いて報告され、上位および下位の百分位数レベルＵおよびＬは、ユーザにより指定される。ユーザが、Ｕを１００と選択し、Ｌを０と選択すれば、解析は、選択された試料にわたった最大および最小の発現値を報告する。ユーザが、Ｕ＝７５およびＬ＝２５を選択すれば、上位および下位の四分位数値が報告される。中央値も同様に報告される。
【０２２０】
Ｅノーザンは、各試料セットに対して、以下のように計算される：
１．Ｅノーザンオプションのダイアログにおけるユーザの選択は、不在および辺縁コールを有する試料が計算においてどのように使用されるかを決定するために使用される。「計算に存在コールのみを含む」が選択されれば、存在コールを有する試料のみが百分位数および存在スコア計算において使用され、辺縁コールは不在コールと同一に処理され、不在スコアに含まれる。「計算に存在および辺縁コールを含む」が選択されれば、存在または辺縁コールのいずれかを有する試料が百分位数および存在スコア計算に含まれる。「計算に存在、辺縁、および不在コールを含む」が選択されれば、存在、辺縁、または不在コールを有する試料が、百分位数を計算するために使用され、辺縁コールは、存在スコアに含まれる。
【０２２１】
２．ユーザ指定の遺伝子セットにある各遺伝子断片に対して、存在および不在スコアは、所与の試料セットにある試料の存在および不在コールの数を計数し、遺伝子断片の発現データを有する試料の総数で各計数を除算することにより計算される。不明およびゼロのコールを有する試料は省略され、試料の総数に含まれない。この結果は、表の表示において分数として（例えば、１７／２２）およびＥノーザンプロットにおいてパーセンテージとして報告される。
【０２２２】
３．各遺伝子断片に対して、ユーザ選択されたコール値を有する試料にわたって、百分位数および中央値が計算される。これらの試料の発現値は、最初に、昇順で並び替えられる。これは、各発現値に対してランク順序Ｒ、Ｒ＝１．．．Ｎを発生し、ここで、Ｎは選択された試料の数である。Ｘ_Ｒをランク順序Ｒを有する発現値として規定する。
【０２２３】
４．３つの百分位数値、すなわち、５０番目の百分位数（すなわち、中央値）と、２つのユーザ指定の百分位数ＬおよびＵが計算される。値セットのＰ番目の百分位数は、セットにある値のＰパーセントがＸより小さくなるような値Ｘである。
【０２２４】
５．Ｍ＝１＋（（Ｐ／１００）^＊（Ｎ−１））とする。
【０２２５】
６．Ｍが整数であれば、Ｐ番目の百分位数は、ランク順序Ｍを有する発現値ＸＭである。
【０２２６】
７．Ｍが整数でなければ、Ｐ番目の百分位数は、値ＸＭとＸＭ＋１との間を補間することにより得られる。ＦをＭの端数部分とする。その場合、Ｐ番目の百分位数は、ＸＭ＋Ｆ^＊（Ｘ_Ｍ＋１−Ｘ_ｍ）として計算される。
【０２２７】
８．上記計算は、Ｐ＝Ｌ、Ｐ＝５０、およびＰ＝Ｕに対して実行される。
【０２２８】
本発明により、効率的な探究および解析を支援するリレーショナルフォーマットにおける遺伝子発現、遺伝子注解、および試料情報の解析システムおよび方法であって、さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、ＤＮＡ断片の生物学的特性の断片インデックスとを含むデータウェアハウスを提供することと、１つ以上のＤＮＡ断片の遺伝子発現に関する照会を受信することと、遺伝子発現レベルを臨床データベースおよび断片インデックスと相関させることと、前記相関の結果を表示することとを含む、システムおよび方法が提供される。
【０２２９】
本発明の１つの態様は、数千の試料にわたって測定された数万の遺伝子に対する遺伝子発現データを含む一連のデータベースである。本発明により、ユーザが、臨床および遺伝子データのサブセットを抽出し、解析を実行し、結果を表示するためのツールが提供される。
【０２３０】
本発明の１つの態様は、アプリケーションのインストールであることを認識されたい。アプリケーションのインストールに関しては、システム要求、アプリケーションのインストール、Ｊａｖａ実行時間環境、およびインストーラのダウンロードを含むいくつかの態様がある。
【０２３１】
システム要求に関して、本発明の好適な要求は、少なくとも２５６ＭＢのＲＡＭと、２５６ＭＢまでの仮想メモリセットを有し、ＷｉｎｄｏｗｓＮＴ４．０以上で動作する５００ＭＨｚのＰｅｎｔｉｕｍＩＩＩプロセッサと、少なくとも１０２４×８６４ピクセルおよび２５６色（１１５２×８６４ピクセルおよび６５５３６色を推奨）と、ＮｅｔｓｃａｐｅＮａｖｉｇａｔｏｒ（バージョン４．７）またはＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（バージョン５．０以上）と、本発明のインストールＷｅｂページに対してユーザにより提供されるＵＲＬと、作業環境アカウントと、本発明のインストールページからダウンロードされてよいＪａｖａ実行時間環境（ＪＲＥ）である。
【０２３２】
さらに、本発明を強化するために、ＳｐｏｔｆｉｒｅＰｒｏ（バージョン４．０以上）、ＳｐｏｔｆｉｒｅＡｒｒａｙＥｘｐｌｏｒｅｒ、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ２０００、ＥｉｓｅｎＣｌｕｓｔｅｒＴｏｏｌ、およびＧｅｎｅＳｐｒｉｎｇ、ＰａｒｔｅｋＰｒｏ２０００を含む他の市販ソフトウェアパッケージが利用されることも好ましい。
【０２３３】
本発明のアプリケーションをインストールするために、ユーザは、本発明のホームページを与えるＵＲＬに自分のＷｅｂブラウザを向けることが好ましい。次いで、ユーザは、本発明のダウンロードおよびインストールページを開くダウンロードオプションを選択できる。特に、このページは、本発明のアプリケーションのインストールステップと、Ｊａｖａ実行時間環境のインストールおよび本発明のインストーラのダウンロードステップの２つのステップを完了するための指示を与える。
【０２３４】
本発明の好適な実施形態において、アプリケーションは、氏名、電子メール、ファクシミリ番号、電話番号、および他の連絡情報を含むユーザプロファイル情報を利用する。
【０２３５】
時間の経過とともに、本発明のアプリケーションのユーザは、多数の試料セット、遺伝子セット、および解析結果を発展させることになる。本発明のアプリケーションは、ユーザ規定されたプロジェクトフォルダに体系化されたこれらのデータオブジェクトの中央集中化リポジトリとして働く作業環境を組み込むことが好ましい。ワークスペースへのアクセスは、ユーザ名、ユーザグループ提携、およびパスワードにより制御されることが好ましい。ユーザ規定のデータオブジェクトは、初期設定ではユーザ専用のものであるが、保存プロセス中に、ユーザは、データオブジェクトを他のユーザにアクセス可能にするオプションを有することが好ましい。
【０２３６】
本発明のアプリケーションのワークスペースウィンドウは、以下のコンポーネント、すなわち、メニューバー、クイックアクセスアイコン、メインウィンドウ、およびステータスバーを含むことが好ましい。
【０２３７】
メニューバーは、以下のメニューアイテム、すなわち、「ファイル」タブ、「編集」タブ、「照会」タブ、「解析」タブ、「表示」タブ、「ウィンドウ」ダブ、および「ヘルプ」タブを含むことが好ましい。
【０２３８】
「ファイル」タブには、選択されたデータオブジェクトを開く「開く」タブと、新しいプロジェクトフォルダを作成する「新規フォルダ」タブと、プロパティウィンドウを開く「プロパティ」タブと、アプリケーションを終了する「終了」タブとを含むいくつかのタブがあることが好ましい。
【０２３９】
「編集」タブには、選択されたオブジェクトを切り取る「切り取り」タブと、選択されたオブジェクトをコピーする「コピー」タブと、最後に切り取りまたはコピーされたオブジェクトを貼り付ける「貼り付け」タブと、選択されたオブジェクトを削除する「削除」タブと、選択されたオブジェクトの名前の変更を可能にする「名前変更」タブと、選択されたオブジェクトに対してアクセス許可を設定できる「許可」ウィンドウを開く「設定許可」タブとを含むいくつかのタブがあることが好ましい。
【０２４０】
「照会」タブには、「試料セットウィンドウ」を表示する「試料セット」タブと、「遺伝子照会」ウィンドウを表示する「遺伝子セット」タブとを含むいくつかのタブがあることが好ましい。
【０２４１】
「解析」タブには、「遺伝子シグネチャ解析」ウィンドウを表示する「遺伝子シグネチャ」タブと、「遺伝子シグネチャ差解析」ウィンドウを表示する「遺伝子シグネチャ差」タブと、「フォールド変化解析」ウィンドウを表示する「フォールド変化解析」タブと、「電子ノーザン」ウィンドウを表示する「Ｅノーザン」タブと、「発現データツール」ウィンドウを表示する「発現データツール」タブと、「対比解析」ウィンドウを表示する「対比解析」タブとを含むいくつかのタブがあることが好ましい。
【０２４２】
「表示」タブには、ツールバーをオンおよびオフに切り換える「ツールバー」タブと、ステータスバーをオンおよびオフに切り換える「ステータスバー」タブと、全てのユーザに対してアクセス可能なフォルダおよびデータオブジェクトを示す「全てのフォルダを表示」を含むさまざまな表示オプションをユーザが選択できるようにする「ワークスペース」タブと、ユーザのフォルダとデータオブジェクトのみを示す「マイフォルダ」と、フォルダおよび試料セットのみを示す「試料セット」と、フォルダおよび遺伝子セットのみを示す「遺伝子セット」とを含むいくつかのタブがあることが好ましい。「表示」タブは、データオブジェクトを名前で並び替える「名前による並び替えテーブル」タブと、データオブジェクトをオブジェクトタイプで並び替える「クラスによる並び替えテーブル」と、データオブジェクトを最後に修正した日付で並び替える「日付による並び替えテーブル」とを含むことが好ましい。また「表示」タブには、パスワードおよび連絡情報を更新可能な「ユーザプロファイル」ウィンドウを開く「マイプロファイル」タブがあることが好ましい。また、「表示」タブには、ツールチップディスプレイ用の設定を適用できる「ツールチップカスタマイザ」ウィンドウを開く「ツールチップカスタマイザ」タブがあることが好ましい。また、「表示」タブには、選択したフォルダのコンテンツの表示をリフレッシュする「選択したものをリフレッシュ」タブと、フォルダの全てをリフレッシュする「全てをリフレッシュ」タブがあることが好ましい。
【０２４３】
「ウィンドウ」タブには、作業環境ウィンドウを最前面にする「ワークスペース」タブと、開いている全てのウィンドウを見える状態にして、それらをデスクトップ上に配置する「全てを配置」タブと、作業環境ウィンドウ以外の全てを最小化する「全てを最小化」タブと、全てのウィンドウを最大化する「全てを最大化」タブと、現在開いているアプリケーションのウィンドウを列挙し、そのウィンドウを最前面にするように、アイテムの１つを選択できるようにする＜ウィンドウを開く＞タブとを含むいくつかのタブがあることが好ましい。
【０２４４】
「ヘルプ」タブには、ヘルプシステムにアクセスする「ヘルプ」タブと、新しいブラウザウィンドウが開いていなければ、それを起動し、アプリケーションのホームページに向ける「ホームページ」タブと、エラーログを表示する「エラーログ」タブと、本発明のアプリケーションのバージョンに関する情報を表示する「情報」タブとを含むいくつかのタブがあることが好ましい。
【０２４５】
本発明の別の好適な実施形態において、新しい「試料セット照会」ウィンドウを表示し、基準の選択と組織、細胞培養、または細胞株試料のセットに対する臨床データベースの照会に使用される「試料セット」アイコンと、新しい「遺伝子照会」ウィンドウを表示し、基準の選択と、遺伝子断片のセットに対する断片インデックスデータベースの照会に使用される「遺伝子セット」アイコンと、新しい「遺伝子シグネチャ解析」ウィンドウを表示し所与の試料セットに存在する遺伝子および不在の遺伝子の同定に使用される「遺伝子シグネチャ」アイコンと、新しい「遺伝子シグネチャ差解析」ウィンドウを表示し２つの所与の試料セットの遺伝子シグネチャ解析の比較に使用される「遺伝子シグネチャ差」アイコンと、新しい「フォールド変化解析」ウィンドウを表示し、試料セット対の間での平均発現レベルの比率の計算に使用される「フォールド変化」アイコンと、新しい「電子ノーザン解析」ウィンドウを表示し、１つ以上の試料セットの遺伝子セットにある各遺伝子断片の発現レベル範囲を図式的に表示する「電子ノーザン」アイコンと、新しい「発現データツール」ウィンドウを表示し１つ以上の試料セットの遺伝子セットにある遺伝子断片の発現データの視覚化に使用するための「発現データツール」アイコンと、新しい「対比解析」ウィンドウを表示し、発現パターンと適合する遺伝子の獲得に使用される「対比解析」アイコンとを含む、クイックアクセスアイコンが与えられることが好ましい。
【０２４６】
本発明のアプリケーションは、２つの領域からなるメインウィンドウを含むことが好ましく、それらは、ユーザのフォルダがトップにあり、次に公開フォルダが続き、その次に他のユーザのフォルダが続く、作業環境にあるフォルダおよびオブジェクトを示すツリーディスプレイと、現在選択されているフォルダにあるオブジェクトに関する詳細情報、例えば、名前、クラス名（すなわち、照会や解析のタイプ）、それらを作成するために使用されるチップセット、所有者、最終修正日、どのユーザがオブジェクトを読む（表示する）ことができるかを示すアクセス許可、およびどのユーザがオブジェクトに書き込みを行う（修正する）ことができるかを示すアクセス許可を含む情報を示すパネルである。
【０２４７】
本発明のアプリケーションの公開フォルダは、所定の遺伝子および試料セットを含み、各チップタイプに対する全ての遺伝子断片セットである「チップごとの遺伝子セット」と、各チップセットに対する全ての遺伝子断片のセットである「チップセットごとの遺伝子セット」と、チップセットによりグループ化された全ての制御遺伝子断片である「制御」と、チップセットにより体系化された代謝およびシグナリング経路の遺伝子断片である「経路」と、チップセットによりグループ化されたＲＮＡ品質制御用に使用される遺伝子断片である「ＱＣ制御」とを含むことが好ましい。「試料セット」には、正常な（すなわち、未処置の）マウスの特定の遺伝的性質を各試料セットが含む「正常なマウス」と、正常な（すなわち、未処置のいない）ラットの特定の遺伝的性質を各試料セットが含む「正常なラット」と、毒性研究グループ用の試料セットおよび蓄積されたＲＥＡＤＳ試料を含む「ＴｏｘＥｘｐｒｅｓｓ」があることが好ましい。
【０２４８】
本発明のアプリケーションの好適な実施形態において、データオブジェクトのプロパティ、例えば、オブジェクトの名前、オブジェクトのクラス、オブジェクト経路、オブジェクトを作成するために使用されるチップセット、オブジェクトの記述、およびオブジェクトのアクセス許可を表示することができる。
【０２４９】
ツールチップ情報は、マウスのカーソルをある特徴に保持することにより、アプリケーションにわたって表示されることが好ましい。ある特定に関連付けられたツールチップがあれば、それに関する追加情報がテキストボックスに表示される。ツールチップは、染色体情報を表示するさいに特に役立つ。ツールチップを表示するタイミングのカスタマイズ、言い換えれば、デスクトップ上にツールチップを表示する時間の長さの設定が可能であることが好ましい。
【０２５０】
本発明の好適な実施形態において、ユーザは、試料セットを作成することができる。試料セットは、遺伝子発現データを含むアプリケーション内の生物学的試料のグループである。ユーザは、データベースにある臨床データに適用される照会基準の組み合わせを特定することにより試料セットを規定することができる。照会が完了すると、本発明のアプリケーションは、基準を満たす試料リストを表示する。
【０２５１】
本発明のアプリケーションは、ヒト、マウス、およびラットからのさまざまな組織、細胞培養、および細胞株の試料に関する遺伝子チップ実験からのデータを含む。試料に対して、ドナーの特徴、医療履歴、実験室テストなどを含む数百の属性が維持される。いくつかの属性は、全ての試料に対して格納され、ある一定の他の属性セットは、特定の種および試料タイプに対してのみ維持される。例えば、アルコール摂取属性は、動物の組織、細胞培養、および細胞株試料に対しては格納されない。
【０２５２】
遺伝子チップは、３つから５つのチップタイプのセットにグループ化されることが好ましく、各チップセットは、単一の種の遺伝子に対するプローブを含む。試料セットは、単一の試料の試料のみを含むように制約される。場合によって、本発明の発現データベースは、同一の種に対して２つ以上のチップセットからのデータを含む。このため、試料セットは、さらなる制約、すなわち、試料セットにある全ての試料は、単一のチップセットからのデータベースに実験をもたなければならないという制約を受けることが好ましい。ユーザは、試料セットを制約するために使用する予定のチップセットを、照会を実行する前にチップセットメニューから選択することにより特定しなければならない。
【０２５３】
組織、一次細胞培養、および細胞株を含むいくつかの試料タイプがあることが好ましい。異なるタイプの試料を単一の試料セットに混合することが可能である。しかしながら、特定の試料タイプにのみ適用する属性に対して照会するために、ユーザは、そのタイプを、属性を選択する前にタイプメニューから選択することにより特定しなければならない。
【０２５４】
例えば、Ａｆｆｙｍｅｔｒｉｘ社は、さまざまな種からの組織における遺伝子発現を解析するための新しい遺伝子チップを定期的に発売しており、これらは３〜５チップからなるチップセットにグループ化されている。本発明のデータベースは、種ごとに複数のチップセットから得られたデータの混合を含むことが可能である。セットに現れる遺伝子断片のほとんどが、他のセットに相補物を有するが、各断片をプローブするために使用されるオリゴは、２つのセット間で異なる。言い換えれば、遺伝子セットは、異なるチップセットからの遺伝子断片の混合を含まなくてよく、試料照会は、チップセットと種により制限され、試料セットにある全ての試料は、照会が実行されたときに選択されたチップセットのチップからの実験をもたなければならず、試料の照会を適切にするために使用されるチップセットは、試料セットの属性として保存されることになり、解析は、解析用の入力である試料セットに関連付けられたチップセットにより制限され、複数の試料セットが入力されると、試料セットは全ての同一のチップセット属性をもたなければならず、解析により発生した遺伝子セットは、このチップセットに対して遺伝子断片のみを含むようにフィルタリングされることになる。
【０２５５】
試料セット照会ウィンドウにアクセスするために、照会メニューから試料セットを選択し、ワークスペースウィンドウにある試料セットアイコンをクリックする。試料セット照会ウィンドウがデスクトップ上に開く。
【０２５６】
本発明の好適な実施形態において、アプリケーションは、試料セット照会を与える。一般的に、試料セット照会により、ユーザは、特定の特徴を有する試料のセットを選択することができる。例えば、肝臓の線維形成を表す組織の試料セットを選択することができる。検索パラメータを特定するさいに、一連のステップが伴う。これらは、検索するためのデータベースの適切なサブセットを選択することを含む。この場合、チップセットは、「Ｈ．ｓａｐｉｅｎｓ（ＨＧ＿Ｕ９５）」として特定され、試料タイプは、「組織」として特定され、照会のベースとなる第１の属性を選択する。この場合、組織は「肝臓」であり、使用のベースとなる第２の属性を選択する。この場合、試料の病理／形態は、「線維形成」であり、実験室テスト属性を選択し、検索オプションを選択し、「並び替え」オプションを選択し、検索を実行する。
【０２５７】
結果は、多数の異なるフォーマットで表示可能であることを認識されたい。本発明の１つの好適なフォーマットにおいて、試料セット照会の結果は、試料セットウィンドウの結果パネルに自動的に表示されることになる。このウィンドウは、以下の情報、すなわち、検索で使用されたパラメータを示す結果のステートメントと、照会で獲得した試料の総数および現在選択されている数を示すステートメントと、照会から戻された試料のテーブルとを提示する。
【０２５８】
さらに、好適な実施形態において、試料詳細オプションが表示メニューにおいて選択されれば、詳細パネルは、ウィンドウの右側に表示されることになる。このパネルは、属性、実験、試料、およびドナーを含む選択された試料に関する詳細な情報を表示するタブ付きビューを含む。
【０２５９】
本発明の好適な実施形態において、ユーザは、試料セットが作成された時と方法に関する情報を格納および表示することができる。このウィンドウは、以下のもの、すなわち、試料セットの作成日、試料照会に使用されたチップセット、照会に使用されたパラメータ、および任意の関連する検索基準（例えば、並び替え順序）を含む。この履歴は、試料セットとともに保存されることが好ましい。
【０２６０】
別の好適な実施形態において、属性ベースの試料照会の代わりとして、既知のゲノム解析ＩＤのリストから試料セットを作成するためのゲノム解析ＩＤ照会メカニズムが提供される。
【０２６１】
本発明の別の実施形態は、属性による取り込みを与える。属性による取り込みオプションにより、特定の属性に対して値のリストに基づいて試料を取り込むことができる。これらの属性は、ユーザ作成のテキストファイルに事前に保存されていなければならない。取り込みの結果は、特定の属性の値がファイルにある任意の値と一致する全ての試料のリストとなる。
【０２６２】
試料セットは、後で再考するために、または解析とともに使用するために保存可能であることが好ましい。保存プロセス中、試料セットには名前が与えられ、ファイルへのアクセス権を有するものを制限するための許可を設定できる。
【０２６３】
別の好適な実施形態において、照会の検索パラメータとともに任意のデータを保存することなく、照会の検索パラメータを保存することが可能である。このようにして、後で使用するために照会にアクセスすることができる。ワークスペースに保存された試料セットおよび遺伝子とは異なり、照会テンプレートは、ローカルディスクに保存される。保存された試料セットは、さらなる解析を行うために再度開くことができる。保存されると、照会を満たすより多くの試料がデータベースに追加されても、結果のコンテンツは変更しない。試料セットを現行のものにするためには、照会を再度実行することが必要である。
【０２６４】
「試料セット」は、多数のメニューオプションを与えることが好ましい。これらは、以下のものを含む。すなわち、新しい「試料セット」ウィンドウを開く「ファイル」、「新しい試料セットウィンドウ」タブと、保存した試料セットを開くための「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを開く」タブと、保存した照会テンプレートを開くための「照会テンプレートを開く」ウィンドウを開く「ファイル」、「照会テンプレートを開く」タブと、試料を保存できる「試料セットを保存」ウィンドウを開く「ファイル」、「試料セットを保存」タブと、照会テンプレートを保存できる「照会テンプレートを保存」ウィンドウを開く「ファイル」、「照会テンプレートを保存」タブと、選択した試料を固有のセットとして保存できる「試料セットを保存」ウィンドウを開く「ファイル」、「選択した試料を保存」タブと、前に保存したテキストファイルからゲノム解析ＩＤのリストを取り込むために「開く」ウィンドウを開く「ファイル」、「試料ＩＤを取り込み」タブと、「属性により取り込み」ウィンドウを開く「ファイル」、「属性により取り込み」タブと、ゲノム解析ＩＤを保存するためにファイルを作成できる「保存」ウィンドウを開く「ファイル」、「試料ＩＤを出力保存」タブと、照会結果を出力保存するためのオプションを与える、「ファイル」、「出力保存」タブと、結果を見るために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、前に保存した試料セットを選択でき、現行の試料セットにはすでにない選択した試料セットの試料をそれに追加する「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットと結合」タブと、前に保存した試料セットを選択でき、現行の試料セットにあるこの新しいセット中の試料の任意のものを取り除き、その結果は２つの試料セット間のセット差である「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを除外」タブと、前に保存した試料セットを選択でき、両方の遺伝子セットに共通する試料のみを表示する「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを交差」タブと、試料セットウィンドウを閉じる「ファイル」、「閉じる」タブである。
【０２６５】
また、照会結果にある試料の全てを選択する「編集」、「全てを選択」タブと、選択した試料を削除する「編集」、「選択した試料を削除」タブと、選択した試料をクリップボードにコピーする「編集」、「選択した試料をコピー」タブと、コピーした試料をクリップボードから貼り付ける「編集」、「試料を貼り付け」タブと、チェックされれば結果パネルの詳細を表示する「表示」、「試料の詳細」タブと、ユーザが結果のディスプレイ列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、チェックされれば初期設定ディスプレイ列で検索を規定したパラメータを含める「表示」、「結果に条件属性を自動的に含む」タブと、Ａｆｆｙｍｅｔｒｉｘ正規化がサポートされているか否かを示す列を追加する「Ａｆｆｙ正規化」と、ＧｅｎｅＬｏｇｉｃ正規化が支援されているか否かを示す列を追加する「ＧｅｎｅＬｏｇｉｃ正規化」と、標準曲線正規化が支援されているか否かを示す列を追加する「標準曲線正規化」とを含める「表示」、「正規化サポート列を追加」タブとが含まれることが好ましい。
【０２６６】
正規化の目的は、異なる遺伝子チップ実験から報告された発現値の比較を可能にすることであるため、２つの異なる試料が遺伝子断片に対して同一の発現値を生じれば、断片に対するｍＲＮＡ転写の濃度が２つの試料で同一であるという適度な信頼度が存在する。チップの製造プロセスにおける変化、さらには他の要因が原因となり、正規化されていない強度値は、同一のＲＮＡ濃度をもつ断片に対してチップ実験ごとに大幅に変動する。この変動を調節するために、研究者等に利用可能な方法は多数ある。本発明のアプリケーションは、これらの方法の３つ、すなわち、Ａｆｆｙｍｅｔｒｉｘ正規化、ＧｅｎｅＬｏｇｉｃ正規化、および標準曲線正規化を支援することが好ましい。
【０２６７】
Ａｆｆｙｍｅｔｒｉｘ正規化は、Ａｆｆｙｍｅｔｒｉｘ社の遺伝子チップ解析ソフトウェア内で供給される方法である。このソフトウェアにより生成される平均差強度値（または、「ＡｖｅＤｉｆｆ」）は、この正規化プロセスの結果である。正規化された値は、正規化されていない値をスケールファクタで乗算することにより計算される。スケールファクタは、実験の全ての値に対して同じであり、以下のように計算される：
１．実験において全ての正規化されていないＡｖｅＤｉｆｆ値から、その値の最上位２％および最下位２％を切り捨てる。すなわち、実験で１０，０００発現値を生じれば、値を整列させて、最下位にある２００の値と最上位にある２００の値を切り捨てる。
【０２６８】
２．残りの値の平均値に等しい「調整平均値」を計算する。
【０２６９】
３．スケールファクタＳＦ＝１００／（調整平均値）を計算する。
【０２７０】
ＧｅｎｅＬｏｇｉｃ正規化アルゴリズムは、単一のチップ実験からの発現強度値が、小さいまたは大きい発現値を考慮するか否かに応じて、異なる分布を有するという観察に基づいたものである。ほとんどがノイズであると考えられる小さな値は、平均値０でほぼ正規分布されるのに対して、大きな値は、対数正規分布にほぼ従い、すなわち、それらの対数は、ゼロでない平均値で正規分布される。Ａｆｆｙｍｅｔｒｉｘ正規化が、実験において同じスケールファクタを全ての発現値に適用するのに対して、ＧｅｎｅＬｏｇｉｃ正規化は、「非エクスプレッサ」（小さな値）および「エクスプレッサ」（大きな値）に対して別のスケールファクタを計算する。アルゴリズムへの入力は、Ａｆｆｙｍｅｔｒｉｘ正規化されたＡｖｅＤｉｆｆ値であり、１００に等しい調整平均値を設定するためにすでにスケーリングされている。アルゴリズムは、負の値の標準偏差ＳＤノイズを計算し、これは非エクスプレッサからのものと考えられる。次いで、全ての負の値と、２．０^＊ＳＤノイズより小さい全ての正の値を、１／ＳＤノイズに比例するスケールファクタで乗算する。２．０^＊ＳＤより大きい値は、エクスプレッサからのものと考えられる。これらの値に対して、対数の標準偏差ＳＤ対数（信号）が計算される。次いで、対数は、１／ＳＤ対数（信号）に比例するスケールファクタにより乗算され、累乗される。ついで、その結果得られた値は、別のスケールファクタにより乗算され、２．０^＊ＳＤノイズの両側にあるスケーリングされていない値から正規化値に不連続点がないように選択される。標準曲線正規化は、チップ実験からのオリジナルの発現強度値を、試料に発現した各遺伝子に対する実際のｍＲＮＡ濃度に関係付けることを試みる。これを行うために、特定の遺伝子断片の既知の濃度は、試料ＲＮＡ混合物に「スパイクイン」された後、それをチップにハイブリダイゼーションしなければならない。（スパイクインに対してバクテリア遺伝子が使用されるため、試料ドナーからは追加のＲＮＡの寄与がないことになる。）チップ実験は、スパイクイン遺伝子断片に対して強度測定値を生じる。理想的に、強度は、濃度とともに線形に増大するため、強度が濃度に対してプロットされれば、データ点を結ぶ基点から直線を引き、その傾斜を用いて、チップ上の他の遺伝子断片に対するｍＲＮＡ濃度を推量することが可能でなければならない。実際、この関係をゆがめるノイズおよび非線形の影響があるが、それでも、データ点との最良の適合である基点からの直線を引くことができる。この直線は、「標準曲線」として知られている。
【０２７１】
この正規化の手順は以下のとおりである：
１．アイデンティティリンクおよびガンマエラーを用いて、強度対濃度の曲線に一般化された線形モデルが適合される。傾斜が決定され、傾斜で除算することにより未加工の強度値に適用されて濃度を得る。存在するとコールされたデータのみが適合に使用される。
【０２７２】
２．スパイクインのこれらの新しい濃度値がロジスティック回帰に入力されて（「Ａ」、「Ｍ」、「Ｕ」、または「Ｎ」は不在コールまたは０とし、「Ｐ」は存在コールまたは１とする）、最小感度を決定する。０．７のロジスティック予測に対応する濃度は、感度カットオフとして使用される。ロジスティック回帰がなければ、感度値は、不在コールの最大濃度と存在コールの最低濃度との間の差の０．７倍で補間により推定され、不在コールの最大濃度に追加される。
【０２７３】
３．０より下の濃度値は、感度カットオフの２分の１として報告される。
【０２７４】
４．０と感度値との間の濃度値は、感度カットオフと未加工値の平均として報告される。
【０２７５】
濃度値（ピコモル単位）は、強度ではなく発現値として報告される。
【０２７６】
標準曲線正規化は、このプロダクトバージョンに対して以下の意味を有する。使用するのに利用可能なチップセットオプションは、Ｈ．ｓａｐｉｅｎｓ（Ｈｕ４２Ｋ）、Ｈ．ｓａｐｉｅｎｓ（ＨＧ＿Ｕ９５）、Ｍ．ｍｕｓｃｕｌｕｓ（Ｍｕ１１Ｋ）、Ｍ．ｍｕｓｃｕｌｕｓ（Ｍｕ１９Ｋ）、Ｍ．ｍｕｓｃｕｌｕｓＭＧ＿Ｕ７４）、およびＲ．ｎｏｒｖｅｇｉｃｕｓ（ＲＧ＿Ｕ３４）を含む、アプリケーションがアクセス権を有するデータベースのコンテンツに応じて異なる。
【０２７７】
本発明のアプリケーションの別の好適な態様は、遺伝子セットの作成である。遺伝子セットは、１つ以上の遺伝子チップ上にプローブセットが与えられたＤＮＡ断片のリストである。ユーザは、遺伝子データベースに適用される照会基準の組み合わせを指定することにより遺伝子セットを規定する。照会が完了すると、本発明は、基準を満たす遺伝子リストを表示し、ユーザは、このリストから特定の遺伝子を選択でき、または、解析とともに使用するための遺伝子セットを保存することができる。
【０２７８】
Ａｆｆｙｍｅｔｒｉｘ断片は、本発明のアプリケーションが遺伝子発現情報を提供する基本ユニットである。本発明は、個々のプローブに対する未加工データへのアクセス権を与えないことが好ましい。遺伝子セットは、遺伝子インデックスの検索を実行することにより作成され、その結果は、後で使用するために保存することができる。遺伝子インデックスは、遺伝子断片注解のデータベースである。遺伝子断片注解は、Ａｆｆｙｍｅｔｒｉｘプローブセットを、ＵｎｉＧｅｎｅクラスタにリンクし、可能であれば、既知の遺伝子（ＮＣＢＩのＬｏｃｕｓＬｉｎｋｓデータベースにある）、さらには、蛋白質、酵素、経路、機能、および他のデータベースにリンクすることにより獲得される。
【０２７９】
Ａｆｆｙｍｅｔｒｉｘプローブセットは、種特異的なものである遺伝子チップ上に張り付けられている（制御プローブセットを除く）。例えば、ヒト４２Ｋチップセットは、６，８００ヒト全長ｍＲＮＡおよび３５ＫヒトＥＳＴに基づいた４２，０００プローブセットを含む。
【０２８０】
本発明の好適な態様は、遺伝子セットを照会する能力である。例えば、データベースは、脂肪酸代謝経路に関係する遺伝子断片を探すように検索できる。
【０２８１】
遺伝子セットを検索するさいの第１のステップは、遺伝子インデックスの適切なサブセットを選択することである。遺伝子を照会することにより、ユーザは、特定の種（すなわち、ヒト、ラット、またはマウス）の遺伝子断片に対してデータベースを検索できるようになる。次のステップは、経路を選択することである。この例では、脂肪酸の代謝経路が検索パラメータとして使用される。また、本発明により、検索オプションを選択することができ、これらの検索オプションは、以下の全てのもの、すなわち、このオプションが選択されると、検索は、全ての条件、例えば、経路「脂肪酸代謝」および断片タイプ「＿ｇ（共通グループ）」を満たす条件のみに対して実行されることになるというオプションと、以下の任意のもの、すなわち、このオプションが選択されると、検索は、選択された検索属性の任意のものに対して実行され、見つけられたものに対して結果が戻されることになるというオプションを含む。例えば、経路「脂肪酸代謝」および断片タイプ「＿ｇ（共通グループ）」のような別のパラメータの両方からの結果が戻される。さらに、大文字と小文字の区別というオプションを含み、このオプションは、テキスト値がタイプされている属性に当てはまる。このような場合、結果の大文字使用は、小文字または大文字のいずれかである入力されるものと完全に一致することになる。
【０２８２】
本発明のこの好適な実施形態において、ユーザは、結果の並び替え順序を指定できる。
【０２８３】
遺伝子セット照会の結果は、「遺伝子照会」ウィンドウの「結果」パネルに自動的に表示されることが好ましい。このウィンドウは、以下の情報、すなわち、実行される結果のタイプを示す結果に関するステートメントと、照会で獲得した遺伝子の総数および現在選択されている数を示すステートメントと、照会から戻された遺伝子のテーブルとを提示することが好ましい。
【０２８４】
好ましくは、「遺伝子詳細」オプションが「表示」メニューにおいて選択されれば、詳細パネルが表示されることになる。このパネルは、属性および既知の遺伝子を含む、選択された結果に関する詳細な情報を表示するタブ付きビューを含む。
【０２８５】
好ましくは、本発明のアプリケーションは、遺伝子チップと、発現差のある配列の制限酵素解析（ＲＥＡＤＳ）を与えるゲルとの両方で実行された試料のデータを含む。ＲＥＡＤＳゲルからのデータは、別のデータベースに格納されることが好ましい。
【０２８６】
好ましくは、遺伝子セットを作成する別の方法は、ヌクレオチドまたは蛋白質の配列から始まり、ＢＬＡＳＴを用いてその配列と一致するＡｆｆｙｍｅｔｒｉｘ断片を検索する。複数のＢＬＡＳＴの結果テーブルにおいて一致する遺伝子断片を区別するために、断片と一致した配列に対するタグを示す追加の列「照会配列」が表示されることが好ましい。２つ以上の照会配列が、同じＡｆｆｙｍｅｔｒｉｘ断片の典型配列と一致すれば、最も小さなｐ値をもつものが表示されることになる。ＢＬＡＳＴから遺伝子セットが作成されると、任意の他の結果のように操作および保存することができる。
【０２８７】
本発明のアプリケーションの別の好適な態様は、属性により取り込む能力である。「属性により取り込み」により、特定の属性に対する値のリストに基づいて、Ａｆｆｙｍｅｔｒｉｘ断片を取り込むことができる。これらの属性は、ユーザー作成のテキストファイルに事前に保存されなければならない。取り込みの結果は、特定の属性に対する値がファイルにある値の１つに一致する全てのＡｆｆｙｍｅｔｒｉｘ断片のリストになる。ＧｅｎＢａｎｋＩＤ取り込みは、ＥｘｅｍｐｌａｒＳｅｑの値、すなわち受入属性に従って取り込むことができる。
【０２８８】
遺伝子セットは、後に使用するために、または解析とともに使用するために保存できることが好ましい。保存された遺伝子セットは、さらなる解析を行うために再度開くことができる。保存されると、照会を満たすより多くの遺伝子がデータベースに追加されても、結果のコンテンツは変更しない。試料セットを現行のものにするためには、照会を再度実行することが必要である。ユーザがオリジナルの結果の維持を望めば、別の名前で新しい結果を保存する。
【０２８９】
遺伝子セット照会とともに使用するために利用可能なさまざまなメニューオプションがあることを認識されたい。これらのメニューオプションは以下のものを含む。新しい「遺伝子セット」ウィンドウを開く「ファイル」、「新しい遺伝子セットウィンドウ」タブと、前に保存した遺伝子セットを開くことができる「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを開く」タブと、保存した照会テンプレートを開くことができる「照会テンプレートを開く」ウィンドウを開く「ファイル」、「照会テンプレートを開く」タブと、遺伝子を保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、照会テンプレートを保存できる「照会テンプレートを保存」ウィンドウを開く「ファイル」、「照会テンプレートを保存」タブと、選択した遺伝子を固有のセットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択した遺伝子を保存」タブと、取り込む対象の前に保存したＡｆｆｙｍｅｔｒｉｘ断片名ＩＤを見つけるためにブラウズできる「開く」ウィンドウを開く「ファイル」、「遺伝子ＩＤを取り込み」タブと、「属性により取り込み」ウィンドウを開く「ファイル」、「属性により取り込み」タブと、遺伝子ＩＤを保存したファイルを作成でき、他の第３者のアプリケーションとともにそれを使用できる「保存」ウィンドウを開く「ファイル」、「遺伝子ＩＤを出力保存」タブと、照会結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、前に保存した遺伝子セットを選択でき、現行の試料セットにはすでにない選択したセットの遺伝子をそれに追加する「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットと結合」タブと、前に保存した遺伝子セットを選択でき、現行の遺伝子セットにあるこの新しいセットの遺伝子の任意のものを取り除き、その結果が２つの遺伝子セット間のセット差である「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを除外」タブと、前に保存した遺伝子セットを選択でき、両方の遺伝子セットに共通する遺伝子のみを表示する「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを交差」タブと、遺伝子セットウィンドウを閉じる「ファイル」、「閉じる」タブである。
【０２９０】
また、遺伝子セット照会は、遺伝子セットにある結果の全てを選択する「編集」、「全てを選択」タブと、遺伝子セットからの選択した遺伝子試料を取り除く「編集」、「選択した試料を削除」タブと、選択した遺伝子をクリップボードにコピーする「編集」、「選択した遺伝子をコピー」タブと、コピーした遺伝子をクリップボードから貼り付ける「編集」、「遺伝子を貼り付け」タブとを含むことが好ましい。
【０２９１】
また、遺伝子セット照会は、チェックされれば、結果パネルの詳細を表示する「表示」、「遺伝子の詳細」タブと、結果を表示するための列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、チェックされれば表示される初期設定列で検索を規定したパラメータを含める「表示」、「結果に条件属性を自動的に含む」タブと、追加のＢＬＡＳＴ情報（配列アライメント）を表示できる初期設定ＷｅｂブラウザにＢＬＡＳＴの結果を出力保存する「表示」、「Ｂｌａｓｔ出力」タブと、「表示」、「ＲＥＡＤＳリンク列を追加」タブとを含むことが好ましい。
【０２９２】
また、遺伝子セット照会は、遺伝子チップを選択する能力を含むことが好ましい。使用するのに利用可能なチップセットオプションは、Ｈ．ｓａｐｉｅｎｓ（Ｈｕ４２Ｋ）、Ｈ．ｓａｐｉｅｎｓ（ＨＧ＿Ｕ９５）、Ｍ．ｍｕｓｃｕｌｕｓ（Ｍｕ１１Ｋ）、Ｍ．ｍｕｓｃｕｌｕｓ（Ｍｕ１９Ｋ）、Ｍ．ｍｕｓｃｕｌｕｓ（ＭＧ＿Ｕ７４）、およびＲ．ｎｏｒｖｅｇｉｃｕｓ（ＲＧ＿Ｕ３４）を含む、アプリケーションがアクセス権を有するデータベースのコンテンツに応じて異なる。
【０２９３】
本発明のアプリケーションの別の好適な実施形態は、試料セットのチップセットに現れる遺伝子断片の全てから２つの遺伝子断片セット、すなわち、試料セット内に一貫して発現するものと、一貫して発現しないものとを取り出す試料セットの遺伝子シグネチャ解析である。
【０２９４】
遺伝子シグネチャ解析を実行するために、２つの閾値パーセンテージ、１つは「存在」セットと、もう１つは「不在」セットとして発現の「一貫性」を定量化することが必要である。発現の一貫性は、試料セットにおいて、遺伝子（Ａｆｆｙｍｅｔｒｉｘ断片）が発現する頻度または発現しない頻度の大きさである。例えば、試料セットに５つの試料があり、ユーザが存在および不在の閾値パーセンテージをそれぞれ８０％および８０％に設定すれば、遺伝子シグネチャ解析は、５つの試料のうち少なくとも４つに存在する１つの遺伝子セットと、５つの試料のうち少なくとも４つに不在の別のセットを計算する。
【０２９５】
遺伝子シグネチャ解析を計算するために、特定の試料の「辺縁」コールを有するＡｆｆｙｍｅｔｒｉｘ断片は、「不在」断片と同じものとして扱われる。「不明」コールを有する断片は、遺伝子シグネチャ計算において無視される。特定のＡｆｆｙｍｅｔｒｉｘ断片に対して、ｐ、ｍ、およびａが、それぞれ、断片が存在、辺縁、および不在の場合の試料の数であれば、分数ｐ／（ｐ＋ｍ＋ａ）と（ｍ＋ａ）／（ｐ＋ｍ＋ａ）が計算され、これらの分数は、断片は、遺伝子シグネチャセットのいずれかに属するかを決定するために、存在および不在の閾値パーセンテージに対して比較される。
【０２９６】
例えば、試料セットＳ＝｛ｓ１，ｓ２，ｓ３，ｓ４｝および遺伝子｛ｇ１，ｇ２，ｇ３，ｇ４，ｇ５，ｇ６，ｇ７，ｇ８，ｇ９｝とする以下の表に示す存在／不在／辺縁／不明コール値が本発明のデータウェアハウスに含まれるとする。（実際には、数千の遺伝子のデータがあるが、説明を目的として９つの遺伝子しか示していない。）各遺伝子の列の最下部には、試料セットＳでの各遺伝子の存在、不在、辺縁コールの数から計算されたパーセンテージが示されている。存在および不在の閾値パーセンテージの両方が７５％に設定されていると仮定する。その場合、この試料セットに対して、遺伝子シグネチャ演算は、遺伝子｛ｇ１，ｇ２，ｇ３，ｇ４｝を含む「存在遺伝子セット」と、｛ｇ５，ｇ６，ｇ７，ｇ９｝を含む「不在遺伝子セット」を戻す。
【０２９７】
また、遺伝子シグネチャ解析は、存在および不在セットにある各遺伝子の平均値、中央値および標準偏差を計算する。ユーザは、遺伝子シグネチャ結果に表示されるこれらの値の任意または全てを選択することができる。
【０２９８】
遺伝子シグネチャの曲線は、以下のように計算される：
１．試料セットにある各試料の存在遺伝子総数を計算する。
【０２９９】
２．試料を存在遺伝子総数により昇順に並べる。
【０３００】
３．第１の試料にある存在遺伝子のセットに対してＰを初期化する。曲線にある第１の点の高さはＰの遺伝子の数である。
【０３０１】
４．Ｐを第２の試料にある存在遺伝子のセットと交差させ、試料セットにある各遺伝子に対して繰り返す。曲線にある連続点の高さは、各交差ステップ後のＰにある遺伝子の数である。各点のＸ軸成分は、格納された試料セットにある対応する試料のインデックスである。
【０３０２】
５．不在遺伝子に対してステップ１〜４を繰り返し、別のグラフに交差セット総数をプロットする。
【０３０３】
本発明の好適な態様において、遺伝子シグネチャ曲線は、指定されたパーセンテージ閾値を考慮しない。遺伝子シグネチャ曲線は、遺伝子シグネチャの堅牢テストとして働く。遺伝子シグネチャ曲線の目的は、遺伝子シグネチャ動作が安定性に到達できる程度に十分な試料を有するということ、すなわち、交差後の総数が著しく変化しないということを示すことである。遺伝子シグネチャの存在および不在遺伝子セットを生成するために使用される方法は、遺伝子シグネチャ曲線を計算するために使用されるアルゴリズムと同一のものではない。遺伝子シグネチャの計算は、存在／不在遺伝子セットを獲得するために、閾値パーセンテージを利用するが、曲線の計算は利用しない。さらに、Ｕ（不明）およびＮ（発現データなし―すなわち、紛失チップとの試料）コールは、遺伝子シグネチャと遺伝子シグネチャ曲線との間との相違を生成するさいに重要な役割を担う。
【０３０４】
計算アルゴリズムが、発現データが存在する試料のみを含むことにより、部分的チップセットおよび紛失データを修正することに留意されたい。したがって、全ての遺伝子は、それらの各々が試料の一部分にしか存在しないとコールされても、存在遺伝子セットに含まれる。
【０３０５】
本発明において、ゼロに等しい「遺伝子数」の値はプロットされない。この理由は、ｘ軸上に示される最大数が、試料セットにある試料数と異なることがあり、存在および不在の遺伝子シグネチャ曲線との間でも異なることがあるためである。アルゴリズムは、最初に、試料を存在総数により昇順に並べた後、Ｐを第１の試料にある存在遺伝子のセットに対して初期化する。曲線にある第１のバーの高さはＰにある遺伝子の数であり、Ｐは第２の試料にある存在遺伝子のセットと交差し、Ｐに残る遺伝子の数は曲線にある第２のバーの高さとして示される。このプロセスは、試料セットにある各試料に対して繰り返される。Ｕ（不明）およびＮ（試料のデータなし）コールは、これらの「不規則性」を生成するさいの重要な役割を担う。この例は、同じデータ上にこれらの２つのアルゴリズムによりどのように外見上の不規則性が生成されるかを示す。したがって、ヒストグラムチャートにある最後の要素が、遺伝子セットのサイズと同じでないを獲得するとともに、ｘ軸が試料セットのサイズに等しくない値を獲得することができる。
【０３０６】
事前に作成された「乳癌」試料を用いて、遺伝子シグネチャを計算する一例として、存在および不在の閾値が７５％に設定された場合の遺伝子シグネチャを計算することができる。乳癌試料セットは、Ｈ．Ｓａｐｉｅｎｓ（ＨＧ＿９５Ｕ）チップセット、臓器：胸部、形態：浸潤性腺菅癌の検索パラメータを用いて得られたものである。
【０３０７】
遺伝子シグネチャ解析の結果を表示できるさまざまな方法がある。解析が完了した後、結果は、遺伝子シグネチャ解析ウィンドウの要約タブに表示されることが好ましい。このウィンドウは、以下の情報、すなわち、存在遺伝子セットにある遺伝子断片数を表示するパネルと、不在遺伝子セットにある遺伝子断片数を表示するパネルと、試料セット名および試料セットが含む試料数に関する情報を提示する。
【０３０８】
好適な初期設定要約列は、以下のものを含む。すなわち、ゲノム解析ＩＤ、実験、全存在コール、全不在コール、全不明コール、存在コール（存在遺伝子セット）、不明コール（存在遺伝子セット）、不在コール（不在遺伝子セット）、および不明コール（不在遺伝子セット）である。
【０３０９】
遺伝子シグネチャ履歴は、表示されることが好ましい。これは、解析を計算するために使用される閾値と、解析が実行された日時と、解析のために使用される実行時間エンジン（ＲＴＥ）のバージョンに関する情報を提示する。
【０３１０】
「表示」メニューで「詳細パネルを示す」オプションが選択されれば、詳細パネルが表示されることが好ましい。このパネルは、試料の詳細、属性、実験、試料、およびドナーを含む、選択された試料に関する詳細な情報を表示するビューを含む。
【０３１１】
本発明の好適な態様において、遺伝子シグネチャ曲線は、「断片数対試料数」および「断片数対閾値パーセンテージ」を含むいくつかのオプションを与える。
【０３１２】
「断片数対試料数」オプションは、一対の遺伝子シグネチャ曲線、すなわち、存在遺伝子セットのものと、不在遺伝子セットのものとを表示する。この表示は、試料セットが有効な遺伝子シグネッチャを生成できる程度に大きいものかという視覚的な感覚をユーザに与える目的のものである。遺伝子シグネチャ曲線の試料数は、試料セットの試料数と異なる場合がある。
【０３１３】
「断片数対閾値パーセンテージ」オプションは、閾値パーセンテージの関数として、存在および不在遺伝子の総数を表示する。例えば、８４の試料のうち７６に有資格断片が存在または不在であることを意味する９０％に両方の閾値が設定されれば、存在および不在セットにある断片数は、それぞれ約１０，０００および３０，０００になる。閾値が７５％（より厳密）に設定されれば、セットはそれぞれ約１３，０００および３９，０００になる。
【０３１４】
遺伝子断片結果に関する詳細な情報は、「遺伝子セット結果」タブに表示されることが好ましい。これらは、存在遺伝子セット結果と、不在遺伝子セット結果と、選択されたタブに応じて、存在または不在遺伝子セットの遺伝指数と、使用された正規化のタイプに関するステートメントと、存在遺伝子セットまたは不在遺伝子セットのビューの両方にある遺伝子結果のテーブルとを含む。
【０３１５】
本発明は、選択されれば、属性および既知の遺伝子を含むＡｆｆｙ断片の詳細と、属性、実験、試料、およびドナーを含む試料の詳細と、配列クラスタと、プロットとを含む選択された遺伝子断片に関する詳細な情報を表示する「詳細を示す」オプションを含むことが好ましい。
【０３１６】
「配列クラスタ」タブは、試料断片が分類されたＵｎｉＧｅｎｅクラスタの脈絡で遺伝子断片のビューを提示することが好ましい。メイン結果ウィンドウの行を選択した後、このタブを選択することにより、対応する試料または試料セットにわたって、同じＵｎｉＧｅｎｅクラスタにおいて全ての遺伝子断片の発現値を有するテーブルを表示することが可能である。
【０３１７】
本発明のプロットの態様は、選択されたＡｆｆｙｍｅｔｒｉｘ断片に対する発現値の視覚的表現を表示することが好ましい。プロットは、個々の試料に対する発現値に対応する線または円（ユーザの好みによる）を示し、ボックスの端部がユーザ指定の百分位数値を表す半透明ボックスプロットと重ね合わされている。
【０３１８】
また、プロットは、１つの入力試料セットごとに１行ずつ、遺伝子に対して複数の行を表示する。これらは、遺伝子が存在するとコールされている各試料セットにある試料のパーセンテージを示す棒グラフと対になっている。垂直バーは、中央値、四分位数範囲の−１．５倍の下位四分位数、および四分位数範囲の＋１．５倍の上位四分位数で表示される。正規分布を仮定すると、極限バーは、中央地から約３標準偏差離れた位置にある。それらの位置は、ユーザ指定の百分位数から独立したものである。プロットのＸ軸は、発現強度を示す目盛りをつけたマーカを示す。
【０３１９】
本発明の好適な態様は、経路を表示する能力である。「経路ビューア」タブは、発現値が既知の代謝または酵素経路上にある経路ディスプレイを提示する。
【０３２０】
本発明の別の好適な態様は、染色体マップを表示する能力である。「染色体ビューア」タブは、染色体マップ上の発現値を与えるディスプレイを提示する。染色体ダイヤグラムは、マーカの数および表示されるマッチ数に関するステートメント、すなわち、染色体のＡｆｆｙｍｅｔｒｉｘ断片の総数および現行の遺伝子セットからの数に関するステートメントと、この例では「平均」値が選択された、ディスプレイオプションに関するステートメントと、他の結果テーブルのようにテーブルを操作できる、結果データを含むテーブルと、発現値を表示する縦軸とともに、染色体画像を表示するパネルとを与えることが好ましい。
【０３２１】
この好適な実施形態において、「中央値」オプションは、マイナスまたはプラスストランドにマッピングされた試料セットに対する中央発現値を表示し、「平均値」オプションは、マイナスまたはプラスストランドにマッピングされた試料セットに対する平均発現値を表示し、「未加工発現値」オプションは、全ての試料に対する発現値を表示し、「コール値」オプションは、全ての試料に対する「コール値」を表示する。
【０３２２】
固有の遺伝子セットとして結果の任意または全てを保存可能であることが好ましい。この遺伝子セットは、他の解析とともに使用できる。
【０３２３】
本発明のアプリケーションの別の好適な実施形態において、「遺伝子マスクを設定」オプションにより、遺伝子セットをフィルタリングすることができる。遺伝子マスクにより、共有遺伝子を明らかにするために遺伝子セットを交差させるか、または遺伝子セット間の差を表示するかのいずれかが可能になる。
【０３２４】
解析から得られた結果は、ＥｉｓｅｎＣｌｕｓｔｅｒＴｏｏｌ、ＧｅｎｅＳｐｒｉｎｇ、およびＰａｒｔｅｋＰｒｏ２０００を含むさまざまな第３者のアプリケーションに出力保存できることが好ましい。
【０３２５】
遺伝子シグネチャ解析とともに使用するのに利用可能なさまざまなメニューオプションがあることが好ましい。これらのメニューオプションは以下のものを含む。新しい遺伝子シグネチャ解析ウィンドウを開く「ファイル」、「新しく開く」オプションと、保存された遺伝子シグネチャを開くことができる「遺伝子シグネチャを選択する」ウィンドウを開く「ファイル」、「開くウィンドウ」と、遺伝子シグネチャを保存できる「遺伝子シグネチャを保存する」ウィンドウを開く「ファイル」、「遺伝子シグネチャを保存」ウィンドウと、遺伝子セットとして結果を保存できる「ファイル」、「遺伝子セットを保存」オプションと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」オプションと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」オプションと、結果を表示するために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」オプションと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」オプションと、「遺伝子シグネチャ解析」ウィンドウを閉じる「ファイル」、「閉じる」オプションとを含む。
【０３２６】
また、遺伝子シグネチャ解析は、以下のものを含むことが好ましい。すなわち、「計算」タブにアクセスする「表示」、「計算フォーム」オプションと、「要約」タブにアクセスする「表示」、「要約」オプションと、遺伝子シグネチャ曲線タブにアクセスする「表示」、「ＧＳ曲線」オプションと、「遺伝子セット結果」タブにアクセスする「表示」、「遺伝子セット結果」オプションと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」オプションと、「染色体ビューア」タブにアクセスする「表示」、「染色体ビューア」オプションと、チェックされれば「要約」または「結果」パネルに詳細を表示する「表示」、「詳細パネルを示す」オプションと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」オプションと、遺伝子セットに対してマスクを追加または除去するために「遺伝子セットマスクを追加／除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加／除去」オプションと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」オプションと、選択されていない遺伝子を結果から除去する「表示」、「選択されていない遺伝子を除去」オプションと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットへリセット」オプションと、結果を並び替える「表示」、「並び替え」オプションと、表示オプションを選択するための遺伝子シグネチャ表示オプションを開く「表示」、「オプション」オプションと、プロットに対して表示オプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」オプションとを含む。
【０３２７】
本発明の別の好適な実施形態において、アプリケーションは、遺伝子シグネチャ差解析を実行できる。遺伝子シグネチャ差解析は、２つの試料セットの結果を比較する。これらの２つの試料セットを用いて、解析は、２つの新しい遺伝子断片セットを計算する。
【０３２８】
遺伝子シグネチャ差解析は、２つの試料セット（事前に計算および保存されたものでなければならない）を比較する。解析は、２つの新しい遺伝子断片セットを導き出す。すなわち、第１の試料セットの存在遺伝子セットと第２の不在遺伝子セットとの両方にあるものと、第１の試料セットの不在遺伝子セットと第２の存在遺伝子セットとの両方にあるものである。
【０３２９】
２つの入力セット名、使用される試料のサイズ、および遺伝子シグネチャを計算するために使用される閾値と、２つの存在セット、すなわち、＜遺伝子セット１＞にのみ存在、＜遺伝子セット２＞にのみ存在にある遺伝子数を要約したテーブルと、解析の日時および使用される実行時間エンジンのバージョンを記録する履歴パネルとを含むシグネッチャ差解析の結果の提示部分がいくつかあることが好ましい。
【０３３０】
ユーザが選択したデータに対する遺伝子断片セットに関する詳細な情報は、「遺伝子セット結果」タブに表示されることが好ましい。この表示に提示された情報は、以下のものを含むことが好ましい。すなわち、＜第１の遺伝子セット＞にのみ存在する遺伝子セットを表示するタブと、＜第２の遺伝子セット＞にのみ存在する遺伝子セットを表示するタブと、両方の（遺伝子セット）に存在する遺伝子セットを表示するタブと、両方の（遺伝子セット）に不在の遺伝子セットを表示するタブと、結果の行数と使用された正規化のタイプのステートメントと、選択されたタブ表示にある遺伝子のテーブルである。
【０３３１】
「表示」メニューにおいて「詳細なパネルを示す」オプションが選択されれば、詳細なパネルが表示されることが好ましい。このパネルは、試料の詳細、属性、実験、試料、およびドナーと、配列クラスタと、プロットとを含む選択された試料に関する詳細な情報を表示するビューを含む。
【０３３２】
表示オプションを選択することにより、「遺伝子セット結果」タブのデータコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば有資格Ａｆｆｙｍｅｔｒｉｘ断片のユーザ指定属性が表示される「Ａｆｆｙ断片を示す」と、選択されれば各Ａｆｆｙｍｅｔｒｉｘ断片に対する発現値統計値も表示される「（試料セット当たりの）全体値」と、選択されれば結果テーブルが、試料セットにある全ての試料の断片に対する存在／不在コールおよび量的発現値を含む遺伝子当たり１行を表示する「発現およびコール値（遺伝子当たり１行）」と、選択されれば結果テーブルが断片に対する実際の存在／不在コールおよび量的発現値を含む試料当たり断片当たり１行を表示する「発現およびコール値（試料当たり遺伝子当たり１行）」とを含む。
【０３３３】
また、本発明のアプリケーションは、経路を表示する能力を含むことが好ましい。「経路ビューア」タブは、既知の経路に発現値がある経路ディスプレイを提示する。
【０３３４】
表示オプションを選択することにより、「経路ビューア」タブが表示するコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば入力試料セットによる全ての試料にわたって、経路と重複する選択された遺伝子セットに各Ａｆｆｙｍｅｔｒｉｘ断片に対して中央発現レベルが表示される「試料セットの中央値」と、選択されれば入力試料セットにある全ての試料にわたって、経路と重複する選択された遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ断片に対し、平均発現レベルが表示される「試料セットの平均値」と、選択されれば入力試料セットにある全ての試料にわたり、経路と重複する選択された遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ断片に対して、未加工発現レベルが表示される「未加工発現値（選択されたＡｆｆｙ断片のみ）」と、選択されれば入力試料セットにある全ての試料にわたり、選択された遺伝子セットにかかわらず、経路にマッピングする全てのＡｆｆｙｍｅｔｒｉｘ断片に対して、未加工発現レベルが表示される「未加工発現値（経路の全てのＡｆｆｙ断片）」とを含む。
【０３３５】
また、本発明のアプリケーションは、染色体マップを表示する能力を含むことが好ましい。「染色体ビューア」タブは、染色体マップにわたって発現値を与えるディスプレイを提示する。
【０３３６】
表示オプションを選択することにより、「染色体ビューア」タブが表示するコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば遺伝子シグネチャ試料にある全ての試料にわたって各遺伝子断片に対する中央発現値が染色体に対して表示される「試料セットの中央値」と、選択されれば遺伝子シグネチャ試料セットにある全ての試料にわたって各遺伝子断片に対する平均発現値が染色体に対して表示される「試料セットの平均値」と、選択されれば選択された試料セットにある各試料の各遺伝子に対する未加工発現値が表示される「試料の未加工発現値」と、選択されればコール値が表示される「試料のコール値」とを含む。
【０３３７】
遺伝子シグネチャ差は、後で使用するために保存できることが好ましい。また、固有の遺伝子セットとして結果的に得られるセットの任意または全てを保存可能であることが好ましい。この遺伝子セットは、他の解析とともに使用することができる。さまざまなオプションは、＜「第１の遺伝子セット」＞にのみ存在と、＜「第２の遺伝子セット」＞にのみ存在と、両方に存在と、両方に不在とを含む遺伝子セットを保存するさいに含まれることが好ましい。
【０３３８】
遺伝子シグネチャ差のメニューオプションはさまざまなメニューオプションを含む。すなわち、新しい遺伝子シグネチャ差解析ウィンドウを開く「ファイル」、「新規」タブと、前に保存した遺伝子シグネチャ差を開くことができる「遺伝子シグネチャ差を選択」ウィンドウを開く「ファイル」、「開く」タブと、遺伝子シグネチャ差を保存できる「遺伝子シグネチャ差を保存」ウィンドウを開く「ファイル」、「遺伝子シグネチャ差を保存」タブと、「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、固有遺伝子セットとしてテーブルに選択された遺伝子断片を保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「遺伝子シグネチャ差解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【０３３９】
また、遺伝子シグネチャ差のメニューオプションは、以下のものを含むことが好ましい。すなわち、「計算」タブにアクセスする「表示」、「計算フォーム」タブと、「要約」タブにアクセスする「表示」、「要約」タブと、「遺伝子セット結果」タブにアクセスする「表示」、「遺伝子セット結果」タブと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」タブと、「染色体ビューア」タブにアクセスする「染色体ビューア」タブと、チェックされれば「結果」パネルに詳細を表示する「詳細パネルを示す」タブと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、遺伝子セットに対してマスクを追加または除去するために「遺伝子セットマスクを追加／除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加／除去」タブと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、選択されていない遺伝子を結果から除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットへリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための遺伝子シグネチャ差オプションを開く「表示」、「オプション」タブと、プロットに対して表示オプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含む。
【０３４０】
また、本発明のアプリケーションは、フォールド変化解析を実行する能力を含むことが好ましい。フォールド変化解析は、フォールド変化率を計算するために、制御試料セットと実験試料セットとの間のチップセットにある各遺伝子断片の平均発現レベルを比較する。フォールド変化解析は、試料セット対の間での発現差のある遺伝子の発現の変化を定量化する。各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類される。
【０３４１】
フォールド変化解析は、量的発現値で動作する。これは、選択された遺伝子断片セットの各々に対して、制御試料セットおよび実験試料セットにおける発現強度の幾何平均の比率を計算する。フォールド変化は、この比率に等しい。比率が１より小さく、ユーザが大きさと方向をもつフォールド変化の表示を選択すれば、フォールド変化の大きさは、「下降」の方向をもつ、比率の逆数である。異なる実験試料セットと一致する制御試料セットとの間で、複数のフォールド変化比較が並列に実行されてよい。解析は、各試料セット対の間での平均発現値のフォールド変化により遺伝子断片を分類し、フォールド変化がユーザ指定の範囲内にある断片またはユーザ指定の遺伝子セットの断片に関する詳細な発現情報を報告する。また、可能であれば、信頼度制限値およびｐ値も計算される。アルゴリズムは、両側Ｗｅｌｃｈ修正された２標本ｔ検定に基づいている。各試料セットの発現強度の対数は正規分布され、各制御試料セットの分散が、比較する対象の実験セットの分散と異なると仮定する。
【０３４２】
ｐ値は、複数の比較に対して修正されないことに留意されたい。ｔ検定に使用される帰無仮説は、発現値の対数の分布平均値が、２つの試料セットにおいて同じであるということである。別の仮設は、平均値が異なるということである。報告されるｐ値は、観察されたものと極端に同じ平均値の差（ひいては、フォールド変化）が、帰無仮説下において獲得されるという確率の推定値である。
【０３４３】
フォールド変化値の信頼度制限値は、仮定の同じセットに従って計算される。初期設定により、９５％信頼度制限値が計算され、異なる信頼度レベルがユーザにより指定できる。報告する上位および下位９５％信頼度制限値は、上記の仮定下において、分布平均値の実際の比率が区間内にあるという９５％確率が存在する場合の区画の推定範囲である。両方の試料セットは、２つ以上の試料をもたなければならない。試料セットの一方または両方が１つの要素しかもたなければ、以下に記載するアルゴリズムを用いて、フォールド変化を報告することはできるが、信頼度制限値およびｐ値は計算できない。
【０３４４】
フォールド変化は、断片ごとに計算される。すなわち、フォールド変化アルゴリズムは、各断片に別々に適用される。ユーザは、解析に対して、ＧｅｎｅＬｏｇｉｃ正規化、標準曲線正規化、またはＡｆｆｙｍｅｔｒｉｘ正規化された発現値を選択するオプションを有するが、同じ正規化が、全試料および遺伝子にわたって使用されなければならない。ＧｅｎｅＬｏｇｉｃまたはＡｆｆｙｍｅｔｒｉｘ正規化を用いて、発現値に下限が適用され、使用される下限値は、ノイズパラメータＱに基づくものであり、選択される正規化のタイプに依存する。
【０３４５】
ＧｅｎｅＬｏｇｉｃ正規化された発現値（「ＧＬ発現値」）に対して、各チップは、１０に等しい標準化されたノイズレベルＱを有する。さらに正確に言えば、各チップ上のノイズの分布は、ＧｅｎｅＬｏｇｉｃ正規化の一部として推定され、０付近のＧＬ発現値の標準偏差が１０に等しくなるように発現値を再計算する。
【０３４６】
Ａｆｆｙｍｅｔｒｉｘ正規化された発現値に対して、解析は、Ａｆｆｙｍｅｔｒｉｘソフトウェアにより各チップ実験に対して計算され、データベースに格納された実際のノイズ値Ｑ＝ＲａｗＱ^＊ＳＦを用いる。
【０３４７】
また、ユーザは、遺伝子が存在するとコールされた各遺伝子に対してのみ試料を用いてフォールド変化を計算するオプションを有する。このオプションが選択されると、各試料に対する試料の数ｎ_ｘおよびｎ_ｙは、異なる遺伝子ごとにばらつきがあり、全ての遺伝子に対してｐ値および信頼度制限値を計算することができなくなることがある。アルゴリズムへの入力は、２つの試料セット（ＸおよびＹ）と、１つの遺伝子セットと、ユーザ指定の信頼度レベルＣＬ（０と１００％の間、初期設定９５％）である。
【０３４８】
フォールド変化アルゴリズム
試料セットＸおよび遺伝子セットの遺伝子断片ｆに対して、以下のことを実行する：
１．まず、下限値を発現データに適用する。ｅ_ｆｉを、試料ｉにある断片ｆの正規化された発現値とする。
【０３４９】
ＧｅｎｅＬｏｇｉｃ正規化が用いられれば、ｅ_ｆｉをｍａｘ（ｅ_ｆｉ，２０）に設定する。
【０３５０】
Ａｆｆｙｍｅｔｒｉｘ正規化が用いられれば、ｅ_ｆｉをｍａｘ（ｅ_ｆｉ，２^＊ＳＦ_ｆｉ ^＊ＲａｗＱ_ｆｉ）に設定し、ここで、ＲａｗＱ_ｆｉおよびＳＦ_ｆｉは、試料ｉに対して断片ｆを含むチップ上のチップ実験からのＲａｗＱおよびスケールファクタパラメータである。その結果がｅ_ｆｉ＜２０であれば、ｅ_ｆｉを２０に設定する。
【０３５１】
標準曲線正規化が用いられれば、ｅ_ｆｉのみが残され、下限値を適用しない。
【０３５２】
２．試料セットＸにおけるｎ_ｘ個の試料の発現レベルを｛ｅ_ｆｉ：ｉ＝１，２，．．．，ｎ_ｘ｝として、対数ｘ_ｉ＝ｌｎ（ｅ_ｆｉ）を計算する。
【０３５３】
３．平均値（ｘ）、すなわち、ｍｅａｎ（ｘ）＝（ｘ_ｉのｉの合計）／ｎ_ｘを計算する。
【０３５４】
４．分散（ｘ）、すなわち、ｖａｒ（ｘ）＝（（ｘ_ｉ−ｍｅａｎ（ｘ））^２のｉの合計）／（ｎ_ｘ−１）を計算する。
【０３５５】
５．試料セットＹに対してステップ１〜４を繰り返す。
【０３５６】
６．ｔ統計値を計算する：
ｔ＝（ｍｅａｎ（ｘ）−ｍｅａｎ（ｙ））／ｓ
式中、ｓ＝ｓｑｒｔ（ｖａｒ（ｘ）／ｎ_ｘ＋ｖａｒ（ｙ）／ｎ_ｙ）である。
【０３５７】
７．ｐ値と信頼度制限値を計算するためには、累積Ｔ確率分布関数Ｐｔ（ｔ，ＤＦ）および逆関数ｔＩｎｖｅｒｓｅ（ｐ，ＤＦ）が必要である。（非整数）自由度パラメータを計算する：
ＤＦ＝１／（ｃ^２／（ｎ_ｘ−１）＋（（１−ｃ）^２）／（ｎ_ｙ−１））
式中、ｃ＝ｖａｒ（ｘ）／（ｎ_ｘ ^＊ｓ^２）である。
【０３５８】
８．以下によりｐ値を計算する：
Ｐｖａｌ＝Ｐｒｏｂ（｜Ｔ｜＞ｔ）＝２^＊（１−Ｐｔ（ｔ，ＤＦ））
式中、Ｐｔ（ｔ，ＤＦ）はＤＦ自由度をもつ累積Ｔ分布であり、ｔは上記に特定した統計値である。
【０３５９】
９．フォールド変化率ＦＣおよび上限および下限の信頼度制限値を計算する。ユーザ指定の信頼度レベルＣＬを与え、以下を計算する：
ＴＩ＝ｓ^＊ｔＩｎｖｅｒｓｅ（（１００＋ＣＬ）／２００，ＤＦ）
次に、以下の式を用いて、フォールド変化および信頼度制限値が計算される：
ｍ＝ｍｅａｎ（ｘ）−ｍｅａｎ（ｙ）
ＦＣ＝ｅｘｐ（ｍ）
下限信頼度制限値＝ｅｘｐ（ｍ−ＴＩ）
上限信頼度制限値＝ｅｘｐ（ｍ＋ＴＩ）
フォールド変化の方向は、ＦＣ＞１であれば「上昇」として、ＦＣ＜１であれば「下降」として報告され、フォールド変化の大きさは、ＦＣ＞１であればＦＣであり、ＦＣ＜１であれば１／ＦＣである。
【０３６０】
制御および実験の試料セットの間の各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類され、ある一定の範囲内にあるフォールド変化をもつ断片の総数を示す要約報告が生成される。通常、ユーザは、ある一定の値より大きなフォールド変化の大きさを有する全ての遺伝子断片に関心がある。両方の試料セットにある全ての試料が不在コールを戻す断片は、総数に含まれるか、またはそこから排除されてよい。
【０３６１】
制御および実験試料セットおよび遺伝子Ｇを与え、２つの試料セットにわたった遺伝子Ｇの強度の幾何平均の比率として、Ｇのフォールド変化が計算される。トグル「遺伝子が存在する試料のみを使用」をユーザが選択すれば、Ｇが不在であるとコールされた試料の強度は、幾何平均の計算から排除され、そうでなければ、全ての強度が含まれる。いずれの場合も、選択された正規化に応じて、下限値が強度に適用される。「ＧｅｎｅＬｏｇｉｃ」正規化が用いられれば、下限値が２０である（すなわち、２０より小さな全ての強度を２０に置き換えた後、幾何平均を計算する）。「Ａｆｆｙ」正規化が選択されれば、特定のチップ実験から強度に適用された下限値は、その実験に対して計算されたＱ値の２倍である（すなわち、各試料／チップ対に対して異なる下限値が使用される）。
【０３６２】
信頼度制限値は、強度の対数の平均値の差に両側Ｗｅｌｃｈ修正されたｔ検定を用いて計算される。ｔ検定のＷｅｌｃｈフォームは、比較される試料の２つのグループ間で分散が一般に等しくないために使用される。強度の対数は、正常分布からのものとされる。信頼度の範囲は、加法スケール上のフォールド変化推定値を中心として対称的なものではないが、乗法スケール上のフォールド変化推定値を中心に対称的であり、比率に対する適切なスケールタイプである（例えば、フォールド変化）。
【０３６３】
フォールド変化解析の結果は、各フォールド変化ブラケットにある遺伝子の数と、制御および実験セット間のフォールド変化の方向の要約を定時する要約として表示されることが好ましい。好ましくは、このような要約は、以下の情報、すなわち、制御試料セットの全ておよびそれぞれにおける試料の数のリストと、実験試料の全ておよびそれらが含む試料の数のリストと、実験および制御試料セットの両方に不在した断片を遺伝子総数に含むようにユーザが選択するチェックボックスと、以下の範囲、すなわち、１００以上、１０〜１００、５〜１０、４〜５、３〜４、２〜３、１〜２、および変化なしの範囲のフォールド変化をもつ遺伝子断片の数を記載したテーブルを表示することが望ましい。
【０３６４】
数は、以下のように分割されることが好ましい。すなわち、実験セット対制御セットにおいてフォールド変化「上昇」の数と、実験セット対制御セットにおいてフォールド変化「下降」の数と、実験セット対制御セットにおいて全変化の総数である。
【０３６５】
ユーザは、遺伝子断片のフィルタリングと、結果の表示と、経路の表示と、染色体マップの表示とを含む、フォールド変化解析結果に関するより詳細なデータを獲得できることが好ましい。
【０３６６】
「遺伝子断片をフィルタリング」オプションにより、以前に保存した遺伝子セットを用いて報告された遺伝子をフィルタリングすることができる。
【０３６７】
「遺伝子断片」のデータコンテンツ（言い換えれば、「遺伝子セット結果」）は、表示オプションを選択することによりさらに改良できることが好ましい。これらのオプションは、逆数に対して値＜１の場合、変化の方向（上昇または下降）を示す特別な列とともに、フォールド変化および信頼度を表示する大きさおよび方向と、全てのフォールド変化および信頼度制限値を比率として表示する比率（＜１．０、下向きの場合）と、選択されれば各遺伝子断片および試料に対して、量的発現値および存在／不在コールが表示される「未加工発現およびコール値を示す」と、選択されれば各試料セットの平均値、中央値、および標準偏差が表示される「各試料セットの平均、ＳＤを示す」とを含む。
【０３６８】
本発明のアプリケーションは、選択された遺伝子断片に関する経路を表示する能力をも含むことが好ましい。「経路表示」タブは、既知の経路に発現値がある経路ディスプレイを提示する。「経路表示」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良される。これらのオプションは、選択されれば経路と重複する選択された遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ断片に対するフォールド変化値が表示される「試料セットのフォールド変化」と、選択されれば各入力試料セットにある全ての試料にわたって各Ａｆｆｙｍｅｔｒｉｘ断片に対して平均発現レベルが表示される「試料セットの平均値」と、選択されれば各入力試料セットにある全ての試料にわたって各Ａｆｆｙｍｅｔｒｉｘ断片に対して中央発現レベルが表示される「試料セットの中央値」と、選択されれば各選択されたＡｆｆｙｍｅｔｒｉｘ断片に対して未加工発現レベルが表示される「試料の未加工発現値」と、選択されれば経路と重複する全ての遺伝子断片が表示される「経路にある全てのＡｆｆｙ断片」と、選択されれば「遺伝子断片をフィルタ」パネルにおいて選択された遺伝子断片のみが表示される「選択されたＡｆｆｙ断片のみ」とを含む。
【０３６９】
本発明のアプリケーションは、染色体マップ上の発現値を与えるディスプレイを提示する染色体マップを表示する能力をも含むことが好ましい。「染色体表示」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されればフォールド変化値が表示される「フォールド変化」と、選択されれば中央値が表示される「中央値」と、選択されれば平均値が表示される「平均値」と、選択されれば未加工発現値が表示される「試料の未加工発現値」と、選択されればコール値が表示される「試料のコール値」とを含む。
【０３７０】
フォールド変化の解析は、後で使用するために保存できることが好ましい。
【０３７１】
フォールド変化解析とともに使用するのに利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しいフォールド変化解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存したフォールド変化を開くことができる「フォールド変化マルチセットを選択」を開く「ファイル」、「開く」タブと、フォールド変化を保存するために「フォールド変化マルチセットを保存」ウィンドウを開く「ファイル」、「フォールド変化を保存」タブと、結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために、第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定したり結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「フォールド変化解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【０３７２】
また、フォールド変化解析メニューは、選択されれば選択された遺伝子断片または試料の詳細を表示する「表示」、「遺伝子または試料の詳細」タブと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、「研究を選択」ウィンドウを開く「表示」、「ＲＥＡＤＳリンク列を追加」タブと、遺伝子セットマスクを結果に追加または除去するための「遺伝子セットマスクを追加／除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加／除去」タブと、現在選択されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するために「フォールド変化表示オプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含むことが好ましい。
【０３７３】
本発明の別の好適な実施形態においてアプリケーションは、電子ノーザン解析を実行できる。電子ノーザン解析（Ｅノーザン）は、ユーザ規定の遺伝子セットおよび１つ以上の試料セットを入力とする。発言レベルの範囲は、ユーザ指定の存在／不在コールをもつ試料の全てに対して、各試料セットの遺伝子セットにある各遺伝子断片に対して報告される。Ｅノーザン解析における遺伝子の発現値の範囲は、各試料セットにある試料に対する値でのユーザ選択の百分位数の一対として報告される。初期設定では、各試料セットでの２５番目および７５番目の百分位数にある値が示される。ユーザは、異なる百分位数を選択してよい。例えば、ユーザは、各試料セットに対して、０番目の百分位数（最小発現値）と、１００番目の百分位数（最大値）を見るように選択してよい。ユーザ指定の百分位数に加え、中央発現値（５０番目の百分位数）が常に報告される。
【０３７４】
電子ノーザン解析（またはＥノーザン）は、入力として、ユーザ規定の遺伝子セットおよび１つ以上の試料セットをとり、ユーザ指定の存在／不在コール値を有する全ての試料にわたって、各試料セットの遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ遺伝子断片に対する発現レベルの範囲を報告する。この範囲は、百分位数値を用いて報告され、上位および下位の百分位数レベルＵおよびＬは、ユーザにより指定される。ユーザが、Ｕを１００と選択し、Ｌを０と選択すれば、解析は、選択された試料での最大および最小の発現値を報告する。ユーザが、Ｕ＝７５およびＬ＝２５を選択すれば、上位および下位の四分位数値が報告される。中央値も同様に報告される。
【０３７５】
Ｅノーザンは、各試料セットに対して、以下のように計算される：
１．Ｅノーザンオプションのダイアログにおけるユーザの選択は、不在および辺縁コールを有する試料が計算においてどのように使用されるかを決定するために使用される。「計算に存在コールのみを含む」が選択されれば存在コールを有する試料のみが百分位数および存在スコア計算において使用され、辺縁コールは不在コールと同一に処理され、不在スコアに含まれる。「計算に存在および辺縁コールを含む」が選択されれば存在または辺縁コールのいずれかを有する試料が百分位数および存在スコア計算に含まれる。「計算に存在、辺縁、および不在コールを含む」が選択されれば存在、辺縁、または不在コールを有する試料が、百分位数を計算するために使用され、辺縁コールは、存在スコアに含まれる。
【０３７６】
２．ユーザ指定の遺伝子セットにある各遺伝子断片に対して、存在および不在スコアは、所与の試料セットにある試料の存在および不在コールの数を計数し、遺伝子断片の発現データを有する試料の総数で各計数を除算することにより計算される。不明およびゼロのコールを有する試料は省略され、試料の総数に含まれない。この結果は、表の表示において分数として（例えば、１７／２２）およびＥノーザンプロットにおいてパーセンテージとして報告される。
【０３７７】
３．各遺伝子断片に対して、ユーザ選択されたコール値を有する試料にわたって、百分位数および中央値が計算される。これらの試料の発現値は、最初に、昇順で並び替えられる。これは、各発現値に対してランク順序Ｒ、Ｒ＝１．．．Ｎを発生し、ここで、Ｎは選択された試料の数である。Ｘ_Ｒをランク順序Ｒを有する発現値として規定する。
【０３７８】
４．３つの百分位数値、すなわち、５０番目の百分位数（すなわち、中央値）と、２つのユーザ指定の百分位数ＬおよびＵが計算される。値セットのＰ番目の百分位数は、セットにある値のＰパーセントがＸより小さくなるような値Ｘである。
【０３７９】
５．Ｍ＝１＋（（Ｐ／１００）^＊（Ｎ−１））とする。
【０３８０】
６．Ｍが整数であれば、Ｐ番目の百分位数は、ランク順序Ｍを有する発現値ＸＭである。この場合、プロットは、テーブルが上位および下位百分位数に対して戻すものより１つランクが大きい発現値を戻す。
【０３８１】
７．Ｍが整数でなければ、Ｐ番目の百分位数は、値ＸＭとＸＭ＋１との間を補間することにより得られる。ＦをＭの端数部分とする。その場合、Ｐ番目の百分位数は、
ＸＭ＋Ｆ^＊（ＸＭ＋１−ＸＭ）
として計算される。
【０３８２】
８．上記計算は、Ｐ＝Ｌ、Ｐ＝５０、およびＰ＝Ｕに対して実行される。
【０３８３】
Ｅノーザン解析は、１つ以上の試料セットおよび１つ以上の遺伝子セットを用いて計算されることが好ましい。遺伝子セットは、遺伝子シグネチャ差により規定された遺伝子セットの既存遺伝子であってよい。
【０３８４】
Ｅノーザン結果における遺伝子断片に関する詳細な情報は、「結果」タブに表示されることが好ましい。この情報は、以下のステートメント、すなわち、行数と、使用される上位および下位の百分位数と、使用される正規化と、百分位数を計算するために使用されるコールタイプ（存在、不在、または辺縁）と、遺伝子のテーブルとを含むことが好ましい。
【０３８５】
Ｅノーザンにより、選択されれば属性および既知の遺伝子データを含むＡｆｆｙ断片と、属性、実験、試料、およびドナーデータを含む試料の詳細と、配列クラスタと、プロットとを含む、選択された遺伝子断片に関する詳細な情報を表示する「詳細パネルを示す」が与えられることが好ましい。
【０３８６】
結果のデータコンテンツは、表示オプションを選択することによりさらに改良できることが好ましく、これらのオプションは、選択されれば存在コールにのみ関連付けられた発現値を用いて百分位数が計算される「計算に存在コールのみを含む」と、選択されれば存在および辺縁コールに関連付けられた発現値を用いて百分位数が計算される「計算に存在および辺縁コールを含む」と、選択されれば存在、辺縁、および不在コールに関連付けられた発現値を用いて百分位数が計算される「計算に存在、辺縁、および不在コールを含む」とを含む。
【０３８７】
Ｅノーザン解析は、後で使用するために保存できることが好ましい。
【０３８８】
Ｅノーザン解析とともに使用するために利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しい電子ノーザン解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存されたＥノーザン解析を開くことができる「Ｅノーザンを選択」ウィンドウを開く「ファイル」、「開く」タブと、Ｅノーザン解析を保存できる「Ｅノーザンを保存」ウィンドウを開く「ファイル」、「Ｅノーザンを保存」タブと、Ｅノーザンに使用される遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために、第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「電子ノーザン」ウィンドウを選択する「ファイル」、「閉じる」タブとを含む。
【０３８９】
Ｅノーザン解析とともに使用するために利用可能なメニューオプションは、以下のものを含むことが好ましい。これらのオプションは、「計算」タブにアクセスする「表示」、「計算フォーム」タブと、「結果」タブにアクセスする「表示」、「結果」タブと、チェックされれば「結果」ビューに詳細を表示する「表示」、「詳細パネルを示す」タブと、結果に表示するための列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための「電子ノーザンオプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含む。
【０３９０】
本発明の別の好適な実施形態において、アプリケーションは、発現データツールをさらに含み、これにより、ユーザは、１つ以上の試料セットおよび１つ以上の遺伝子セットに対して、発現データ値（個別または集合）を引き出し表示することができる。発現値は、テーブルに表示されるか、経路または染色体マップと重ね合わせることができることが好ましい。
【０３９１】
発現データツールは、着目する遺伝子および試料セットに対する遺伝子発現データを同定し、それらに対する個々（未加工）、平均値、または中央発現値を取り出す（量的発現強度および存在／不在コールを含む）。その結果得られるデータは、本発明のアプリケーション内に表示されるか、または、アプリケーション以外の解析で使用するために出力保存されてよい。
【０３９２】
選択された試料の結果は、「発現データ」タブに表示されることが好ましく、これは、結果の行数のステートメントと、使用される正規化のタイプに関するステートメントと、結果遺伝子のテーブルとを提示することが好ましい。
【０３９３】
発現データツールにより、選択されれば属性および既知の遺伝子データを含むＡｆｆｙ断片と、属性、実験、試料、およびドナーデータを含む試料の詳細と、配列クラスタと、プロットとを含む、選択された遺伝子断片に関する詳細な情報を表示する「詳細パネルを示す」が与えられることが好ましい。
【０３９４】
発現データのデータコンテンツは、「集合値（試料セット）」および「個々の試料」を含む追加のオプションを選択することによりさらに改良できることが好ましい。
【０３９５】
本発明のアプリケーションは、発現データツールに関する経路を表示する能力をも含むことが好ましい。「経路ビューア」タブは、既知の経路に発現値がある経路ディスプレイを提示する。「経路ビューア」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されれば入力試料セットにある全ての試料にわたって、経路と重複する選択された遺伝子セットにある各Ａｆｆｙｍｅｔｒｉｘ断片に対して未加工発現レベルが表示される「未加工発現値（選択されたＡｆｆｙ断片のみ）」と、選択されれば入力試料セットにある全ての試料にわたって、選択された遺伝子セットにかかわらず、経路にマップする全てのＡｆｆｙｍｅｔｒｉｘ断片に対して未加工発現レベルが表示される「未加工発現値（経路にある全てのＡｆｆｙ断片）とを含む。
【０３９６】
本発明のアプリケーションは、発現データツールに関する染色体マップを表示する能力をも含むことが好ましい。「染色体ビューア」タブは、染色体マップ上の発現値を与えるディスプレイを提示する。「染色体ビューア」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されれば全ての試料に対して未加工発現値が表示される「試料の未加工発現値」と、選択されれば、全ての試料のコール値が表示される「試料のコール値」とを含む。
【０３９７】
遺伝子セットまたは選択された遺伝子は、他の解析とともに使用するために保存できることが好ましい。
【０３９８】
発現データツールとともに使用のために利用可能な、さまざまなメニューオプションがあることが好ましく、これらのオプションは、「新しい発現データツール」ウィンドウを開く「ファイル」、「新規」タブと、結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「発現データツール」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【０３９９】
発現データツールメニューは、以下のものをさらに含むことが好ましい。すなわち、「パラメータ」タブにアクセスする「表示」、「パラメータ」タブと、「発現データ」タブにアクセスする「表示」、「発現データ」タブと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」タブと、「染色体ビューア」タブにアクセスする「表示」、「染色体ビューア」タブと、選択されれば「発現データ」パネルに詳細を表示する「詳細パネルを示す」タブと、結果にあるディスプレイするための列を選択できる「ディスプレイ属性を選択する」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、遺伝子セットマスクを結果に追加または除去するために「遺伝子セットマスクを追加／除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加／除去」タブと、現在選択されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子タブを除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための「発現データツールオプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「プロットオプジョン」タブとを含む。
【０４００】
本発明の別の好適な実施形態において、アプリケーションは、対比解析を実行する能力をさらに与え、これは、試料セットの発現パターンに適合する遺伝子を見つけるために使用される「パターンマッチング」ツールである。
【０４０１】
対比解析は、２つ以上の試料セットを伴う発現パターンをテストするために、フォールド変化解析において実行される重要度テストを一般化する。特別な統計方法は、応答変数として使用される発現値と、グループ効果を規定するために使用される試料セットとを有するＡＮＯＶＡモデルである。対比は、グループ効果でのパターンを特定するために使用される。試料セットが、例えば、Ａ、Ｂ、およびＣとラベル付けされれば、対比ウェイトベクトル｛１，−２，１｝は、フォームの帰無仮説を特定する。すなわち、
Ｈ（０）：１ｘｍｅａｎＳΣＡ（ｌｏｇＥｓ）−２ｘｍｅａｎＳΣＢ（ｌｏｇＥＳ）＋１ｘｍｅａｎＳΣＣ（ｌｏｇＥＳ）＝０
式中、ＥＳは、試料に対してテストされる遺伝子の発現レベルである。
【０４０２】
（フォールド変化解析の場合のように、テストは、発現値で直接実行されるのではなく、発現値の対数で実行される。これは、方法の統計的検出力を増大するために行われる。負の発現値は、絶対値の対数をとり、−１で乗算することにより、負の対数値にマッピングされる。絶対値が１より小さい発現値は、０で置き換えられる。）
【０４０３】
帰無仮説は、よく知られているニ標本ｔ検定に類似した方法において、各パターンのｔ統計値を計算するために使用される。ｔ統計値の値は、試料セットにおける試料にわたった遺伝子の発現値のパターンへの忠実性に従って増大する。大きな正のｔスコアは、試料セット内の変化量に対して、試料セット間の発現値の変化のパターンが、対比により表されるパターンに密接に従うということを意味する。大きな負のｔスコアは、変化のパターンが、対比により表されるパターンの逆であるということを意味する。これは、例えば、対比｛−１，１｝（試料セット１に対する試料セット２の発現の増大を表す）に対して、試料セット２において発現が減少した遺伝子に対して起こる。最後に、ゼロに近いｔスコアは、遺伝子の発現パターンが対比パターンまたはその逆のいずれとも一致しないか、または、試料セット間の変化量が、試料セット内の変化に相当するか、またはそれよりも小さいことを意味する。
【０４０４】
複数の対比は、遺伝子がいくつかのパターンの任意のものにどの程度うまく適合するかに従って遺伝子をランク付けするために、並列にテストすることができる。ユーザは、最大ｔスコア（単一のパターンとの最良の適合による遺伝子選択に相当）または最小ｔスコア（パターンの全てに適合する能力による遺伝子選択に相当）のいずれかにより、遺伝子をランク付けするオプションを有する。
【０４０５】
対比は、グラフィカルツールを使用することにより、または方法に精通したエキスパートユーザが対比ウェイトを直接入力することにより特定できる。モデルの数学的制約により、グラフィカルツールにより特定されるいくつかのパターンは、予想外の結果になることがある。
【０４０６】
以下に記載するように、これらの場合、パターンが特定されたときに警告が発せられ、ユーザは、発生した結果が自分の求めているものに相当するかを確認するために、解析の出力を注意深く検討するように促される。
【０４０７】
要求されれば、要求された全ての遺伝子およびパターンにわたって最大ｔスコアの重要度を評価するために、試料セットに対する試料割り当てにランダム化トライアルを行うことにより、ｐ値が推定される。
【０４０８】
「ＬｅａｖｅＯｎｅＯｕｔプロット」は、外れ値の試料を検出するためのツールである。これにより、ユーザは、試料セットの他の試料と異なるように挙動する試料を同定でき、これらの試料は、対比解析の結果に不均衡な影響を与える。これらの試料は、試料データの品質に問題があるかを決定するための他のツールとともにさらに解析できる。
【０４０９】
対比解析は、フォールド変化解析の一般化であり、試料セットの複数のグループに動作し、各グループに対して一連の類似した適合を実行し、ユーザにより特定された対比のセットを用いてそれらのレベルを比較する。これらのグループ効果が計算されると、結果は、対比により乗算され、新しい統計値が計算され、これは、二標本ｔ統計値にフォームと意味が類似したものである。
【０４１０】
対比解析は、フォールド変化解析の延長として見ることができる。フォールド変化ツールは、２つの実験条件またはグループ間の発現レベルを比較するために使用される。このツールは、個々の遺伝子の条件間の差の強度をランク付けするために使用できるｔスコア（ユーザには公表しない）を計算する。これらのｔスコアは、実験により試料採取された母集団の平均値が、グループ分散を考慮に入れて等しく、報告されるｐ値を決定するアルゴリズムに入力されるという帰無仮説に対してグループ平均値の差を比較するｔ検定に基づいている。
【０４１１】
解析を実行する前にデータ点の対数をとるため、フォールド変化は、比較される２つのグループにあるデータの幾何平均の比率に基づいて決定される。２つのグループ｛Ａ｝および｛Ｂ｝に対して、ｔスコアは、｛ｌｏｇＡ｝の平均値と｛ｌｏｇＢ｝の平均値との差を、各グループにある点の数により加重された、２つの対数グループの分散の２乗平均平方根により除算したものである。ここで、
Ｍ（Ａ）＝ｍｅａｎ｛ｌｏｇＡ｝
Ｖ（Ａ）＝ｖａｒｉａｎｃｅ｛ｌｏｇＡ｝＝標準偏差｛ｌｏｇＡ｝二乗
Ｎ（Ａ）＝Ａの点の数
とし、グループＢに対しても同様の値を定義する。帰無仮説は、この検定に対して、以下のように与えられる：
Ｈ（０）：Ｍ（Ａ）−Ｍ（Ｂ）＝０
ｔスコアは、以下の式
ｔ（Ａ，Ｂ）＝［Ｍ（Ａ）−Ｍ（Ｂ）］／ｓｑｒｔ［Ｖ（Ａ）／Ｎ（Ａ）＋Ｖ（Ｂ）／Ｎ（Ｂ）］
により与えられる。
【０４１２】
報告されるフォールド変化は、ｅｘｐ（Ｍ（Ａ）−Ｍ（Ｂ））である。
【０４１３】
ｔスコアの計算を要約するために、対数分散に対する対数平均値の差が大きいほど、ｔスコアの絶対値が大きくなり、グループが実際に異なるという可能性が高くなる。ｔ検定の帰無仮説は、Ｍ（Ａ）＝Ｍ（Ｂ）、または同等に、ｔ（Ａ，Ｂ）＝０であるということである。ｔスコアが高いほど、ｐ値は低くなる。フォールド変化ツールにより報告されるｐ値は、２つのグループ｛ｌｏｇＡ｝および｛ｌｏｇＢ｝が正規分布され、重み係数が、グループサイズの可能性のある差を考慮に入れる仮定に基づいている。予測平均値と分散で実験グループの特徴を要約することは、このような比較を解析する複雑性を軽減するための強力な技術である。
【０４１４】
この考え方は、対比解析の統計方法を用いて、２つ以上の条件（またはグループ、または試料セット）に適用することができ、これは、個々のグループでの一元分散解析（ＡＮＯＶＡ）の結果を用いる。簡易ｔ検定が、２つのグループ平均値を比較するのに対して、対比解析は、多数のグループ平均値の相対レベルをユーザにより指定されたモデルと比較する。発現データの解析において生じる多数の状況は、方法を適切に理解していれば、このような解析に従順である。この方法には制限があり、結果を確実に解釈できるようにするためには、それらの制限を理解するのに注意を払わなければならない。この方法は、２つの以上のモデルの適合をデータと比較する場合に特に有益である。２グループｔ検定の場合のように、パターンがデータとどのくらいの程度でマッチするかということを比較できるランキングスコア（ｔスコア、またはｔ様統計と呼ぶ）が生成される。これらのパターンは、対比によりパラメータ化される（グループ平均値に対する一連の係数）。
【０４１５】
検定は、全てのグループ平均値が同じである（すなわち、グループ間で発現に差がない）という帰無仮説に依存しているため、唯一の有効な対比は、平均値が、合計してゼロになる係数で加重されるものである。ｔスコアの降順での比較に対して遺伝子をランク付けすることにより、ｐ値の昇順において遺伝子をランク付けするものと同じ順序が得られなければならない。
【０４１６】
対比解析ツールは、ｐ値を計算するためのより高度なアルゴリズムを用い、これは、測定値がグループ内に正規分布されているという仮定に基づいていない。この代わりとして、ｐ値の計算は、全ての遺伝子および全てのパターンにわたって最大ｔスコアの分布を計算することにより行われる。まず、異なる遺伝子の発現値は、多数回ランダムに再度割り当てられ、ｔスコアのセット全体が再度計算される。最大値は、反復ごとに見つけられ、ｔ値のこの分布は、報告された最大ｔスコアに対するｐ値を予測するために使用される。テスト可能な数学的に独立した対比の数は、グループ数（Ｇ）マイナス１である。簡易ｔ検定の場合、Ｇ＝２であり、１つのみの対比が存在する。Ｇが増加すると、独立対比の数も増加する。
【０４１７】
しかしながら、これらの独立対比の線形組み合わせである対比であれば、理論上有効である。有効な対比のセット内には、０に等しい係数を含むものが含まれる。これらのケースでは、０の重み付けが、ｔスコアの分子にある対比計算からの値を除去するのに対して、分母にあるグループの分散を含むため、特別の注意が必要である。
【０４１８】
これらの方法の１つの単純なアプリケーションは、発現パターンと指定されたモデルとの類似性によりプローブセットをランク付けすることである。図１１、図１２、および図１３に示すように、３つのＡｆｆｙｍｅｔｒｉｘプローブセットの３つのグループ（グループ１、２、および３）の間の比較を考慮する。これらは、３つの異なる発現パターンを示す。第１のケースでは、グループ２およびグループ３において発現が増大し、グループ２およびグループ３の発現はほぼ同じである。全てのプロットは、対数スケールを用いて示されている。
【０４１９】
第２のケースでは、グループ１からグループ２、さらにはグループ３へと発現が単調に増大している。
【０４２０】
最後のケースでは、グループ１およびグループ３がほぼ同じであり、グループ２が、両方よりも高く発現している。
【０４２１】
対比解析ツールにおける描画インタフェースを用いて、図１１に見られる状況を最良に記述する対比を見つけたければ、図４に示すように、グループ１がグループ２および３よりも小さいが、後者の２つは同じレベルであるパターンを描けばよい。対比Ｃ１の結果は、｛−２，１，１｝である。帰無仮説は、
Ｈ（０）：−２^＊Ｍ（１）＋Ｍ（２）＋Ｍ（３）＝０
である。
【０４２２】
ここで、平均値は、上記に規定したように、未加工発現データの対数に規定される。ｔスコアは、
ｔ（１，２，３）＝Ｗ（Ｃ１）^＊［−２^＊Ｍ（１）＋Ｍ（２）＋Ｍ（３）］／ｓｑｒｔ［Ｖ（１，２，３）］
である。
【０４２３】
Ｖ（１，２，３）は、ＡＮＯＶＡモデル適合度からの残差分散であり、それぞれの平均値に対する３つの全てのグループの分散に依存し、Ｗは、異なる解析を互いに比較できる重み係数である。これらの個々のグループ分散の点で表現すると、
Ｖ（１，２，３）＝［Ｖ（１）^＊（Ｎ（１）−１）＋Ｖ（２）^＊（Ｎ（２）−１）＋Ｖ（３）^＊（Ｎ（３）−１）］／［Ｎ（１）＋Ｎ（２）＋Ｎ（３）−３］
である。
【０４２４】
解析にどのようなグループが含まれていても、残差分散は、対比解析セッションの開始時に選択された全ての研究グループに対する適合度から常に獲得される。想起すべき問題は、この場合の対比が、平均値およびＡＮＯＶＡ適合度の残差分散に依存することである。個々のグループ分散が３つの全てのグループに対して大きい場合、残差分散が高くなり、他の全てのものは等しい。グループ２およびグールプ３の平均値がグループ１に対して高いほど、ｔスコアは高くなる。平均値が全て同じであれば、ｔスコアは０に近い。分散が同じグループ平均値に対して大きければ、ｔスコアは低い。
【０４２５】
描かれたパターンは、ほぼ同じ発現レベルをもつグループ２およびグループ３を示すが、比較する対象となる他のパターンがなく、このパターンが単独で使用されれば、高いｔスコアが、グループ２および３がほぼ同じ平均値を共有するケースに対応するという保証はない。グループ２およびグループ３の平均値近くの分散が小さく、グループ２およびグループ３の平均値の両方が、グループ１の平均値より大きいかぎり、大きな正のｔスコアを獲得するための条件に適合する。このパターンが任意の他のものに比較されなければ、このパターンを用いて高いスコアを得るデータは、グループ２およびグループ３が非常に異なるケースを含むことになる。
【０４２６】
ここでの解決策は、上向きおよび下向きの変化に対してグループ２および３を比較して、２つの対比を追加することである。第１の並び替え列として「最大Ｔスコア対比インデックス」を用い、第２の並び替え列として「最大Ｔスコア」を用いて結果を並び替える（降順）。着目するパターンに対応するインデックスを探し、ここで高い最大のｔスコアを有する値は、Ｃ１パターンときわめて一致することになるものである。
【０４２７】
図１１または図１２のパターンと一致する遺伝子を見つけたければ、グラフィカルツールを用い、パターンに入力することができ、対比の重みがグループ２に対して０であるという警告を第２のパターン上で受信することになる。
【０４２８】
特定された対比Ｃ２は、係数｛−１，０，１｝を有し、これは、帰無仮説が、Ｈ（０）：−Ｍ（１）＋Ｍ（３）＝０であることを意味する。
【０４２９】
この帰無仮説は、グループ１および３のみにフォールド変化を実行したときと同じである。しかしながら、ｔスコアの分母が、グループ２からの分散寄与を含んだままであるため、結果は異なるものになる。ｔスコアは、以下の式、
ｔ（１，２，３）＝Ｗ（Ｃ２）［−Ｍ（１）＋Ｍ（３）］／ｓｑｒｔ［Ｖ（１，２，３）］
で与えられる。
【０４３０】
グループ２分散が小さければ、ｔスコアは、本質的に、グループ２が比較に含まれていない場合と同じものになる。これは、検定の結果が、この場合、グループ２の平均値から独立したものであることを意味する。これが、検定を行っている唯一の対比であれば、グループ２の平均値が、描いたパターンが意味するグループ１およびグループ３の平均値と非常に異なる場合であっても、増加パターンに極めて一致することを示す見かけの値を得ることになる。
【０４３１】
この問題を解決するための方法が２つある。第１の方法は、対比解析の「最小Ｔスコアで並び替え」オプションを使用し、グループ１にわたってグループ２およびグループ２にわたったグループ３の増加対比を特定することである。最小ｔスコアで並び替えることにより、１にわたって２および２にわった３の対比が報告される最小ｔと少なくとも同じ大きさであるリストが得られるため、大きな正のｔが、３つのグループで発現が増大していることを保証することになる。
【０４３２】
第２の解決策は、対比を追加し（例えば、Ｃ１に１つ）、最大ｔスコアを比較することである。これは、グループ２の平均値が、グループ１およびグループ３の平均値の平均と異なる場合に対して検定することにより行われる。数学的等式としてこれを組み立てれば、
Ｍ（２）−．５^＊（Ｍ（１）＋Ｍ（３））≠０
となる。または、この代わりとして
Ｈ（０）：Ｍ（２）−．５^＊（Ｍ（１）＋Ｍ（３））＝０
という帰無仮説に対して検定できる。
【０４３３】
これは、２で乗算することにより、係数｛−１，２、−１｝をもつ対比に相当する。
【０４３４】
パターンがこの対比と極めてマッチすれば（すなわち、グループ２の平均値が、グループ１およびグループ３の平均値の平均より大きければ）、第２のグループで何が起ころうとも、直線対比とは極めてマッチすることができない。これは、図３のものに類似したパターンに対する検定を行う。混乱を生じさせる他のケースは、全く反対の係数、すなわち｛１，−２，１｝をもつ対比であり、これは、グループ２の平均値がグループ１および３の平均より小さいことを意味する。対比リストにこれらの追加対比を含み、最大ｔを比較する対比ツールを実行する。前述したように、第１の並び替え列として「最大Ｔスコア対比インデックス」を用い、第２の並び替え列として、「最大Ｔスコア」を用いて、結果を並び替える（降順）。最良にマッチするパターンが関心のあるものであることを確証するために、最大ｔをもつ対比のインデックスを見る。
【０４３５】
検定をさらに明確なものにするために、対比Ｃ１により特定された中間ケースを除外するための対比を含む。より多くの対比を追加することは、ｐ値が計算されていなければ、計算性能を著しく妨げないため、着目する遺伝子を孤立させるために必要とされるだけ多くのものを使用し、それらの遺伝子に対するｐ値を計算するために、１つのみのパターンで計算を繰り返す。
【０４３６】
ゼロ重み警告が発せられればいつでも、同様の論理ラインが適用できるが、グループの数が多い場合、ゼロ重み付けグループ平均値を隣接するレベルの全てに対して比較する必要がある。また、比較において使用したものよりも多くのグループを初期の対比解析において特定すれば、含まれていないグループの分散は、解析に組み込まれることになり、ｔスコアの結果は、最初の場所に含まれていない場合と異なるものになる。
【０４３７】
対比解析アルゴリズム
１．試料ｎの遺伝子ｇに対する未加工発現値であるデータ点Ｅｒａｗ（ｎ，ｇ）の対数変換を実行する。変換後の値は以下により与えられる：

【０４３８】
２、グループ割り当てのＸ行列を生成する。これは、Ｎ行Ｋ列からなり、ここで、Ｎは個々の試料の総数であり、Ｋはグループの総数である。ｋ番目の列において、ｎ番目の行は、ｎ番目の試料がグループｋにあれば１を含み、なければ０を含む。
【０４３９】
３．このＢ行列は、モデル群に基づく（各遺伝子ｇに対して１つ）：
Ｅ（ｇ）＝Ｘｍ（ｇ）＋ε（ｇ）
式中、Ｅ（ｇ）は、遺伝子ｇに対する変換された発現観察の（ＮＸ１）行ベクトルであり、ｍ（ｇ）は、遺伝子ｇに対するグループ平均値の（１ＸＫ）列ベクトルであり、分散σ^２（ｇ）で０付近に正規分布されると仮定される。行ベクトルＥ（ｇ）に値が紛失していれば（存在コール行列に「Ｎ」または「Ｕ」コールで示される）、計算は、行列からそれを除去し、オリジナルリストにそれが存在しないように進行する。
【０４４０】
４．これらのモデルは、グループ平均値の推定値ｅ（ｍ（ｇ））を生成するために使用される。これらは、最小二乗法の通常の式の解である：
Ｘ’Ｘｅ（ｍ（ｇ））＝Ｘ’Ｅ（ｇ）
式中、Ｘ’はＸの転置行列である。この式の解の計算方法は、この式の解法が多数あるため、本願明細書において特記しないことを留意されたい。アルゴリズムの現在の実行では、ＱＲ分解を使用する。
【０４４１】
５．適合度からの分散の推定値が、平方の平均残差和を計算することにより得られる：
ｅ（σ^２（ｇ））＝（Ｅ（ｇ）−ｅ（ｍ（ｇ））Ｘ）（Ｅ（ｇ）−ｅ（ｍ（ｇ））Ｘ）’／（Ｎ−（ｇ）−Ｋ）
【０４４２】
６．相対的なｔスコアは、Ｃ所望対比の（ＫＸＣ）行列である対比行列Ｃを用いて計算される。各対比に対して、ｃ番目の列は、ｋ番目の行にあるｋ番目のグループの係数からなる。ｃのｔスコアの分子は、（１ＸＣ）ベクトルＮ（ｇ）の行により与えられる：
Ｎ（ｇ）＝Ｃｅ（ｍ（ｇ））
分母は、（１ＸＣ）ベクトルＶ（ｇ）の行の平方根により与えられる：
Ｖ（ｇ）＝｜ｅσ^２（ｇ））ｄｉａｇ（ＣＩｎｖｅｒｓｅ（Ｘ’Ｘ）Ｃ’）｜。
【０４４３】
ここで、ｄｉａｇ（Ｘ）は、行列Ｘの対角線要素を抜き出す。これは、ｃ番目の成分が以下の式により与えられるｔのベクトルの生成する：
Ｔ（ｇ，ｃ）＝Ｎ（ｇ，ｃ）／ｓｑｒｔ（Ｖ（ｇ，ｃ））。
【０４４４】
フォールド変化ｔスコアの場合とは異なり、ここでは、グループ間の分散が等しいと仮定される。
【０４４５】
７．Ｃ＞１であれば、最大または最小ｔスコアは、比較が望ましいユーザ入力に応じて、各遺伝子のｔｃから選択される。対比インデックスｃは、最小または最大基準を満たす対比に対して記述される。
【０４４６】
８．これらの最大または最小ｔスコアは、どのパターンが最大／最小に極めて一致するかを示す長さＧのリストＴｍａｘ（ｇ）を生成するために、全ての遺伝子で組み合わされる。
【０４４７】
９．ユーザがｐ値を要求すれば、これらは、１０００トライアルで異なる試料に対して再配置で個々の測定値が割り当てられるプロシージャにより生成される。各ランダム化トライアルｊに対して、各ｇの最大ｔスコアＴｍａｘ（ｇ，ｊ）を計算する。トップランキングｔスコアＴｍａｘ（ｊ）を生成するために、これらの全ての最大値をとる。これらは、最大ｔスコアの分布蓄積Ｔｍａｘを生成するために、ランダムかトライアルおよび遺伝子の全てにわたってまとめて蓄積される。ステップ８において生成されたオリジナルのｔスコアは、この蓄積された分布でのランクと比較される。より大きなＴ値をもつ蓄積された分布の点の数を、蓄積された分布の点の総数で除算して、ｐ値を予測する。すなわち、
ｐ（ｇ）＝（蓄積Ｔｍａｘ数＞ｔ）／Ｇ^＊１０００
である。
【０４４８】
「ＬｅａｖｅＯｎｅＯｕｔプロット」は、対比計算をＮ回繰り返すことからなる。これらのＮの各々に対して、Ｎ試料の１つが計算から取り置かれ、最大ｔスコアのランク付けされたリスト
ｒ（ｇ）＝Ｔｍａｘ（ｇ）におけるｇのランク
が生成される。各遺伝子ｇが、試料を取り置かないランクｒ（ｇ，０）と、試料をｎ個取り置いたランクｒ（ｇ，ｎ）をもてば、各遺伝子に対して、値、
ｄ（ｇ，ｎ）＝｜ｒ（ｇ，ｎ）−ｒ（ｇ，０）
を計算する。
【０４４９】
全ての遺伝子にわたってｄの中央値、
ｄ（ｎ）＝ｍｅｄｉａｎ（ｄ（ｇ，ｎ））
を計算する。
【０４５０】
この値は、１つの試料を取り置くことが、解析の結果に及ぼす影響を予測するための要約統計（すなわち、特定された対比に従った遺伝子のランキング）として使用される。
【０４５１】
対比解析を実行するさい、まず、解析するための試料および遺伝子セットを選択する。次いで、対比パターンを規定する。これを達成するための好適な方法は、「対比間でのＴスコア」に対して最高値または最低値のいずれかを選択することである。遺伝子をランク付けするために最大Ｔスコア（すなわち、最高）を用いることは、論理ＯＲパターン検索として機能し、すなわち、遺伝子は、大きなＴスコアが入力パターンの任意のものに対して獲得されれば、高くランク付けされる。この代替として、遺伝子は最小Ｔスコアによりランク付けできる。これは、入力パターンにおいて論理ＡＮＤとして機能し、ユーザが、１つ以上のパターンと等しく一致する遺伝子セットを選択したい場合に有益である。
【０４５２】
対比パターンを規定する方法が２つあることが好ましく、すなわち、グラフィカルパターンの特定と、対比重みの入力である。グラフィカルパターンオプションを指定することにより、解析に使用される対比パターンの視覚化を容易にする対比パターンのグラフィカル表現が得られる。好ましくは、パターンの相対方向は、選択された試料セットの各々に対して、低、高、または中である。パターンは、チェックされた各試料セットにわたった平均発現値の変化を表す。値の相対的な縦順序のみがパターンにおいて重要である。パターンは、各入力試料セットに対して１つずつ、整数の重みのリストである「対比」に変換される。
【０４５３】
対比重みは、各入力試料セットに対して１つずつ、正または負の数であり、その値は、ボックスの高さと同じ相対順序に従う。値は、重みの合計がゼロになるようにスケーリングされ調節される。ゼロ重みは、パターンにおいて使用されていない試料セットに対して割り当てられる。対比解析ウィンドウの表示されている試料セットの全ては、解析に含まれることになる。各試料セットに対して、平均値および残差が計算される。全ての試料セットからの残差は、パターン、および試料セットが選択されたかどうかにかかわらず、ｔスコア計算において使用するために蓄積される。これは、対比重みが０である試料を含む。試料セット間の平均対数発現レベルのランク順序のみが、パターンを対比に変換する場合に考慮される。例えば、以下の２つのパターンは同等のものであると考慮され、それらは、対比重みの同じベクトル｛−１，２，−１｝に相当する。両方のパターンは、試料セット１および３にわたった平均対数発現が同じであり、試料セット２に対する平均対数発現より低い遺伝子を選択する。
【０４５４】
パターンと対比ベクトル間の対応は、常にこのように直感的なものではない。混乱を生じる例として、パターンが対比重みベクトル｛−１，０，１｝に対応するパターンが挙げられる。これは、試料セット１における平均対数発現レベルが、試料セット３におけるものより低い遺伝子を選択することになる。試料セット２のゼロ重みは、これにわたって平均対数発現値が考慮されないことを意味する。結果として生じるｔスコアは、パターンの出現に反して、第２の試料セットに対する平均対数値から独立したものとなる。このため、警告が発せられることが好ましい：
対比重み入力オプションにおいて、重みを直接入力できる高度なインタフェースが与えられる。各試料セットに対して１つの対比重みを入力する。また、解析に正規化を使用することができ、ｐ値を計算することもできる。
【０４５５】
対比解析計算が完了すると、結果は、「結果」タブに表示される。「結果」タブは、対比解析の結果を表示する。入力遺伝子セットからの遺伝子は、解析のステップ２に記載したように、最大または最小ｔスコアのいずれかの降順に並び替えられる。この表示は、以下の情報を提示する。すなわち、結果に表示される行の総数と、ユーザにより選択された遺伝子属性と、各対比パターンに対するｔスコア列と、ｔスコア列からの最大および最小のｔスコアと、最大ｔスコアのインデックスを含む結果遺伝子のテーブルである。
【０４５６】
また、本発明のアプリケーションの対比解析の態様により、「ＬｅａｖｅＯｎｅＯｕｔプロット」が与えられることが好ましい。「ＬｅａｖｅＯｎｅＯｕｔプロット」は、外れ値試料を検出するためのツールである。これにより、ユーザは、試料セットの他の試料と異なるように挙動する試料を同定でき、これらは、対比解析の結果に不適切な影響を及ぼす。これらの試料は、試料データの品質に問題がないか、または、これらの試料が何らかの点で特有のものでないかを決定するための他のツールでさらに解析できる。
【０４５７】
試料セットの他の試料と非常に異なるように挙動する試料は、プロットにあるほとんどの他のバーより長いバーに関連付けられる。これらの試料は、選択され、「除去」できる。これにより、ツールは、選択された試料を除去した修正された入力試料セットに基づいて、ワークスペースにある下の試料セットを実際に変更することなく、全てのＴスコアおよびランクを再度計算する。
【０４５８】
解析を実行するさい、アプリケーションは、入力試料セットの試料に反復適用される。各試料に対して、アプリケーションは、試料セットからの試料を除去し、Ｎ遺伝子の全ての対比に対してｔスコアを再計算し、最大または最小ｔスコアにより遺伝子を再度ランク付けし、各遺伝子のオリジナルのランキングを新しいランクから減算し、差の絶対値を計算する。次に、Ｎ遺伝子に対するこれらの絶対ランク差の中央値が計算される。最後に、中央値は、「ＬｅａｖｅＯｎｅＯｕｔプロット」の各試料に対して報告される。
【０４５９】
「対比解析」とともに使用するために利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しい対比解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存した対比解析を開くことができる「対比解析を選択」ウィンドウを開く「ファイル」、「開く」タブと、対比の名前を付け保存できる「対比解析を保存」ウィンドウを開く「ファイル」、「対比解析を保存」タブと、「対比解析」からの結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第３者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「対比解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【０４６０】
「対比解析」メニューは、以下のものをさらに含むことが好ましい。このメニューは、「計算」タブを開く「表示」、「計算フォーム」タブと、「結果」タブを開く「表示」、「結果」タブと、「結果」タブに詳細パネルを表示するトグルとなる「表示」、「詳細パネルを示す」タブと、遺伝子属性およびデータ値を表示する列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、入力遺伝子セットかにマスキング遺伝子セットを適用するか、そこから除去する「遺伝子セットマスクを追加／除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加／除去」タブと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」と、結果を並び替える「表示」、「並び替え」タブと、「プロットオプション」ウィンドウを開く「プロットプション」タブとを含む。
【０４６１】
本発明の追加の好適な態様は、断片インデックスおよび遺伝子照会属性ツリーである。本発明のこれらのコンポーネントの態様は、遺伝子インデックスにおける異種間の相同と、共クラスタリングされた配列とＧｅｎＢａｎｋＡｃｃｅｓｓｉｏｎによる検索と、ＢＬＡＳＴのヒット数および警告と、遺伝子オントロジーと、遺伝子照会属性ツリーとを含む。
【０４６２】
異種間の相同は、遺伝子インデックスにおいて２つの主要な方法で表される。すなわち、マウスゲノムデータベース（ＭＧＤ）から相同遺伝子の修正リストを使用する既知遺伝子間の関係と、蛋白質配列との共有類似性を使用する配列クラスタ間の関係である。
【０４６３】
ＭＧＤからのリストは、マウスとヒトの遺伝子と、マウスとラット遺伝子の相同対からなる。遺伝子インデックスにおいて、「ヒト→ラット」相同は、「ラット→マウス」と「マウス→ヒト」の関係の推移的な延長にも含まれる。異種間の相同に対応する遺伝子断片（すなわち、プローブセット）は、「相同」下にある「異種間相同の断片」照会オプションを介してアクセス可能である。データを出力保存して、他の種の脈絡において遺伝子セットとしてリストを取り込むことにより、他の種へ適用することができる。
【０４６４】
これらの遺伝子レベルの相同は、「既知の遺伝子」照会オプションを介して、照会および表示の両方にアクセス可能であり、所与の個々の断片に対して「属性」詳細パネルにも表示される。
【０４６５】
２つの配列クラスタが、ＵｎｉＧｅｎｅからのＰＲＯＴＳＩＭデータにより決定されるように、同じ蛋白質配列に対する相同を共有すれば、各々は、相同クラスタとして他方のものに向かう。相同クラスタは、同じ種または異なる種からのものであってよい。
【０４６６】
高い頻度で、遺伝子インデックスのユーザは、配列のＧｅｎＢａｎｋ受入を有し、この配列に対応するチップ上の断片（プローブセット）を見つけることを望む。これを行うための適切な方法は、「ＡＦＦＸ遺伝子断片」下の共クラスタリングされた配列を検索することにより行われる。所与のＡｆｆｙｍｅｔｒｉｘ遺伝子断片に対して、共クラスタリングされた配列は、断片として同じ配列クラスタ（または複数のクラスタ）にあるＵｎｉＧｅｎｅにある全ての配列を含む。これにより、ＥＳＴの非常に優れた分布範囲が得られる。正確な受入が既知のものであれば（または、受入のリストが、「属性による取り込み」方法を用いて利用可能であれば）、「マッチ」を用いることが著しく高速である。
【０４６７】
多数の「Ａｆｆｙｍｅｔｒｉｘ遺伝子断片」は、同じ配列クラスタに相当してよい。所与の断片と同じ「配列クラスタ」にある「Ａｆｆｙｍｅｔｒｉｘ遺伝子断片」を見つけるために、「共クラスタリングされたＡＦＦＸ断片（「関連する他のＡＦＦＸ断片」下にある）を用いて検索する。
【０４６８】
「共クラスタリングされたＡＦＦＸ断片」は、開始するチップセットに加えて、他のチップセットにある断片を含んでよい。例えば、Ｈｕ４２Ｋチップセットにある所与の「Ａｆｆｙｍｅｔｒｉｘ遺伝子断片」の共クラスタリング断片は、Ｈｕ４２ＫチップセットおよびＨＧ＿Ｕ９５チップセットの両方にある断片を含んでよい。
【０４６９】
「ＢＬＡＳＴヒット数および警告」にあるデータは、２つのソースからのものである。１つは、Ａｆｆｙｍｅｔｒｉｘにより与えられる問題のある断片のリストである。もう１つは、全長転写のＮＣＢＩのＲｅｆｓｅｑデータベースに対するｓｉｆ配列（断片詳細ビューにおける「貼り付け領域配列」）のＢＬＡＳＴである。チップ上のオリゴマープローブは、ｓｉｆ配列のサブセットから生じる。感度閾値より大きいＢＬＡＳＴヒット数（ｓｉｆ配列長の８０％を上回る９７％アイデンティティ）は、３つの分類に分けられる。すなわち、ｓｉｆ配列がアンチセンス鎖にマッチすれば、警告メッセージが「間違った鎖とマッチ」に設定されることと、センス鎖にマッチすれば、転写の３’末端とのマッチの最小、最大、および平均距離が計算され、最小距離、平均距離、および最大距離フィールドに入力されることと、３’末端の平均距離が１０００ヌクレオチドより大きければ、警告メッセージが「３’末端から遠いプローブ」に設定されることである。
【０４７０】
全ての場合において、Ｒｅｆｓｅｑ配列のＧｅｎＢａｎｋ受入は、ＲｅｆＳｅｑＩＤフィールドに入力され、対応する遺伝子の記号は、遺伝子フィールドに現れる。「Ａｆｆｙｍｅｔｒｉｘ遺伝子断片」の「断片警告」属性は、「ＢＬＡＳＴヒット数および警告」のデータから生じる。「断片警告」の初期設定は「いいえ」である。問題のある断片のＡｆｆｙｍｅｔｒｉｘリストにその断片があるなら、または、警告があるＢＬＡＳＴヒット数がありながら警告のないＢＬＡＳＴヒットがないならば、「はい」に設定される。
【０４７１】
遺伝子オントロジーコンソーシアム（ｈｔｔｐ：／／ｇｅｎｏｍｅ−ｗｗｗ．ｓｔａｎｆｏｒｄ．ｅｄｕ／ＧＯ／）は、細胞における遺伝子および蛋白質の役割の知識が蓄積し変化しても、全ての真核生物に適用可能な動的に統制された用語を与えるための公開プロジェクトである。生物学の専門用語のオントロジーは、多数のデータストレージ、検索、および解析タスクの意味的フレームワークを形成するために使用可能な生物学的概念のモデルを与える。このような意味的フレームワークは、さまざまな異種のバイオインフォマティックスデータのシームレス統合を行うために使用でき、それらの間での均一な照会を可能にする。
【０４７２】
遺伝子オントロジー（ＧＯ）という用語は、３つの異なる原理により規定される。すなわち、個々の遺伝子産物により実行されるタスクを記述し、例として、転写ヘリカーゼが挙げられる分子機能と、広範囲な生物学的目標を記述し、分子機能の配列された集合により達成され、例として、プリン代謝過程が挙げられる生物学的過程と、サブセルラー構造、位置、および高分子錯体を含み、例として、核、末端小粒、複製開始点認識複合体が挙げられる分子成分である。
【０４７３】
本発明のさまざまな目的を達成するための本発明のさまざまな好適な実施形態について上述した。これらの実施形態は、本発明の原理を説明したものにすぎなことを認識されたい。それらの多数の修正および適応は、本発明の主旨および範囲から逸脱することなく、当業者に容易に明らかなものであろう。
【図面の簡単な説明】
【０４７４】
【図１】本発明の一実施形態によるデータウェアハウスのスターリレーショナルスキーマの図である。
【図２】本発明の一実施形態によるデータベースサービスを提供するための適切な計算アーキテクチャのブロック図である。
【図３】本発明の一実施形態によるデータウェアハウスのブロック図である。
【図４】本発明の一実施形態による試料空間に含まれる可能性のある試料特性の図である。
【図５】本発明の一実施形態による試料空間をモデリングするためのスノーフレークスキーマの図である。
【図６】本発明の一実施形態による遺伝子注解空間をモデリングするためのスノーフレークスキーマの図である。
【図７】本発明の一実施形態による遺伝子発現空間をモデリングするためのスノーフレークスキーマの図である。
【図８】本発明による完全性制約強制メカニズムの図である。
【図９】本発明による受入過程の図である。
【図１０】本発明による過程の流れの図である。
【図１１】対比解析の図である。
【図１２】対比解析の図である。
【図１３】対比解析の図である。

Claims

効率的な探究および解析を支援するリレーショナルフォーマットにおいて、遺伝子発現、遺伝子注解、および試料情報を解析する方法であって、
さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、ＤＮＡ断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスを提供することと、
１つ以上のＤＮＡ断片の遺伝子発現に関する照会を受信することと、１つ以上のＤＮＡ断片の遺伝子発現レベルを決定することと、遺伝子発現レベルを臨床データベースと断片インデックスに相関させること、
および前記相関の結果を表示することとを含む方法。
前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項１に記載の方法。
前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項１に記載の方法。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つのＤＮＡ断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項１に記載の方法。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つの遺伝子発現シグネチャを比較し、４つのＤＮＡ遺伝子断片セット、すなわち、第１の遺伝子シグネチャの存在遺伝子セットと第２の不在遺伝子セットとの両方にあるものと、第１の遺伝子シグネチャの不在遺伝子セットと第２の存在遺伝子セットとの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものとを引き出す、遺伝子シグネチャ差解析をさらに含む、請求項１に記載の方法。
遺伝子発現、遺伝子注解、および試料情報の解析は、ＤＮＡ断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項１に記載の方法。
遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたったユーザ選択の百分位数の一対に対して、ＤＮＡ断片を同定するＥノーザン解析をさらに含む、請求項１に記載の方法。
さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、ＤＮＡ断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスと、
１つ以上のＤＮＡ断片の遺伝子発現に関する照会を受信し、遺伝子発現レベルを臨床データベースと断片インデックスに相関させた結果を表示できるユーザインタフェースとを含むコンピュータシステム。
前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項８に記載のコンピュータ。
前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項８に記載のコンピュータ。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つのＤＮＡ断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項８に記載のコンピュータ。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つの遺伝子発現シグネチャを比較し、４つのＤＮＡ遺伝子断片セット、すなわち、第１の遺伝子シグネチャの存在遺伝子セットと第２の不在遺伝子セットとの両方にあるものと、第１の遺伝子シグネチャの不在遺伝子セットと第２の存在遺伝子セットとの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものとを引き出す、遺伝子シグネチャ差解析をさらに含む、請求項８に記載のコンピュータ。
遺伝子発現、遺伝子注解、および試料情報の解析は、ＤＮＡ断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項８に記載のコンピュータ。
遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたるユーザ選択の百分位数の一対に対し、ＤＮＡ断片を同定するＥノーザン解析をさらに含む、請求項８に記載のコンピュータ。
さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、およびＤＮＡ断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスに関係するコンピュータ読取りプログラムコードを組み込んだコンピュータ使用可能媒体を含むコンピュータプログラム製品であって、
１つ以上のＤＮＡ断片の遺伝子発現に関する照会を受信するためのインタフェースを提供するステップと、
１つ以上のＤＮＡ断片の遺伝子発現レベルを決定するステップと、
遺伝子発現レベルを臨床データベースと断片Ｓインデックスに相関させるステップ、および
前記相関の結果を表示するステップ、
という手順をコンピュータシステム内で実行するための、コンピュータ読取り可能プログラムコードを含む、コンピュータプログラム製品。
前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項１５に記載のコンピュータプログラム製品。
前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項１５に記載のコンピュータプログラム製品。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つのＤＮＡ断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項１５に記載のコンピュータプログラム製品。
遺伝子発現、遺伝子注解、および試料情報の解析は、２つの遺伝子発現シグネチャを比較し、４つのＤＮＡ遺伝子断片セット、すなわち、第１の遺伝子シグネチャの存在遺伝子セットと第２の不在遺伝子セットとの両方にあるものと、第１の遺伝子シグネチャの不在遺伝子セットと第２の存在遺伝子セットの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものと、を引き出す遺伝子シグネチャ差解析をさらに含む、請求項１５に記載の方法。
遺伝子発現、遺伝子注解、および試料情報の解析は、ＤＮＡ断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項１５に記載のコンピュータプログラム製品。
遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたったユーザ選択の百分位数の一対に対して、ＤＮＡ断片を同定するＥノーザン解析をさらに含む、請求項１５に記載の方法。