JP2004535612A - 遺伝子発現データの管理システムおよび方法 - Google Patents

遺伝子発現データの管理システムおよび方法 Download PDF

Info

Publication number
JP2004535612A
JP2004535612A JP2002569930A JP2002569930A JP2004535612A JP 2004535612 A JP2004535612 A JP 2004535612A JP 2002569930 A JP2002569930 A JP 2002569930A JP 2002569930 A JP2002569930 A JP 2002569930A JP 2004535612 A JP2004535612 A JP 2004535612A
Authority
JP
Japan
Prior art keywords
gene
sample
expression
analysis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002569930A
Other languages
English (en)
Inventor
ビクター マルコヴィッツ、
ソドロス トパログル、
ケビン マクローリン、
ジョン エム. キャンプベル、
ドミトリー クライロブ、
イ−ミン エイ. チェン、
アンソニー コスキー、
ドウ ドルジナウ、
Original Assignee
ジーン ロジック インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジーン ロジック インコーポレイテッド filed Critical ジーン ロジック インコーポレイテッド
Publication of JP2004535612A publication Critical patent/JP2004535612A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

本発明は、効率的な探究および解析をサポートするリレーショナルフォーマットにおいて、遺伝子発現、遺伝子注解、および試料情報を解析するシステムおよび方法であって、さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、DNA断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスを提供することと、1つ以上のDNA断片の遺伝子発現に関する照会を受信することと、1つ以上のDNA断片の遺伝子発現レベルを決定することと、遺伝子発現レベルを臨床データベースと断片インデックスに相関させることと、前記相関の結果を表示することとを含むシステムおよび方法に関する。

Description

【技術分野】
【0001】
関連出願の相互参照
本願は、2001年3月5日に出願された「遺伝子発現データの管理システムおよび方法」と題された米国特許出願第09/797,830号の優先権を主張し、その内容全体を参照により本願明細書に援用し、同出願において、非仮出願から仮出願への変更申請書が提出されている。
【0002】
発明の背景
発明の分野
本発明は、一般的に、生物学的情報の格納および検索用のリレーショナルデータベースに関する。さらに詳しく言えば、本発明は、効率的な探究および解析を支援するリレーショナルフォーマットで、遺伝子発現、遺伝子注解、および試料情報を提供するためのシステムおよび方法に関する。
【背景技術】
【0003】
関連技術の説明
DNAマイクロアレイは、規則正しい二次元行列にDNA試料(例えば、ゲノムDNA、cDNA、またはオリゴヌクレオチド)を含むガラスマイクロスライドまたはナイロンメンブレンである。DNAマイクロアレイは、遺伝子発現およびゲノムクローンを解析したり、単一塩基変位多型(「SNP」)を検出したりするために使用することができる。マイクロアレイを作製するために使用されるDNAは、ある一定の発達段階中に、ある一定の経路にある特定の組織に発現する遺伝子や、薬剤や他の試剤での処理後に特定の組織に発現する遺伝子など、関係のある遺伝子群からのものである場合が多い。このような遺伝子群の発現は、マイクロアレイにリンクされたDNA配列に対する蛍光標識したRNAまたはDNAのハイブリダイゼーションを測定することにより定量化される。遺伝子発現をプロファイルすることにより、臓器および組織の発達、微生物感染、および腫瘍形成による転写変化をモニタリングすることができる。
【0004】
バイオチップとしても知られるDNAマイクロアレイは、ガラス表面上のモノマーヌクレオチドをリンクしてオリゴヌクレオチドを作ることによって作製できる。ポリメラーゼ連鎖反応(PCR)産物および有機体遺伝子のアレイの作製に一般的な別の方法では、数千のDNA試料を表面にスポットするためのロボット器具が使用される。このように高スループットのアプローチを用いると、再現性および生産性が高まる。
【0005】
アレイの作製では、96〜1500ウェルマイクロプレートからガラスマイクロスライド上の100〜200μmスポットに1〜2nlのDNA試料を移す。これは、ソリッドピンを使って1回スポットするか、「スプリット」ピンを使って複数回スポットすることにより達成される。出力は、ピン、入力マイクロプレート、および出力マイクロスライドの数により決定される。表面蛍光計などのマイクロアレイリーダーも、この式の一部である。大学の研究、小規模および大規模のバイオ製薬会社、および大規模臨床試験研究でマイクロアレイが使用されているため、これらの多様な需要を満たすためのさまざまな器具および統合システムが存在する。
【0006】
Affymetrix社(カリフォルニア州サンタクララ)は、診断や薬剤開発産業を支援可能な大量生産方法を提供している。Affymetrix社が提供するGeneChip技術では、固相化学とフォトリソグラフィとを組み合わせてin situにプローブを作る所有権を有する方法により製造されたガラスマイクロアレイが使用される。ガラスウェハは、ハイブリダイゼーションが実行されるプラスチックカートリッジにパッケージングされる。いくつかのハードウェアコンポーネントが、GeneChipセットを形成する。GeneChip Fluidics Station 400が、試料をプローブアレイカートリッジに導入する。Hybridization Oven 640は、最大64個のカートリッジを処理する。Agilent Technologies社は、Affymetrix社のマイクロアレイ専用に使用されるGeneArrayスキャナ(モノクロ:20μm解像度)を設計し、このスキャナは、GeneChipセットに組み込むために、Affymetrix社により販売されている。また、Affymetrix社は、データ収集、AADM(商標)(「Affymetrix Analysis Data Model」)データベースフォーマット、データマイニング、および電力多消費環境用のマルチユーザ実験情報管理システム(「LIIMS」)システムの一連のソフトウェアソルーションを提供している。
【0007】
今日のDNAマイクロアレイ技術を用いれば、さまざまな薬理学的処置の後、またはさまざまな毒物学的損傷にさらされた後、さまざまな疾病状態にある間、どの遺伝子またはSNPがオンまたはオフにされているかを示すための大量のデータを容易に収集できる。しかしながら、これらの技術を用いて収集可能なデータ量は非常に多いが、脈絡がない場合が多い。遺伝子データの関連性は、他の情報との関係により決定される場合が多い。例えば、ある病気の過程で特定遺伝子の発現が増大することが分かれば、その情報は重要な情報となる。さらに、このデータを、さまざまなタイプの臨床データ、例えば、患者の年齢、性別、体重、臨床発達段階、病気の進行段階などと相関する必要性がある。当分野で必要とされているものは、DNAマイクロアレイを用いて獲得可能な大量の遺伝子およびSNP発現データを、テストされる試料からの対応する臨床データと相関させることである。
【発明の開示】
【発明が解決しようとする課題】
【0008】
上述した必要性を満たすために、本発明により、重大な臨床的所見を有するヒトおよび実験動物からの正常および病変の組織または細胞株を相関させて、ターゲットの選択および優先順位付けを可能にして、特定の病気のメカニズムの研究を実現する方法およびシステムが提供される。さらに、本発明により、ヒトおよび動物の組織または細胞株に処置用の化合物が及ぼす影響を検査する能力を利用するシステムおよび方法が提供される。遺伝子発現データを既知の処置および実験パラメータと比較することにより、処置用化合物の作用メカニズムと実験モデルシステムの特徴を容易に研究することができる。同様に、本発明により、前臨床環境と臨床環境の両方で組織および細胞に毒性のある化合物が及ぼす影響を検査できるシステムが提供される。
【課題を解決するための手段】
【0009】
発明の簡単な概要
本発明の目的は、DNAマイクロアレイを用いて獲得可能な大量の遺伝子およびSNP発現データを、テストされる試料からの対応する臨床データと相関させるためのシステムおよび方法を提供することである。
【0010】
本発明の別の目的は、ヒトおよび動物の組織または細胞株に処置用化合物が及ぼす影響を検査する能力を利用するシステムおよび方法を提供することである。
【0011】
本発明の別の目的は、重大な臨床的所見を有するヒトおよび実験動物からの正常および病変の組織または細胞株を相関させて、ターゲットの選択および優先順位付けを可能にして、特定の病気のメカニズムの研究を実現する方法およびシステムを提供することである。
【発明を実施するための最良の形態】
【0012】
マイクロアレイ技術により、大量の遺伝子発現データを生成できるようになる。これらの技術を効率的に用いるためには、大量の初期および誘導された(解析された)遺伝子発現データを管理および探究するためのメカニズムが必要である。さらに、試料プロファイルおよび遺伝子注解データの脈絡に設定される場合、情報の生物学的な意味を調べる価値が高められる。データのフォーマットと解釈は、基礎となる技術に多く依存する。したがって、遺伝子発現データを探究するためには、複数のプラットフォームにわたって、試料と遺伝子注解を有する遺伝子発現データを統合するためのメカニズムが必要である。本発明は、遺伝子発現および関連するデータを管理および探究するためのデータウェアハウス方法を用いる。
【0013】
一般的に、本発明により、大量のデータを格納するためのデータウェアハウスを含み、効率的な遺伝子発現の探究および分析を支援する構造を備えたシステムが提供される。データウェアハウスは、正常組織と病変組織、実験的な動物モデルと細胞組織、およびさまざまな処置済みの状態と未処置の状態に関する定量的な遺伝子発現情報を含んでよい。また、データウェアハウスは、試料、臨床プロファイル、および豊富な遺伝子注解に関する広範囲にわたる情報を含んでもよい。
【0014】
本発明の一実施形態において、データウェアハウスは、別々の試料、遺伝子注解、および遺伝子発現多次元データ空間としてモデリングされてよい。従来のオンライン分析処理(「OLAP」)の次元縮小および集約操作の観点から言えば、これらのデータ空間の基本的な動作は、複雑な遺伝子発現解析動作用に使用されてよい。データウェアハウス管理ツールは、データの一貫性を維持するために使用され、方法に特化した一貫性の法則が、データの移行および統合過程の正確な実行をチェックし、ドメインに特化した法則は、試料、発現、および遺伝子注解データを有効にする。本発明の一実施形態によれば、インターネットのサイトwww.ncbi.nlm.nih.gov/Genbankで入手可能なGenBankのパブリックドメインデータベースなどの別の遺伝子発現データベースからの遺伝子発現データに、一様な分析インタフェースを与えるための記録が使用されてよい。
【0015】
本発明の一実施形態を簡潔に記載してきたが、本発明をより完全に理解できるように、基本的なデータウェアハウスの概念について記載する。しかしながら、読者は、本発明が本願明細書に提示される特定の詳細に限定されることなく実施されてよいことを理解されたい。
【0016】
基本的なデータウェアハウスの概念
遺伝子発現データのデータ管理インフラストラクチャは、2つの主要な目的、すなわち、データの獲得とデータの解析を満たすものでなければならない。これらの目的を達成するのに必要とされるデータベース技術は、実質的に異なるものである。データの獲得は、オペレーショナルデータベースの従来のアプリケーションであり、迅速なコンテンツ置換とともに、実時間での迅速なデータ更新を支援する必要性を特徴とする。一般的に、オペレーショナルデータベースは、更新性能を最適化するようにデザインされたものである。オペレーショナルデータベースとは対照的に、データウェアハウスは、実時間ではなく周期的なコンテンツの蓄積とともに、大量のデータの迅速な探究を支援する必要性を特徴とする。データウェアハウスにある情報は、さまざまな、一般的に異種のソースからのものであるため、情報の統合を要する。一般的に、データウェアハウスは、より高速なデータアクセスとオンライン分析処理の照会性能を最適化するようにデザインされている。
【0017】
データウェアハウスのコアには、ファクトオブジェクトと関連付けられた主要な測定属性があり、測定属性の値は、ウェアハウスを直接用いて解析されるか、またはOLAPメカニズムを介して分析される。ファクトオブジェクトは、異なる次元のオブジェクトの脈絡にモデリングされ、各次元は、1つ以上のカテゴリー属性により特徴付けられる。さらに、カテゴリー属性は、特殊化階層に体系化されてよい。データウェアハウスアプリケーションの典型的な一例として、特定の日に店舗で販売される製品が挙げられ、この場合、販売量は測定オブジェクトであり、製品、店舗、および日付は関連する次元であり、製品はカテゴリー(例えば、服、電子機器)により特徴付けられ、店舗は場所(例えば、都市、州)により特徴付けられ、日付は時間(例えば、年、月、日)により特徴付けられる。
【0018】
データウェアハウスは、一般に、図1に示した例により示されるようなスターリレーショナルスキーマを用いて構造化され、同図において、各次元は、遺伝子テーブル104のようなテーブルにより表される。ファクトテーブルである発現テーブル102は、測定オブジェクトに関する主要な情報を含み、次元テーブル104、106、および108との関係を有する。スノーフレークスキーマは、より複雑な次元の構造を表すための補助テーブルを与えることにより、スタースキーマを拡張する。スノーフレークスキーマについては、図3を参照しながら以下にさらに記載する。
【0019】
OLAPアプリケーションは、要約などの集合関数を測定値に適応できる多次元データ空間としてデータウェアハウスを見なす。他のOLAP動作は、(1)多次元空間上での射影(スライス)と、射影された次元にわたった範囲の選択(ダイス)とを組み合わせる、スライスアンドダイス動作としても知られる選択および射影の動作の組み合わせと、(2)ロールアップ動作としても知られ、所与の次元と関連付けられた分類階層の1つのレベルにわたったその次元における測定の集合動作(例えば、要約)と、(3)集合動作の逆のものである、ドリルダウン動作としても知られる分解動作とを含む。例えば、二次元空間(例えば、場所と日付)のデータを見るために、射影動作(スライス)を適用することができ、特定の日に販売された製品を見るために、選択動作(ダイス)を使用することができ、所与の製品カテゴリー(例えば、電子機器)の販売量を要約するために、集合動作を使用することができる。
【0020】
製品の売上高などの比較的単純で正確な実際のファクトを表すデータを処理する従来のデータウェアハウスアプリケーションとは異なり、科学的データ一般、特に、遺伝子発現データは、複雑なものであり、不明確な現象を表す場合が多い。例えば、データを生成するために用いられる基礎となる科学的な方法の進展に反映して、データは時間の経過とともに変化することがあり、複雑な分析方法を用いて行う実験結果の解釈を表す場合が多い。
【0021】
したがって、遺伝子発現データの複雑性により、3つのデータベース、すなわち、試料、断片インデックス、および遺伝子発現のデータベースに区分けされたデータのモデリングが必然的に伴う。当業者であれば、これらのデータベースは、基礎となる科学的な方法の進展に伴い、更新またはリフレッシュが必要となる場合があることを理解されよう。
【0022】
遺伝子発現の探究解析システム
以下、いくつかの図面において同様の番号が同様の構成要素を表す図面を参照すると、本発明の態様が描写されている。図2および以下の記載は、本発明が実施されてよい適切な計算アーキテクチャを一般的に記載することを意図したものである。
【0023】
図2を参照すると、データ管理システム(「DMS」)210と、データウェアハウス(「DW」)220とを含む遺伝子発現データ管理インフラストラクチャが示されている。本発明の一実施形態によれば、DMS210は、オペレーショナルデータベースと、データの獲得および生成データの管理をサポートする実験情報管理システム(「LIMS」)アプリケーションとを含む。
【0024】
本発明の一実施形態によれば、DW220は、試料および遺伝子注解データと統合され、要約および補正された遺伝子発現データを含み、効率的なデータの探究およびマイニングを支援する。前述したように、DW220は、3つのデータベース、すなわち、試料データベース222と、断片インデックスデータベース224と、遺伝子発現データベース226とに区分けされてよい。
【0025】
本発明の一実施形態によれば、遺伝子発現データは、Affymetrix Corporation(カリフォルニア州サンタクララ)が販売するAffymetrix GeneChipプラットフォームを用いて生成されてよく、特定の分野と拡張性のあるAffymetrix Analysis Data Model(「AADM」)リレーショナルフォーマットで表されてよい。AADM表示において、遺伝子発現データ空間の方法には、2つの解析方法、すなわち、細胞の平均化とチップの解析が伴う。本発明の一実施形態によれば、細胞の平均化とチップの解析の結果は、2つのファクトテーブル、すなわち、MEASUREMENT_ELEM_RESULT(「MER」)と、ABS_GENE_EXPR_RESULT(「AGER」)テーブルのそれぞれに格納されてよい。DW220には大量のデータが含まれるため、両方のテーブルの管理に問題がある場合がある。例えば、あるヒト試料が、MERテーブルに125万行、AGERテーブルの4万2千行になる5つの実験結果を伴うことがある。したがって、本発明によれば、AGERテーブルは、OLAPのような多次元アレイを用いて探究されてよい。さらに、MERテーブルは、区分けされ記録されてよい。読者は、プロトコルバージョン、解析ソフトウェア構造、および解析方法などの実験パラメータが、DW220に格納されてもよいことを理解されたい。
【0026】
再度、図2を参照すると、マイクロアレイ実験により生成された生データファイルを格納するための記録230が与えられる。さらに、記録230は、MERテーブルのプローブ対データに第3ストレージを与える。
【0027】
本発明の一実施形態において、記録230は、多層ストレージシステムとして体系化されてよい。第1の層は、リレーショナルデータベースと、ネットワークファイルシステムを含み、データベースは、プローブ対データのコンテンツベースの高速検索を行うためのインデックスを維持するのに対して、ネットワークファイルシステムは、DW220にある試料のCELおよびDATファイルなどのプローブ対データおよび画像データを格納する。第2の層は、全てのデータファイルとともに、過程追跡データおよび中間データファイルなど、DMS210により生成された全ての補助的なファイルを格納するニアライン光磁気ストレージシステムをベースにしている。データファイルの生成に関しては、DMS210の詳細な記載を参照しながら、以下にさらに詳細に記載する。記録230の第3の層は、復元性および耐故障性を高める第2のオフラインバックアップストレージシステムである。
【0028】
本発明の一実施形態によれば、DW220の試料、断片インデックス、および遺伝子発現データベース222、224、および226は、エクスプローラ240を用いて、集合的または個別に探究することができ、このエクスプローラは、遺伝子および試料セットの構築、遺伝子および試料セットの脈絡における遺伝子発現データの解析、およびユーザ作業環境250などの個々または集団解析作業環境の管理を支援する。
【0029】
図2に示すように、多次元遺伝子発現行列(「GXM」)を与え、DM220に格納されたコアデータに迅速にアクセスするために、実行時間データ表示260が与えられてもよい。多次元GXMは、遺伝子発現データを探究するために使用されてよく、基礎となる遺伝子発現技術プラットフォームから独立したデータ表示を与える。本発明の一実施形態において、データは、各試料/プローブ対の不在/存在コール、強度、および各試料に対して利用可能なチップを含んでよい。実行時間データ表示は、高性能の遺伝子発現解析を行うことを意図したシステムコンポーネントである実行時間エンジンの一部である。本発明の一実施形態において、実行時間エンジン260へのプログラミングアクセスは、基礎となる実行およびメモリモデルを反映するための低水準C++ APIを介したものであってよい。さらに、遺伝子セットおよび試料セットなど、さまざまな高水準概念をサポートするために、高水準C++ APIが使用されてもよく、これについては、以下でさらに詳細に記載する。さらに、高水準解析機能を実行するための追加のクラスおよび方法をサポートするために、高水準C++ APIをベースにしたIDLインタフェースが与えられてよい。
【0030】
エクスプローラ240および実行時間エンジン260により支援される解析方法により、遺伝子発現データを操作するための効率的なメカニズムが得られる。図2の計算アーキテクチャの中間層は、追加の分析ツールを統合するためのある範囲のAPIを支援する。APIのリストは、遺伝子発現記録(GXA)とのコールレベルインタフェースと、照会トランスレータ(データベース照会用のミドルウェア)と、ユーザ管理235、237、および255の作業環境APIとを含む。
【0031】
本発明の実施形態によれば、エクスプローラ240は、さまざまな解析方法およびツールに対応する。例えば、本発明による基本的な遺伝子発現解析動作の1つは、遺伝子シグネチャツールである。遺伝子シグネチャツールは、試料セットSにわたって遺伝子セットGから一貫して存在および不在の遺伝子を同定する。GおよびSに関する遺伝子シグネチャの結果は、一対{CPC(G,S),CAG(G,S)}からなり、ここで、CPGは一貫して存在する遺伝子を表し、CAGは一貫して不在の遺伝子を表す。遺伝子シグネチャを計算するさいに、(カード(5)−k)などの閾値が使用される場合が多く、ここで、カード(S)はセットSの集合数を表し、kは1,2,...,nである。遺伝子シグネチャ差解析ツールが、2つの遺伝子シグネチャ解析の結果を比較し、4つの新しい断片セットを計算し、2つの遺伝子シグネチャ解析とは、第1の存在遺伝子セットと第2の不在遺伝子セットの両方における解析と、第1の不在遺伝子セットと第2の存在遺伝子セットの両方における解析と、両方の存在遺伝子セットにおける解析と、両方の不在遺伝子セットにおける解析である。
【0032】
遺伝子シグネチャの精度は、試料セットのサイズに依存し、試料セットが大きいほど、個々の間で発現差のある遺伝子の排除が確保される。試料セットSの遺伝子シグネチャは、任意の新しい試料をSに追加することにより、CPG(G,S)∪CAG(G,S)が2.5%以下減少すれば正確であると見なされる。
【0033】
CPGは、一貫して存在する遺伝子を表し、CAGは一貫して不在の遺伝子を表し、IPGは一貫せずに存在する遺伝子を表し、IAGは一貫せずに不在の遺伝子を表す。GをDWでモニタリングされる全遺伝子断片として、Sを試料セットとする。存在/不在コールは、Gの遺伝子を4つのグループCPG、IPG、JAG、CAGに順序付ける。シグネチャ解析が、以下のように、複数の試料セットSi,...,Snに一般化されてよい。すなわち、以下の対により規定されるセットSi対セットS2,...,Snの発現差のある遺伝子。
【0034】
{(CPG(G,Si)∩CAG(G,S2)∩...∩CAG(G,Sn)),
(CAG(G,S1)∩CPG(G,S2)∩...∩CPG(G,Sn))}。
【0035】
以下の対により規定されるセットS1対セットS2,...,Snの固有の一貫して発現した遺伝子。
【0036】
{(CPG(G,Si)∩IPG(G,S2)∩...∩IPG(G,Sn)),
(CAG(G,S1)∩IAG(G,S2)∩...∩IAG(G,Sn))}。
【0037】
以下の対により規定されるS1,...,Snの共通の一貫して発現した遺伝子。
【0038】
{(CPG(G,Si)∩...∩CPG(G,Sn)),
(CAG(G,Si)∩...∩CAG(G,Sn))}。
【0039】
以下の対により規定されるS1,...,Snの共通の一貫せずに発現した遺伝子。
【0040】
{(IPG(G,S1)∩...∩IPG(G,Sn)),
(IAG(G,Si)∩...∩IAG(G,Sn))}。
【0041】
エクスプローラ240により支援される追加の遺伝子発現解析動作は、フォールド(折り畳み構造)の変化の解析と、試料セットの解析を含む。フォールドの変化の解析は、遺伝子セットGの各遺伝子断片に対して、試料セットSと制御試料セットとの間の平均ログ発現値の比を計算し、この分析の第1のステップには、試料次元上での遺伝子発現の平均化を伴う。試料セットの解析は、遺伝子が一貫して発現する試料セットSにわたった遺伝子セットGの各遺伝子に対して、発現レベルの範囲を計算する。この解析の第1のステップには、遺伝子セットからの全ての遺伝子が一貫して(存在または不在)発現する遺伝子である試料セットの試料の同定が伴う。
【0042】
遺伝子および試料の照会は、試料セットおよび遺伝子セットの規定を支援する。遺伝子配列を照会することにより、ユーザは、遺伝子配列が、断片インデックスデータベース224にある遺伝子またはESTの任意のものと一致するかを決定することができる。
【0043】
クラスタリングにより、発現プロファイルに基づいた類似した遺伝子または類似した試料群を同定することができる。このような公知の技術は、仮定を予想することなく、データセットの構造を知るために有用である。
【0044】
電子ノーザンツール分析は、DW222に表示される全ての組織タイプにわたって、遺伝子およびESTの発現値の範囲を決定する。さらに詳しく言えば、ユーザ規定の遺伝子セットおよび1つ以上の試料セットが、断片が存在する全ての試料に対して、各試料セットにわたって遺伝子セットにある各遺伝子断片の発現レベルの範囲を報告するために使用される。この範囲は、ユーザにより特定される上位および下位百分位数レベルを用いて報告される。例えば、ユーザが、上位および下位百分位数レベルとして100%と0%を選択すれば、分析は、全ての存在コールに対しての最大および最小の発現レベル範囲を報告する。
【0045】
遺伝子発現データが特定の(例えば、代謝)経路または染色体細胞遺伝学的マップのフレームワークで表される経路および染色体マップなどの遺伝子注解の脈絡において、遺伝子発現探究の結果をさらに考察することができる。経路の視覚化では、経路に含まれる遺伝子または遺伝子産物の発現レベルを示すために、カラーバンドで蛍光マークが付けられた代謝または信号経路の部分を表すグラフが用いられる。このバンドは、別々の矩形に水平方向に分割されてよく、それぞれは、特定の試料の発現レベルに対応する。この代わりとして、経路の視覚化は、フォールドの変化の解析とともに使用されてよく、バンドの色はフォールドの変化値に対応する。
【0046】
代謝経路において、部分は、EC数により同定されるものであってよい酵素活性を表す。酵素をコード化する強発現遺伝子および弱発現遺伝子は、それぞれ、暗い陰影と明るい陰影が付けられている。複数の遺伝子が、多数の異なるアルコールデヒドロゲナーゼなど、同じ活性をもつ酵素をコード化してよい。さらに、複数の断片が、同じ遺伝子を表してよい。基礎となる経路ダイヤグラムは、www.genome.ed.jp/keggで入手可能なKEGGなどのパブリックソースから得たものであってよい。経路の視覚化は、特定の試料セットおよび遺伝子セットに対して実行されてよい。遺伝子セットは、遺伝子シグネチャツール、遺伝子シグネチャ差またはフォールド変化解析ツールを用いて試料セットから間接的に計算されてよく、または直接選択されてよい。
【0047】
また、遺伝子データ探究の結果は、マサチューセッツ州ケンブリッジのSpotfire Corporationにより市販されているSpotfireなどの第三者ツールを用いて視覚的に検討することもでき、または、ワシントン州シアトルのMathsoft Corporationにより市販されているS−plus、カリフォルニア州サンカルロスのSilicon GeneticsのGeneSpring、Partekなどの統計ツールを用いて解析用に出力保存することもできる。
【0048】
当業者であれば、本発明をネットワーク環境で実行してよいことを理解するであろう。ネットワークは、当業者に公知のように(例えば、イーサネット、IBMトークンリングなどを用いて)、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、またはインターネットを含む従来の多数のネットワークシステムの任意のものであってよい。さらに、本発明は、ファイアウォールおよび/または暗号などのデータセキュリティシステムを使用してもよい。
【0049】
本発明の実施形態による適切な計算アーキテクチャを簡単に記載してきたが、アーキテクチャのコンポーネントについてより詳細に記載する。
【0050】
データウェアハウス
再度、図2を参照すると、データウェアハウス(DW)220は、非常に大量のデータを維持するために与えられ、効率的な遺伝子発現探究および解析を支援する構造を備えている。本発明の一実施形態において、DW220は、前章に記載した試料、遺伝子注解、および遺伝子発現データの空間を具体化する3つの部分からなるデータベースの統合体である。DW220には、データの一貫性および品質の検証を通過した後にデータが統合されるステージング領域から、試料、遺伝子注解、および発現データがロードされる。また、ステージング領域は、データがさまざまな変換を受けている間、DW220のデータソースとDW220との間にバッファを与える一時的なデータベース(図示せず)を備えてもよい。
【0051】
以下、図3を参照すると、本発明の一実施形態によるデータウェアハウス220が示されている。試料データベース222は、解析処理用の独立したデータ空間を形成する。試料データ空間222にあるファクトオブジェクトは、マイクロアレイ実験においてスクリーニングされる生物学的材料を表す生体試料である。
【0052】
生体試料は、タイプと種を有する。生体試料のタイプは、組織、細胞株、処理済みRNAなどであり、種特異的な(例えば、ヒト、動物)ドナーから生じるものである。本発明の一実施形態において、ヒトの生体試料は、エキスパート再評価により完全化された1つ以上のQCタイプまたはQCレコードに関連付けられる。病理QC再検討は、所与の組織に現れる正確な病理学的過程をドキュメント化する。画像QC再検討は、マイクロアレイチップのスキャンされた画像上に見受けられる任意の欠陥をドキュメント化する。QC再検討は、組織試料の全ての単一断片に実行される。
【0053】
生体試料が、2つ以上のゲノム試料を生じるものであってよい。ゲノム試料は、生成実験室でスクリーニングされる実体である。ゲノム試料は、十分なRNAを生じることができる量を与えるように、所与の試料からの2つ以上の断片に基づいたものであってよい。当業者であれば、マウスの臓器からの試料など、場合によっては、ゲノム試料を生成するために、いくつかの生体試料が必要になる場合があることを認識するであろう。生体試料が、RNAまたはIVTタイプのものであれば、生体試料とゲノム試料との間に1対1の対応関係がある。
【0054】
以下、図4を参照すると、例示的な試料属性が示されている。本発明の一実施形態によれば、試料の構造的および形態的特徴(例えば、組織部位、診断、病気、病気の段階など)、ドナーデータ(例えば、ヒトドナーの場合は人口学的および臨床的記録、または動物ドナーの場合は系統、遺伝的修正、および処置情報)など、遺伝子発現解析に有益な特性を記述する属性に試料が関連付けられてよい。また、試料は、さまざまな研究に関連するものであってもよいため、いくつかの時間/処理グループにグループ化することができる。さらに詳しく言えば、試料は、収集過程およびそれぞれの研究に依存するように、他の試料に関係付けられる。例えば、試料の関連性の収集過程のいくつかの既知の形態は、明確にマッチする試料、例えば、同一摘出物からの肝臓癌の試料と正常な肝臓の試料と、潜在的に関連性のある試料、例えば、共通する状態と何ら関係のない同一ドナーからの試料と、試料系列、例えば、病気の進行の初期、中期、後期段階からの試料などの順序付けられた試料セットと、時系列、例えば、1時間、6時間、および24時間、それぞれ調剤で処置を施した後の同様のドナー群からの試料とを含む。
【0055】
さらに、試料は、さまざまな研究により他の試料に関係付けられてよい。本発明により提供される1つのタイプの研究は、時間超過で試料/被験者の投与反応に関連付けられる毒物学研究である。ヒトまたは齧歯類動物などの被験者は、通常、複数の投与群に分けられ、複数の時間点で観察される。齧歯類動物の研究において、生体試料は、犠牲時間とともに、いくつかの時間点で取られてよい。したがって、研究は、特定の時間および投与量のグループにグループ化された多数の生体試料からなるものであってよい。グループは、ドナーグループまたは生体試料グループのいずれかとして見なされるものであってよい。
【0056】
再度、図4を参照すると、さまざまなソースから試料が獲得され、試料情報を構造化し、異種のフォーマットでコード化してよい。フォーマットの差は、捕捉されたデータタイプから、解剖学的構造、診断、および薬物処置を表すために使用されるさまざまな統制された用語までに及ぶ。異なるソースから試料を捕捉するのを支援するために、試料データ空間は、試料データ空間の複雑性に応じて、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされる。図4は、試料空間をモデリングするためのスノーフレークスキーマを示す。試料カテゴリー属性は、試料組織および診断のそれぞれに対して、統制された用語、または医薬品の体系的命名法(「SNOMED」)の構造および形態軸などの既存の分類法を用いて与えられる分類階層に組織化できる。
【0057】
OLAPのような操作は、さまざまな分類法に従って試料空間内を移動するために使用できる。例えば、図5を参照すると、特定の診断に対して生物学的試料502を解析するには、病理次元504の診断および射影の選択が伴う場合がある。さらに、本発明の一実施形態において、ドナーデータ506の分類が臓器・組織階層を使用する場合、組織のタイプに関して試料を要約することにより、組織のタイプで分類された試料の総数が得られ、さらに、臓器のタイプに関して要約することにより、臓器のタイプ(例えば、肝臓、脳)で分類された試料の総数が得られる。
【0058】
本発明の一実施形態によれば、試料は、公開試料または非公開試料のいずれかとして分類されてよい。言い換えれば、試料は、試料およびそれから導出された遺伝子発現データの帰属の点で分類されてよい。帰属は、試料により生成されたデータへのアクセスを制限するために使用されてよい。例えば、試料は、情報へのアクセスを規定する提携、プロジェクト、および可視性の属性を含んでよい。例えば、試料からのデータは、情報を要求した全ての人または特定の提携者が見ることができるものであってよい。
【0059】
以下、再度、図3を参照すると、試料データのような遺伝子断片データが、断片インデックスデータベース224として示す別のデータ空間として見なされてよい。断片インデックスデータベース224にあるファクトオブジェクトは、マイクロアレイを用いて検査される実体を表す遺伝子断片である。例えば、Affymetrixチップの場合、遺伝子断片は、チップ上に配置されたオリゴヌクレオチドプローブを合成するために用いられるDNA配列を表す。遺伝子断片は、2つの主要な次元、すなわち、マイクロアレイデザインおよび生物学的注解にまたがって体系化される。
【0060】
マイクロアレイデザインは、アレイ上での配列断片の配置を含むチップタイプデザインの物理的特徴を記述する。この情報は、マイクロアレイの製造業者により提供され、マイクロアレイ実験における信号を解釈するために使用される。遺伝子断片の生物学的注解は、Genbank、Unigene配列クラスタのメンバー、LocusLinkの既知の遺伝子との関連、および機能的および経路の特徴などの公開配列データベースにおける関連する一次配列入力を含む生物学的脈絡を決定することを含む。
【0061】
当業者が認識するように、GenBankとは、国立衛生研究所(「NIH」)の遺伝子配列データベースであり、インターネットのサイトwww.ncbi.nlm.nih.gov/Genbankで入手可能な全て公開され入手可能なDNA配列の注解付きのコレクションである。さらに、UniGeneとは、GenBankの配列を遺伝子配向クラスタの非冗長セットに自動的に区分けするためのシステムであり、サイトwww.ncbi.nlm.nih.govfUniGene/で入手可能である。最後に、LocusLinkは、補正された配列および遺伝子座に関する記述的情報への単一の照会インタフェースを提供し、サイトwww.locuslink.comで入手可能である。LocusLinkは、公式の学名、別名、配列受入、表現型、EC数、MIM数、UniGeneクラスタ、相同性、マップ位置、および関連するウェブサイトに関する情報を提供している。
【0062】
再度、図3を参照すると、遺伝子断片注解は、さまざまな遺伝子データソースからの情報を統合することを含む。したがって、断片インデックスデータベース224は、図6に示す例により示されているように、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされてもよい。
【0063】
断片インデックスデータベース224の1つの重要な態様は、記録された遺伝子注解の基礎となる科学の進展である。例えば、遺伝子断片と既知の遺伝子との関連性は、Unigeneクラスタの進展や、LocusLinkに記録された既知の遺伝子入力の補正により変化することがある。遺伝子データが進展すると、遺伝子発現データ解析の結果に影響を及ぼすことがあるため、その追跡が必須となる。しかしながら、遺伝子データ変化は、従来のデータウェアハウスにおける履歴データ変化とは異なるものであり、履歴データ変化は、通常、既知の明白なファクト(例えば、製品の価格)の変化を記録するのに対して、進展する遺伝子データ変化は、科学的なファクトに関して既知のものの変化を記録するものであることを、読者は認識されたい。したがって、遺伝子注解および遺伝子配列データ302および304の抽出、検証、およびDW220への統合が必要なだけではなく、科学の進展を反映させるためにリフレッシュする必要がある。
【0064】
OLAPのような操作は、主に、生物学的注解次元に沿って断片インデックスデータベース224を移動するために使用することができる。例えば、代謝経路と関連付けられた遺伝子断片の検証には、代謝経路の選択および経路次元での射影が伴うことがある。さらに詳しく言えば、以下の階層、例えば、既知の遺伝子に対する種から染色体の階層を用いた遺伝子注解データの分類において、既知の遺伝子の遺伝断片を要約すると、それらと既知の遺伝子との関連性で分類された断片の総数が得られ、染色体に関してさらに要約すると、染色体で分類された遺伝子断片の総数が得られる。
【0065】
再度、図3を参照すると、遺伝子注解および試料データのような遺伝子発現データが、遺伝子発現データベース226として示す別のデータ空間として見なされてもよい。遺伝子発現データは、メリーランド州ゲーサーズバーグのGene Logic Corporationにより市販されているREADS技術、およびテキサス州ヒューストンのLark Technologies Corporationにより市販されているQPCR技術を用いて生成されたデータを含んでよい。当業者は、異なるプラットフォームから生じた遺伝子発現データが、共通のデータフォーマットを用いるのではなく、独立して管理および構造化されてよいことを認識されたい。異なるプラットフォームを用いて生成された遺伝子発現データは、共通の試料(すなわち、異なる技術を用いて実行される試料)または共通の遺伝子を介して相関されてよい。
【0066】
遺伝子発現データを探究するために使用される多次元GXAは、基礎となる遺伝子発現技術のプラットフォームから独立したデータ表現を与える。したがって、GXAは、GeneChip、READS、QPCR、およびcDNAマイクロアレイプラットフォーム310、312、314、および316などのさまざまなプラットフォームを用いて生成された遺伝子発現データを一様に探究するために使用することができる。GXAは、上述した遺伝子発現動作を実行し、高度なデータマイニングアルゴリズムを統合するためのフレームワークを与える。
【0067】
遺伝子発現データ空間226のファクトオブジェクトは、遺伝子発現値である。遺伝子発現データは、いくつかの粒度レベルで規定されてよい。スキャナなどの測定器具で生成されたデータは、最高レベルの粒度で規定される。解析プログラムが、データを量的な遺伝子発現測定値に変える。例えば、Affymetrix社のGeneChipは、(a)ピクセル強度の平均化およびセルレベル強度の計算を行い、各セルがマイクロアレイ上の1つのプローブに対応したセル平均化ステップと、その後に行うステップである、(b)マイクロアレイ上の各遺伝子またはEST断片に対応する約20個のプローブ対の強度を「要約」することにより、遺伝子発現値を生成するチップ解析ステップとを含む。GeneChip発現値は、存在/不在(「PA」)コールと、絶対遺伝子発現測定値とからなる。QPCRなどの別のプラットフォームは、参照試料に対する、遺伝子当たりおよび試料当たりの発現値を報告する。本発明により、異なるプラットフォームまたは解析方法で生成された遺伝子発現値の表示を支援する多次元構造が提供される。
【0068】
遺伝子発現データ空間の4つの主要な次元は、遺伝子、試料、方法、および実験であり、遺伝子および試料により、遺伝子注解および試料データ空間224および222のそれぞれとの関係が得られる。遺伝子発現データ空間226は、図7に示す例により示されているように、スターまたはスノーフレークスキーマ構造を用いて、独立したデータウェアハウスとしてモデリングされる。
【0069】
本発明の一実施形態において、実験次元は、遺伝子発現データを、チップロット、実験プロトコル、およびソフトウェアバージョンなどのパラメータにリンクする。これらのパラメータは、データ発現過程を指す。
【0070】
方法次元は、GeneChip PA値およびGeneChipで生成された絶対遺伝子発現値など、異なる解析方法を用いて生成された、異なる遺伝子発現値をモデリングする。遺伝子発現値は、存在、不在、辺縁、または不明コールに分類することができる。
【0071】
OLAPオペレータの変形が、遺伝子発現データ空間226における基本的な演算を規定するために使用されてよく、これは、より複雑なデータ解析演算を規定するために使用することができる。
【0072】
例えば、試料、遺伝子、および発現測定タイプからなる三次元の単純化された遺伝子発現データ空間において、遺伝子gおよび試料sの発現値を戻す評価関数vが規定されてよい。発現測定タイプEが、EPAまたはEAbsのいずれかであり、測定値が、存在p、不在a、または辺縁/不明コールmのいずれかであり、EAbs測定値が、絶対遺伝子発現値である場合、v(g,s,p)は、gがEPAにおいてsに対して存在コールと関連付けられれば、「1」として規定され、そうでなければ、「0」として規定されてよく、v(g,s,a)は、gがEPAにおいてsに対して不在コールと関連付けられれば、「−1」として規定され、そうでなければ、「0」として規定されてよく、v(g,s,x)は、gがsに存在すれば、「1」として規定され、gがsに不在すれば、「−1」として規定され、どちらでもなければ、「0」として規定されてよく、v(g,s,abs)は、EAbsにおいてgおよびsに対しての絶対遺伝子発現値として規定されてよい。
【0073】
さらに、試料の選択は、ある一定のプロファイルをもつ試料セットを抽出するために、試料データ空間222で規定されてよい。例えば、試料セットは、喫煙歴をもたない40〜60歳の年齢群からの腺癌をもつ男性の結腸試料からなるものであってよい。
【0074】
同様に、遺伝子の選択は、ある一定の特性をもつ遺伝子セットを抽出するために、遺伝子注解データ空間224で規定されてよい。例えば、遺伝子セットは、エストロゲン代謝経路に蛋白質の生成物が含まれた染色体22の遺伝子からなるものであってよい。遺伝子および試料セットは、以下に記載する遺伝子発現動作において使用されてよい。
【0075】
当業者であれば、任意の遺伝子および試料セットにわたって遺伝子発現データを解析することは、生物学的に意味がない場合があることを理解されたい。例えば、異なる種からの試料で遺伝子発現を解析することは、生物学的に意味のある結果を生じない場合がある。結果的に、遺伝子および試料の操作は、遺伝子発現解析の観点から、結果的に得られるセットの一貫性を確保するために、制約される必要がある。
【0076】
さらに、当業者であれば、遺伝子発現の要約機能が、全試料および遺伝子セット次元または遺伝子セットおよび試料セットで規定でき、この場合、試料セットは試料選択を用いて特定され、遺伝子セットは遺伝子選択を用いて特定されたものであることを理解されたい。
【0077】
試料次元での遺伝子発現の要約は、遺伝子セットにおける各遺伝子に対して、試料セットにおける試料にわたって遺伝子発現測定値を要約する。例えば、遺伝子セットGおよび試料セットSが与えられると、Sに関する遺伝子発現の要約により、Gにおける各遺伝子およびEPAにおける各eに対して、発現要約σ(g,e,S)が得られる。要約σ(g,e,S)は、各対gおよびeに対して、Sの全試料にわたる発現測定値の合計からなり、すなわち、σ(g,e,S)=Sum[v(g,s,e)|Sにおけるs]である。
【0078】
遺伝子次元での遺伝子発現の要約は、試料セットにおける各試料に対して、遺伝子セットにおける全ての遺伝子にわたって遺伝子発現測定値を要約する。例えば、遺伝子セットGおよび試料セットSが与えられると、Gに関する遺伝子発現の要約により、Sにおける各試料およびEPAにおけるeに対して、発現要約σ(s,e,G)が得られる。要約σ(s,e,G)は、各対sおよびeのGの全遺伝子にわたる発現測定値の合計からなり、すなわち、σ(s,e,S)=Sum[v(g,s,e)|Gにおけるg]である。
【0079】
試料次元における遺伝子発現の平均化は、遺伝子セットにおける各遺伝子に対して、試料セットにおける試料にわたって絶対遺伝子発現値を平均化する。例えば、遺伝子セットGおよび試料セットSが与えられると、S,M(G,S)での遺伝子発現値の平均化により、Gにおける各遺伝子gに対して、平均発現値セットμ(g,S)が得られ、すなわち、M(G,S)={μ(g,S)|μ(g,S)mean[v(g,s,abs)Sにおけるs],Gにおけるg}である。
【0080】
OLAPオペレータの変形を用いていくつかの基本的な演算について簡潔に記載したが、より複雑なデータ解析演算が規定されてよい。さらに詳しく言えば、一貫して発現する遺伝子の演算は、試料セットにおいて一貫して存在する遺伝子および一貫して不在の遺伝子のセットを規定するために、遺伝子セットおよび試料セットにわたって規定されてよい。
【0081】
例えば、所与の遺伝子セットGおよび試料セットSにおいて、Sにおける一貫して存在する遺伝子(「CPG」)および一貫して不在の遺伝子(「CAG」)のセットが、以下のように規定されてよい。すなわち、CPG(G,S)={g|σ(g,p,S)カード(S)およびGにおけるg};CAG(G,S)={g|−σ(g,a,S)=カード(S)およびGにおけるg}である。
【0082】
次いで、一貫せずに発現する遺伝子「(IEG)」のセットは、以下のように規定されてよい:
IEG(G,S)=G−CPG(G,S)−CAG(G,S)。
【0083】
当業者であれば、セットCPG(G,S)、CAG(G,S)、およびIEG(G,S)は、試料セットSにおいて遺伝子が発現する方法に対して、遺伝子Gのセットを区分けすることを認識されたい。言い換えれば概セットは、どの対も共通元を持たない。他の演算は、CPG、CAG、およびIEGの演算を用いて規定することができ、特に、IPG(G,S)は、Sにおいて一貫せずに存在する遺伝子を規定し、IAG(G,S)は、Sにおいて一貫せずに不在の遺伝子を規定する。例えば、IPG(G,S)=IEG(G,S)∪CAG(G,S);IAG(G,S)=IEG(G,S)∪CPG(G,S)である。
【0084】
同様の演算は、所与の遺伝子セットからの遺伝子が、所与の試料セットに全て存在するか、または全ての不在かのいずれかである試料のサブセットを規定してよい。例えば、所与の遺伝子セットGおよび試料セットSにおいて、G遺伝子全てが、一貫して存在(「CPS」)、一貫して不在(「CAS」)、または一貫せずに発現(「IES」)するSの試料のサブセットは、以下のように規定されてよい:
CPS(G,S)={s|σ(s,p,G)=カード(G)およびSにおけるs};
CAS(G,S)={s|−σ(s,a,G)=カード(G)およびSにおけるs};および
IES(G,S)=S−CPS(G,S)−CAS(G,S)。
【0085】
本発明の一実施形態において、CPG、CAG、CPS、およびCAPの演算は、遺伝子が存在または不在のSにおける試料の総数からの試料の最小数の点で、遺伝子発現の一貫性を規定するための追加の閾値Tを用いて変更されてよい。
【0086】
さらに、遺伝子セットにおいて発現した遺伝子と、別の試料セットにおいて発現した遺伝子とを対比するために、導出された演算を使用することができる。例えば、所与の遺伝子セットGおよび試料セットS1およびS2において、
セットS1対セットS2において発現差のある遺伝子の場合、
CPG(G,S1)∩CAG(G,S2)
は、S1の試料において一貫して存在し、S2の試料において一貫して不在のG遺伝子セットを規定し、
CAG(G,S1)∩GPC(G,S2)
は、S1の試料において一貫して不在し、S2の試料において一貫して存在するG遺伝子セットを規定し、
セットS1対セットS2において固有の一貫して存在する遺伝子の場合、
CPG(G,S1)∩IPG(G,S2)
は、S1の試料においてのみ一貫して存在する(すなわち、S2の試料において一貫して存在しない)G遺伝子セットを規定し、
CAG(G,S1)∩IAG(G,S2)
は、S1の試料においてのみ一貫して不在のG遺伝子セットを規定し、
S1およびS2において共通の一貫せずに発現する遺伝子の場合、
CPG(G,S1)∩CPG(G,S2)
は、S1の試料とS2の試料の両方において一貫して存在するG遺伝子セットを規定し、
CAG(G,S1)∩CAG(G,S2)
は、S1の試料およびS2の試料の両方において一貫して存在するG遺伝子セットを規定し、
S1およびS2において共通の一貫して発現する遺伝子の場合、
IPG(G,S1)∩IPG(G,S2)
は、S1の試料およびS2の試料の両方において一貫せずに発現するG遺伝子セットを規定し、
IAG(G,S1)∩IAG(G,S2)
は、S1の試料およびS2の試料の両方において一貫せずに存在するG遺伝子セットを規定する。
【0087】
遺伝子と試料の相関演算は、遺伝子発現値タイプに関する遺伝子発現要約が、遺伝子発現データ空間226に適用された後、遺伝子セットおよび試料セットにわたって規定することができる。遺伝子の相関は、類似性、いわゆる距離の測定を用いて規定することができる。試料セットSにわたった2つの遺伝子g1およびg2の類似性は、Sの試料全てにわたる|v(s,g1,x)−v(s,g2,x)|の合計により測定される。したがって、Sの各試料sに対して、v(s,g1,x)=v(s,g2,x)であれば、遺伝子g1およびg2は、Sに同様に発現する。
【0088】
当業者であれば、遺伝子と試料の相関は、それらの類似性に基づいて遺伝子および試料をグループ化またはクラスタリングするさいに使用することができることを認識されたい。
【0089】
本発明の実施形態によるデータウェアハウス220について簡潔に記載してきたが、以下、データ管理システム210についてより詳細に記載する。
【0090】
データ管理システム
本発明の一実施形態によれば、Affymetrix社のGeneChip技術およびREADS特性差発現プロファイリング技術を用いて、高スループット生産環境で、遺伝子発現データが生成されてよい。また、GeneChipとREADSの結果を検証するために、QPCRが使用されてもよい。
【0091】
大規模なデータの処理には、大量のデータの獲得、体系化、管理、統合、および探究を行うためのデータ管理機能が必要である。図2は、データ管理システム(DMS)210により管理されている外部データソースおよび格納部を含む、本発明の高水準アーキテクチャを示す。
【0092】
本発明の一実施形態によれば、DMS210は、データの獲得および生成データの管理を支援するオペレーショナルデータベースおよびLIMSアプリケーションを含む。
【0093】
DMS210は、データ入力、データ移送、および報告ツールを介して、さまざまな試料獲得および品質制御プロトコルに支援を提供する。システムは、データ収集中の一貫性を確保するために、SNOMEDなど、ドメイン特有の用語および分類法を使用し、試料データ空間222と適合性のある構造を備えたデータベースにデータを記録する。
【0094】
さらに、DMS210は、Gene LogicのAffymetrixベースの遺伝子発現生成およびAffymetrix社のGeneChip LIMSとのシームレス統合の高スループットに対する支援を提供する。
【0095】
DMS210は、遺伝子発現実験、QC/QA、および過程データを管理する。本発明の一実施形態において、Affymetrix専有のフォーマットのファイルに、GeneChipシステムにより生成された遺伝子発現実験データが与えられ、すなわち、(a)スキャンされたマイクロアレイのバイナリ画像がDATに含まれ、(b)DATファイルは、マイクロアレイ上のプローブの平均強度を生成するセル平均化解析演算を用いて、CELファイルに変換され、および(c)CELファイルは、マイクロアレイにプローブされた遺伝子断片の発現値を生成するチップ解析演算により、CHPファイルに変換される。最後に、GeneChip LIMSは、CELおよびCHPファイルおよび過程データを、AADMスキーマに基づいてリレーショナル表現にする出版演算をサポートし、それを一時的なデータベースに格納する。
【0096】
DMS210は、試料データ管理システムをGeneChip LIMSおよびチップQCモジュールとシームレスに統合するため、コンポーネントデータ管理システム間のデータの一貫性および効率的なデータフローを確保する。チップQCコンポーネントは、画像ソフトウェアとマニュアルの視覚解析の両方を用いてチップ画像の欠陥を検出し、これらの欠陥により影響を受けるプローブをマスキングするために使用される。さらに、DMS210は、複数のGeneChip LIMSシステムを介して並列出版を行うサポートを提供することにより、データの生成速度を加速させる。
【0097】
さらに図2を参照すると、本発明の一実施形態によれば、DMS210は、GeneChip LIMSにより生成されたデータの方向付けを以下のように行う。すなわち、DAT、CEL、CHPファイルが記録230に送信され、必要なデータ統合、変換、有効化、および補正がデータをDW220にロードする前に実行されるDW220ステージングに、リレーショナルAADMフォーマットの遺伝子発現データおよびQCデータが転送される。例えば、本発明の一実施形態によれば、一貫性のチェックは、ファイル名を試料名にマッチさせること、ファイル名をアレイタイプにマッチさせること、複製データを防止すること、SNOMEDなどの統制用語に対して組織タイプをチェックすること、CHPファイルが正確な遺伝子リストを含むことをチェックすること、セル数が正確であることをチェックすること、関連するデータが含まれないことをチェックすることを含んでよい。
【0098】
READSおよびQPCR遺伝子発現データのデータ管理は、Gene Logic社が所有権を有するシステムにより与えられてよい。READSおよびQPCRデータは、高水準オブジェクトモデルで表現され、リレーショナルデータベースに格納される。また、リレーショナルフォーマットのデータが、CeneChipデータと同様の方法で取り扱われるDW220ステージング領域に転送される間、READSおよびQPCRファイルが記録される。
【0099】
本発明の2,3の特異的な実施形態を記載してきたが、本発明は、特許請求の範囲に記載されるような本発明の趣旨または範囲から逸脱することなく、多数の他の特定の形態で実施されてよいことを理解されたい。
【0100】
本発明は、遺伝子発現データの探究およびマイニングを支援するために体系化された少なくとも3つのデータベースの統合を含む、生物学的情報の格納および検索用のリレーショナルデータベースに関する。少なくとも3つのデータベースは、(1)さまざまなアッセイを用いてスクリーニングされた組織および細胞株(以下、これら両方を生体試料と呼ぶ)の量的な遺伝子発現測定値を格納する遺伝子発現データベースと、(2)生体試料およびドナーに関する情報を格納する臨床データベースと、(3)全断片(全長遺伝子およびEST)の生物学的特性(注解)の包括的データベースである断片インデックスとを含む。
【0101】
本発明の好適な実施形態において、組織および細胞株から量的な遺伝子発現測定値を格納するための遺伝子発現データベースは、Affymetrixのヒト、ラット、およびマウスのマイクロアレイを用いてスクリーニングされる。遺伝子発現データベースにおける情報は、所定の品質制御基準および機能的な規定に見合うように体系化されることが好ましいことを認識されたい。
【0102】
本発明の好適な実施形態において、臨床データベースに格納された生体試料特有の情報は、病理、診断、発生および処置事実を含む。ドナー情報は、ドナーの人口統計情報、ヒトドナーの場合は臨床履歴、および動物モデルの場合は実験テストを含む。SNOMEDなどの確立された学名と適合する規格化された用語を用いて、臨床データが記録される。
【0103】
本発明の好適な実施形態において、断片インデックスは、Affymetrix社の遺伝子発現マイクロアレイ上の全断片(全長遺伝子およびEST)の生物学的特性(注解)の包括的データベースである。断片注解は、公式HUGO学名の遺伝子との関連性と、公開データベースの関連する入力とのリンクと、公開データベースから検索および要約された表現型、構造、機能、および経路の情報を含むことが好ましい。
【0104】
本発明の生物学的情報の格納および検索用のリレーショナルデータベースの主要な目的は、遺伝子発現への包括的なアクセスおよび生物学的解析のサポートを提供することである。本発明のアーキテクチャにおいて、これらの目的は、本発明のリレーショナルデータベースが提供する照会能力とともに、データベースの生物学的に重要なオンライン解析プロセッサを支援するアプリケーションサーバにより達成される。生物学的に重要なオンライン解析プロセッサは、生物学的情報の格納および検索用のリレーショナルデータベースにあるデータの大規模遺伝子発現解析を検証して、有機体の生理機能の機能的な状態を特徴付ける遺伝子発現パターンを明らかにする。アプリケーションサーバにより支援される演算は、フィルタリング、クラスタリング、要約、比較、遺伝子発現データの経路へのマッピングを含む。
【0105】
アプリケーションサーバを含む生物学的情報の格納および検索用のリレーショナルデータベースの機能性は、リレーショナルデータベース・ユーザインタフェースを介してユーザに与えられる。本発明の好適な実施形態において、リレーショナルデータベース・ユーザインタフェースは、2つのフォーマットで与えられ、第1のフォーマットは、ウェブアプリケーションであり、第2のフォーマットは、Javaクライアントアプリケーションである。
【0106】
生物学的情報の格納および検索用のリレーショナルデータベースと、アプリケーションサーバと、クライアント側ユーザインタフェースと、ユーザの作業環境データ空間は、遺伝子発現データおよび解析に対して3層アーキテクチャを規定することが好ましい。好適な実施形態において、このシステムは、記録、すなわち、生物学的情報の格納および検索用のリレーショナルデータベースに、実験のデータファイルおよび全実験のデータを格納する外部ファイルシステムと統合される。
【0107】
生物学的情報の格納および検索用のリレーショナルデータベースは、ゲノム解析生産パイプラインにより発生する遺伝子発現データリポジトリ(貯蔵所)である。リレーショナルデータベース管理システムとは、生産パイプラインのデータフローを支援するバックボーンデータ管理インフラストラクチャである。リレーショナルデータベース管理システムは、主要なコンポーネントが明確に規定されたプロトコルを含むソフトウェアモジュールによりインタフェースされた複雑な分散型の異種システムである。
【0108】
主要コンポーネント、好ましくは、リレーショナルデータベース管理システムの主要コンポーネントは、(1)リレーショナルデータベース管理システムと、(2)ゲノム解析生産試料追跡システムと、(3)実験ファイルを生成する過程をドキュメント化するアプリケーションと、(4)実験ファイルをリレーショナル表現にするソフトウェアモジュールと、(5)欠陥検査ソフトウェアモジュールである。
【0109】
本発明の好適な実施形態において、組織リポジトリ情報管理システムは、生体リポジトリの生産サイクルを支援する情報システムであり、この支援は、生体試料の受入および目録の管理、病理判定および臨床データの入力、および生物学的情報の格納および検索用のリレーショナルデータベースへの臨床データの出力保存とを含む。
【0110】
本発明の好適な実施形態において、ゲノム解析生産試料追跡システムは、生産パイプラインに沿った試料の移動に伴い試料を追跡するスプレッドシートの集合体からなる。本発明の別の好適な実施形態において、実験ファイルを生成する過程をドキュメント化するアプリケーションは、各実験に対して、DAT、CEL、およびCHPファイルに関係する。このような過程のドキュメント化は、Affymetrix社のデータベースに格納されることが好ましい。このアプリケーションは、データ入力オーバヘッドを最小限に抑える。
【0111】
本発明の好適な実施形態において、実験ファイルをリレーショナル表現にするソフトウェアモジュールは、いくつかの並列出版エンジンをサポートし、生産の標準的な操作手順および出版過程がうまく実行されたことを確証するために、一連の一貫性チェックも実行する。また、このソフトウェアモジュールは、個々のデータベースをテキストファイルに(テーブルごとに)打ち出し、それらをステージングUNIXサーバの指定領域に転送することが好ましい。
【0112】
本発明の別の好適な実施形態において、欠陥検査モジュールは、生成された発現データの品質に影響を与える欠陥がないか、チップ画像(DATファイル)が検査される半自動工程である。この工程の結果は、1回の実験につき1度の品質制御報告であり、ステージングUNIXサーバにも移送される。
【0113】
これらのデータストリームの全体は、リレーショナルデータベース管理システムと、生物学的情報の格納および検索用のリレーショナルデータベースとの間のインタフェースを規定する。さらに詳しく言えば、これら全てのデータストリームは、ウェアハウス構築過程が起こるステージング領域、すなわち、データの有効化、変換、および統合に入れられる。
【0114】
さまざまなデータソースからステージングへのデータの移送は、データ移送プロトコルにより制御される。本発明の好適な実施形態において、これらのデータ移送プロトコルは、発現データ移送プロトコルと、臨床データの組織リポジトリ情報管理システムと、チップ欠陥移送プロトコルとを含む。
【0115】
発現データ移送プロトコルは、電子メール報告によりドキュメント化されたデイリー出版と、TXTファイル(各遺伝子発現データテーブルにつき1つ)およびLSTファイルへ打ち出すことによるデータの出版(出版エンジンにつき)と、TXTファイルの行数の確認、ftp工程によるプレステージング(UNIXサーバ上の着信ディレクトリ)へのファイルのコピーと、ftp工程の完了時にftp工程が済んだことを、出版オペレータがステージングDBAに通知することと、ステージングDBAによるファイルの行数の確認と、生物学的情報の格納および検索用のリレーショナルデータベースにロード報告の電子メールを送信して完了されるステージングへのロードと、ロード時間から1日(24時間)でプロトコルトリガーをステージングすることとを含むことが好ましい。
【0116】
本発明の好適な実施形態では、データの統合、すなわち、並列および個別の出版過程により生成した実験データをまとめるプロセスが利用される。高スループット要求を満たし、異なる設備で実験データファイルを生成できるようにするために、出版の並列処理が導入される。
【0117】
このようなデータ統合は、AADM出版データをスキャンおよび有効化し、連続した順序で並列出版過程により生成された識別子を調節する働きをする。このようなデータ統合は、プロセスに特化した有効化法則がシステムにより追加および強化可能であるという意味で、拡張可能なものである。
【0118】
本発明の別の好適な実施形態において、遺伝子発現統合が与えられる。遺伝子発現統合とは、実験データと、臨床および公開遺伝子データ(断片インデックス)との統合を指す。遺伝子発現統合は、ステージングデータベースで実行されるタスクである。
【0119】
本発明は、データベーススキーマによりさらに特徴付けられる。このスキーマそのものは、4つの関連するサブスキーマ、すなわち、(1)プローブアレイデザインと、(2)実験セットアップと、(3)解析結果と、(4)プロトコルパラメータとに分割できることが好ましい。
【0120】
プローブアレイデザインに関して、スキーマのこの部分は、プローブのアレイの物理的および生物学的デザインを記述するデータを保有する。このサブスキーマの最重要部分は、生物学的アイテム(遺伝子断片)と特定のプローブアレイタイプにおけるブロックとの関連性である。プローブアレイタイプは、PROBE_ARRAY_DESIGNテーブルに記録される。PROBE_ARRAY_DESIGNインスタンスは、発現チップタイプの物理的レイアウトを記述する。PROBEARRAY_DESIGNは、SCHEME_UNITエンティティとのANALYSIS_SCHEME関係により関係付けられる。しかしながら、データ統合の一般的なデザインの目標は、物理的デザインと論理的デザインとの間に1対1の関係が存在する発現プローブアレイの場合、いくつかの「論理的な」デザインを物理的なチップデザインに取り付けることができることである。これは、SCHEME_UNITSとSCHEME_BLOCKSとの間の1対1の対応ということになる。各ブロックが、単一の遺伝子断片を質問する。ブロック単位が原子に分割される。遺伝子発現プローブアレイにおいて、原子は2つのセルからなる。各セルは、25−merオリゴヌクレオチドプローブに対応する。遺伝子断片を表すブロックは、約20のプローブ対からなり、各プローブ対は、完全なマッチとミスマッチのプローブセルを有する原子に対応する。
【0121】
AADMプローブアレイデザインサブスキーマは、任意の遺伝子発現探究の照会に使用されない/不要な部分を含む。このサブスキーマの意図は、さまざまなAfymetrix社のプローブアレイデザインを保有することであるため、プローブの強度を生物学的アイテムと関係付けるために、Affymetrix社の解析ソフトウェアが使用される。
【0122】
実験セットアップサブスキーマは、任意の遺伝子発現実験において使用されたプローブアレイと適用されたターゲットに関する情報を保有する。EXPERIMENTとは、物理的チップとターゲットが「つながれる」間のイベントである。ターゲットがチップに適用されると、チップのプローブがターゲットの遺伝子領域をハイブリダイズする。チップ表面は、ハイブリダイゼーションの結果が永久的に印刷されるDATファイルを生成するためにスキャンされる。引き続いて、DATファイルは、有益な生物学的データを抽出するために解析される。実験は、プロトコルにより制御される。プロトコルは、実験を行う方法を指示し、実験中の環境条件に関する管理情報およびデータを捕捉する。データベースは、実験ごとに記録(またはオブジェクト)を捕捉することにより、実験結果と、ターゲットに処理された組織と、その結果得られたデータセット(DATを介して)との間に関連性をもたせることができる。
【0123】
TARGETは、生体試料から準備されるため、実験と試料特異的な情報との間をつなげる実体である。このようなAADMにおける関連性は、ターゲットを記述するために1つのパラメータしか支援しないため、非常に制限的なものであり、これは、TARGET_TYPEである。
【0124】
PHYSICAL_PROBE_ARRAY(チップ)は、ハイブリダイゼーションおよびスキャン実験を実行するために使用される物理的装置である。物理的チップは、シリアル番号により識別され、特定のプローブアレイデザインに属し、使用期限がある。
【0125】
解析結果サブスキーマは、セル平均化、絶対遺伝子発現および比較遺伝子発現解析を含むさまざまな解析からの結果を格納する。セル平均化および絶対遺伝子発現解析のみを使用することが好ましい。
【0126】
解析プロセスは、以下のように進む。ハイブリダイゼーション/スキャン実験が、DATファイルと呼ぶ画像ファイルを生成する。DATファイルが解析され、その量的表現、すなわち、CELファイルが生成される。この解析をセル解析と呼ぶ。セル解析は、第1に、画像のセル(プローブに対応)を分離するようにグリッドを合わせ、第2に、セルにある全てのピクセルに対して平均強度値を計算する。AADMにおいて、セル解析の結果は、MEASUREMENT_ELEMENT_RESULTテーブル(短縮してMER)に格納される。チップ解析と呼ばれる次の解析ステップが、CELファイル上で「発現コーリング」を実行する。このプロセスの結果は、平均強度および存在/不在(P/A)コールを含むチップ上の全ての遺伝子断片の遺伝子発現の断定である。チップ解析の結果は、ABSGENE_EXPR_RESULTSテーブル(短縮してAGER)に格納される。スキーマのANALYSISテーブルは、実行される任意の解析の解析記録を格納する。解析記録は、解析ID(キー)で識別され、例えば、解析用に使用されるプロトコル、解析スキーム(およびチップタイプ)、アルゴリズム、分析者、および解析が実行されたデータセットに関係する。
【0127】
解析に対する入力データセットは、ANALYSIS_DATA_SETテーブルに記録される。データセットは、データセットの集合体にグループ化される。AADMは、解析間で多数対多数の関係をモデリングしないように、ANALYSIS_DATA_SET_COLLECTIONテーブルを使用し、解析データセットANALYSIS_DATA_SETは、解析の各タイプ、すなわち、セル解析およびチップ解析の記録を格納する。セル解析において、入力データセットは、実験(DATファイル)である。チップ解析において、入力データセットは、解析である。プロトコルパラメータに関して、このサブスキーマは、実験セットアップと、ハイブリダイゼーション実験と、セルおよびチップの解析の間に捕捉されたパラメータを含む。このサブスキーマのデータは、データ生成プロセスの追跡を望む生産および高品質制御グループにとって必須のものである。また、生物学的情報の格納および検索用のリレーショナルデータベースは、発現データを意味のある比較可能なサブセットに区分けするために、生産標準操作手順のバージョンなど、ある一定のプロトコルパラメータの値を使用する。
【0128】
特に好適な実施形態において、本発明により、ステージングデータベースが提供される。このステージングデータベースは、いくつかのウェアハウス構築プロセスが起こる領域である。ステージングデータベースは、UNIXサーバ上で稼動するOracleデータベースであることが好ましく、いくつかのftp工程がデータ管理ツールにより発生したデータを預けるプレステージング領域としても機能する。
【0129】
このようなステージングデータベースを利用するさい、ステージングプロトコルを実行することが好ましい。このようなステージングプロトコルにおいて、ステージングの発現データが処理され変換される。ステージングプロトコルは、プレステージングからステージングデータベースに発現データがロードされるたびに実行されるステップのルーチンである。ステージングプロトコルは、出版SOPバージョン3.0に規定されている学名に従って発現実験に名前を付けることを想定している。有効な実験名は、13文字長ストリングnnnnncccccccsrであることが好ましい。
【表1】
Figure 2004535612
【0130】
ステージングデータベースにより、上述していない他の特定の実施形態を管理することができるようになる。例えば、ステージングを介した実験の通路は、GLGC_EXPERIMENTテーブルを用いて追跡できる。ステージングプロトコルがとるステップは、生産が1つのチップにつきシングルスキャンまたはダブルスキャンのいずれを行うかに左右される。ダブルスキャンの場合、ステージングプロトコルは、スキャンを第一と第二に分類し、第二の発現存在/不在コールを第一に統合し、第一をウェアハウスに移送する。
【0131】
ステージングプロトコルの別のオプションのステップは、このプロセス中に生成されるプローブ対のタイプに依存する。1つ目のオプションは、プローブレベルのセル強度と、1つのAffymetrix遺伝子断片につき全てのプローブの要約された発現コールとを含む「要約された」プローブ対データを生成することである。2つ目のオプションは、実験ごとのプローブのセル強度を別のカンマで区切られたテキストファイルに単純に格納することである。ステージングプロトコルのステップは、(1)ステージングデータベースを出力保存およびバックアップすることと、(2)着信ディレクトリにあるデータファイルの一貫性をチェックすることと、(3)データをデータ統合テーブルにロードすることと、(4)GLGC_EXPERIMENTテーブルを更新することと、(5)複数のスキャンで実験のランク(第一/第二)を計算することと、(6)第一と第二の実験を統合することと、(7)第一実験データをリレーショナルデータベースに移送することと、(8)「要約された」プローブ対データを生成することと、(9)移送されたデータを削除することと、(10)ステージングの活動に関する統計を生成することと、(11)ステージングデータベースを出力保存およびバックアップすることである。ステップ1、2、3、4、7、9、10および11は強制である。ステップ5および6は、ダブルスキャンの状況をさす。ステップ8は、「要約された」プローブ対データが計算される場合のみ適用され、計算されなければ、ステップ2において、プレーンプローブ対データが生成される。
【0132】
リレーショナルデータベースに移送された実験データは、遺伝子断片あたりの要約された発現コール、すなわちAGERテーブルであり、プローブ強度、すなわちMERテーブルではない。プローブ強度は、実験名の名前が付けられたテキストファイルに格納され、記録に向けられる。
【0133】
ステージングデータベースの別の重要な機能は、発現データの統合であり、すなわち、発現データを臨床データベースおよび断片インデックスとリンクさせることである。これらのデータは、リレーショナルデータベースに物理的に「まとめられる」ことになるが、ステージングデータベースは、この能力を付加する。さらに詳しく言えば、臨床データに関して、実験名を復号化し、それからゲノム解析試料番号を抽出する。この番号は、生体リポジトリIDに関連付けられており、したがって、生産追跡システムにより出力保存されたBIO_2_GENを介して、試料および臨床情報に関連付けられている。テーブルGLGC_EXPERIMENTは、この実験に対して実行されるセル解析とチップ解析の両方のANALYSIS_IDにゲノム解析番号を関連付けた後、参照完全性制約により、対応するデータ記録がAGERおよびMERテーブルに存在することが確保される。MERテーブルに対する制約は、MERデータが利用不可であるため、GXDBにおいて無効である。
【0134】
断片インデックスの統合は、リレーショナルデータベースにおいて直接行われるタスクである。断片インデックスは、デザインにより、AADMのBIOLOGICAL_ITEMテーブルのアイテムとまったく同じ順序で、遺伝子断片リストa.k.aアイテムを維持する。AGERから断片インデックスAFFY_ITEMテーブルへ異種キーを追加することにより、統合が与えられる。
【0135】
さらなる統合タスクは、実験データからのチップ上の欠陥遺伝子断片のマスキングと、試料完了制約の強化とを含む。チップ品質制御は、セルおよびチップの解析に取り込まれてはならないスキャンされた画像にある欠陥スポットを同定する。品質制御プロセスは、プレステージ領域に移送されたファイルにおいて、画像欠陥により影響を受けた実験ごとの遺伝子断片を報告する。これらのファイルは、存在/不在(P/A)コールを不明(U)にすることにより、発現データポイントをマスクアウトするために使用される。古いP/Aコールは保存され、品質制御報告が再び戻ってきたときにいつでも回復させることができる。
【0136】
ヒト42Kセットなどのセットにグループ化されたチップを用いて作業するには、同じゲノム試料をいくつかのチップ上で使う必要がある。各試料に対して42K発現データポイントのベクトルを完了するために、全5チップからのデータが、データベースに存在する必要がある。完全な発現ベクトルを作るために、試料ごとに全てのチップを獲得するプロセスを、試料完了と呼ぶ。本発明のアーキテクチャの好適な実施形態により、ステージング、リレーショナルデータベースで試料完了を強化することができるようになる。
【0137】
本発明の好適な実施形態において、ロード中、データの一貫性がチェックされる。適用されることが好ましい一貫性の法則は、プレステージングへの移送前に出版するさいにチェックされる法則のサブセットである。以下の法則は、実験/チップごとに適用されることが好ましい。
【表2】
Figure 2004535612
【0138】
本発明の別の好適な実施形態において、ステージングデータベースは、SQL照会能力を備えた適切なリレーショナルデータベースである。また、ステージングデータベースは、ステージング活動を追跡するために報告を与えることが好ましい。このような報告は、ステージングデータベースへのロードが生じると発行されるステージングロード報告と、1週間ごとのステージング活動、すなわち、リレーショナルデータベースにロードされた実験数、それに移送された実験数などを報告するステージング週別報告と、ダブルスキャン実験を再考し、5日間を超える期間「相補」スキャンを待機する(保留状態にある)実験の実験名を報告するステージング週別例外報告とを含む。
【0139】
本発明の別の好適な実施形態において、リレーショナルデータベースにより、Gene Expressプロセスモデルの支援ができるようになる。AADMテーブルのリスト。
【表3】
Figure 2004535612
【0140】
本発明の一つの態様は、生物学的情報の格納および検索用のリレーショナルデータベースにおけるデータのデータ完全性を確保することである。データベース参照統合性は、データベーススキーマにモデリングされたデータの関係を維持する。さまざまなアプリケーション特化法則と一般的に生物学的法則がデータの構築される必要がある。これは、アプリケーション特化法則と一般的な生物学的法則を同定し、アプリケーション特化法則および一般的な生物学的表現法則をPL/SQL関数に変換し、その結果得られた関数を法則ベースで生物学的情報の格納および検索用のリレーショナルデータベース内に格納することにより達成される。これらのアプリケーション特化法則および一般的な生物学的関数は、リレーショナルデータベースに格納されたデータの精度および完全性を確保するために、リレーショナルデータベース法則エンジンにより定期的に実行されることになることを認識されたい。
【0141】
生物学的情報の格納および検索用のリレーショナルデータベースとともに使用するのに適したアプリケーション特化法則および一般的な生物学的法則がいくつかあることを認識されたい。例示的な法則は、チップ一貫性の法則と、チップ欠陥報告一貫性の法則と、臨床データ/遺伝子発現データ一貫性と、断片/遺伝子発現データ一貫性の法則と、発現完全性の法則とを含む。
【0142】
チップ一貫性の法則は、一貫性に対してマイクロアレイを評価し、出版およびデータステージング時にチェックされることが好ましい。チップ欠陥報告一貫性の法則は、一貫性に対してチップ欠陥報告を評価する。例えば、実験ごとのチップ欠陥報告の遺伝子断片名は、その実験でのチップタイプの遺伝子断片名と一致しなければならない。臨床データ一貫性の法則は、臨床データの内部的な一貫性を評価する。臨床データ/遺伝子発現データ一貫性は、遺伝子発現データと臨床データの一貫性を評価する。例えば、臨床データベースにある臓器名は、同じ試料の遺伝子発現データのターゲットタイプ値と一致しなければならない。マッチングは、さまざまな粒度で実行されることが好ましく、すなわち、臓器「小脳」は、ターゲットタイプ「脳」と一致する。断片/遺伝子発現データ一貫性は、遺伝子発現データと断片インデックスデータの一貫性を評価する。好ましくは、この法則は、ANALYSIS_SCHEME.IDにつながれたBIOLOGICAL_ITEMのIDおよびITEM_NAMEが、断片インデックスのAFFY_NAMEのITEM_ID、AFFY_NAME、およびON_CHIP属性とマッチすることを検証する。発現完全性の法則は、生物学的知識に基づいている。例えば、遺伝子が特定の組織タイプに存在することが分かっていれば、それは、リレーショナルデータベースに存在するものでなければならない。この法則の特別なクラスは、遺伝子の存在または不在に関して事前知識があるハウスキーピング(またはスパイキング)遺伝子を取り扱う。図8は、本発明の完全性制約強化システムの一実施形態を表す。アプリケーション特化法則および一般的な生物学的法則は、モジュール801および802により体系化され、法則レジストリ800に格納される。アプリケーション特化または一般的生物学的関数が実行され、エラーが検出されると、システムは、エラーコードを生成し、および/または、エラーエンジン803によりエラーを訂正する。さらに、ログおよび検査エンジン804が、その実行のログおよび検査を作成する。
【0143】
生物学的情報の格納および検索用のリレーショナルデータベースは、実験ごとにデータを獲得するが、ユーザは、試料ごとにデータを見ることが好ましい。好適な実施形態において、ユーザは、所有権および許可に基づいて、試料を制約された範囲で見ることになる。生物学的情報の格納および検索用のリレーショナルデータベースにあるデータは、パーティション、すなわち、アクセス権により体系化されることが好ましい。さらに、データパーティションは、リレーショナルデータベースから、別々のより小さなアクセスグループに特化したデータベースにクローンされてよい。リレーショナルデータベースにある試料データベクトルは、試料の帰属する全てのデータをさし、例えば、ヒト42Kの場合、試料データベクトルは、5チップ実験で生成された全ての42Kデータ点を含むことになる。同じ試料で数回の実行がある場合があるため、リレーショナルデータベースには試料ごとにいくつかのデータベクトル候補が存在する場合がある。ゲノム解析00012が3つの可能なデータベクトルをもつ場合、このようなシナリオの1つを、以下の表に挙げる。
【表4】
Figure 2004535612
【0144】
パーティショニングとは、試料データベクトルを、パーティショニングスキームまたはパーティショニングタイプに従って分離するプロセスである。例えば、試料データベクトルは、プロジェクト、組織常態(病変または正常)、臓器、共同などに従って区分けすることができる。区分けされた試料データベクトルは、特定ユーザに対してアクセスを制限することができる。
【0145】
試料ごとの一次データベクトルの構築は、生産により規定される発見的法則を用いて自動的に行われるか、自動グループ化を手動で無効にすることにより行われる。例えば、各タイプの2つ以上のチップ、例えば、2つのAチップが試料ごとに利用可能であれば、より大きな実行番号のものは、一次ベクトルに進む。試料データベクトルを規定する実験グループは、テーブルに格納される。
【0146】
EXPERIMENT_GROUP
【表5】
Figure 2004535612
【0147】
属性MASKおよびCMASKは、パーティショニング用に使用される。これらの値は、所与の試料に対するパーティショニング特性に基づいたものである。CMASK属性は、ユーザからの要求に対してデータをフィルタリングするために使用され、MASK属性は、スキーマを物理的にパーティショニング(Oracle8パーティション)するために使用可能な数値である。試料が特定のパーティションに存在してはならない場合、これらの属性は、試料データベクトルをグローバルパーティションの一部分にする初期値をとる。これは、いくつかの例を用いて最良に理解される。以下の例は、マスクの部分を形成するために、値と数値コードを有する可能なパーティショニング変数を使用する方法を示す。
【表6】
Figure 2004535612
【0148】
Nを属性の値の総数とし、ゲノム解析00120はJTにのみをアクセス可能にし、組織を悪性の肝臓から取り出す。その場合、以下のマスクを有する。
【表7】
Figure 2004535612
【0149】
CMASKは、「01000301」になる。MASKは、値(01 00 03 01)ベースNを有することになる。本発明の別の実施形態において、臨床データベースは、Oracle8iデータベースサーバ上に構築される。
【0150】
組織リポジトリ情報管理システムは、生体リポジトリを管理する情報システムである。目録システムであることに加え、このシステムは、生体試料の病理および臨床記録にデータ入力ツールを提供する。組織リポジトリ情報管理システムは、MicroSoft Accessのバックエンドデータベース上で実行されることが好ましい。サーバ側スクリプトは、AccessデータベースファイルからASCIIテキストファイルとしてデータを出力保存することが好ましい。これらのファイルは、好ましくは、ftpにより、プレステージング領域に転送された後、臨床データ用のステージングデータベースにロードされる。ロード中、臨床データの完全性は、法則のリストによりチェックされ、例えば、ドナーの年齢は[1,99]の範囲内でなければならず、体重はメートル法単位で表示されなければならない、などである。
【0151】
臨床データベースには、組織リポジトリ情報管理システムからのデータのサブセットしか必要ではなく、ロードプロトコルは、適切なもののみを選択することが好ましい。全てのチェックがうまく回帰した後、リレーショナルデータベースに新しいデータが移送される。
【0152】
組織リポジトリ情報管理システムのスキーマは、3つのデータユニット、すなわち、(1)組織の詳細と、(2)ドナー属性と、(3)統制された用語とに分割されることが好ましい。
【0153】
試料の詳細の属性は、BIOSAMPLEおよびFRAGMENTテーブルに体系化される。BIOSAMPLEは、SITE(発生部位)、SOURCE(発生源)、ORGAN_NAME.HISTOLOGY、PATIENT_DIAGNOSIS、およびPATHOLOGY_DIAGNOSISなどの組織特異的属性を保有する。BIOSAMPLEは、物理的な生体試料の実体に関する情報を捕捉する。
【0154】
組織FRAGMENTとは、生体試料の物理的断片である。これらの断片は、実験を通して使われ、固有のGENOMICS番号を割り当てられる。また、FRAGMENTテーブルは、WEIGHT_ACTUAL(メートル単位、すなわち、kg単位での実際の体重)、WEIGHT_ESTIMATEDなど、断片の他の属性も保有する。組織名および組織構造フィールドは、SNOMEDに見られるような規格化された用語に関係し、統制された用語(CV)から値を取る。同様に、診断フィールドは、SNOMEDに関係し、関連付けられたCVを有する。
【0155】
メインテーブルは、DONORである。これは、さまざまなドメインにわたるヒトドナー属性を有し、例えば、HEIGHT、WEIGHT、RACE、DATE_OF_BITHなどの一般的な属性や、DEATH_CAUSE、DEATH_AGEなどの死亡フィールド、運動習慣、食事プロファイル、睡眠習慣、喫煙習慣、アルコール、および英気回復薬習慣などのさまざまなデータフィールドを有する。
【0156】
DONORファクトテーブルは、5つの他の詳細なテーブルにリンクされることが好ましい。すなわち、HISTORY_FAMILY−ドナーの家族の診断と、HISTORY_MEDICAL−患者の治療履歴と、HISTORY_SURGICAL−患者の手術履歴および麻酔(HISTORY_SURGICAL_ANESTHESIA)と、HISTORY_MEDICATION−患者の薬物治療履歴と、HISTORY_LAB_TEST−患者の実験テスト履歴である。
【0157】
臨床データベースを他のコンポーネントにリンクする属性は、ゲノム解析識別番号である。チップ遺伝子発現を介する全ての断片は、固有のゲノム解析識別番号を得る。これらの識別子は、試料の準備中に割り当てられ、実験名の一部をなす。また、ゲノム解析識別番号は、断片テーブルに格納される。遺伝子発現データスキーマにおけるABS_GENE_EXPR_RESULT、ANALYSIS、EXPERIMENT、GLGC_EXPERIMENTテーブルは、対応する試料を介して実行される実験に対する臨床データベースに試料IDを含むBIOSAMPLE_IDを有する。このプロセスは、臨床データロードプロトコルの一部として実行され、格納されたプロシージャが、ジョブを実行するように生産データベース上の上記テーブルを更新する。また、同一の格納されたプロシージャは、新しい実験が生産ウェアハウスに出版されたときにも実行される。
【0158】
本発明のリレーショナルデータベースは、3層記録システムを利用することが好ましい。3層とは、(1)オンラインネットワークディスクファイルシステムと、(2)ニアラインストレージと、(3)オフラインDLTテープバックアップである。オンラインネットワークディスクファイルシステムは、ネットワークディスクシステム(Network Appliance F720)に基づいたものである。また、ネットワークファイルシステムは、NTネットワークに認識可能なものである。ディスク空間は、2つのパーティション、すなわち、記録用のものと、データ配信構築用のものとに体系化される。UNIXとWindowsの両方からアクセス可能なファイルシステムにある各試料の完全な情報セットが維持される。情報は、ゲノム解析識別番号で体系化され、実験名によりさらに細分化可能である。このディレクトリ構造に情報を格納することにより、フィルタリング要求に基づいて配信セットを構築することがより容易になる。ニアラインストレージは、HP Superstore光磁気ジュークボックスを元にしており、生産により生成される全てのデータファイルのバックアップデバイスとして働き、オンライン記録のバックアップでもある。
【0159】
プレステージングディレクトリ、データベースサーバ、およびオンライン記録をバックアップするために、オフラインDLTテープバックアップが使用される。
【0160】
本発明の別の態様は、新しいチップセットを利用するために、データベースを修正することである。さまざまな種から組織の遺伝子発現を解析するための新しい遺伝子チップが、定期的に入手可能であることを認識されたい。例えば、これらは、3〜5チップのチップセットにグループ化されることが好ましい。好適な遺伝子セットは、ヒトの場合、Hu42Kセット、マウスの場合、Mu11Kセット、およびラットの場合、RG_U34セットである。別の好適な遺伝子セットは、60Kセットとしても知られるAffymetrix HG_U95チップセットである(このチップセットの5つのチップが、約60,000個の遺伝子断片を表すため)。
【0161】
2つのヒト遺伝子セットに現れる遺伝子断片のほとんどは相補物を有するが、各断片をプローブするために使用されるオリゴヌクレオチドは、2つのセット間で異なる場合がある。このような状況において、クロスチップセット解析が利用できず、すなわち、遺伝子セットは、異なるチップセットからの遺伝子断片の混合物を含まないことがある。さらに、試料照会は、チップセットごと、さらには種ごとに制限されることが好ましい。すなわち、試料セットにある全ての試料は、照会が実行されたときに選択されたチップセットのチップから実験を行わなければならない。試料照会を適切にするために使用されるチップセットは、試料セットの属性として保存される。
【0162】
さらに、解析用に入力された試料セットに関連付けられたチップセットにより解析が制限される。すなわち、複数の試料セットが入力されると、試料セットは、全て同一のチップセット属性をもたなければならない。解析により生成された遺伝子セットは、このチップセットに対してのみ遺伝子断片を含むようにフィルタリングされることになる。本発明の別の態様は、データの正規化である。正規化を行うことにより、互いに比較可能な異なる遺伝子チップ実験から発現値が報告されるため、2つの異なる試料が、遺伝子断片に対して同じ発現値を生じれば、断片に対するmRNA転写の濃度が、2つの試料において同じであるという適度な信頼が得られる。チップの製造プロセスの違いや他の要因により、正規化されていない強度値は、同じRNA濃度の断片に対して、チップ実験ごとに大きなばらつきがある。
【0163】
このばらつきを調節するための多数の好適な方法がある。好適に、本発明は、3つの方法、すなわち、スケーリング、正規化、および標準曲線の正規化を支援する。スケーリングにおいて、この正規化プロセスの結果として、平均差強度値(または「AveDiff」)が生成される。正規化された値は、正規化されていない値をスケールファクタで乗算することにより計算される。スケールファクタは、実験における全ての値に対して同じものであり、以下のように計算される:
1.実験において全ての正規化されていないAveDiff値をとる。その値の最上位2%および最下位2%を切り捨てる。すなわち、実験で10,000の発現値が生じれば、値を整列させて、最下位にある200の値と最上位にある200の値を切り捨てる。
【0164】
2.残りの値の平均値に等しい「調整平均値」を計算する。
【0165】
3.スケールファクタSF=100/(調整平均値)を計算する。
【0166】
別の正規化方法は、単一のチップ実験からの発現強度値が、小さいまたは大きい発現値を考慮するか否かに応じて、異なる分布を有するという観察に基づいたものである。ほとんどがノイズであると考えられる小さな値は、平均値0でほぼ正規分布されるのに対して、大きな値は、対数正規分布にほぼ従い、すなわち、それらの対数は、ゼロでない平均値で正規分布される。スケーリングが、実験において同じスケールファクタを全ての発現値に適用するのに対して、正規化は、「非エクスプレッサ」(小さな値)および「エクスプレッサ」(大きな値)に対して別のスケールファクタを計算する。アルゴリズムへの入力は、スケーリングAveDiff値であり、100に等しい調整平均値を設定するためにすでにスケーリングされている。アルゴリズムは、負の値の標準偏差SDノイズを計算し、これは非エクスプレッサからのものと考えられる。次いで、全ての負の値と、2.0SDノイズより小さい全ての正の値を、1/SDノイズに比例するスケールファクタで乗算する。2.0SDより大きい値は、エクスプレッサからのものと考えられる。これらの値に対して、対数の標準偏差SD対数(信号)が計算される。次いで、対数は、1/SD対数(信号)に比例するスケールファクタにより乗算され、累乗される。ついで、その結果得られた値は、別のスケールファクタにより乗算され、2.0SDノイズの両側にあるスケーリングされていない値から正規化値に不連続点がないように選択される。
【0167】
第3の正規化方法は、「標準曲線正規化」と呼ばれるもので、「スパイクイン正規化」と呼ばれることもある。この正規化方法は、チップ実験からのオリジナルの発現強度値を、試料に発現した各遺伝子に対する実際のmRNA濃度に関係付ける。これを行うために、特定の遺伝子断片の既知の濃度は、試料RNA混合物に「スパイクイン(打ち込み)」された後、それをチップにハイブリダイゼーションしなければならない。(スパイクインに対してバクテリア遺伝子が使用されるため、試料ドナーからは追加のRNAの寄与がないことになる。)
【0168】
チップ実験は、スパイクイン遺伝子断片に対して強度測定値を生じる。理想的に、強度は、濃度とともに線形に増大するため、強度が濃度に対してプロットされれば、データ点を結ぶ基点から直線を引き、その傾斜を用いて、チップ上の他の遺伝子断片に対するmRNA濃度を推量することが可能でなければならない。実際、この関係をゆがめるノイズおよび非線形の影響があるが、それでも、データ点との最良の適合である基点からの直線を引くことができる。この直線は、「標準曲線」として知られている。標準曲線正規化を実行するために、実行時間エンジン(RTE)ローダは、スパイクインデータが利用可能である各チップ実験に対する標準曲線を適合させ、濃度値を獲得するために、標準曲線の傾斜により各遺伝子断片に対する強度測定値を分割する。(負の値およびある一定の感度カットオフより低い値が別々にマッピングされ、このマッピングは、別のドキュメントに記述される。)濃度値(ピコモル単位)は、強度ではなく発現値として報告される。
【0169】
試料の一部分のみがスパイクインを有することがあるため、RTEは、スパイクインをもたない試料に対する濃度値を生成しないことになる。したがって、フォールド変化などの解析ツールを実行する場合、標準曲線正規化が選択されれば、本発明は、入力試料にある全ての試料が十分のスパイクインを有するかを確認するチェックを行う。持たなければ、データベースは、一定の試料が解析において使用できず、計算を終了するという警告を発することになる。さらに、濃度値は、強度値とは異なる範囲(通常、より小さい)にあるため、標準曲線の正規化されたデータをフィルタリングする場合、より小さい閾値を使用することが必要である。
【0170】
本発明の別の好適な実施形態は、発現差のある配列の制限酵素解析(「READS」)から得られた遺伝子発現データと組み合わせたデータベースの構成である。毒性実験からのいくつかの試料が、両方のプラットフォームを用いて処理される。チップデータは、遺伝子発現データベースに格納される。READSデータは、ToxREADSとして知られる別のデータベースに格納される。本発明の好適な実施形態において、本発明のデータベースにあるデータ値から関係するToxREADSデータにリンクが作成される。
【0171】
ほとんどの毒性実験は、研究の脈絡内で実行され、実験動物または細胞培養のグループが、さまざまな処理を受け、異なる時間点の後処理で、それらから試料が収集される。例えば、ある研究では、3つの異なる時間点でラットの肝臓に2つの異なる毒素投与量を与えた影響を、同じ時間点で生理的食塩水を注射したラットからの肝臓と比較して検査する。データの品質を高めるために、反復実験が実行される。すなわち、数匹の動物が同じ投与量で処理され、同じ時間点で試料採取される。反復実験からの試料の各グループは、研究グループとして知られる。試料セット照会ツールにより、研究に属する試料を検索し、研究グループによりそれらをグループ化することができる。
【0172】
READSデータは、異なる研究グループにある試料からの処理されたmRNA断片をゲルの異なるレーン上に流し、断片長により分離する電気泳動から生じる。ゲルのいくつかのレーンにおいて他のものより暗い色のバンドで表された発現差のある断片がコアされ、配列され、可能であれば、既知の遺伝子にマッチされる。上述したように、バンドの強度の測定値など、これらの断片のデータは、ToxREADSデータベースに格納される。また、READSゲルで見つけられるこれらの遺伝子断片(READS断片として知られる)のいくつかは、1つ以上の遺伝子チップ上に表されてもよい。この場合、発現データは、両方のプラットフォームから利用可能なものであってよい。好ましくは、遺伝子発現データベースのデータディスプレイからToxExpress報告へのリンクが作成されるため、READSデータおよびチップデータは、並列に見られてよい。
【0173】
READS断片の発現データが、特定の研究の脈絡内においてのみ意味があるため、ユーザが、自らが興味のある研究を選択しなければならないことに留意することは重要である。ユーザがToxREADSリンクの追加を選択する場合、ツールは、利用可能な研究を記載したダイアログボックスを表示することが好ましい。次いで、ユーザは、このリストから1つ以上の研究を選択し、ダイアログにある追加ボタンをクリックすると、結果テーブルは、選択された各研究に関する追加のToxREADSリンクコラムを表示することになる。ToxREADSリンクコラムは、そのコラムの研究にあるREADS断片に関連付けられた照会結果にある各遺伝子断片に対して矢印アイコンを表示する。ユーザがこのアイコンをクリックすると、遺伝子発現データベースは、関連付けられた研究にある対応するREADS断片に関する方向ページに移行するように、ユーザのWebブラウザを方向付ける。READSゲルの各レーン(ひいては、READS断片に対応する各バンド)は、まとめて蓄積されたいくつかの個々の試料から生じるものであってよい。通常、各研究グループにある試料はまとめて蓄積されているため、READS試料は研究グループごとに1つであり、異なる時間点の制御試料(別の研究グループにある遺伝子発現試料データベースに格納されているもの)は、1つのREADS制御試料にまとめて蓄積される。
【0174】
個々の試料と蓄積されたREADS試料との関係付けをユーザが行いやすいようにするために、ToxExpressユーザには、所定の試料セットの集合体が与えられることが好ましい。これらは、各ToxExpress研究に対してサブフォルタ下に体系化され、各試料セットは、蓄積されたREADS試料に対応する試料を含む。ユーザが、遺伝子発現データベースにおけるToxREADSリンクをクリックする場合、特定の研究内の選択された遺伝子断片に関連付けられたREADS断片に関する情報を示す報告が表示されることが好ましい。テーブルの行は、研究における異なる蓄積されたREADS試料に対応してよく、最も右側の列は、各READS実験からの発現強度値、および対応するチップ実験からの平均発現値(スケーリングおよび正規化の両方を使用)を示してよい。テーブルのフィールドのいくつか(例えば、READS断片)が、それらに関連付けられた矢印アイコンをもつものであってよい。これらは、詳細な報告へのリンクとして作用し得る。例えば、ユーザが、READS断片名の隣にあるアイコンをクリックすると、ユーザのWebブラウザは、そのREADS断片に関する詳細な報告に移行する。
【0175】
各READS断片詳細報告は、クロマトグラムトレースファイルへのリンクを含むことが好ましい。このファイルを見るために、Webブラウザは、ファイルの読取りおよび表示が可能なプログラムを開始するように構成されなければならない。本発明の別の態様は、遺伝子シグネチャ解析である。試料セットの遺伝子シグネチャ解析は、試料セットのチップセットに現れた遺伝子断片の全てから、2つの遺伝子断片セット、すなわち、試料セット内に一貫して発現するものと、一貫して発現しないものとを抜き出す。遺伝子シグネチャ解析を実行するために、2つの閾値パーセンテージ、すなわち、1つは「存在」セット、もう1つは「不在」セットとして、発現の「一貫性」を定量化することが必要である。発現の一貫性は、試料セットにおいて、どの程度遺伝子(断片)が発現するか、または発現しないかということの測定値である。例えば、試料セットに5つの試料があり、ユーザが、存在および不在の閾値パーセンテージをそれぞれ80%および80%に設定すれば、遺伝子シグネチャ解析は、5つの試料から少なくとも4つに存在する遺伝子の1つのセットと、5つの試料から少なくとも4つに不在の別のセットを計算する。遺伝子シグネチャ解析の結果を表示できる方法にはさまざまなものがある。解析が終了した後、その結果は、遺伝子シグネチャ解析ウィンドウの要約タブに表示されることが好ましい。このウィンドウは、存在遺伝子セットにある遺伝子断片数を表示するパネルと、不在遺伝子セットにある遺伝子断片数を表示するパネルと、試料セット名およびそれが含む試料数を提示する。初期設定要約コラムは、ゲノム解析ID、実験、全存在コール、全不在コール、全不明コール、存在コール(存在遺伝子セット)、不明コール(存在遺伝子セット)、不在コール(不在遺伝子セット)、および不明コール(不在遺伝子セット)を含むことが好ましい。ウィンドウの下部において、遺伝子シグネチャ履歴が表示されることが好ましい。これは、解析を計算するために使用された閾値、解析が実行された日時、および解析に使用された実行時間エンジン(RTE)のバージョンに関する情報を提示する。
【0176】
本発明の別の実施形態において、遺伝子シグネチャ解析を表示することにより、遺伝子シグネチャ解析に関する詳細を表示することができる。オプションは、試料の詳細、属性、実験、試料、ドナー、および表示オプションを含むことが好ましい。別の好適な実施形態において、Excelワークシートへの要約の出力保存、Webブラウザへの要約の出力保存、または要約の印刷が可能である。
【0177】
遺伝子シグネチャ曲線を表示するさい、2つの表示オプション、すなわち、「断片数対試料数」および「断片数対閾値パーセンテージ」があることが好ましい。「断片数対試料数」オプションは、一対の遺伝子シグネチャ曲線、すなわち、存在遺伝子セットのものと、不在遺伝子セットのものとを表示する。この表示は、試料セットが有効な遺伝子シグネッチャを生成できる程度に大きいものかという視覚的な感覚をユーザに与える目的のものである。「断片数対閾値パーセンテージ」オプションは、閾値パーセンテージの関数として、存在および不在遺伝子の総数を表示する。例えば、34の試料のうち31に有資格断片が存在または不在であることを意味する90%に両方の閾値が設定されれば、存在および不在セットにある断片数は、それぞれ約4,000および17,000になる。閾値が75%(より厳しい)に設定されれば、セットはそれぞれ7,944および24,155になる。遺伝子断片結果に関する詳細な情報は、「遺伝子セット結果」に表示されることが好ましい。例えば、存在または不在遺伝子セットにある遺伝子断片のリストを表示するために、「遺伝子セット結果」ウィンドウは、縦方向または横方向のいずれかでの結果のスプリットビューを選択するためのドロップダウン式のボックスと、「存在遺伝子セット」結果を表示するタブと、「不在遺伝子セット」結果を表示するタブと、選択されたタブに応じた「存在または不在遺伝子セット」にある遺伝子数と、使用される正規化のタイプに関するステートメントと、「存在または不在遺伝子セット」ビューの両方にある遺伝子結果のテーブルとを提示することが好ましい。
【0178】
本発明の別の好適な実施形態において、選択された遺伝子断片に関する詳細な情報が表示される。オプションは、断片の詳細、属性、既知遺伝子、試料の詳細、属性、実験、試料、ドナー、および配列クラスタを含むことが好ましい。本発明の別の態様は、配列クラスタにおいて遺伝子断片を表示することができることである。配列クラスタオプションは、試料断片が分類されたUnigeneクラスタの脈絡で遺伝子断片のビューを提示する。また、対応する試料または試料セットにわたって、同じUnigeneクラスタにおいて全ての遺伝子断片の発現値を有するテーブルを表示することもできる。
【0179】
また、本発明により、ユーザ選択の遺伝子属性とともに特定の断片に関するデータを表示することもできる。これらの属性は、遺伝子シグネチャ統計(存在頻度、平均値、中央値、標準偏差、発現およびコール値(遺伝子当たり1行、試料セットの全試料にわたった断片に対する存在/不在コールおよび量的発現値が表示される)、および発現およびコール値(試料当たり遺伝子当たり1行、試料当たり断片当たり1行は、断片に対する実際の存在/不在コールおよび量的発現値を含む)を含むことが好ましい。本発明の別の態様は、発現値が既知の経路上にある場合の経路表示を提示する経路ビューアである。遺伝子によりコード化される蛋白質や酵素は、カラーバンドで強調表示される。色は、遺伝子断片の発現レベルを表すことができ、極限発現値(負および正)に対してより濃い色となる。カラーバンドをクリックすると、酵素や蛋白質をコード化する遺伝子断片の発現レベルに関する追加情報を表示する詳細ウィンドウを開くことができる。詳細なウィンドウが開かれ、テーブルにある異なる遺伝子断片が選択されると、蛋白質や酵素の新しいセットが強調表示されることが好ましい(断片が同じノードセットにマッピングされない場合)。断片が2つ以上の蛋白質や酵素にマッピングされれば、アプリケーションはランダムに1つを選択し、必要であれば、それをビューにスクロールし、詳細なウィンドウ表示を更新する。また、経路のフルビューを得たり、経路の特定領域にズームしたりすることも可能である。経路テーブルにおいて遺伝子断片が選択されると、断片がマッピングする経路にある全てのノードは「強調表示」されることが好ましい。
【0180】
経路の表示は、いくつかのフォーマットで与えられ、好ましくは、試料セットの中央値(中央発現値は、入力試料セットにある全ての試料にわたって、経路を重複する選択された遺伝子セットにある各断片に対して表示される)と、試料セットの平均値(平均発現レベルは、入力試料セットにある全ての試料にわたって、経路を重複する選択された遺伝子セットにある各断片に対して表示される)と、未加工発現値(未加工発現レベルは、入力試料セットにおける全ての試料にわたり、経路を重複する選択された遺伝子セットにある各断片に対して表示されることになる)を含む。
【0181】
本発明の別の態様は、染色体マップ上の発現値を与えるディスプレイを提示する染色体ビューアである。染色体ダイヤグラムは、マーカの数および表示されるマッチ数に関するステートメント、すなわち、染色体の断片の総数および現行の遺伝子セットからの数に関するステートメントと、ディスプレイオプションに関するステートメントと、結果データを含むテーブルと、発現値を表示する縦軸とともに、染色体画像を表示するパネルとを表示することが好ましい。好適な実施形態において、遺伝子断片が染色体上のどの場所に位置するかを決定するために、遺伝子断片は、テーブルから選択されて、染色体ダイヤグラムに、対応する遺伝子断片の存在が示されることになる。染色体ビューアに好適なディスプレイオプションがある。これらは、試料セットの中央値、試料セットの平均値、試料の未加工発現値、および試料の存在/不在コール値を含む。
【0182】
本発明の別の態様は、共有遺伝子を明らかにするために遺伝子セットを交差させるか、または遺伝子セット間の差を表示するかのいずれかを可能にする遺伝子セットのフィルタリング手段を与える遺伝子マスクオプションである。遺伝子シグネチャ解析を計算するために、特定の試料の「辺縁」コールを有する断片は、「不在」断片と同じものとして扱われる。「不明」コールを有する断片が、遺伝子シグネチャ計算において無視される。特定の断片に対して、p、m、およびaが、それぞれ、断片が存在、辺縁、および不在の場合の試料の数であれば、分数p/(p+m+a)と(m+a)/(p+m+a)が計算され、これらの分数は、断片は、遺伝子シグネチャセットのいずれかに属するかを決定するために、存在および不在の閾値パーセンテージに対して比較される。例えば、試料セットS={s1,s2,s3,s4}および遺伝子{g1,g2,g3,g4,g5,g6,g7,g8,g9}とする以下の表に示す存在/不在/辺縁/不明コール値が遺伝子発現データウェアハウスに含まれるとする。(実際には、数千の遺伝子のデータがあるが、説明を目的として9つの遺伝子しか示していない。)各遺伝子の列の最下部には、試料セットSでの各遺伝子の存在、不在、辺縁コールの数から計算されたパーセンテージが示されている。
【表8】
Figure 2004535612
【0183】
存在および不在の閾値パーセンテージの両方が75%に設定されていると仮定する。その場合、この試料セットに対して、遺伝子シグネチャ演算は、遺伝子{g1,g2,g3,g4}を含む「存在遺伝子セット」と、{g5,g6,g7,g9}を含む「不在遺伝子セット」を戻す。また、遺伝子シグネチャ解析は、存在および不在セットにある各遺伝子の平均値、中央値、および標準偏差を計算する。ユーザは、遺伝子シグネチャ結果に表示されるこれらの値の任意または全てを選択することができる。
【0184】
遺伝子シグネチャの曲線は、試料セットにある各試料の存在遺伝子総数を計算し、試料を存在遺伝子総数により昇順に並べ、第1の試料にある存在遺伝子のセットに対してPを初期化し(曲線にある第1の点の高さはPの遺伝子の数である)、Pを第2の試料にある存在遺伝子のセットと交差させ、試料セットにある各遺伝子に対して繰り返すことにより計算される。曲線にある連続点の高さは、各交差ステップ後のPにある遺伝子の数である。各点のX軸成分は、格納された試料セットにある対応する試料のインデックスである。また、この解析は、不在遺伝子に対しても実行され、交差セット総数は、別のグラフ上にプロットされる。遺伝子シグネチャの存在および不在遺伝子セットを生成するために使用される方法は、遺伝子シグネチャ曲線を計算するために使用されるアルゴリズムと同一のものではない。遺伝子シグネチャの計算は、存在/不在遺伝子セットを獲得するために、閾値パーセンテージを利用するが、曲線の計算は利用しない。
【0185】
さらに、U(不明)およびN(発現データなし。すなわち、紛失チップとの試料)コールは、遺伝子シグネチャと遺伝子シグネチャ曲線との間との相違を生成するさいに重要な役割を担う。例えば、Sが試料であり、Gが遺伝子である場合の以下のコール値行列を考慮する。
【表9】
Figure 2004535612
【0186】
100%閾値をもつ存在遺伝子セットを獲得するための遺伝子シグネチャ計算は、4つの遺伝子の総数をもつ以下の遺伝子セット{G1,G2,G3,G4}を生じる。計算アルゴリズムは、発現データが存在する試料のみを含むことにより、部分的なチップセットおよび紛失データの修正を行う。したがって、4つの遺伝子の全ては、それらのうちの各々が4つの試料のうち3つにのみ存在しているとコールされても、存在遺伝子セットに含まれる。しかしながら、遺伝子シグネチャ曲線は、存在遺伝子セットに対して以下のデータを生じる。
【表10】
Figure 2004535612
【0187】
本発明において、ゼロに等しい「遺伝子数」の値はプロットされない。したがって、x軸に示される試料の最大数は、試料セットにある試料の数とは異なる場合があり、存在および不在の遺伝子シグネチャ曲線との間で異なる場合もある。アルゴリズムは、最初に、試料を存在総数により昇順に並べた後、Pを第1の試料にある存在遺伝子のセットに対して初期化する。曲線にある第1のバーの高さはPにある遺伝子の数であり、Pは第2の試料にある存在遺伝子のセットと交差し、Pに残る遺伝子の数は曲線にある第2のバーの高さとして示される。このプロセスは、試料セットにある各試料に対して繰り返される。U(不明)およびN(試料のデータなし)コールは、これらの「相違」を生成するさいの重要な役割を担う。この例は、同じデータ上にこれらの2つのアルゴリズムによりどのように外見上の相違が生成されるかを示す。したがって、ヒストグラムチャートにある最後の要素が、遺伝子セットのサイズと同じでない値を獲得するとともに、x軸が試料セットのサイズに等しくない値を獲得することができる。
【0188】
本発明の別の態様は、本発明の遺伝子発現データベースを用いて作成された2つの遺伝子シグネチャの結果を比較する遺伝子シグネチャ差解析である。これらの2つのシグネチャを用いて、解析は、4つの新しい遺伝子断片セットを計算する。遺伝子シグネチャ差解析は、2つの遺伝子シグネチャを比較する(これらは、事前に計算および保存されたものでなければならない)。解析は、4つの新しい遺伝子断片セットからのものである。すなわち、第1の遺伝子シグネチャの存在遺伝子セットと第2の不在遺伝子セットの両方にあるものと、第1の遺伝子シグネチャの不在遺伝子セットと第2の存在遺伝子セットの両方にあるものと、存在遺伝子セットの両方にあるものと、不在遺伝子セットの両方にあるものである。
【0189】
遺伝子シグネチャ差解析を獲得した後、要約ビュー、遺伝セット結果ビュー、経路ビュー、および染色体マップビューを含む多数の好適なフォーマットに結果が存在し得る。好ましくは、要約ビューは、以下の情報、すなわち、2つの入力遺伝子シグネチャの名前、それらが最後に修正された時、使用される試料セットのサイズ、遺伝子シグネチャを計算するために使用される閾値、それらの存在および不在遺伝子セットのサイズ、4つの交差セット、すなわち<第1の遺伝子シグネチャ>にのみ存在、<第2の遺伝子シグネチャ>にのみ存在、両方の(遺伝子シグネチャ)に存在、両方の(遺伝子シグネチャ)に不在、の4つの内にある遺伝子断片数を要約したテーブル、解析の日時および使用される実行時間エンジンのバージョンを記録する履歴パネルを含む。遺伝子シグネチャ差は、2つの遺伝子シグネチャに対する存在および不在遺伝子セットを用いて、4つの新しい断片セットを計算する。これは、以下のセット、すなわち、第1の遺伝子シグネチャの存在セットと第2の不在セットにある断片を含むセットと、第1の遺伝子シグネチャの不在セットと第2の存在セットにある断片を含むセットと、両方の存在セットにある断片を含むセットと、両方の不在セットにある断片を含むセットを用いて達成される。
【0190】
本発明の別の態様は、フォールド変化率を計算するために、制御試料セットと実験試料セットとの間のチップセットにおける各遺伝子断片の平均発現レベルを比較するフォールド変化解析である。フォールド変化解析は、試料セット対の間での発現差のある遺伝子の発現の変化を定量化する。各断片に対してフォールド変化を計算した後、断片は、フォールド変化値で分類される。
【0191】
フォールド変化解析の結果は、各フォールド変化ブラケットにある遺伝子の数と、制御および実験セット間のフォールド変化の方向の要約として表示されることが好ましい。好ましくは、このような要約は、制御試料セットの全ておよびそれぞれにおける試料の数のリストと、実験試料の全ておよびそれらが含む試料の数のリストと、実験および制御試料セットの両方に不在した断片を遺伝子総数に含むようにユーザが選択するチェックボックスと、以下の範囲、すなわち、・100・以上、10から100・、5から10・、4から5・、3から4・、2から3・、1から2・、および変化なしの範囲のフォールド変化をもつ、遺伝子断片の数を記載したテーブルを表示する。
【0192】
数は、以下のように分割されることが好ましい。すなわち、実験セット対制御セットにおいてフォールド変化「上昇」の数と、実験セット対制御セットにおいてフォールド変化「下降」の数と、実験セット対制御セットにおいて全変化の総数である。
【0193】
フォールド変化解析結果に関するより詳細なデータを獲得するために、本発明は、4つの異なる結果表示、すなわち、遺伝子断片のフィルタリング、遺伝子断片の表示、経路の表示、染色体マップの表示を提供することが好ましい。
【0194】
「遺伝子断片をフィルタリング」表示により、以前に保存した遺伝子セットを用いて報告された遺伝子をフィルタリングすることができる。ユーザは、フィルタとして使用するための遺伝子セットを選択し、フィルタに含まれる遺伝子だけが表示されることになる。
【0195】
「遺伝子断片」表示は、縦方向また横方向のいずれかのスプリットビューを選択するドロップダウンボックスと、表示される遺伝子断片の数のステートメントと、遺伝子結果のテーブルとを提示することが好ましい。
【0196】
「経路」ビューは、発現値が既知の経路上にある経路ディスプレイを提示する。
【0197】
「染色体」ビューは、染色体マップ上の発現値を与えるディスプレイを提示する。
【0198】
フォールド変化解析は、量的発現値で動作する。これは、選択された遺伝子断片セットの各々に対して、制御試料セットおよび実験試料セットにおける発現強度の幾何平均の比率を計算する。フォールド変化は、この比率に等しい。比率が1より小さく、ユーザが大きさと方向をもつフォールド変化の表示を選択すれば、フォールド変化の大きさは、「下降」の方向をもつ、比率の逆数である。異なる実験試料セットとマッチした制御試料セットとの間で、複数のフォールド変化比較が並列に実行されてよい。解析は、各試料セット対の間での平均発現値のフォールド変化により遺伝子断片を分類し、フォールド変化がユーザ指定の範囲内にある断片またはユーザ指定の遺伝子セットの断片に関する詳細な発現情報を報告する。また、可能であれば、信頼度制限値およびp値も計算される。アルゴリズムは、両側Welch修正された2標本t検定に基づいている。各試料セットの発現強度の対数は正規分布され(我々のデータとかなり良好にマッチする)、各制御試料セットの分散が、比較する対象の実験セットの分散と異なると仮定する。p値は、複数の比較に対して修正されないことに留意されたい。t検定に使用される帰無仮説は、発現値の対数の分布平均値が、2つの試料セットにおいて同じであるということである。別の仮設は、平均値が異なるということである。報告されるp値は、観察されたものと極端に同じ平均値の差(ひいては、フォールド変化)が、帰無仮説下において獲得されるという確率の推定値である。フォールド変化値の信頼度制限値は、仮定の同じセットに従って計算される。初期値では、95%信頼度制限値が計算され、異なる信頼度レベルがユーザにより指定できる。報告する上位および下位95%信頼度制限値は、上記の仮定下において、分布平均値の実際の比率が区間内にあるという95%確率が存在する場合の区画の推定範囲である。両方の試料セットは、2つ以上の試料をもたなければならない。試料セットの一方または両方が1つの試料しかもたなければ、以下に記載するアルゴリズムを用いて、フォールド変化を報告することはできるが、信頼度制限値およびp値は計算できない。フォールド変化は、断片ごとに計算される。すなわち、フォールド変化アルゴリズムは、各断片に別々に適用される。ユーザは、解析に対して、Gene Logic正規化、標準曲線正規化、またはAffymetrix正規化された発現値を選択するオプションを有するが、同じ正規化が、全試料および遺伝子にわたって使用されなければならない。正規化またはスケーリングを用いて、発現値に下限が適用され、使用される下限値は、ノイズパラメータQに基づくものであり、選択される正規化のタイプに依存する。Gene Logic正規化された発現値(「GL発現値」)に対して、各チップは、10に等しい標準化されたノイズレベルQを有する。さらに正確に言えば、各チップ上のノイズの分布は、正規化の一部として推定され、発現値は、0付近のGL発現値の標準偏差が10に等しいものであるように再計算される。
【0199】
発現値をスケーリングするために、解析は、Affymetrixソフトウェアにより各チップ実験に対して計算され、GXDBデータベースに格納された実際のノイズ値Q=RawQSFを用いる。また、ユーザは、遺伝子が存在するとコールされた各遺伝子に対してのみ試料を用いてフォールド変化を計算するオプションを有する。このオプションが選択されると、各試料に対する試料の数nおよびnは、異なる遺伝子ごとにばらつきがあり、全ての遺伝子に対してp値および信頼度制限値を計算することができなくなることがある。アルゴリズムへの入力は、2つの試料セットXおよびYと、1つの遺伝子セットと、ユーザ指定の信頼度レベルCL(0と100%の間、初期設定95%)である。
【0200】
フォールド変化アルゴリズムは、以下のとおりである。試料セットXおよび遺伝子セットの遺伝子断片fに対して、以下のことを実行する:
1.まず、下限値を発現データに適用する。efiを、試料iにある断片fの正規化された発現値とする。正規化が用いられれば、efiを最大(efi,20)に設定する。スケーリングが用いられれば、efiを最大(efi,2fi RawQfi)に設定し、ここで、RawQfiをおよびSFfiは、試料iに対して断片fを含むチップ上のチップ実験からのRawQおよびスケールファクタパラメータである。その結果がefi<20であれば、efiを20に設定する。標準曲線正規化が用いられれば、efiのみが残され、下限値は適用されない。
【0201】
2.試料セットXにおけるn個の試料の発現レベルを{efi:i=1,2,...,n}として、対数x=ln(efi)を計算する。
【0202】
3.平均値(x)、すなわち、mean(x)=(xのiの合計)/nを計算する。
【0203】
4.分散(x)、すなわち、var(x)=((x−mean(x))2のiの合計)/(n−1)を計算する。
【0204】
5.試料セットYに対してステップ1〜4を繰り返す。
【0205】
6.t統計値を計算する:t=(mean(x)−mean(y))/s
式中、s=sqrt(var(x)/n+var(y)/n)である。
【0206】
7.p値と信頼度制限値を計算するためには、累積T確率分布関数Pt(t,DF)および逆関数tInverse(p,DF)が必要である。(非整数)自由度パラメータを計算する:
DF=1/(c/(n−1)+((1−c))/(n−1))
式中、c=var(x)/(n )である。
【0207】
8.Pval=Prob(|T|>t)=2(1−Pt(t,DF))によりp値を計算する。式中、Pt(t,DF)はDF自由度をもつ累積T分布であり、tは上記に特定した統計である。
【0208】
9.フォールド変化率FCおよび上限および下限の信頼度制限値を計算する。ユーザ指定の信頼度レベルCLを与えて、TI=stInverse((100+CL)/200,DF)を計算する。次に、以下の式を用いて、フォールド変化および信頼度制限値が計算される:
m=mean(x)−mean(y)FC=exp(m)
下限信頼度制限値=exp(m−TI)
上限信頼度制限値=exp(m+TI)。
【0209】
フォールド変化の方向は、FC>1であれば「上昇」として、FC<1であれば「下降」として報告され、フォールド変化の大きさは、FC>1であればFCであり、FC<1であれば1/FCである。制御および実験の試料セットの間の各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類され、ある一定の範囲内にあるフォールド変化をもつ断片の総数を示す要約報告が生成される。通常、ユーザは、ある一定の値より大きなフォールド変化の大きさを有する全ての遺伝子断片に関心がある。
【0210】
両方の試料セットにある全ての試料が不在コールを戻す断片は、総数に含まれるか、またはそこから排除されてよい。不在遺伝子フィルタリングが制御および実験試料セットおよび遺伝子Gを与え、2つの試料セットにわたった遺伝子Gの強度の幾何平均の比率として、Gのフォールド変化が計算される。
【0211】
遺伝子が存在する試料のみを使用することをユーザが選択すれば、Gが不在であるとコールされた試料の強度は、幾何平均の計算から排除され、そうでなければ、全ての強度が含まれる。いずれの場合も、選択された正規化に応じて、下限値が強度に適用される。正規化が用いられれば、下限値が20である(すなわち、20より小さな全ての強度を20に置き換えた後、幾何平均を計算する)。スケーリングが選択されれば、特定のチップ実験から強度に適用された下限値は、その実験に対して計算されたQ値の2倍である(すなわち、各試料/チップ対に対して異なる下限値が使用される)。
【0212】
信頼度レベルの信頼度制限値は、強度の対数の平均値の差に両側Welch修正されたt検定を用いて計算される。t検定のWelchフォームは、比較される試料の2つのグループ間で分散が一般に等しくないために使用される。強度の対数は、正常分布からのものとされ、負でない値に対して我々の観察と一致する。信頼度の範囲は、加法スケール上のフォールド変化推定値を中心として対称的なものではないが、乗法スケール上のフォールド変化推定値を中心に対称的であり、比率に対する適切なスケールタイプである(例えば、フォールド変化)。
【0213】
本発明の別の態様は、ユーザ規定の遺伝子セットおよび1つ以上の試料セットを入力とし、ユーザ指定の存在/不在コールをもつ試料の全てに対して、各試料セットの遺伝子セットにある各遺伝子断片に対して発現レベルの範囲を報告する電子ノーザン解析(Eノーザン)である。
【0214】
Eノーザン解析における遺伝子の発現値の範囲は、各試料セットにある試料に対する値でのユーザ選択の百分位数の一対として報告されることが好ましい。初期設定により、各試料セットでの25番目および75番目の百分位数にある値が示される。ユーザは、異なる百分位数を選択してよい。例えば、ユーザは、各試料セットに対して、0番目の百分位数(最小発現値)と、100番目の百分位数(最大値)を表示するように選択してよい。ユーザ指定の百分位数に加え、中央発現値(50番目の百分位数)が報告されることが好ましい。
【0215】
電子ノーザン解析は、1つ以上の試料セットおよび遺伝子セットを用いて計算される。遺伝子セットは、以前に作成され保存された遺伝子セットであるか、または遺伝子シグネチャ差の結果的に得られる遺伝子セットのいずれかであってよい。
【0216】
電子ノーザン解析の好適な結果表示は、垂直方向または水平方向のいずれかのスプリットビューを選択するためのドロップダウンリストと、Affymetrix断片の数と、行数と、使用される上位および下位の百分位数と、使用される正規化と、百分位数を計算するために使用されるコールタイプ(存在、不在、または辺縁)とを含む。
【0217】
本発明の別の好適な実施形態において、電子ノーザン解析は、断片、属性、既知の遺伝子、試料の詳細、実験、試料、ドナー、配列クラスタ、およびEノーザンプロットを含む、選択された遺伝子断片に関する詳細な情報を表示することが好ましい。
【0218】
Eノーザンプロットは、選択されたAffymetrix断片に対する電子ノーザン結果および発現値の視覚的表現を表示する。Eノーザンプロットビューの頂上部分は、Affymetrix断片の選択された属性を表示する。プロットは、個々の試料に対する発現値に対応する目盛りまたは円を示し、ボックスの端部がユーザ指定の百分位数値を表す半透明のボックスプロットと重ね合わされている。また、プロットは、1つの入力試料セットごとに1行ずつ、遺伝子に対して複数の行を表示する。これらは、遺伝子が存在するとコールされている各試料セットにある試料のパーセンテージを示す棒グラフと対になっている。垂直バーは、中央値および四分位数範囲の±1.5倍の中央値に表示される。プロットのX軸は、目盛りをつけたマーカを示す。
【0219】
電子ノーザン解析(または、Eノーザン)は、入力として、ユーザ規定の遺伝子セットおよび1つ以上の試料セットをとり、ユーザ指定の存在/不在コール値を有する全ての試料にわたって、各試料セットの遺伝子セットにある各Affymetrix遺伝子断片に対する発現レベルの範囲を報告する。この範囲は、百分位数値を用いて報告され、上位および下位の百分位数レベルUおよびLは、ユーザにより指定される。ユーザが、Uを100と選択し、Lを0と選択すれば、解析は、選択された試料にわたった最大および最小の発現値を報告する。ユーザが、U=75およびL=25を選択すれば、上位および下位の四分位数値が報告される。中央値も同様に報告される。
【0220】
Eノーザンは、各試料セットに対して、以下のように計算される:
1.Eノーザンオプションのダイアログにおけるユーザの選択は、不在および辺縁コールを有する試料が計算においてどのように使用されるかを決定するために使用される。「計算に存在コールのみを含む」が選択されれば、存在コールを有する試料のみが百分位数および存在スコア計算において使用され、辺縁コールは不在コールと同一に処理され、不在スコアに含まれる。「計算に存在および辺縁コールを含む」が選択されれば、存在または辺縁コールのいずれかを有する試料が百分位数および存在スコア計算に含まれる。「計算に存在、辺縁、および不在コールを含む」が選択されれば、存在、辺縁、または不在コールを有する試料が、百分位数を計算するために使用され、辺縁コールは、存在スコアに含まれる。
【0221】
2.ユーザ指定の遺伝子セットにある各遺伝子断片に対して、存在および不在スコアは、所与の試料セットにある試料の存在および不在コールの数を計数し、遺伝子断片の発現データを有する試料の総数で各計数を除算することにより計算される。不明およびゼロのコールを有する試料は省略され、試料の総数に含まれない。この結果は、表の表示において分数として(例えば、17/22)およびEノーザンプロットにおいてパーセンテージとして報告される。
【0222】
3.各遺伝子断片に対して、ユーザ選択されたコール値を有する試料にわたって、百分位数および中央値が計算される。これらの試料の発現値は、最初に、昇順で並び替えられる。これは、各発現値に対してランク順序R、R=1...Nを発生し、ここで、Nは選択された試料の数である。Xをランク順序Rを有する発現値として規定する。
【0223】
4.3つの百分位数値、すなわち、50番目の百分位数(すなわち、中央値)と、2つのユーザ指定の百分位数LおよびUが計算される。値セットのP番目の百分位数は、セットにある値のPパーセントがXより小さくなるような値Xである。
【0224】
5.M=1+((P/100)(N−1))とする。
【0225】
6.Mが整数であれば、P番目の百分位数は、ランク順序Mを有する発現値XMである。
【0226】
7.Mが整数でなければ、P番目の百分位数は、値XMとXM+1との間を補間することにより得られる。FをMの端数部分とする。その場合、P番目の百分位数は、XM+F(XM+1−X)として計算される。
【0227】
8.上記計算は、P=L、P=50、およびP=Uに対して実行される。
【0228】
本発明により、効率的な探究および解析を支援するリレーショナルフォーマットにおける遺伝子発現、遺伝子注解、および試料情報の解析システムおよび方法であって、さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、DNA断片の生物学的特性の断片インデックスとを含むデータウェアハウスを提供することと、1つ以上のDNA断片の遺伝子発現に関する照会を受信することと、遺伝子発現レベルを臨床データベースおよび断片インデックスと相関させることと、前記相関の結果を表示することとを含む、システムおよび方法が提供される。
【0229】
本発明の1つの態様は、数千の試料にわたって測定された数万の遺伝子に対する遺伝子発現データを含む一連のデータベースである。本発明により、ユーザが、臨床および遺伝子データのサブセットを抽出し、解析を実行し、結果を表示するためのツールが提供される。
【0230】
本発明の1つの態様は、アプリケーションのインストールであることを認識されたい。アプリケーションのインストールに関しては、システム要求、アプリケーションのインストール、Java実行時間環境、およびインストーラのダウンロードを含むいくつかの態様がある。
【0231】
システム要求に関して、本発明の好適な要求は、少なくとも256MBのRAMと、256MBまでの仮想メモリセットを有し、WindowsNT4.0以上で動作する500MHzのPentium IIIプロセッサと、少なくとも1024×864ピクセルおよび256色(1152×864ピクセルおよび65536色を推奨)と、Netscape Navigator(バージョン4.7)またはInternet Explorer(バージョン5.0以上)と、本発明のインストールWebページに対してユーザにより提供されるURLと、作業環境アカウントと、本発明のインストールページからダウンロードされてよいJava実行時間環境(JRE)である。
【0232】
さらに、本発明を強化するために、Spotfire Pro(バージョン4.0以上)、Spotfire Array Explorer、Microsoft Excel 2000、Eisen Cluster Tool、およびGeneSpring、Partek Pro 2000を含む他の市販ソフトウェアパッケージが利用されることも好ましい。
【0233】
本発明のアプリケーションをインストールするために、ユーザは、本発明のホームページを与えるURLに自分のWebブラウザを向けることが好ましい。次いで、ユーザは、本発明のダウンロードおよびインストールページを開くダウンロードオプションを選択できる。特に、このページは、本発明のアプリケーションのインストールステップと、Java実行時間環境のインストールおよび本発明のインストーラのダウンロードステップの2つのステップを完了するための指示を与える。
【0234】
本発明の好適な実施形態において、アプリケーションは、氏名、電子メール、ファクシミリ番号、電話番号、および他の連絡情報を含むユーザプロファイル情報を利用する。
【0235】
時間の経過とともに、本発明のアプリケーションのユーザは、多数の試料セット、遺伝子セット、および解析結果を発展させることになる。本発明のアプリケーションは、ユーザ規定されたプロジェクトフォルダに体系化されたこれらのデータオブジェクトの中央集中化リポジトリとして働く作業環境を組み込むことが好ましい。ワークスペースへのアクセスは、ユーザ名、ユーザグループ提携、およびパスワードにより制御されることが好ましい。ユーザ規定のデータオブジェクトは、初期設定ではユーザ専用のものであるが、保存プロセス中に、ユーザは、データオブジェクトを他のユーザにアクセス可能にするオプションを有することが好ましい。
【0236】
本発明のアプリケーションのワークスペースウィンドウは、以下のコンポーネント、すなわち、メニューバー、クイックアクセスアイコン、メインウィンドウ、およびステータスバーを含むことが好ましい。
【0237】
メニューバーは、以下のメニューアイテム、すなわち、「ファイル」タブ、「編集」タブ、「照会」タブ、「解析」タブ、「表示」タブ、「ウィンドウ」ダブ、および「ヘルプ」タブを含むことが好ましい。
【0238】
「ファイル」タブには、選択されたデータオブジェクトを開く「開く」タブと、新しいプロジェクトフォルダを作成する「新規フォルダ」タブと、プロパティウィンドウを開く「プロパティ」タブと、アプリケーションを終了する「終了」タブとを含むいくつかのタブがあることが好ましい。
【0239】
「編集」タブには、選択されたオブジェクトを切り取る「切り取り」タブと、選択されたオブジェクトをコピーする「コピー」タブと、最後に切り取りまたはコピーされたオブジェクトを貼り付ける「貼り付け」タブと、選択されたオブジェクトを削除する「削除」タブと、選択されたオブジェクトの名前の変更を可能にする「名前変更」タブと、選択されたオブジェクトに対してアクセス許可を設定できる「許可」ウィンドウを開く「設定許可」タブとを含むいくつかのタブがあることが好ましい。
【0240】
「照会」タブには、「試料セットウィンドウ」を表示する「試料セット」タブと、「遺伝子照会」ウィンドウを表示する「遺伝子セット」タブとを含むいくつかのタブがあることが好ましい。
【0241】
「解析」タブには、「遺伝子シグネチャ解析」ウィンドウを表示する「遺伝子シグネチャ」タブと、「遺伝子シグネチャ差解析」ウィンドウを表示する「遺伝子シグネチャ差」タブと、「フォールド変化解析」ウィンドウを表示する「フォールド変化解析」タブと、「電子ノーザン」ウィンドウを表示する「Eノーザン」タブと、「発現データツール」ウィンドウを表示する「発現データツール」タブと、「対比解析」ウィンドウを表示する「対比解析」タブとを含むいくつかのタブがあることが好ましい。
【0242】
「表示」タブには、ツールバーをオンおよびオフに切り換える「ツールバー」タブと、ステータスバーをオンおよびオフに切り換える「ステータスバー」タブと、全てのユーザに対してアクセス可能なフォルダおよびデータオブジェクトを示す「全てのフォルダを表示」を含むさまざまな表示オプションをユーザが選択できるようにする「ワークスペース」タブと、ユーザのフォルダとデータオブジェクトのみを示す「マイフォルダ」と、フォルダおよび試料セットのみを示す「試料セット」と、フォルダおよび遺伝子セットのみを示す「遺伝子セット」とを含むいくつかのタブがあることが好ましい。「表示」タブは、データオブジェクトを名前で並び替える「名前による並び替えテーブル」タブと、データオブジェクトをオブジェクトタイプで並び替える「クラスによる並び替えテーブル」と、データオブジェクトを最後に修正した日付で並び替える「日付による並び替えテーブル」とを含むことが好ましい。また「表示」タブには、パスワードおよび連絡情報を更新可能な「ユーザプロファイル」ウィンドウを開く「マイプロファイル」タブがあることが好ましい。また、「表示」タブには、ツールチップディスプレイ用の設定を適用できる「ツールチップカスタマイザ」ウィンドウを開く「ツールチップカスタマイザ」タブがあることが好ましい。また、「表示」タブには、選択したフォルダのコンテンツの表示をリフレッシュする「選択したものをリフレッシュ」タブと、フォルダの全てをリフレッシュする「全てをリフレッシュ」タブがあることが好ましい。
【0243】
「ウィンドウ」タブには、作業環境ウィンドウを最前面にする「ワークスペース」タブと、開いている全てのウィンドウを見える状態にして、それらをデスクトップ上に配置する「全てを配置」タブと、作業環境ウィンドウ以外の全てを最小化する「全てを最小化」タブと、全てのウィンドウを最大化する「全てを最大化」タブと、現在開いているアプリケーションのウィンドウを列挙し、そのウィンドウを最前面にするように、アイテムの1つを選択できるようにする<ウィンドウを開く>タブとを含むいくつかのタブがあることが好ましい。
【0244】
「ヘルプ」タブには、ヘルプシステムにアクセスする「ヘルプ」タブと、新しいブラウザウィンドウが開いていなければ、それを起動し、アプリケーションのホームページに向ける「ホームページ」タブと、エラーログを表示する「エラーログ」タブと、本発明のアプリケーションのバージョンに関する情報を表示する「情報」タブとを含むいくつかのタブがあることが好ましい。
【0245】
本発明の別の好適な実施形態において、新しい「試料セット照会」ウィンドウを表示し、基準の選択と組織、細胞培養、または細胞株試料のセットに対する臨床データベースの照会に使用される「試料セット」アイコンと、新しい「遺伝子照会」ウィンドウを表示し、基準の選択と、遺伝子断片のセットに対する断片インデックスデータベースの照会に使用される「遺伝子セット」アイコンと、新しい「遺伝子シグネチャ解析」ウィンドウを表示し所与の試料セットに存在する遺伝子および不在の遺伝子の同定に使用される「遺伝子シグネチャ」アイコンと、新しい「遺伝子シグネチャ差解析」ウィンドウを表示し2つの所与の試料セットの遺伝子シグネチャ解析の比較に使用される「遺伝子シグネチャ差」アイコンと、新しい「フォールド変化解析」ウィンドウを表示し、試料セット対の間での平均発現レベルの比率の計算に使用される「フォールド変化」アイコンと、新しい「電子ノーザン解析」ウィンドウを表示し、1つ以上の試料セットの遺伝子セットにある各遺伝子断片の発現レベル範囲を図式的に表示する「電子ノーザン」アイコンと、新しい「発現データツール」ウィンドウを表示し1つ以上の試料セットの遺伝子セットにある遺伝子断片の発現データの視覚化に使用するための「発現データツール」アイコンと、新しい「対比解析」ウィンドウを表示し、発現パターンと適合する遺伝子の獲得に使用される「対比解析」アイコンとを含む、クイックアクセスアイコンが与えられることが好ましい。
【0246】
本発明のアプリケーションは、2つの領域からなるメインウィンドウを含むことが好ましく、それらは、ユーザのフォルダがトップにあり、次に公開フォルダが続き、その次に他のユーザのフォルダが続く、作業環境にあるフォルダおよびオブジェクトを示すツリーディスプレイと、現在選択されているフォルダにあるオブジェクトに関する詳細情報、例えば、名前、クラス名(すなわち、照会や解析のタイプ)、それらを作成するために使用されるチップセット、所有者、最終修正日、どのユーザがオブジェクトを読む(表示する)ことができるかを示すアクセス許可、およびどのユーザがオブジェクトに書き込みを行う(修正する)ことができるかを示すアクセス許可を含む情報を示すパネルである。
【0247】
本発明のアプリケーションの公開フォルダは、所定の遺伝子および試料セットを含み、各チップタイプに対する全ての遺伝子断片セットである「チップごとの遺伝子セット」と、各チップセットに対する全ての遺伝子断片のセットである「チップセットごとの遺伝子セット」と、チップセットによりグループ化された全ての制御遺伝子断片である「制御」と、チップセットにより体系化された代謝およびシグナリング経路の遺伝子断片である「経路」と、チップセットによりグループ化されたRNA品質制御用に使用される遺伝子断片である「QC制御」とを含むことが好ましい。「試料セット」には、正常な(すなわち、未処置の)マウスの特定の遺伝的性質を各試料セットが含む「正常なマウス」と、正常な(すなわち、未処置のいない)ラットの特定の遺伝的性質を各試料セットが含む「正常なラット」と、毒性研究グループ用の試料セットおよび蓄積されたREADS試料を含む「ToxExpress」があることが好ましい。
【0248】
本発明のアプリケーションの好適な実施形態において、データオブジェクトのプロパティ、例えば、オブジェクトの名前、オブジェクトのクラス、オブジェクト経路、オブジェクトを作成するために使用されるチップセット、オブジェクトの記述、およびオブジェクトのアクセス許可を表示することができる。
【0249】
ツールチップ情報は、マウスのカーソルをある特徴に保持することにより、アプリケーションにわたって表示されることが好ましい。ある特定に関連付けられたツールチップがあれば、それに関する追加情報がテキストボックスに表示される。ツールチップは、染色体情報を表示するさいに特に役立つ。ツールチップを表示するタイミングのカスタマイズ、言い換えれば、デスクトップ上にツールチップを表示する時間の長さの設定が可能であることが好ましい。
【0250】
本発明の好適な実施形態において、ユーザは、試料セットを作成することができる。試料セットは、遺伝子発現データを含むアプリケーション内の生物学的試料のグループである。ユーザは、データベースにある臨床データに適用される照会基準の組み合わせを特定することにより試料セットを規定することができる。照会が完了すると、本発明のアプリケーションは、基準を満たす試料リストを表示する。
【0251】
本発明のアプリケーションは、ヒト、マウス、およびラットからのさまざまな組織、細胞培養、および細胞株の試料に関する遺伝子チップ実験からのデータを含む。試料に対して、ドナーの特徴、医療履歴、実験室テストなどを含む数百の属性が維持される。いくつかの属性は、全ての試料に対して格納され、ある一定の他の属性セットは、特定の種および試料タイプに対してのみ維持される。例えば、アルコール摂取属性は、動物の組織、細胞培養、および細胞株試料に対しては格納されない。
【0252】
遺伝子チップは、3つから5つのチップタイプのセットにグループ化されることが好ましく、各チップセットは、単一の種の遺伝子に対するプローブを含む。試料セットは、単一の試料の試料のみを含むように制約される。場合によって、本発明の発現データベースは、同一の種に対して2つ以上のチップセットからのデータを含む。このため、試料セットは、さらなる制約、すなわち、試料セットにある全ての試料は、単一のチップセットからのデータベースに実験をもたなければならないという制約を受けることが好ましい。ユーザは、試料セットを制約するために使用する予定のチップセットを、照会を実行する前にチップセットメニューから選択することにより特定しなければならない。
【0253】
組織、一次細胞培養、および細胞株を含むいくつかの試料タイプがあることが好ましい。異なるタイプの試料を単一の試料セットに混合することが可能である。しかしながら、特定の試料タイプにのみ適用する属性に対して照会するために、ユーザは、そのタイプを、属性を選択する前にタイプメニューから選択することにより特定しなければならない。
【0254】
例えば、Affymetrix社は、さまざまな種からの組織における遺伝子発現を解析するための新しい遺伝子チップを定期的に発売しており、これらは3〜5チップからなるチップセットにグループ化されている。本発明のデータベースは、種ごとに複数のチップセットから得られたデータの混合を含むことが可能である。セットに現れる遺伝子断片のほとんどが、他のセットに相補物を有するが、各断片をプローブするために使用されるオリゴは、2つのセット間で異なる。言い換えれば、遺伝子セットは、異なるチップセットからの遺伝子断片の混合を含まなくてよく、試料照会は、チップセットと種により制限され、試料セットにある全ての試料は、照会が実行されたときに選択されたチップセットのチップからの実験をもたなければならず、試料の照会を適切にするために使用されるチップセットは、試料セットの属性として保存されることになり、解析は、解析用の入力である試料セットに関連付けられたチップセットにより制限され、複数の試料セットが入力されると、試料セットは全ての同一のチップセット属性をもたなければならず、解析により発生した遺伝子セットは、このチップセットに対して遺伝子断片のみを含むようにフィルタリングされることになる。
【0255】
試料セット照会ウィンドウにアクセスするために、照会メニューから試料セットを選択し、ワークスペースウィンドウにある試料セットアイコンをクリックする。試料セット照会ウィンドウがデスクトップ上に開く。
【0256】
本発明の好適な実施形態において、アプリケーションは、試料セット照会を与える。一般的に、試料セット照会により、ユーザは、特定の特徴を有する試料のセットを選択することができる。例えば、肝臓の線維形成を表す組織の試料セットを選択することができる。検索パラメータを特定するさいに、一連のステップが伴う。これらは、検索するためのデータベースの適切なサブセットを選択することを含む。この場合、チップセットは、「H.sapiens(HG_U95)」として特定され、試料タイプは、「組織」として特定され、照会のベースとなる第1の属性を選択する。この場合、組織は「肝臓」であり、使用のベースとなる第2の属性を選択する。この場合、試料の病理/形態は、「線維形成」であり、実験室テスト属性を選択し、検索オプションを選択し、「並び替え」オプションを選択し、検索を実行する。
【0257】
結果は、多数の異なるフォーマットで表示可能であることを認識されたい。本発明の1つの好適なフォーマットにおいて、試料セット照会の結果は、試料セットウィンドウの結果パネルに自動的に表示されることになる。このウィンドウは、以下の情報、すなわち、検索で使用されたパラメータを示す結果のステートメントと、照会で獲得した試料の総数および現在選択されている数を示すステートメントと、照会から戻された試料のテーブルとを提示する。
【0258】
さらに、好適な実施形態において、試料詳細オプションが表示メニューにおいて選択されれば、詳細パネルは、ウィンドウの右側に表示されることになる。このパネルは、属性、実験、試料、およびドナーを含む選択された試料に関する詳細な情報を表示するタブ付きビューを含む。
【0259】
本発明の好適な実施形態において、ユーザは、試料セットが作成された時と方法に関する情報を格納および表示することができる。このウィンドウは、以下のもの、すなわち、試料セットの作成日、試料照会に使用されたチップセット、照会に使用されたパラメータ、および任意の関連する検索基準(例えば、並び替え順序)を含む。この履歴は、試料セットとともに保存されることが好ましい。
【0260】
別の好適な実施形態において、属性ベースの試料照会の代わりとして、既知のゲノム解析IDのリストから試料セットを作成するためのゲノム解析ID照会メカニズムが提供される。
【0261】
本発明の別の実施形態は、属性による取り込みを与える。属性による取り込みオプションにより、特定の属性に対して値のリストに基づいて試料を取り込むことができる。これらの属性は、ユーザ作成のテキストファイルに事前に保存されていなければならない。取り込みの結果は、特定の属性の値がファイルにある任意の値と一致する全ての試料のリストとなる。
【0262】
試料セットは、後で再考するために、または解析とともに使用するために保存可能であることが好ましい。保存プロセス中、試料セットには名前が与えられ、ファイルへのアクセス権を有するものを制限するための許可を設定できる。
【0263】
別の好適な実施形態において、照会の検索パラメータとともに任意のデータを保存することなく、照会の検索パラメータを保存することが可能である。このようにして、後で使用するために照会にアクセスすることができる。ワークスペースに保存された試料セットおよび遺伝子とは異なり、照会テンプレートは、ローカルディスクに保存される。保存された試料セットは、さらなる解析を行うために再度開くことができる。保存されると、照会を満たすより多くの試料がデータベースに追加されても、結果のコンテンツは変更しない。試料セットを現行のものにするためには、照会を再度実行することが必要である。
【0264】
「試料セット」は、多数のメニューオプションを与えることが好ましい。これらは、以下のものを含む。すなわち、新しい「試料セット」ウィンドウを開く「ファイル」、「新しい試料セットウィンドウ」タブと、保存した試料セットを開くための「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを開く」タブと、保存した照会テンプレートを開くための「照会テンプレートを開く」ウィンドウを開く「ファイル」、「照会テンプレートを開く」タブと、試料を保存できる「試料セットを保存」ウィンドウを開く「ファイル」、「試料セットを保存」タブと、照会テンプレートを保存できる「照会テンプレートを保存」ウィンドウを開く「ファイル」、「照会テンプレートを保存」タブと、選択した試料を固有のセットとして保存できる「試料セットを保存」ウィンドウを開く「ファイル」、「選択した試料を保存」タブと、前に保存したテキストファイルからゲノム解析IDのリストを取り込むために「開く」ウィンドウを開く「ファイル」、「試料IDを取り込み」タブと、「属性により取り込み」ウィンドウを開く「ファイル」、「属性により取り込み」タブと、ゲノム解析IDを保存するためにファイルを作成できる「保存」ウィンドウを開く「ファイル」、「試料IDを出力保存」タブと、照会結果を出力保存するためのオプションを与える、「ファイル」、「出力保存」タブと、結果を見るために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、前に保存した試料セットを選択でき、現行の試料セットにはすでにない選択した試料セットの試料をそれに追加する「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットと結合」タブと、前に保存した試料セットを選択でき、現行の試料セットにあるこの新しいセット中の試料の任意のものを取り除き、その結果は2つの試料セット間のセット差である「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを除外」タブと、前に保存した試料セットを選択でき、両方の遺伝子セットに共通する試料のみを表示する「試料セットを選択」ウィンドウを開く「ファイル」、「試料セットを交差」タブと、試料セットウィンドウを閉じる「ファイル」、「閉じる」タブである。
【0265】
また、照会結果にある試料の全てを選択する「編集」、「全てを選択」タブと、選択した試料を削除する「編集」、「選択した試料を削除」タブと、選択した試料をクリップボードにコピーする「編集」、「選択した試料をコピー」タブと、コピーした試料をクリップボードから貼り付ける「編集」、「試料を貼り付け」タブと、チェックされれば結果パネルの詳細を表示する「表示」、「試料の詳細」タブと、ユーザが結果のディスプレイ列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、チェックされれば初期設定ディスプレイ列で検索を規定したパラメータを含める「表示」、「結果に条件属性を自動的に含む」タブと、Affymetrix正規化がサポートされているか否かを示す列を追加する「Affy正規化」と、Gene Logic正規化が支援されているか否かを示す列を追加する「Gene Logic正規化」と、標準曲線正規化が支援されているか否かを示す列を追加する「標準曲線正規化」とを含める「表示」、「正規化サポート列を追加」タブとが含まれることが好ましい。
【0266】
正規化の目的は、異なる遺伝子チップ実験から報告された発現値の比較を可能にすることであるため、2つの異なる試料が遺伝子断片に対して同一の発現値を生じれば、断片に対するmRNA転写の濃度が2つの試料で同一であるという適度な信頼度が存在する。チップの製造プロセスにおける変化、さらには他の要因が原因となり、正規化されていない強度値は、同一のRNA濃度をもつ断片に対してチップ実験ごとに大幅に変動する。この変動を調節するために、研究者等に利用可能な方法は多数ある。本発明のアプリケーションは、これらの方法の3つ、すなわち、Affymetrix正規化、Gene Logic正規化、および標準曲線正規化を支援することが好ましい。
【0267】
Affymetrix正規化は、Affymetrix社の遺伝子チップ解析ソフトウェア内で供給される方法である。このソフトウェアにより生成される平均差強度値(または、「AveDiff」)は、この正規化プロセスの結果である。正規化された値は、正規化されていない値をスケールファクタで乗算することにより計算される。スケールファクタは、実験の全ての値に対して同じであり、以下のように計算される:
1.実験において全ての正規化されていないAveDiff値から、その値の最上位2%および最下位2%を切り捨てる。すなわち、実験で10,000発現値を生じれば、値を整列させて、最下位にある200の値と最上位にある200の値を切り捨てる。
【0268】
2.残りの値の平均値に等しい「調整平均値」を計算する。
【0269】
3.スケールファクタSF=100/(調整平均値)を計算する。
【0270】
Gene Logic正規化アルゴリズムは、単一のチップ実験からの発現強度値が、小さいまたは大きい発現値を考慮するか否かに応じて、異なる分布を有するという観察に基づいたものである。ほとんどがノイズであると考えられる小さな値は、平均値0でほぼ正規分布されるのに対して、大きな値は、対数正規分布にほぼ従い、すなわち、それらの対数は、ゼロでない平均値で正規分布される。Affymetrix正規化が、実験において同じスケールファクタを全ての発現値に適用するのに対して、Gene Logic正規化は、「非エクスプレッサ」(小さな値)および「エクスプレッサ」(大きな値)に対して別のスケールファクタを計算する。アルゴリズムへの入力は、Affymetrix正規化されたAveDiff値であり、100に等しい調整平均値を設定するためにすでにスケーリングされている。アルゴリズムは、負の値の標準偏差SDノイズを計算し、これは非エクスプレッサからのものと考えられる。次いで、全ての負の値と、2.0SDノイズより小さい全ての正の値を、1/SDノイズに比例するスケールファクタで乗算する。2.0SDより大きい値は、エクスプレッサからのものと考えられる。これらの値に対して、対数の標準偏差SD対数(信号)が計算される。次いで、対数は、1/SD対数(信号)に比例するスケールファクタにより乗算され、累乗される。ついで、その結果得られた値は、別のスケールファクタにより乗算され、2.0SDノイズの両側にあるスケーリングされていない値から正規化値に不連続点がないように選択される。標準曲線正規化は、チップ実験からのオリジナルの発現強度値を、試料に発現した各遺伝子に対する実際のmRNA濃度に関係付けることを試みる。これを行うために、特定の遺伝子断片の既知の濃度は、試料RNA混合物に「スパイクイン」された後、それをチップにハイブリダイゼーションしなければならない。(スパイクインに対してバクテリア遺伝子が使用されるため、試料ドナーからは追加のRNAの寄与がないことになる。)チップ実験は、スパイクイン遺伝子断片に対して強度測定値を生じる。理想的に、強度は、濃度とともに線形に増大するため、強度が濃度に対してプロットされれば、データ点を結ぶ基点から直線を引き、その傾斜を用いて、チップ上の他の遺伝子断片に対するmRNA濃度を推量することが可能でなければならない。実際、この関係をゆがめるノイズおよび非線形の影響があるが、それでも、データ点との最良の適合である基点からの直線を引くことができる。この直線は、「標準曲線」として知られている。
【0271】
この正規化の手順は以下のとおりである:
1.アイデンティティリンクおよびガンマエラーを用いて、強度対濃度の曲線に一般化された線形モデルが適合される。傾斜が決定され、傾斜で除算することにより未加工の強度値に適用されて濃度を得る。存在するとコールされたデータのみが適合に使用される。
【0272】
2.スパイクインのこれらの新しい濃度値がロジスティック回帰に入力されて(「A」、「M」、「U」、または「N」は不在コールまたは0とし、「P」は存在コールまたは1とする)、最小感度を決定する。0.7のロジスティック予測に対応する濃度は、感度カットオフとして使用される。ロジスティック回帰がなければ、感度値は、不在コールの最大濃度と存在コールの最低濃度との間の差の0.7倍で補間により推定され、不在コールの最大濃度に追加される。
【0273】
3.0より下の濃度値は、感度カットオフの2分の1として報告される。
【0274】
4.0と感度値との間の濃度値は、感度カットオフと未加工値の平均として報告される。
【0275】
濃度値(ピコモル単位)は、強度ではなく発現値として報告される。
【0276】
標準曲線正規化は、このプロダクトバージョンに対して以下の意味を有する。使用するのに利用可能なチップセットオプションは、H.sapiens(Hu 42K)、H.sapiens(HG_U95)、M.musculus(Mu11K)、M.musculus(Mu19K)、M.musculus MG_U74)、およびR.norvegicus(RG_U34)を含む、アプリケーションがアクセス権を有するデータベースのコンテンツに応じて異なる。
【0277】
本発明のアプリケーションの別の好適な態様は、遺伝子セットの作成である。遺伝子セットは、1つ以上の遺伝子チップ上にプローブセットが与えられたDNA断片のリストである。ユーザは、遺伝子データベースに適用される照会基準の組み合わせを指定することにより遺伝子セットを規定する。照会が完了すると、本発明は、基準を満たす遺伝子リストを表示し、ユーザは、このリストから特定の遺伝子を選択でき、または、解析とともに使用するための遺伝子セットを保存することができる。
【0278】
Affymetrix断片は、本発明のアプリケーションが遺伝子発現情報を提供する基本ユニットである。本発明は、個々のプローブに対する未加工データへのアクセス権を与えないことが好ましい。遺伝子セットは、遺伝子インデックスの検索を実行することにより作成され、その結果は、後で使用するために保存することができる。遺伝子インデックスは、遺伝子断片注解のデータベースである。遺伝子断片注解は、Affymetrixプローブセットを、UniGeneクラスタにリンクし、可能であれば、既知の遺伝子(NCBIのLocusLinksデータベースにある)、さらには、蛋白質、酵素、経路、機能、および他のデータベースにリンクすることにより獲得される。
【0279】
Affymetrixプローブセットは、種特異的なものである遺伝子チップ上に張り付けられている(制御プローブセットを除く)。例えば、ヒト42Kチップセットは、6,800ヒト全長mRNAおよび35KヒトESTに基づいた42,000プローブセットを含む。
【0280】
本発明の好適な態様は、遺伝子セットを照会する能力である。例えば、データベースは、脂肪酸代謝経路に関係する遺伝子断片を探すように検索できる。
【0281】
遺伝子セットを検索するさいの第1のステップは、遺伝子インデックスの適切なサブセットを選択することである。遺伝子を照会することにより、ユーザは、特定の種(すなわち、ヒト、ラット、またはマウス)の遺伝子断片に対してデータベースを検索できるようになる。次のステップは、経路を選択することである。この例では、脂肪酸の代謝経路が検索パラメータとして使用される。また、本発明により、検索オプションを選択することができ、これらの検索オプションは、以下の全てのもの、すなわち、このオプションが選択されると、検索は、全ての条件、例えば、経路「脂肪酸代謝」および断片タイプ「_g(共通グループ)」を満たす条件のみに対して実行されることになるというオプションと、以下の任意のもの、すなわち、このオプションが選択されると、検索は、選択された検索属性の任意のものに対して実行され、見つけられたものに対して結果が戻されることになるというオプションを含む。例えば、経路「脂肪酸代謝」および断片タイプ「_g(共通グループ)」のような別のパラメータの両方からの結果が戻される。さらに、大文字と小文字の区別というオプションを含み、このオプションは、テキスト値がタイプされている属性に当てはまる。このような場合、結果の大文字使用は、小文字または大文字のいずれかである入力されるものと完全に一致することになる。
【0282】
本発明のこの好適な実施形態において、ユーザは、結果の並び替え順序を指定できる。
【0283】
遺伝子セット照会の結果は、「遺伝子照会」ウィンドウの「結果」パネルに自動的に表示されることが好ましい。このウィンドウは、以下の情報、すなわち、実行される結果のタイプを示す結果に関するステートメントと、照会で獲得した遺伝子の総数および現在選択されている数を示すステートメントと、照会から戻された遺伝子のテーブルとを提示することが好ましい。
【0284】
好ましくは、「遺伝子詳細」オプションが「表示」メニューにおいて選択されれば、詳細パネルが表示されることになる。このパネルは、属性および既知の遺伝子を含む、選択された結果に関する詳細な情報を表示するタブ付きビューを含む。
【0285】
好ましくは、本発明のアプリケーションは、遺伝子チップと、発現差のある配列の制限酵素解析(READS)を与えるゲルとの両方で実行された試料のデータを含む。READSゲルからのデータは、別のデータベースに格納されることが好ましい。
【0286】
好ましくは、遺伝子セットを作成する別の方法は、ヌクレオチドまたは蛋白質の配列から始まり、BLASTを用いてその配列と一致するAffymetrix断片を検索する。複数のBLASTの結果テーブルにおいて一致する遺伝子断片を区別するために、断片と一致した配列に対するタグを示す追加の列「照会配列」が表示されることが好ましい。2つ以上の照会配列が、同じAffymetrix断片の典型配列と一致すれば、最も小さなp値をもつものが表示されることになる。BLASTから遺伝子セットが作成されると、任意の他の結果のように操作および保存することができる。
【0287】
本発明のアプリケーションの別の好適な態様は、属性により取り込む能力である。「属性により取り込み」により、特定の属性に対する値のリストに基づいて、Affymetrix断片を取り込むことができる。これらの属性は、ユーザー作成のテキストファイルに事前に保存されなければならない。取り込みの結果は、特定の属性に対する値がファイルにある値の1つに一致する全てのAffymetrix断片のリストになる。GenBankID取り込みは、Exemplar Seqの値、すなわち受入属性に従って取り込むことができる。
【0288】
遺伝子セットは、後に使用するために、または解析とともに使用するために保存できることが好ましい。保存された遺伝子セットは、さらなる解析を行うために再度開くことができる。保存されると、照会を満たすより多くの遺伝子がデータベースに追加されても、結果のコンテンツは変更しない。試料セットを現行のものにするためには、照会を再度実行することが必要である。ユーザがオリジナルの結果の維持を望めば、別の名前で新しい結果を保存する。
【0289】
遺伝子セット照会とともに使用するために利用可能なさまざまなメニューオプションがあることを認識されたい。これらのメニューオプションは以下のものを含む。新しい「遺伝子セット」ウィンドウを開く「ファイル」、「新しい遺伝子セットウィンドウ」タブと、前に保存した遺伝子セットを開くことができる「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを開く」タブと、保存した照会テンプレートを開くことができる「照会テンプレートを開く」ウィンドウを開く「ファイル」、「照会テンプレートを開く」タブと、遺伝子を保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、照会テンプレートを保存できる「照会テンプレートを保存」ウィンドウを開く「ファイル」、「照会テンプレートを保存」タブと、選択した遺伝子を固有のセットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択した遺伝子を保存」タブと、取り込む対象の前に保存したAffymetrix断片名IDを見つけるためにブラウズできる「開く」ウィンドウを開く「ファイル」、「遺伝子IDを取り込み」タブと、「属性により取り込み」ウィンドウを開く「ファイル」、「属性により取り込み」タブと、遺伝子IDを保存したファイルを作成でき、他の第3者のアプリケーションとともにそれを使用できる「保存」ウィンドウを開く「ファイル」、「遺伝子IDを出力保存」タブと、照会結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、前に保存した遺伝子セットを選択でき、現行の試料セットにはすでにない選択したセットの遺伝子をそれに追加する「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットと結合」タブと、前に保存した遺伝子セットを選択でき、現行の遺伝子セットにあるこの新しいセットの遺伝子の任意のものを取り除き、その結果が2つの遺伝子セット間のセット差である「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを除外」タブと、前に保存した遺伝子セットを選択でき、両方の遺伝子セットに共通する遺伝子のみを表示する「遺伝子セットを選択」ウィンドウを開く「ファイル」、「遺伝子セットを交差」タブと、遺伝子セットウィンドウを閉じる「ファイル」、「閉じる」タブである。
【0290】
また、遺伝子セット照会は、遺伝子セットにある結果の全てを選択する「編集」、「全てを選択」タブと、遺伝子セットからの選択した遺伝子試料を取り除く「編集」、「選択した試料を削除」タブと、選択した遺伝子をクリップボードにコピーする「編集」、「選択した遺伝子をコピー」タブと、コピーした遺伝子をクリップボードから貼り付ける「編集」、「遺伝子を貼り付け」タブとを含むことが好ましい。
【0291】
また、遺伝子セット照会は、チェックされれば、結果パネルの詳細を表示する「表示」、「遺伝子の詳細」タブと、結果を表示するための列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、チェックされれば表示される初期設定列で検索を規定したパラメータを含める「表示」、「結果に条件属性を自動的に含む」タブと、追加のBLAST情報(配列アライメント)を表示できる初期設定WebブラウザにBLASTの結果を出力保存する「表示」、「Blast出力」タブと、「表示」、「READSリンク列を追加」タブとを含むことが好ましい。
【0292】
また、遺伝子セット照会は、遺伝子チップを選択する能力を含むことが好ましい。使用するのに利用可能なチップセットオプションは、H.sapiens(Hu 42K)、H.sapiens(HG_U95)、M.musculus(Mu11K)、M.musculus(Mu19K)、M.musculus(MG_U74)、およびR.norvegicus(RG_U34)を含む、アプリケーションがアクセス権を有するデータベースのコンテンツに応じて異なる。
【0293】
本発明のアプリケーションの別の好適な実施形態は、試料セットのチップセットに現れる遺伝子断片の全てから2つの遺伝子断片セット、すなわち、試料セット内に一貫して発現するものと、一貫して発現しないものとを取り出す試料セットの遺伝子シグネチャ解析である。
【0294】
遺伝子シグネチャ解析を実行するために、2つの閾値パーセンテージ、1つは「存在」セットと、もう1つは「不在」セットとして発現の「一貫性」を定量化することが必要である。発現の一貫性は、試料セットにおいて、遺伝子(Affymetrix断片)が発現する頻度または発現しない頻度の大きさである。例えば、試料セットに5つの試料があり、ユーザが存在および不在の閾値パーセンテージをそれぞれ80%および80%に設定すれば、遺伝子シグネチャ解析は、5つの試料のうち少なくとも4つに存在する1つの遺伝子セットと、5つの試料のうち少なくとも4つに不在の別のセットを計算する。
【0295】
遺伝子シグネチャ解析を計算するために、特定の試料の「辺縁」コールを有するAffymetrix断片は、「不在」断片と同じものとして扱われる。「不明」コールを有する断片は、遺伝子シグネチャ計算において無視される。特定のAffymetrix断片に対して、p、m、およびaが、それぞれ、断片が存在、辺縁、および不在の場合の試料の数であれば、分数p/(p+m+a)と(m+a)/(p+m+a)が計算され、これらの分数は、断片は、遺伝子シグネチャセットのいずれかに属するかを決定するために、存在および不在の閾値パーセンテージに対して比較される。
【0296】
例えば、試料セットS={s1,s2,s3,s4}および遺伝子{g1,g2,g3,g4,g5,g6,g7,g8,g9}とする以下の表に示す存在/不在/辺縁/不明コール値が本発明のデータウェアハウスに含まれるとする。(実際には、数千の遺伝子のデータがあるが、説明を目的として9つの遺伝子しか示していない。)各遺伝子の列の最下部には、試料セットSでの各遺伝子の存在、不在、辺縁コールの数から計算されたパーセンテージが示されている。存在および不在の閾値パーセンテージの両方が75%に設定されていると仮定する。その場合、この試料セットに対して、遺伝子シグネチャ演算は、遺伝子{g1,g2,g3,g4}を含む「存在遺伝子セット」と、{g5,g6,g7,g9}を含む「不在遺伝子セット」を戻す。
【0297】
また、遺伝子シグネチャ解析は、存在および不在セットにある各遺伝子の平均値、中央値および標準偏差を計算する。ユーザは、遺伝子シグネチャ結果に表示されるこれらの値の任意または全てを選択することができる。
【0298】
遺伝子シグネチャの曲線は、以下のように計算される:
1.試料セットにある各試料の存在遺伝子総数を計算する。
【0299】
2.試料を存在遺伝子総数により昇順に並べる。
【0300】
3.第1の試料にある存在遺伝子のセットに対してPを初期化する。曲線にある第1の点の高さはPの遺伝子の数である。
【0301】
4.Pを第2の試料にある存在遺伝子のセットと交差させ、試料セットにある各遺伝子に対して繰り返す。曲線にある連続点の高さは、各交差ステップ後のPにある遺伝子の数である。各点のX軸成分は、格納された試料セットにある対応する試料のインデックスである。
【0302】
5.不在遺伝子に対してステップ1〜4を繰り返し、別のグラフに交差セット総数をプロットする。
【0303】
本発明の好適な態様において、遺伝子シグネチャ曲線は、指定されたパーセンテージ閾値を考慮しない。遺伝子シグネチャ曲線は、遺伝子シグネチャの堅牢テストとして働く。遺伝子シグネチャ曲線の目的は、遺伝子シグネチャ動作が安定性に到達できる程度に十分な試料を有するということ、すなわち、交差後の総数が著しく変化しないということを示すことである。遺伝子シグネチャの存在および不在遺伝子セットを生成するために使用される方法は、遺伝子シグネチャ曲線を計算するために使用されるアルゴリズムと同一のものではない。遺伝子シグネチャの計算は、存在/不在遺伝子セットを獲得するために、閾値パーセンテージを利用するが、曲線の計算は利用しない。さらに、U(不明)およびN(発現データなし―すなわち、紛失チップとの試料)コールは、遺伝子シグネチャと遺伝子シグネチャ曲線との間との相違を生成するさいに重要な役割を担う。
【0304】
計算アルゴリズムが、発現データが存在する試料のみを含むことにより、部分的チップセットおよび紛失データを修正することに留意されたい。したがって、全ての遺伝子は、それらの各々が試料の一部分にしか存在しないとコールされても、存在遺伝子セットに含まれる。
【0305】
本発明において、ゼロに等しい「遺伝子数」の値はプロットされない。この理由は、x軸上に示される最大数が、試料セットにある試料数と異なることがあり、存在および不在の遺伝子シグネチャ曲線との間でも異なることがあるためである。アルゴリズムは、最初に、試料を存在総数により昇順に並べた後、Pを第1の試料にある存在遺伝子のセットに対して初期化する。曲線にある第1のバーの高さはPにある遺伝子の数であり、Pは第2の試料にある存在遺伝子のセットと交差し、Pに残る遺伝子の数は曲線にある第2のバーの高さとして示される。このプロセスは、試料セットにある各試料に対して繰り返される。U(不明)およびN(試料のデータなし)コールは、これらの「不規則性」を生成するさいの重要な役割を担う。この例は、同じデータ上にこれらの2つのアルゴリズムによりどのように外見上の不規則性が生成されるかを示す。したがって、ヒストグラムチャートにある最後の要素が、遺伝子セットのサイズと同じでないを獲得するとともに、x軸が試料セットのサイズに等しくない値を獲得することができる。
【0306】
事前に作成された「乳癌」試料を用いて、遺伝子シグネチャを計算する一例として、存在および不在の閾値が75%に設定された場合の遺伝子シグネチャを計算することができる。乳癌試料セットは、H.Sapiens(HG_95U)チップセット、臓器:胸部、形態:浸潤性腺菅癌の検索パラメータを用いて得られたものである。
【0307】
遺伝子シグネチャ解析の結果を表示できるさまざまな方法がある。解析が完了した後、結果は、遺伝子シグネチャ解析ウィンドウの要約タブに表示されることが好ましい。このウィンドウは、以下の情報、すなわち、存在遺伝子セットにある遺伝子断片数を表示するパネルと、不在遺伝子セットにある遺伝子断片数を表示するパネルと、試料セット名および試料セットが含む試料数に関する情報を提示する。
【0308】
好適な初期設定要約列は、以下のものを含む。すなわち、ゲノム解析ID、実験、全存在コール、全不在コール、全不明コール、存在コール(存在遺伝子セット)、不明コール(存在遺伝子セット)、不在コール(不在遺伝子セット)、および不明コール(不在遺伝子セット)である。
【0309】
遺伝子シグネチャ履歴は、表示されることが好ましい。これは、解析を計算するために使用される閾値と、解析が実行された日時と、解析のために使用される実行時間エンジン(RTE)のバージョンに関する情報を提示する。
【0310】
「表示」メニューで「詳細パネルを示す」オプションが選択されれば、詳細パネルが表示されることが好ましい。このパネルは、試料の詳細、属性、実験、試料、およびドナーを含む、選択された試料に関する詳細な情報を表示するビューを含む。
【0311】
本発明の好適な態様において、遺伝子シグネチャ曲線は、「断片数対試料数」および「断片数対閾値パーセンテージ」を含むいくつかのオプションを与える。
【0312】
「断片数対試料数」オプションは、一対の遺伝子シグネチャ曲線、すなわち、存在遺伝子セットのものと、不在遺伝子セットのものとを表示する。この表示は、試料セットが有効な遺伝子シグネッチャを生成できる程度に大きいものかという視覚的な感覚をユーザに与える目的のものである。遺伝子シグネチャ曲線の試料数は、試料セットの試料数と異なる場合がある。
【0313】
「断片数対閾値パーセンテージ」オプションは、閾値パーセンテージの関数として、存在および不在遺伝子の総数を表示する。例えば、84の試料のうち76に有資格断片が存在または不在であることを意味する90%に両方の閾値が設定されれば、存在および不在セットにある断片数は、それぞれ約10,000および30,000になる。閾値が75%(より厳密)に設定されれば、セットはそれぞれ約13,000および39,000になる。
【0314】
遺伝子断片結果に関する詳細な情報は、「遺伝子セット結果」タブに表示されることが好ましい。これらは、存在遺伝子セット結果と、不在遺伝子セット結果と、選択されたタブに応じて、存在または不在遺伝子セットの遺伝指数と、使用された正規化のタイプに関するステートメントと、存在遺伝子セットまたは不在遺伝子セットのビューの両方にある遺伝子結果のテーブルとを含む。
【0315】
本発明は、選択されれば、属性および既知の遺伝子を含むAffy断片の詳細と、属性、実験、試料、およびドナーを含む試料の詳細と、配列クラスタと、プロットとを含む選択された遺伝子断片に関する詳細な情報を表示する「詳細を示す」オプションを含むことが好ましい。
【0316】
「配列クラスタ」タブは、試料断片が分類されたUniGeneクラスタの脈絡で遺伝子断片のビューを提示することが好ましい。メイン結果ウィンドウの行を選択した後、このタブを選択することにより、対応する試料または試料セットにわたって、同じUniGeneクラスタにおいて全ての遺伝子断片の発現値を有するテーブルを表示することが可能である。
【0317】
本発明のプロットの態様は、選択されたAffymetrix断片に対する発現値の視覚的表現を表示することが好ましい。プロットは、個々の試料に対する発現値に対応する線または円(ユーザの好みによる)を示し、ボックスの端部がユーザ指定の百分位数値を表す半透明ボックスプロットと重ね合わされている。
【0318】
また、プロットは、1つの入力試料セットごとに1行ずつ、遺伝子に対して複数の行を表示する。これらは、遺伝子が存在するとコールされている各試料セットにある試料のパーセンテージを示す棒グラフと対になっている。垂直バーは、中央値、四分位数範囲の−1.5倍の下位四分位数、および四分位数範囲の+1.5倍の上位四分位数で表示される。正規分布を仮定すると、極限バーは、中央地から約3標準偏差離れた位置にある。それらの位置は、ユーザ指定の百分位数から独立したものである。プロットのX軸は、発現強度を示す目盛りをつけたマーカを示す。
【0319】
本発明の好適な態様は、経路を表示する能力である。「経路ビューア」タブは、発現値が既知の代謝または酵素経路上にある経路ディスプレイを提示する。
【0320】
本発明の別の好適な態様は、染色体マップを表示する能力である。「染色体ビューア」タブは、染色体マップ上の発現値を与えるディスプレイを提示する。染色体ダイヤグラムは、マーカの数および表示されるマッチ数に関するステートメント、すなわち、染色体のAffymetrix断片の総数および現行の遺伝子セットからの数に関するステートメントと、この例では「平均」値が選択された、ディスプレイオプションに関するステートメントと、他の結果テーブルのようにテーブルを操作できる、結果データを含むテーブルと、発現値を表示する縦軸とともに、染色体画像を表示するパネルとを与えることが好ましい。
【0321】
この好適な実施形態において、「中央値」オプションは、マイナスまたはプラスストランドにマッピングされた試料セットに対する中央発現値を表示し、「平均値」オプションは、マイナスまたはプラスストランドにマッピングされた試料セットに対する平均発現値を表示し、「未加工発現値」オプションは、全ての試料に対する発現値を表示し、「コール値」オプションは、全ての試料に対する「コール値」を表示する。
【0322】
固有の遺伝子セットとして結果の任意または全てを保存可能であることが好ましい。この遺伝子セットは、他の解析とともに使用できる。
【0323】
本発明のアプリケーションの別の好適な実施形態において、「遺伝子マスクを設定」オプションにより、遺伝子セットをフィルタリングすることができる。遺伝子マスクにより、共有遺伝子を明らかにするために遺伝子セットを交差させるか、または遺伝子セット間の差を表示するかのいずれかが可能になる。
【0324】
解析から得られた結果は、Eisen Cluster Tool、GeneSpring、およびPartek Pro 2000を含むさまざまな第3者のアプリケーションに出力保存できることが好ましい。
【0325】
遺伝子シグネチャ解析とともに使用するのに利用可能なさまざまなメニューオプションがあることが好ましい。これらのメニューオプションは以下のものを含む。新しい遺伝子シグネチャ解析ウィンドウを開く「ファイル」、「新しく開く」オプションと、保存された遺伝子シグネチャを開くことができる「遺伝子シグネチャを選択する」ウィンドウを開く「ファイル」、「開くウィンドウ」と、遺伝子シグネチャを保存できる「遺伝子シグネチャを保存する」ウィンドウを開く「ファイル」、「遺伝子シグネチャを保存」ウィンドウと、遺伝子セットとして結果を保存できる「ファイル」、「遺伝子セットを保存」オプションと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」オプションと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」オプションと、結果を表示するために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」オプションと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」オプションと、「遺伝子シグネチャ解析」ウィンドウを閉じる「ファイル」、「閉じる」オプションとを含む。
【0326】
また、遺伝子シグネチャ解析は、以下のものを含むことが好ましい。すなわち、「計算」タブにアクセスする「表示」、「計算フォーム」オプションと、「要約」タブにアクセスする「表示」、「要約」オプションと、遺伝子シグネチャ曲線タブにアクセスする「表示」、「GS曲線」オプションと、「遺伝子セット結果」タブにアクセスする「表示」、「遺伝子セット結果」オプションと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」オプションと、「染色体ビューア」タブにアクセスする「表示」、「染色体ビューア」オプションと、チェックされれば「要約」または「結果」パネルに詳細を表示する「表示」、「詳細パネルを示す」オプションと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」オプションと、遺伝子セットに対してマスクを追加または除去するために「遺伝子セットマスクを追加/除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加/除去」オプションと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」オプションと、選択されていない遺伝子を結果から除去する「表示」、「選択されていない遺伝子を除去」オプションと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットへリセット」オプションと、結果を並び替える「表示」、「並び替え」オプションと、表示オプションを選択するための遺伝子シグネチャ表示オプションを開く「表示」、「オプション」オプションと、プロットに対して表示オプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」オプションとを含む。
【0327】
本発明の別の好適な実施形態において、アプリケーションは、遺伝子シグネチャ差解析を実行できる。遺伝子シグネチャ差解析は、2つの試料セットの結果を比較する。これらの2つの試料セットを用いて、解析は、2つの新しい遺伝子断片セットを計算する。
【0328】
遺伝子シグネチャ差解析は、2つの試料セット(事前に計算および保存されたものでなければならない)を比較する。解析は、2つの新しい遺伝子断片セットを導き出す。すなわち、第1の試料セットの存在遺伝子セットと第2の不在遺伝子セットとの両方にあるものと、第1の試料セットの不在遺伝子セットと第2の存在遺伝子セットとの両方にあるものである。
【0329】
2つの入力セット名、使用される試料のサイズ、および遺伝子シグネチャを計算するために使用される閾値と、2つの存在セット、すなわち、<遺伝子セット1>にのみ存在、<遺伝子セット2>にのみ存在にある遺伝子数を要約したテーブルと、解析の日時および使用される実行時間エンジンのバージョンを記録する履歴パネルとを含むシグネッチャ差解析の結果の提示部分がいくつかあることが好ましい。
【0330】
ユーザが選択したデータに対する遺伝子断片セットに関する詳細な情報は、「遺伝子セット結果」タブに表示されることが好ましい。この表示に提示された情報は、以下のものを含むことが好ましい。すなわち、<第1の遺伝子セット>にのみ存在する遺伝子セットを表示するタブと、<第2の遺伝子セット>にのみ存在する遺伝子セットを表示するタブと、両方の(遺伝子セット)に存在する遺伝子セットを表示するタブと、両方の(遺伝子セット)に不在の遺伝子セットを表示するタブと、結果の行数と使用された正規化のタイプのステートメントと、選択されたタブ表示にある遺伝子のテーブルである。
【0331】
「表示」メニューにおいて「詳細なパネルを示す」オプションが選択されれば、詳細なパネルが表示されることが好ましい。このパネルは、試料の詳細、属性、実験、試料、およびドナーと、配列クラスタと、プロットとを含む選択された試料に関する詳細な情報を表示するビューを含む。
【0332】
表示オプションを選択することにより、「遺伝子セット結果」タブのデータコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば有資格Affymetrix断片のユーザ指定属性が表示される「Affy断片を示す」と、選択されれば各Affymetrix断片に対する発現値統計値も表示される「(試料セット当たりの)全体値」と、選択されれば結果テーブルが、試料セットにある全ての試料の断片に対する存在/不在コールおよび量的発現値を含む遺伝子当たり1行を表示する「発現およびコール値(遺伝子当たり1行)」と、選択されれば結果テーブルが断片に対する実際の存在/不在コールおよび量的発現値を含む試料当たり断片当たり1行を表示する「発現およびコール値(試料当たり遺伝子当たり1行)」とを含む。
【0333】
また、本発明のアプリケーションは、経路を表示する能力を含むことが好ましい。「経路ビューア」タブは、既知の経路に発現値がある経路ディスプレイを提示する。
【0334】
表示オプションを選択することにより、「経路ビューア」タブが表示するコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば入力試料セットによる全ての試料にわたって、経路と重複する選択された遺伝子セットに各Affymetrix断片に対して中央発現レベルが表示される「試料セットの中央値」と、選択されれば入力試料セットにある全ての試料にわたって、経路と重複する選択された遺伝子セットにある各Affymetrix断片に対し、平均発現レベルが表示される「試料セットの平均値」と、選択されれば入力試料セットにある全ての試料にわたり、経路と重複する選択された遺伝子セットにある各Affymetrix断片に対して、未加工発現レベルが表示される「未加工発現値(選択されたAffy断片のみ)」と、選択されれば入力試料セットにある全ての試料にわたり、選択された遺伝子セットにかかわらず、経路にマッピングする全てのAffymetrix断片に対して、未加工発現レベルが表示される「未加工発現値(経路の全てのAffy断片)」とを含む。
【0335】
また、本発明のアプリケーションは、染色体マップを表示する能力を含むことが好ましい。「染色体ビューア」タブは、染色体マップにわたって発現値を与えるディスプレイを提示する。
【0336】
表示オプションを選択することにより、「染色体ビューア」タブが表示するコンテンツをさらに改良できることが好ましい。これらのオプションは、選択されれば遺伝子シグネチャ試料にある全ての試料にわたって各遺伝子断片に対する中央発現値が染色体に対して表示される「試料セットの中央値」と、選択されれば遺伝子シグネチャ試料セットにある全ての試料にわたって各遺伝子断片に対する平均発現値が染色体に対して表示される「試料セットの平均値」と、選択されれば選択された試料セットにある各試料の各遺伝子に対する未加工発現値が表示される「試料の未加工発現値」と、選択されればコール値が表示される「試料のコール値」とを含む。
【0337】
遺伝子シグネチャ差は、後で使用するために保存できることが好ましい。また、固有の遺伝子セットとして結果的に得られるセットの任意または全てを保存可能であることが好ましい。この遺伝子セットは、他の解析とともに使用することができる。さまざまなオプションは、<「第1の遺伝子セット」>にのみ存在と、<「第2の遺伝子セット」>にのみ存在と、両方に存在と、両方に不在とを含む遺伝子セットを保存するさいに含まれることが好ましい。
【0338】
遺伝子シグネチャ差のメニューオプションはさまざまなメニューオプションを含む。すなわち、新しい遺伝子シグネチャ差解析ウィンドウを開く「ファイル」、「新規」タブと、前に保存した遺伝子シグネチャ差を開くことができる「遺伝子シグネチャ差を選択」ウィンドウを開く「ファイル」、「開く」タブと、遺伝子シグネチャ差を保存できる「遺伝子シグネチャ差を保存」ウィンドウを開く「ファイル」、「遺伝子シグネチャ差を保存」タブと、「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、固有遺伝子セットとしてテーブルに選択された遺伝子断片を保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「遺伝子シグネチャ差解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【0339】
また、遺伝子シグネチャ差のメニューオプションは、以下のものを含むことが好ましい。すなわち、「計算」タブにアクセスする「表示」、「計算フォーム」タブと、「要約」タブにアクセスする「表示」、「要約」タブと、「遺伝子セット結果」タブにアクセスする「表示」、「遺伝子セット結果」タブと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」タブと、「染色体ビューア」タブにアクセスする「染色体ビューア」タブと、チェックされれば「結果」パネルに詳細を表示する「詳細パネルを示す」タブと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、遺伝子セットに対してマスクを追加または除去するために「遺伝子セットマスクを追加/除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加/除去」タブと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、選択されていない遺伝子を結果から除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットへリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための遺伝子シグネチャ差オプションを開く「表示」、「オプション」タブと、プロットに対して表示オプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含む。
【0340】
また、本発明のアプリケーションは、フォールド変化解析を実行する能力を含むことが好ましい。フォールド変化解析は、フォールド変化率を計算するために、制御試料セットと実験試料セットとの間のチップセットにある各遺伝子断片の平均発現レベルを比較する。フォールド変化解析は、試料セット対の間での発現差のある遺伝子の発現の変化を定量化する。各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類される。
【0341】
フォールド変化解析は、量的発現値で動作する。これは、選択された遺伝子断片セットの各々に対して、制御試料セットおよび実験試料セットにおける発現強度の幾何平均の比率を計算する。フォールド変化は、この比率に等しい。比率が1より小さく、ユーザが大きさと方向をもつフォールド変化の表示を選択すれば、フォールド変化の大きさは、「下降」の方向をもつ、比率の逆数である。異なる実験試料セットと一致する制御試料セットとの間で、複数のフォールド変化比較が並列に実行されてよい。解析は、各試料セット対の間での平均発現値のフォールド変化により遺伝子断片を分類し、フォールド変化がユーザ指定の範囲内にある断片またはユーザ指定の遺伝子セットの断片に関する詳細な発現情報を報告する。また、可能であれば、信頼度制限値およびp値も計算される。アルゴリズムは、両側Welch修正された2標本t検定に基づいている。各試料セットの発現強度の対数は正規分布され、各制御試料セットの分散が、比較する対象の実験セットの分散と異なると仮定する。
【0342】
p値は、複数の比較に対して修正されないことに留意されたい。t検定に使用される帰無仮説は、発現値の対数の分布平均値が、2つの試料セットにおいて同じであるということである。別の仮設は、平均値が異なるということである。報告されるp値は、観察されたものと極端に同じ平均値の差(ひいては、フォールド変化)が、帰無仮説下において獲得されるという確率の推定値である。
【0343】
フォールド変化値の信頼度制限値は、仮定の同じセットに従って計算される。初期設定により、95%信頼度制限値が計算され、異なる信頼度レベルがユーザにより指定できる。報告する上位および下位95%信頼度制限値は、上記の仮定下において、分布平均値の実際の比率が区間内にあるという95%確率が存在する場合の区画の推定範囲である。両方の試料セットは、2つ以上の試料をもたなければならない。試料セットの一方または両方が1つの要素しかもたなければ、以下に記載するアルゴリズムを用いて、フォールド変化を報告することはできるが、信頼度制限値およびp値は計算できない。
【0344】
フォールド変化は、断片ごとに計算される。すなわち、フォールド変化アルゴリズムは、各断片に別々に適用される。ユーザは、解析に対して、Gene Logic 正規化、標準曲線正規化、またはAffymetrix正規化された発現値を選択するオプションを有するが、同じ正規化が、全試料および遺伝子にわたって使用されなければならない。Gene LogicまたはAffymetrix正規化を用いて、発現値に下限が適用され、使用される下限値は、ノイズパラメータQに基づくものであり、選択される正規化のタイプに依存する。
【0345】
Gene Logic正規化された発現値(「GL発現値」)に対して、各チップは、10に等しい標準化されたノイズレベルQを有する。さらに正確に言えば、各チップ上のノイズの分布は、Gene Logic正規化の一部として推定され、0付近のGL発現値の標準偏差が10に等しくなるように発現値を再計算する。
【0346】
Affymetrix正規化された発現値に対して、解析は、Affymetrixソフトウェアにより各チップ実験に対して計算され、データベースに格納された実際のノイズ値Q=RawQSFを用いる。
【0347】
また、ユーザは、遺伝子が存在するとコールされた各遺伝子に対してのみ試料を用いてフォールド変化を計算するオプションを有する。このオプションが選択されると、各試料に対する試料の数nおよびnは、異なる遺伝子ごとにばらつきがあり、全ての遺伝子に対してp値および信頼度制限値を計算することができなくなることがある。アルゴリズムへの入力は、2つの試料セット(XおよびY)と、1つの遺伝子セットと、ユーザ指定の信頼度レベルCL(0と100%の間、初期設定95%)である。
【0348】
フォールド変化アルゴリズム
試料セットXおよび遺伝子セットの遺伝子断片fに対して、以下のことを実行する:
1.まず、下限値を発現データに適用する。efiを、試料iにある断片fの正規化された発現値とする。
【0349】
Gene Logic正規化が用いられれば、efiをmax(efi,20)に設定する。
【0350】
Affymetrix正規化が用いられれば、efiをmax(efi,2SFfi RawQfi)に設定し、ここで、RawQfiおよびSFfiは、試料iに対して断片fを含むチップ上のチップ実験からのRawQおよびスケールファクタパラメータである。その結果がefi<20であれば、efiを20に設定する。
【0351】
標準曲線正規化が用いられれば、efiのみが残され、下限値を適用しない。
【0352】
2.試料セットXにおけるn個の試料の発現レベルを{efi:i=1,2,...,n}として、対数x=ln(efi)を計算する。
【0353】
3.平均値(x)、すなわち、mean(x)=(xのiの合計)/nを計算する。
【0354】
4.分散(x)、すなわち、var(x)=((x−mean(x))のiの合計)/(n−1)を計算する。
【0355】
5.試料セットYに対してステップ1〜4を繰り返す。
【0356】
6.t統計値を計算する:
t=(mean(x)−mean(y))/s
式中、s=sqrt(var(x)/n+var(y)/n)である。
【0357】
7.p値と信頼度制限値を計算するためには、累積T確率分布関数Pt(t,DF)および逆関数tInverse(p,DF)が必要である。(非整数)自由度パラメータを計算する:
DF=1/(c/(n−1)+((1−c))/(n−1))
式中、c=var(x)/(n )である。
【0358】
8.以下によりp値を計算する:
Pval=Prob(|T|>t)=2(1−Pt(t,DF))
式中、Pt(t,DF)はDF自由度をもつ累積T分布であり、tは上記に特定した統計値である。
【0359】
9.フォールド変化率FCおよび上限および下限の信頼度制限値を計算する。ユーザ指定の信頼度レベルCLを与え、以下を計算する:
TI=stInverse((100+CL)/200,DF)
次に、以下の式を用いて、フォールド変化および信頼度制限値が計算される:
m=mean(x)−mean(y)
FC=exp(m)
下限信頼度制限値=exp(m−TI)
上限信頼度制限値=exp(m+TI)
フォールド変化の方向は、FC>1であれば「上昇」として、FC<1であれば「下降」として報告され、フォールド変化の大きさは、FC>1であればFCであり、FC<1であれば1/FCである。
【0360】
制御および実験の試料セットの間の各断片に対してフォールド変化を計算した後、断片は、フォールド変化値により分類され、ある一定の範囲内にあるフォールド変化をもつ断片の総数を示す要約報告が生成される。通常、ユーザは、ある一定の値より大きなフォールド変化の大きさを有する全ての遺伝子断片に関心がある。両方の試料セットにある全ての試料が不在コールを戻す断片は、総数に含まれるか、またはそこから排除されてよい。
【0361】
制御および実験試料セットおよび遺伝子Gを与え、2つの試料セットにわたった遺伝子Gの強度の幾何平均の比率として、Gのフォールド変化が計算される。トグル「遺伝子が存在する試料のみを使用」をユーザが選択すれば、Gが不在であるとコールされた試料の強度は、幾何平均の計算から排除され、そうでなければ、全ての強度が含まれる。いずれの場合も、選択された正規化に応じて、下限値が強度に適用される。「Gene Logic」正規化が用いられれば、下限値が20である(すなわち、20より小さな全ての強度を20に置き換えた後、幾何平均を計算する)。「Affy」正規化が選択されれば、特定のチップ実験から強度に適用された下限値は、その実験に対して計算されたQ値の2倍である(すなわち、各試料/チップ対に対して異なる下限値が使用される)。
【0362】
信頼度制限値は、強度の対数の平均値の差に両側Welch修正されたt検定を用いて計算される。t検定のWelchフォームは、比較される試料の2つのグループ間で分散が一般に等しくないために使用される。強度の対数は、正常分布からのものとされる。信頼度の範囲は、加法スケール上のフォールド変化推定値を中心として対称的なものではないが、乗法スケール上のフォールド変化推定値を中心に対称的であり、比率に対する適切なスケールタイプである(例えば、フォールド変化)。
【0363】
フォールド変化解析の結果は、各フォールド変化ブラケットにある遺伝子の数と、制御および実験セット間のフォールド変化の方向の要約を定時する要約として表示されることが好ましい。好ましくは、このような要約は、以下の情報、すなわち、制御試料セットの全ておよびそれぞれにおける試料の数のリストと、実験試料の全ておよびそれらが含む試料の数のリストと、実験および制御試料セットの両方に不在した断片を遺伝子総数に含むようにユーザが選択するチェックボックスと、以下の範囲、すなわち、100以上、10〜100、5〜10、4〜5、3〜4、2〜3、1〜2、および変化なしの範囲のフォールド変化をもつ遺伝子断片の数を記載したテーブルを表示することが望ましい。
【0364】
数は、以下のように分割されることが好ましい。すなわち、実験セット対制御セットにおいてフォールド変化「上昇」の数と、実験セット対制御セットにおいてフォールド変化「下降」の数と、実験セット対制御セットにおいて全変化の総数である。
【0365】
ユーザは、遺伝子断片のフィルタリングと、結果の表示と、経路の表示と、染色体マップの表示とを含む、フォールド変化解析結果に関するより詳細なデータを獲得できることが好ましい。
【0366】
「遺伝子断片をフィルタリング」オプションにより、以前に保存した遺伝子セットを用いて報告された遺伝子をフィルタリングすることができる。
【0367】
「遺伝子断片」のデータコンテンツ(言い換えれば、「遺伝子セット結果」)は、表示オプションを選択することによりさらに改良できることが好ましい。これらのオプションは、逆数に対して値<1の場合、変化の方向(上昇または下降)を示す特別な列とともに、フォールド変化および信頼度を表示する大きさおよび方向と、全てのフォールド変化および信頼度制限値を比率として表示する比率(<1.0、下向きの場合)と、選択されれば各遺伝子断片および試料に対して、量的発現値および存在/不在コールが表示される「未加工発現およびコール値を示す」と、選択されれば各試料セットの平均値、中央値、および標準偏差が表示される「各試料セットの平均、SDを示す」とを含む。
【0368】
本発明のアプリケーションは、選択された遺伝子断片に関する経路を表示する能力をも含むことが好ましい。「経路表示」タブは、既知の経路に発現値がある経路ディスプレイを提示する。「経路表示」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良される。これらのオプションは、選択されれば経路と重複する選択された遺伝子セットにある各Affymetrix断片に対するフォールド変化値が表示される「試料セットのフォールド変化」と、選択されれば各入力試料セットにある全ての試料にわたって各Affymetrix断片に対して平均発現レベルが表示される「試料セットの平均値」と、選択されれば各入力試料セットにある全ての試料にわたって各Affymetrix断片に対して中央発現レベルが表示される「試料セットの中央値」と、選択されれば各選択されたAffymetrix断片に対して未加工発現レベルが表示される「試料の未加工発現値」と、選択されれば経路と重複する全ての遺伝子断片が表示される「経路にある全てのAffy断片」と、選択されれば「遺伝子断片をフィルタ」パネルにおいて選択された遺伝子断片のみが表示される「選択されたAffy断片のみ」とを含む。
【0369】
本発明のアプリケーションは、染色体マップ上の発現値を与えるディスプレイを提示する染色体マップを表示する能力をも含むことが好ましい。「染色体表示」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されればフォールド変化値が表示される「フォールド変化」と、選択されれば中央値が表示される「中央値」と、選択されれば平均値が表示される「平均値」と、選択されれば未加工発現値が表示される「試料の未加工発現値」と、選択されればコール値が表示される「試料のコール値」とを含む。
【0370】
フォールド変化の解析は、後で使用するために保存できることが好ましい。
【0371】
フォールド変化解析とともに使用するのに利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しいフォールド変化解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存したフォールド変化を開くことができる「フォールド変化マルチセットを選択」を開く「ファイル」、「開く」タブと、フォールド変化を保存するために「フォールド変化マルチセットを保存」ウィンドウを開く「ファイル」、「フォールド変化を保存」タブと、結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために、第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定したり結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「フォールド変化解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【0372】
また、フォールド変化解析メニューは、選択されれば選択された遺伝子断片または試料の詳細を表示する「表示」、「遺伝子または試料の詳細」タブと、「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、「研究を選択」ウィンドウを開く「表示」、「READSリンク列を追加」タブと、遺伝子セットマスクを結果に追加または除去するための「遺伝子セットマスクを追加/除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加/除去」タブと、現在選択されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するために「フォールド変化表示オプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含むことが好ましい。
【0373】
本発明の別の好適な実施形態においてアプリケーションは、電子ノーザン解析を実行できる。電子ノーザン解析(Eノーザン)は、ユーザ規定の遺伝子セットおよび1つ以上の試料セットを入力とする。発言レベルの範囲は、ユーザ指定の存在/不在コールをもつ試料の全てに対して、各試料セットの遺伝子セットにある各遺伝子断片に対して報告される。Eノーザン解析における遺伝子の発現値の範囲は、各試料セットにある試料に対する値でのユーザ選択の百分位数の一対として報告される。初期設定では、各試料セットでの25番目および75番目の百分位数にある値が示される。ユーザは、異なる百分位数を選択してよい。例えば、ユーザは、各試料セットに対して、0番目の百分位数(最小発現値)と、100番目の百分位数(最大値)を見るように選択してよい。ユーザ指定の百分位数に加え、中央発現値(50番目の百分位数)が常に報告される。
【0374】
電子ノーザン解析(またはEノーザン)は、入力として、ユーザ規定の遺伝子セットおよび1つ以上の試料セットをとり、ユーザ指定の存在/不在コール値を有する全ての試料にわたって、各試料セットの遺伝子セットにある各Affymetrix遺伝子断片に対する発現レベルの範囲を報告する。この範囲は、百分位数値を用いて報告され、上位および下位の百分位数レベルUおよびLは、ユーザにより指定される。ユーザが、Uを100と選択し、Lを0と選択すれば、解析は、選択された試料での最大および最小の発現値を報告する。ユーザが、U=75およびL=25を選択すれば、上位および下位の四分位数値が報告される。中央値も同様に報告される。
【0375】
Eノーザンは、各試料セットに対して、以下のように計算される:
1.Eノーザンオプションのダイアログにおけるユーザの選択は、不在および辺縁コールを有する試料が計算においてどのように使用されるかを決定するために使用される。「計算に存在コールのみを含む」が選択されれば存在コールを有する試料のみが百分位数および存在スコア計算において使用され、辺縁コールは不在コールと同一に処理され、不在スコアに含まれる。「計算に存在および辺縁コールを含む」が選択されれば存在または辺縁コールのいずれかを有する試料が百分位数および存在スコア計算に含まれる。「計算に存在、辺縁、および不在コールを含む」が選択されれば存在、辺縁、または不在コールを有する試料が、百分位数を計算するために使用され、辺縁コールは、存在スコアに含まれる。
【0376】
2.ユーザ指定の遺伝子セットにある各遺伝子断片に対して、存在および不在スコアは、所与の試料セットにある試料の存在および不在コールの数を計数し、遺伝子断片の発現データを有する試料の総数で各計数を除算することにより計算される。不明およびゼロのコールを有する試料は省略され、試料の総数に含まれない。この結果は、表の表示において分数として(例えば、17/22)およびEノーザンプロットにおいてパーセンテージとして報告される。
【0377】
3.各遺伝子断片に対して、ユーザ選択されたコール値を有する試料にわたって、百分位数および中央値が計算される。これらの試料の発現値は、最初に、昇順で並び替えられる。これは、各発現値に対してランク順序R、R=1...Nを発生し、ここで、Nは選択された試料の数である。Xをランク順序Rを有する発現値として規定する。
【0378】
4.3つの百分位数値、すなわち、50番目の百分位数(すなわち、中央値)と、2つのユーザ指定の百分位数LおよびUが計算される。値セットのP番目の百分位数は、セットにある値のPパーセントがXより小さくなるような値Xである。
【0379】
5.M=1+((P/100)(N−1))とする。
【0380】
6.Mが整数であれば、P番目の百分位数は、ランク順序Mを有する発現値XMである。この場合、プロットは、テーブルが上位および下位百分位数に対して戻すものより1つランクが大きい発現値を戻す。
【0381】
7.Mが整数でなければ、P番目の百分位数は、値XMとXM+1との間を補間することにより得られる。FをMの端数部分とする。その場合、P番目の百分位数は、
XM+F(X M+1−XM)
として計算される。
【0382】
8.上記計算は、P=L、P=50、およびP=Uに対して実行される。
【0383】
Eノーザン解析は、1つ以上の試料セットおよび1つ以上の遺伝子セットを用いて計算されることが好ましい。遺伝子セットは、遺伝子シグネチャ差により規定された遺伝子セットの既存遺伝子であってよい。
【0384】
Eノーザン結果における遺伝子断片に関する詳細な情報は、「結果」タブに表示されることが好ましい。この情報は、以下のステートメント、すなわち、行数と、使用される上位および下位の百分位数と、使用される正規化と、百分位数を計算するために使用されるコールタイプ(存在、不在、または辺縁)と、遺伝子のテーブルとを含むことが好ましい。
【0385】
Eノーザンにより、選択されれば属性および既知の遺伝子データを含むAffy断片と、属性、実験、試料、およびドナーデータを含む試料の詳細と、配列クラスタと、プロットとを含む、選択された遺伝子断片に関する詳細な情報を表示する「詳細パネルを示す」が与えられることが好ましい。
【0386】
結果のデータコンテンツは、表示オプションを選択することによりさらに改良できることが好ましく、これらのオプションは、選択されれば存在コールにのみ関連付けられた発現値を用いて百分位数が計算される「計算に存在コールのみを含む」と、選択されれば存在および辺縁コールに関連付けられた発現値を用いて百分位数が計算される「計算に存在および辺縁コールを含む」と、選択されれば存在、辺縁、および不在コールに関連付けられた発現値を用いて百分位数が計算される「計算に存在、辺縁、および不在コールを含む」とを含む。
【0387】
Eノーザン解析は、後で使用するために保存できることが好ましい。
【0388】
Eノーザン解析とともに使用するために利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しい電子ノーザン解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存されたEノーザン解析を開くことができる「Eノーザンを選択」ウィンドウを開く「ファイル」、「開く」タブと、Eノーザン解析を保存できる「Eノーザンを保存」ウィンドウを開く「ファイル」、「Eノーザンを保存」タブと、Eノーザンに使用される遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために、第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「電子ノーザン」ウィンドウを選択する「ファイル」、「閉じる」タブとを含む。
【0389】
Eノーザン解析とともに使用するために利用可能なメニューオプションは、以下のものを含むことが好ましい。これらのオプションは、「計算」タブにアクセスする「表示」、「計算フォーム」タブと、「結果」タブにアクセスする「表示」、「結果」タブと、チェックされれば「結果」ビューに詳細を表示する「表示」、「詳細パネルを示す」タブと、結果に表示するための列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための「電子ノーザンオプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「表示」、「プロットオプション」タブとを含む。
【0390】
本発明の別の好適な実施形態において、アプリケーションは、発現データツールをさらに含み、これにより、ユーザは、1つ以上の試料セットおよび1つ以上の遺伝子セットに対して、発現データ値(個別または集合)を引き出し表示することができる。発現値は、テーブルに表示されるか、経路または染色体マップと重ね合わせることができることが好ましい。
【0391】
発現データツールは、着目する遺伝子および試料セットに対する遺伝子発現データを同定し、それらに対する個々(未加工)、平均値、または中央発現値を取り出す(量的発現強度および存在/不在コールを含む)。その結果得られるデータは、本発明のアプリケーション内に表示されるか、または、アプリケーション以外の解析で使用するために出力保存されてよい。
【0392】
選択された試料の結果は、「発現データ」タブに表示されることが好ましく、これは、結果の行数のステートメントと、使用される正規化のタイプに関するステートメントと、結果遺伝子のテーブルとを提示することが好ましい。
【0393】
発現データツールにより、選択されれば属性および既知の遺伝子データを含むAffy断片と、属性、実験、試料、およびドナーデータを含む試料の詳細と、配列クラスタと、プロットとを含む、選択された遺伝子断片に関する詳細な情報を表示する「詳細パネルを示す」が与えられることが好ましい。
【0394】
発現データのデータコンテンツは、「集合値(試料セット)」および「個々の試料」を含む追加のオプションを選択することによりさらに改良できることが好ましい。
【0395】
本発明のアプリケーションは、発現データツールに関する経路を表示する能力をも含むことが好ましい。「経路ビューア」タブは、既知の経路に発現値がある経路ディスプレイを提示する。「経路ビューア」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されれば入力試料セットにある全ての試料にわたって、経路と重複する選択された遺伝子セットにある各Affymetrix断片に対して未加工発現レベルが表示される「未加工発現値(選択されたAffy断片のみ)」と、選択されれば入力試料セットにある全ての試料にわたって、選択された遺伝子セットにかかわらず、経路にマップする全てのAffymetrix断片に対して未加工発現レベルが表示される「未加工発現値(経路にある全てのAffy断片)とを含む。
【0396】
本発明のアプリケーションは、発現データツールに関する染色体マップを表示する能力をも含むことが好ましい。「染色体ビューア」タブは、染色体マップ上の発現値を与えるディスプレイを提示する。「染色体ビューア」タブが表示するコンテンツは、以下の表示オプションを選択することによりさらに改良できる。これらのオプションは、選択されれば全ての試料に対して未加工発現値が表示される「試料の未加工発現値」と、選択されれば、全ての試料のコール値が表示される「試料のコール値」とを含む。
【0397】
遺伝子セットまたは選択された遺伝子は、他の解析とともに使用するために保存できることが好ましい。
【0398】
発現データツールとともに使用のために利用可能な、さまざまなメニューオプションがあることが好ましく、これらのオプションは、「新しい発現データツール」ウィンドウを開く「ファイル」、「新規」タブと、結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「発現データツール」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【0399】
発現データツールメニューは、以下のものをさらに含むことが好ましい。すなわち、「パラメータ」タブにアクセスする「表示」、「パラメータ」タブと、「発現データ」タブにアクセスする「表示」、「発現データ」タブと、「経路ビューア」タブにアクセスする「表示」、「経路ビューア」タブと、「染色体ビューア」タブにアクセスする「表示」、「染色体ビューア」タブと、選択されれば「発現データ」パネルに詳細を表示する「詳細パネルを示す」タブと、結果にあるディスプレイするための列を選択できる「ディスプレイ属性を選択する」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、遺伝子セットマスクを結果に追加または除去するために「遺伝子セットマスクを追加/除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加/除去」タブと、現在選択されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子タブを除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」タブと、結果を並び替える「表示」、「並び替え」タブと、表示オプションを選択するための「発現データツールオプション」ウィンドウを開く「表示」、「オプション」タブと、プロットのディスプレイオプションを選択できる「プロットオプション」ウィンドウを開く「プロットオプジョン」タブとを含む。
【0400】
本発明の別の好適な実施形態において、アプリケーションは、対比解析を実行する能力をさらに与え、これは、試料セットの発現パターンに適合する遺伝子を見つけるために使用される「パターンマッチング」ツールである。
【0401】
対比解析は、2つ以上の試料セットを伴う発現パターンをテストするために、フォールド変化解析において実行される重要度テストを一般化する。特別な統計方法は、応答変数として使用される発現値と、グループ効果を規定するために使用される試料セットとを有するANOVAモデルである。対比は、グループ効果でのパターンを特定するために使用される。試料セットが、例えば、A、B、およびCとラベル付けされれば、対比ウェイトベクトル{1,−2,1}は、フォームの帰無仮説を特定する。すなわち、
H(0):1 x mean SΣA(logEs)−2 x meanSΣB(logES)+1 x mean SΣC(logES)=0
式中、ESは、試料に対してテストされる遺伝子の発現レベルである。
【0402】
(フォールド変化解析の場合のように、テストは、発現値で直接実行されるのではなく、発現値の対数で実行される。これは、方法の統計的検出力を増大するために行われる。負の発現値は、絶対値の対数をとり、−1で乗算することにより、負の対数値にマッピングされる。絶対値が1より小さい発現値は、0で置き換えられる。)
【0403】
帰無仮説は、よく知られているニ標本t検定に類似した方法において、各パターンのt統計値を計算するために使用される。t統計値の値は、試料セットにおける試料にわたった遺伝子の発現値のパターンへの忠実性に従って増大する。大きな正のtスコアは、試料セット内の変化量に対して、試料セット間の発現値の変化のパターンが、対比により表されるパターンに密接に従うということを意味する。大きな負のtスコアは、変化のパターンが、対比により表されるパターンの逆であるということを意味する。これは、例えば、対比{−1,1}(試料セット1に対する試料セット2の発現の増大を表す)に対して、試料セット2において発現が減少した遺伝子に対して起こる。最後に、ゼロに近いtスコアは、遺伝子の発現パターンが対比パターンまたはその逆のいずれとも一致しないか、または、試料セット間の変化量が、試料セット内の変化に相当するか、またはそれよりも小さいことを意味する。
【0404】
複数の対比は、遺伝子がいくつかのパターンの任意のものにどの程度うまく適合するかに従って遺伝子をランク付けするために、並列にテストすることができる。ユーザは、最大tスコア(単一のパターンとの最良の適合による遺伝子選択に相当)または最小tスコア(パターンの全てに適合する能力による遺伝子選択に相当)のいずれかにより、遺伝子をランク付けするオプションを有する。
【0405】
対比は、グラフィカルツールを使用することにより、または方法に精通したエキスパートユーザが対比ウェイトを直接入力することにより特定できる。モデルの数学的制約により、グラフィカルツールにより特定されるいくつかのパターンは、予想外の結果になることがある。
【0406】
以下に記載するように、これらの場合、パターンが特定されたときに警告が発せられ、ユーザは、発生した結果が自分の求めているものに相当するかを確認するために、解析の出力を注意深く検討するように促される。
【0407】
要求されれば、要求された全ての遺伝子およびパターンにわたって最大tスコアの重要度を評価するために、試料セットに対する試料割り当てにランダム化トライアルを行うことにより、p値が推定される。
【0408】
「Leave One Outプロット」は、外れ値の試料を検出するためのツールである。これにより、ユーザは、試料セットの他の試料と異なるように挙動する試料を同定でき、これらの試料は、対比解析の結果に不均衡な影響を与える。これらの試料は、試料データの品質に問題があるかを決定するための他のツールとともにさらに解析できる。
【0409】
対比解析は、フォールド変化解析の一般化であり、試料セットの複数のグループに動作し、各グループに対して一連の類似した適合を実行し、ユーザにより特定された対比のセットを用いてそれらのレベルを比較する。これらのグループ効果が計算されると、結果は、対比により乗算され、新しい統計値が計算され、これは、二標本t統計値にフォームと意味が類似したものである。
【0410】
対比解析は、フォールド変化解析の延長として見ることができる。フォールド変化ツールは、2つの実験条件またはグループ間の発現レベルを比較するために使用される。このツールは、個々の遺伝子の条件間の差の強度をランク付けするために使用できるtスコア(ユーザには公表しない)を計算する。これらのtスコアは、実験により試料採取された母集団の平均値が、グループ分散を考慮に入れて等しく、報告されるp値を決定するアルゴリズムに入力されるという帰無仮説に対してグループ平均値の差を比較するt検定に基づいている。
【0411】
解析を実行する前にデータ点の対数をとるため、フォールド変化は、比較される2つのグループにあるデータの幾何平均の比率に基づいて決定される。2つのグループ{A}および{B}に対して、tスコアは、{logA}の平均値と{logB}の平均値との差を、各グループにある点の数により加重された、2つの対数グループの分散の2乗平均平方根により除算したものである。ここで、
M(A)=mean{logA}
V(A)=variance{logA}=標準偏差{logA}二乗
N(A)=Aの点の数
とし、グループBに対しても同様の値を定義する。帰無仮説は、この検定に対して、以下のように与えられる:
H(0):M(A)−M(B)=0
tスコアは、以下の式
t(A,B)=[M(A)−M(B)]/sqrt[V(A)/N(A)+V(B)/N(B)]
により与えられる。
【0412】
報告されるフォールド変化は、exp(M(A)−M(B))である。
【0413】
tスコアの計算を要約するために、対数分散に対する対数平均値の差が大きいほど、tスコアの絶対値が大きくなり、グループが実際に異なるという可能性が高くなる。t検定の帰無仮説は、M(A)=M(B)、または同等に、t(A,B)=0であるということである。tスコアが高いほど、p値は低くなる。フォールド変化ツールにより報告されるp値は、2つのグループ{logA}および{logB}が正規分布され、重み係数が、グループサイズの可能性のある差を考慮に入れる仮定に基づいている。予測平均値と分散で実験グループの特徴を要約することは、このような比較を解析する複雑性を軽減するための強力な技術である。
【0414】
この考え方は、対比解析の統計方法を用いて、2つ以上の条件(またはグループ、または試料セット)に適用することができ、これは、個々のグループでの一元分散解析(ANOVA)の結果を用いる。簡易t検定が、2つのグループ平均値を比較するのに対して、対比解析は、多数のグループ平均値の相対レベルをユーザにより指定されたモデルと比較する。発現データの解析において生じる多数の状況は、方法を適切に理解していれば、このような解析に従順である。この方法には制限があり、結果を確実に解釈できるようにするためには、それらの制限を理解するのに注意を払わなければならない。この方法は、2つの以上のモデルの適合をデータと比較する場合に特に有益である。2グループt検定の場合のように、パターンがデータとどのくらいの程度でマッチするかということを比較できるランキングスコア(tスコア、またはt様統計と呼ぶ)が生成される。これらのパターンは、対比によりパラメータ化される(グループ平均値に対する一連の係数)。
【0415】
検定は、全てのグループ平均値が同じである(すなわち、グループ間で発現に差がない)という帰無仮説に依存しているため、唯一の有効な対比は、平均値が、合計してゼロになる係数で加重されるものである。tスコアの降順での比較に対して遺伝子をランク付けすることにより、p値の昇順において遺伝子をランク付けするものと同じ順序が得られなければならない。
【0416】
対比解析ツールは、p値を計算するためのより高度なアルゴリズムを用い、これは、測定値がグループ内に正規分布されているという仮定に基づいていない。この代わりとして、p値の計算は、全ての遺伝子および全てのパターンにわたって最大tスコアの分布を計算することにより行われる。まず、異なる遺伝子の発現値は、多数回ランダムに再度割り当てられ、tスコアのセット全体が再度計算される。最大値は、反復ごとに見つけられ、t値のこの分布は、報告された最大tスコアに対するp値を予測するために使用される。テスト可能な数学的に独立した対比の数は、グループ数(G)マイナス1である。簡易t検定の場合、G=2であり、1つのみの対比が存在する。Gが増加すると、独立対比の数も増加する。
【0417】
しかしながら、これらの独立対比の線形組み合わせである対比であれば、理論上有効である。有効な対比のセット内には、0に等しい係数を含むものが含まれる。これらのケースでは、0の重み付けが、tスコアの分子にある対比計算からの値を除去するのに対して、分母にあるグループの分散を含むため、特別の注意が必要である。
【0418】
これらの方法の1つの単純なアプリケーションは、発現パターンと指定されたモデルとの類似性によりプローブセットをランク付けすることである。図11、図12、および図13に示すように、3つのAffymetrixプローブセットの3つのグループ(グループ1、2、および3)の間の比較を考慮する。これらは、3つの異なる発現パターンを示す。第1のケースでは、グループ2およびグループ3において発現が増大し、グループ2およびグループ3の発現はほぼ同じである。全てのプロットは、対数スケールを用いて示されている。
【0419】
第2のケースでは、グループ1からグループ2、さらにはグループ3へと発現が単調に増大している。
【0420】
最後のケースでは、グループ1およびグループ3がほぼ同じであり、グループ2が、両方よりも高く発現している。
【0421】
対比解析ツールにおける描画インタフェースを用いて、図11に見られる状況を最良に記述する対比を見つけたければ、図4に示すように、グループ1がグループ2および3よりも小さいが、後者の2つは同じレベルであるパターンを描けばよい。対比C1の結果は、{−2,1,1}である。帰無仮説は、
H(0):−2M(1)+M(2)+M(3)=0
である。
【0422】
ここで、平均値は、上記に規定したように、未加工発現データの対数に規定される。tスコアは、
t(1,2,3)=W(C1)[−2M(1)+M(2)+M(3)]/sqrt[V(1,2,3)]
である。
【0423】
V(1,2,3)は、ANOVAモデル適合度からの残差分散であり、それぞれの平均値に対する3つの全てのグループの分散に依存し、Wは、異なる解析を互いに比較できる重み係数である。これらの個々のグループ分散の点で表現すると、
V(1,2,3)=[V(1)(N(1)−1)+V(2)(N(2)−1)+V(3)(N(3)−1)]/[N(1)+N(2)+N(3)−3]
である。
【0424】
解析にどのようなグループが含まれていても、残差分散は、対比解析セッションの開始時に選択された全ての研究グループに対する適合度から常に獲得される。想起すべき問題は、この場合の対比が、平均値およびANOVA適合度の残差分散に依存することである。個々のグループ分散が3つの全てのグループに対して大きい場合、残差分散が高くなり、他の全てのものは等しい。グループ2およびグールプ3の平均値がグループ1に対して高いほど、tスコアは高くなる。平均値が全て同じであれば、tスコアは0に近い。分散が同じグループ平均値に対して大きければ、tスコアは低い。
【0425】
描かれたパターンは、ほぼ同じ発現レベルをもつグループ2およびグループ3を示すが、比較する対象となる他のパターンがなく、このパターンが単独で使用されれば、高いtスコアが、グループ2および3がほぼ同じ平均値を共有するケースに対応するという保証はない。グループ2およびグループ3の平均値近くの分散が小さく、グループ2およびグループ3の平均値の両方が、グループ1の平均値より大きいかぎり、大きな正のtスコアを獲得するための条件に適合する。このパターンが任意の他のものに比較されなければ、このパターンを用いて高いスコアを得るデータは、グループ2およびグループ3が非常に異なるケースを含むことになる。
【0426】
ここでの解決策は、上向きおよび下向きの変化に対してグループ2および3を比較して、2つの対比を追加することである。第1の並び替え列として「最大Tスコア対比インデックス」を用い、第2の並び替え列として「最大Tスコア」を用いて結果を並び替える(降順)。着目するパターンに対応するインデックスを探し、ここで高い最大のtスコアを有する値は、C1パターンときわめて一致することになるものである。
【0427】
図11または図12のパターンと一致する遺伝子を見つけたければ、グラフィカルツールを用い、パターンに入力することができ、対比の重みがグループ2に対して0であるという警告を第2のパターン上で受信することになる。
【0428】
特定された対比C2は、係数{−1,0,1}を有し、これは、帰無仮説が、H(0):−M(1)+M(3)=0であることを意味する。
【0429】
この帰無仮説は、グループ1および3のみにフォールド変化を実行したときと同じである。しかしながら、tスコアの分母が、グループ2からの分散寄与を含んだままであるため、結果は異なるものになる。tスコアは、以下の式、
t(1,2,3)=W(C2)[−M(1)+M(3)]/sqrt[V(1,2,3)]
で与えられる。
【0430】
グループ2分散が小さければ、tスコアは、本質的に、グループ2が比較に含まれていない場合と同じものになる。これは、検定の結果が、この場合、グループ2の平均値から独立したものであることを意味する。これが、検定を行っている唯一の対比であれば、グループ2の平均値が、描いたパターンが意味するグループ1およびグループ3の平均値と非常に異なる場合であっても、増加パターンに極めて一致することを示す見かけの値を得ることになる。
【0431】
この問題を解決するための方法が2つある。第1の方法は、対比解析の「最小Tスコアで並び替え」オプションを使用し、グループ1にわたってグループ2およびグループ2にわたったグループ3の増加対比を特定することである。最小tスコアで並び替えることにより、1にわたって2および2にわった3の対比が報告される最小tと少なくとも同じ大きさであるリストが得られるため、大きな正のtが、3つのグループで発現が増大していることを保証することになる。
【0432】
第2の解決策は、対比を追加し(例えば、C1に1つ)、最大tスコアを比較することである。これは、グループ2の平均値が、グループ1およびグループ3の平均値の平均と異なる場合に対して検定することにより行われる。数学的等式としてこれを組み立てれば、
M(2)−.5(M(1)+M(3))≠0
となる。または、この代わりとして
H(0):M(2)−.5(M(1)+M(3))=0
という帰無仮説に対して検定できる。
【0433】
これは、2で乗算することにより、係数{−1,2、−1}をもつ対比に相当する。
【0434】
パターンがこの対比と極めてマッチすれば(すなわち、グループ2の平均値が、グループ1およびグループ3の平均値の平均より大きければ)、第2のグループで何が起ころうとも、直線対比とは極めてマッチすることができない。これは、図3のものに類似したパターンに対する検定を行う。混乱を生じさせる他のケースは、全く反対の係数、すなわち{1,−2,1}をもつ対比であり、これは、グループ2の平均値がグループ1および3の平均より小さいことを意味する。対比リストにこれらの追加対比を含み、最大tを比較する対比ツールを実行する。前述したように、第1の並び替え列として「最大Tスコア対比インデックス」を用い、第2の並び替え列として、「最大Tスコア」を用いて、結果を並び替える(降順)。最良にマッチするパターンが関心のあるものであることを確証するために、最大tをもつ対比のインデックスを見る。
【0435】
検定をさらに明確なものにするために、対比C1により特定された中間ケースを除外するための対比を含む。より多くの対比を追加することは、p値が計算されていなければ、計算性能を著しく妨げないため、着目する遺伝子を孤立させるために必要とされるだけ多くのものを使用し、それらの遺伝子に対するp値を計算するために、1つのみのパターンで計算を繰り返す。
【0436】
ゼロ重み警告が発せられればいつでも、同様の論理ラインが適用できるが、グループの数が多い場合、ゼロ重み付けグループ平均値を隣接するレベルの全てに対して比較する必要がある。また、比較において使用したものよりも多くのグループを初期の対比解析において特定すれば、含まれていないグループの分散は、解析に組み込まれることになり、tスコアの結果は、最初の場所に含まれていない場合と異なるものになる。
【0437】
対比解析アルゴリズム
1.試料nの遺伝子gに対する未加工発現値であるデータ点Eraw(n,g)の対数変換を実行する。変換後の値は以下により与えられる:
Figure 2004535612
【0438】
2、グループ割り当てのX行列を生成する。これは、N行K列からなり、ここで、Nは個々の試料の総数であり、Kはグループの総数である。k番目の列において、n番目の行は、n番目の試料がグループkにあれば1を含み、なければ0を含む。
【0439】
3.このB行列は、モデル群に基づく(各遺伝子gに対して1つ):
E(g)=Xm(g)+ε(g)
式中、E(g)は、遺伝子gに対する変換された発現観察の(NX1)行ベクトルであり、m(g)は、遺伝子gに対するグループ平均値の(1XK)列ベクトルであり、分散σ(g)で0付近に正規分布されると仮定される。行ベクトルE(g)に値が紛失していれば(存在コール行列に「N」または「U」コールで示される)、計算は、行列からそれを除去し、オリジナルリストにそれが存在しないように進行する。
【0440】
4.これらのモデルは、グループ平均値の推定値e(m(g))を生成するために使用される。これらは、最小二乗法の通常の式の解である:
X’Xe(m(g))=X’E(g)
式中、X’はXの転置行列である。この式の解の計算方法は、この式の解法が多数あるため、本願明細書において特記しないことを留意されたい。アルゴリズムの現在の実行では、QR分解を使用する。
【0441】
5.適合度からの分散の推定値が、平方の平均残差和を計算することにより得られる:
e(σ(g))=(E(g)−e(m(g))X)(E(g)−e(m(g))X)’/(N−(g)−K)
【0442】
6.相対的なtスコアは、C所望対比の(KXC)行列である対比行列Cを用いて計算される。各対比に対して、c番目の列は、k番目の行にあるk番目のグループの係数からなる。cのtスコアの分子は、(1XC)ベクトルN(g)の行により与えられる:
N(g)=Ce(m(g))
分母は、(1XC)ベクトルV(g)の行の平方根により与えられる:
V(g)=|eσ(g))diag(CInverse(X’X)C’)|。
【0443】
ここで、diag(X)は、行列Xの対角線要素を抜き出す。これは、c番目の成分が以下の式により与えられるtのベクトルの生成する:
T(g,c)=N(g,c)/sqrt(V(g,c))。
【0444】
フォールド変化tスコアの場合とは異なり、ここでは、グループ間の分散が等しいと仮定される。
【0445】
7.C>1であれば、最大または最小tスコアは、比較が望ましいユーザ入力に応じて、各遺伝子のtcから選択される。対比インデックスcは、最小または最大基準を満たす対比に対して記述される。
【0446】
8.これらの最大または最小tスコアは、どのパターンが最大/最小に極めて一致するかを示す長さGのリストTmax(g)を生成するために、全ての遺伝子で組み合わされる。
【0447】
9.ユーザがp値を要求すれば、これらは、1000トライアルで異なる試料に対して再配置で個々の測定値が割り当てられるプロシージャにより生成される。各ランダム化トライアルjに対して、各gの最大tスコアTmax(g,j)を計算する。トップランキングtスコアTmax(j)を生成するために、これらの全ての最大値をとる。これらは、最大tスコアの分布蓄積Tmaxを生成するために、ランダムかトライアルおよび遺伝子の全てにわたってまとめて蓄積される。ステップ8において生成されたオリジナルのtスコアは、この蓄積された分布でのランクと比較される。より大きなT値をもつ蓄積された分布の点の数を、蓄積された分布の点の総数で除算して、p値を予測する。すなわち、
p(g)=(蓄積Tmax数>t)/G1000
である。
【0448】
「Leave One Outプロット」は、対比計算をN回繰り返すことからなる。これらのNの各々に対して、N試料の1つが計算から取り置かれ、最大tスコアのランク付けされたリスト
r(g)=Tmax(g)におけるgのランク
が生成される。各遺伝子gが、試料を取り置かないランクr(g,0)と、試料をn個取り置いたランクr(g,n)をもてば、各遺伝子に対して、値、
d(g,n)=|r(g,n)−r(g,0)
を計算する。
【0449】
全ての遺伝子にわたってdの中央値、
d(n)=median(d(g,n))
を計算する。
【0450】
この値は、1つの試料を取り置くことが、解析の結果に及ぼす影響を予測するための要約統計(すなわち、特定された対比に従った遺伝子のランキング)として使用される。
【0451】
対比解析を実行するさい、まず、解析するための試料および遺伝子セットを選択する。次いで、対比パターンを規定する。これを達成するための好適な方法は、「対比間でのTスコア」に対して最高値または最低値のいずれかを選択することである。遺伝子をランク付けするために最大Tスコア(すなわち、最高)を用いることは、論理ORパターン検索として機能し、すなわち、遺伝子は、大きなTスコアが入力パターンの任意のものに対して獲得されれば、高くランク付けされる。この代替として、遺伝子は最小Tスコアによりランク付けできる。これは、入力パターンにおいて論理ANDとして機能し、ユーザが、1つ以上のパターンと等しく一致する遺伝子セットを選択したい場合に有益である。
【0452】
対比パターンを規定する方法が2つあることが好ましく、すなわち、グラフィカルパターンの特定と、対比重みの入力である。グラフィカルパターンオプションを指定することにより、解析に使用される対比パターンの視覚化を容易にする対比パターンのグラフィカル表現が得られる。好ましくは、パターンの相対方向は、選択された試料セットの各々に対して、低、高、または中である。パターンは、チェックされた各試料セットにわたった平均発現値の変化を表す。値の相対的な縦順序のみがパターンにおいて重要である。パターンは、各入力試料セットに対して1つずつ、整数の重みのリストである「対比」に変換される。
【0453】
対比重みは、各入力試料セットに対して1つずつ、正または負の数であり、その値は、ボックスの高さと同じ相対順序に従う。値は、重みの合計がゼロになるようにスケーリングされ調節される。ゼロ重みは、パターンにおいて使用されていない試料セットに対して割り当てられる。対比解析ウィンドウの表示されている試料セットの全ては、解析に含まれることになる。各試料セットに対して、平均値および残差が計算される。全ての試料セットからの残差は、パターン、および試料セットが選択されたかどうかにかかわらず、tスコア計算において使用するために蓄積される。これは、対比重みが0である試料を含む。試料セット間の平均対数発現レベルのランク順序のみが、パターンを対比に変換する場合に考慮される。例えば、以下の2つのパターンは同等のものであると考慮され、それらは、対比重みの同じベクトル{−1,2,−1}に相当する。両方のパターンは、試料セット1および3にわたった平均対数発現が同じであり、試料セット2に対する平均対数発現より低い遺伝子を選択する。
【0454】
パターンと対比ベクトル間の対応は、常にこのように直感的なものではない。混乱を生じる例として、パターンが対比重みベクトル{−1,0,1}に対応するパターンが挙げられる。これは、試料セット1における平均対数発現レベルが、試料セット3におけるものより低い遺伝子を選択することになる。試料セット2のゼロ重みは、これにわたって平均対数発現値が考慮されないことを意味する。結果として生じるtスコアは、パターンの出現に反して、第2の試料セットに対する平均対数値から独立したものとなる。このため、警告が発せられることが好ましい:
対比重み入力オプションにおいて、重みを直接入力できる高度なインタフェースが与えられる。各試料セットに対して1つの対比重みを入力する。また、解析に正規化を使用することができ、p値を計算することもできる。
【0455】
対比解析計算が完了すると、結果は、「結果」タブに表示される。「結果」タブは、対比解析の結果を表示する。入力遺伝子セットからの遺伝子は、解析のステップ2に記載したように、最大または最小tスコアのいずれかの降順に並び替えられる。この表示は、以下の情報を提示する。すなわち、結果に表示される行の総数と、ユーザにより選択された遺伝子属性と、各対比パターンに対するtスコア列と、tスコア列からの最大および最小のtスコアと、最大tスコアのインデックスを含む結果遺伝子のテーブルである。
【0456】
また、本発明のアプリケーションの対比解析の態様により、「Leave One Outプロット」が与えられることが好ましい。「Leave One Outプロット」は、外れ値試料を検出するためのツールである。これにより、ユーザは、試料セットの他の試料と異なるように挙動する試料を同定でき、これらは、対比解析の結果に不適切な影響を及ぼす。これらの試料は、試料データの品質に問題がないか、または、これらの試料が何らかの点で特有のものでないかを決定するための他のツールでさらに解析できる。
【0457】
試料セットの他の試料と非常に異なるように挙動する試料は、プロットにあるほとんどの他のバーより長いバーに関連付けられる。これらの試料は、選択され、「除去」できる。これにより、ツールは、選択された試料を除去した修正された入力試料セットに基づいて、ワークスペースにある下の試料セットを実際に変更することなく、全てのTスコアおよびランクを再度計算する。
【0458】
解析を実行するさい、アプリケーションは、入力試料セットの試料に反復適用される。各試料に対して、アプリケーションは、試料セットからの試料を除去し、N遺伝子の全ての対比に対してtスコアを再計算し、最大または最小tスコアにより遺伝子を再度ランク付けし、各遺伝子のオリジナルのランキングを新しいランクから減算し、差の絶対値を計算する。次に、N遺伝子に対するこれらの絶対ランク差の中央値が計算される。最後に、中央値は、「Leave One Outプロット」の各試料に対して報告される。
【0459】
「対比解析」とともに使用するために利用可能なさまざまなメニューオプションがあることが好ましい。これらのオプションは、「新しい対比解析」ウィンドウを開く「ファイル」、「新規」タブと、以前に保存した対比解析を開くことができる「対比解析を選択」ウィンドウを開く「ファイル」、「開く」タブと、対比の名前を付け保存できる「対比解析を保存」ウィンドウを開く「ファイル」、「対比解析を保存」タブと、「対比解析」からの結果の遺伝子セットを保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「遺伝子セットを保存」タブと、選択された遺伝子断片を固有の遺伝子セットとして保存できる「遺伝子セットを保存」ウィンドウを開く「ファイル」、「選択された遺伝子を保存」タブと、結果を出力保存するためのオプションを与える「ファイル」、「出力保存」タブと、結果を表示するために第3者のアプリケーションにアクセスするためのオプションを与える「ファイル」、「呼び出す」タブと、ページレイアウトを設定し結果を印刷するための「ページ設定」ウィンドウを開く「ファイル」、「印刷」タブと、「対比解析」ウィンドウを閉じる「ファイル」、「閉じる」タブとを含む。
【0460】
「対比解析」メニューは、以下のものをさらに含むことが好ましい。このメニューは、「計算」タブを開く「表示」、「計算フォーム」タブと、「結果」タブを開く「表示」、「結果」タブと、「結果」タブに詳細パネルを表示するトグルとなる「表示」、「詳細パネルを示す」タブと、遺伝子属性およびデータ値を表示する列を選択できる「ディスプレイ属性を選択」ウィンドウを開く「表示」、「ディスプレイ属性を選択」タブと、入力遺伝子セットかにマスキング遺伝子セットを適用するか、そこから除去する「遺伝子セットマスクを追加/除去」ウィンドウを開く「表示」、「遺伝子セットマスクを追加/除去」タブと、現在表示されている結果から選択された遺伝子を除去する「表示」、「選択された遺伝子を除去」タブと、結果から選択されていない遺伝子を除去する「表示」、「選択されていない遺伝子を除去」タブと、結果をオリジナルの状態にリセットする「表示」、「オリジナル遺伝子セットにリセット」と、結果を並び替える「表示」、「並び替え」タブと、「プロットオプション」ウィンドウを開く「プロットプション」タブとを含む。
【0461】
本発明の追加の好適な態様は、断片インデックスおよび遺伝子照会属性ツリーである。本発明のこれらのコンポーネントの態様は、遺伝子インデックスにおける異種間の相同と、共クラスタリングされた配列とGenBank Accessionによる検索と、BLASTのヒット数および警告と、遺伝子オントロジーと、遺伝子照会属性ツリーとを含む。
【0462】
異種間の相同は、遺伝子インデックスにおいて2つの主要な方法で表される。すなわち、マウスゲノムデータベース(MGD)から相同遺伝子の修正リストを使用する既知遺伝子間の関係と、蛋白質配列との共有類似性を使用する配列クラスタ間の関係である。
【0463】
MGDからのリストは、マウスとヒトの遺伝子と、マウスとラット遺伝子の相同対からなる。遺伝子インデックスにおいて、「ヒト→ラット」相同は、「ラット→マウス」と「マウス→ヒト」の関係の推移的な延長にも含まれる。異種間の相同に対応する遺伝子断片(すなわち、プローブセット)は、「相同」下にある「異種間相同の断片」照会オプションを介してアクセス可能である。データを出力保存して、他の種の脈絡において遺伝子セットとしてリストを取り込むことにより、他の種へ適用することができる。
【0464】
これらの遺伝子レベルの相同は、「既知の遺伝子」照会オプションを介して、照会および表示の両方にアクセス可能であり、所与の個々の断片に対して「属性」詳細パネルにも表示される。
【0465】
2つの配列クラスタが、UniGeneからのPROTSIMデータにより決定されるように、同じ蛋白質配列に対する相同を共有すれば、各々は、相同クラスタとして他方のものに向かう。相同クラスタは、同じ種または異なる種からのものであってよい。
【0466】
高い頻度で、遺伝子インデックスのユーザは、配列のGenBank受入を有し、この配列に対応するチップ上の断片(プローブセット)を見つけることを望む。これを行うための適切な方法は、「AFFX遺伝子断片」下の共クラスタリングされた配列を検索することにより行われる。所与のAffymetrix遺伝子断片に対して、共クラスタリングされた配列は、断片として同じ配列クラスタ(または複数のクラスタ)にあるUniGeneにある全ての配列を含む。これにより、ESTの非常に優れた分布範囲が得られる。正確な受入が既知のものであれば(または、受入のリストが、「属性による取り込み」方法を用いて利用可能であれば)、「マッチ」を用いることが著しく高速である。
【0467】
多数の「Affymetrix遺伝子断片」は、同じ配列クラスタに相当してよい。所与の断片と同じ「配列クラスタ」にある「Affymetrix遺伝子断片」を見つけるために、「共クラスタリングされたAFFX断片(「関連する他のAFFX断片」下にある)を用いて検索する。
【0468】
「共クラスタリングされたAFFX断片」は、開始するチップセットに加えて、他のチップセットにある断片を含んでよい。例えば、Hu42Kチップセットにある所与の「Affymetrix遺伝子断片」の共クラスタリング断片は、Hu42KチップセットおよびHG_U95チップセットの両方にある断片を含んでよい。
【0469】
「BLASTヒット数および警告」にあるデータは、2つのソースからのものである。1つは、Affymetrixにより与えられる問題のある断片のリストである。もう1つは、全長転写のNCBIのRefseqデータベースに対するsif配列(断片詳細ビューにおける「貼り付け領域配列」)のBLASTである。チップ上のオリゴマープローブは、sif配列のサブセットから生じる。感度閾値より大きいBLASTヒット数(sif配列長の80%を上回る97%アイデンティティ)は、3つの分類に分けられる。すなわち、sif配列がアンチセンス鎖にマッチすれば、警告メッセージが「間違った鎖とマッチ」に設定されることと、センス鎖にマッチすれば、転写の3’末端とのマッチの最小、最大、および平均距離が計算され、最小距離、平均距離、および最大距離フィールドに入力されることと、3’末端の平均距離が1000ヌクレオチドより大きければ、警告メッセージが「3’末端から遠いプローブ」に設定されることである。
【0470】
全ての場合において、Refseq配列のGenBank受入は、RefSeq IDフィールドに入力され、対応する遺伝子の記号は、遺伝子フィールドに現れる。「Affymetrix遺伝子断片」の「断片警告」属性は、「BLASTヒット数および警告」のデータから生じる。「断片警告」の初期設定は「いいえ」である。問題のある断片のAffymetrixリストにその断片があるなら、または、警告があるBLASTヒット数がありながら警告のないBLASTヒットがないならば、「はい」に設定される。
【0471】
遺伝子オントロジーコンソーシアム(http://genome−www.stanford.edu/GO/)は、細胞における遺伝子および蛋白質の役割の知識が蓄積し変化しても、全ての真核生物に適用可能な動的に統制された用語を与えるための公開プロジェクトである。生物学の専門用語のオントロジーは、多数のデータストレージ、検索、および解析タスクの意味的フレームワークを形成するために使用可能な生物学的概念のモデルを与える。このような意味的フレームワークは、さまざまな異種のバイオインフォマティックスデータのシームレス統合を行うために使用でき、それらの間での均一な照会を可能にする。
【0472】
遺伝子オントロジー(GO)という用語は、3つの異なる原理により規定される。すなわち、個々の遺伝子産物により実行されるタスクを記述し、例として、転写ヘリカーゼが挙げられる分子機能と、広範囲な生物学的目標を記述し、分子機能の配列された集合により達成され、例として、プリン代謝過程が挙げられる生物学的過程と、サブセルラー構造、位置、および高分子錯体を含み、例として、核、末端小粒、複製開始点認識複合体が挙げられる分子成分である。
【0473】
本発明のさまざまな目的を達成するための本発明のさまざまな好適な実施形態について上述した。これらの実施形態は、本発明の原理を説明したものにすぎなことを認識されたい。それらの多数の修正および適応は、本発明の主旨および範囲から逸脱することなく、当業者に容易に明らかなものであろう。
【図面の簡単な説明】
【0474】
【図1】本発明の一実施形態によるデータウェアハウスのスターリレーショナルスキーマの図である。
【図2】本発明の一実施形態によるデータベースサービスを提供するための適切な計算アーキテクチャのブロック図である。
【図3】本発明の一実施形態によるデータウェアハウスのブロック図である。
【図4】本発明の一実施形態による試料空間に含まれる可能性のある試料特性の図である。
【図5】本発明の一実施形態による試料空間をモデリングするためのスノーフレークスキーマの図である。
【図6】本発明の一実施形態による遺伝子注解空間をモデリングするためのスノーフレークスキーマの図である。
【図7】本発明の一実施形態による遺伝子発現空間をモデリングするためのスノーフレークスキーマの図である。
【図8】本発明による完全性制約強制メカニズムの図である。
【図9】本発明による受入過程の図である。
【図10】本発明による過程の流れの図である。
【図11】対比解析の図である。
【図12】対比解析の図である。
【図13】対比解析の図である。

Claims (21)

  1. 効率的な探究および解析を支援するリレーショナルフォーマットにおいて、遺伝子発現、遺伝子注解、および試料情報を解析する方法であって、
    さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、DNA断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスを提供することと、
    1つ以上のDNA断片の遺伝子発現に関する照会を受信することと、1つ以上のDNA断片の遺伝子発現レベルを決定することと、遺伝子発現レベルを臨床データベースと断片インデックスに相関させること、
    および前記相関の結果を表示することとを含む方法。
  2. 前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項1に記載の方法。
  3. 前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項1に記載の方法。
  4. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つのDNA断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項1に記載の方法。
  5. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つの遺伝子発現シグネチャを比較し、4つのDNA遺伝子断片セット、すなわち、第1の遺伝子シグネチャの存在遺伝子セットと第2の不在遺伝子セットとの両方にあるものと、第1の遺伝子シグネチャの不在遺伝子セットと第2の存在遺伝子セットとの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものとを引き出す、遺伝子シグネチャ差解析をさらに含む、請求項1に記載の方法。
  6. 遺伝子発現、遺伝子注解、および試料情報の解析は、DNA断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項1に記載の方法。
  7. 遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたったユーザ選択の百分位数の一対に対して、DNA断片を同定するEノーザン解析をさらに含む、請求項1に記載の方法。
  8. さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、DNA断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスと、
    1つ以上のDNA断片の遺伝子発現に関する照会を受信し、遺伝子発現レベルを臨床データベースと断片インデックスに相関させた結果を表示できるユーザインタフェースとを含むコンピュータシステム。
  9. 前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項8に記載のコンピュータ。
  10. 前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項8に記載のコンピュータ。
  11. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つのDNA断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項8に記載のコンピュータ。
  12. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つの遺伝子発現シグネチャを比較し、4つのDNA遺伝子断片セット、すなわち、第1の遺伝子シグネチャの存在遺伝子セットと第2の不在遺伝子セットとの両方にあるものと、第1の遺伝子シグネチャの不在遺伝子セットと第2の存在遺伝子セットとの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものとを引き出す、遺伝子シグネチャ差解析をさらに含む、請求項8に記載のコンピュータ。
  13. 遺伝子発現、遺伝子注解、および試料情報の解析は、DNA断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項8に記載のコンピュータ。
  14. 遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたるユーザ選択の百分位数の一対に対し、DNA断片を同定するEノーザン解析をさらに含む、請求項8に記載のコンピュータ。
  15. さまざまなアッセイを用いてスクリーニングされた組織および細胞株に対する量的な遺伝子発現測定値を格納するための遺伝子発現データベースと、生体試料およびドナーに関する情報を格納するための臨床データベースと、およびDNA断片の生物学的特性に対する断片インデックスとを含むデータウェアハウスに関係するコンピュータ読取りプログラムコードを組み込んだコンピュータ使用可能媒体を含むコンピュータプログラム製品であって、
    1つ以上のDNA断片の遺伝子発現に関する照会を受信するためのインタフェースを提供するステップと、
    1つ以上のDNA断片の遺伝子発現レベルを決定するステップと、
    遺伝子発現レベルを臨床データベースと断片Sインデックスに相関させるステップ、および
    前記相関の結果を表示するステップ、
    という手順をコンピュータシステム内で実行するための、コンピュータ読取り可能プログラムコードを含む、コンピュータプログラム製品。
  16. 前記データウェアハウスは、スターリレーショナルスキーマで作成される、請求項15に記載のコンピュータプログラム製品。
  17. 前記データウェアハウスは、スノーフレークリレーショナルスキーマで作成される、請求項15に記載のコンピュータプログラム製品。
  18. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つのDNA断片セット、すなわち、試料セット内で一貫して発現するものと一貫して発現しないものとを、同定することをさらに含む、請求項15に記載のコンピュータプログラム製品。
  19. 遺伝子発現、遺伝子注解、および試料情報の解析は、2つの遺伝子発現シグネチャを比較し、4つのDNA遺伝子断片セット、すなわち、第1の遺伝子シグネチャの存在遺伝子セットと第2の不在遺伝子セットとの両方にあるものと、第1の遺伝子シグネチャの不在遺伝子セットと第2の存在遺伝子セットの両方にあるものと、両方の存在遺伝子セットにあるものと、両方の不在遺伝子セットにあるものと、を引き出す遺伝子シグネチャ差解析をさらに含む、請求項15に記載の方法。
  20. 遺伝子発現、遺伝子注解、および試料情報の解析は、DNA断片対の間で発現差のある遺伝子の発現の変化を定量化するフォールド変化解析をさらに含む、請求項15に記載のコンピュータプログラム製品。
  21. 遺伝子発現、遺伝子注解、試料情報の解析は、試料の値にわたったユーザ選択の百分位数の一対に対して、DNA断片を同定するEノーザン解析をさらに含む、請求項15に記載の方法。
JP2002569930A 2001-03-05 2002-03-05 遺伝子発現データの管理システムおよび方法 Pending JP2004535612A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79783001A 2001-03-05 2001-03-05
PCT/US2002/006684 WO2002071059A1 (en) 2001-03-05 2002-03-05 A system and method for managing gene expression data

Publications (1)

Publication Number Publication Date
JP2004535612A true JP2004535612A (ja) 2004-11-25

Family

ID=25171905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002569930A Pending JP2004535612A (ja) 2001-03-05 2002-03-05 遺伝子発現データの管理システムおよび方法

Country Status (4)

Country Link
EP (1) EP1366359A1 (ja)
JP (1) JP2004535612A (ja)
CA (1) CA2440035A1 (ja)
WO (1) WO2002071059A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
JPWO2006001397A1 (ja) * 2004-06-25 2008-04-17 独立行政法人産業技術総合研究所 細胞ネットワーク解析システム
JP2009520278A (ja) * 2005-12-16 2009-05-21 ネクストバイオ 科学情報知識管理のためのシステムおよび方法
JP2014508994A (ja) * 2011-01-19 2014-04-10 コーニンクレッカ フィリップス エヌ ヴェ ゲノムデータ処理方法
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
US10303845B2 (en) 2010-07-05 2019-05-28 Sony Corporation Biological information processing method and device, recording medium and program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279397B (zh) * 2015-10-26 2017-12-19 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN107368700A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于计算云平台的微生物多样性交互分析系统及其方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185561B1 (en) * 1998-09-17 2001-02-06 Affymetrix, Inc. Method and apparatus for providing and expression data mining database

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943668A (en) * 1997-06-30 1999-08-24 International Business Machines Corporation Relational emulation of a multi-dimensional database

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185561B1 (en) * 1998-09-17 2001-02-06 Affymetrix, Inc. Method and apparatus for providing and expression data mining database

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RINGWALD M., ET AL.: "GXD: a Gene Expression Database for the laboratory mouse", NUCLEIC ACIDS RESEARCH, vol. 27, no. 1, JPN4006004588, 1999, GB, pages 106 - 112, XP008106207, ISSN: 0000720653, DOI: 10.1093/nar/27.1.106 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2006001397A1 (ja) * 2004-06-25 2008-04-17 独立行政法人産業技術総合研究所 細胞ネットワーク解析システム
JP2006294014A (ja) * 2005-03-16 2006-10-26 Kumamoto Technology & Industry Foundation 解析プログラム、プロテインチップ、プロテインチップの製造方法、および、抗体カクテル
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US8275737B2 (en) 2005-12-16 2012-09-25 Nextbio System and method for scientific information knowledge management
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
JP2009520278A (ja) * 2005-12-16 2009-05-21 ネクストバイオ 科学情報知識管理のためのシステムおよび方法
US9633166B2 (en) 2005-12-16 2017-04-25 Nextbio Sequence-centric scientific information management
US10127353B2 (en) 2005-12-16 2018-11-13 Nextbio Method and systems for querying sequence-centric scientific information
US10275711B2 (en) 2005-12-16 2019-04-30 Nextbio System and method for scientific information knowledge management
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
JP2018042560A (ja) * 2010-07-05 2018-03-22 ソニー株式会社 生体情報処理装置および方法、並びにプログラム
US10303845B2 (en) 2010-07-05 2019-05-28 Sony Corporation Biological information processing method and device, recording medium and program
JP2020062015A (ja) * 2010-07-05 2020-04-23 ソニー株式会社 生体情報処理装置および方法、並びにプログラム
US11710535B2 (en) 2010-07-05 2023-07-25 Sony Corporation Biological information processing method and device, recording medium and program
JP2014508994A (ja) * 2011-01-19 2014-04-10 コーニンクレッカ フィリップス エヌ ヴェ ゲノムデータ処理方法

Also Published As

Publication number Publication date
EP1366359A1 (en) 2003-12-03
WO2002071059A1 (en) 2002-09-12
CA2440035A1 (en) 2002-09-12

Similar Documents

Publication Publication Date Title
US20030171876A1 (en) System and method for managing gene expression data
US20030009295A1 (en) System and method for retrieving and using gene expression data from multiple sources
Ainscough et al. A deep learning approach to automate refinement of somatic variant calling from cancer sequencing data
US7428554B1 (en) System and method for determining matching patterns within gene expression data
US6229911B1 (en) Method and apparatus for providing a bioinformatics database
JP4594622B2 (ja) 薬発見法
US20060020398A1 (en) Integration of gene expression data and non-gene data
US8364665B2 (en) Directional expression-based scientific information knowledge management
US20060074824A1 (en) Prediction by collective likelihood from emerging patterns
US7650343B2 (en) Data warehousing, annotation and statistical analysis system
RU2764557C1 (ru) Способы и системы для трансформаций матриц, основанных на разреженных векторах
Greenberg DNA microarray gene expression analysis technology and its application to neurological disorders
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
WO2001069430A1 (en) Database system and method
US20170169174A1 (en) Detection of fraud or abuse
US20040234995A1 (en) System and method for storage and analysis of gene expression data
Gruber et al. Introduction to dartR
JP2004535612A (ja) 遺伝子発現データの管理システムおよび方法
Kim et al. Significance analysis of lexical bias in microarray data
Dresen et al. Software packages for quantitative microarray-based gene expression analysis
Markowitz et al. Applying data warehouse concepts to gene expression data management
Chung et al. Decoding the exposome: data science methodologies and implications in exposome-wide association studies (ExWASs)
Simon BRB-ArrayTools Version 4.3
Kirsten et al. A data warehouse for multidimensional gene expression analysis
Wang et al. SoftPanel: a website for grouping diseases and related disorders for generation of customized panels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060606

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060913

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061128