JP2004512494A - ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置 - Google Patents

ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置 Download PDF

Info

Publication number
JP2004512494A
JP2004512494A JP2001555874A JP2001555874A JP2004512494A JP 2004512494 A JP2004512494 A JP 2004512494A JP 2001555874 A JP2001555874 A JP 2001555874A JP 2001555874 A JP2001555874 A JP 2001555874A JP 2004512494 A JP2004512494 A JP 2004512494A
Authority
JP
Japan
Prior art keywords
sequence
exon
nucleic acid
microarray
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001555874A
Other languages
English (en)
Inventor
シャロン・ゲイナー・ペン
デイビッド・ラッセル・ランク
デイビッド・カジェン・ハンゼル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aeomica Inc
Original Assignee
Aeomica Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aeomica Inc filed Critical Aeomica Inc
Priority claimed from PCT/US2001/002967 external-priority patent/WO2001057251A2/en
Publication of JP2004512494A publication Critical patent/JP2004512494A/ja
Pending legal-status Critical Current

Links

Images

Abstract

ゲノム配列データから機能領域を推定、確認および表示する方法および装置が提供される。本方法および装置はゲノム配列データ内でコード領域を推定する、その発現を実験的に確認する、また、発現データをゲノム配列と有意義な関係で関連づけて表示するのに特に有用である。従って本発明の方法および装置は新規な遺伝子の発見に有効なツールとなる。

Description

【0001】
(発明の分野)
本発明はバイオインフォマティクスおよび分子生物学の分野にあり、特にゲノム配列から導き出された機能情報を推定、確認および表示する分析方法および装置に関する。本発明は特に、遺伝子をコードするゲノム配列部分を同定する方法および装置に、その発現をアッセイするためのゲノム由来の単一エクソン核酸マイクロアレイのデザイン、製造および使用に、またゲノム配列を発現情報で注釈付けして表示する方法および装置に関する。
【0002】
(発明の背景)
核酸シーケンシングのための全般的な技術が発明(Sanger et al., Proc. Natl. Acad. Sci. USA 70(4):1209−13 (1973); Gilbert et al., Proc. Natl. Acad. Sci. USA 70 (12):3581−4 (1973))されてからほぼ20年間、これらの技術は主として、すでに生物学的知見の基礎が確立されているタンパク質をさらに理解する、すなわち知見を得たり予測したりするためのツールとして用いられた。多くの場合、配列同定に先立つクローニングの試みは先行する生物学的理解によって情報が与えられもし、導かれもしてきた。
【0003】
例えば、抗原に対するT細胞受容体のクローニングは、その既知の、あるいはその予測される膜会合により、またT細胞特異的体細胞組換えによるその遺伝子の推定される構成により予測される細胞種特異的発現に基づいて推定された(Hedrick et al., Nature 308 (5955):149−53 (1984))。それに次ぐシーケンシングの試みが直ちにそのタンパク質ファミリーを確定し、理解を高めた(Hedrick et al., Nature 308(5955):153−8 (1984))。
【0004】
しかしながら最近になって、ヒトその他のゲノムを配列決定する公開・非公開の大きな事業に関してハイスループット・シーケンシング法および装置の開発はこの研究パラダイムを変え、今日、配列情報はコードされるタンパク質産物の基礎的な生物学の理解をしばしば進展させている。
【0005】
大規模シーケンシングのアプローチの一つは、発現した配列、すなわちmRNAの単離を通して理解できるものが最初に最も重要視されるものであるという命題に基づくものである。この「発現配列タグ」(「EST」)のアプローチはすでに膨大な配列データをもたらしている(Adams et al., Science 252:1651 (1991); Williamson, Drug Discov. Today 4:115 (1999); Strausberg et al., Nature Genet. 15:415 (1997); Adams et al., Nature 377 (suppl.):3 (1995); Marra et al., Nature Genet. 21:191 (1999))。このアプローチによって配列決定された核酸については、何らかの確実性をもってアプリオリに知られる生物学的情報だけがそれ自体生物学的に表現されることがしばしばである。元々mRNAが得られた種および組織によって、このような配列の大部分もまた、発現がおそらく見られる種および少なくとも1つの組織がその旨注釈付けされる。
【0006】
さらに最近では、ゲノムシーケンシングのペースが劇的に加速化されてきた。ゲノムDNAが配列決定の試みにとっての最初の基質となる場合には発現は推定できず、その配列についてのアプリオリな生物学的情報だけが起源の種および染色体(およびおそらく染色体マップの位置)を含むことが多い。
【0007】
方向性をもったESTおよびゲノムシーケンシグのアプローチによる配列集積のこれまで加速化しているペースをもってすれば、また特に複数の属、属内の複数の種、また種内の複数の個体からの配列情報の集積をもってすれば、核酸配列の機能を迅速かつ効果的に解明可能とする方法がますます必要となる。そしてこのような機能情報が集積すると、配列自体との有意義かつ有用な関係においてこのような機能情報を保存する方法がさらに必要となり、すなわち、既知の、または推定される機能情報で生の配列データを注釈付けする手段および装置がますます必要となる。
【0008】
ゲノムシーケンシングのペースの高まりは配列決定の方法論および装置の技術変化によるところが大きいが(Service, Science 280:995 (1998); Pennisi, Science 283:1822−1823 (1999))、同時に重要な機能的モチベーションが存在する。
【0009】
ESTのアプローチはゲノムの非コード部分についての配列情報が得られるのはまれであると考えられていたが、現在では、ESTのアプローチはゲノムの実際の発現の複雑性を断片的にだけではあるが捉えることができるものと思われている。
【0010】
例えば、C.エレガンス(C. elegans)ゲノムが完全に配列決定されたとき、遺伝子推定アルゴリズムにより19,000を超える潜在的遺伝子が確認されているが、そのうち7,000のみがESTシーケンシングにより見出されたものであった(C. elegans Sequencing Consortium, Science 282:2012 (1998))。同様に、最近完了したアラビドプシス(Arabidopsis)の第2染色体の配列決定では4000を超える遺伝子が推定されているが(Lin et al., Nature, 402:761 (1999))、そのうちESTシーケンシングの試みによってこれまでに同定されているのは約6%に過ぎない。ヒトゲノムはEST範囲の最も重要な部分を占めているが、その遺伝子の全てを解明するにはまだ甚だ短い。ある最近の評価ではヒト遺伝子は146,000を超える遺伝子を含み、その時点でまだ発見されていない遺伝子は半分より多いことが示唆されている。現在のところ、多くの遺伝子、おそらく20ないし50%はゲノムシーケンシングによって見つけるしかないと予測される。
【0011】
従って、ゲノム配列の機能領域、もっぱらというわけではないが最も重要なものとしては、遺伝子をコードする機能をもつ領域を同定可能とする方法が必要である。
【0012】
ヒトゲノムのコード配列の多くは既知の遺伝子と相同でなく、オープンリーディングフレーム(「ORF」)の検出や遺伝子機能の推定は困難なものとなる。真核生物ゲノムにおけるコード領域を推定するにはコンピューター的方法が存在する。GRAILおよびGRAIL IIなどの遺伝子推定プログラム(Uberbacher et al., Proc. Natl. Acad. Sci. USA 88(24):11261−5 (1991); Xu et al., Genet. Eng. 16:241−53 (1994); Uberbacher et al., Methods Enzymol. 266:241−53 (1994); Uberbacher et al., Methods Enzymol. 266:259−81 (1996); GENEFINDER, Solovyev et al., Nucl. Acids. Res. 22:5156−63 (1994); Solovyev et al., Ismb 5:294−302 (1997);およびGENESCAN, Burge et al., J. Mol. Biol. 268:78−94 (1997))では既知の相同性または機能を持たない多くの推定遺伝子を推定する。しかしながら、このようなプログラムは高い偽陽性率を示すことが知られている(Burset et al., Genomics 34:353−367 (1996))。このようなプログラムの複数によって得られた共通配列を用いれば、ゲノム配列からエクソンを呼び起こす確実性が高まることが知られている(Ansari−Lari et al., Genome Res. 8(1):29−40 (1998))。
【0013】
しかし、ゲノムデータからの機能的遺伝子の同定は依然として不完全な技術である。例えば、ヒト第21染色体の全配列の報告として、第21染色体マッピング・シーケンシング・コンソーシアムは、ヒトの遺伝子数に関する先行のバイオインフォマティクスでの評価を実質的に下方修正する必要があると報告している(Nature 405:311−199 (2000); Reeves, Nature 405:283−284 (2000))。
【0014】
このように、バイオインフォマティクス的に得られた領域の機能、特にタンパク質をコードすると推定される領域の発現が実験的に容易に確認可能とする方法および装置が必要である。
【0015】
最近、核酸マイクロアレイの開発によって遺伝子発現の自動・高度平行測定が可能となってきた(その開示を出典明示により本明細書にそのまま組み入れる、Schena (ed.), DNA Microarrays: A Practical Approach (Practical Approach Series), Oxford University Press (1999) (ISBN: 0199637768); Nature Genet. 21(1) (suppl):1 − 60 (1999); Schena (ed.), Microarray Biochip: Tools and Technology, Eaton Publishing Company/BioTechniques Books Division (2000) (ISBN: 1881299376)に総説)。
【0016】
I.M.A.G.E. consortium, Lennon et al., ”The I.M.A.G.E. Consortium: an Integrated Molecular Analysis of Genomes and Their Expression, Genomics 33(1):151−2 (1996)などの文献にこれまでに記載されているものに由来するか、または特定の生物学的課題を狙いとした「課題特異的」ライブラリーの構築(R.S. Thomas et al., Cancer Res. (印刷中))に由来するcDNA/ESTライブラリーに由来することはマイクロアレイに共通することである。定義によればこのようなマイクロアレイはESTライブラリーで見出された遺伝子の発現のみを測定することができ、従ってゲノムシーケンシングによってのみ発見される遺伝子のプローブとしては有用でなかった。
【0017】
ある生物学的課題の答えを出すために全ゲノム核酸マイクロアレイを用いる有用性は酵母サッカロミセス・セレビシエ(Saccharomyces cerevisiae)に関して証明されている(De Risi et al., Science 278:680 (1997))。しかしながら、酵母核遺伝子の大多数、約95%は単一のエクソン遺伝子であり、すなわちイントロンを欠き(Lopez et al., RNA 5:1135−1137 (1999); Goffeau et al., Science 274:563−67 (1996))、コード領域がより容易に同定され得る。全ゲノム核酸マイクロアレイは一般にはより複雑な真核生物ゲノムからの、特に1遺伝子につき平均1を超えるイントロンのものからの遺伝子発現を探知するためには用いられてこなかった。
【0018】
(発明の概要)
本発明はゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置を提供することで当技術分野におけるこれら、またその他の課題を解決するものである。
【0019】
ある態様では、本発明は、ゲノム配列から機能領域を推定する、かかる領域の機能活性を実験的に確認および同定し、さらに元の配列データとの有意義かつ有用な関係において、このようにして得られた情報を結びつけて表示する方法を提供する。
【0020】
関連の態様では、本発明は、ゲノム配列内で同定された推定遺伝子の発現を確認する装置を提供する。特に本発明は、ゲノム配列内で同定された推定遺伝子の発現を確認するのに有用な、新規なるゲノム由来単一エクソン核酸マイクロアレイを提供する。
【0021】
もう1つの態様では、本発明は、本発明のゲノム由来単一エクソン核酸マイクロアレイ上のプローブと配列が同じであるか、または配列が実質的に同じ核酸の容易な作出のための組成物およびキットを提供する。
【0022】
さらなる態様では、本発明は、プローブに対応する整列された一連の増幅可能なプローブ、またはその上に1以上のサブセットのプローブとともにパッケージングされたゲノム由来単一エクソンマイクロアレイを提供する。もう1つの実施態様では、指定のセットの増幅可能なプローブはゲノム由来単一エクソンマイクロアレイとは別にパッケージングされる。
【0023】
もう1つの態様では、本発明は、特に本発明の方法および装置に従って注釈付けされた配列を表示するための、注釈付け配列を表示する手段を提供する。さらに、かかるディスプレーはかかる注釈付け配列の電子検索、問合せ、および解析のための好ましいグラフィック・ユーザー・インターフェースとして使用できる。
【0024】
もう1つの態様では、本発明は、遺伝子発現解析のために、特にマイクロアレイによる遺伝子発現解析のために有用なゲノム由来単一エクソン核酸プローブを提供する。本発明は特に、1以上の組織で発現することが知られるゲノム由来単一エクソンプローブを提供する。
【0025】
(発明の詳細な説明)
定義
本明細書で用いられる「マイクロアレイ」および同等の「核酸マイクロアレイ」とは、支持体に結合した複数の核酸のコレクションをさし、結合した複数の核酸の各々とのハイブリダイゼーションは個別に検出できる。支持体は固体または多孔質、平面または非平面、単一または分布していてもよい。
【0026】
このように定義される「マイクロアレイ」および「核酸マイクロアレイ」とは、いわゆるSchena (ed.), DNA Microarrays: A Practical Approach (Practical Approach Series), Oxford University Press (1999) (ISBN: 0199637768); Nature Genet. 21(1) (suppl):1 − 60 (1999);およびSchena (ed.), Microarray Biochip: Tools and Technology, Eaton Publishing Company/BioTechniques Books Division (2000) (ISBN: 1881299376)(なお、これらの開示は出典明示によりそのまま本明細書の一部とする)の装置の全てを含む。
【0027】
このように定義される「マイクロアレイ」および「核酸マイクロアレイ」とはまた、とりわけその開示が出典明示によりそのまま本明細書の一部とする、Brenner et al., Proc. Natl. Acad. Sci. USA 97(4):166501670 (2000)に記載される単一平面支持体よりもむしろ複数のビーズ上に核酸が分布配置される複数の核酸の支持体結合コレクションも含み、このような場合、「マイクロアレイ」および「核酸マイクロアレイ」とは凝集状態にある複数のビーズをさす。
【0028】
核酸マイクロアレイに関して本明細書で用いられる「プローブ」とは、支持体に結合された、あるいは結合させようとする核酸をさす。液相ハイブリダイゼーションに関して本明細書で用いられる「プローブ」とは、検出可能なように標識された、あるいは標識しようとする既知配列の核酸をさす。このようないずれかのものに関して「標的」とは、ワトソン−クリックの相補性によってプローブと結合させようとする核酸をさす。
【0029】
本明細書で用いられる「配列番号〜を含むプローブ」およびその変形は核酸プローブを意味し、そのプローブの少なくとも一部が(i)参照の配列番号で直接示される配列、または(ii)参照の配列番号で示される配列に相補的な配列のいずれかを有し、直接示される配列とその相補物との間の選択は、プローブが所望の標的と相補的であるという必要条件によって指定される。
【0030】
本明細書で用いられる「プローブの発現」およびその言語変形は、そのプローブが、mRNAに由来する核酸と高いストリンジェンシーで検出可能なようにハイブリダイズすることを意味する。
【0031】
本明細書で用いられる「エクソン」とは、天然タンパク質の部分をコードするとバイオインフォマティクス的に推定される核酸配列をさす。
【0032】
本明細書で用いられる「オープンリーディングフレーム」および同等の頭文字「ORF」はその全体が隣接するアミノ酸配列へと翻訳され得るエクソン部分をさす。このように定義されるORFはその個々のエクソン内に完全に含まれ、ヌクレオチド長で計った場合、ちょうど3分できる長さを有する。このように定義されるORFは天然タンパク質の全体を必ずしもコードする必要はない。
【0033】
本明細書で用いられる「選択的スプライシング」およびその言語的に同等な表現は単一の遺伝子から複数のイソ型タンパク質の発現をもたらすあらゆる種類のRNAプロセッシングを含み、従って、「スプライシング変異体」およびその言語的に同等な表現は、ある遺伝子から転写されたが、プロセッシングされ、複数のイソ型タンパク質を集合的にコードするmRNAを包含する。
【0034】
例えば、例示に過ぎないが、スプライシング変異体としてはエクソンの挿入、伸張、エクソンの末端切断、エクソンの欠失、5’非翻訳領域における選択肢(「5’UT」)および3’非翻訳領域における選択肢(「3’UT」)が挙げられる。かかる3’選択肢としては、例えば、RNA転写物の切断部位およびポリ(A)付加部位の違いが挙げられる。例えば、Gautheret et al., Genome Res. 8:524−530 (1998)参照。
【0035】
本明細書で用いられる「特異的結合対」とは互いに高い特異性で結合する分子対を意味する。結合対は典型的には少なくとも10、好ましくは少なくとも10、より好ましくは少なくとも10リットル/モルの親和性または結合力を有する。限定されるものではないが、特異的結合対の例としては、抗体と抗原、ビオチンとアビジン、およびビオチンとストレプトアビジンが挙げられる。
【0036】
注釈付けゲノム配列のビジュアルディスプレーに関して本明細書で用いられる「方形」とは、少なくとも第1および第2の境界を有し、第1および第2の境界の各々がそのディスプレーの別のビジュアルオブジェクトの点に対して独自にマッピングされ得る幾何学的形状を意味する。
【0037】
ゲノム配列の機能領域を同定、確認および表示する方法および装置
図1は本発明の第1の態様、すなわち、ゲノム配列から機能領域を推定、また、かかる領域の機能活性を実験的に確認および同定し、次いでこのようにして得られた情報を、元のゲノム配列データとの有意義かつ有用な関係において結びつけて表示する方法を広義の概略において示すフローチャートである。
【0038】
最初に本発明のプロセス10へ入力したものはゲノム配列データを含む1以上のデータベース100から抽出される。ゲノム配列は通常はサブゲノム断片から得られるので、その配列データは典型的にはこれらのサブゲノム配列決定断片に対応する一連のレコードに保存する。連鎖させてより大きな隣接配列(「コンティグ」)を形成したものもあるし、そうでないものもある。データベースの配列データの限定パーセンテージは誤りがあるのが典型で、とりわけベクター配列、異常なクローニング結果から作出された配列、人工ポリリンカーの配列、および誤って読み取られた配列からなる。
【0039】
データベース100の各配列レコードは最低、注釈付けとして独自の配列識別名(登録番号)を含み、さらに登録日、起源種および寄託者を識別するために注釈付けされるのが典型である。データベース100は非ゲノム配列も含み得るので、各配列はさらにゲノム配列に関するクエリー検索を可能とするよう注釈付けされるのが典型である。染色体の起源を所望によりマップ位置を添えて示すこともできる。データは、下記のようにある部分本発明の使用を通じて追加情報でさらに注釈付け可能であり、経時的に増大する。注釈付けはデータレコード内の、データベース100の外部の情報に存在していて、それに対するレコードと、あるいは2者の組合せによってリンクされている。
【0040】
本発明のゲノム配列データベース100として有用なデータベースとしては、GenBankが挙げられ、特にhtgs(ドラフト)、NT(ヌクレオチド、コマンドライン)およびNR(非重複)区分をはじめとするそのいくつかの区分が挙げられる。GenBankは国立衛生研究所によって設立され、国立バイオテクノロジー情報センター(NCBI)によって維持されている。マウス、ラット、アラビドプシス・サリアナ(Arabidopsis thaliana)、C.エレガンス、C.ブリグシー(C. brigsii)、ドロソフィラ・メラノガスター(Drosophila melanogaster)、ゼブラフィッシュその他の高等真核生物など、ヒト以外の種に由来するゲノム配列のデータベースもゲノム配列データベース100として有用であることが分かろう。
【0041】
次ぎに、ゲノム配列データベース100のクエリーによって得られたゲノム配列をユーザーによって指定される生体機能を有するものと推定される、領域をその中で同定するために1以上のプロセス200へ入力する。かかる機能としては、限定されるものではないが、タンパク質のコード、転写の調節、転写後のメッセージの輸送の調節、転写後のメッセージのスプライシングの調節、転写後のメッセージの分解の調節、染色体体細胞組換えへの寄与または調節、染色体の安定性または移動への寄与、対立遺伝子の排除またはX染色体の不活性への寄与などが挙げられる。
【0042】
プロセス200へ入力する特定のゲノム配列は、それに対して関連の配列が同定される機能ならびにかかる同定のために選択されるアプローチによって異なる。プロセスステップ200は所定のゲノム領域内で異なる機能を繰り返し同定できる。このような場合、入力は数回の繰り返しについて異なることが多い。
【0043】
プロセス200によって必要な機能を有すると推定された配列は次ぎに、プロセス300へ入力され、そこで実験的確認に好適な入力配列のサブセットが同定される。実験的確認は物理的アッセイおよび/またはバイオインフォマティクス的アッセイを含み得る。次ぎに続く実験アッセイが物理的なものでなく、バイオインフォマティクス的である場合には、供試できる配列に対する制約が少なくなり、従ってこの後者の場合、プロセス300は入力配列の全てを出力することができる。
【0044】
プロセス300からのサブセット配列の出力を、次ぎにプロセス200で推定された機能の実験的確認および同定のためのプロセス400に用いるが、この実験的確認は物理的アッセイとバイオインフォマティクス的アッセイの双方を含むことができ、そのような場合が多い。
【0045】
プロセス500はプロセス400の物理的アッセイおよび/またはバイオインフォマティクス的アッセイで得られた機能情報で配列データを注釈付けする。かかる注釈付けは、例えば配列データレコード自体に機能データを組み込むことによるか、ヒエラルキーデータベースまたはリレーショナルデータベースにおいてレコードをリンクさせることによるか、外部データベースへリンクさせることによるか、それらの組合せによるか、あるいはデータベース分野で周知の他の手段によって機能情報をその配列を有効に関連付けるいずれの技術を用いて行ってもよい。データはNCBIによって維持されているGenBankなど、他者により維持されているデータベースへの組み込むよう寄託することさえ可能である。
【0046】
図1にさらに示されるように、外部ソース600からプロセス500に追加の注釈付けを入力してもよい。
【0047】
この注釈付けデータは次ぎに、所望により、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリーなどのような非一時的媒体における任意の保存700の前、それと同時、またはその後にプロセス800に表示してもよい。
【0048】
図1はプロセス400からの実験データ出力はプロセス10の各々の前工程、例えば、プロセス200における機能配列の同定の補助、プロセス300における実験的に好適なサブセットの同定の補助、ならびにプロセス400における機能配列に関する物理的および/または情報的基板の作出およびその後の機能配列のアッセイの実行の補助に使用できることを示す。
【0049】
各工程からの情報は次のプロセスへそのまま送ることもできるし、あるいは次のプロセスへ送る前に常時保存または一時保存の形態で保存することもできる。データはかかるプロセスステップの各々の後、または少なくとも複数のプロセスステップの後に保存されることが多い。プロセスステップのいずれか、または全ては自動化することができる。
【0050】
図2はプロセス200に従うゲノム配列内の機能配列の推定をさらに詳しく示したものである。
【0051】
ゲノム配列データベース100はゲノム配列に関して第1のクエリー20を受ける。
【0052】
クエリー20による回答を要する配列は、この第1の場合では、同定する機能によって異なる。
【0053】
例えば、タンパク質をコードする働きをするゲノム配列はとりわけ遺伝子推定アプローチ、競合的配列解析アプローチ、または両者の組合せを用いて同定することができる。遺伝子推定解析では、あるゲノムからの配列をプロセス200に入力し、そこで少なくとも1つ、好ましくは複数のアルゴリズム法を適用して推定コード領域を同定する。競合的配列解析では、比較により、対応する、例えば合成の、複数の供給源、典型的には複数の種に由来する配列をプロセス200へ入力し、そこで少なくとも1つ、おそらくは複数のアルゴリズム法を適用して配列を比較し、変異性が最小の領域を同定する。
【0054】
クエリー20の正確な内容はまたクエリーを受けるデータベースによって異なる。例えば、そのデータベースがおそらくは複数の種に由来するゲノム配列と非ゲノム配列の双方を含み、かつ、推定する機能がヒトゲノムDNAにおけるタンパク質コードである場合には、それに応じてクエリーは、回答配列がゲノム性のものであって、ヒトに由来するものであることを要求する。
【0055】
問合せ20にはまた、次の解析法の実行要件に見合う配列を回答するようにする基準を組み込んでもよい。あるいは、またはそれに加えて、かかる実行基準は次ぎの予備プロセスステップ24で実施してもよい。
【0056】
例えば、同定しようとする機能がタンパク質コードである場合、問合せ20には、ゲノム配列データベース100から、複数の個別配列断片の中であるいずれかのエクソンの実質的断片化が回避されるに十分長いコンティグ内に存在する配列だけが回答するような基準を組み込んでもよい。
【0057】
かかる基準は例えば、10kb、より典型的には20kb、30kb、40kb、好ましくは50kb以上といった要求される最小個別ゲノム配列断片長からなり、ならびにバクテリア人工染色体(「BAC」)などのあるいずれかのクローンに由来する配列が、わずか20の個別片、より典型的にはわずか15断片、いっそう典型的にはわずか10ないし12断片といった限定最大断片数で提供されるという任意のさらなる、あるいは代わりの要件からなる。
【0058】
発明者らの結果は、バクテリア人工染色体(BAC)由来のゲノム配列が、その配列が少なくとも50kbの長さであり、かつ、加えてあるいずれかのBAC由来の配列が15未満、好ましくは10未満の断片で提供されるとすれば、本発明に従う遺伝子推定解析に十分であることを示した。従って、クエリー20にはBACシーケンシングから登録したデータが15未満、好ましくは10未満の断片であるという要件を組み込んでもよい。
【0059】
クエリーに組み込むことができるさらなる基準としては、配列登録の日付、または日付範囲があり得る。このプロセスは上ではゲノム配列データベース100がスタティックなものであるかのうように記載されているが、このゲノム配列データベースはもちろん必ずしもスタティックなものである必要はないと理解され、実際には頻繁に、時間単位でも更新されるのが典型である。このように、以下の実施例1および2にさらに記載されるように、絶対日付後に新たに追加されたか、または本発明の方法および装置を用いて行われる解析の相対的前に新たに追加されたかのいずれかの新たに追加された配列についてデータベースをクエリー検索できる。このように、本明細書に記載されるプロセスは動的な一時的構成要素を組み込むことができる。
【0060】
かかる一時的制限の有用性の一つには、新たに登録されたゲノム配列から新規な遺伝子、特にESTシーケンシグ(または同様に遺伝子発現に基づくその他のシーケンシグの試み)によってはこれまでに同定されなかったものの存在を確認できるということがある。実施例1でさらに記載されるように、かかるアプローチは新たに登録されたヒトゲノム配列が、タンパク質をコードする働きをする配列に関して解析した場合、既存のESTおよびその他の発現データベースのものよりも新規な遺伝子を容易に確認することを示した。実際に、以下で示されるように、新たに登録されたヒトゲノム配列において確認された有に2/3の遺伝子がこれまでには確認されていなかった。これにより本発明の方法は極めて有効な遺伝子発見ツールとなる。
【0061】
また考えられることとしては、このような遺伝子発見はヒト以外の種に由来するゲノム配列を用いて行うことができる。特に有用な種としては齧歯類、特にマウスなどの創薬の際にモデル系として用いられるものである。
【0062】
クエリー20に上記のような複数の基準を組み込めば、クエリー言語、クエリーの複雑性、およびデータベース分野で周知のその他の考慮にある程度よるところがあるが、その複数の基準は一連の個別クエリーとして、または単独のクエリーとして実施できる。
【0063】
クエリー20がクエリー基準を満たすゲノム配列を回答しなければ、示されているようにプロセス22およびプロセス200(実際にはプロセス10の全体)によって無しという結果が報告され、23で終わる。最初のクエリーの報告および終了の代わりに、またそれに加えて、最初の無しという結果を考慮して新たなクエリー20を行ってもよい。
【0064】
クエリー20がクエリー基準を満たす配列を回答する場合、その回答配列は次ぎに、プロセス25で用いられるその望ましい解析アプローチおよび特定の解析方法に好適かつ特異的な任意のプレプロセッシング24に送られる。
【0065】
プレプロセッシング24はその多くのアプローチおよび方法に好適なプロセス、ならびに意図される次の解析に特に適したプロセスを含み得る。
【0066】
大部分のアプローチおよび方法に好適なプレプロセッシング24は次の解析に不適切な配列、または次の解析を妨げるものを排除することを含む。このような配列には、AluリピートやLINEエレメントなどの反復配列、ベクター配列、人工ポリリンカーなどの人工配列などが含まれる。このような除去は望ましくない配列の同定とそれに次ぐそのマスキングによって容易に行うことができる。
【0067】
同定は、クエリー20によって回答されたゲノム配列を公知の反復配列、ベクター配列、人工配列およびその他の人為配列を含む公開・非公開のデータベースと比較することで行うことができる。このような比較は、CROSS_MATCHまたはREPEATMASKER(後者はhttp://ftp.genome.washington.edu/RM/RepeatMasker.htmlでオンラインにて利用できる)など当技術分野で周知のプログラムを用いて、あるいは当業者に十分操作できる専有の配列比較プログラムによって容易に行うことができる。
【0068】
あるいは、またはそれに加えて、人為的なものを含む望ましくない配列は外部データベースと比較せずにアルゴリズム的に同定した後に除去することもできる。例えば、合成ポリリンカー配列は既知の制限部位の平均密度より有意に高いことを識別するアルゴリズムによって同定することができる。別の例としては、ベクター配列はゲノム配列総体のものと矛盾するヌクレオチドまたはコドン利用を識別するアルゴリズムによって同定することができる。
【0069】
ひとたび同定されれば、その望ましくない配列は除去することができる。除去は便宜には、例えば特定のヌクレオチド参照を次ぎに「X」などのバイオインフォマティック・アルゴリズムによって認識されないものに変換することによるなどして望ましくない配列をマスキングすることで行うことができる。あるいは、現在のところ好ましいとはいえないが、望ましくない配列を回答されたゲノム配列からギャップを残して切り取ることもできる。
【0070】
プレプロセッシング24はさらに、最も質の高い1つの配列を複写配列の中から選択することを含む。質がより高いことは、あいまいなヌクレオチド(そのゲノム配列においてあいまいさを示す記号を用いて識別されるヌクレオチドと定義される)のパーセンテージが低いこと、あいまいなヌクレオチドの数が少ないこと、またはあいまいなヌクレオチドのクラスターの存在密度が最小であることとして測定できる。質がより高いことはまた、あるいは最長のコンティグに存在するかどうかで評価することができる。
【0071】
プレプロセッシング24はプロセス25の解析アルゴリズムへ送るために特に適当なデータフォーマッティングを含んでもよく、多くの場合がそうである。かかるフォーマッティングはとりわけ、ゲノム配列データベース100における元の登録番号に由来するものであっても、新たに付けられるものであってもよいが、独自の配列識別名を付け加えることを含んでよく、そうするのが典型であり、また、さらに追加の注釈付けを含んでもよい。フォーマッティングは、次のプロセスによって期待される入力にもよるが、FASTAなどへの、またはFATSAなどからの変換など、ある配列リストスタンダードから別のものへの変換を含んでもよい。
【0072】
プレプロセッシング(同定しようとした機能およびかかる同定を行う方法に必要な情報によって任意であってよい)の後、プロセッシング25を行い、そこでそのゲノム配列内で望ましい機能を有する配列を同定する。
【0073】
上記のように、かかる機能としては、限定されるものではないが、タンパク質のコード、転写の調節、転写後のメッセージの輸送の調節、転写後のメッセージのスプライシングの調節、転写後のメッセージの分解の調節、染色体体細胞組換えへの寄与または調節、染色体の安定性または移動への寄与、対立遺伝子の排除またはX染色体の不活性への寄与などが挙げられる。
【0074】
具体的に示される機能がタンパク質のコードである場合、本発明の上記プロセスはゲノム配列における個々のエクソンの同定に迅速かつ有効に使用することができる。
【0075】
以下で議論し、また、同一所有者同時係属の米国仮出願第60/207,456号(2000年5月26日出願)、同第60/234,687号(2000年9月21日出願)、同第60/236,359号(2000年9月27日出願)、同一所有者同時係属の英国特許出願第24263.6(2000年10月4日出願)、および同一所有者同時係属のPCT出願(2001年1月29日出願)(代理人整理番号PB 0004 WO 1の「ヒト心臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 2の「ヒト脳における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 3の「ヒト成人肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 4の「ヒト胎児肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 5の「ヒト肺における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 6の「ヒト骨髄における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 7の「ヒト胎盤における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 8の「BT 474細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 9の「HBL 100細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 10の「Hela細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」)(なおこれらの開示は出典明示により本明細書にそのまま組み入れる)に詳細に記載されているが、発明者らは本発明の方法および装置を用いてヒトゲノム配列において15,000を超えるエクソンを同定し、発明者らは少なくとも1種類のヒト組織または細胞種でその発現を確認した。有に2/3のエクソンは、発明者らが発見した時点で既存の公開発現(EST、cDNA)データベースには提供されていない遺伝子に属し、これにより本発明の方法および装置は新規な遺伝子の発見に極めて有効なツールとなる。
【0076】
以下でさらに記載し、また、その開示が出典明示により本明細書にそのまま組み入れられる同一所有者同時係属の米国特許出願第09/632,366号(2000年8月3日出願)で詳細に記載されているが、本発明のゲノム由来単一エクソンプローブおよびマイクロアレイは真核生物細胞および組織における多様な選択的スプライシングのハイスループット同定に極めて有用であることが分かる。
【0077】
ゲノム配列からこのような個々のエクソンを同定するには、プロセス25を用いて推定コード領域を同定する。推定遺伝子をコードする配列を同定するためにプロセス25で有用な2例のアプローチとして遺伝子推定と比較配列解析がある。
【0078】
遺伝子推定は1以上のソフトウエアプログラムに埋め込まれ、GRAIL、DICTION、GENSCANおよびGENEFINDERなどの種々の発見法を用いてオープンリーディングフレーム(ORF)を同定するいくつかのアルゴリズム法のいずれかを用いて行うことができる。
【0079】
比較配列解析は同様に、配列の変異性が低い領域を識別する種々の公知のプログラムのいずれかを用いて行うことができる。
【0080】
比較配列解析の利点は、ゲノム配列が、遺伝子推定プログラムによって必要とされるものよりも範囲が狭く、かつ/または質の低いプロセス200へ入力できるということである。
【0081】
発明者らは例えば最近、比較配列解析を用いてヒトとマウス間で直交する配列を同定し、このようにして同定されたマウス配列(「similons」)をプロセス300へ出力したが、これにより発明者らは新規なマウスのエクソンと遺伝子を同定し、次いでその発現を確認することができた。医薬分野で周知であるが、モデル系で同定された遺伝子は治療介入の標的の値を評価するため、また、それらの標的と相互作用する薬剤をスクリーニングしたり評価したりするための標的となる。
【0082】
以下の実施例1にさらに記載されるが、遺伝子推定ソフトウェアプログラムでは一定範囲の結果が得られる。実施例1において新たに登録されたヒトゲノム配列の入力では、例えばGRAILは推定コード領域としての最大パーセンテージ、すなわち解析されたデータの2%のゲノム配列を同定し、GENEFINDERはそれに次ぐ1%を呼び出し、DINTIONでは最低の推定コード領域を示し、コード領域として呼び出されたのはゲノムの0.8%であった。
【0083】
このようないくつかの方法の間で一致が必要な場合には高い確実性が得られる。本明細書では特にエクソンの呼び出しに関して議論されるが、方法間の一致は通常、他の機能を推定する場合にも同様に信頼性を高める。
【0084】
このように問合せ26により示されるように配列プロセッシング25は、所望によりプレプロセッシング24とともに、プロセス27で決定および報告されるこのような繰り返し間での一致をもって、異なる方法でも繰り返すことができる。
【0085】
プロセス27は与えられた入力ゲノム配列に対するいくつかの出力を比較し、個別に報告された結果間での一致を識別する。一致それ自体、ならびにその一致を満たす配列は次ぎにプロセス29aに保存され、プロセス29bで表示され、続いてアッセイに好適なそのサブセットの同定のためにプロセス300に出力される。
【0086】
一致レベルの倍率はプロセス27によって算出および報告することができる。
【0087】
例えば、以下の実施例1でさらに記載されるが、プロセス27は遺伝子推定方法の特定ペアの全ての間での一致、遺伝子推定方法のいずれか1以上のペア間での一致、あるいは用いた遺伝子推定アルゴリズムの全ての間での一致を報告することができる。このように実施例1、プロセス27では、GRAILとGENEFINDERプログラムでは0.7%のゲノム配列で一致し、GRAILとDICTIONでは0.5%のゲノム配列で一致し、また、これら3プログラムを一緒にすると解析されたデータの0.25%で一致したことが報告された。別の例では、0.25%のゲノム配列が3プログラムの全てで推定コード領域を含むとしてみなされた。
【0088】
別の例として、発明者らが現在用いている4種の遺伝子推定アルゴリズムのうち3種、すなわち、GENEFINDER、GENSCANおよびGRAILはエクソンの位置の他、フレーム情報を推定するものである。推定されたエクソンの位置およびフレームに重複があれば、同定が完了していなくとも、推定されたエクソンをプロセス27に合流させ、最も可能性の高い共通コード領域を見出す。このプロセスを可能性のある全ての重複が合流されるまで繰り返す。このアプローチにより各アンプリコンに存在するエクソンの平均数が少なくなり、エクソンの伸張およびエクソンの末端切断選択的スプライシングの結果を検出するために有効なエクソン特異的プローブを作製する際に好ましい。
【0089】
さらに、選択された機能を同定する種々のアプローチ間でも一致が必要とされる可能性がある。
【0090】
例えば、同定しようとする機能がタンパク質配列のコードであって、最初に用いるエクソン呼び出しのアプローチが遺伝子推定である場合、同じ入力配列、またはそのサブセットに対して比較配列解析などの別のアプローチでこのプロセスを繰り返すことができる。このような場合、比較配列解析の後に遺伝子推定を行うが、比較はゲノム核酸配列に対して行えるだけでなく、加えて、あるいはその代わりに遺伝子推定アプローチによって先に同定されたエクソンから翻訳された推定アミノ酸配列に対しても行うことができる。
【0091】
繰り返しプロセスとして示されているが、一致をみる必要がある複数の解析は一連の、並行した、あるいはそのある組合せで行うことができる。
【0092】
所望によりその決定のための複数の方法およびアプローチ間で一致を示す推定される機能配列は機能アッセイ向けのそのサブセットの同定のためにプロセス300へ送られる。
【0093】
同定しようとする機能がタンパク質コードである場合、プロセス300を用いて、物理的および/またはバイオインフォマティクス的アプローチにより実験的確認のために好適なそのサブセットを同定する。
【0094】
目的が例えば遺伝子特異的プローブを得るための遺伝子の単一エクソンのみの発現の同定および確認である場合、プロセス200で同定された推定エクソンをバイオインフォマティクス的に分類または保存して推定遺伝子とする。この保存はとりわけ解析のために選択された種におけるエクソン/遺伝子の平均数の考慮、そのゲノム配列に対して呼び出されたエクソン密度、および他の経験的法則に基づくことができ、推定遺伝子構造もまたこれら種々の遺伝子推定プログラムによって提供される。従って、これらのエクソンのうち1以上が次ぎに遺伝子発現アッセイで用いるために選択できる。
【0095】
その代わりに、目標が、その開示が出典明示によりそのまま本明細書に組み入れる、同一所有者同時係属の米国特許出願第90/632,366号(2000年8月3日出願)にさらに記載されているように、選択的スプライシング結果の検出を望む場合など、ある遺伝子のエクソンの全てまたは複数の発現の同定および確認である場合、プロセス200で同定された推定エクソンをバイオインフォマティクス的に分類または保存して推定遺伝子とすることができる。従って、エクソン特異的エクソンの全てを次の遺伝子発現アッセイで確認するために選択することができる。
【0096】
このような次の遺伝子発現アッセイが増幅させた核酸を用いる場合、所望のアンプリコン長、プライマー合成必要条件、推定エクソン長、配列のGC含量、可能性のある二次構造の伸張などを考慮することで首尾良く増幅した可能性が最も高いと思われるエクソンを同定および選択することができる。次ぎの遺伝子発現アッセイが増幅産物を用いるものであれ用いないものであれ、核酸のハイブリダイゼーションによる場合には、ハイブリダイゼーションストリンジェンシーを含めさらに考慮すれば、選択されたハイブリダイゼーションおよび洗浄ストリンジェンシーで配列特異的に最も容易に識別できる配列のサブセットを同定することができる。特にかかる考慮の一つに、反復配列にわたる推定エクソンの排除があり、このような配列は見かけ上、非特異的メッセージとハイブリダイズし得るが、ハイブリダイゼーションの特異的シグナルは低下する。
【0097】
バイオインフォマティクスアッセイでは、実験的に試験可能な配列上の制約が少なく、従ってこのような場合、プロセス300は入力配列全部を出力することができる。
【0098】
プロセス300によりアッセイに用いるのに好適であるとして同定された配列のサブセットを次ぎにプロセス400で用いてプロセス200で行った推定の実験的確認のための物理的および/または情報的基板を作出し、その後、その基板をアッセイする。
【0099】
目的がゲノム配列においてタンパク質コード領域を同定することである場合、タンパク質をコードすると推定された配列の発現をプロセス400で確認する。
【0100】
このように、もう1つの態様では、本発明は、ゲノム配列内で同定された推定エクソンの発現を確認する方法および装置を提供する。特に本発明は、推定されたエクソンの発現が新規なタイプの核酸マイクロアレイ、すなわち本発明のゲノム由来単一エクソン核酸マイクロアレイを用いて測定および確認される、遺伝子発現の確認方法を提供する。
【0101】
本態様のある実施態様によれば、推定されたエクソンをゲノムDNAから増幅する。
【0102】
増幅はポリメラーゼ連鎖反応(PCR)を用いて行うことができる。PCRを使用するのが便宜であるが、ローリング・サイクル増幅法などの他の増幅アプローチも使用することができる。
【0103】
増幅スキームは最小の付加配列(すなわち、フランキング、イントロンまたは遺伝子間配列)しか伴わないアンプリコンにおいて各推定エクソンの全体をキャプチャーするようにデザインすることができる。本発明の方法を用いてゲノム配列から推定されたエクソンは長さが異なるので、このようなアプローチでは種々の長さ?のアンプリコンが生じる。
【0104】
しかし発明者らは、ヒトゲノム配列から推定されたほとんどのエクソンは500bpより短いことを見出した。少なくとも約75bp、より好ましくは少なくとも約100bp、いっそう好ましくは少なくとも約200bpのアンプリコンを核酸マイクロアレイ上のプローブとして固定化することができるが、本発明の方法を用いた初期の実験結果では、より長いアンプリコン、少なくとも約400bp、より好ましくは約500bpがスライドグラスまたはその他の処理面により効率的に固定化されることが示唆された。
【0105】
発明者らはこのようなより長いアンプリコンにおいて推定エクソンをフランキングするイントロンおよび遺伝子間素材がマイクロアレイ実験の際にエクソン特異的ハイブリダイゼーションとの干渉を引き起こすのではないかと考えていたが、驚いたことにそうではなく、実験組織(または細胞種)と対照組織の間のいずれのプローブの発現比率も、メッセージまたはcDNAとのハイブリダイゼーションに関与しない配列のプローブの存在によって有意な影響を受けることはないことを見出した。
【0106】
同じく驚くことにこの技術は、単一プローブエクソンが高いストリンジェンシーのハイブリダイゼーション解析に十分なシグナル強度をもたらさないことを示唆した。低いストリンジェンシーのハイブリダイゼーション条件は重複の多いオリゴヌクレオチドを基にしたマイクロアレイとの有益なハイブリダイゼーションを可能とするようにデザインされたものであったが、ESTを基にしたマイクロアレイに典型的に用いられる高いストリンジェンシーのハイブリダイゼーション条件は単一エクソンプローブとともには使用できないものと考えられていた。発明者らは驚くことに、単一エクソンプローブが高いストリンジェンシーでも適当なシグナルをもたらすことを見出した。
【0107】
結果として発明者らは、遺伝子間配列および/またはイントロン配列によってフランクされた単一エクソンを有するゲノム由来増幅産物を用いて容易にバイオインフォマティクス的に推定されたエクソンの発現を確認できることを見出した。
【0108】
化学合成法によりエクソンを包含するに十分な長さのオリゴヌクレオチドが作製できる限り、かかるオリゴヌクレオチドは増幅材料の代わりにプローブとして使用できる。しかしながら目下のところ、化学的に合成されたオリゴヌクレオチドの合理的な大きさの限界を超える増幅産物が作製できることから、増幅によって、イントロン配列および/または遺伝子間配列によりフランクされた単一エクソンを有するプローブがより容易に作製できる。
【0109】
フランキング遺伝子間配列および/またはイントロン配列を有するプローブは、エクソン配列しか含まないプローブよりも広範な選択的スプライシング結果を検出することができる。例えば、エクソンの伸張はかかるプローブによりシグナル強度の増強として検出できるが、発明者らはシグナル強度とハイブリダイズする配列の長さとの間ほぼ直線の関係を見出した。また、異核、すなわち未熟なmRNAをアッセイする場合、イントロンおよび/または遺伝子間フランキング配列を有するプローブによればより多様な事象を評価することができる。
【0110】
さらに、所定の大きさのアンプリコンをマイクロアレイに適用することからはある利点が得られる。
【0111】
従って、増幅スキームは選択的に、また、好ましくは、所定の大きさ、好ましくは推定された各エクソンを中心に少なくとも約300bp、より好ましくは少なくとも約400bp、最も好ましくは約500bpの領域を増幅するようデザインすることができる。このようなアプローチにより大きさの多様性が限定されたアンプリコンの集団が得られるが、それは典型的には推定エクソンに加え、それをフランクするイントロン核酸および/または遺伝子間核酸を含む。
【0112】
逆に、本発明の方法に従ってヒトゲノム配列から推定されたエクソンの10%少々は500bpを超える長さである。このように長いエクソン部分、好ましくは少なくとも約300bp、より好ましくは少なくとも約400bp、最も好ましくは約500bpも増幅可能である。しかし、発明者らの初期の実験では、発明者らはこのようなエクソン片の増幅の成功率は低いが、より長い断片、少なくとも約1000bp、典型的には少なくとも約1500bp、また2000bpといった長いものまでを増幅する際には、このような推定エクソンは効果的に増幅されることを見出した。さらにPCR反応の通常の至適化で500bpの長いエクソンが増幅できよう。
【0113】
増幅に関しては、せいぜい約500bpであると推定されるエクソン内またはエクソン周囲を中心とする少なくとも約500bpのゲノム配列、あるいは500bpの長さを超えると推定されるエクソンについては少なくとも約1000ないし1500bpのゲノム配列を増幅することを目的に、プロセス300で選択された推定エクソンをPRIMER3(http://www−genome.wi.mit.edu/cgi−bin/primer/にてオンラインで入手して使用できる)などの1以上のプライマーデザインプログラムに入力し、標準的な技術によってプライマーを合成する。必須配列を有するプライマーは市販されているか、あるいは標準的な技術によって合成することができる。
【0114】
便宜には、第1の所定配列は各エクソン特異的5’プライマーに通常付加することができ、また第2の、典型的には異なる、所定配列は各3’エクソン特有のプライマーに通常付加することができる。これはアンプリコンを不死化する働きをし、すなわち、共通5’配列および共通3’配列エレメントにそれぞれ相補的な単一のプライマーセットを用いてアンプリコンをさらに増幅させる働きをする。これらの「万能」プライミング配列の存在はさらに、その後の配列確認を助け、シーケンシング反応を誘導する全てのアンプリコンに共通の配列を提供する。共通5’配列および共通3’配列はさらにエクソンを証明する何らかのさらなる研究をすべくクローニング部位を付加する働きをすることができる。
【0115】
かかる所定配列は少なくとも約10nt長、典型的には少なくとも約12nt長、より典型的には約15nt長が有用であり、通常は約25nt長を超えない。以下に示される実施例で用いる「万能」プライミング配列は各々16ntの長さであったが、これはまた、その開示を出典明示により本明細書にそのまま組み入れる、同一所有者同時係属の米国特許出願第09/608,408号(2000年6月30日出願)にも記載されている。
【0116】
増幅の基板として用いられるゲノムDNAは、そのゲノム配列データがもともと得られた真核生物種、または近縁種からのものであり、その生物の体細胞性もしくは生殖系組織または培養細胞から周知の技術により便宜に調製することができる。例えば、Short Protocols in Molecular Biology: A Compendium of Methods from Current Protocols in Molecular Biology, Ausubel et al. (eds.), 4th edition (April 1999), John Wiley & Sons (ISBN: 047132938X)およびManiatis et al., Molecular Cloning: A Laboratory Manual, 2nd edition (December 1989), Cold Spring Harbor Laboratory Press (ISBN: 0879693096)参照。なお、これらの開示は出典明示により本明細書にそのまま組み入れる。このように調製されたゲノムDNAの多くは市販されており、ヒトゲノムDNAでは提供者のインフォームドコンセントの証明も添付されている。
【0117】
サイズ排除スピンカラムまたはガラス吸着などによる部分精製の後(ゲル電気泳動によるなどアンプリコンの質に確認を行っても行わなくともよい)、各アンプリコン(単一エクソンプローブ)を支持基板上にアレイとして配置する。
【0118】
支持基板上への核酸の配置および固定によるマイクロアレイの作製方法は当技術分野で周知である。Schena (ed.), DNA Microarrays: A Practical Approach (Practical Approach Series), Oxford University Press (1999) (ISBN: 0199637768); Nature Genet. 21 (1) (suppl): 1−60 (1999); Schena (ed.), Microarray Biochip: Tools and Technology, Eaton Publishing Company/BioTechniques Books Division (2000) (ISBN: 1881299376)(なお、この開示は出典明示により本明細書にそのまま組み入れる) に総説。
【0119】
典型的には支持基板はガラスであってよいが、非晶質シリコーン、結晶性シリコーン、またはプラスチックなどのその他の材料であってもよい。このようなプラスチックとしては、ポリメチルアクリル系、ポリエチレン、ポリプロピレン、ポリアクリレート、ポリメチルメタクリレート、ポリ塩化ビニル、ポリテトラフルオロエチレン、ポリスチレン、ポリカーボネート、ポリアセタール、ポリスルホン、セルロースアセテート、セルロースセニトレート、ニトロセルロース、またはその混合物が挙げられる。典型的にはこの支持体は方形であってよいが、他の形状、特に円形ディスク、また球状であってもある利点が得られる。Demers, ”Spatially Addressable Combinatorial Chemical Arrays in CD−ROM Format,” 国際特許出願WO 98/12559(なお、この開示は出典明示により本明細書にそのまま組み入れる)に記載のように、核酸アレイの支持基板としてスライドグラスに代わる特に有利なものとして光ディスクがある。
【0120】
増幅した核酸は支持基板の表面に共有結合させることができ、また、より典型的には変性および仮定される非共有結合的相互作用による結合、またはそれらの何らかの組合せを助ける攪乱剤中、誘導体化した表面に塗布してもよい。
【0121】
支持基板上に核酸を配列するのに有用なロボットスポット装置は公開ドメイン仕様(The MGuide, version 2.0, http://cmgm.stanford.edu/pbrown/mguide/index.html)、または便宜には商業ソースから購入することができる(MicroArray GenII Spotter and MicroArray GenIII Spotter, Molecular Dynamics, Inc., Sunnyvale, CA)。スポットはまた、インクジェット技術を用いるものをはじめとする印刷法によって行ってもよい。
【0122】
当技術分野で周知であるように、マイクロアレイは典型的には固定化された対照核酸も含む。本発明のゲノム由来単一エクソンマイクロアレイのバックグラウンドシグナルを測定するのに有用な対照としては、複数の大腸菌(E. coli)遺伝子が容易に使用できる。実施例1にさらに記載されるが、16または32の大腸菌遺伝子はこのようなマイクロアレイにおける非特異的ハイブリダイゼーションの概略測定をするのに十分である。
【0123】
当技術分野で周知であるが、核酸マイクロアレイを作製するために支持基板上のアレイとして配置される増幅産物は全てホスホジエステル結合によって結合した天然ヌクレオチドからなってもよいし、あるいはまたハイブリダイゼーション反応で相補的結合が得られる限り、非天然ヌクレオチド、別のヌクレオチド間結合、またはその双方を含んでもよい。酵素的増幅を用いて固定化プローブを作製する場合には、増幅酵素は、作製できる核酸類似体のタイプにあるさらなる制約を課す。
【0124】
本明細書では特に平面基板上に構築された高密度マイクロアレイを用いる場合が記載されるが、ゲノム配列から推定されたエクソンの発現を確認するための本発明の方法は、Brenner et al., Proc. Natl. Acad. Sci. USA 97 (4): 166501670 (2000);米国特許第6,057,107号および米国特許第5,736,330号(なお、これらの開示は出典明示により本明細書にそのまま組み入れる)に記載されているような非平面、ビーズベースのマイクロアレイをはじめ、非平面上、非単位、分布型基板上のマイクロアレイを含む、本明細書で定義される公知のタイプのマイクロアレイはいずれも使用できる。理論上、パックされたこのようなビーズの集合体により、単一の平面基板に対するスポットまたはリソグラフィー技術で達成可能な高密度核酸プローブ集塊が形成される。
【0125】
さらに、遺伝子発現はニトロセルロース、ナイロン、および正電荷を有する誘導体化ナイロンメンブランのようなメンブラン上に構築されるものなど、低密度アレイに対するハイブリダイゼーションを用いて確認することができる。
【0126】
しかしながら固相基板上の平面マイクロアレイは、既存のリーダーとの適合性があることをはじめ、ある有用な利点をもたらす。例えば、標準的な顕微鏡用スライドは各々少なくとも1000、典型的には少なくとも2000、好ましくは5000以上、19,000以上までの個々の配列の核酸プローブを含み得る。
【0127】
各推定遺伝子は単一の推定エクソンにより、または同じ遺伝子に属するものと推定される複数のエクソンによりアレイ上に表現することができる。また、当技術分野で周知であるが、単一の推定エクソンを表す所定の配列の各プローブは単一のマイクロアレイ上の複数の位置に配置してシグナルを重複させることもできる。
【0128】
上記のゲノム由来単一エクソンマイクロアレイは本発明の重要な態様であり、(1)mRNAから誘導された核酸の付着により作製されたもの、(2)オリゴヌクレオチドプローブのin situ合成によって作製されたもの、および(3)酵母ゲノムDNAから構築されたものをはじめ、遺伝子発現分野でこれまでに用いられてきたマイクロアレイとはいくつかの原理および利点で異なっている。
【0129】
真核生物遺伝子発現の研究に用いられている大部分の核酸マイクロアレイは、発現したメッセージに直接的または間接的に由来する固定化プローブ核酸を有する。例えば、I.M.A.G.E. consortium, Lennon et al., ”The I.M.A.G.E. Consortium: an Integrated Molecular Analysis of Genomes and Their Expression, Genomics 33 (1): 151−2 (1996)のもの、または特定の生物学的課題を狙いとした「課題特異的」ライブラリーのde novo構築, R.S. Thomas et al., Toxicologist 54: 68−69 (2000)(出典明示により本明細書にそのまま組み入れる)のものなど、これまでに文献に記載されている、cDNA/ESTライブラリーに由来するマイクロアレイが一般的である。このようなマイクロアレイは本明細書ではひとまとめにして「ESTマイクロアレイ」と呼ぶ。
【0130】
定義によるとこのようなESTマイクロアレイはESTライブラリーで見出された遺伝子のみの発現を測定することができ、発明者らは発現した遺伝子を分数表示するためにのみ本明細書(以下を参照)で示している。このように、以下の実施例1でさらに述べるが、本発明の方法により新たに登録されたヒトゲノム配列データから同定された遺伝子(これらに関する発現は本発明の方法および装置を用いて引き続き確認された)のゆうに2/3がESTまたはその他の発現データベースでは明らかにされておらず、従って、ESTマイクロアレイにおけるプローブとして表現され得ていなかった。
【0131】
さらに、ESTおよびcDNAライブラリー、従ってそれに基づいたマイクロアレイも、メッセージの起源組織または細胞種によって偏りがある。
【0132】
さらに、ESTおよび/またはcDNAライブラリーにおけるメッセージの表示はメッセージの逆転写の成否、しかし典型的には、ある場合にはその次のクローニングの成否に依存している。このことはESTマイクロアレイにおける配列に利用できるプローブ集団へ実質的な偏りをもたらす。例えば、以下の実施例で示すが、本発明の方法によってゲノム配列から同定された遺伝子サブセットであって、ESTまたはその他の発現データベースでこれまでに登録されたものはより高い発現レベルの遺伝子に偏っている。
【0133】
これに対して本発明のゲノム由来単一エクソンマイクロアレイ上に配列されるプローブを作製するためには逆転写もクローニングも必要でない。本発明のゲノム由来単一エクソンマイクロアレイ上への最終的なプローブの付着はゲノム素材からの増幅の成否に依存するが、所望のアンプリコンの配列に関する先行知見によれば、ESTアプローチにおける未知のメッセージの逆転写およびクローニングの成功の要件によってもたらされるものより、増幅させにくいあるプローブ配列を取り出せる機会が多くなる。さらに、配列を増幅することができなければ、その配列は本発明で用いるために随時その全てを化学合成することができる。
【0134】
このように、本発明のゲノム由来単一エクソンマイクロアレイは、当技術分野でこれまでに用いられてきたESTマイクロアレイよりも遙かに偏りなく、遺伝子発現を測定する遙かに多様なプローブを提供する。
【0135】
発現メッセージからのそれらの最終起源に関するさらなる結果として、ESTマイクロアレイにおけるプローブは成熟mRNAのポリ−Aテールに由来するポリ−A(または相補的なポリ−T)ストレッチを含むことがしばしばある。これらのホモポリマーストレッチはクロス・ハイブリダイゼーション、すなわち、プローブの遺伝子特異的部分に相同な配列を欠いた標識cDNAのホモポリマーテールとハイブリダイズすることで起こる偽りのシグナルに寄与する。
【0136】
これに対して、本発明のゲノム由来単一エクソンマイクロアレイに配列されたプローブはメッセージのポリアデニル化から導かれるホモポリマーストレッチを欠くことからより特異的なシグナルを提供することができる。典型的には、本発明のゲノム由来単一エクソンマイクロアレイ上の少なくとも約50%のプローブがAまたはTからなるホモポリマー領域を欠いている。なお、本明細書における目的では、ホモポリマー領域とは25以上、典型的には30以上の同一ヌクレオチドのストレッチと定義される。より典型的は、本発明のゲノム由来単一エクソンマイクロアレイ上のプローブの少なくとも60%、いっそう典型的には少なくとも約75%がこのようなホモポリマーのストレッチを欠いている。
【0137】
ハイブリダイゼーションにまた影響するさらなる違いは、ESTマイクロアレイプローブがクローニングされた材料に由来するのが典型であることによるものである。ESTマイクロアレイ上のプローブとして配置されるプローブ材料の多くはプラスミド、ファージ、またはファージミドベクターから切り取られたものであるか、それらから増幅されたものであるので、特にプローブがベクターから切り取られたのではなく増幅されたものである場合には、ESTマイクロアレイはかなりの量のベクター配列を含むのが典型である。
【0138】
これに対し、本発明のゲノム由来単一エクソンマイクロアレイの大多数のプローブは、ゲノムDNAから直接的または間接的に増幅された原核生物またはバクテリオファージベクターの配列を含まない。従って典型的には、本発明のゲノム由来単一エクソンマイクロアレイ上に配置された個々のエクソン含有プローブの少なくとも約50%、より典型的には少なくとも約60%、70%、80%以上でさえもがベクター配列を欠き、特にプラスミドおよびバクテリオファージから抽出された配列を欠く。本発明のゲノム由来単一エクソンマイクロアレイのエクソン含有プローブの少なくとも約85%、より好ましくは少なくとも約90%、最も好ましくは90%を超えるものがベクター配列を欠くことが好ましい。プレプロセッシング24によるベクター配列の除去に注意すれば、ベクターフリーのエクソン含有プローブのパーセンテージは95ないし99%といった高いものとなり得る。本発明のゲノム由来単一エクソンマイクロアレイにはベクター配列が実質的に含まれないことで、プローブベクター配列との偽りのクロス・ハイブリダイゼーションが少なくなるので、ハイブリダイゼーションの際の特異性が高まる。
【0139】
ESTマイクロアレイの構築におけるベクターからのプローブの切り出しまたは増幅のさらなる結果として、その上に配列されたプローブは5’および3’の両末端に、ベクター由来の人工配列であるポリリンカー多重クローニング部位をしばしば含む。ゲノム由来単一エクソンマイクロアレイ上に配置されたプローブでは、その上に追加されるこのような人工配列は必要としない。
【0140】
しかし、上記のように、推定エクソンを増幅するのに用いられるエクソン特異的プライマーは、典型的にはエクソン特異的プライマー配列の5’側に、次ぎに続く増幅反応またはシーケンシング反応を誘発する「万能なもの」(すなわち、エクソン配列によらない)として有用な人工配列を含んでもよい。このような「万能」5’および/または3’プライミング配列を増幅プライマーに付加する場合には、ゲノム由来単一エクソンマイクロアレイ上に配置されるプローブはESTマイクロアレイで見られるものと同様の人工配列を含む。しかし、本発明のゲノム由来単一エクソンマイクロアレイはこのような配列を用いなくとも作製可能であり、そのようにして構築されれば、非特異的ハイブリダイゼーションに寄与する非特異的配列の量がいっそう少なくなる。
【0141】
ESTマイクロアレイにおけるプローブとしての典型的なクローニング材料の仕様のもう1つの結果として、このようなマイクロアレイが2つの別個の遺伝子のコード領域を含むキメラ分子のようなクローニング人工産物から生じたプローブを含むということがある。ゲノム材料に由来し、典型的にはその後クローニングされなければ、本発明のゲノム由来単一エクソンマイクロアレイのプローブはこのようなクローニング人工産物を欠き、従って、遺伝子発現の測定においてシグナルの特定性が高まる。
【0142】
多くのESTマイクロアレイにおいてプローブがクローニング起源であるさらなる結果として、個々のプローブの大きさがしばしば異なるということがあり、これにより最適なハイブリダイゼーションストリンジェンシーが1つのマイクロアレイ上のプローブ間で異なることとなる可能性がある。これに対し、上記のように、本発明のゲノム由来単一エクソンマイクロアレイ上に配置されるプローブは大きさのばらつきが狭いように、プローブサイズが平均サイズの約10%を超えない、典型的には平均プローブサイズの約5%を超えない範囲でデザインすることが容易にできる。
【0143】
それらが完全または部分的スプライシングメッセージに起源するために、ESTアレイに配置されたプローブはしばしば複数のエクソンを含む。ESTマイクロアレイにおけるこのようなエクソンをわたるプローブのパーセンテージは、与えられた種の推定エクソン/遺伝子数と固定化されたプローブの平均長を基に平均値として算出できる。ヒト遺伝子では、ほぼ完全なヒト第22染色体の配列(Dunham et al., Nature 402 (6761): 489−95 (1999))によりヒト遺伝子は平均5.5エクソン/遺伝子であると推定される。200ないし500bpのプローブをもってしても、大多数のヒトESTマイクロアレイプローブは1を超えるエクソンを含む。
【0144】
これに対し、本発明のゲノム由来単一エクソンマイクロアレイにおけるプローブは、ゲノム配列においてアルゴリズム的に同定されたエクソンに起源しているために個々のエクソンを含み、これにより、出典明示により本明細書にそのまま組み入れる、同一所有者同時係属の米国特許出願第09/632,366号(2000年8月3日)出願にさらに記載されているように、スプライシング変異体の発現を検出および同定する能力が与えられる。
【0145】
マルチエクソンプローブが存在しても最初のレベルのスクリーニングでは推定エクソンの発現を確認する能力が妨げられることはないが、本発明のゲノム由来マイクロアレイ上に配置されるプローブの少なくとも約50%、典型的には少なくとも約60%、いっそう典型的には少なくとも約70%がエクソン1つだけからなる、またはエクソンを1つだけ含むことが好ましい。好ましい実施態様では、本発明のゲノム由来マイクロアレイのプローブの少なくとも約75%、より好ましくは少なくとも約80%、85%、90%、95%、99%までもがエクソン1つだけからなる、またはエクソンを1つだけ含む。
【0146】
最も好ましくは実施態様では、ゲノム由来マイクロアレイのプローブの少なくとも約95%、さらには少なくとも99%までもがエクソン1つだけからなる、またはエクソンを1つだけ含むが、発明者らは発明者らの初期のバイオインフォマティクス・パラメーターが典型的にはこの段階の解析では約10%のプローブが潜在的に2つにエクソンを含むことを見出した。発明者らはこれらのプローブのある部分が単一のエクソンだけをコードしていることを証明できると考え、発明者らのバイオインフォマティクス的アプローチをさらに至適化することで、1を超える潜在エクソンを有するプローブのパーセンテージが下がるものと予測する。
【0147】
当技術分野において本発明のゲノム由来単一エクソンマイクロアレイとESTアレイとをさらに区別する点は、ESTマイクロアレイにおいて表現されるエクソンが、ESTの同定に用いられるシーケンシングの方法論がそのような偏りを持つことから、それらの個々の遺伝子の3’または5’末端にしばしば偏っている。これに対し、本発明のゲノム由来単一エクソンマイクロアレイに配置するためのエクソンの選択の際にはこのような3’または5’の偏りは必ずしも付与されていない。
【0148】
逆に、本発明のゲノム由来単一エクソンマイクロアレイに提供されるプローブは、必ずしもそうである必要はないが典型的には、成熟mRNAに由来し、ESTマイクロアレイには存在しないイントロン配列および/または遺伝子間配列を含む。上記のように、このような包含は必須ではないが、特に選択的スプライシングの検出のためのプローブを用いる際には有利である。従って典型的には、本発明のゲノム由来単一エクソンマイクロアレイ上のエクソン含有プローブの少なくとも約50%、より典型的には少なくとも約60%、いっそう典型的には少なくとも約70%が非コード領域から抽出された配列を含む。いくつかの実施態様では、本発明のゲノム由来単一エクソンマイクロアレイ上のエクソン含有プローブの少なくとも約80%、より典型的には少なくとも約85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、また99%以上までもが非コード領域から抽出された配列を含む。
【0149】
本発明のゲノム由来単一エクソンマイクロアレイはまた、フォトリソグラフィーまたはその他in situ合成法の制限によりプローブサイズが厳しく制約されるin situ合成マイクロアレイとは全く異なっている。
【0150】
典型的にはin situ合成マイクロアレイ上に配列されたプローブは最大約25pbに制限される。周知の結果として、このようなチップに対するハイブリダイゼーションは低ストリンジェンシーで行わなければならない。従って、明白な配列特異的なハイブリダイゼーション結果を得るには、in situ合成マイクロアレイでは、変異した(すなわち、誤対合した)配列を有するプローブ類似体の各プローブについてプログラムされた整列を伴った実質的な重複を必要とする。
【0151】
これに対し、プローブ長がより長い本発明のゲノム由来単一エクソンマイクロアレイでは遙かに高いストリンジェンシーでのハイブリダイゼーションおよび洗浄が可能である。従って典型的には、本発明のゲノム由来単一エクソンマイクロアレイ上のエクソン含有プローブは平均少なくとも約100bp、より典型的には少なくとも約200bp、好ましくは少なくとも約250bp、いっそう好ましくは約300bp、400bp、あるいは好ましい実施態様では少なくとも約500bpの長さである。実質的なプローブ重複の必要をなくすことで、このアプローチはin situ合成マイクロアレイで達成可能な、本発明のマイクロアレイ上に配列される個々のエクソンまたは遺伝子に対するプローブを高密度とすることができる。
【0152】
さらなる違いとしては、in situ合成マイクロアレイのプローブは典型的には支持基板に共有結合されることである。これに対し、本発明のゲノム由来マイクロアレイ上に配置されるプローブは必ずしも必要ではないが、典型的には、基板に非共有結合的に結合される。
【0153】
さらに、in situマイクロアレイ上の短いプローブでは、それらの相補的標的配列とハイブリダイズしたプローブの融解温度において大きなパーセンテージの差が生じることから、アレイ全体としての理論上の最適ストリンジェンシーにおいても大きなパーセンテージ差が生じる。
【0154】
これに対し、本発明のマイクロアレイにおいてのより大きなプローブでは、配列されたプローブの範囲の融解温度におけるパーセンテージ差が小さくなる。
【0155】
in situ合成アレイに優る本発明のマイクロアレイのさらなる顕著な利点は、個々の各プローブの質が配置の前に確認できるということである。これに対し、プローブの質はこれまでに用いられているin situ合成マイクロアレイではプローブごとの基準で評価することはできない。
【0156】
本発明のゲノム由来単一エクソンマイクロアレイはまた、酵母などの下等な真核生物からのゲノム由来マイクロアレイとも区別され、それに優る実質的利点を提供する。例えば、Lashkari et al., Proc. Natl. Acad. Sci. USA 94: 13057−13062 (1997)参照。
【0157】
サッカロミセス・セレビシエにおける6100ほどの核遺伝子のうち約220ないし250だけ、すなわち4ないし5%だけが遺伝子推定および/または比較配列解析の先行使用を必要とせずにこのようなマイクロアレイ上の単一エクソンアンプリコンの容易な増幅および配置を可能とする標準的なスプライセオソームイントロンを有する(Lopez et al., Nucl. Acids Res. 28: 85−86 (2000); Spingola et al., RNA 5(2): 221−34 (1999))。
【0158】
本発明の重要な態様はサッカロミセス・セレビシエなどの酵母よりも高いパーセンテージのイントロン含有遺伝子を有する真核生物から抽出されたゲノム配列において、特にはタンパク質をコードする遺伝子の少なくとも約10%、典型的には少なくとも約20%、より典型的には少なくとも約50%がイントロンを有する真核生物から抽出されたゲノム配列において推定コード領域を同定およびその発現を確認することができることである。好ましい実施態様では、本発明の方法および装置は、遺伝子当たりのイントロンの平均数が少なくとも約1、より典型的には少なくとも約2、いっそう典型的には少なくとも約3以上である真核生物のゲノム配列に由来する新規な遺伝子のエクソンを同定およびその発現を確認するために使用される。
【0159】
物理的基板を製造した後、推定される機能の実験的確認を行う。
【0160】
ゲノム配列において同定しようとする機能がタンパク質のコードである本発明の好ましい実施態様では、実験的確認は典型的には核酸ハイブリダイゼーション実験により、特に好ましい実施態様では上記のようにして製造したゲノム由来単一エクソンマイクロアレイとのハイブリダイゼーションにより、推定エクソンの発現を測定することで行う。
【0161】
発現は便宜にはマイクロアレイ分野で周知の技術に従い(その開示を出典明示により本明細書にそのまま組み入れる、Schena (ed.), DNA Microarrays: A Practical Approach (Practical Approach Series), Oxford University Press (1999) (ISBN: 0199637768); Nature Genet. 21(1) (suppl):1 − 60 (1999); Schena (ed.), Microarray Biochip: Tools and Technology, Eaton Publishing Company/BioTechniques Books Division (2000) (ISBN: 1881299376)に総説)、マイクロアレイ中の各プローブについてシグナル強度として、また対照に対して測定された発現の比率としての双方で測定および報告する。以下の実施例2も参照のこと。発現率を算出するのに用いる参照(対照)のmRNAソースは、複数の組織および/または細胞種のプールに由来するもののように異種であっても、あるいは単一培養細胞種のような同種のmRNAソースから抽出してもよい。
【0162】
以下の実施例1および2では、発明者らは対照として10種の組織/細胞のプールを用いる。発明者らは対照プールで発現を示すほとんど全てのプローブがHeLa細胞で発現することが容易に示せることを認めた。プールされた対照を用いると微妙な選択的スプライシングがマスクされる可能性があることから、発明者らは最近の実験では対照メッセージのソースとしてHeLa細胞を用いている。
【0163】
mRNAは標準的な技術(Short Protocols in Molecular Biology: A Compendium of Methods from Current Protocols in Molecular Biology, Ausubel et al. (eds.), 4th edition (April 1999), John Wiley & Sons (ISBN: 047132938X)およびManiatis et al., Molecular Cloning: A Laboratory Manual, 2nd edition (December 1989), Cold Spring Harbor Laboratory Press (ISBN: 0879693096)、なお、これらの開示は出典明示により本明細書にそのまま組み入れる)により製造できるし、あるいは市販されている。次いでこのmRNAを典型的には標識ヌクレオチドの存在下で逆転写させる。すなわち、インデックスソース(その中で発現を測定しようとするもの)を第1の標識、典型的には蛍光団(同じく蛍光色素、蛍光体、蛍光染料と呼ばれる)で標識したヌクレオチドの存在下で逆転写させ、リファレンスソースは第2の標識、典型的には蛍光団、典型的には第1の標識から蛍光測定により識別できるものの存在下で逆転写させる。以下の実施例2にさらに記載されているが、Cy3およびCy5染料が本方法に特に有用であることが分かっている。インデックスおよびリファレンス標的を部分精製した後、標準的な技術に従い、典型的にはカバーガラス下、または自動スライド処理装置でプローブアレイに対するハイブリダイゼーションを行う。
【0164】
洗浄後、マイクロアレイを便宜にはGen3またはAvalanche Scanner (Molecular Dynamics, Sunnyvale, CA)などの市販のマイクロアレイスキャニング装置を用いてスキャンする。次いで発現についてのデータ(一次保存してもよいし、しなくともよい)をプロセス500に送り、そこで各プローブに関する結果をもとの配列と関連づける。
【0165】
多くの場合、ゲノム由来単一エクソンマイクロアレイに対する標的材料のハイブリダイゼーションは特に着目するその上のプローブを確実に識別する。このように、次ぎにさらなる支持基板上にアレイ配置するために、多くはこのようにして同定された複数のプローブを有するマイクロアレイの一部として、あるいはその代わりに、またはそれに加えてさらなる使用のための単一の固相もしくは液相プローブとしてといったように、個々のプローブの十分な質をユーザーが容易に得られることがしばしば望ましい。
【0166】
このように、もう1つの態様では、本発明は本発明のゲノム由来単一エクソンマイクロアレイ上のプローブと配列が同じ核酸、または配列が実質的に同じ核酸を容易に製造するための組成物およびキットを提供する。
【0167】
ある実施態様では、本発明は実質的に単離および精製された核酸の形態の個々の単一エクソンプローブを提供する。このような実施態様の1つでは、プローブはハイブリダイゼーション反応を行うに十分な質で提供される。
【0168】
ハイブリダイゼーション反応を行うに十分な質で提供される場合、プローブは二本鎖DNA、標的に相補的な一本鎖DNA、標的に相補的な一本鎖RNA、またはこのようなハイブリダイズ可能なキメラDNA/RNA分子など、プローブのエクソン(またはその相補物)を含む標的に直接ハイブリダイズ可能ないずれかの形態であり得る。
【0169】
この核酸はその代わりに、あるいはそれに加えて、相補的結合が得られる限り、非天然ヌクレオチド、別のヌクレオチド間結合、またはその双方を含んでもよい。例えば、特に米国特許第5,142,047号;同第5,235,033号;同第5,166,315号;同第5,217,866号;同第5,184,444号;同第5,861,250号;国際特許出願WO93/25706;およびScience 254: 1497 (1991); J. Am. Chem. Soc. 114:9677 (1992); J. Am. Chem. Soc. 144:1895 (1992); J. Chem. Soc. Chem. Comm. 800 (1993); Proc. Nat. Acad. Sci. USA 90:1667 (1993); Intercept Ltd. 325 (1992); J. Am. Chem. Soc. 114:9677 (1992); Nucleic Acids Res. 21:197 (1993); J. Chem. Soc. Chem. Commun. 518 (1993); Anti−Cancer Drug Design 8:53 (1993); Nucleic Acids Res. 21:2103 (1993); Org. Proc. Prep. 25:457 (1993); CRC Press 363 (1992); J. Chem. Soc. Chem. Commun. 9:800 (1993); J. Am. Chem. Soc. 115:6477 (1993); Nature 365:566 (1993); WO92/20702;およびWO92/20703(なお、これらの開示は出典明示により本明細書に組み入れる)に記載されるように、プローブとしてはホスホロチオエート、メチルホスホネート、モルホリノ類似体、およびペプチド核酸(PNA)が挙げられる。
【0170】
しかし、このようなプローブはそれよりもPCRによるような増幅に好適な形態および量で提供されることが便宜である。通常はPCRが用いられるが、特に米国特許第5,854,033号および同第5,714,320号ならびに国際特許出願WO97/19193およびWO00/15779(なお、これらの開示は出典明示により本明細書に組み入れる)に記載されるようなローリングサークル増幅など、他の増幅アプローチも同様に使用できる。十分理解されていることであるが、これらのプローブが増幅に好適な形態で提供される場合、核酸類似体の範囲および/またはヌクレオチド間結合の範囲は増幅酵素の必要条件および性質によって制約を受ける。
【0171】
これらのプローブが増幅に好適な形態で提供される場合、遺伝子発現解析のための直接ハイブリダイゼーションに十分であるほどの質は必要とせず、単に増幅鋳型として働くに十分であればよく、典型的には少なくとも約1pg、より典型的には少なくとも約10pg、通常は少なくとも約100pg以上であればよい。
【0172】
個別の増幅可能なプローブは各々、プローブ鋳型とプライマーを含む単一の組成物、またはそれから個別パッケージングされたこのようなプライマーを含むキットのいずれかとして、増幅プライマーともにパッケージングすることもできる。上記のように、ゲノム増幅に用いるエクソン特異的5’プライマーはそれに付加された第1の共通配列を有してもよく、ゲノム増幅に用いるエクソン特異的3’プライマーはそれに付加された第2の異なる共通配列を有してもよく、このようなものであれば、この具体例では1セットの5’および3’プライマーを用いていずれのプローブも増幅することができる。このプローブ組成物および/またはキットはまた増幅を行うのに必要なバッファー、酵素などを含んでもよい。
【0173】
もう1つの実施態様では、増幅プライマーのみを提供する。これらのプライマーはユーザーが準備できるゲノムDNAから増幅により単一エクソンプローブを生じさせるに十分なものである。
【0174】
上記のように、本発明のゲノム由来単一エクソンマイクロアレイでの使用を意図する場合、本発明のゲノム由来単一エクソンプローブは、エクソンを含め(必ずというわけではないが典型的にはエクソンを中心に)典型的には平均少なくとも約75ないし100bp、より典型的には少なくとも約200bp、好ましくは少なくとも約250bp、いっそう好ましくは約300bp、400bp、または好ましい実施態様では少なくとも約500bpの長さである。さらに、本発明のゲノム由来単一エクソンマイクロアレイでの使用を意図する場合、本発明のゲノム由来単一エクソンプローブは検出可能な標識を含まないのが典型である。
【0175】
しかし、固相ハイブリダイゼーションでの使用、すなわち、プローブが最初に支持基板に結合されていない(しかし、標的は実際には結合されていると考えられる)ハイブリダイゼーション反応での使用を意図する場合、マイクロアレイに基づくハイブリダイゼーションアプローチに課せられる長さの制約はゆるくなり、このようなプローブは標識されるのが典型である。
【0176】
このような場合、このようなプローブの最小サイズを指定する唯一の機能的制約は、このような各プローブがハイブリダイゼーション反応においてそれから抽出されたエクソンを特異的に同定することができねばならないということである。理論上、17ヌクレオチドといった小さなプローブがヒトゲノムにおいてその同族配列を特異的に同定することができる。発現したメッセージ、すなわち、ゲノム配列に比べて複雑性がかなり低い標的配列のサブセットに対するハイブリダイゼーションでは、特異性のために遙かに少ないヌクレオチドしか必要としない。
【0177】
従って、本発明のプローブはせいぜい20bpのエクソン、典型的には少なくとも約25bpのエクソン、より典型的には少なくとも約50bp以上のエクソンを含めばよい。液相またはマイクロアレイに基づくハイブリダイゼーションのいずれかにおいて特異的にシグナルを与えるために本発明のプローブに含める必要があるエクソンの最低量は、標準的な高いストリンジェンシー条件を用いて通常の実験で容易に決定することができる。
【0178】
このような高いストリンジェンシー条件は特に、Short Protocols in Molecular Biology: A Compendium of Methods from Current Protocols in Molecular Biology, Ausubel et al. (eds.), 4th edition (April 1999), John Wiley & Sons (ISBN: 047132938X)およびManiatis et al., Molecular Cloning: A Laboratory Manual, 2nd edition (December 1989), Cold Spring Harbor Laboratory Press (ISBN: 0879693096)(なお、これらの開示は出典明示により本明細書にそのまま組み入れる)に記載されている。
【0179】
マイクロアレイに基づくハイブリダイゼーションでは、標準的な高いストリンジェンシー条件とは、便宜には、50%ホルムアミド、5X SSC、0.2μg/μlポリ(dA)、0.2μg/μlヒトcot1 DNAおよび0.5% SDS、加湿炉中、42℃で一晩、引き続き、1X SSC、0.2% SDS中、55℃で5分、次いで、0.1X SSC、0.2% SDS中、55℃で20分のマイクロアレイの連続洗浄であればよい。
【0180】
固相ハイブリダイゼーションでは、標準的な高いストリンジェンシー条件とは、便宜には、6X SSC中、65℃での水性ハイブリダイゼーションであればよい。
【0181】
構造関連および機能関連のタンパク質をコードするmRNAに対するクロス・ハイブリダイゼーションに好適な低いストリンジェンシー条件は、便宜には、ハイブリダイゼーションおよび洗浄の温度を室温(およそ25℃)に下げること以外は高いストリンジェンシー条件と同じであってよい。
【0182】
固相ハイブリダイゼーションでの使用を意図する場合、本発明の単一エクソンプローブの最大サイズはゲノムDNA中のその他のエクソンの近接により指定され、各単一エクソンプローブは、ヒトゲノム中のそのエクソンに隣接する遺伝子間成分および/またはイントロン成分を含み得るが、本発明の各プローブは典型的にはただ1つのエクソン部分しか含まない。
【0183】
このように、各単一エクソンプローブはわずか約25kbの隣接ゲノム配列、より典型的にはわずか約20kb、より通常にはわずか約15kb、いっそう通常にはわずか約10kbの隣接ゲノム配列しか含まない。通常、最大約5kbのプローブが用いられ、わずか約3kbというのがより典型的である。
【0184】
一本鎖プローブは標的配列に相補的でなければならないと考えられるが、このような相補的配列およびその必要条件を決定することは十分当業者の範囲内である。さらに、二本鎖プローブは適宜変性させれば、液相ハイブリダイゼーションおよびマイクロアレイに基づくハイブリダイゼーションの双方に使用できると考えられる。このように、本明細書の上記および下記で示されるものと相補的な配列を有する一本鎖核酸プローブ、およびその一方の鎖が本明細書に記載されるプローブと相補的な配列を有する二本鎖プローブを提供することが本発明の1つの態様である。
【0185】
上記のように、必ずしも必要ではないが、プローブは、遺伝子間成分および/またはイントロン成分がゲノムDNA中でエクソンの方へ向くようにエクソンと同一の直線関係で、片側または両側でエクソンをフランクする遺伝子間成分および/またはイントロン成分を含でもよい。しかし、これらのプローブは1を超える発現エクソンに由来する核酸は含まないのが典型である。
【0186】
また、溶液ハイブリダイゼーションでの使用を意図する場合、本発明のプローブは検出可能な標識を持ち得ることが便宜である。核酸標識は当技術分野で周知であり、特にH、32P、33P、35S、125I、131Iなどの放射活性標識;Cy3、Cy5、Cy5.5、Cy7、SYBR(登録商標)グリーン、その他Haugland, Handbook of Fluorescent Probes and Research Chemicals, 7th ed., Molecular probes Inc., Eugene, OR (2000)に記載の標識、またはその蛍光共鳴エネルギー移動タンデムコンジュゲートなどの蛍光標識;化学発光および/または増強化学発光検出に好適な標識;ESRおよびNMR検出に好適な標識;量子ドット;およびビオチン、ジオキシゲニンなどのような特異的結合対の一方のメンバーを含む標識が挙げられる。
【0187】
プローブはハイブリダイゼーションに十分な、あるいは増幅に十分な質で個別のバイアルまたはコンテナで提供してもよく、また、乾燥(例えば凍結乾燥)または溶媒和形態で提供してもよい。溶媒和形態であれば、その溶液はハイブリダイゼーションおよび/または増幅に望ましいバッファーおよび塩を含み得るのが便宜である。また、マイクロアレイ上にスポットするのが望ましければ、これらのプローブは、マイクロアレイ支持基板への付着を助けるために攪乱剤溶液として提供できるのが便宜である。
【0188】
あるいは、これらプローブは複数のこのような個々のゲノム由来単一エクソンプローブとしてパッケージングできるのが便宜である。
【0189】
本態様のある実施態様では、各々少量のプローブを、典型的には基板に結合させずに、典型的にはマイクロタイターディッシュのウェルにつき1つの空間アドレス整列されたセットを配置する。96ウェルマイクロタイタープレートを使用できるが、384、864、1536、3456、6144、または9600ウェルを有するマイクロタイタープレートにより提供されるものなど、より高密度のアレイを用いるとより高い効率が得られる。また、物理的なくぼみ(ウェル)を有するマイクロタイタープレートが便宜に使用されるが、液体連絡していない領域から試薬をアドレス回収可能ないずれも装置でも使用できる。
【0190】
整列されたセットのプローブの各々は個々のパッケージングされたプローブに関して上記されている形態のいずれでも提供できる。
【0191】
上記のように、ゲノム増幅に用いるエクソン特異的5’プライマーはそれに付加された第1の共通配列を有してもよく、ゲノム増幅に用いるエクソン特異的3’プライマーはそれに付加された第2の異なる共通配列を有してもよく、このようなものであれば、特定の実施態様では1セットの5’および3’プライマーを用いて、増幅可能な整列セットからいずれのプローブも増幅することができる。
【0192】
このようなゲノム由来単一エクソンプローブのコレクションは、所定の組織、細胞種、発達段階、病状などにおける共通の発現など、共通の属性に関して選択された複数のプローブを含み得るのが便宜である。
【0193】
このような規定のサブセットでは、典型的には少なくとも50%のプローブが規定の組織または細胞種での発現などの共通の属性を有する。より典型的には、少なくとも約60%のプローブが規定の組織で発現し、いっそう典型的には少なくとも約75%、好ましくは少なくとも約80%、85%、または好ましい実施態様では少なくとも約90%、また、95%以上までのもプローブが規定の組織または細胞種での発現などの共通の属性を有する。
【0194】
同様に、本発明はもう1つの態様において、所定の組織、細胞種、発達段階、病状などにおける共通の発現など、共通の属性に関して選択された複数のプローブを有するゲノム由来単一エクソン核酸マイクロアレイを提供する。
【0195】
これらの「サブセットにより規定される」ゲノム由来単一エクソンマイクロアレイは本発明の「第1の繰り返し」ゲノム由来単一エクソンマイクロアレイから、すなわち、推定されたエクソンの発現を確認するために使用されるものから、規定の組織または細胞種での発現などの共通の属性を有することが分かっているプローブのパーセンテージにより識別できる。このような「サブセットにより規定される」マイクロアレイでは、典型的には少なくとも50%のプローブが共通の属性、典型的には規定の組織または細胞種での発現を有する。より典型的には少なくとも約60%のプローブが規定の組織で発現し、いっそう典型的には少なくとも約75%、好ましくは少なくとも約80%、85%、または好ましい実施態様では少なくとも約90%、また95%以上までものプローブが規定の組織または細胞種での発現などの共通の属性を有する。
【0196】
遺伝子発現解析に用いる場合、この「規定サブセット」のゲノム由来単一エクソンマイクロアレイは、供試組織で共通して発現することが分かっているプローブを低いパーセンテージで有するゲノム由来単一エクソンマイクロアレイよりも高い物理的常法密度を提供する。例えばプローブ密度を固定した場合では、規定サブセットのゲノム由来単一エクソンマイクロアレイの所定のマイクロアレイ表面積はより多数の発現測定値をもたらす。あるいは、所定のプローブ密度では、基板表面積のより小さいものからでも同じ数の発現測定値が得られる。あるいは、プローブ密度を固定し、かつ、表面積を固定した場合には、プローブは重複して提供できるので、あるいずれかのプローブに対するシグナル測定により高い確実性が得られる。さらに、アッセイする組織で発現することが分かっているプローブのパーセンテージが高ければ、発現のレベル間でより緻密なレベルの識別を明らかにするよう、検出手段の動的範囲を調節することができる。
【0197】
本発明のもう1つの態様では、ゲノム由来単一エクソンマイクロアレイは個々のプローブのアドレッサブルセットとともにパッケージングするが、この個々のプローブのセットは少なくともマイクロアレイ上に少なくとも1つのプローブのサブセットを含む。別の実施態様では、整列された増幅可能なプローブセットを、ゲノム由来単一エクソンマイクロアレイとは別にパッケージングする。
【0198】
ある実施態様では、このマイクロアレイおよび/または整列プローブセットをさらに、プローブの識別と情報のアドレス化を提供し、かつ、遺伝子発現データなどの注釈付け情報をさらに含む記録媒体とともにパッケージングする。このような記録媒体はマイクロアレイ、整列プローブセット、またはその両者とともにパッケージングできる。
【0199】
出典明示により本明細書にそのまま組み入れる、「CD−ROM形式の空間アドレッサブル・コンビナトリアル・ケミカル・アレイ」と題された国際特許出願WO98/12559に記載されているものなど、記録媒体を組み込んだ基板にマイクロアレイを構成すれば、ゲノム由来単一エクソンマイクロアレイおよびバイオインフォマティクス情報の個々のパッケージングは必要とされない。
【0200】
固相平面基板で高密度ゲノム由来マイクロアレイを用いることは、これまでのところタンパク質をコードすると推定される配列の発現の物理的確認および同定にとっての好ましいアプローチであるが、他のタイプのマイクロアレイ、ならびに低密度マクロアレイも使用できる。
【0201】
プロセス200においてゲノム配列から推定された機能のプロセス400での実験的確認は物理的確認よりもむしろ、あるいはそれに加えてバイオインフォマティクス的であり得る。
【0202】
同定しようとする機能がタンパク質のコードである場合、推定されたエクソンは発現することが分かっている、または発現するものと思われる配列とバイオインフォマティクス的に比較することができる。
【0203】
このようにプロセス300(またはプロセス200)から出力された配列はESTデータベース、SNP(「単一ヌクレオチド多形」)データベース、既知のcDNAおよびmRNA配列、SAGE(「連続的遺伝子発現解析」)データベース、および発現した配列のクエリー検索が可能なより総合的な配列データベースなどの発現データベースをクエリー検索するのに使用できる。このようなクエリー検索はBLAST(「ベーシック・ローカル・アライメント・サーチ・ツール」)など、いずれの配列クエリーアルゴリズムによって行ってもよい。同一配列に関する情報、クエリー配列と相同な配列の散剤または局部領域を有する非同一配列に関する情報をはじめ、このようなクエリー検索の結果は次ぎにプロセス500にそのまま送られ、プロセス200、プロセス300、またはプロセス400で順次行われる解析を報告するために用いられる。
【0204】
実験データはプロセス400で物理的アッセイによって得られたものであれ、バイオインフォマティクス的アッセイによって得られたものであれ、プロセス500に送られ、そこで便宜に配列データ自体と関連付けられ、このプロセスを一般に注釈付けと呼ぶ。このような注釈付けは、例えば記録そのものに機能データを組み込むことにより、ヒエラルキーデータベースまたはリレーショナルデータベースに記録をリンクすることにより、外部データベースに記録をリンクすることにより、あるいはそれの組合せにより、機能情報を配列と便宜に結びつけるいずれかの技術を用いて行うことができる。このようなデータベース技術は十分当業者の範囲内にある。
【0205】
注釈付けされた配列データはその場所に保存することもできるし、ゲノム配列データベース100にアップロードすることもできるし、かつ/または表示することもできる800。
【0206】
本発明の方法および装置はゲノム配列からの機能情報を迅速に作製する。発明者らは例えば本発明の方法および装置を用いて、ヒトゲノム配列において15,000を超えるエクソンを確認し、その発現を少なくとも1種のヒト組織または細胞で確認した。これらのエクソンのゆうに2/3が既存の公開発現(EST、cDNA)データベースでは表示されなかった遺伝子に属している。発明者らはまた、これらの単一エクソンプローブを用いて新規な遺伝子における選択的スプライシングを同定した。
【0207】
目下、配列の蓄積が高まっているペースと結びつけると、本発明によって提供されるゲノムDNAの領域の機能を容易に同定および確認することができるということは、情報を有意義に表示する方法にとって必要なものとなる。従って、注釈付けされた配列を表示する、特に本発明の方法および装置によって注釈付けされた配列を表示する手段を提供することが本発明のもう1つの態様である。さらに、このような表示はこのような注釈付け配列の電子検索、クエリー検索、および解析のための好ましいグラフィック・ユーザー・インターフェースとして使用することができる。
【0208】
図3は本発明に従って注釈付けされた単一ゲノム配列を表すビジュアルディスプレー80を模式的に示す。ピーター・モンドリアンの芸術作品に少し似ていることから、ビジュアルディスプレー80は本明細書ではあるいは「モンドリアン」とも呼ばれる。
【0209】
ディスプレー80の各ビジュアルエレメントは注釈付けされたゲノム配列(「注釈付け配列」)に関して配列されている。典型的には注釈付け配列において示されるヌクレオチド数が与えられれば、個々のヌクレオチドの表示はディスプレー80のハードコピー出力で読むようなことはめったにない。従って典型的には、注釈付け配列はディスプレー80の左の境界線から右の境界線へと伸びる長方形89として模式化される。本明細書では便宜に、長方形89の左の境界線がその配列の最初のヌクレオチドを表し、長方形89の右の境界線がその配列の最後のヌクレオチドを示す。
【0210】
しかし、以下でさらに論じるが、注釈付け配列のモンドリアンビジュアルディスプレーは電子保存された情報のコンピューター表示、解析およびクエリー検索のための便宜なグラフィック・ユーザー・インターフェースとして働き得る。このような使用では、個々のヌクレオチドは長方形89のX軸座標とリンクさせることができれば便宜である。これにより、自動的に、すなわち、例えばカーソルその他のポインターを長方形89の上に動かした際に時間差で小さなオーバーレイドウインドウ(「ツールチップ」)が現れることで、あるいは長方形89内のある点でマウスその他のポインターをクリックすることなどによるユーザーの介入により、長方形89内のどの点の注釈付け配列も容易に見ることができる。
【0211】
ビジュアルディスプレー80は、ユーザーが表示するゲノム配列を列挙した後に作成される。このような列挙は単一のクローン(例えば、GenBankに登録された単一のBAC)の登録番号からなるか、またはそれを含み得るか(従ってこの場合には、開始および終結ヌクレオチドが確実に同定されている)、あるいは、選択された配列の範囲に関して固定されたアンカーまたは支点からなるか、またはそれを含み、従って表示される配列の相対的な終点が得られる。例えば、ユーザーは所定の染色体マップ位置、遺伝子名、またはクエリー検索により入力クエリー配列との類似もしくは一致として返ってきた配列に対してでもこのような範囲を固定することができる。ビジュアルディスプレー80をコンピューター処理データに対するグラフィック・ユーザー・インターフェースとして用いる場合、標準的な絞り込みおよび/または選択ツールを用いることで最初と最後に表示されたヌクレオチドをさらに制御すれば能動的に選択可能となるのが典型である。
【0212】
プロセス200からの出力を表す、すなわち、ゲノム配列内に所望の機能を有する配列のバイオインフォマティクス的推定を表すにはビジュアルディスプレー80の欄81を用いる。さらなる配列は典型的には少なくとも1つの長方形83(83a、83b、83c)によって示され、それらのX軸座標によりその左の境界線および右の境界線がそれぞれ機能を有すると推定される領域の開始ヌクレオチドおよび終結ヌクレオチドを示す。
【0213】
単一のバイオインフォマティクス的方法またはアプローチが、所望の機能を有する複数の領域を同定する場合には、欄81に複数の長方形83が配置される。複数の方法および/またはアプローチを用いて機能を同定する場合には、かかる方法および/またはアプローチは各々、水平に配置された独自の一連の長方形83によって示すことができ、このように水平に配置された一連の各長方形は他の方法およびアプローチの結果を表すものから垂直に分岐する。
【0214】
このように、図3の長方形83aは機能を推定するための第1のアプローチの第1の方法の機能推定を表し、長方形83bはその機能を推定するための第2の方法および/または第2のアプローチの機能推定を表し、また、長方形83cは第3の方法および/またはアプローチの推定を表す。
【0215】
同定しようとする機能がタンパク質のコードである場合、欄81を用いてタンパク質をコードする配列のバイオインフォマティクス的推定を示す。例えば、長方形83aはGRAILまたはGRAIL IIの結果を表し、長方形83bはGENEFINDERの結果を表し、長方形83cはDICTIONの結果を表し得る。
【0216】
所望により、好ましくは、単一の方法および/またはアプローチの推定をひとまとめにして表す長方形83は同じ色および/またはテクスチャーであり、別の方法および/またはアプローチで用いられる色および/またはテクスチャーと区別できる。
【0217】
その代わりに、またはそれに加えて、長方形83の色、色合い、密度、またはテクスチャーはさらにその推定のバイオインフォマティクス的確実性の評価を報告するのにも使用できる。例えば、多くの遺伝子推定プログラムが推定の確実性の評価を報告する。このように、かかる確実性の程度が高まりは濃淡の濃さの高まりにより示すことができる。ディスプレー80をグラフィック・ユーザー・インターフェースとして用いる場合、それに加えて、またはその代わりに、このような確実性の評価および実際にそのプログラムによって出力された他の全ての結果が、時間差ウインドウ(「ツールチップ」運動)またはポインター(例えば、マウス)による能動的リンクにより、個々の長方形83からのリンクにより利用できるようになる。
【0218】
上記のように、推定の確実性の上昇は機能を調べる方法および/またはアプローチ間の一致を求めることによって達成することができる。このように、欄81は、フレーム内で重複する個別推定されたエクソンの長さを組み合わせることをはじめ、機能の推定においてより高い一致程度を示す一連の水平の長方形83を含み得る。
【0219】
図3は欄81に水平に配置された3つの一連の長方形を示すが、ディスプレー80は、ある機能を推定するのに用いられる方法および/またはアプローチの数にもよるが、少なくければこのような一連の長方形を1つ、多くとも識別できる状態で表示できるまでの長方形を含み得る。例えば、最初の試みで用いた3つの遺伝子推定プログラム(GRAIL、GENEFINDER、DINTION)へGENSCAN(
http://genes.mit.edu/GENSCANinfo.html)
などの4つ目の遺伝子推定プログラムを追加することは、欄81に水平に配置され、長方形81a、81bおよび81cから垂直に分岐する4番目の一連の長方形によって提供することができる。
【0220】
さらに、欄81は異なる複数の機能の推定を示すために使用できる。しかし、このようなディスプレーにより時としてビジュアル的な複雑性を増すので、ディスプレーに対して単一の機能を選択するユーザーの能力がより有効なものとなる。ディスプレー80をコンピュータークエリー検索および解析のグラフィック・ユーザー・インターフェースとして使用する場合、このような機能は一連のグラフィックボタンまたはタブ(図3では示されていない)によって便宜に示され、ユーザーが選択できる。
【0221】
長方形89は図3では、長方形84が挿入されて示されている。長方形84は、推定された機能情報が物理的にアッセイされた注釈付け配列の部分を表し、アッセイした材料の開始および終結ヌクレオチドが長方形84の左の境界線および右の境界線のX軸座標で示されている。長方形85は、所望により円86(86a、86bおよび86c)とともにこのような物理的アッセイの結果を表示する。
【0222】
図3には単一の長方形84が示されているが、物理的アッセイは注釈付けゲノム配列の1領域だけに限られるものではない。プロセス200によって機能を有する推定された領域の増加のパーセンテージが物理的にアッセイされ、従って、いずれの所定のゲノム配列に対してもディスプレー80の長方形84および85の数は増え、高い密度の配列の注釈付けを表すものと思われる。例えば、選択的スプライシング検出のためのエクソン特異的プローブの生成を目的として、一般に単一の遺伝子に属する複数のエクソン、好ましくは全てのエクソンについて実験的に発現をアッセイするのが好ましい。従って、ディスプレー80はこのようなエクソンを包含するゲノム配列にでは、アッセイしたエクソンの各々について一連の長方形84および85を有する。
【0223】
同定しようとする機能がタンパク質のコードである場合、長方形84は発現の測定に用いるプローブの配列を同定する。本発明の実施態様において、ゲノム由来単一エクソンマイクロアレイを用いて発現を測定する場合、長方形84はマイクロアレイの固相支持体表面に固定化されたプローブに含まれる配列を同定する。上で特に述べたように、このようなプローブは増幅中に組み込まれた少量の付加的、合成的材料を含むことがしばしばあり、プローブの再増幅を可能とするようデザインされる。なお、この配列はディスプレー80には示されないのが典型である。
【0224】
長方形87はゲノム配列のバイオインフォマティクス的アッセイの結果を表すのに用いられる。例えば、同定しようとする機能がタンパク質のコードである場合、プロセス400にはプロセス200でエクソンをコードすると推定された配列を用いて発現データベースをバイオインフォマティクス的にクエリー検索することが含まれる。そして上記で論じたように、バイオインフォマティクス的アッセイは物理的アッセイよりも制約が少ないので、プロセス300によりそれをさらにサブッセットすることなくプロセス200の全出力をかかるアッセイに用いることができる。従って、長方形87は典型的にはバイオインフォマティクス的アッセイに提示される領域の個々の指標を含む必要はなく、すなわち、長方形87は典型的にはその中に長方形89中の長方形84に類似する領域を持つ必要がない。
【0225】
図3で示される長方形87は小さな長方形880および88を含む。長方形880はバイオインフォマティクス的アッセイにおいて該当結果を回答した領域を示し、長方形88はこのような該当結果を回答しなかった領域を表す。推定および表示しようとする機能がタンパクの質コードである場合、長方形880は、EST、SNP、SAGEデータベースなどの発現データベースにおいて有意な類似性を持つ配列を同定する推定エクソンの領域を示し、長方形88は既存の発現データベースで同定されたものに対して新規な遺伝子を示す。
【0226】
長方形880はさらに色、濃淡、テクスチャーなどにより、バイオインフォマティクス的アッセイから得られたさらなる情報を示す。
【0227】
例えば、アッセイされ表示される機能がタンパク質のコードである場合、長方形880の濃淡の程度を用いて発現データベースのクエリー検索で見出された配列の類似性の程度を表すことができる。識別レベルの数はわずか2である(同一性および類似性、なお、類似性はユーザーの選択できる下限値を有する)。あるいは、視覚的に識別できる限り多くの異なる識別レベルを示すこともできる。
【0228】
ディスプレー80をグラフィック・ユーザー・インターフェースとして用いる場合、長方形880はさらに発現データベースのクエリー検索により同定された配列および/またはその統計的概要ヘ直接リンクさせることができる。すでに論じたディスプレー80のグラフィック・ユーザー・インターフェースとしての各使用に関して、ディスプレー80を経由して入手した情報はかかる表示をするコンピューターに常駐させる必要はなく、多くの場合、1以上の遠隔サーバーに常駐するリンク情報をもってクライアントとしての働くことを理解すべきである。
【0229】
長方形85はその左右の境界線により区切られた配列の物理的アッセイの結果を表示する。
【0230】
長方形85は単一の長方形からなってもよく、そのような場合には単一のアッセイを示すが、あるいは、また、より典型的には、同じ配列の個別の物理的アッセイを示す一連の長方形(85a、85b、85C)からなる。
【0231】
アッセイする機能が遺伝子発現である場合、かつ、遺伝子発現が本明細書に記載のようにゲノム由来単一エクソンマイクロアレイへのハイブリダイゼーションの同時2色蛍光検出法を用いてアッセイされる場合、個々の長方形85を彩色して対照に対する発現の程度を示すことができる。便宜には、従来それぞれその標識化に用いてきたCy3およびCy5染料のスペクトルに対応する、緑色の濃淡を用いて対照値を越えるサンプル中の発現を表すことができ、また、赤色の濃淡を用いて対照より低い発現を表すことができる。さらなる機能情報は円86(86a、86b、86c)の形で提供し、円の直径を用いて長方形85で示されたものとは異なるパラメーターを示すことができる。例えば、注釈付けされた機能が1以上の推定エクソンの発現の分布である場合、長方形85は対照に対する発現を報告することができ、円86を用いてシグナル強度を報告することができる。以下で論じるが、かかる相対発現(発現比)および絶対発現(シグナル強度)はノーマライズした値を用いて表すことができる。
【0232】
ディスプレー80をグラフィック・ユーザー・インターフェースとして用いる場合、長方形85はアッセイについてのさらなる情報へのリンクとして用いることができる。例えば、遺伝子発現に対してアッセイが1つである場合、各長方形85を用いてハイブリダイズしたmRNAソース、対照の特徴、マイクロアレイスキャンから得た生データあるいは加工データなどに関する情報とリンクさせるのに用いることができる。
【0233】
単に例示のためのものであるが、図4は仮定のゲノム配列がエクソン特異的発現データで注釈付けされる場合の典型的な彩色慣例を示すディスプレー80の実施態様を示す。当然容易に理解されるように、色の選択は任意であり、別の色を用いてもよい。
【0234】
この典型的な表示では、BAC配列(「チップ配列」)89は赤色で表され、物理的にアッセイされたその領域(図3の長方形84に対応)は白色で示される。アルゴリズムの遺伝子推定は欄81に示され、GRAILによる推定は緑色、FENEFINGERによる推定は青色、そしてDICTIONによる推定はピンク色で示される。長方形87の中に、クエリー発現データベースを用いた場合、一致または類似配列(「ESTヒット」)の回答は白色の長方形(図3の長方形880に対応)として示され、灰色は相同性の低い配列を示し、黒色は未知の配列を示す(なおここで、黒色および灰色は図3の長方形88に対応する)。
【0235】
図3および4は左から右へと中断されずに単一の配列ストレッチを示すが、より長い配列は、図9および10に示されるような個々のモンドリアンの縦方向の積み重ねにより便宜に表される。
【0236】
発明者らのビジュアルディスプレーツール、モンドリアンを用いて、発明者らは、個々のエクソンの発現パターンの一致が、通常単一の遺伝子に属するエクソンを同定する有効な手段であることを見出した。従って本発明の別の態様は、ビジュアルディスプレーを基にした方法を含む、通常単一の遺伝子に属するエクソンを、関連付けの基準として複数の組織および/または細胞種におけるその発現パターンの一致を用いてエクソンと関連付ける方法を提供する。
【0237】
実施例3でさらに論じるが、図9はカルバミルリン酸シンセターゼ遺伝子(AF154830.1)を含むBAC AC008172(塩基25,000〜130,000で示される)のモンドリアンを表し、その配列および構造はすでに報告されている。図3の欄81に示される領域内の紫色の背景はこの遺伝子の37の既知のエクソン全てを示す。
【0238】
分かるように、GRAIL IIは既知エクソンのうち27(73%)の確認に成功し、GENEFINDERは既知エクソンのうち37(100%)の確認に成功したが、DICTIONは既知エクソンのうち7(19%)を確認したに過ぎない。
【0239】
推定されたエクソンのうち7つは物理的アッセイで選択し、そのうち5つはPCRにより増幅に成功し、配列決定された。これらの5つのエクソンは全て同一の遺伝子、カルバミルリン酸シンセターゼ遺伝子(AF154830.1)に由来するものと分かった。
【0240】
この5つのエクソンを配列し、10の組織で遺伝子発現を測定した。得られたモンドリアン(図5)を見ると容易に分かるように、5つの単一エクソンプローブは同一の発現比パターンを示し、すなわち、各エクソンは第4、第7、および第8の長方形(図3の長方形85に対応)によって表される組織において対照を越えて(すなわち、緑色で)発現し、残りの組織では対照以下で発現する。
【0241】
当然、アッセイした組織の1つにおいて選択的スプライシングによって除去または末端切断されたエクソンは種々の発現パターンを生じるであろう。しかし、一般に単一の遺伝子に属するエクソンの関連付けを目的とするならば、アッセイした組織間で一致すれば、なお仮定に基いてそのエクソンを同一の遺伝子に属するものとみなせる。
【0242】
本発明のこの態様の方法は自動化可能であって、典型的には自動化される。例えば、出典明示により本明細書にそのまま組み入れる、WO99/58720では複数の多次元発現データセットの関連性を整理するためのアルゴリズムを記載している。その中に示される方法は容易にデータセットの関連性の整理に適用でき、そこでは各データセットは複数の組織および細胞種において個々のエクソンの発現比を含み、これにより、関連があるが必ずしも同一ではないエクソンの発現パターンが共通の遺伝子に属すると分類することができる。
【0243】
【実施例】
以下の実施例は例として示されるものであり、これに限定されるものではない。
【0244】
実施例1
ヒトゲノム配列において推定されるエクソンからの単一エクソンマイクロアレイの製造
バイオインフォマティクスの結果
本研究の直前5ヶ月間で登録された10片に満たない全てのヒトBAC配列をGenBankよりダウンロードした。これはほぼ2200クローンに対応し、合計でほぼ350MBの配列、すなわちヒトゲノムの約10%となる。
【0245】
CROSS_MATCHプログラムを用いて繰り返しエレメントをマスキングした後、3つの個別の遺伝子検出プログラムを用いてこの配列をオープンリーディングフレームについて分析した。この3つのプログラムは、独立のトレーニングセットで開発した独立のアルゴリズム法(GRAILはニューラル・ネットワークを用い、GENEFINDERは隠されたマーコフ(Markoff)モデルを用い、また、Genetics Institute所有のプログラムDICTIONは異なる発見方法に従って作動する)を用いて遺伝子を推定する。3つプログラム全ての結果を用いてゲノムDNAのセグメントにおける推定マトリックスを作成した。
【0246】
この3つの遺伝子検出プログラムからはある範囲の結果が得られた。GRAILは推定コード領域として最大パーセンテージである、解析データの2%を同定した。GENEFINDERはそれに次いで1%を呼び出し、DICTIONは推定コード領域が最も少なく、コード領域として呼び出されたのはゲノム配列の0.8%であった。
【0247】
共通データは以下の通り。GRAILおよびGENEFINDERはゲノム配列の0.7%で共通、GRAILおよびDICTIONはゲノム配列の0.5%で一致、そして3つのプログラムはともに分析データの0.25%で一致した。すなわち、3つのプログラム全てによってゲノム配列の0.2%が推定コード領域を含むと確認された。
【0248】
3つのプログラムのうちいずれか2つにより推定されたエクソン(「共通エクソン」)は2つの基準:(1)25kbウィンドウ内の連続した7つのエクソンをおそらくは単一の遺伝子を与えるものとして一緒にビンに入れること、および(2)25kbウィンドウ内に7未満のエクソンが見つかった場合、全てのエクソンをおそらくは単一の遺伝子を与えるものとして一緒にビンに入れること、によって「遺伝子ビン」へ分類した。
【0249】
PCR
全て500bpより長い共通エクソンであった場合、次ぎに反復配列に渡っていなかった各々の遺伝子ビンから最大のエクソンを増幅用に選択した。この方法では1遺伝子あたり1エクソンと見積もられたが、遺伝子数は複数のエレメントによって表されていることが分かった。
【0250】
これまでに、長さ250bp未満のDNA断片がマイクロアレイ構築のための支持基板として用いられているスライドのアミノ修飾したガラス面にはうまく結合しないことが分かっていたので、アンプリコンは本実験では長さ約500bpにデザインした。
【0251】
従って、遺伝子ビンごとに最大のエクソンを選択した後、このエクソンを中心とする500bpの配列断片をプライマーピッキングソフトPRIMER3(http://www−genome.wi.mit.edu/cgi−bin/primer/でオンラインにて利用可能)に送った。第1の付加配列は一般に各エクソンに特有の5’プライマーに付加され、第2の、異なる付加配列は一般に各エクソンに特有の3’プライマーに付加されると、単一の「万能」5’および3’プライマーのセットを用いて、それに続くアンプリコンの再増幅が可能となり、従ってアンプリコンは不死化する。万能プライミング配列の付加はまた配列の確認を助け、これを用いてクローニング部位を付加することもでき、いくつかのエクソンがさらなる研究を保証することが分かるはずである。
【0252】
次いでこれらのエクソンをゲノムDNAからPCR増幅させ、アガロースゲル上で確認し、万能プライマーを用いて配列決定し、マイクロアレイにスポットされるアンプリコンの特徴を確認する。
【0253】
プライマーはOperon Technologies (Alameda, CA)より提供されたものであった。PCR増幅は鋳型としてヒトゲノムDNA (Clontech, Palo Alto, CA)を用いる準技術によって実施した。各PCR産物は、アガロースゲルのSYBR(登録商標)グリーン(Molecular Probes, Inc., Eugene, OR)染色、続いてFluorimager (Molecular Dynamics, Inc., Snnyvale, CA)により画像化することで確認した。単一のバンドが現れた場合、PCR増幅は成功として分類した。
【0254】
PCRを用いてゲノムDNAから直接、着目するエクソンを増幅させる成功率は約75%であった。図5は推定エクソン長の分布および増幅されたPCR産物の分布を図示したもので、エクソン長を点線で、PCR産物長を実線で示している。エクソンサイズの範囲は900bpを超えるまでに広がっていることが容易に分かるが、平均推定エクソンサイズは229bpの過ぎず、サイズ中央値は150bp(n=9498)であった。アンプリコンの平均サイズを475±25bpとすると、平均のPCR増幅産物の約50%が推定コード領域を含み、アンプリコンの残り50%がイントロン配列、遺伝子間配列のいずれかまたは双方を含んでいた。
【0255】
約500bpの増幅に基づいた方法論を用いると、長いエクソンではPCRの失敗率が高いことが分かった。この問題に取り組むため、バイオインフォマティクス的プロセスを500bpよりも長いエクソンから1000、1500または2000bp断片を増幅するように調節した。これにより500bpを超えるエクソンの増幅成功率は向上し、遺伝子検出アルゴリズムによって推定されたエクソンの約9.2%を占めた。
【0256】
アレイに配置したプローブの約75%(首尾よくPCR増幅したものの90%)は、MegaBACEシーケンサー(Molecular Dynamics, Inc., Sunnyvale, CA)、万能プライマー、およびストランドプロトコールを用いて正逆の両方向でシーケンシングすることによって配列を確認した。
【0257】
ゲノムクローン(BAC)の中にはPCRおよびシーケンシング結果があまり十分に得られないものがあった。この理由は明らかではないが、初期のドラフト配列の質またはベクターの封入および提供されたいくつかの配列データのコンタミネーションに関するものである可能性がある。
【0258】
コード領域をフランクするイントロン成分および遺伝子間成分は理論上マイクロアレイ実験の際のハイブリダイゼーションを妨害する可能性があったが、それに続く実験結果は特異な発現比が非コード配列の存在により著しく影響を受けることはないことを示した。エクソンサイズの変動も同様に特異な発現比に著しい影響を及ぼさないことが分かったが、エクソンサイズの変動は絶対的なシグナル強度には影響を及ぼすことが観察された(データは示されていない)。
【0259】
350MBのゲノムDNAは上記のプロセスにより9750の個別のプローブへ変換され、これを市販の機器(MicroArray GenII Spotterおよび/またはMicroArray GenIII Spotter, Molecular Dynamics, Inc., Sunnyvale, CA)を用いてスライドグラス上に二反復でスポットした。各スライドをさらに16または32のいずれかの大腸菌遺伝子に含め、この平均ハイブリダイゼーションシグナルをバックグラウンド生物学的ノイズの測定値として用いた。
【0260】
各プローブ配列を、ヒトESTデータセット、NRデータセット、およびSwissProt GenBank(1999年5月7日、リリース2.0.9)に対してBLASTした。
【0261】
プローブ配列(増幅したもの)の3分の1はEST(配列の20%)かまたは既知のmRNA(配列の13%)のいずれかと正確に合致した(BLASTのExpect(「E」)値は1e−100未満)。さらにプローブ配列の22%は既知のESTまたはmRNAに対していくらかの相同性を示した(BLASTのE値は1e−5〜1e−99)。プローブ配列の残る45%は、公開データベースに存在する発現した配列または発現の可能性のある配列のいずれについても有意な配列の相同性を示さなかった。
【0262】
次ぎに、全てのプローブ配列(増幅したもの)をBLASTX(Gish et al., Nature Genet. 3:266 (1993))を用いてSwissProtデータベースとのタンパク質類似性について解析した。既知配列と同一または相同であるプローブの3分の2の推定機能分類が表1に示されている。
【表1】
Figure 2004512494
【0263】
これから分かるように、最も一般的なタイプの2つの遺伝子は転写因子およびレセプターであり、配列されたエレメントのそれぞれ2.2%および1.8%を占めている。
【0264】
実施例2
ゲノム由来単一エクソンマイクロアレイからの遺伝子発現測定
実施例1に従って作製した2つのゲノム由来単一エクソンマイクロアレイを、各測定の対照として(1)脳、心臓、肝臓、胎児肝臓、胎盤、肺、骨髄、HeLa、BT474、またはHBL100細胞の各々から個々の引き出したメッセージより合成したCy3標識cDNA、および(2)10種全ての組織および細胞種からプールしたメッセージより作製したCy5標識cDNAに対して、一連の同時二色蛍光実験にてハイブリダイズさせた。ハイブリダイゼーションおよびスキャンは標準的なプロトコールおよびMolecular Dynamics装置を用いて行った。
【0265】
便宜にはmRNAサンプルは市販の入手先(Clontech, Palo Alto, CAおよびAmersham Pharmacia Biotech (APB))より購入した。Cy3−dCTPおよびCy5−dCTP(ともにAPBから)を、オリゴ(dT)12〜18プライマー1μgおよびランダム9マープライマー2μgを次の通り用いて実施したポリA mRNA1μgの個々の逆転写中に組み込んだ。70℃まで加熱した後、このRNA:プライマー混合物を氷上で急冷した。氷上で急冷した後、1X Superscript IIバッファー、0.01M DTT、100μM dATP、100μM dGTP、100μM dTTP、50μM dCTP、50μM Cy3−dCTPまたはCy5−dCTP 50μMおよび200U Superscript II酵素を記載の最終濃度となるようにRNAに加えた。反応物を42℃で2時間インキュベートした。2時間後、第1鎖のcDNAを1U リボヌクレアーゼHを添加して単離し、37℃で30分間インキュベートした。次いで、Qiagen PCRクリーンアップカラムを用い、エタノール洗浄を5回に増やして反応物を精製した。10mM Tris pH8.5を用いてプローブを溶出した。
【0266】
分光光度計を用いて、プローブの染料の組み込みを測定した。次いで、各染料50pmoleに相当するCy3およびCy5双方のcDNA量をSpeedvacで乾燥させ、50%ホルムアミド、5X SSC、0.2μg/μlポリ(dA)、0.2μg/μlヒトC。tl DNA、および0.5% SDSを含有するハイブリダイゼーション溶液30μlに再懸濁した。
【0267】
アレイを42℃の湿度炉に一晩置いて、カバーガラス下でハイブリダイゼーションを行った。スキャンする前にスライドを1X SSC、0.2% SDS中、55℃にて5分間洗浄し、続いて、0.1X SSC、0.2% SDS中、55℃にて20分間洗浄した。スライドを水にくぐらせ、弱い窒素流下で完全に乾燥させた。
【0268】
スライドをMolecular Dynamics Gen3 Scannerを用いて記載のようにスキャンした(Schena (ed.), Microarray Biochip: Tools and Technology, Eaton Publishing Company/BioTechniques Books Division (2000) (ISBN: 1881299376))。
【0269】
プールしたcDNAを対照として用いると大量の組織が検査できるが、組織/細胞種に特異的な蛍光チャネル中で発現の高い遺伝子はいずれも対照チャネル中に少なくとも10%のレベルで存在するため、相対的遺伝子発現の測定が不十分となる。このことから、各プローブに対するシグナルおよび発現比(後者は以下、「発現」または「相対発現」とする)は、スライド全体を測定する場合、それぞれ平均の比率または平均シグナルを用いてノーマライズした。
【0270】
データは、シグナルが生物学的ノイズよりも少なくとも3倍大きい場合に限って、さらなる解析を行った。なお、生物学的ノイズとは大腸菌対照遺伝子によって生じる平均シグナルと定義される。
【0271】
次ぎに、これらのプローブに対する相対的発現シグナルを、組織または細胞種の関数としてプロットし、これを図6に示す。
【0272】
図6は10種の組織のパネル全体の発現分布を示す。このグラフは発現されなかったか(「0」)、全てではないが1以上の供試組織において発現したか(「1」〜「9」)、あるいは全ての供試組織で発現した(「10」)か、配列により確認された産物の数を示す。
【0273】
2つのマイクロアレイ上に配列された9999のエレメントのうち(正の対照および負の対照ならびに「失敗した」産物を含む)、2353(51%)が少なくとも1の組織または細胞種で発現した。有意なシグナルを示す遺伝子エレメントのうち(ノーマライズしたCy3シグナルが1より大きい場合、生物学的ノイズの5倍のシグナルを示し、発現が「有意」と記録される)、39%(991)が10種全ての組織で発現した。次いで遺伝子エレメントからなる最も一般的なクラス(15%)は1つの組織でのみ発現した。
【0274】
単一の組織で発現した遺伝子をさらに解析し、その解析結果が図7にまとられている。
【0275】
図7Aは、少なくとも1つの組織にて3より大きなシグナル強度を示した全ての確認済み配列の発現を示したマトリックスである。各クローンはマトリックス中の列で示される。アッセイした10種の組織の各々はマトリックス中では別個の列で表されており、この組織中のクローンの相対発現(発現比)はそれぞれの節の緑色の濃淡の強さによって示される(強さの凡例はパネルBに示す)。マトリックスの一番上の列(「ESTヒット」)は「物理的」発現データよりも「バイオインフォマティク的」発現データを包含し、すなわち、プローブ配列を用いてEST、NRおよびSwissProtデータベースのクエリー検索によって回答された結果を表している。「バイオインフォマティクス的発現」(すなわち、回答された相同性の程度)の凡例をパネルCに表す。要するに、白色が既知、黒色が新規で、灰色が有意な相同性で一致しなかったものを示す(白色:E値<1e−100;灰色:1e−5(1x10−5)〜1e−99(1x10−99);黒色:E値>1e−5(1x10−5))。
【0276】
図7から容易に分かるように、心臓および脳はそれぞれの組織に特異的に発現することを示す遺伝子数が最も多いことが証明された。脳には特異的に発現する200の遺伝子が確認され、心臓では150が確認された。残りの組織も特異的発現する遺伝子に関して以下のような数値を示した:肝臓、100;肺、70;胎児肝臓、150;骨髄、75;胎盤、100;HeLa、50;HBL、100;およびBT474、50。
【0277】
さらに、これらの中で、ただ1つの組織中でダウンレギュレーションされるものと比較して、ただ1つの組織中でアップレギュレーションされる、より多くの「新規の」遺伝子が観察された。実際、単一の供試組織でのみ発現が測定可能なエクソンは、配列決定データベース中での割合は11%に過ぎないことが分かり、一方、この組織のうち9種では発現が測定可能なエクソンの36%は公開データベースにも存在する。10種の組織全てにおいて発現するエクソンに関しては、少なくとも45%が現存する発現配列データベースに存在する。多くの組織で発現する遺伝子はESTのアプローチによって発見される可能性が高く、従ってすでに発見されている可能性が高かいため、これらの結果は予期されなかったものではない。
【0278】
既知遺伝子および未知遺伝子からのシグナルの比較
GenBankヒトESTデータベースに存在する遺伝子と高い相同性を有することが分かった遺伝子のノーマライズしたシグナルを、GenBankヒトESTデータベースには見られない遺伝子のノーマライズしたシグナルと比較した。データを図8に示す。
【0279】
図8は、既存のEST、NRおよびSwissProtデータベースのクエリー1e−30(1x10−30)よりも大きなBLAST Expect(「E」)値を有する(「未知」と示される)全ての配列確認産物のノーマライズしたCy3シグナル強度を点線で示し、1e−30よりも小さなBLAST Expect値を有する(「既知」)全ての配列確認産物のノーマライズしたCy3シグナル強度を青色で示している。生物学的バックグラウンドノイズはノーマライズした平均Cy3シグナル強度0.2を有する。
【0280】
予期されたように、最も高度に発現したエクソンは「既知」遺伝子であった。極めて高いシグナル強度は、EST配列によって発見される可能性の高い、極めて高度に発現する遺伝子と相互に関連するため、これは驚くことではない。
【0281】
しかし、重要な点は、高度に発現するものでさえその多くが「未知」であるということである。遺伝子を同定し、その発現を確認するのに用いるこのゲノムアプローチはエクソンを遺伝子の3’末端かまたは5’末端のいずれにも偏らせないので、これらの高度に発現する遺伝子の多くが末端を配列決定したcDNAライブラリーで検出されていないであろう。
【0282】
重要な点は、ESTデータベース中のこの遺伝子の存在が、ゲノム由来のマイクロアレイへの組み込みに対する必要条件ではないことで、さらに、かかる「未知」エクソンを配列すれば、まだ発見されていない遺伝子に機能を割り当てる助けとなり得るということである。
【0283】
遺伝子発現の確認
未処理のゲノム配列から遺伝子を同定する上記アプローチの有効性を確かめるため、プローブのうち2つの発現を逆転写ポリメラーゼ連鎖反応(RT PCR)およびノーザンブロット解析を用いてアッセイした。
【0284】
2つのマイクロアレイプローブをシーケンシグの成功の前のエクソンサイズ、およびマイクロアレイ実験により測定される組織特異的な遺伝子発現パターンに基いて選択した。RT PCRでは、もともとゲノムDNAからの2つの個別のエクソンを増幅するのに用いたプライマーを組織特異的cDNAのパネル(Rapid−Scan遺伝子発現パネル24ヒトcDNAs)(OriGene Technologies, Inc., Rockville, MD)に対して用いた。
【0285】
配列AL079300_1が心臓の組織に存在することがマイクロアレイハイブリダイゼーションにより示され、配列AL031734_1が胎盤の組織に存在することがマイクロアレイ実験により示された(データは示されていない)。これらの2つの配列についてのRT−PCRでは、マイクロアレイにより測定され、個々の組織種cDNAからの正確に同じ大きさのPCR生成物の存在によって確かめられるように、組織特異的遺伝子発現が確認された。
【0286】
明らかに、全てのマイクロアレイの結果が独立したアッセイ法によって確認できないし、また実際できるはずもなく、そうでなければ、高スループットの、高度並行マイクロアレイハイブリダイゼーションアッセイの利点がなくなる。しかし、上記に示した2つのRT−PCR結果に加え、配列された遺伝子の3分の1が発現データベースに存在することを見出したことは、未加工のゲノムデータから新規の遺伝子を確認するという発明者らの方法論(バイオインフォマティクスからの推定とゲノム由来単一エクソンマイクロアレイを用いる発現確認とを組み合わせたもの)の能力の有効な確証をもたらす。
【0287】
このアプローチがさらに、同定した遺伝子の発現パターンの正確な特性決定を提供することを確かめるため、脳において高いシグナルを示したマイクロアレイ配列の詳細な解析を行った。
【0288】
この解析に関して、脳内で高いシグナル(ノーマライズしたもの)を示したが、その他の全ての組織で極めて低いシグナル(ノーマライズしたもの) (0.5未満、生物学的ノイズと判定)を示した配列をさらに研究した。これらの判断基準に合致したものは82配列で、配列したエレメントの約2%である。マイクロアレイハイブリダイゼーションにおいて脳内で最も高いシグナルを示した10配列を、既知であるかまたは合理的に推定される場合に、割り当てた機能とともに表2に詳細に示した。
【表2】
Figure 2004512494
【0289】
これらの後者の確認アプローチで研究される10配列のうち、8配列が既知であった。これら8のうち、6の配列が中枢神経系または脳で重要であることがこれまでに報告されている。最高のシグナルを示したエクソン(AP00217−1)は、文献では中枢神経系において高度にかつ特異的に発現することが報告されている(Heizmann, Neurochem. Res. 9:1097(1997))、 S100B Ca2+結合タンパク質をコードする遺伝子であることが分かった。
【0290】
いくかの脳特異的プローブ配列(AC006548−9、AC009266−2を含む)はGenBankの既知のヒトcDNAのいずれとも相同性を持たないが、ラットおよびマウスのcDNAとは相同性を示す。配列AC004689−9およびAC004689−3はともにニューロンに存在するホスファターゼであることが分かった(Millward et al., Trends Biochem. Sci. 24(5):186−191 (1999))。2のマイクロアレイ配列、AP000047−1およびAP000086−1は未知の機能を有し、AP000086−1はGenBankに存在していない。これら双方の遺伝子について、機能性は今や中枢神経系での役割へと絞り込むことができるが、このことはこのようにしてマイクロアレイをデザインすることの有効性を示すものである。
【0291】
次ぎに、他の組織での発現に関わらず、脳で最高のシグナル強度(ノーマライズしたもの)を有するチップ配列の機能を評価した。この解析では、この配列が脳だけで発現するものとは限らなかったため、発明者らはさらに多くの一般的な遺伝子の発現を見出した。例えば、脳における20の最高シグナル強度スポットを観察すると、4つがチュービュリンに類似し(AC00807905;AF146191−2;AC007664−4;AF14191−2)、2つがアクチンに類似し(AL035701−2;AL034402−1)、および6つがグリセルアルデヒド−3−リン酸デヒドロゲナーゼ(GAPDH)と相同であった(AL035604−1;Z86090−1;AC006064−L;AC006064−K;AC035604−3;AC006064−L)。これらの遺伝子は全種類のマイクロアレイ実験において対照またはハウスキーピング遺伝子としてしばしば用いられている。
【0292】
脳で発現の高い他の興味深い遺伝子としてフェリチン重鎖タンパク質があり、文献では脳および肝臓に見られると報告されており(Joshi et al., J. Neurol. Sci. 134(Suppl):52−56 (1995))、結果をアレイで確認した。別の高度に発現するチップ配列としては、翻訳伸長因子1α(AC007564−4)、DEAD−boxホモログ(AL023804−4)、およびY染色体RNA結合モチーフ(Chai et al., Genomics 4982):283−89 (1998))(AC007320−3)が挙げられる。トリソミー21(ダウン症候群)に関すると思われる遺伝子DSCR1に対して相同性の低い類似体(AP00123−1/2)は、脳および心臓の双方において高い発現を示し、文献と一致している(Fuentes et al., Mol. Genet. 4(10):1935−44 (1995))。
【0293】
さらにこのアプローチを検証するものとして、BAC AC006064をアレイに含めることを選択した。このBACはGAPDH遺伝子を含むことが知られており、従ってエクソン選択プロセスの対照として使用することができる。遺伝子検出およびエクソン選択アルゴリズムは、アレイ上にスポッティングするBAC AC006064から25のエクソンを選択し、そのうち4つはGAPDH遺伝子から導かれたものであった。表3はBAC006064からの4つのエクソンの平均発現率を市販のGAPDH cDNA(Clontech)の5種類の異なる希釈物についての平均発現率と比較したものを示す。
【表3】
Figure 2004512494
【0294】
各組織は、実験的に選択されたエクソンと対照との間で良好な一致を示し、このエクソンを掘り当てるアプローチの有効性を重ねて証明した。さらに、このデータはまた組織内でのGAPDH発現の変動を示し、ハウスキーピング遺伝子としての分類およびマイクロアレイ実験におけるハウスキーピング対照としての有効性に疑問を投げかけた。
【0295】
実施例3
「モンドリアン」としての配列および発現データの表示
上記のようにマイクロアレイ用に処理した各ゲノムクローンに関して、全長クローン配列、クローン内のプローブ配列、3つの遺伝子検出プログラムの各々の結果、このプローブ配列に関するEST情報、ならびにマイクロアレイシグナルおよび複数組織に対する発現をはじめ過剰な情報が集積し、これは発明者らの情報表示能力を試すものであった。
【0296】
従って、発明者らは、注釈付け配列のビジュアルディスプレーに関する新規なツールを考案した。これを、ピーター・モンドリアンの絵画との視覚的類似を尊重して、以後「モンドリアン」と称する。図3および4はモンドリアンに示された情報の要所を示す。
【0297】
図9はカルバミルリン酸シンセターゼ遺伝子(AF154830.1)を含むBAC AC008172(塩基25,000〜130,000で表示)のモンドリアンを示す。図3中で81の欄の紫色の部分はこの遺伝子の37の既知のエクソン全てを示す。
【0298】
分かるように、GRAIL IIは既知エクソンのうち27(73%)の確認に成功し、GENEFINDERは既知エクソンのうち37(100%)の確認に成功したが、DICTIONは既知エクソンのうち7(19%)を確認したい過ぎなかった。
【0299】
推定エクソンのうち7つが物理的アッセイに選択され、そのうち5つがPCRにより増幅に成功し、配列決定された。これらの5つのエクソンは全て同じ遺伝子、カルバミルリン酸シンセターゼ遺伝子(AF154830.1)に由来するものであることが分かった。
【0300】
この5つのエクソンを配列して、遺伝子発現を10の組織にわたって測定した。モンドリアンで容易に分かるように、アレイ上の5つのチップ配列は同一の発現パターンを示し、システムの再現性を科学的に精緻に証明している。
【0301】
図10はBAC AL049839のモンドリアンである。発明者らはこのBACから12のエクソンを選択し、そのうち10で配列決定に成功し、これらが5ないし6遺伝子を形成することが分かった。興味深いことにこのBAC上の遺伝子の4つがプロテアーゼ阻害剤である。さらに、これらのデータは同じ遺伝子から選択されたエクソンが同じ発現パターンを示すことを科学的に精緻に示し、赤い線の下に描かれている。この図から、発明者らの既知遺伝子を見出す能力が極めて優れていることは明らかである。新規の遺伝子も86.6kb〜88.6kbに見出され、全てのエクソン検出プログラムもこれに一致する。2つのエクソンは同じ発現パターンを示し、互いに隣接しているため、発明者らは単一の遺伝子由来の2つのエクソンがあることを確信している。以下の色の背景は既知遺伝子を示す(上から下へ):赤色=カリスタチンプロテアーゼ阻害剤(P29622);紫色=血漿セリンプロテアーゼ阻害剤(P05154);青緑色=α1抗キモトリプシン(P01011);藤色=40Sリボソームタンパク質(P08865)。チップ配列8および12は配列を確認していないことに注意。
【0302】
実施例4
遺伝子推定および単一エクソンマイクロアレイ解析によるゲノム配列から確認された遺伝子の配列
実施例1〜3で述べたように実験でヒトゲノム配列から確認された3つのエクソンの配列をここに示すが、各エクソンはその推定コード配列によって表され、その後はその発現を評価するためにゲノム由来単一エクソンマイクロアレイで用いられるアンプリコンの配列によって表される。この3つの配列は、本方法によって得られる3つのクラス、すなわち、(1)EST、SNP、SwissProtデータベースなどの発現データベースですでに確認され、かつ登録されているもの;(2)発現データベースには一致は示されていないが、かかる発現データベースにすでに存在する遺伝子と有意な相同性を示す配列を有するもの;および(3)発現データベースでは一致が存在せず、かつ、発現データベースに存在する遺伝子と有意に相同な配列も持たないもの、の各々を表すようにそれぞれ選択された。
【0303】
まず最初の、AC007683_4_チップ配列1と呼ばれるものは、既存の発現データベース中の配列と同一であることが分かった。
AC007683_4_チップ、配列1の推定エクソン:
【表4】
Figure 2004512494
(配列番号1)
AC007683_4_チップ、配列1のアンプリコン:
【表5】
Figure 2004512494
(配列番号2)
【0304】
2番目の、AC007682_2_チップ配列2と呼ばれるものは、発現データベースでは一致が見出せなかったが、かかるデータベースの1以上の配列と相同性を有することが分かった。
AC007682_2_チップ、配列2の推定エクソン:
【表6】
Figure 2004512494
(配列番号3)
AC007682_2_チップ、配列2のアンプリコン:
【表7】
Figure 2004512494
(配列番号4)
【0305】
3番目の、AC007552_4_チップ、配列2と呼ばれるエクソンは、公開発現データベースでは一致が存在せず、配列においていずれの登録配列との有意な関連もないことが分かった。
AC007552_4_チップ、配列2の推定エクソン:
【表8】
Figure 2004512494
(配列番号5)
AC007552_4_チップ、配列2のアンプリコン:
【表9】
Figure 2004512494
(配列番号6)
【0306】
実施例5
ヒト遺伝子発現の測定に有用なゲノム由来単一エクソンプローブ
上記実施例1および2に示したプロトコールをGenBankで新規に利用できるように追加のヒトゲノム配列にいくつかの変更を施した。これらおよび実施例2に報告される実験を合わせた努力から、発明者らは15,000を越える独特のヒトゲノム由来単一エクソンプローブを作製し、それらが10種の供試組織のうち1以上で有意なレベルで発現することを示すことができた。
【0307】
実施例1および2で示されるバイオインフォマティクス的推定のためのプロトコールの修正は次の通り。
【0308】
まず第1に、発明者らは最初に用いていたDICTION、GENEFINDERおよびGRAILの3つに、4番目の遺伝子推定プログラムGENSCANを加えた。
【0309】
第2に、発明者らはエクソン推定の解像度を次のように向上させた。
【0310】
実施例1および2で報告した実験において、ゲノム配列をスキャンする際に25bpのウィンドウを用いたが、3つの遺伝子推定プログラムのうち2つがウィンドウ内のどこにおいてもエクソンを確認した場合、エクソンが呼び出される。より最近の実験では、発明者らはヌクレオチドを基準にヌクレオチドの一致を探したところ、4つのプログラムのうち2以上が、ヌクレオチドがエクソン内に収まっていると確認した場合、そのヌクレオチドはエクソンに属するものとして呼び出される。これは重複する推定エクソンをマージするというさらなる利点がある。
【0311】
最後に、発明者らは各一致エクソンに対して下方のサイズ限界値を隣接する75ヌクレオチドとした。
【0312】
各プローブはゲノム由来単一エクソンマイクロアレイでの使用に先立ち両鎖について完全に配列決定した。なお、配列決定で各プローブの正確な化学構造が確認された。配列決定のその他の利点は、シーケンシングプライマー3’OHから開始する、配列決定した核酸の単一塩基付加断片セットが得られることである。(単一エクソンプローブはまずゲノムDNAからPCR増幅を行うことにより得られるため、発明者らは当然、単一エクソンプローブの各々の単一塩基付加断片(各断片は2つの増幅プライマーのうちの1つからの伸長産物に対応する)のかなり大きなセットをさらに得ることとなった。)
【0313】
ハイブリダイゼーション解析は、1点変更を加えたが、実質的には実施例1および2で示されたようにして行った。
【0314】
実施例1および2において、発明者らは対照として10種の組織/細胞種のプールを用いた。以来、対照プールで発現を証明するあらゆるプローブがHeLa細胞で容易に発現されることを観察し、より最近の研究では対照メッセージのソースとしてHeLaを用いている。
【0315】
ハイブリダイゼーション結果の解析において、生物学上有意であると考えられるに足る長さのシグナルを確認するため、実施例1および2で用いた一律の絶対シグナル強度の閾値(0.5、第1の反復チップ上の全ての大腸菌対照スポットの平均よりも大まかに10倍大きいレベルを表す)を、以下の通り各チャネルおよび各ハイブリダイゼーションについて決められた統計的閾値へと置き換えた。
【0316】
典型的には32の大腸菌配列から開始し、二反復で(左側および右側)スポットしてマイクロアレイあたり合計64の対照スポットとし、プローブに対して左側と右側の未加工の(ノーマライズしていない)シグナル間の違いが5倍を越えて観察された場合には対照スポットを除外した。
【0317】
残りの対照スポットからのノーマライズしたシグナルの中間値を算出した(ノーマライズの手順については以下を参照)。
【0318】
対照スポットがノーマライズしたシグナルの中間値+2.4(2.4は観察された対照スポット集団の標準偏差の大まかに12倍)より大きいシグナル強度を持つ場合、その対照スポットをアウトライアーとして除外し、ノーマライズは以下で示す通りに行った。
【0319】
残りの対照スポットからノーマライズしたシグナル強度の平均および標準偏差を算出し、対照の平均+3の標準偏差を、次に特定のハイブリダイゼーション実験の最少強度閾値として用いて、発現が有意であるという確度99%を得た。
【0320】
シグナルのノーマライズは以下の通りに行った。ハイブリダイゼーションごとに(マイクロアレイごと、2色の各々について個別に)、全てのスポットの中間値を決定した。各プローブに対し、ノーマライズしたシグナル値は、プローブの2倍のシグナル強度(対照を含む各DNAプローブはスライドあたり2度スポットされる)を母集団の中央値で割った相加平均である。
【0321】
この閾値を用い、発明者らは10種の供試組織/細胞種のうち1以上で有意なシグナルを生じた15,000を越える単一エクソンプローブを確認した。これらの単一エクソンプローブの正確な構造は、同一所有者同時係属の米国仮出願第60/207,456号(2000年5月26日出願)、同第60/234,687号(2000年9月21日出願)、同第60/236,359号(2000年9月27日出願)、同一所有者同時係属の英国特許出願第24263.6(2000年10月4日出願)、および同一所有者同時係属のPCT出願(2001年1月29日出願)(代理人整理番号PB 0004 WO 1の「ヒト心臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 2の「ヒト脳における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 3の「ヒト成人肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 4の「ヒト胎児肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 5の「ヒト肺における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 6の「ヒト骨髄における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 7の「ヒト胎盤における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 8の「BT 474細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 9の「HBL 100細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 10の「Hela細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」)に含まれる配列リストで明白に示されている(なお、これらの開示は出典明示によりそのまま本明細書に組み入れる)。
【0322】
発明者らはまた各プローブのエクソン内のORFの配列を推定した。なお、ORFとは隣接するアミノ酸配列へそのすべてを翻訳され得るエクソンの一部であると定義される。
【0323】
ORFを推定するため、発明者らはまず4つの遺伝子検出プログラムのうち2以上での一致を探した。一致には2つのパラメーター:(1)エクソンの推定と同様に、各ヌクレオチドは2以上のプログラムでエクソン内に収まることが確認されていなければならないこと;および、さらに(2)この一致を立証するのに用いるプログラムはフレームが一致しなければならないこと、を要した。停止コドンが存在すればORFの推定は不適格とした。また、50ntより短いORFも無視した。
【0324】
ヌクレオチドおよびフレームについて一致がない場合は、推定したエクソンの6つのフレームの各々を、停止コドン、およびエクソンにありがちなORFとして選択された少なくとも51ntの最も長いオープンリーディングフレームについて個々に調べた。エクソンの中にはいずれの基準セットによって定義されたORFも持たないものがある。
【0325】
次ぎに発明者らは標準遺伝子コードを用いて推定ORFを翻訳した。
【0326】
これらの単一エクソンプローブの正確な構造は、同一所有者同時係属の米国仮出願第60/207,456号(2000年5月26日出願)、同第60/234,687号(2000年9月21日出願)、同第60/236,359号(2000年9月27日出願)、同一所有者同時係属の英国特許出願第24263.6(2000年10月4日出願)、および同一所有者同時係属のPCT出願(2001年1月29日出願)(代理人整理番号PB 0004 WO 1の「ヒト心臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 2の「ヒト脳における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 3の「ヒト成人肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 4の「ヒト胎児肝臓における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 5の「ヒト肺における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 6の「ヒト骨髄における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 7の「ヒト胎盤における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 8の「BT 474細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 9の「HBL 100細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」、PB 0004 WO 10の「Hela細胞における遺伝子発現の解析に有用なヒトゲノム由来単一エクソン核酸プローブ」)に含まれる配列リストで明白に示されている(なお、これらの開示は出典明示によりそのまま本明細書に組み入れる)。
【0327】
プローブ、エクソン、およびORFにコードされるペプチドの各々の配列をクエリーとして用いて、dbEST、GenBank NR、およびSWISSPROTの各々で最も類似した配列を確認した。使用したクエリープログラムはBLAST(dbESTおよびNRの核酸配列クエリー)、BLASTX(SWISSPROTの核酸配列クエリー)、TBLASTX(dbESTおよびNRのペプチド配列クエリー)、およびBLASTP(SWISSPROTのペプチド配列クエリー)である。クエリー配列はそれ自身GenBank中のゲノム配列に由来するので、NRからの非ゲノムヒットのみを記録した。
【0328】
同一所有者同時係属出願の、添付の配列リストは、各配列番号に関して、「E」値そのものに加えて、最も高い絶対期待値(「E」)値(「最高ヒット」)を出した3つのクエリーデータベースの各々から登録した登録番号を報告している。この配列リストは出典明示によりそのまま本明細書に組み入れる。
【0329】
本明細書中で言及した全ての特許、特許出願、および他の公開された参考文献は、あたかも各々が個々に具体的に出典明示により本明細書に組み入れられているように、出典明示によりそのまま本明細書に組み入れる。本発明の例としての好ましい実施態様を記載するが、本発明から離れずにその中で種々の変更および改変を行ってもよく、また、添付の特許請求の範囲においてかかる変更、改変および本発明の真の精神および範囲内にある同等なもののすべてを包含するものとすることは当業者には明らかであろう。
【図面の簡単な説明】
【図1】本発明に従ってゲノム配列から機能領域を推定する、かかる領域の機能活性を実験的に確認する、また元の配列データとの有意義かつ有用な関係において、このようにして得られたデータを結びつけて表示する方法を示す。
【図2】本発明に従ってゲノム配列から機能領域を推定するための、図1で示された方法の一部をさらに詳しく示す。
【図3】本発明のビジュアルディスプレーを示す。ここでは、単一ゲノム配列が推定され、かつ、実験的に確認された機能情報で注釈付けされる「モンドリアン(Mondrian)」を示す。
【図4】図9および10のようにモンドリアンを用いてゲノム配列をエクソン特異的発現データで注釈付けする場合の典型的な色の慣例をさらに確認する仮定の注釈付けゲノム配列のモンドリアンを示す。
【図5】実施例1から得られたデータを要約するチャートであり、推定エクソン長(点線)および本発明の方法に従ってヒトゲノム配列から得られる実際のPCR産物(アンプリコン)(実線)のサイズ分布を示す。
【図6】実施例1および2から得られたデータを要約するヒストグラムであり、推定されるエクソンが本発明のゲノム由来単一エクソンマイクロアレイとの同時二色ハイブリダイゼーションを用いて発現することが示された組織の数を示す。このグラフは10種の供試組織/細胞種のいずれにおいても発現されなかったか(「0」)、全てではないが1以上の供試組織において発現したか(「1」〜「9」)、あるいは全ての供試組織で発現した(「10」)か、配列により確認された産物の数を示す。
【図7】実施例1および2から得られたデータの画像表示であり、少なくとも1つの組織で3より大きいシグナル強度で発現した確認配列を有するプローブの発現(対照に対する比)を示す。なお、図7Aは測定した10種の組織の各々においてマイクロアレイハイブリダイゼーションによって測定された発現と、EST、NRおよびSwissProtデータベースのクエリーによって「バイオインフォマティクス的に」測定された発現の双方を示し、図7Bは図7Aにおける物理的発現の表示(比)の凡例を示し、図7Cは図7Aで示されたESTヒットをスコアリングするための凡例を示す。
【図8】実施例1および2から得られたデータのチャートであり、既存のEST、NRおよびSwissProtデータベースにおける配列と同一であった(既知)、あるいは同一ではなかった(未知)整列配列に対してCY3シグナル強度をノーマライズしたものの比較を示し、ここで点線は1e〜30(1x10−30)より大きなBLAST Expect(「E」)値を有する(「未知」)全ての配列確認産物のシグナル強度を示し、実線は1e〜30(1x10−30)より小さなBLAST Expect(「E」)値を有する(「既知」)配列確認スポットを示す。
【図9】カルバミルリン酸シンセターゼ遺伝子(AF154830.1)を含むBAC AC008172(塩基25,000〜130,000)のモンドリアンを示す。
【図10】BAC A049839のモンドリアンである。

Claims (20)

  1. 支持体にアドレス配置された複数の核酸プローブを含んでなり、該核酸プローブの少なくとも50%が真核生物ゲノムのただ1つのエクソン断片を含み、該断片が発現した遺伝子と高いストリンジェンシーで選択的にハイブリダイズ可能であり、該複数の核酸プローブが平均少なくとも100bpの長さであり、かつ、該真核生物ゲノムが遺伝子あたり平均少なくとも1イントロンである、単一エクソン核酸マイクロアレイ。
  2. 該核酸プローブの少なくとも95%が該真核生物ゲノムのただ1つのエクソンの選択的ハイブリダイズ部分を含む、請求項1に記載のマイクロアレイ。
  3. 該エクソン含有核酸プローブの少なくとも50%が、該断片の第1の末端に隣接して、同様にそのゲノムの該断片に隣接する第1のイントロン配列および/または遺伝子間配列をさらに含む、請求項1に記載の単一エクソン核酸マイクロアレイ。
  4. 該エクソン含有核酸プローブの少なくとも95%が、該断片の第1の末端に隣接して、同様にそのゲノムの該断片に隣接する第1のイントロン配列および/または遺伝子間配列をさらに含む、請求項1に記載の単一エクソン核酸マイクロアレイ。
  5. 該エクソン含有核酸プローブの少なくとも50%が、該断片の第1の末端に隣接して、同様にそのヒトゲノムの該断片に隣接する第1のイントロン配列および/または遺伝子間配列を含み、該断片の第2の末端に隣接して、同様にそのヒトゲノムの該断片に隣接する第2のイントロン配列および/または遺伝子間配列をさらに含む、請求項1に記載の単一エクソン核酸マイクロアレイ。
  6. 該エクソン含有核酸プローブの少なくとも95%が、該断片の第1の末端に隣接して、同様にそのヒトゲノムの該断片に隣接する第1のイントロン配列および/または遺伝子間配列を含み、該断片の第2の末端に隣接して、同様にそのヒトゲノムの該断片に隣接する第2のイントロン配列および/または遺伝子間配列をさらに含む、請求項1に記載の単一エクソン核酸マイクロアレイ。
  7. 該エクソン含有核酸プローブの少なくとも50%が原核生物ベクター配列およびバクテリオファージベクター配列を欠く、請求項1に記載の単一エクソン核酸マイクロアレイ。
  8. 該エクソン含有核酸プローブの少なくとも95%が原核生物ベクター配列およびバクテリオファージベクター配列を欠く、請求項1に記載の単一エクソン核酸マイクロアレイ。
  9. 該エクソン含有核酸プローブの少なくとも50%がAまたはTのホモポリマーストレッチを欠く、請求項1に記載の単一エクソン核酸マイクロアレイ。
  10. 該エクソン含有核酸プローブの少なくとも95%がAまたはTのホモポリマーストレッチを欠く、請求項1に記載の単一エクソン核酸マイクロアレイ。
  11. 該真核細胞ゲノムが遺伝子あたり少なくとも平均2イントロンである、請求項1に記載のマイクロアレイ。
  12. 該真核細胞ゲノムが遺伝子あたり少なくとも平均3イントロンである、請求項1に記載のマイクロアレイ。
  13. 該真核細胞ゲノムが遺伝子あたり少なくとも平均5イントロンである、請求項1に記載のマイクロアレイ。
  14. 該ゲノムがヒトゲノムである、請求項1に記載のマイクロアレイ。
  15. 真核細胞ゲノムにおいて遺伝子を同定する方法であって、
    該真核生物のゲノム配列から該遺伝子のエクソンの少なくとも1つをアルゴリズムで推定し、次いで
    mRNA由来の核酸と、該推定エクソンと配列が同じであるか、または配列が相補的な選択的ハイブリダイズ部分を有する核酸プローブとのハイブリダイゼーションを検出することを含み、
    該プローブが請求項1から14のいずれか一項に記載の単一エクソンマイクロアレイ内に含まれる、方法。
  16. 真核生物遺伝子の発現を測定する方法であって、請求項1から14のいずれか一項に記載の単一エクソンマイクロアレイと、検出可能なように標識された核酸の第1のコレクションとを接触させ(なお、該第1のコレクション核酸は少なくとも1つの真核生物組織または細胞種のmRNAに由来する)、次いで
    該マイクロアレイの各プローブと検出可能なように結合した標識を測定する
    ことを含む、方法。
  17. 該測定値を第2の測定値(この第2の測定値は核酸の第2の対照コレクションを用いて同様に得られたものである)と比較することをさらに含む、請求項16に記載の方法。
  18. 該マイクロアレイを、検出可能なように標識された核酸の第1および第2のコレクションと同時に接触させ、該第1および第2のコレクション核酸が識別可能なように標識されている、請求項17に記載の方法。
  19. 所定の生物学的機能についての情報で注釈付けされた真核生物ゲノム配列のビジュアルディスプレーであって、
    第1のビジュアルエレメント(その第1のビジュアルエレメントの長辺に沿って各点が該ゲノム配列のヌクレオチドマップに対して直線的かつ独自にマッピングされる);
    第2のビジュアルエレメント(その第2のビジュアルエレメントの第1および第2の境界が該ゲノム配列の第1および第2のヌクレオチドに対して直線的にマッピングされ、該第1および第2のヌクレオチドは該所定の機能を有すると推定される該ゲノム配列の領域を特定する);および
    第3のビジュアルエレメント(その第3のビジュアルエレメントの第1および第2の境界が該ゲノム配列の第1および第2のヌクレオチドに対して直線的にマッピングされ、該第1および第2のヌクレオチドは該所定の機能を有すると実験的に確認される該ゲノム配列の領域を特定する)
    を含む、ビジュアルディスプレー。
  20. 該ディスプレーが電子装置である、請求項19に記載のビジュアルディスプレー。
JP2001555874A 2000-02-04 2001-01-29 ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置 Pending JP2004512494A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US18031200P 2000-02-04 2000-02-04
US20745600P 2000-05-26 2000-05-26
US60840800A 2000-06-30 2000-06-30
US63236600A 2000-08-03 2000-08-03
US23468700P 2000-09-21 2000-09-21
US23635900P 2000-09-27 2000-09-27
PCT/US2001/002967 WO2001057251A2 (en) 2000-02-04 2001-01-29 Methods and apparatus for predicting, confirming, and displaying functional information derived from genomic sequence

Publications (1)

Publication Number Publication Date
JP2004512494A true JP2004512494A (ja) 2004-04-22

Family

ID=32303860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001555874A Pending JP2004512494A (ja) 2000-02-04 2001-01-29 ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置

Country Status (1)

Country Link
JP (1) JP2004512494A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034700A (ja) * 2005-07-27 2007-02-08 Fujitsu Ltd 予測プログラムおよび予測装置
JP2010086142A (ja) * 2008-09-30 2010-04-15 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034700A (ja) * 2005-07-27 2007-02-08 Fujitsu Ltd 予測プログラムおよび予測装置
JP2010086142A (ja) * 2008-09-30 2010-04-15 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置およびプログラム

Similar Documents

Publication Publication Date Title
US20020081590A1 (en) Methods and apparatus for predicting, confirming, and displaying functional information derived from genomic sequence
Bentley The human genome project—an overview
Bouchez et al. Functional genomics in plants
USH2191H1 (en) Identification and mapping of single nucleotide polymorphisms in the human genome
US8697607B2 (en) Generation and application of standardized universal libraries
JP2003245072A (ja) シグナル伝達経路の決定
US20040023237A1 (en) Methods for genomic analysis
JPH10510981A (ja) ヌクレオチド配列を特性決定するための方法、装置及び組成物
WO2001006013A1 (en) Methods for determining the specificity and sensitivity of oligonucleotides for hybridization
EP0948646B1 (en) Methods for identifying genes essential to the growth of an organism
JP2004512494A (ja) ゲノム配列から導き出された機能情報を推定、確認および表示する方法および装置
WO2004111267A2 (en) Methods for preparation of a library of submegabase resolution tiling pools and uses thereof
GB2397376A (en) Human genome-derived single exon nucleic acid probes for analysis of gene expression in human heart
GB2396351A (en) Human genome-derived single exon nucleic acid probes
Liu Transcriptome characterization through the generation and analysis of expressed sequence tags: Factors to consider for a successful EST project
Zmienko et al. Transcriptome sequencing: next generation approach to RNA functional analysis
Mulsant et al. Expressed sequence tags for genes
GB2396352A (en) Human genome-derived single exon nucleic acid probes
Ruan et al. 13Plant Genome Analysis Using cDNA Microarrays
JP2005261367A (ja) 表現型予測方法及び自動診断装置
WO2003091450A1 (en) Method for evaluating a therapeutic potential of a chemical entity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040513

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070724