JP2006525814A - ヌクレオチド配列の実質的表示 - Google Patents

ヌクレオチド配列の実質的表示 Download PDF

Info

Publication number
JP2006525814A
JP2006525814A JP2006514923A JP2006514923A JP2006525814A JP 2006525814 A JP2006525814 A JP 2006525814A JP 2006514923 A JP2006514923 A JP 2006514923A JP 2006514923 A JP2006514923 A JP 2006514923A JP 2006525814 A JP2006525814 A JP 2006525814A
Authority
JP
Japan
Prior art keywords
genome
nucleic acid
word
acid molecules
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006514923A
Other languages
English (en)
Other versions
JP2006525814A5 (ja
Inventor
マイケル エイチ. ワイグラー,
ジョン ヒーリー,
ローベルト ルーサイト,
Original Assignee
コールド スプリング ハーバー ラボラトリー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コールド スプリング ハーバー ラボラトリー filed Critical コールド スプリング ハーバー ラボラトリー
Publication of JP2006525814A publication Critical patent/JP2006525814A/ja
Publication of JP2006525814A5 publication Critical patent/JP2006525814A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • C07H21/04Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical

Abstract

本発明は、核酸配列の表示にハイブリダイズするのに用いることができるオリゴヌクレオチドプローブを提供する。マイクロアレイのような該プローブを含有する組成物を提供する。本発明は、治療、診断および研究適用におけるこれらのプローブおよび組成物を使用する方法も提供する。ヌクレオチド配列(例えば、ゲノム)に出現する文字の特定のストリング(すなわち、ヌクレオチド)の回数の数を迅速かつ正確にカウントできる単語カウンティングアルゴリズムを使用するシステムおよび方法を提供する。このアルゴリズムを用いて、本発明のオリゴヌクレオチドプローブを同定することができる。該アルゴリズムは、ゲノム中で起こる特定の単語の回数の数をカウントするためにゲノムのトランスフォームおよび補助的データ構造を用いる。

Description

(発明の分野)
本発明は、一般には、分子生物学に関する。さらに詳しくは、本発明は、与えられた源DNA(例えば、ゲノム)の表示であるヌクレオチド配列を生じさせるための材料および方法に関する。
(発明の背景)
ゲノム分析のための全体的な方法は、癌および遺伝子成分に関する他の病気または疾患の病理生理学に対する有用な洞察を提供してきた。そのような方法は核型分析、倍数性の決定、比較ゲノムバイブリダイゼーション(CGH)、表示差分析(RDA)(例えば、米国特許第5,436,142)号、およびゲノム表示の分析(1999年5月14日に公開されたWO 99/23256)を含む。一般に、これらの方法は、特定の遺伝子の発現を問い合わせるためにプローブを用いること、またはゲノムそれ自体の変化を調べることいずれかを含む。
オリゴヌクレオチドアレイを用い、これらの方法を用いて、細胞の遺伝子変化の高分解能全体像を得ることができる。しかしながら、これらの方法は、特定のプローブの配列の知識を要する。これは、特に、cDNAアレイに対する限定となる。なぜならば、そのようなアレイは遺伝子の限定された組を問い合わせるに過ぎないからである。それらは、ゲノム幅スクリーニングに対する限定でもある。なぜならば、アレイについて設計された多くのオリゴヌクレオチドは問い合わされた集団において表示されないかも知れず、その結果、不十分または非効率的な分析がもたらされる。
(発明の要旨)
本発明は、核酸分子の集団を問い合わせるのに有用な組成物および方法を提供する。これらの組成物および方法を用いて、所望により、マイクロアレイ技術と組み合わせて、複雑なゲノム(例えば、哺乳動物ゲノム)で分析することができる。本発明は、複数の少なくとも100の核酸分子をその要旨とし、(A)ここに、(a)核酸分子の各々は少なくともZの塩基対のゲノム中の配列に特異的にハイブリダイズし;および(b)該複数の核酸分子の少なくともP%は(i)少なくともKのヌクレオチドの長さを有し;(ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムのR%以下の複雑性を有し;および(iii)該ゲノム(または該表示)に対してL1ヌクレオチドのX以下の正確なマッチおよび該ゲノム(または該表示)に対してL1ヌクレオチドのY以上の正確なマッチを有し;および(B)(ここに、(a)Z≧1×10;(b)300≧K≧30;(c)70≧R≧0.001;(d)P≧90−R;(e)(log(Z)+2)に最も近い整数≧L≧log(Z)に最も近い整数;(f)XはD1×(K−L+1)に最も近い整数であり;(g)YはD2×(K−L+1)に最も近い整数であり;(h)1.5≧D≧1;および(i)1>D≧0.5。
いくつかの更なる具体例において、(1)該複数の核酸分子は少なくとも500;1,000;2,500;5,000;10,000;25,000;50,000;85,000;190,000;350,000;または550,000ヌクレオチド分子を含み;(2)Zは少なくとも3×10、1×10、1×1010または1×1011であり;(3)Rは0.001、1、2、4、10、15、20、30、40、50または70であり;(4)PはRから独立していて、少なくとも70、80、90、95、97または99であり;(5)D1は1であり;(6)L1は15、16、17、18、19、20、21、22、23または24であり;(7)Pは91、92、93、94、95、96、97、98、99または100であり;および/または(8)Kは40、50、60、70、80、90、100、110、120、140,160,180,200または250である。いくつかの具体例において、もう1つの核酸分子に特異的にハイブリダイズする核酸分子は他の核酸分子における同一長さの配列に対して少なくとも90%配列同一性を有する。さらなる具体例において、それは少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または100%配列同一性を有する。
いくつかのさらなる具体例において、該複数の核酸分子の該P%の各々は、該ゲノムに対してL2ヌクレオチドのA以下の正確なマッチ、および該ゲノムに対してL2ヌクレオチドのB以上の正確なマッチをさらに有し、ここに、(a)L>L≧log(Z)−3に最も近い整数、(b)AはD×((K−L+1)×(Z/4 ));に最も近い整数であり;(c)BはD×((K)−L+1)×(Z/4 ))に最も近い整数であり;(d)4≧D≧1;および(e)1>D≧0.5。
DNA集団の表示は、例えば、制限エンドヌクレアーゼで達成された該ゲノムの配列特異的切断によって生じさせることができる。それは、もう1つの表示に由来することもできる。すなわち、得られた表示は化合物の表示である。
本発明の核酸分子は:(a)該ゲノムを制限酵素でin silico切断して、複数の予測された核酸分子を創製し;(b)包括的に200ないし1,200塩基対の長さを各々が有する予測された核酸分子を同定することによって該ゲノムの実質的表示を創製し、該実質的表示は該ゲノムの包括的に0.001%ないし70%の複雑性を有し;(c)包括的に30ないし300ヌクレオチドの長さ、および(b)における予測された核酸分子に対して少なくとも90%の配列同一性を有するオリゴヌクレオチドを選択し;(d)該ゲノムに対して該実質的表示の複雑性を計算し;(e)該オリゴヌクレオチドで起こるL1ヌクレオチドのストレッチの全てを同定し;次いで(f)該ゲノム中で起こる該ストレッチの各々の回数の数が種々の所定の要件を満足することを確認することを含む方法によって同定することができる。
本発明の核酸分子は、試料DNAを分析するためのプローブとして用いることができる。これらのプローブは、半固体表面を含めた固相の表面に固定化することができる。固相は、限定されるものではないが、ナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィア(例えば、常磁性マイクロビーズ)を含む。いくつかの具体例において、該固相上の核酸分子は、例えば、マイクロアレイフォーマットで用いるものとして公知である。また、本発明は、核酸試料(例えば、ゲノム表示)を分析する方法をその要旨とし、該方法は(a)試料を本発明の核酸プローブにハイブリダイズさせ;次いで、(b)該複数の核酸分子のいずれに該試料がハイブリダイズするかを判断することを含む。
また、本発明は、2つのゲノムの間のゲノム配列のコピー数の変動を分析する方法を要旨とし、該方法は(a)2つの検出可能に標識された表示を供し、各々は、少なくとも1つの同一制限酵素で各ゲノムから調製し;(b)これらの2つの表示を本発明の核酸プローブと接触させて、該表示およびプローブの間のハイブリダイゼーションを可能とし;(c)プローブ組に対する2つの表示のハイブリダイゼーションレベルを分析し、ここに、該プローブ組のメンバーに対する該レベルの差は、該メンバーによって標的化されたゲノム配列に関して2つのゲノムの間のコピー数の変動を示す;ことを含む。いくつかの具体例において、該表示は識別可能に標識され;および/または2つの表示の接触は同時である。
本発明は、さらに、2つのゲノムの間でゲノム配列のメチル化状態を比較する方法をその要旨とし、該方法は各ゲノムからの2つの検出可能に標識された表示を供することを含み、各表示はメチル化感受性方法によって調製される。例えば、第一のゲノムの第一の表示は、第一の制限酵素を用いて調製され、第二のゲノムの第二の表示は第二の制限酵素を用いて調製され、ここに、該第一および第二の制限酵素は同一の制限部位を認識するが、1つはメチル化感受性であって、他方はそうではない。メチルCを持つ配列は、メチル化ゲノムに表示が非メチル化ゲノムに由来する表示とは区別できるように、非メチル化感受性制限酵素で表示を作成した後に化学的に切断することもできる。次いで、2つの表示を本発明のプローブと接触させて、該表示およびプローブの間のハイブリダイゼーションを可能とする。次いで、2つの表示のプローブへのハイブリダイゼーションを分析し、ここに、特定のプローブに関して表示の間のハイブリダイゼーションレベルの差は、該プローブによって標的化されるゲノム配列に関して2つのゲノムの間のメチル化状態の差を示す。
同様な方法を用いて、後にさらに説明するように、複雑なゲノムの多形を分析することもできる。
本発明のある具体例によると、ゲノム中で起こる単語の回数の数を正確かつ効果的に検出し、カウントするためのアルゴリズムが提供される。本明細書中ではサーチエンジンまたはマーエンジンと時々は言うこのアルゴリズムはゲノムのトランスフォーム(例えば、Burrows−Wheelerトランスフォーム)および補助的データ構造を用いて、ゲノムで起こる特定の単語の回数の数をカウントする。「単語」とは、規定された長さのヌクレオチド配列をいう。
一般に、該エンジンは、まず単語の最後の文字を見出すことによって特定の単語をサーチする。次いで、それは、最後の文字に直ぐに先行する文字を探すように進行する。もし最初の直ちに先行する文字が見出されれば、それは、次いで、該単語の最後の文字に対して第二に直ぐに先行する文字を探し、単語が見出されるまでそのようにする。もしさらなる先行文字が見出さなければ、該単語はゲノムに存在しないと結論されるであろう。もし該単語の最初の文字が見出されれば、次いで、それが起こる回数の数はその特定の単語の単語カウントである。
この特定のアルゴリズムは有利である。なぜならば、それを用いて、後に考察するように、ゲノム研究を含むいくつかの実際的な適用を実行することができるからである。
本発明の他の特徴および利点は以下の図面、詳細な記載および請求の範囲から明らかであろう。
(発明の詳細な説明)
本発明は、DNA集団(例えば、ゲノム、染色体、またはDNAの混合物)の表示を分析するためのオリゴヌクレオチドプローブをその要旨とする。該オリゴヌクレオチドプローブは溶液中で用いることができるか、あるいはそれらはアレイまたはマイクロビーズのような(半固体を含めた)固体表面に固定化することができる(例えば、Lechner et al.,Curr.Opin.Chem.Biol.6:31−38(2001);Kwok,Annu.Rev.Genomics Human Genet.2:235−58(2001);Aebersold et al., Nature 422:198−207(2003);および米国特許第6,355,431号および第6,429,027号)。表示は、得られたDNAが、典型的には、新しいフォーマットまたは低下した複雑性または双方を有するDNA集団の再現性のあるサンプリングである(Lisitsyn et al.,Science 258:946−51(1993);Lucito et al., Proc.Latl.Acat.Sci.USA 92:151−5(1998))。例えば、ゲノムの表示は、ゲノムの小さな部分のみからのものであって、反復配列がほとんど含まれていないDNA配列よりなることができる。ゲノム表示の分析は、欠失、増幅、染色体再編成および多形のような突然変異を含めたゲノムの変化を明らかにすることができる。臨床的設定でなされる場合、分析は、病気の分子的基礎に対する洞察、およびその診断および治療に対する有用なガイドを提供することができる。
本発明のオリゴヌクレオチド組成物を用いて、源DNAの表示にハイブリダイズさせることができ、ここに、ハイブリダイゼーションデータを処理して源DNAの遺伝的プロフィール(例えば、病気関連遺伝的病巣および多形)を供する。組成物中のオリゴヌクレオチドプローブの表示(または以後「テスト」表示)および少なくともあるフラクションは同一種に由来するのが好ましいであろう。哺乳動物種(例えば、ブタ、マウス、ラット、霊長類(例えばヒト)、イヌおよびネコ)、魚類の種、爬虫類の種、植物の種、および微生物の種を含めたいずれの種からのDNAも利用することができる。
(I.オリゴヌクレオチドプローブ)
本発明のオリゴヌクレオチドプローブは、好ましくは、参照個体のゲノムDNAのような源DNAの実質的表示によって設計される。ゲノムの表示は、一般的には、しかし不変的ではないが、その複雑性の単純化をもたらす。表示の複雑性は、そこに表されるゲノムのフラクションに対応する。複雑性を計算する1つの方法は、表示中のヌクレオチドの数をゲノム中のヌクレオチドの数で割ることである。表示のゲノム複雑性は、合計ゲノムの1%未満から、その95%ほど高い範囲とすることができる。比較的単純なゲノムを持つ生物からのDNAを用いる場合、表示は合計ゲノムの100%複雑性を有することができ、例えば、表示は増幅することなく全DNAの制限消化によって生じさせることができる。本発明に関連する表示は、典型的には、0.001%および70%の間の複雑性を有する。複雑性の低下は、望ましいハイブリダイゼーションキネティックスを可能とする。
DNAの「現実の」表示は、それによって表示DNAが選択される実験室的手法(「湿潤処理」)を含む。他方、実質的表示は、完全なゲノム、例えば、ヒトゲノムが配列決定されているという事実を利用する。入手可能なゲノム配列のコンピュータ解析を通じて、下の有無のマップされた領域にハイブリダイズし、ゲノムの残りに対して最小度の配列重複を有する非常に多数のオリゴヌクレオチドプローブを容易に設計することができる。
その例として、ヒト遺伝子解析のためのオリゴヌクレオチドプローブの組を設計するためには、選択されたゲノム中に選択された制限エンドヌクレアーゼの全ての切断部位を突き詰めることによって、ヒト遺伝子のin silico(すなわち、実質的)消化を行うことができる。次いで、例えば、PCRによって増幅することができる所望の範囲(例えば、200ないし1,200bp、100ないし400bp、および400ないし600bp)であるものを同定するために得られた断片を分析することができる。そのような断片は、表示に「存在すると予測される」ものとして本明細書中では定義されている。制限エンドヌクレアーゼは、所望の表示の複雑性に基づいて選択することができる。例えば、6bpまたは8bp標的配列を認識するもののような頻繁ではなく切断する制限エンドヌクレアーゼはより低い複雑性の表示を生じ、他方、4bp標的配列を認識するもののような頻繁に切断する制限エンドヌクレアーゼはより高い複雑性の表示を生じるであろう。加えて、分析されたゲノムのG/C含有量のような因子は、特定の制限エンドヌクレアーゼの切断の頻度に影響し、その結果、制限エンドヌクレアーゼの選択に影響する。一般に、スター活性を呈しない頑強な制限エンドヌクレアーゼを用いる。別法として、標的部位のメチル化状態に基づく切断を、例えば、メチル化感受性制限酵素またはDNA中のメチル化シトシンを認識するMcrBCのような他の酵素の使用を介して使用することもできる。
所望の範囲(例えば、200ないし1,200bp、100ないし400bp、および400ないし600bp)の全ての消化された断片の配列は、長さが少なくとも約30bpであって、ゲノムの残りに対して最小の相同性を有するこれらの断片のいくつかの領域がヒトゲノムについての表示オリゴヌクレオチドプローブとして選択できる場合には、コンピュータによって解析される。実施例1および以下のセクションVIは、さらに、本発明のオリゴヌクレオチドを同定する方法を説明する。
本発明のオリゴヌクレオチドは長さが約30ヌクレオチドないし約1,200ヌクレオチドの範囲とすることができる。選択されたオリゴヌクレオチドの正確な長さは意図した使用、例えば、それから表示が調整される源DNAのサイズ、およびそれらがアレイの構成要素として用いられるか否かに依存するであろう。オリゴヌクレオチドは、典型的には、少なくとも35ヌクレオチド、例えば、少なくとも40、45、50、55、60、65、70、75、80、85、90、95または100ヌクレオチドの長さを有するが、それらは、例えば、20、21、22、23、24、25、26、27、28、29または30ヌクレオチドの長さを有するより短いものであってもよい。オリゴヌクレオチドは、典型的には、600ヌクレオチド以下、例えば、550、500、450、400、350、300、250、200または150ヌクレオチド以下の長さを有する。当業者によって認識されるであろうように、オリゴヌクレオチドの長さは分析するゲノムの特徴、例えば、複雑性および反復配列の量に依存するであろう。
(II.オリゴヌクレオチドアレイ)
本発明のオリゴヌクレオチドプローブはアレイ様式で用いることができる。アレイは、規定された座標またはアドレスに付着された核酸プローブを持つ個体支持体を含む。各アドレスは単一DNAプローブの多くのコピー、または異なるDNAプローブの混合物いずれかを含む。「マイクロアレイ」または「チップ」とも言われる核酸アレイは、一般には、当該分野で記載されてきた。例えば、米国特許第6,361,947号およびそこに引用された文献参照。我々は新しいアレイを用いる遺伝子解析を「表示オリゴヌクレオチドマイクロアレイ解析」(「ROMA」)と命名し、または切断が標的部位におけるメチル化に依存する場合には、「メチル化検出オリゴヌクレオチドマイクロアレイ解析」(「MOMA」)と命名した。
本発明のマイクロアレイを製造するためには、予め合成されたオリゴヌクレオチドを、ガラス、プラスチック(例えば、ポリプロピレンまたはナイロン)、ポリアクリルアミド、ニトロセルロースまたは他の材料から作成することができ、多孔性または非多孔性であってよい固体支持体に付着させる。核酸を表面に付着させる1つの方法は、一般にはSchena et al.,Science270:467−70(1995);DeRisi et al., Nature Gen.14:457−60(1996);Shalon et al.,Genome Res.6:639−45(1996);およびSchena et al.,Proc.Natl.Acad.Sci.USA 93:10539−1286(1995)によって記載されているように、ガラスプレート上に印刷することによる。低密度アレイについては、ナイロンハイブリダイゼーション膜上のドットブロットを用いることもできる。例えば、Sambrook et al., Molecular Cloning−A Laboratory Manual (第2版), Vol.1−3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989参照。
マイクロアレイを作成するためのもう1つの方法は、アレイ基材上に直接、すなわち、in・サイチュにて、オリゴヌクレオチドを合成するために写真平版(または「光印刷」)技術を用いることによる。例えば、Fodor et al.,Science 251:767−73(1991);Pease et al.,Proc.Natl.Acad.Sci.USA 91:5022−6(1994);Lipschutz et al., Nat.Genet.21(1 Suppl):20−46(1999);Nuwaysir et al., Genome Res.12(11):1749−55(2002);Albert et al.,Nucl.Acids. Res.31(7):e35(2003);および米国特許第5,578,832号、第5,556,752号および第5,510,270号参照。迅速合成および規定されたオリゴヌクレオチドの沈着のための他の方法を用いることもできる。例えば、Blanchard et al.,Biosensors & Bioelectronics11:687−90(1996);およびMaskos & Southern, Nucl.Acids ReS.20:1679−1684(1992)参照。
本発明のアレイは、典型的には、少なくとも100(例えば、少なくとも500、1,000、5,000または10,000)のオリゴヌクレオチドプローブを含み、より多くのプローブ、例えば、25,000、50,000、75,000、85,000、100,000、200,000、250,000、500,000または700,000までのプローブを含むことができる。本発明のアレイは、典型的には、700,000を超えるプローブは含まない。しかしながら、それらはより多い、例えば、800,000、900,000または1,000,000までのプローブを含むことができる。いくつかの具体例において、アレイは、1cm当たり約60の異なるプローブを超える密度を持つ高密度アレイである。アレイ中のオリゴヌクレオチドは一本鎖または二本鎖であってよい。アレイの製造および使用を容易とするためには、本発明のオリゴヌクレオチドプローブは、例えば、ペプチジル構造およびアナログヌクレオチドをプローブに一体化させることによって修飾することができる。
(III.テスト表示)
本発明のオリゴヌクレオチドアレイを用いて、選択されたいずれの核酸試料もプローブすることができる。例えば、試料はcDNAライブラリー、ゲノムDNAライブラリー、またはRNA調製物であってよい。他の具体例においては、本発明のアレイを用いて、高等生物のゲノムのような、複雑なDNA集団の表示(または「テスト表示」)であるDNA試料をプローブする。
表示およびそれらの調製のための方法は、例えば、Lisitsyn et al., Proc.Natl.Acad.Sci.USA 92:151(1995);Lucito et al., Proc.Natl.Acad.Sci.USA 95:4487−4492(1998);およびWO 99/23256に記載されている。表示を作成するための1つのアプローチは、DNA集団を断片へと再現可能に切断することを含む。再現可能な切断は、一般に、1以上の制限エンドヌクレアーゼ(例えば、DpnIまたはBglII)または特定のメチル化部位(例えば、McrBC)において切断する酵素で消化することによって達成されるが、該DNAを再現可能に切断するいずれの方法を用いることもできる。得られたDNA断片をアダプターオリゴヌクレオチドに連結する。次いで、アダプターに対して相補的であるプライマーを用い、例えば、ポリメラーゼ鎖反応「PCR」)またはリガーゼ鎖反応によって、これらの断片を増幅する。増幅された断片はスターターDNA集団のサブセットを表す。増幅工程のため、表示は、非常に少量の出発物質から(例えば、5ngのDNAから)作成することができる。Lisitsyn et al., Science 258:946−51(1993)および米国特許第5,436,142号および第5,501,964号に記載された表示差分析(「RDA」)を用いて、反復配列を含めた、いずれの公知の望まない配列も表示から除去することができる。
スターターDNA集団は、生物のゲノム、またはその部分(例えば、染色体またはその領域)のような大きなDNA分子であり得る。我々は、各々、染色体またはゲノム表示のようなDNA集団の表示に言及する。スターターDNA集団は、例えば、腫瘍バイオプシー試料、正常な組織試料、腫瘍細胞系、正常細胞系、固定された標本として貯蔵された細胞、オートプシー試料、法医学試料、パレオDNA試料、ミクロ解剖組織試料、単離された核酸、単離された染色体または染色体の領域、および分画された細胞または組織試料のような病気の組織試料から得ることができる。また、表示(または「化合物表示」)の表示を作成することもできる。化合物表示は多形につきスクリーニングするのに有用である。例えば、WO 99 /23256参照。
正常な細胞からのゲノム表示を癌性またはそうでなければ病気の細胞からのゲノム表示を比較するような、2つのDNA源からの表示の比較分析のためには、例えば、同時かつ同一方法で2つの細胞からスターターDNAを単離し、同一量のスターターDNAから表示を調製し、同一サーマルサイクラーにおいて同一条件下で同時にDNA断片を増幅して、平行して2つの表示を調製するのが好ましいであろう。また、正常な細胞および病気の細胞を同一個体から採取するのも好ましいが、例えば、個体の両親からのDNAを組み合わせることによって、「正常な」ゲノムDNAを得ることが可能である。
表示の複雑性は、一般には、スターターDNA集団のそれよりは低い。なぜならば、表示には存在しないスターター集団には存在する配列があるからである。表示の複雑性は、特定のスターター集団における制限エンドヌクレアーゼの切断頻度に関連する。より頻繁なカッターはより複雑な表示を生起させる。200ないし1,200塩基対の間の断片は典型的な条件下ではPCRによって優先的に増幅されるので、断片の大部分が200ないし1,200塩基対の間となるようにスターターDNAを切断することによって高い複雑性の表示を得ることができる。逆に、低い複雑性の表示は、より少数の断片が200ないし1,200塩基対の間となるようにDNA分子を切断することによって得ることができる。例えば、ヒトゲノムDNAのDpnII消化は、全ヒトゲノムの複雑性の約70%を有する表示を生起させることができる。他方、BamHIまたはBglIIのようなより頻度の低いカッターによる消化は、ヒトゲノムの複雑性のただ約2%を有する表示を生起させることができる。高い複雑性の表示は、例えば、遺伝子コピー数の測定、欠失マッピング、ヘテロ接合性の喪失の測定、比較ゲノムハイブリダイゼーション、およびDNAの編集で有用である。一般に、低い複雑性の表示は同一目的で有用であるが、高い複雑性表示よりも良好なハイブリダイゼーションキネティックスを与える。
表示の複雑性は、1を超える制限酵素を用いて、アダプターの連結に先立って断片を創生することによって、および/または1以上のさらなる制限酵素を用いて、アダプターの連結後に断片のサブセットを切断し、かくして、それらの断片の得られた表示を枯渇させることによってさらに微妙に調整することができる。メチル化感受性制限酵素を含めたいずれの制限酵素を用いて、本明細書中に記載する分析用の表示を生産することもできる。
また、表示の複雑性は、増幅で用いるアダプターの選択によって形成することもできる。例えば、いずれのアダプターを用いるかは、表示のメンバーのサイズに影響し得る。同一のアダプターを切断された断片の両末端に連結する場合、単一ストランド内のアダプター間パンハンドル形成はプライマーアニーリングと競合し、かくして、PCRによる増幅を阻害する。Lukyanov et al., Anal.Biochem.229:198−202(1995)参照。より短い断片の増幅はより阻害されるようである。なぜならば、アダプターはより短い断片において相互により近く、その結果、連結されたアダプターのより高い効率的局所濃度がもたらされ、かくして、より大きな相互作用がもたらされるからである。ほぼ29塩基対のパンハンドルを形質するアダプターは、200ないし1,200塩基対のサイズ範囲の断片の増幅を可能とする。より短いパンハンドル、例えば、24塩基対を形成するアダプターは、より小さな断片の阻害のいくらかを開放し、その結果、より小さなPCR増幅産物、したがって、改変された複雑性の表示が好都合となる。
(IV.核酸試料のアレイへのハイブリダイゼーション)
本発明のマイクロアレイは、典型的には、溶液中の一本鎖核酸の試料にハイブリダイズする。潜在的ハイブリダイゼーションシグナルはハイブリダイゼーションチャンバー中のアドレス間で変化し得るので、プローブアレイは好ましくはコンパレーターとして用いることができ、徹底的に混合され、したがって、同一のハイブリダイゼーション条件を共有する2つの異なって標識された標本(試料)の間のハイブリダイゼーションの比率を測定する。典型的には、2つの標本は、各々、テスト(例えば、病気の)および対照(例えば、病気のない)細胞からであろう。
マイクロアレイにハイブリダイズさせるべき試料、例えば、前記したテスト表示は、当業者に知られたいずれかの手段によって検出可能に標識することができる。いくつかの具体例において、試料は、例えば、ランダムプライマー標識またはニックトランスレーションによって蛍光部位で標識される。試料が表示である場合、反応に標識された分子を含めることによって、増幅工程の間にそれを標識することができる。蛍光標識は、例えば、リスサミン−コンジュゲーテッドヌクレオチドまたはフルオレセイン−コンジュゲーテッドヌクレオチドアナログであり得る。いくつかの具体例においては、2つの異なって標識された試料(例えば、1つはリスサミンで標識、他方はフルオレセインで標識)を用いる。くつかの具体例においては、試料は標識しない。
ハイブリダイゼーションおよび洗浄条件は、試料中の核酸分子がアレイ上の相補的オリゴヌクレオチドに特異的に結合するように選択される。二本鎖オリゴヌクレオチドを含有するアレイは、一般には、変性条件に付して、試料と接触するに先立ってオリゴヌクレオチドを一本鎖とする。最適なハイブリダイゼーション条件はオリゴヌクレオチドプローブおよび試料核酸の長さおよびタイプ(例えば、RNAまたはDNA)に依存するであろう。
本発明のアレイへのハイブリダイゼーションは、当業者に知られたいずれかの方法によって検出することができる。いくつかの具体例において、蛍光標識試料ヌクレオチドのハイブリダイゼーションはレーザースキャナーによって検出される。いくつかの具体例において、標識されたまたは見標識の試料ヌクレオチドのハイブリダイゼーションはそれらの質量を測定することによって検出される。2つの異なる蛍光標識を用いる場合、スキャナーは、1を超える波長の蛍光を典型的には同時に、または殆ど同時に検出でき、該波長は各蛍光標識のそれに対応するものであっても良い。
(V.オリゴヌクレオチドプローブの例示的使用)
本発明のオリゴヌクレオチドプローブを用いて、ゲノム中の特定の配列のコピー数またはメチル化状態の変化を検出し、定量することができる。複数のDNA試料に由来する表示を同一オリゴヌクレオチドプローブにハイブリダイズさせる場合、特定のプローブに対する2つの試料間のハイブリダイゼーションの相対的強度は、2つの試料中のそのプローブに対応する配列の相対的コピー数またはメチル化状態を示す。例えば、ゲノムは、典型的には、増幅によるある配列の過剰なコピー、または特定の領域の欠失によるある配列のよる少数のコピーまたは全くないコピーいずれかを含む。これらの方法を用いて、例えば、特定の配列の増幅、欠失またはメチル化状態が、例えば、癌、神経学的病気(例えば、自閉症)、糖尿病、心臓学的病気および炎症病(例えば、自己免疫疾患)を含めた特定の病気の素因、進行または停滞に関係する場合、参照試料および患者試料の間の配列のコピー数またはメチル化状態の変化を分析することができる。
加えて、ゲノムにおけるコピー数またはメチル化状態の改変に関する位置の情報を得ることができる。なぜならば、本発明のオリゴヌクレオチドプローブが相補的なゲノム中の配列が知られているからである。オリゴヌクレオチドプローブがゲノム配列において頻繁にハイブリダイズするように設計され、試料が高い複雑性の表示である場合、ゲノムの増幅、欠失またはメチル化状態の領域を正確にマッピングすることが可能である。かくして、本発明を用いて、特定の病気の素因、進行または段階に関与し得る個々の遺伝子を同定することができる。これらの遺伝子は、配列が、各々、参照ゲノムに対して癌ゲノムにおいて増幅され、欠失され、またはメチル化され/メチル化されないかに応じてオンコジーンおよび腫瘍サプレッサー遺伝子であり得る。
本発明のオリゴヌクレオチドプローブを用いて、個体内および個体間双方における単一ヌクレオチド多形(SNP)を含めた多形部位を同定することもできる。これらの多形は共通しており、オリゴヌクレオチドプローブの2ないし3%と多くが「正常な」個体の間でさえ多形挙動を呈する。検出可能な多形は、例えば、それらが表示中のその存在または不存在に反映される場合、点突然変異、欠失、遺伝子再編成、またはヘテロ接合性多形にわたって延びる遺伝子変換のため、制限エンドヌクレアーゼ断片の喪失または獲得に由来し得る。例えば、制限酵素でのヌクレオチド配列の消化の結果、制限部位が存在するか否かに応じて、1つの大きな(すなわち、切断されていない)または2つの小さな断片が生じ得る。もしオリゴヌクレオチドプローブがテスト表示において小さな断片の一方または双方を検出するならば、この多形制限部位はテストゲノムに存在することが知られる。
同様に、転座、挿入、逆位及び欠失を含めたゲノム再編成は、外債変性の少なくとも一部にわたる新しい制限エンドヌクレアーゼ断片の創製をもたらすことができる。これらの新しい断片のいくつかは増幅可能であって、従って、再編成されたゲノムの表示に存在するが、参照表示には存在しない。逆に、ゲノム再編成は表示からの断片の喪失をもたらし得る。いずれの場合にも、あるプローブへのハイブリダイゼーションにおけるテストおよび参照表示の間の差は、ゲノム再編成が参照ゲノムに対してテストゲノムで起こったであろうことを示唆する。これらのプローブの配列および参照ゲノムにおけるこれらのプローブの位置を解析することによって、再編成のタイプおよび再編成の接合を含めた、遺伝子再編成についての情報を得ることができる。
個体内および個体間の特定の配列のコピー数および他の多形を分析する能力は、当業者に明白な多くの用途を有する。これらは、限定されるものではないが、例えば、法医学テストおよび親子関係テスト;植物または動物の育種;定量的特性の分析を含めた、遺伝した特性に遺伝的に連鎖した多形の発見;薬物に対する有益なまたは有害な応答の予測を含めた、患者における薬物応答の測定;診断;および臨床試験における患者の同定および層形成のための個体の同定であり得る。
(VI.例示的サーチエンジン)
以下に、前記したオリゴヌクレオチドプローブを得るのに用いることができるアルゴリズムを記載する。以下の記載は、このアルゴリズムがそのようなプローブを得るための唯一の手段であることを示すことを意図しないのは理解されるであろう。また、このアルゴリズムは本発明のオリゴヌクレオチドプローブを創製する以外に適応を有することも理解されるであろう。他の適用のいくつかはここに記載する。
本明細書中においては、サーチエンジンまたはマーエンジンと時々は言うこのアルゴリズムは、ゲノムの変換(例えば、Burrows−Wheeler変換)および補助的データ構造を用いて、ゲノム中の特定で起こる特定の単語の回数の数をカウントする「単語」とは、いずれかの長さのヌクレオチド配列をいう。
一般に、該エンジンは、単語の最後の文字をまず見出すことによって特定の単語につきサーチする。次いで、それは、最後の文字に直ぐに先行する文字を探すように進行する。もし最初のすぐに先行する文字が見いだされれば、次いで、それは、単語の最後の文字に対して第二に直ぐの先行する文字を探し、単語が見出せるまでそのようにする。もし更なる先行文字が見出されなければ、単語はゲノムに存在しないと結論されるであろう。
この特別なアルゴリズムは有利である。なぜならば、それを用いて、先に考察したように、ゲノム研究に関連するいくつかの実用的な適用を実行することができるからである。サーチエンジンの1つの適用は、それを用いて、ゲノムのようなヌクレオチド配列を注釈することができることである。特に、ゲノムは、ゲノム内に存在する特定の長さのサブストリングを用いて注釈することができる。次いで、サーチエンジンは、ゲノムで起こる特定の長さのサブストリングの回数の数をカウントすることができる。これらのカウントは、より低いカウントがより高いカウントよりも高度なユニーク性を表す場合に、特定のサブストリングのユニーク性の指標を提供する。
プローブの設計は、サーチエンジンを用いることによって有利には増強することができるもう1つの現実的適用である。ゲノムに出現する特定の単語の回数の数を迅速にカウントするエンジンの能力は、交差ハイブリダイゼーションは最小で、ユニークであって、DNAの特異的領域にハイブリダイズするプローブを設計するにおいて特に有用である。サーチエンジンを用いることによって、プローブが、全ゲノム内の低い単語カウントまたは単語カウント無しを有するような、ユニークであって、ある種のストリンジェンシー条件を満足する構成要素セグメントよりなることを要求することによって、潜在的交差ハイブリダイゼーションを最小化することができる。
サーチエンジンのさらにもう1つの適用が、2つのゲノムの間の差を検出することである。例えば、ヒトゲノムプロジェクトが進行するにつれ、ゲノムの新しいセグメントがマッピングされ、公衆に解放される。同一ゲノムのもう1つのバージョンに対して設計されたサーチエンジンおよびプローブを用い、ゲノムの新しいバージョンに対してどれくらい多くのプローブを適用することができるかを決定することができる。
サーチエンジンを、特定の単語がゲノムに存在するか否かを確認するために用いることができるなおさらにもう1つの適用。単語がゲノムのセクションにハイブリダイズする機会がほとんどないように、ゲノムに出現しない単語を見出すのが望ましいであろう。これらの単語は、基準の予め規定された組に従ってランダムに作り出すことができる。単語が見出されると、その相補体をサーチエンジンに提出して、それがゲノムで出現するか否かを決定する。もし単語およびその相補体の双方がゲノムで出現しないのであれば、これらの単語の双方は相互にハイブリダイズし、ゲノムにはハイブリダイズしないことが知られている。
(A.システムの記載)
サーチエンジンおよびその適用は、図7に示された説明的システム700を用いて本発明にしたがって実行することができる。システム700はコンピュータ710、ユーザーインターフェース機器730、インターネット740、および任意の実験室機器(図示せず)を含むことができる。システム700は多数のコンピュータ710およびユーザーインターフェース機器730を含むことができるが、各々の1つのみを図7に示して、図面を複雑にするのを回避する。コンピュータ710は、連絡経路790を介してユーザーインターフェース機器730およびインターネット740に連結されるのが示される。
コンピュータ710は、プロセッサー712、データベース714(例えば、ハードドライブ)、メモリー716(例えば、ランダムアクセスメモリー)、および取り出し可能なメディアドライブ718(例えば、フロッピー(登録商標)ディスクドライブ、CD−ROMドライブ、またはDVDドライブ)のような回路を含むことができる。この回路を用いて、データをユーザーインターフェース機器730およびインターネット740へデータを伝達し、それらからおよび/またはそれらの間でデータを伝達することができる。ユーザーインターフェース機器730からのユーザーインプットに応答することによって、コンピュータ710は本発明の技術を開始することができる。コンピュータ710は、サーチエンジンの操作から得られた結果に対してユーザーインターフェース機器730においてユーザーに情報を提供することもできる。
データベース714は、サーチエンジンを提供する情報にデータを貯蔵する。さらに詳しくは、データベース714はゲノムの配列またはゲノムの特定の部分を含むことができる。本発明は、やはりデータベース714に貯蔵することができる添字アレイを構築するためにデータベース714に貯蔵されたゲノム情報を用いることができる。該添字アレイは、ゲノムまたはその部分のトランスフォームを構築するための調製で作り出されるデータ構造である。ゲノムのデータ表示は、例えば、取り出し可能なメディアドライブ718を通じてアクセスすることができるリーダブル媒体(例えば、フロッピー(登録商標)ディスケット、CD−ROM、またはDVD)から得ることができる。別法として、データが、研究施設(例えば、National Institutes of Healthまたは大学)に位置するサーバーから伝達される場合、ゲノムデータはインターネット740を通じて得ることができる。所望であれば、データベース714は、それが入手可能となるように新しいゲノムデータで更新することができる。
一般に、添字アレイを表すデータの量は、ゲノムを表すデータの量よりもかなり大きい。したがって、データベース714は、メモリー712よりも添字アレイを貯蔵するのにより適しているであろう。なぜならば、データベースはメモリーよりも多くのデータを容易に貯蔵するからである。
ユーザーインターフェース機器730はユーザーが入力デバイス732を介してコンピュータ730に対するコマンドを入力することを可能とする。入力デバイス732は、慣用的なキーボード、ワイヤレスキーボード、マウス、タッチパッド、トラックボード、声で活性化される制御卓、またはそのようなデバイスのいずれかの組合せのようないずれかの適当なデバイスであってよい。入力デバイス732は、例えば、ユーザーが特定の単語の単語カウントを実行し、または潜在的プローブの統計学的解析を実行するためのコマンドをエンターすることを可能とする。ユーザーは、表示デバイス734上でシステム700を操作するプロセスをモニターすることができる。表示デバイス734はコンピュータモニター、テレビ、フラットパネルディスプレイ、液晶ディスプレイ、陰極線管(CRT)またはいずれかの他の適当な表示デバイスであってよい。
連絡経路790は、ケーブルリンク、ハードワイヤードリンク、ファイバー−およびプティックリンク、赤外リンク、リボンワイヤーリンク、青色−ツースリンク、アナログ連絡リンク、デジタル連絡リンク、またはそのようなリンクのずれかの組合せのようないずれかの適当な連絡経路であってよい。連絡経路790は、コンピュータ710、ユーザーインターフェース機器730、およびインターネット740の間のデータ移動を可能とするように配置される。
サーチエンジンで得られた結果が実験に直接適用できるように、またその逆ができるように、実験室機器をシステム700中に供することができる。
サーチエンジンの利点は、正確な単語マッチをカウントするための技術がコンピュータのメモリー(例えば、メモリー716)内に全部起こることができることである。これは、正確な単語マッチのためのゲノムの極端に速くて効果的な質問を提供する。データベース(例えば、ハードドライブ)にアクセスする必要がない。そのような必要性はサーチエンジンの性能を実質的に阻害しかねない。正確な単語マッチをカウントするのに用いる技術は100%性格である。
(B.添字アレイ、Burrows−Wheelerトランスフォームおよびアルファバウンド)
さて、図8を参照し、例示的フローチャート800は、本発明の原理に従ってサーチエンジンで用いるためのゲノムを調製するにおける工程を示す。フローチャート800は、特定のゲノムのトランスフォームを創製するための基礎を提供する添字アレイデータ構造を形成するための技術を用いる。このトランスフォームは、本発明のサーチエンジンについての基礎を提供し、ここに、サーチエンジンは特定の単語(例えば、15、21、70または80文字の長さを有する単語)の出現の数を迅速にカウントすることができる。工程810において、ゲノムまたはゲノムの一部のようなヌクレオチド配列が提供される。ゲノムはNのヌクレオチドの長さを有する文字のストリングとして配置することができ、ここに、Nはゲノムを表す文字のストリングにおけるヌクレオチドの合計数を表す。
工程810で提供されたゲノムは、いずれかの生物に由来することができ、あるいはそれはランダムに発生することができる。例えば、全公知のヒトゲノムを提供することができるか、あるいはヒトゲノムの一部を提供することができる(例えば、染色体を表すゲノムの一部、または染色体の領域)。所望であれば、酵母、植物、およびトカゲ、魚類および哺乳動物(例えば、マウス、ラット、および非ヒト霊長類)のような動物を含めた、ウイルス、細菌、単細胞および多細胞生物のような非ヒトゲノムデータを提供することができる。
工程820において、ゲノムは、所定の辞書編集順序に従ってゲノムのヌクレオチド配置を再組織化する変換プロセスに付される。トランスフォームは、ゲノムに出現する同一構成文字(例えば、A、C、GおよびT)を維持するが、これらの文字は異なる順序で配置される。本発明の1つの具体例において、ゲノムは、Burrows−Wheelerトランスフォームと呼ばれる公知のトランスフォームに付される。該Burrows−Wheelerトランスフォームは添字アレイから得ることができる。本発明によると、添字アレイはゲノムの全ての周期的順列を表すN×N行列であり、ここに、該順列は所定の基準(例えば、アルファベット順、数字順等)に従って配置される。有利には、Burrows−Wheelerトランスフォームは周期的順列の分類されたN×N行列を表す。かくして、本発明のサーチエンジンがそれを延長によってBurrows−Wheelerトランスフォームを通じてサーチする場合、添字アレイを通じてサーチし、それは、さらなる延長によって、ゲノムを表す元のストリングを介してサーチする。
ゲノム配列アセンブリーは、A、C、GおよびTに加えて曖昧な文字を含むことができ、かくして、ゲノムアルファベットを5つの文字まで拡大する。Nと通常は言われるこの曖昧な文字は、典型的には、核酸配列の特定の位置におけるヌクレオチドが知られていない場合に用いられる。
Bullows−Wheelerトランスフォームは分類された添字アレイを表すので、文字の特定のストリングにつきサーチする場合には添字アレイをアクセスする必要はない。好ましくは、トランスフォームはメモリーに貯蔵され、ここに、サーチング機能は、トランスフォームがハードディスクに貯蔵される場合よりもかなり速く実行することができる。さらに、添字アレイに含まれるデータの量は実質的であり得るので、添字アレイは、より速い操作メモリー(例えば、コンピュータのランダムアクセスメモリー)とは反対に、ハードディスクドライブに貯蔵されなければならないであろう。例えば、ヒトゲノムについての添字アレイのサイズは12ギガバイトのオーダーである。もしそのようなアレイをメモリーに貯蔵すれば、12ギガバイトのメモリーを有するマシーンのコストは、例えば、3ギガバイトのメモリーを有するマシーンよりもかなり高価なものとなろう。従って、サーチエンジンの1つの利点は、それが高価でメモリーが強いマシーンを必要としないことである。なぜならば、トランスフォームは貯蔵された添字アレイの凝縮されたバージョンを表すからである。
添字アレイは本発明にしたがった単語サートを実行するのに必要はないが、トランスフォームおよびアレイの間の関係を示すためにどのようにしてそのようなアレイが得られるかを記載するのは有用であろう。添字アレイは、まず、ヌクレオチド配列の周期的順列を得ることによって構築することができる。例えば、表1は、ゲノム「AGACAGTCAT$」の周期的順列を示し、ここに、「$」は、ゲノムストリングの末端をマークするのに供される。
Figure 2006525814
周期的順列が得られた後には、特定の辞書編集順序(例えば、アルファベット辞書編集順序)を得るための所定の基準に従って、列を分類する。例えば、表2は、分類されたアレイの見出しの元で表1に示された順列のアルファベット順配置を示す。
Figure 2006525814
一旦周期的順列が分類されたならば、ゲノムのトランスフォームは、分類されたアレイの各列の最後の文字を取ることによって得ることができる。これらの文字は「トランスフォーム」の見出しの欄の下で再生され、ゲノム「AGACAGTCAT$」のトランスフォームが「TG$CCATAAAG」であることを示す。
1つの具体例において、ヒトゲノムのようなゲノムの添字アレイは、16−節クラスターを用いる平行基数分類を用いて形成することができる。このアプローチを用い、ゲノムをX数(例えば、100)の等しい−サイズのサブストリングに分け、各々は7つのヌクレオチドだけ重複し、Xは所定の数である。各サブストリング内のゲノムへのオフセット(すなわち、「ゲノム」座標)が、各オフセットにおける7量体(7ヌクレオチド)に従って5の「接頭辞」ビンの1つに割り当てられる。各接頭辞ビン内のオフセットは7量体接頭辞に従い配列に基づいて分類され、それにより、添字アレイを作り出す。
工程830において、種々の統計を計算して、アルファバウンドデータ構造、K間隔データ構造、および辞書カウントデータ構造を含むことができる補助的データ構造を作り出す。アルファバウンドは、どのようにしてそこの多くのアデニン、シトシン、グアニン、およびチミンヌクレオチドがトランスフォームにあるかを示す。例えば、表1および2のゲノムを用い、A、C、GおよびTについてのアルファバウンドは、各々、4、2、2および2である。
アルファバウンドを用いて、貯蔵された添字アレイの各列の先頭に存在する特定の文字に対応するトランスフォームにおける範囲を定めることができる。例えば、ヌクレオチドAについての定めた範囲は、Aで出発する添字アレイの各列を示す。表2を参照し、それは、貯蔵されたアレイの列1ないし4がAで出発することができることを示す。かくして、4つの列は、Aについて計算されたアルファバウンドに対応する。表2は列5ないし6がCで始まることを示し、これは、Cについて計算されたアルファバウンドに対応する。同様に、Gブロックは列7および8に対応し、Tブロックはトランスフォームの列9および10に対応する。
工程830はトランスフォームにおける文字のK数毎にK間隔も作り出すことができ、ここに、Kは所定の数である。K間隔を用いて、各ヌクレオチドのランニング合計を維持することができる。というのは、それはトランスフォームで出現するからである。これらのK間隔を本発明のサーチエンジンで用いて、カウンティングプロセスをスピードアップすることができ、これは、図3および4との関連で後に考察する。具体例には、K間隔の使用は、サーチエンジンが、特に、長さが400万文字より大きなヌクレオチド配列に適用される場合、慣用的な単語カウンティング技術よりも優れており、より少ないスペースを用いることを可能とする。
以下の例は、さらに、どのようにしてトランスフォームがK間隔を用いて表化されるかを説明する。トランスフォームが10の文字ACGTCAGTCAを有し、かつK間隔が5つの文字ごとに貯蔵されると仮定する。最初の間隔においては、K間隔は1つのA、2つのC、1つのGおよび1つのTを含む。第二の間隔(例えば、10番目の文字)において、K間隔はトランスフォームで起こり、かくして、遠い全てのヌクレオチドの表化を含む。第二のK−感覚は3つのA、3つのC、2つのG、および2つのTを含む。
工程840においては、所定の圧縮率に従って、Burrows−Wheelerストリングを圧縮する。好ましくは、ストリングは3/1圧縮比を用いて圧縮する。すなわち、3文字ごとでは、ストリングを1つの文字に圧縮する(例えば、3000文字を1000文字に凝縮する)。当業者であれば、他の圧縮比を用いることができるのを認識するであろう。例えば、4/1または5/1圧縮を使用することができる。ストリングは辞書−ベースの圧縮スキームを用いて圧縮することができ、125の区別される単一バイト暗号のうちの1つは5の可能な3文字サブストリング(例えば、AAA、AAC、...、TTT)の各々の1つを表す。さらに詳しくは、トランスフォームを3文字サブストリングに分割し、各サブストリングは辞書ベースの圧縮スキームに従って圧縮する。例えば、もし3文字サブストリングがAAAであれば、それは、辞書圧縮スキームのバイト0と等しいであろう。同様に、もしサブストリングがTTTであれば、これは、辞書圧縮スキームのバイト124と等しいであろう。
辞書−カウントデータ構造を創製して、圧縮されたバイトで起こる特定の文字の回数の数を迅速に同定するためのより速いアクセス早見表を供することによってカウンティングプロセスにおけるサーチエンジンを助けることができる。これはサーチエンジンが、その圧縮された状態にありつつトランスフォームについてカウンティング操作を実行するのを可能とするので有利である。しかしながら、サーチエンジンがサーチエンジン内で起こる特定の文字の回数の数のカウンティングを終了させるためには、バイトは圧縮解除できなければならないことに注意すべきである。平均して、圧縮されたトランスフォームのバイトは、サーチエンジンによって実行される文字カウンティング工程の間に2/3の時間だけ圧縮解除されることが判明した。
一旦トランスフォームが圧縮されれば、本発明のサーチエンジンで用いる用意ができる。特に、圧縮されたBurrows−Wheelerトランスフォームは、ゲノム内に含まれる特定の単語の各出現を突き止め、それをカウントするように質問できる。
(C.単語カウンティングアルゴリズム)
図9は、マーエンジンの原理に従って、与えられたゲノムに存在する特定の単語の回数の数をカウントするための例示的工程の単純化されたフローチャートである。工程910において出発し、ゲノムの圧縮されたトランスフォームおよび補助的データ構造が提供される。圧縮されたトランスフォームおよび補助的データ構造は、例えば、図8に示したフローチャートから得ることができる。工程914においては、特定の長さの質問パターンが供される(例えば、ACG...G)。該パターンは、好ましくは、ゲノムのトランスフォームにおいてサーチエンジンが探すヌクレオチドのストリングである。
質問パターンが供された後、サーチエンジンは反復サーチィングプロセスを開始して、パターンが存在するか否かを決定する。もしパターンが存在すれば、それは、それが出現する回数の数を迅速かつ正確に出力する。工程918において、反復プロセスはサーチ領域を規定する(または再度規定する)ことによって開始され、これは、トランスフォーム内の文字位置の範囲を定める。サーチ領域は、圧縮されたトランスフォームの位置Xで出発し、位置Yで終了する文字のブロックを示す。このサーチ領域(またはブロック)は、質問パターンの全ての出現を潜在的に含む。サーチ領域は、質問パターンの特定の文字、アルファバウンド、および他のデータのような予め規定された基準を用いて定義される。どのようにしてサーチ領域が規定されるかのより詳しい説明は、図10に伴う記載の方法と組み合わせて考察する。
工程920においては、プロセスは、質問パターンの次の先行文字がサーチ領域に出現するかを決定する。工程922においては、もし先行文字カウントが0であれば、質問パターンは存在せず、プロセスは終了する(工程924)。もし少なくとも1つの文字が定められた版以内で見出されれば、プロセスは工程926まで進行する。工程926において、先行文字が質問パターン中の最初の文字であるか否かが判断される。もしそうであるならば、プロセスは工程928まで進行し、ここに、工程920で得られたカウントは出力され、プロセスは終了する。もし先行文字が質問パターンの最初の文字でなければ、プロセスは工程918までループを戻る。なぜならば、もし質問パターンがゲノムに存在するか、または存在しなければ、それは未だ判断されていないからである。工程918においては、サーチ領域は所定の基準を用いて再度規定される。
さらに詳しくは、サーチ領域は方程式1および2を用いて再度規定される:
出発位置=A+Z (1)
終了位置=出発位置+M−1 (2)
ここに、Aはアルファバウンドに従う先行文字の出発位置であり、Zは現在規定されたサーチ領域に先立ってトランスフォームが出現する先行文字の回数の数を表し、およびMは、現在規定されたサーチ領域で出現する先行文字の回数の数を表す。
再度規定されたサーチ領域は、質問パターンの全ての出現を潜在的に含むが、新しく規定されたサーチ領域は、さらに、工程920でサーチされる必要がある文字位置を限定する。新しいサーチ領域が規定された後、プロセスは工程920まで続けられ、ここに、質問パターンの次の先行文字(すなわち、先の工程920で用いた最後の文字に先行する文字)を新たに規定されたサーチ領域内でカウントする。このループは、質問パターンの最初の文字および、結果として、単語カウントの数を見出す前に、必要であれば、多くの回数反復する。もし先行文字の1つがサーチ領域で見出されないならば、そのようなパターンはゲノムで存在しないと結論されるであろう。
図10AないしBは、これまでの単語カウンティグアルゴニズムの例を示す。この例は、表1および2との関係で既に記載した例示的ゲノム(AGACAGTCAT$)、添字アレイ、Burrows−Wheelerトランスフォーム(TG$CCATAAAG)、およびアルファバウンドを用いる。この例においては、ユーザーが、単語「CAG」が何回ゲノムで出現するかを決定したいものと仮定する。
図10Aにおいては、プロセスはGブロックを定めることによって開始する。なぜならば、Gは単語「CAG」中の最後の文字だからである。示したように、GブロックはBurrows−Wheelerトランスフォームの位置7で開始し、位置8で終了する。これらの位置はアルファバウンドから得られる。一旦Gブロックが定められれば、エンジンはGブロック内に存在する「CAG」の次の先行文字であるAの数をサーチし、カウントする。図10Aは、2つのAがGブロックで出現することを示し、かくして、ゲノムは「AG」の2つの出現を含むことを示す。
所望であれば、K間隔を用いて、サーチ領域内で出現する特定の文字の回数の数をカウントする工程(例えば、Gブロック中のAの数のカウント)を容易とすることができ、また、それを用いて、サーチ領域前に出現する特定の文字の回数の数をカウントすることもできる。そのようなカウンティング工程を行うためには、特定の文字を所定の位置(例えば、開始位置)から出発してカウントし、複数のKである最も近い位置まで進行させる。サーチエンジンとの関連でK間隔を用いる1つの利点は、何回特定の単語がゲノムで出現するかを決定するのに要する時間がK間隔、サーチすべき単語のサイズ、および種々のメモリーアドレスにアクセスするのに必要な時間に関して線形であることである。かくして、圧縮されたトランスフォームのサイズおよびK間隔データ構造がメモリー(例えば、ランダムアクセスメモリー)にフィッティングするのに余りにも大きいのでなければ、ゲノムのサイズは単語カウントを決定するにおいて因子ではない。1つの具体例において、Kを、300文字、または同等には100の圧縮されたバイトに設定することができる。そのような配置にて、行う必要があるカウントの最大数はK/2を超えない。
所望であれば、各K間隔内のサイズK^のサブ間隔を用いて、特定のK間隔内で起こる文字のランニング合計を維持することができる。もしKのサイズが2未満に制限されていれば、例えば、次いで、各K間隔の各文字についてのカウントを単一バイトを用いて記録することができる。これは、ただ[(K/K^)/4]のファクターだけK間隔カウントについてのスペース要件を増加させつつ、K/K^ファクターだけカウンティング指標の増大させた密度を提供する。そのようなサブ間隔およびサイズの高速は、このアルゴリズムの関係で用いられている補助データ構造によって使用されてきた。KおよびK^の選択に依存して、質問実効スピードの3倍ないし5倍増加ヒトゲノムについての2ギガバイト未満のメモリー要件を維持しつつ達成されてきた。
カウンティングプロセスをさらにスピードアップするためには、辞書カウントデータ構造を用いることができる。用いる圧縮スキームは3:1圧縮スキームであり、ここに、バイト0ないし124は、各々、「AAA」ないし「TTT」に圧縮解除されることに注意すべきである。辞書−カウント構造は、5つの欄にて125列を持つ行列と考えることができる二次アレイである。各列は、圧縮辞書エントリーの1つに対応し、各欄はAないしTのゲノムアルファベットの各文字に対応する。以下に、例として、どのようにして辞書カウント構造およびK間隔を用いて、カウンティング操作を実行できるかを説明する。
例えば、サーチエンジンは、サーチ領域の前で起こるAの数を決定するプロセスにおけるものであると仮定する。前記したK間隔カウント構造を用い、エンジンは単一ルックアップ中のサーチ領域の現在の開始位置の少なくとも50バイト内まで「ジャンプ」することができる。さらに、開始位置は、該間隔の49番目のバイトである圧縮された「ATT」(バイト)における3番目の「T」を指し示すと仮定する。48の先行するバイトの各々については、バイト事態は、辞書カウントデータ構造中の列の数として用いることができ、注目する文字「A」は欄の数を表す。辞書カウントアレイにアクセスするための座標としてこの情報を用い、辞書カウントデータ構造は、その圧縮されたバイト中で出現する「A」の回数を供する。従って、どれくらい多くのAがサーチ領域の開始前に出現するかを決定するためには、辞書カウント構造は48回アクセスする必要がある。加えて、49番目のバイトを圧縮解除して、「ATT」バイトの最初の2つの文字「AT」を調べる必要がある。
かくして、辞書カウントデータ構造をK間隔データ構造と組み合わせると、いずれかの数の文字をカウントする工程はK/6+1の表ルックアップと、最悪な場合には2つの文字の比較のみを必要とする。
図10に戻ってそれを参照し、次いで、サーチエンジンは、それがどこで次の先行文字をサーチするかを知るように、トランスフォーム内のAGブロックを定める。AGブロックの境界は、トランスフォーム中のGブロックに先行するAの回数を、トランスフォームにおいてAブロックが始まる最初の位置に加えることによって見出される。この例において、ただ1つのAがGブロック前に起こる。したがって、Aが1であって、Zが1である前記方程式1を用い、AGブロックについての2の開始位置が得られる。AGの終了位置は、Mが2(Gブロックで見出されるAの数)である前記方程式2を用いて得られる。方程式2により、図10Bに示すように、3のABブロックの終了位置が得られる。
一旦AGブロックが見出されると、サーチエンジンはそこで起こるCのかいすをカウントする。このカウントにより、ゲノムで起こるCAGの数が得られる。なぜならば、Cは単語「CAG」の最初の文字だからである。かくして、サーチエンジンにより、1つの単語カウントが得られる。
図11は、座標位置を有する例示的ゲノム、および該ゲノムの座標位置に対応する座標位置を有する分類された添字アレイを示す。すなわち、添字アレイの各列における最初の文字はゲノム中の文字のうちの1つに対応する。例えば、アレイの第二の列は2の座標位置を有し、これは、ゲノムの位置2に対応する。かくして、添字アレイの座標位置はゲノムの座標位置に相関する。
所望であれば、添字アレイを用いて、特定の単語の座標位置を突き止めることができる。例えば、もし「CAG」の座標位置が求められているならば、図11の添字アレイをアクセスすることができ、それは、CAGが位置3で開始することを示すであろう。しかしながら、前記したように、添字アレイのアクセスは時間を消費するプロセスである。なぜならば、それはハードディスクドライブのアクセスを必要とするからである。従って、メモリーをアクセスすることのみによって単語の座標を得るのが望ましい。これは、予め選択された添字アレイの座標をトランスフォームに割り当て、それにより、座標突き止めアルゴリズムが、トランスフォームを用いて、特定の単語の開始座標を突き止めるのを可能とすることによって達成することができる。
そのような座標突き止めアルゴリズムを例として説明する。添字アレイの丸印の部分はゲノムのトランスフォームであって、座標3および7のみが添字アレイからのトランスフォームまで運ばれたと仮定する。さらに、TCの座標を見出すことが望まれていると仮定する。(もしトランスフォームがTCに所属するGに関連する座標を有するならば、TCの座標は座標突き止めアルゴにズムの使用に頼る必要なくして知られるであろうことに注意すべきである)。TCはトランス携帯中の最後のGに関連することが知られている。このGで出発し、該アルゴリズムは、どれくらい多く先行Gがあるかを決定する。この場合、1つの先行Gがある。
アルファバウンドデータ構造および先行Gの数を用いて、いずれの文字がこの特定のGに先行するかを決定する。アルファバウンドを用い、Gブロックが位置7で開始することが知られる。1つの先行Gがあるので、該アルゴリズムはこの数を7に加えて8を得る。かくして、GTで開始する添字アレイストリングに対応するAは、前記したGに先行する文字である。これは、座標突き止めアルゴリズムの1つの反復を完了する。一般的に言って、この反復は、トランスフォーム上の座標(例えば、3または7)に到達するまで反復される。一旦座標が到達すれば、反復の数を座標に加え、得られた合計は所望の単語(例えば、TC)の現実の出発座標位置である。
反復プロセスを継続し、2つのAが、GTで開始する添字アレイストリングに関連するAに先行することが知られる。アルファバウンドおよび先行Aの数を用い、該アルゴリズムは、AGTで開始する添字アレイに関連するCで落ち着く。この特定のCに先行するCはないので、該アルゴリズムはCAGで開始する添字アレイに関連するAで落ち着く。このAは座標位置(例えば、3)を有するので、単語TCの現実の位置は、3(このAの座標位置)をこの例では3である反復の数に加え、その結果、6の座標位置が得られることによって決定することができる。かくして、TCは元のゲノムにおける6の座標位置で開始する。
(D.サーチエンジンの適用)
サーチエンジンの操作特徴を記載してきたので、エンジンの現実的適用を考察することができる。サーチエンジンの1つの適用は、それを用いて、ゲノム(またはいずれかの他のタイプのヌクレオチド配列)を注釈することができることである。特に、ゲノム内に存在する特定の長さのサブストリングを用いてゲノムを注釈することができる。次いで、サーチエンジンは、ゲノムで起こる特定の長さのサブストリングの回数の数をカウントすることができる。これらのカウントは特定のサブストリングのユニーク性の指標を提供し、ここに、より低いカウントはより高いカウントよりも高度なユニーク性を表す。
所望であれば、ゲノムのいずれかの領域または全ゲノムをその構成要素「マー」頻度に基づいて注釈することができる。「マー」は、特定の長さの単語またはサブストリングについてのもう1つの用語である。かくして、ゲノムまたはその一部を注釈試料としている場合、それは特定の長さのマー(例えば、15、18、21および24のマー長さ)に基づいて注釈される。注釈すべきマー長さとは無関係に、ゲノムに存在するその長さの各マーがカウントされる。例えば、もしマー長さが15であれば、サーチエンジンは最初の15量体についての単語カウントおよび、その後に起こる各15量体を決定するであろう。各継続する15量体は1文字だけ以前の15量体単語と重複する。すなわち、文字1ないし15は15量体を構成し、文字2ないし16はもう1つの15量体を構成し、文字3ないし17はさらにもう1つの15量体を構成する。等各。これは、各注釈された15量体に、単語カウントが全ゲノムで起こるその特定の15量体の回数の数を表すように、単語カウントが割り当てられることを確実とする。
プローブの設計はサーチエンジンを用いることによって促進される。ゲノムに出現する特定の単語の回数の数を迅速にカウントするエンジンの能力は、ユニークであって、最小の交差−ハイブリダイゼーションにてDNAの特異的領域にハイブリダイズするプローブを設計するのに有用である。サーチエンジンを用いることによって、潜在的交差−ハイブリダイゼーションは、ユニークであって、全ゲノム内に少数の単語カウントを有する、または単語カウントを有しないようなあるストリンジェンシー条件を満足するより小さなマーよりなる候補プローブを選択することによって最小化することができる。ユニークな単語は、その部分のゲノム内に所定の単語カウントの数未満(例えば、2、5、10、25、50または100単語カウント未満)を有する、または単語カウントが存在しない(例えば、ゼロ単語カウント)ヌクレオチドの特定のストリングであり得る。
さらに詳しくは、候補プローブは、長さL1を候補が有する必要性、および候補が所定の単語カウントを有する必要性(例えば、1の単語カウントを有する候補プローブ)のような所定の基準の組に基づいて得られる。加えて、所定の基準は、候補の逆相補体が所定の単語カウント(例えば、1)を有することを要求することもできる。一旦候補が得られれば、それらを更なる所定の基準に付して、いずれの候補がプローブとして用いるのに適当であるかを決定する。これらの更なる基準を用いて、それらの構成要素サブ領域(すなわち、候補プローブ内に含まれる長さのマー)に基づいて候補を濾過する。例えば、濾過基準は、L2がL1未満である長さL2のマーが、他のプローブ候補に対して最小化される単語カウントを有することを要求し得る。かくして、プローブを見出すのに用いられる基準内に関係が存在する−(例えば、各候補がゲノムに関してユニークである)「ハードな」高速および(例えば、構成要素マーカウントが最小化される)「ソフトな」高速の間の関係。
「ハードな」高速を満足する1つの方法は、以前に実行された注釈の結果に基づいて候補を得ることである。単語カウント情報を用い、候補は、単語カウントの低い濃度を有するゲノムの領域から選択することができる(例えば、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを有する候補を得るのが好ましい)。
「ソフトな」拘束を満足するためには、15量体カウント、17量体カウント等のような予め規定された基準に従って候補を注釈することができる。注釈から得られたデータを解析して、候補がプローブとして用いられるのに十分な位ユニークであるか否かを決定する。候補は、もし、例えば、それが全ての候補の15量体カウントの最低合計を有するならば、プローブとして選択することができる。組成物バイアス(例えば、特定のヌクレオチドの長いストリング)の最小出現のような他の基準を適用して、いずれのプローブが最良であるかを決定することができる。該基準を各候補に適用した後、1以上の候補を適当なプローブとして選択する。
サーチエンジンのさらにもう1つの適用は、1つのゲノムからもう1つのゲノムへの変化を検出することである。例えば、ヒトゲノムプロジェクトが進行するにつれ、ゲノムの新しいセグメントがマップされ、公衆に解放される。サーチエンジン、および同一ゲノムのもう1つのバージョンについて設計されたプローブを用い、どれくらい多くのプローブをゲノムの新しいバージョンに適用することができるかを決定することができる。
サーチエンジンを用いることができるなおさらなるもう1つの適用は、特定の単語はゲノムに存在するが否かを確認することである。単語がゲノムのセクションにハイブリダイズする確立がほとんどないように、ゲノムに出現しない単語を見出すのが望ましいであろう。これらの単語は、基準の所定の組に従ってランダムに作り出すことができる。単語が見出されると、その相補体もサーチエンジンに形質して、それがゲノムで出現するか否かを決定する。もし単語およびその相補体双方がゲノムで出現しないならば、ゲノムにこの単語およびその相補体がハイブリダイズする確率は最小である。そのような非−ハイブリダイジングプローブはリーダブルバーコードとしてハイブリダイゼーションで、およびハイブリダイゼーションアレイ対照で用いることができ、ネットワーク情報を通じてハイブリダイゼーションシグナルを増強させる目的で核酸プローブに加えることができる。
ハイブリダイゼーションの機会を最小化する1つの方法は、特定の単語の構成要素マーの頻度を最小化することである。すなわち、ゼロの単語カウントを有する多くの構成要素マー長さを有するプローブを得るのが好ましい。例えば、いくつかの20量体オリゴヌクレオチドの、ヒトゲノムにハイブリダイズしない目的でもって作り出すと仮定する。次いで、さらに、その構成要素の重複19量体、18量体、17量体、16量体、さらに下へ行って例えば、6量体の各々について、各20量体が注釈されると仮定する。理論的には、最も望ましい20量体は、好ましくは、各長さのマーにつきゼロの単語カウントを有するであろう。現実には、ハイブリダイゼーションに対する最小の機会を有するプローブは、好ましくは、可能な限りマー長さがゼロの多くのマーカウントを有する(例えば、望ましいプローブは19、18、17、16、15、14および13にマー長さについてのゼロ単語カウントを有するであろう)。かくして、もし1つのプローブがその構成要素15および14量体のゼロカウントを有するならば、それは、その構成要素15量体のゼロカウントを有するが、その構成要素14量体の1以上のカウントを有するプローブよりもゲノムにハイブリダイズしないようである。かくして、前者のプローブは、後者のプローブよりもハイブリダイズする低い機会を有する。なぜならば、それは、ゲノムのセクションとのいずれかのマッチするいずれの14量体も有しないからである。
非−ハイブリダイジングオリゴヌクレオチドは、0または低い単語カウントを有する特定のマーの構成要素マーを用いて構築することができる。例えば、もし特定の20量体が0単語カウントを有する13量体を有するならば、この13量体を用いて、ゲノムに恐らくは存在しないオリゴヌクレオチドを形成することができる(例えば、これらの13量体の2つを相互に付着させて、ユニークな26量体を作り出すことができる)。
実験室的設定においては、例えば、ゼロカウント単語およびそのゼロカウント相補体(非−ハイブリダイジングオリゴヌクレオチド)を(ハイブリダイジング)プローブまたは標的単語に付着させることができる。要約の意味においては、単語は「ボディ」(すなわち、プローブ)に付着された「アーム」である。ハイブリダイゼーションが開始すると、単語(「アーム」)は相互にハイブリダイズするに過ぎず、他方、プローブはゲノムにハイブリダイズする。単語(「アーム」)は、典型的には、検出可能な物質(例えば、蛍光標識)を運ぶので、自己ハイブリダイゼーションは、バックグラウンドハイブリダイゼーションに対してゲノム内のプローブの位置を区別するのを助ける。かくして、アームの自己のハイブリダイゼーションはゲノムにハイブリダイズするプローブの視覚性を増幅するように働く。
また、非ハイブリダイジングオリゴヌクレオチドをタグとして用いて、他の配列の膨大な集団内で特定の配列をユニークに同定することもできる。非ハイブリダイジングオリゴヌクレオチドを公知の配列に付着させることができ、それにより、特定の配列にタグを加え、または標識することができる。
さらにもう1つの例において、いくつかの異なるDNA配列を繋いで、(例えば、図8の工程810に供される)単一のゲノムを形成することができる。そのような繋がれたゲノムは、例えば、ヒト血液試料内での特定の病原体(例えば、ウイルス)の存在を検出するプローブを設計するのが望ましいならば、有用である。繋いだゲノムは必要である。なぜならば、ヒト血液から抽出したDNAはヒトDNAを含むのみならず、病原体のような他の源からのDNAを含むからである。したがって、プローブがヒト血液中の病原体を効果的に検出するためには、それはヒトゲノムに交差ハイブリダイズすべきではない。
病原体プローブが組織試料中の他のゲノム(例えば、患者のゲノム、および患者で見出された他の微生物のゲノム)に関して完全にはユニークではない場合、他のゲノムにおけるプローブについての単語カウントと、病原体ゲノムにおけるプローブについての単語カウントを比較する必要があろう。このアプローチは2つのサーチエンジンを必要とするであろう −1つは注目する病原体用であり、他方は他のゲノムの組合せ用である。このデュアルサーチエンジンアプローチを適用するにおいて、組織試料中の他のゲノムにおけるプローブカウントが比例せずに低い限り、病原体ゲノム内に高いマーカウントを有するプローブを設計するのが有利であろう。
(VII.実施例)
以下の実施例は説明のためのみに掲げる。それは、本明細書中で開示する発明の範囲を限定する意図ではない。
(実施例1−提示に対して相補的であるオリゴヌクレオチドの選択)
本実施例は、ヒトゲノムのBglII−誘導表示に相補的であるオリゴヌクレオチドプローブの同定を示す。同様なアプローチを用いて、その配列が知られている、または予測される核酸のいずれの集団に対して相補的なオリゴヌクレオチドも設計することができる。ヒトゲノム配列の公表されたドラフトアセンブリーを用い、我々は、ドラフトアセンブリー内の全てのBglII制限部位を突き止めることによってヒトゲノムのin silico BglII消化を行った。我々は、さらに、長さが200ないし1,200塩基対の間であるBglII断片の全ての配列を選択した。次いで、我々は、本明細書中で記載したアルゴリズムを用いてこれらの断片の配列を分析した。(「マー−エンジン」とも呼ばれる)このアルゴリズムを用いて、いずれかの配列決定されたゲノムにおけるいずれかの与えられたオリゴヌクレオチド配列のコピー数を決定することができる。このコピー数は、ゲノム中のオリゴヌクレオチド配列の「単語カウント」とも呼ばれる。
我々は、ヒトゲノムの同一ドラフトアセンブリーから構築されたマー−エンジンを用いて、その構成要素、重複する15−および21量体(すなわち、15または21ヌクレオチドを有するオリゴヌクレオチド)の単語カウントを持つ各BglII−消化断片を注釈した。これを行うために、我々は、構成要素毎に各断片につき、重複する70量体オリゴヌクレオチドをin silico創製した(例えば、100塩基対断片は31のそのような70量体を有するであろう)。以下の属性が後記する断片のそのような70量体ごとに決定された:最大21量体(または最大18量体カウント)、15量体カウントの幾何平均、パーセントG/C含有量、および各塩基の量、ならびにいずれかの単一塩基の最大ラン。
最大21量体カウントを決定するために、我々は、各70量体を重複する21量体に分解させ、ゲノム中の21量体配列の全てに対してこれらの21量体の各々を比較した。我々は、その最大21量体カウントが1よりも大きな全ての70量体、すなわち、ゲノム中の1を超える21量体配列に100%相補的な21量体配列を持つものを捨てた。これは70量体プローブの我々の最初の組であった。
我々は、さらに、30%未満、または70%より大きなGC含有量、6塩基よりも大きなA/Tのラン、または4塩基よりも大きなG/Cのランを持つものを除去することによって。70量体プローブを最適化した。残りの70量体から、我々は、全体としてゲノムのそれに比例して近いGC/ATを有する1(以上の)70量体を各BglII断片につき選択した。我々は、さらに、70量体の構成要素の各々、重複する15量体につきゲノム単語カウントを決定することによって、かく選択された70量体の各々を分析した。我々は、最低の平均15量体カウントを有する70量体を選択する。
総じてのユニーク性についての最終チェックとして、各BglII断片についての最適70量体プローブを、BLASTソフトウエアプログラムを用いて全ゲノムと比較した。行わなかった低い複雑性の配列の濾過を例外として、欠陥パラメータを用いた。それ自体以外のいずれかの配列に対してその長さの50%以上に沿っていずれかの程度の相同性を持ついずれの70量体プローブも排除した。
マー−エンジンアルゴニズムは、プローブ設計プロセスに対して厳格性、柔軟性および単純性を与えた。全てのサイズの単語につき単語カウントを迅速に決定する能力は、設計基準が、現実のハイブリダイゼーション事象に類似した方法で定量的に構成されるのを可能とする。単語カウントは、配列がポリヌクレオチドの2以上の組に属する程度の定量的尺度と考えることができる。例えば、小さなプローブ「AGT」は、6つの区別される単語、すなわち、「A」、「G」、「T」、「AG」。「GT」および「AGT」を含有する組と考えることができる。もしこのプローブを全てのサイズの全ての単語についての単語カウントで注釈するならば、プローブ「AGT」である第一の組に出現する各単語の回数の数は、第二の組、すなわち、30億のヌクレオチドゲノムにそれらが出現する回数の数によってかなり圧倒されるであろうことが見出されるであろう。
この関係は比率X/Yとして表現することができ、ここに、Xは当該プローブに対するプローブの構成要素単語の全てについてのカウントの総和であって、Yはゲノム内の同一単語の全てについてのカウントの総和である。最小交差−ハイブリダイゼーションにて標的配列にハイブリダイズする70量体プローブを選択すると、比率X/Yを最大化することができ、ここに、ゲノム配列に由来するプローブについてのX/Yの最大値は1である。それに関して注釈すべき2単語長のみを選択する技術は、本質的には、この目標に向けての多くの可能な短いカットのうちの1つである。
注目するゲノム領域内でユニークなプローブが見出すことができない場合には、ユニークでないプローブを用いて、相対的コピー数の差、または単純に物の量の明瞭な測定を提供することが可能である。したがって、問題は単語の3つの組:プローブ、注目する含まれる領域、およびゲノムの間の比較まで拡大される。Zに、含まれる領域に対する全てのプローブ単語カウントの総計を表すようにする。XおよびYは、各々、プローブおよびゲノムに対する全てのプローブ単語カウントの総計を表すと仮定する。次いで、目標は、表現、(X/Y)/(X/Z)、または単純にZ/Yの値を最大化することである。換言すると、全コピー数とは無関係に、領域−特異的であるプローブを見出すことができる。この特殊な場合は、ハイブリダイゼーションを通じて多くのうち1つの特定の存在を認識するためにプローブを選択するいずれの状況も含むように一般化することができる。更なる例は、多くの他の生物のDNAに暴露された場合の1つの生物のDNAの認識である。
この範例のさらにもう1つの適用は、組メンバーシップの最小化のそれである。我々は、マイクロアレイ実験においてハイブリダイゼーション対照として働くプローブを設計した。これらのプローブは、いずれの他のプローブも認識する同等の機会を有するDNAの断片のみにハイブリダイズすることがそれらに意図されている意味で対照である。この場合、目標は、単純に、Yができる限りゼロに近いプローブを設計することであった。そのようなプローブは、例えば、ハイブリダイゼーション−リーダブルユニークアイデンティファイヤーとして、またはネットワーキングを介してハイブリダイゼーションシグナルを増強するための他の核酸配列への添加としても有用である。
単語カウントの総計および幾何平均に加え、例えば、特定のサイズの単語についてのプローブの単語カウントの偏差を含めた、多くの他の統計学を用いることができる。この偏差は、特定のコピー数で存在しなければならないプローブの選択についての迅速なプレスクリーニングとして働くことができる。特定の単語サイズについての最大単語カウントは、他のユニークなプローブについての最悪な可能なハイブリダイゼーション結果の指標として採用することができる。これらの定量的尺度は、他の候補に対するハイブリダイゼーションプローブの適合性を迅速に決定するのに理想的である。マー−エンジンアルゴリズムは、本質的には、注目する配列にわたっての単一パススキャンニングまでプローブ選択のプロセスを低下させることができる。
我々が設計した85,000の70量体よりなるプローブ組の1つは、0.8の標準偏差を持つ1.2のヒトゲノムに対する平均18量体化カウントを保有した。平均は、組み合わせた全てのプローブの全ての18量体の組にわたって計算された。先行技術、特に、ほぼ23,000の70量体発現アレイプローブの公表された組と比較して、全ての組合されたプローブについての18量体カウントの平均は1.9であり、標準偏差は14.8であった。従って、プローブのこの組は4のファクターだけ2のうちのより大きいものであり、18のファクターだけ終始一貫してよりユニークであった。本実施例における85,000プローブの組は、前記したように、ユニークな21量体拘束および最小化された凝集体15量体カウント拘束の組合せについて我々が選択した。利点は、経験的によく実行されることが反面したプローブが、DNA断片の大きな異種集団に単純にハイブリダイズせず、それにより、そのシグナルを増大させたという信頼性の大きな増加を含んだ。これは、さらに、標的の平均単語カウントについての極端に小さな標準偏差のような厳しい規定された基準を満足するようにプローブ組を設計することができる精度を説明する。
(実施例2−アレイの調製)
我々は、実施例1に従って設計されたオリゴヌクレオチドプローブを含有するマイクロアレイを構築するための2つのフォーマットを用いた。これらのうち最初のもの、「印刷」フォーマットにおいて、我々は、固相化学で作成された約1,000オリゴヌクレオチドを購入し、それらをクイルでガラス表面に印刷した。具体的には、我々は、Cartesian PixSys5500(Genetic Microsystems)を用いて、4×4ビン遠心を用いて我々のプローブコレクションをスライド上に整列させた。各印刷されたアレイの寸法は概略2cmであった。我々のアレイは、商業的に製造されたシラン化スライド(Cornig(登録商標) ultraGAPSTM #40015)上に印刷された。アレイで用いたビンは、Majer Precisionからのものであった。
第二のフォーマット、「光印刷」フォーマットにおいては、オリゴヌクレオチドは、レーザー−指向性光化学を用いてNimbleGenTM Systems, Inc.によってシリカ表面に直接合成された。ほぼ700,000のユニークな70量体オリゴヌクレオチドを、まず、それを8つのチップ上に整列させ、それを、正常な男性J.DoeからのゲノムDNAのBglIIおよびEcoR1−枯渇BglII表示とハイブリダイズさせることによって、「性能」につきスクリーニングした。我々は、最も強いシグナルを生じた85,000オリゴヌクレオチドをピックアップし、それを単一チップ上に整列させた。
双方のフォーマットにおいて、我々は、オリゴヌクレオチドをランダムな順番で整列させて、アレイハイブリダイゼーションの間に幾何学的人工物がゲノム障害と正しくなく解釈される確率を最小化した。引き続いての実施例において、我々は、10K印刷アレイおよび85K光印刷アレイでの結果を記載する。
(実施例3−テスト表示の調製および標識)
本明細書中に記載したいくつかの実験では、我々はBglIIを選択して、表示を作成した。BglIIはこれらの特定の実験で有用な特徴を有する:それは頑強な酵素であり;その切断部位はCpGメチル化によって影響されず;それは4塩基突出を残し;およびその切断部位はヒトゲノム中の合理的に均一な分布を有する。BglII表示は、一般には1,200bpよりも小さな短い断片よりなる。我々は、17kbの平均間隔を持つ、ヒトゲノムの約2.5%を含むそれらの約200,000があると見積もった。
本明細書中に記載した実験の全てにおいて、我々は、平行して調製した表示の比較ハイブリダイゼーションを用いた。比較すべき2つの試料からのDNAを同時に調製し、同一プロトコル、試薬およびサーマルサイクラーを用い、同一濃度の鋳型から表示を調製した。これは、PCR増幅に際しての可変収率によって生じる可能な「ノイズ」を排除するであろう。
我々は、Lucito et al.,1998,前掲によって以前に記載されたようにヒトゲノムDNAのBglII表示を調製した。簡単に述べれば、我々は、供給業者によって提案された条件下で、BglIIで3ないし10ngのヒトゲノムDNAを消化した。我々は、フェノール抽出、および10μgのtRNAの存在下でのエタノール沈殿によって消化物を精製した。我々は、444pmolの各アダプター(RBg124およびRBlg12;Lucito,R.and M.Wigler.2003.「Preparation of Target DNA」, In Microarray−based Representational Analysis of DNA Copy Number (D.Bowtell & J. Sambrook編),pp.386−393. Cold Spring Harbor Press, Cold Spring Harbor, NY)を含む30μlの1× T4 DNAリガーゼ緩衝液中にペレットを再懸濁させた。我々は、反応混合物を予熱した55℃のヒートブロックに投入し、温度が15℃まで降下するまで、ヒートブロックをほぼ1時間氷上に置いた。次いで、我々は、400unitのT4 DNAリガーゼを加え、反応混合物を15℃にて12ないし18時間インキュベートした。
我々は、1/40の連結物質、20μlの5×PCR緩衝液[335mMトリス−HCl,pH8.8;20mM MgCl;80mM (NHSO;50mM β−メルカプトエタノールおよび0.5mg/ml BSA]、0.32mMの最終濃度までの2’−ジデオキシヌクレオチド5’三リン酸、0.6μMの最終濃度までのRBg124アダプター、1.25UのTaqポリメラーゼおよび水を250μlのチューブに加えて、容量を100μlとした。チューブを72℃に予熱したMJ Research TETRADTMサーモサイクラーに入れた。次いで、我々は以下のように増幅を行った:5分間の72℃における1サイクル、次いで、95℃における1分間、および72℃における3分間、続いて、72℃における10分間の延長時間の20サイクル。我々は、TE(pH8)に再懸濁させ、DNA濃度を測定する前に、フェノール:クロロホルム抽出およびエタノール沈殿によって、表示(すなわち、PCR産物)を洗浄した。
ある実験では、我々は、その制限部位を含む断片を切断するためにさらなる制限エンドヌクレアーゼでの消化によって枯渇した表示を調製した。これらの場合、我々は、増幅工程の直前に第二の制限エンドヌクレアーゼで連結混合物を消化した。以下に記載する実験では、HindIIIを用いて枯渇したBglII表示を製造した。
我々は、DNAを0.2mlのPCRチューブに入れることによって表示中の断片を標識した。我々は、Amersham−Pharmacia MegaprimeTM標識キットからの10μlのプライマーを加え、それらをDNAとよく混合した。我々は、容量を水で100μlとした。我々は、チューブを100℃にて5分間、MJ Research TETRADTMマシーンに入れ、5分間氷上に置き、Amersham−Pharmacia MegaprimeTM標識キットからの20μlの標識緩衝液、10μlの標識(Cy3TM−dCTPまたはCy5TM−dCTP)および1μlのNew England BioLabs(登録商標)クレノウ断片を加えた。我々は、37℃にてチューブを2時間インキュベートし、標識された試料(Cy3TMおよびCy5TM)を1つのEppendorf(登録商標)チューブに組み合わせ、次いで、50μlの1μg/ulヒトCot1 DNA、10μlの10mg/mlストック酵母tRNA、および80μlの低TE(3mMトリス pH7.4,0.2mM EDTA)を加えた。我々は、試料をCentricon(登録商標)フィルターに負荷し、12,600rcfにおいて10分間遠心した。我々は、フロースルーを捨て、フィルターを450μlの低TEで洗浄した。我々は、遠心およびTE洗浄を2回反復した。我々は、Centricon(登録商標)カラムを新しいチューブに逆向きに入れ、12,600rcfで遠心することによって試料を標識した。我々は、標識された試料を200μlのPCRチューブに移し、容量を低TEで10μlに調整した。
加えて、いくつかの実験では、我々は、原発性卵巣癌細胞から、およびMcrBCでの正常参照からのDNA単離体を消化し、リンカーを連結させ、前記したように増幅した。
(実施例4−テスト表示のアレイへのハイブリダイゼーション)
我々は、300mJに設定したStratagene(登録商標)Stratalinker(登録商標)を用いてオリゴヌクレオチドプローブをスライドへUV−架橋させ、スライドを180度回転させ、同一ポット中のスライドを架橋剤中に維持し、処理を反復した。我々は、スライドを0.1%SDS中で2分間洗浄し、Milli−Q(登録商標)水中で2分間洗浄し、沸騰したMilli−Q(登録商標)水中で5分間洗浄し、最後に、氷冷95%ベンゼンフリーのエタノール中で洗浄した。我々は、スライドを金属ラック中に入れ、それを75rcfにて5分間回転させることによって乾燥した。我々は、印刷されたマイクロアレイをコップリンジャーまたは他のスライド処理チャンバーに入れ、プレハイブリダイゼーション緩衝液(25%脱イオン化ホルムアミド、5× SSCおよび0.1%SDS)を加え、チャンバーを2時間で61℃まで予熱することによって印刷されたマイクロアレイをプレハイブリダイズさせ、次いで、Milli−Q(登録商標)水中でそれを10秒間洗浄した。我々は、再度、スライドを金属スライドラックに入れ、75rcfにて5分間回転させることによってそれを乾燥した。NimbleGenTM光印刷したアレイはUV架橋またはプレハイブリダイゼーションを必要としなかった。
我々は、実施例3のように調製した10μlの標識した試料に25μlのハイブリダイゼーション溶液を加え、混合した。印刷したスライドでは、ハイブリダイゼーション溶液は25%ホルムアミド、5× SSC、および0.1%SDSであった。NimbleGenTM光印刷アレイでは、それは50%ホルムアミド、5× SSC、および0.1%SDSであった。我々は、試料を、MJ ResearchTM TETRADTM中で95℃にて5分間変性させ、次いで、37℃にて30分間インキュベートした。我々は、試料を回転させ、それを、リフタースリップで調製したスライド上にピペッティングし、印刷アレイでは58℃に設定された、NimbleGenTM光印刷アレイでは42℃に設定された(Boekel InSlide OutTMオーブンのような)ハイブリダイゼーションオーブン中でそれを14ないし16時間インキュベートした。
ハイブリダイゼーションの後、我々はスライドを以下のように洗浄した:簡単に述べれば、カバーグラスを除くために0.2%SDS/0.2× SSC中;0.2%SDS/0.2× SSC中で1分間、0.2× SSC中で30秒間;および0.05× SSC中で30秒間。我々は、スライドをラックに入れ、それを75rcfにて5分間回転させることによって前記したようにそれを乾燥した。次いで、我々は直ちにスライドをスキャンした。
我々は、印刷したアレイでは10ミクロンの、光印刷したアレイでは5ミクロンの画素サイズに設定されたAxon GenePix(登録商標)4000Bスキャナーを用いてスライドをスキャンした。我々は、GenePixTM Pro4.0ソフトウェアを用いてアレイの密度を定量し、さらなる分析のためにデータをS−PLUS(登録商標)に持ち込んだ。我々は、バックグラウンドを差し引くことなく測定された強度を用いて実験における2つのシグナルの間の比率を計算した。我々は、Yang et al.,Nucl.Acids Res.30:e15−15(2002)に記載されたのと同様な強度ベースのlowess曲線フィッティングアルゴリズムを用いてデータを正規化した。我々は、色逆転実験から得られたデータを平均し、それを図面に示したように表示した。
(実施例5−アレイの性能および確認)
実施例1で考察したように、我々は、オリゴヌクレオチドプローブがいずれの表示とハイブリダイズするかを、公表されたヒトゲノム配列に基づいて予測することができるはずである。これを確認するために、我々は、我々の10K印刷アレイを、1つの蛍光染料で標識した正常ヒトゲノムDNAのBglII表示に、およびもう1つの蛍光染料で標識した同一DNAのHindIII−枯渇BglII表示にハイブリダイズさせることによってそれをテストした。
図1は、HindIIIによって枯渇されたBglII表示で得られた結果を示す。図1Aにおいて、我々は、Y軸に沿って、各プローブのハイブリダイゼーション強度の比率をグラフ化した。各実験を色逆転にて行い、別々の実験からの比率の幾何平均をプロットする。全長および枯渇した表示双方における断片を検出すると予測されたプローブは双方にハイブリダイズした(図1A;左側)。約8,000のこれらのプローブがあった。枯渇した表示におけるプローブを検出しないと予測されたプローブは検出しなかった(図1A;右側)。約1,800のこれらのプローブがあった。これらの結果は、(1)表示断片の制限プロフィールは正しく予測された、(2)オリゴヌクレオチドは正しく整列された、および(3)オリゴヌクレオチドは許容されるシグナル強度にて予測されたプローブを検出したことを確認する。図1Bにおいて、色逆転実験の比率の間の合致がグラフ化されている。これらのデータにより、我々のアレイの再現性が確認される。
非常に少数のオリゴヌクレオチドプローブは、予測された表示における標的断片にハイブリダイズしなかった。例えば、HindIIIによって切断されなかった断片にハイブリダイズすると予測された8000プローブのうち、約16は、事実切断されたBglII断片にハイブリダイズするように見えた。これは、我々の試料および公表されたヒト配列の間の発散によるものであり、これは、多形または配列決定の誤差に由来したものであろう。しかしながら、ここに、データは、公のヒト配列が、表示オリゴヌクレオチドマイクロアレイのためのプローブの設計で十分に信頼できることを示す。
(実施例6−腫瘍ゲノムの全体的分析)
本発明のオリゴヌクレオチドアレイは、それが欠失または増幅であるかにかかわらず、大規模のゲノム障害を容易に検出する。図2A1ないしA3、2B1ないしB3、および3C1ないし3C3は、3つのゲノム比較用のアレイハイブリダイゼーションデータを示し:図2A1ないしA3は同一バイオプシーからの正常なジプロイド細胞(CHTN159)と異数体乳癌細胞を比較する(2つの試料表示は約100ngのDNAから調製し、各々は、フローサイトメトリーによって分離された異数体およびジプロイド画分から単離した);図2B1ないしB3は未知の民族性の患者に由来する乳癌細胞系(SK−BR−3)を(欧州およびアフリカ混血血統の)無関係正常な男性J. Doe(実施例2参照)と比較し;および図2C1ないしC3はもう一人の正常な男性(アフリカピグミー)からの細胞を同J.Doeと比較する。各場合、試料を色逆転にて、2回ハイブリダイズさせ、幾何平均比率(logスケール)をオリゴヌクレオチドプローブのゲノム順に対してプロットした。増大したコピー数(増幅)は1を超える比率によって示され、減少したコピー数(欠失)は1未満の比率によって示される。図2A1、2B1および2C1に示されたデータは10K印刷アレイで得られた。図2A2、2B2および2C2で示されたデータは85K光印刷アレイで得られた。
癌ゲノムに対して明瞭なプロフィールがあった。2つの乳癌系のプロフィールは区別されたが、各々は、ゲノム中で増幅および欠失の大きな領域を示した(図2A1ないしA2、および図2B1ないしB2)。対照的に、正常−正常のプロフィールは実質的に平坦であり、これらのゲノムの間には大規模な増幅または欠失がないことを示す(図2C1ないしC2)。これらのデータにより、本発明のオリゴヌクレオチドアレイは大規模なゲノム変化を検出できることが確認された。
また、結果は、全ての3つのゲノム(2つの癌ゲノムおよびアフリカ男性のゲノム)における少量の喪失および獲得を検出する多くのオリゴヌクレオチドプローブがあったことを示す。これらの喪失および獲得は図2A1ないしA2、2B1ないしB2および3C1ないしC2において単独ドットとして示し、図2C2(正常−正常比較)においては、ゲノムを通じて0.5および2.0の比率に近づくプローブの「シェル」またはゾーンとして表す。これらの喪失および獲得は、サンプリングした個体の間のヘテロ接合性BglII多形の結果のようであった。
さらに、10K印刷フォーマットおよび85K光印刷フォーマットの間の比較は、それらが異なる分解能を有したのにもかかわらず、共に大規模なゲノム特徴の同様な図を捕獲したことを明瞭に示す。我々は、それらが同一BglII断片に対する相補性を共に有するならば、プローブを「兄弟」と呼ぶ。兄弟は重複した配列を必ずしも有しないが、それらはその長さの半分までだけ重複してもよく、あるいはその全長にわたって相補的であってもよい。図2A3、2B3および2C3において、我々は、85Kフォーマット(X軸)からのそれらの兄弟オリゴヌクレオチドの比率に対して10Kフォーマット(Y軸)からの兄弟オリゴヌクレオチドの比率をプロットする。過剰の7,000兄弟プローブがあった。プローブ配列はフォーマットの間で変化し、アレイイングのそれらのパターンは異なり、ハイブリダイゼーション条件は異なり、かつアレイの表面は異なったという事実にもかかわらず、全ての3つの実験に対する2つのフォーマットでの兄弟プローブの比率の間には顕著な合致があった。これらのデータにより、本発明のオリゴヌクレオチドを含むアレイを用いて得られた結果の再現性が確認された。
加えて、McrBCでの切断によって生じたMOMA表示の分析は、癌細胞および正常な細胞のゲノムの間の改変されたメチル化状態を持つゲノムの領域を示した。BglII表示を用いるこれらの領域におけるコピー数の差に対する正規化により、これらの部位の多くにおける観察された差はメチル化状態の差に基づくものであって、コピー数の差に基づくものではないことが確認された。
(実施例7−自動セグメント化および全ゲノム分析)
また、我々は、ゲノムのより小さな領域からのデータを分析して、実施例6で見られた変異をマッピングした。例えば、我々は、偏差をコードした後にプローブ比率データを同様な平均のセグメントに分析する統計学的セグメント化アルゴリズムを用いて一度に1つの染色体からのデータを分析した(環状二元セグメント化(CBS)と呼ばれる;Olshen and Venkatraman,Change−Point Analysis of Array−Based Comparative Genomic Hybridization Data,Alexandrie, VA, American Statistical Association, 2002参照)。該アルゴリズムは、各染色体からの最良な可能なセグメント化を回帰的に同定し、平均の差が偶然に起こった確率に基づいて分割された各提案を拒絶または許諾する。この確率はランダム化方法によって決定される。その非パラメータ性質のため、該アルゴリズムは、我々が、3未満のプローブによって認識された異常を同定することを妨げた。
図3AないしDは、85Kアレイを用いる癌細胞系SK−BR−3の4つの染色体(図3AないしD中、各々、染色体5、8、17およびX)についてのこの分析の出力を示す。我々は、10Kアレイからのデータを用いた場合、同様なセグメント化プロフィールおよびセグメント平均を観察した。データのさらなる解析により、我々は、細胞の倍数性レベルを決定することが可能となった。
一旦セグメント化すれば、我々は、各オリゴヌクレオチドに、それが属するセグメントの平均比率を割り当て、分類した順に平均比率をプロットした。これらのデータはCHTN159(図4A)およびSK−BR−3(図4C)の癌ゲノムに対してプロットする。図面は、各ゲノム内のセグメント平均比が定量され、同様な値の主たるおよび従たるプラトーがあることを示す。我々は、カウンティング、およびCHTN159がサブ−トリプロイドであって、SK−BR−3がテトラプロイドであるというフロー分析による知識に基づいて、これらの領域のコピー数を推定した。もし各試料が概略モノクローナルであれば、CHTN159における2つの主たるプラトーは細胞当たり2および3コピーであり、主たるプラトーSK−BR−3は細胞当たり3および4コピーであろう。
我々は、主たるプラトーについて計算されたコピー数を用いて、各実験につき倍数性およびSを解いた。我々は方程式:
=(R×S+1)/(S+1)
[式中、Rは平均測定比率であり、Rは真実の比率であって、Sは「非特異的に対する特異的」ノイズを測定する実験的に誘導された性質である]
を用いた。我々は、Rを、プラトーにおけるセグメントのプローブの平均として選択し、C/Pに対するRを設定し、ここに、Cはプラトーから知られた真実のコピー数であり、Pは腫瘍ゲノムの倍数性であった。該組合せは2つの方程式および2つの未知のPおよびSを提供した。CHTN159実験では(図4A)、我々は、倍数性Pは2.60と計算し、Sは1.13と計算した。SK−BR−3実験では(図4C)、我々はPが3.93であって、Sが1.21であると計算した。
また、我々は該方程式を用いて、平均比率がより高いおよびより低いコピー数につき予測されるであろうと計算した。我々は、「コピー数格子」を形成する水平線で、ゼロから12のコピー数まで、各グラフのこれらの予測された値をマークした。プローブに割り当てられた平均−セグメント値は、図4Bおよび4Dにおいては、ゲノム順に表示し、予測されたコピー数格子を埋め込んだ。コピー数格子は、特に、より高いコピー数では、データの従たるプラトーにかなり顕著にフィットする。
(実施例8−微細スケールのゲノム障害の分析)
また、我々は、データを分析して、増幅または欠失を有する個々の染色体中の正確な破断点を決定した。我々の分析は、本発明のアレイを用いて、個々の遺伝子の分解におけるゲノム障害を同定することができることを示した。従って、アレイから得られたデータを用いて、癌細胞への正常細胞の変換についての特定の遺伝子における異常のインパクトを予測することができる。
我々は、まず、図3Dに見られるX染色体における破壊の領域を分析した。女性から得られたSK−BR−3細胞を無関係な男性の細胞と比較した。我々は、染色体Xにおけるプローブは上昇した比率を有するであろうと予測した。これは、染色体Xの長いアームをかなり通過する場合であった。しかしながら、Xq13.3の中央においては、27kbにわたる領域を通じてコピー数の鋭い破断があり、1に近い比率は染色体の残りで観察された(図5A)。かくして、セグメント化によってアレイデータから遺伝的傷害の境界を引き出すことが可能であった。我々は、遺伝子を破壊する鋭いコピー数転移の多くの他の場合を観察した。
SK−BR−3ゲノムには3ないし4の狭い増幅があり、各々は2以下の遺伝子を含み、その中には膜貫通受容体があった。
次いで、我々は、増幅の広い区別される領域(図5B)を含めた、豊富な異常を有した染色体8(図3B)からのデータを分析した。最も右のピークはほぼ1つのメガベースストレッチであり、これは、37のプローブよりなるものであった(プローブ座標45099ないし45138、Juneゲノム座標126815070ないし128207342)。しかし、それは単一のよく特徴付けられた遺伝子c−mycを含んだ。
c−mycのピークの左側に向けて上昇し、グラフから離れる、SK−BR−3に第二の広いピークがあった(図5B)。この広いピークは、その中央の非常に狭いピークと共に、その右側に広いショルダーを有した(プローブ座標44994ないし405051、Juneゲノム座標123976563ないし125564705)。我々は、これに、c−mycを含むより広いピークさえ有した腫瘍ゲノムCHTN159からのセグメント化データを重ねた(プローブ座標44996ないし45131、Juneゲノム座標124073565ないし127828283)。また、CHTN159におけるピークは、第二のSK−BR−3ピークのショルダーを含んだ(図5B)。かくして、該ショルダーは注意を引く候補オンコジーンを含むようである。その領域内で、狭いピークにおいて、我々は遺伝腎臓癌腫に関連する転座の標的であるTRC8を見出した(Gemmill et al.,Proc.Natl.Acad.Sci.USA 95:9572−7(1998))。これらの結果は、多数のゲノムからの調和するデータの値、および多数のデータ組を分析するための自動方法の必要性を示す。
また、我々は、染色体5上の狭い欠失を分析した。図5Cは、コピー数格子上に重ねた合わせた10K(塗りつぶしていない丸印)および85K(塗りつぶした丸印)分析の結果を示す。欠失は10Kおよび85K分解双方において明らかであるが(プローブ座標29496ないし29540、Juneゲノム座標14231414ないし15591226)、境界は85Kにおいてかなり明瞭に分解された。この領域は、GEFドメイン、SH3ドメイン、およびセリンスレオニンキナーゼドメイン(Lin and Greenberg,Cell 101:230−42(2000))を有する蛋白質であるTRIO;膜貫通蛋白質であるANKH(Nurnberg et al.,Nat.Genet.28:37−41(2001));およびユビキチンリガーゼ媒介蛋白質分解経路の成分であるFBXL(Ilyin et al.,Genomics 67:40−47(2000))を含んだ。
最後に、我々は、亜鉛フィンガー蛋白質のクラスターに影響する染色体19上のホモ接合性喪失の領域を分析した(図5D;プローブ座標77142ないし77198、Juneゲノム座標21893948ないし24955961)。これらの遺伝子のいくつかは、その欠失が腫瘍形成で役割を有するであろう転写因子をコードすることができる。我々は、そのいくつかは正常な変異に帰属できるであろう豊富な狭いヘミ接合性およびホモ接合性病巣を観察した。実施例9参照。
(実施例9−「正常」ゲノム変異の調査)
また、我々は本発明のオリゴヌクレオチドアレイおよび方法を用いて、2つの正常なゲノムの間のコピー数変動を分析し、多形変動から得られた差を観察した。この分析は、例えば、腫瘍DNA試料が正常DNAに対してマッチできず、無関係な正常DNAが参照として用いられる状況で重要である。何故ならば、観察された差は多形変動の結果だからである。この変異は2つに分類でき、BglII断片を創製し、または破壊する分類の点配列変異、例えば、SNP、またはヒト遺伝子プールに存在する現実のコピー数の変動である。前者は本発明のアレイを用いる分析に対して限定されたインパクトを有する。というのは、それは、統計学的手段によって大いに濾過することができる散乱した「ノイズ」を生じるからである。
図6Aにおいて(10Kおよび85Kデータ組からの合わせたデータ)、我々は、温和な濾過アルゴリズム(もし比率が周囲の4つのうち最も異常であれば、我々はそれをその2つの隣接体のより近い比率で置き換えた)が、点配列変異のインパクトを最小化し、現実のコピー数の変動がある状況を検出することができることを示す。濾過していない試料(例えば、図C2)に存在する散乱した多形の曇りはデータのこの提示でリフトされ、異常プローブ秘密の非−ランダムクラスターを明らかとし、正常な固体の間の大規模なゲノムの差を示す。
散乱した品種の多形変異は実験の系列的比較によって濾過することができる。例えば、図6Bは、正常なドナーJ.Doeと比較したSK−BR−3からのデータ、塗りつぶした丸印で表示した85K比率、および塗りつぶしていない丸印における10Kを示す。同一グラフにおいて、我々は、緑色の三角形で、アフリカピグミーからのもう1つの正常なDNAと比較したJ.Doeの比率を表示する。我々は、2つの正常な固体の間のハイブリダイゼーションに対する比較によって多形として同定することができるSK−BR−3−正常ハイブリダイゼーションにおける極端な比率の3つのプローブを見る。これらのデータの最も単純な解釈は、J.Doeが+/+であり、ピグミーが+/−であり、およびSK−BR−3が−/−であることであり、ここに、+は小さなBglII断片(最もありそうには、BglII部位におけるSNP)の存在を示す。一般に、3つのゲノムの対様式比較は、対立遺伝子状態の解釈可能な要求を可能とする。かくして、これらの種類のデータは、悪性ゲノムがマッチした正常と対にできない場合に特に有用である。
しかしながら、コピー数における多形は異なる種類の問題を提示する。図6Aは、正常−正常比較におけるコピー数の大きな領域的差を示す。我々は、セグメント化分析をこれらのデータに適用し、2つの正常な個体間の改変されたコピー数を呈する多数の領域を同定した。我々はいずれの正常−正常比較においても約1ダースの変種領域を観察した。それらは、長さが100キロベースからメガベースを超えるまで延び、どこにでも起こり得るが、テロメアおよびセントロメア近くでより頻繁に観察され、しばしば、公知の遺伝子を含む。
そのような2つの領域の綿密な検討を、連結させた丸印としての比率、および格子としてのセグメント化値と共に、図6Cおよび図6Dに表示する。図6Cにおいては、異常な領域は染色体6p21上の135kbであり(プローブ座標32518ないし32524、Juneゲノム座標35669083ないし35804705)、3つの公知の遺伝子を含む。図6Dにおいて、該領域は、多数の重鎖可変領域を含む染色体2p11からの620kb領域である(プローブ座標9927ないし9952、Juneゲノム座標88787694ないし89385815)。
我々は、癌−正常データの解釈に対する正常−正常変動のインパクトを分析した。図6Cおよび図6Dにおいて、我々は、各々、菱形および垂直ハッチングにてSK−BR−3の分析からのセグメント化値を重ねた。SK−BR−3についてのコピー数格子は格子としてプロットする。図6Cは、正常と比較した、欠失と呼ばれるであろうSK−BR−3における領域を示す。SK−BR−3においては、フランキング領域は、細胞当たり2コピーであると我々が判断したコピー数で起こり、その領域内では、コピー数は1まで低下するようになる。しかしながら、同一領域が、その正常に対するピグミーDNAの比較で出現する。図6Dにおいて、我々は染色体2p11上の類似の条件を観察する。図6Dにおいて、我々は腫瘍からのセグメント化データもプロットした。この領域は同様にそこでは明らかに異常である。
(実施例10−その部分のゲノムの注釈)
以下の実施例は、サーチエンジンの使用を説明するつもりである。当業者に明白である当該分野で通常遭遇する記載された条件およびパラメータの適当な修飾および適合は、本発明の精神および範囲内のものである。
本発明のサーチエンジンを用いて、ゲノムまたはゲノムのサブセット(例えば、染色体)での計算を行うことができる。これらの計算を実行するにおいて、高い単語カウントを有するいくつかの領域が見出され、これはRepeat Maskerのようなサーチツールによっては検出されない。Repeat Maskerによって用いられる反復のデータベースは領域特異的または染色体特異的反復を含まないことが示されている。セクションVIIで記載されたサーチエンジンを用い、そのような反復は容易に見つかる。何故ならば、正確なマッチカウンティングはゲノムの組代数についての基礎を形成することができるからである。特に、ゲノムのサブセットはトランスフォームストリングとなすことができ、これを調べると、染色体特異的反復が見出される。
染色体1からのトランスフォームストリングは、それ自体内、および全ゲノム内の単語カウントで注釈された。サーチを行って、長さが少なくとも100bpであり、正確なマッチが主として染色体1に由来することが判明した高い18量体カウントを持つ染色体1の連続領域を探した。そのような領域は容易に見つかり、長さが100bpないし35kbであった。1つのそのような領域に焦点を当て、その領域は、各々がシグニチャーモードの頻度および長さを持つより短い配列よりなるほとんど工程機能であることが観察された。これらのシグニチャー領域の1つを含有する染色体特異的領域を収集し、染色体1特異的配列のファミリーは迅速に同定された。染色体1特異的領域は、その染色体1カウントがその全ゲノムカウントの90%を超える18量体を同定することによって選択され、これらの18量体を一緒に結んで、染色体特異的反復を創製した。加えて、結んだ18量体の間のスペースは100塩基対を超えるようにはできなかった。この反復は、一緒になってミオシンに対して低い相同性を有する大きな予測された蛋白質配列をコードする多くのエキソンを持つRefSeq遺伝子(受託番号NM 015383)と重複するものとして注釈されたことが少なくとも1回見出された。
染色体特異的反復がそれにより同定される同一プロセスは、Repeat Maskerまたは他のプログラムによって認識されないものを含めた、ゲノム全体にわたる反復性DNAを見出すのに適用することができる。
(実施例11−マーエンジンを用いるプローブ設計)
前記したサーチエンジンはプローブの設計で用いることができる。プローブは、一般には、相補的DNAに特異的にハイブリダイズするその能力で有用であり、従って、プローブ設計における主な目的の1つは交差ハイブリダイゼーションを最小化することである。以前のプローブ設計適用は、反復マスキングを用いて、反復領域を考慮から外した。このタイプの解決は、それが、染色体特異的反復のような反復性である領域からの保護を提供せず、かつそれはユニークである「反復性」領域を排除する点で問題である。
不完全にマッチした配列の間のハイブリダイゼーションについての規則はよく確立されていないが、ゲノムの多数の領域に対して正確な「小さな」マッチを有するプローブは好ましくは回避すべきであることは当該分野で知られている。以前のプローブ適用は、凝集体の正確に12量体のマッチカウントを最小化するプローブを選択しているが、ゲノムプローブについては、これらの方法は不適切である。まず、12量体の正確なマッチが、通常のストリンジェントなアニーリング条件下でのハイブリダイゼーションに何らかの影響を有することは不明確である。また、ゲノムにおけるユニーク性はさておいて、12量体カウントは相同性を予測しない。事実、その構成要素12量体からのカウントの幾何平均に対する15量体カウントの比較は、本質的にユニークである2つの配列の間の貧弱な相関を生じた。
マー−エンジンを用いるプローブ設計のための一般的プロトコルを以下に記載する。まず、ユニーク性の十分に長いストレッチが見出されるように(例えば、候補プローブ)、ゲノムを特定の長さのマーに従って注釈する。第二に、少なくとも1つの予め規定された長さのマー、好ましくは候補プローブを見出すのに用いたマー長さよりも短い長さのマーを用いてこれらの候補プローブを注釈する。候補プローブの1つは、予め規定されたより短い長さの最小凝集体マー−カウントに基づいてプローブとして選択される。
前記したプロトコルに従い、21量体カウントから得られたユニーク性データを用い、70量体候補プローブを小さなBglII断片から選択した。これらの候補プローブ内で、15量体カウントの最低総和にて、約900のカットオフ値にて、70量体を選択した。単一ヌクレオチドのランおよび酷い塩基組成バイアスを排除するさらなる基準も適用して、いずれの候補プローブを選択すべきか決定するのを助けた。選択されたプローブを合成し、ガラス上に印刷して、マイクロアレイハイブリダイゼーション条件でのそれらの性能をテストした。実質的に全てのプローブは特定の性能基準において、またはそれを超えて実行されることが判明した。さらに詳しくは、約70%ないし約98%の成功率が前記プロトコルを用いて設計したプローブで達成され、ここに、成功は実質的(例えば、大きな)シグナル/ノイズ比率を有するものと定義される。
BLASTを用いて、選択されたプローブが特定の公表されたゲノム構造内でユニークか否かをテストした。MegaBLASTについての欠陥パラメータを用いて30,000のそのようなプローブをテストした(単純な配列の濾過はスイッチを切った)。99%を超える選択されたプローブがゲノム内でユニークであることが判明した。
(実施例12−アルゴリズムの偽暗号表示)
どのようにしてアルゴリズムを実行して単語カウンティング機能を行うかをさらに説明するために、図12Aおよび12Bを参照されたし。図12Aは、アルゴリズムによって用いられた変数およびデータ構造をグラフで規定し、図12Bはアルゴリズムの偽暗号表示を示す。セクションVIIで示したように、トランスフォームは「実質的」ゲノム辞書または添字アレイ用の先導的ツールとして用いることができる。最も単純な場合には、サブストリングがゲノムで起こるか否か、およびもしそうであれば、どれくらい多くのコピーで起こるかを決定するのが望まれると仮定する。この場合、サブストリングは単一文字「X」であると仮定する。Xの全ての出現はブロック(例えば、サーチ領域)として辞書で見ることができ、ここに、FxおよびLxはXの最初および最後の出現の指標である。FxおよびLxはアルファバウンドデータ構造に由来することができる。このブロック(例えば、サーチ領域)のサイズはkx=Lx−Fx+1であり、これは、Xの出現の数でもある。この数は、トランスフォームにおけるXの出現の数をカウントすることによって決定できることに注意されたし。
2以上の文字の単語をカウントする場合のようなより困難な場合には、ゲノム中の各文字XのFx、Lxおよびkxは決定される必要がある。換言すれば、各文字XについてのFxおよびLxはアルファバウンドと呼ばれるデータ構造に貯蔵される。一旦アルファバウンドデータ構造が構築されれば、アルゴリズムを進行させて、ゲノムで起こる特定の単語Zの回数の数をカウントすることができる。WはZの添字であり、Wはゲノムに存在し、かつWのアルファバウンド(例えば、図12Aに示されるFwおよびLw)は知られていると仮定する。次に、XWがサブストリングとして存在するか否か(ここに、XはZ中のWに先行する文字である)に関して決定をなすことが必要である。加えて、XWブロックの開始および終了指標(例えば、FxwおよびLxw)は決定される必要がある。
もしXがFwおよびLwの間でトランスフォームで起こるならば、および起こる場合にのみ、XWはゲノム中でサブストリングとして存在する。さらに、kxwとして示されたトランスフォームの「Wブロック」中のXの数は、ゲノム中のサブストリングXWの単語カウントである。XWの開始および終了指標は1)Fxw=Fx+bxw;および2)Lxw=Fxw+kxw−1(式中、bxwはXWの前に起こるゲノム辞書中のXで開始する単語の数である)を用いて完了することができる。bxwは、トランスフォームのWブロック前で起こるXの数をカウントすることによって決定することができる。
この手法を反復し、一度に添字一文字分長くし、もし添字がゲノム辞書に存在しなければ停止する。もし添字Wが全単語Zを含むならば、kwはゲノムストリング中のZの出現の数である。この手法の概略は図12Bに示すように偽暗号中の概略である。図12Bに関し、Zは、ゲノムアルファベットからの文字よりなる長さNのストリングであって、アルファバウンドデータ構造は、ゲノムアルファベットにおける各文字についてのゲノム辞書での最初および最後の出現の指標を含む。
特に断りのない限り、本明細書中で用いた全ての技術および科学用語は、本発明が属する技術分野における当業者によって通常理解されるのと同一の意味を有する。全ての刊行物および本明細書中に記載した他の文献はここに引用してその全体を援用する。コンフリクトする場合、定義を含めた本明細書中が支配する。材料、方法および実施例は説明的なものに過ぎず、限定する意図のものではない。本明細書中を通じ、用語「含む」、または「を含む」または「含んでいる」のような変形は、述べられた整数または整数の群を包括的に意味すると理解されるが、他の整数または整数の群いずれかを排除するものではない。
図1Aないし図1Dは、10,000オリゴヌクレオチドを含むマイクロアレイを用いるアレイ測定のインフォマティックスおよび精度の予測性を示す。図1Aは、ハイブリダイズした試料がBglII表示、およびHindIII切断部位を持つ断片を枯渇させたBglII表示である結果を示す。Y軸(平均比率)は、logスケールでプロットした通常の表示に対する枯渇した表示の2つのハイブリダイゼーションからの平均測定比率である。X軸(指標)は、内部HindIII部位を有すると定義された断片に由来するプローブが右側となるように構築した偽指標である。図1Bは、図1Aにおける平均比率を作り出すのに用いる複製実験の再現性を示すY軸(比率実験1)は実験1からの測定された比率であってX軸(比率実験2)は実験2の測定された比率である。双方の軸はlogスケールでプロットしてある。図1Cは、X軸で枯渇していない試料の強度の関数としてのY軸上の正規化された比率をグラフ化する。比率および強度は共にlogスケールでプロットした。図1Dは刺激によって生じたデータを表す。X軸(指標)は偽指標である。600の群におけるプローブは、左側から右側へ増大するコピー数を検出する。600のフランキングプローブは正常なコピー数を検出する。Y軸(平均比率)はlogスケールでプロットした平均比率である。 図2A1ないし2A3、2B1ないし2B3、および2C1ないし2C3は、10K印刷アレイ(図2A1、図2B1、図2C1、および85K光印刷アレイ(図2A2、図2B2、図2C2)を用いる、同一患者からのジプロイド核と比較した異数性核を持つ原発性乳癌試料(CHTN159)(図2A1ないし2A3)、正常な男性参照と比較した乳癌細胞系(図2B1ないし2B3)、および正常な男性参照に対する正常な男性(図2C1ないし2C3)に対するゲノムプロフィールを示す。各場合(図2A1、図2B1、図2C1および図2A2、図2B2、図2C2)において、Y軸は平均比率であって、X軸(Gen指標)は指標であり、これは、ゲノムオーダーのプローブをプロットし、染色体をつなぎ合わせ、染色体1ないしYからの全ゲノムの可視化を可能とする。図2A3、図2B3、および図2C3は、10Kおよび85Kマイクロアレイに存在する「兄弟」プローブから測定された比率の対応性を示す。Y軸は10Kマイクロアレイからの測定された比率であって、X軸は85Kマイクロアレイからの測定された比率である。 図3Aないし3Dは、正常参照と比較した、腫瘍細胞系SK−BR−3の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Y軸(平均比率)は、logスケールで表した2つのハイブリダイゼーションの平均比率を表す。X軸(Gen指標)は、ゲノム座標の指標である。図3Aは染色体5で同定されるコピー数変動を表し、図3Bは染色体8につき同定されたコピー数変動を表し、図3Cは染色体17につき同定されたコピー数変動を表し、図3DはX染色体につき同定されたコピー数変動を表す。 図3Aないし3Dは、正常参照と比較した、腫瘍細胞系SK−BR−3の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Y軸(平均比率)は、logスケールで表した2つのハイブリダイゼーションの平均比率を表す。X軸(Gen指標)は、ゲノム座標の指標である。図3Aは染色体5で同定されるコピー数変動を表し、図3Bは染色体8につき同定されたコピー数変動を表し、図3Cは染色体17につき同定されたコピー数変動を表し、図3DはX染色体につき同定されたコピー数変動を表す。 図3Aないし3Dは、正常参照と比較した、腫瘍細胞系SK−BR−3の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Y軸(平均比率)は、logスケールで表した2つのハイブリダイゼーションの平均比率を表す。X軸(Gen指標)は、ゲノム座標の指標である。図3Aは染色体5で同定されるコピー数変動を表し、図3Bは染色体8につき同定されたコピー数変動を表し、図3Cは染色体17につき同定されたコピー数変動を表し、図3DはX染色体につき同定されたコピー数変動を表す。 図3Aないし3Dは、正常参照と比較した、腫瘍細胞系SK−BR−3の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Y軸(平均比率)は、logスケールで表した2つのハイブリダイゼーションの平均比率を表す。X軸(Gen指標)は、ゲノム座標の指標である。図3Aは染色体5で同定されるコピー数変動を表し、図3Bは染色体8につき同定されたコピー数変動を表し、図3Cは染色体17につき同定されたコピー数変動を表し、図3DはX染色体につき同定されたコピー数変動を表す。 図4Aないし4Dは、正常参照(図4Aおよび図4B)およびCHTN159(図4Cおよび図4D)と比較したSK−BR−3の分析から計算された平均セグメント化を示す。図4Aないし4Dにおいて、Y軸はlogスケールでの各プローブについての平均セグメントの値である。図4Aおよび図4Cにおいて、X軸(平均セグメント指標)は、各々、それらの割り当てられた平均セグメントの上昇する値にてリストされる。図4Bおよび図4Dにおいて、X軸(Gen指標)はゲノム指標であり、これは、前記したように、全ゲノムの端と端をつなぐ。平均セグメントデータの頂部には、テキスト内の式を用いてアレイデータから外挿したコピー数格子がプロットされる(水平線)。各水平線についての計算されたコピー数は格子の右側にある。 図5Aないし5Dは、Y軸(平均比率SK−BR−3)上で、logスケールの正常な参照と比較したSK−BR−3の2つのハイブリダイゼーションの平均比率をグラフ化する。X軸(Gen指標)は、ゲノム指標である。図5Aは喪失の領域を持つX染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図5Bは、正常参照と比較した、SK−BR−3の結果からの染色体8(グラフの中央の右側に位置するc−myc)の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したSK−BR−3についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍CHTN159についてのセグメント化値がプロットされる。図5Cは染色体5上の病巣を示し、これは、10Kアレイと比較した85Kの解像力を示す。結果は、正常参照と比較したSK−BR−3からのものである。塗りつぶしていない丸印は10K印刷マイクロアレイからのものであり、塗りつぶした丸印は85K光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図5Dは、正常参照とのSK−BR−3の比較を示し、これは、染色体19上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。 図5Aないし5Dは、Y軸(平均比率SK−BR−3)上で、logスケールの正常な参照と比較したSK−BR−3の2つのハイブリダイゼーションの平均比率をグラフ化する。X軸(Gen指標)は、ゲノム指標である。図5Aは喪失の領域を持つX染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図5Bは、正常参照と比較した、SK−BR−3の結果からの染色体8(グラフの中央の右側に位置するc−myc)の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したSK−BR−3についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍CHTN159についてのセグメント化値がプロットされる。図5Cは染色体5上の病巣を示し、これは、10Kアレイと比較した85Kの解像力を示す。結果は、正常参照と比較したSK−BR−3からのものである。塗りつぶしていない丸印は10K印刷マイクロアレイからのものであり、塗りつぶした丸印は85K光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図5Dは、正常参照とのSK−BR−3の比較を示し、これは、染色体19上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。 図5Aないし5Dは、Y軸(平均比率SK−BR−3)上で、logスケールの正常な参照と比較したSK−BR−3の2つのハイブリダイゼーションの平均比率をグラフ化する。X軸(Gen指標)は、ゲノム指標である。図5Aは喪失の領域を持つX染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図5Bは、正常参照と比較した、SK−BR−3の結果からの染色体8(グラフの中央の右側に位置するc−myc)の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したSK−BR−3についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍CHTN159についてのセグメント化値がプロットされる。図5Cは染色体5上の病巣を示し、これは、10Kアレイと比較した85Kの解像力を示す。結果は、正常参照と比較したSK−BR−3からのものである。塗りつぶしていない丸印は10K印刷マイクロアレイからのものであり、塗りつぶした丸印は85K光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図5Dは、正常参照とのSK−BR−3の比較を示し、これは、染色体19上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。 図5Aないし5Dは、Y軸(平均比率SK−BR−3)上で、logスケールの正常な参照と比較したSK−BR−3の2つのハイブリダイゼーションの平均比率をグラフ化する。X軸(Gen指標)は、ゲノム指標である。図5Aは喪失の領域を持つX染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図5Bは、正常参照と比較した、SK−BR−3の結果からの染色体8(グラフの中央の右側に位置するc−myc)の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したSK−BR−3についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍CHTN159についてのセグメント化値がプロットされる。図5Cは染色体5上の病巣を示し、これは、10Kアレイと比較した85Kの解像力を示す。結果は、正常参照と比較したSK−BR−3からのものである。塗りつぶしていない丸印は10K印刷マイクロアレイからのものであり、塗りつぶした丸印は85K光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図5Dは、正常参照とのSK−BR−3の比較を示し、これは、染色体19上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。 図6Aないし6Dは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図2C2に提示されたのと同一な正常なものと比較した正常の結果を示す。図6Bは、染色体4からの小さな領域についての実験の系列的比較を示す。Y軸はlogスケールで表した平均比率である。X軸はゲノム指標である。塗りつぶした(85K)および塗りつぶしていない(10K)丸印は、SK−BR−3の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図6Cは、染色体6上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するSK−3−BR−3比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍(ジプロイドに対するCHTN159異数性)比較からのセグメント値である。図6Dは染色体2の領域を示す。丸の中に示されたデータは、SK−BR−3の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍CHTN159についての平均セグメント線は交差ハッチングで表す。図6Cおよび図6Dについては、水平線についての計算されたコピー数がパネルの右側に見出される。 図6Aないし6Dは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図2C2に提示されたのと同一な正常なものと比較した正常の結果を示す。図6Bは、染色体4からの小さな領域についての実験の系列的比較を示す。Y軸はlogスケールで表した平均比率である。X軸はゲノム指標である。塗りつぶした(85K)および塗りつぶしていない(10K)丸印は、SK−BR−3の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図6Cは、染色体6上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するSK−3−BR−3比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍(ジプロイドに対するCHTN159異数性)比較からのセグメント値である。図6Dは染色体2の領域を示す。丸の中に示されたデータは、SK−BR−3の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍CHTN159についての平均セグメント線は交差ハッチングで表す。図6Cおよび図6Dについては、水平線についての計算されたコピー数がパネルの右側に見出される。 図6Aないし6Dは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図2C2に提示されたのと同一な正常なものと比較した正常の結果を示す。図6Bは、染色体4からの小さな領域についての実験の系列的比較を示す。Y軸はlogスケールで表した平均比率である。X軸はゲノム指標である。塗りつぶした(85K)および塗りつぶしていない(10K)丸印は、SK−BR−3の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図6Cは、染色体6上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するSK−3−BR−3比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍(ジプロイドに対するCHTN159異数性)比較からのセグメント値である。図6Dは染色体2の領域を示す。丸の中に示されたデータは、SK−BR−3の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍CHTN159についての平均セグメント線は交差ハッチングで表す。図6Cおよび図6Dについては、水平線についての計算されたコピー数がパネルの右側に見出される。 図6Aないし6Dは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図2C2に提示されたのと同一な正常なものと比較した正常の結果を示す。図6Bは、染色体4からの小さな領域についての実験の系列的比較を示す。Y軸はlogスケールで表した平均比率である。X軸はゲノム指標である。塗りつぶした(85K)および塗りつぶしていない(10K)丸印は、SK−BR−3の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図6Cは、染色体6上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するSK−3−BR−3比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍(ジプロイドに対するCHTN159異数性)比較からのセグメント値である。図6Dは染色体2の領域を示す。丸の中に示されたデータは、SK−BR−3の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍CHTN159についての平均セグメント線は交差ハッチングで表す。図6Cおよび図6Dについては、水平線についての計算されたコピー数がパネルの右側に見出される。 図7は、本発明のある具体例による説明的システムのブロックダイアグラムを示す。 図8は、本発明のある具体例による正確な単語カウントを実行するための例示的前処理工程のフローチャートを示す。 図9Aおよび9Bは、本発明のある具体例による例示的単語カウンティングアルゴリズムのフローチャートを示す。 図9Aおよび9Bは、本発明のある具体例による例示的単語カウンティングアルゴリズムのフローチャートを示す。 図10Aおよび10Bは、本発明のある具体例による図9Aおよび9Bの単語カウンティングアルゴリズムの例示的例を示す。 図11は、本発明のある具体例によるゲノムの座標に対応する座標位置を有する例示的添数アレイを示す。 図12Aは、本発明のある具体例によるアルゴリズムの関係で用いる変数およびデータ構造のグラフ表示を示す。図12Bは、本発明のある具体例によるアルゴリズムの偽暗号表示を示す。

Claims (100)

  1. 複数の核酸分子であって、
    (a)該複数はNの核酸分子よりなり;
    (b)該複数の核酸分子の各々は、Z塩基対のゲノム中の配列に特異的にハイブリダイズするヌクレオチド配列を有し;および
    (c)該複数の核酸分子の少なくともP%は、
    (i)Kヌクレオチドの長さを有し;
    (ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムの複雑性のR%超を有し;および
    (iii)該ゲノムに対してLヌクレオチドのX以下の正確なマッチおよび該ゲノムに対してLヌクレオチドのY以上の正確なマッチを有し;かつ
    (A)N≧500;
    (B)Z≧1×10
    (C)300≧K≧30;
    (D)70≧R≧0.001;
    (E)P=(N×R+(3×シグマ))/N;
    (F)シグマは(N×R×(1−R))の平方根であり;
    (G)(log(Z)+2)に最も近い整数≧L≧log(Z)に最も近い整数;
    (H)XはD×(K−L+1)に最も近い整数であり;
    (I)YはD×(K−L+1)に最も近い整数であり;
    (J)1.5≧D≧1;および
    (K)1≧D≧0.5
    である該核酸分子。
  2. Nが少なくとも500;少なくとも1,000;少なくとも2,500;少なくとも5,000;少なくとも10,000;少なくとも25,000;少なくとも50,000;少なくとも85,000;少なくとも190,000;少なくとも350,000;および少なくとも550,000の核酸分子よりなる群から選択される請求項1記載の複数の核酸分子。
  3. Zが少なくとも3×10、少なくとも1×10、少なくとも1×1010および少なくとも1×1011よりなる群から選択される請求項1記載の複数の核酸分子。
  4. 前記ゲノムが哺乳動物ゲノムである請求項1記載の複数の核酸分子。
  5. 前記ゲノムがヒトゲノムである請求項4記載の複数の核酸分子。
  6. Rが0.001、1、2、4、10、15、20、30,40、50および70よりなる群から選択される請求項1記載の複数の核酸分子。
  7. Pが少なくとも70、少なくとも80、少なくとも90、少なくとも95、少なくとも97、および少なくとも99よりなる群から選択される請求項1記載の複数の核酸分子。
  8. が1である請求項1記載の複数の核酸分子。
  9. が1である請求項1記載の複数の核酸分子。
  10. が15、16、17、18、19、20、21、22、23および24よりなる群から選択される請求項1記載の複数の核酸分子。
  11. 前記複数の核酸分子の前記P%の各々が、さらに、前記ゲノムに対してLヌクレオチドのA以下の正確なマッチ、および該ゲノムに対してLヌクレオチドのB以上の正確なマッチを有し;および
    ここで、
    (a)L>L≧log(Z)−3に最も近い整数;
    (b)AはD×((K−L+1)×(Z/4 ))に最も近い整数であり;
    (c)BはD×((K−L+1)×(Z/4 ))に最も近い整数であり;
    (d)4≧D≧1;および
    (e)1>D≧0.5
    である請求項1記載の複数の核酸分子。
  12. ≦3、2または1.5である請求項11記載の複数の核酸分子。
  13. 前記複数の核酸分子の前記P%が、前記表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して、少なくとも91、92、93、94、95、96、97、98、99または100%の配列同一性を有する請求項1記載の複数の核酸分子。
  14. Kが40、50、60、70、80、90、100、110、120、140、160、180、200および250よりなる群から選択される請求項1記載の複数の核酸分子。
  15. 複数の核酸分子であって、
    (a)該複数は少なくとも100の核酸分子よりなり;
    (b)該複数の核酸分子の各々は少なくともZ塩基対のゲノム中の配列に少なくとも90%同一であるヌクレオチド配列を有し;および
    (c)該複数の核酸分子の少なくともP%は、
    (i)Kヌクレオチドの長さ;
    (ii)該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも90%配列同一性であって、該表示は該ゲノムの複雑性のR%以下を有する、配列同一性;および
    (iii)該表示に対してLヌクレオチドのX以下の正確なマッチ、および該表示に対してLヌクレオチドのY以上の正確なマッチ;
    を有し;および
    (A)Z≧1×10
    (B)300≧K≧30;
    (C)70≧R≧0.001;
    (D)P≧90−R;
    (E)(log((Z×R)/100)+2)に最も近い整数≧L≧log((Z×R)/100)に最も近い整数;
    (F)XはD×(K−L+1)に最も近い整数であり;
    (G)YはD×(K−L+1)に最も近い整数であり;
    (H)1.5≧D≧1;および
    (I)1>D≧0.5;
    である該複数の核酸分子。
  16. 少なくとも500;少なくとも1,000;少なくとも2,500;少なくとも5,000;少なくとも10,000;少なくとも25,000;少なくとも50,000;少なくとも85,000;少なくとも190,000;少なくとも350,000;または少なくとも550,000の核酸分子を含む請求項15記載の複数の核酸分子。
  17. Zが少なくとも3×10、少なくとも1×10、少なくとも1×1010および少なくとも1×1011よりなる群から選択される請求項15記載の複数の核酸分子。
  18. 前記ゲノムが哺乳動物ゲノムである請求項15記載の複数の核酸分子。
  19. 前記ゲノムがヒトゲノムである請求項18記載の複数の核酸分子。
  20. Rが0.001、1、2、4、10、15、20、30、40、50および70よりなる群から選択される請求項15記載の複数の核酸分子。
  21. Pが少なくとも70、少なくとも80、少なくとも90、少なくとも95、少なくとも97および少なくとも99よりなる群から選択される請求項15記載の複数の核酸分子。
  22. が1である請求項15記載の複数の核酸分子。
  23. が1である請求項15記載の複数の核酸分子。
  24. が15、16、17、18、19、20、21、22、23および24よりなる群から選択される請求項15記載の複数の核酸分子。
  25. 前記複数の核酸分子の前記P%の各々が、さらに、前記ゲノムに対してLヌクレオチドのA以下の正確なマッチ、および該ゲノムに対してLヌクレオチドのB以上の正確なマッチを有し;および
    (a)L>L≧log(Z)−3に最も近い整数;
    (b)AはD×((K−L+1)×(Z/4 ))に最も近い整数であり;
    (c)BはD×((K−L+1)×(Z/4 ))に最も近い整数であり;
    (d)4≧D≧1;および
    (e)1>D≧0.5;
    である請求項15記載の複数の核酸分子。
  26. 前記複数の核酸分子の前記P%が前記表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも91、92、93、94、95、96、97、98、99または100%の配列同一性を有する請求項15記載の複数の核酸分子。
  27. Kが40、50、60、70、80、90、100、110、120、140、160、180、200および250よりなる群から選択される請求項15記載の複数の核酸分子。
  28. 前記表示が前記ゲノムの配列特異的切断によって生じる請求項1記載の複数の核酸分子。
  29. 配列特異的切断が制限エンドヌクレアーゼによって達成される請求項28記載の複数の核酸分子。
  30. 前記表示が化合物表示である請求項1記載の複数の核酸分子。
  31. 前記複数の核酸分子が固相の表面に固定化された請求項1記載の複数の核酸分子。
  32. 前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項31記載の複数の核酸分子。
  33. 前記固相上の前記複数の核酸分子の位置が公知である請求項31記載の複数の核酸分子。
  34. 前記複数の核酸分子がマイクロアレイ上にある請求項33記載の複数の核酸分子。
  35. 前記複数の核酸分子がマイクロスフィアに固定化されている請求項33記載の複数の核酸分子。
  36. (a)請求項1記載の複数の核酸分子に試料をハイブリダイズさせ;次いで、
    (b)該複数の核酸分子のいずれに該試料がハイブリダイズするかを決定する;
    ことを包含する、核酸試料を分析する方法。
  37. 前記試料が表示である請求項36記載の方法。
  38. 前記複数の核酸分子が固相の表面に固定化された請求項36記載の方法。
  39. 前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項38記載の方法。
  40. 前記固相上の前記複数の核酸分子の位置が公知である請求項38記載の方法。
  41. 前記複数の核酸分子がマイクロアレイ上にある請求項40記載の方法。
  42. 前記複数の核酸分子がマイクロスフィアに固定化された請求項38記載の方法。
  43. 2つのゲノムの間のゲノム配列のコピー数変動を分析する方法であって、
    (a)第一のゲノムおよび第二のゲノムを供し;
    (b)少なくとも1つの同一制限酵素を用いて各ゲノムの検出可能に標識された表示を調製し;
    (c)該表示を請求項1または31記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とし;次いで、
    (d)該表示のハイブリダイゼーションのレベルを比較することを包含し、
    ここに、該レベルの差が、該メンバーによって標的とされるゲノム配列に関して2つのゲノムの間のコピー数変動を示す、該方法。
  44. 前記2つの表示が区別可能に標識された請求項43記載の方法。
  45. 前記表示を前記複数の核酸分子と同時に接触させる請求項44記載の方法。
  46. 2つのゲノムの間のゲノム配列のメチル化状態を比較する方法であって、
    (a)第一および第二のゲノムを提供する工程;
    (b)少なくとも1つの同一酵素を用いて各ゲノムの検出可能に標識された表示を調製し、ここで、該表示はメチル化感受性方法によって調製する工程;
    (c)該表示を請求項1または31記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とする工程;および
    (d)該表示のハイブリダイゼーションのレベルを比較する工程を包含する方法であって、
    ここで、該レベルの差は、該メンバーによって標的化されたゲノム配列に関して2つのゲノムの間のメチル化状態の差を示す、方法。
  47. 前記メチル化感受性方法が、第一の制限酵素を用いて第一の表示を、および第二の制限酵素を用いて第二の表示を調製する工程を包含し、ここで、該第一および第二の制限酵素は同一制限部位を認識するが、一方はメチル化感受性であって、他方はそうではない請求項46記載の方法。
  48. 前記メチル化感受性方法が、メチル化されたゲノムに由来する表示が非メチル化ゲノムに由来する表示と区別できるように、非メチル化感受性制限酵素で表示を作成した後に、メチル−C配列の化学的切断を含む請求項46記載の方法。
  49. (a)Kヌクレオチドの長さ;
    (b)少なくともZ塩基対のゲノムに由来する表示に存在する、または存在すると予測される少なくとも1つの核酸分子に対して少なくとも90%の配列同一性;および
    (c)該ゲノムに対してLヌクレオチドのX以下の正確なマッチ、および該ゲノムに対してLヌクレオチドのY以上の正確なマッチ;
    を有し、
    ここで、
    (i)Z≧1×10
    (ii)300≧K≧30;
    (iii)(log(Z)+2)に最も近い整数≧L≧log(Z)に最も近い整数;
    (iv)XはD×(K−L+1)に最も近い整数;
    (v)YはD×(K−L+1)に最も近い整数;
    (vi)1.5≧D≧1;および
    (vii)1>D≧0.5;
    であるオリゴヌクレオチドを同定する方法であって、
    (A)該ゲノムを制限酵素でin silico切断して、複数の予測された核酸分子を生じさせる工程、
    (B)各々が包括的に200ないし1,200塩基対の長さを有する予測された核酸分子を同定することによって該ゲノムの実質的表示を生じさせる工程;
    (C)包括的に30ないし300ヌクレオチドの長さ、および(B)における予測された核酸分子に対して少なくとも90%の配列同一性を有するオリゴヌクレオチドを選択する工程;
    (D)該オリゴヌクレオチドで起こるLヌクレオチドの全てのストレッチを同定する工程;および
    (E)該ゲノムで起こる該ストレッチの各々の回数の数が(c)の要件を満たすことを確認する工程、を包含する、方法。
  50. 工程(E)が:
    前記ゲノムの圧縮されたトランスフォームを提供する工程;
    該ゲノムに関連する情報を含む補助的データ構造を提供する工程;および
    該圧縮されたトランスフォームおよび補助的データ構造を用いてLヌクレオチドについての単語カウントを決定する工程、
    を包含する請求項49記載の方法。
  51. 工程(E)が:
    前記ゲノムの圧縮されたトランスフォームを提供する工程;
    最後のヌクレオチドで開始し、第一のヌクレオチドまで反復当たり1文字で進行して、Lヌクレオチドの前記ストレッチの各ヌクレオチドを通じて反復する工程であって、ここに、特定の反復に対応するヌクレオチドは指標ヌクレオチドとして貯蔵される、工程であって、該反復は、さらに:
    該トランスフォーム内の連続した範囲のヌクレオチドを示すサーチ領域を規定する工程;
    該サーチ範囲で起こる該指標ヌクレオチドに先行するヌクレオチドの回数の数をカウントする工程、を包含し;
    ここで、該指標ヌクレオチドに先行するヌクレオチドの出現が該サーチ範囲で起こらない場合、該反復を終了する;および
    ヌクレオチドの該ストレッチの第一のヌクレオチドがカウントされる回数の数を出力する工程であって、この数は該ゲノムで出現するLヌクレオチドの該ストレッチの回数の数と同等である、工程、
    を包含する請求項49記載の方法。
  52. 補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は:
    前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォーム中で出現した各ヌクレオチドのランニング合計を維持するK間隔データ構造;および
    速いルックアップアクセスを圧縮されたトランスフォームに提供する辞書カウントデータ構造を含み;
    ここに、前記カウントする工程および前記規定する工程は、該補助的データ構造および該圧縮されたトランスフォームを用いて行われる請求項51記載の方法。
  53. 該トランスフォームは該カウンティングが実行される間は圧縮されたままである請求項52記載の方法。
  54. 前記圧縮解除されたトランスフォーム中の3つの文字ごとに圧縮されてバイトを形成するように該圧縮されたトランスフォームが圧縮され、該カウンティングは該反復の1つの間にせいぜい1つのそのようなバイトを圧縮解除する請求項52記載の方法。
  55. 前記ゲノムが少なくとも30億文字を含む請求項51記載の方法。
  56. 前記圧縮されたトランスフォームが前記ゲノムのBurrows−Wheelerトランスフォームである請求項51記載の方法。
  57. 前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程は該データおよび前記標識ヌクレオチドを用いて前サーチ領域を規定する工程を包含する、請求項51記載の方法。
  58. さらに、
    前記トランスフォームに基づくデータを提供する工程;および
    先行ヌクレオチドカウントを決定する工程であって、該先行ヌクレオチドカウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標ヌクレオチドに先行するヌクレオチドの回数の数である、工程、
    を包含する方法であって、
    ここに、前記規定する工程は、該データ、該指標ヌクレオチド、および該先行ヌクレオチドカウントを用いて、該サーチ領域を規定する工程を包含する、請求項51記載の方法。
  59. 前記先行ヌクレオチドカウントが、K間隔を用いて得られ、該K間隔は前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームで出現した各ヌクレオチドのランニング合計を維持する、請求項58記載の方法。
  60. 各々が請求項49記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも500オリゴヌクレオチドを含む、オリゴヌクレオチド。
  61. 各々が請求項49記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも1,000オリゴヌクレオチド;少なくとも2,500オリゴヌクレオチド;少なくとも5,000オリゴヌクレオチド;少なくとも10,000オリゴヌクレオチド;少なくとも25,000オリゴヌクレオチド;少なくとも50,000オリゴヌクレオチド;少なくとも85,000オリゴヌクレオチド;少なくとも190,000オリゴヌクレオチド;少なくとも350,000オリゴヌクレオチド;または少なくとも550,000オリゴヌクレオチドを含む、オリゴヌクレオチド。
  62. ヌクレオチド配列を注釈するための方法であって、該ヌクレオチド配列は、文字のストリングを含み、該方法は:
    所定の長さの複数の単語に該ヌクレオチド配列を分割する工程であって、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である、工程;および
    該ヌクレオチド配列に出現する各単語の回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
    を包含する、方法。
  63. 前記単語が重複する、請求項62記載の方法。
  64. 前記決定する工程が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用する単語カウンティングアルゴリズムを用いて、各単語が該ヌクレオチド配列で何回起こるかをカウントする工程を包含する、請求項62記載の方法。
  65. 前記単語カウンティングアルゴリズムが:
    最後の文字で出発し、最初の文字まで反復当たり1つの文字にて進行して、該単語の1つの各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は、指標文字として貯蔵される、工程、
    を包含し、該反復する工程は、さらに:
    前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
    該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
    を包含する方法であって、
    ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程は終了する;および
    第一の文字がカウントされる回数の数を出力する工程であって、この数は該ヌクレオチド配列で出現する特定の単語の回数の数と同等である、工程、
    を包含する、請求項64記載の方法。
  66. 各単語で得られた単語カウントについて統計学的解析を行う工程をさらに包含する、請求項62記載の方法。
  67. 前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割する工程であって、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である、工程;および
    該ヌクレオチド配列に出現する該第二の複数の単語の各々の回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する工程、
    をさらに包含する、請求項62記載の方法。
  68. 前記ヌクレオチド配列がゲノムである、請求項62記載の方法。
  69. ヌクレオチド配列を注釈するためのシステムであって、該ヌクレオチド配列は文字のストリングを含み、該システムは:
    該ヌクレオチド配列を所定の長さの複数の単語に分割し、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である;および
    該ヌクレオチド配列で出現する各単語の回数をカウンティングすることによって、各単語につき単語カウントを決定する;
    ように設定されたユーザー機器を備える、システム。
  70. 前記単語が重複する、請求項69記載のシステム。
  71. 前記ユーザー機器が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用して、各単語が該ヌクレオチド配列で起こる回数をカウントする単語カウンティングアルゴリズムを用いるように設定された、請求項69記載の方法。
  72. 前記ユーザー機器が、さらに:
    最後の文字で出発し、反復当たり1文字にて最初の文字まで進行するように、前記単語の1つの各文字を通じて反復し、ここに、特定の反復に対応する文字は、指標文字として貯蔵されるように設定され、該ユーザー機器は、さらに:
    前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
    該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程;および
    該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、反復を終了する工程、
    を反復することによって反復するように設定され;そして、
    第一の文字がカウントされる回数の数を出力するように設定され、この数は特定の単語が前記ヌクレオチド配列で出現する回数の数と同等である、請求項71記載のシステム。
  73. 前記ユーザー機器が、各単語につき得られた単語カウントについて統計学的解析を行うように設定された、請求項69記載のシステム。
  74. 前記ユーザー機器が:
    前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割し、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である;および
    該第二の複数の単語の各々が、該ヌクレオチド配列で出現する回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する;
    ように設定された、請求項69記載のシステム。
  75. 該ヌクレオチド配列がゲノムである、請求項69記載のシステム。
  76. ヌクレオチド配列の望まない領域への交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するための方法であって、該方法は、以下:
    該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する工程;
    各ヌクレオチドに対して統計学的データを生じさせる工程;および
    該ポリヌクレオチドのいずれの1つが、所定の基準を最良に満足する統計学的データを有するかを決定する工程、
    を包含する、方法。
  77. 前記生じさせる工程が、
    各ポリヌクレオチドを所定の長さの複数の単語に分割する工程であって、各単語は該所定の長さを有するポリヌクレオチドのサブ領域である、工程;および
    各単語が該ヌクレオチド配列で出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
    を包含する、請求項76記載の方法。
  78. 前記統計学的データが、各ポリヌクレオチドの構成単語が、前記ヌクレオチド配列で出現する回数の数を表す、請求項76記載の方法。
  79. 前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項76記載の方法。
  80. 前記選択する工程が、
    前記ヌクレオチド配列で起こる特定長さを有する特定の単語の単語カウントを生じさせる工程;および
    前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る工程、
    を包含する、請求項76記載の方法。
  81. ヌクレオチド配列の望まない領域へ交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するためのシステムであって、前記方法は、
    該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する;
    各ポリヌクレオチドに対して統計学的データを生じさせる;および
    該ポリヌクレオチドのいずれの1つが、所定の基準を最良に満足する統計学的データを有するかを決定する;
    ように設定されたユーザー機器を含む、システム。
  82. 前記ユーザー機器が:
    各ポリヌクレオチドを所定の長さの複数の単語に分割し、各単語は、該所定の長さを有するポリヌクレオチドのサブ領域である;および
    各単語が前記ヌクレオチド配列に出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する;
    ように設定された、請求項81記載のシステム。
  83. 前記統計学的データが、各ポリヌクレオチドの構成単語が前記ヌクレオチド配列で出現する回数の数を表す、請求項81記載のシステム。
  84. 前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項81記載のシステム。
  85. 前記ユーザー機器が:
    前記ヌクレオチド配列で起こる特定の長さを有する特定の単語の単語カウントを生じさせる;および
    前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る;
    ように設定された、請求項81記載のシステム。
  86. ゲノムで起こる単語の回数の数をカウントするための方法であって、ここに、該単語は文字のストリングを含み、該方法は:
    該ゲノムの圧縮されたトランスフォームを提供する工程;
    最後の文字で出発し、反復当たり1文字にて第一の文字まで進行させて、該単語の各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は指標文字として貯蔵される、工程、
    を包含し、該反復する工程は、さらに:
    該トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程;
    該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
    を包含する、反復する工程であって、
    ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程を終了する;ならびに
    該単語の第一の文字の回数の数を出力する工程であって、この数は該ゲノムで出現する該単語の回数の数と同等である、工程、
    を包含する、方法。
  87. 補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は:
    前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現する各文字のランニング合計を維持するK間隔データ構造;および
    該圧縮されたトランスフォームへの速ルックアップアクセスを提供する辞書カウントデータ構造、を含み、
    ここに、該カウンティングは、少なくとも該K間隔データ構造および該辞書カウントデータ構造を用いて行われる、請求項86記載の方法。
  88. 前記トランスフォームが、前記カウンティングが行われている間、圧縮されたままである、請求項87記載の方法。
  89. 前記圧縮されたトランスフォームは、圧縮解除されたトランスフォームにおける3文字ごとに圧縮されてバイトを形成するように圧縮され、前記カウンティングは、前記反復の1つの間に、1つのそのようなバイトを圧縮解除する、請求項87記載の方法。
  90. 前記ゲノムの圧縮されたトランスフォームが、3対1の圧縮比率を用いて誘導される、請求項86記載の方法。
  91. 前記ゲノムが少なくとも100万の文字を含む、請求項86記載の方法。
  92. 前記ゲノムが少なくとも400万の文字を含む、請求項86記載の方法。
  93. 前記ゲノムが少なくとも1億の文字を含む、請求項86記載の方法。
  94. 前記ゲノムが少なくとも30億の文字を含む、請求項86記載の方法。
  95. 前記単語が少なくとも15の文字を含む、請求項86記載の方法。
  96. 前記圧縮されたトランスフォームがゲノムのBurrows−Wheelerトランスフォームである、請求項86記載の方法。
  97. 前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程が、該データおよび前記指標文字を用いて、前記サーチ領域を規定する工程を包含する、請求項86記載の方法。
  98. 該トランスフォームに基づくデータを提供する工程;および
    先行文字カウントを決定する工程であって、該先行文字カウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標文字に先行する文字の回数の数である工程、をさらに包含し、
    ここに、前記規定する工程が、該データ、該指標文字、および該先行文字カウントを用いて、該サーチ領域を規定する工程を包含する、請求項86記載の方法。
  99. 前記先行文字カウントが、K間隔を用いて得られ、該K間隔が前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現した各文字のランニング合計を維持する、請求項98記載の方法。
  100. 請求項86〜99記載の方法を実行するように設定されたユーザー機器を含む、システム。
JP2006514923A 2003-05-23 2004-05-21 ヌクレオチド配列の実質的表示 Pending JP2006525814A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US47284503P 2003-05-23 2003-05-23
US47284303P 2003-05-23 2003-05-23
PCT/US2004/016060 WO2005035792A2 (en) 2003-05-23 2004-05-21 Counting exact word matches in genomes

Publications (2)

Publication Number Publication Date
JP2006525814A true JP2006525814A (ja) 2006-11-16
JP2006525814A5 JP2006525814A5 (ja) 2007-06-14

Family

ID=34437245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006514923A Pending JP2006525814A (ja) 2003-05-23 2004-05-21 ヌクレオチド配列の実質的表示

Country Status (13)

Country Link
US (1) US8694263B2 (ja)
EP (1) EP1631690A2 (ja)
JP (1) JP2006525814A (ja)
KR (1) KR20060103813A (ja)
AU (1) AU2004280531B2 (ja)
BR (1) BRPI0410636A (ja)
CA (1) CA2526810A1 (ja)
GE (1) GEP20125384B (ja)
IL (1) IL172093A0 (ja)
NO (1) NO20056160L (ja)
NZ (1) NZ544235A (ja)
RU (1) RU2390561C2 (ja)
WO (1) WO2005035792A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011521636A (ja) * 2008-05-27 2011-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オリゴヌクレオチド・アレイの設計に関する方法
WO2012033961A2 (en) * 2010-09-09 2012-03-15 Abbott Laboratories Systems and methods for displaying molecular probes and chromosomes

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521754A (ja) 1997-10-30 2001-11-13 コールド スプリング ハーバー ラボラトリー Dna識別のためのプローブアレイ及びプローブアレイの使用方法
US20090124514A1 (en) * 2003-02-26 2009-05-14 Perlegen Sciences, Inc. Selection probe amplification
US20060183132A1 (en) * 2005-02-14 2006-08-17 Perlegen Sciences, Inc. Selection probe amplification
JP2006525814A (ja) 2003-05-23 2006-11-16 コールド スプリング ハーバー ラボラトリー ヌクレオチド配列の実質的表示
US7932027B2 (en) * 2005-02-16 2011-04-26 Epigenomics Ag Method for determining the methylation pattern of a polynucleic acid
WO2006088978A1 (en) * 2005-02-16 2006-08-24 Epigenomics, Inc. Method for determining the methylation pattern of a polynucleic acid
US8554488B2 (en) 2005-12-14 2013-10-08 Cold Spring Harbor Laboratory Determining a probabilistic diagnosis of autism by analysis of genomic copy number variations
WO2007070640A2 (en) * 2005-12-14 2007-06-21 Wigler Michael H Use of roma for characterizing genomic rearrangements
US10522240B2 (en) 2006-05-03 2019-12-31 Population Bio, Inc. Evaluating genetic disorders
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
AU2010242073C1 (en) 2009-04-30 2015-12-24 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
US9677139B2 (en) 2009-12-11 2017-06-13 Cold Spring Harbor Laboratory Genetic markers indicative of a cancer patient response to trastuzumab (herceptin)
CA2795815C (en) 2010-04-23 2018-06-26 Cold Spring Harbor Laboratory Novel structurally designed shrnas
US8423590B2 (en) * 2010-05-30 2013-04-16 International Business Machines Corporation File generation for testing single-instance storage algorithm
CN103392182B (zh) 2010-08-02 2017-07-04 众有生物有限公司 用于发现遗传疾病中致病突变的系统和方法
HUE039766T2 (hu) 2010-10-22 2019-02-28 Cold Spring Harbor Laboratory Nukleinsavak változatainak megszámlálása genom kópiaszám információ megszerzésére
US20120102054A1 (en) * 2010-10-25 2012-04-26 Life Technologies Corporation Systems and Methods for Annotating Biomolecule Data
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
RU2486251C2 (ru) * 2011-08-25 2013-06-27 Учреждение Российской академии наук Институт биохимии им. А.Н. Баха РАН (ИНБИ РАН) Способ идентификации и дифференциации прокариотических организмов
US10221454B2 (en) 2011-10-10 2019-03-05 The Hospital For Sick Children Methods and compositions for screening and treating developmental disorders
EP2766838A2 (en) * 2011-10-11 2014-08-20 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
CA2852665A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
US9773091B2 (en) 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
EP2773779B1 (en) 2011-11-04 2020-10-14 Population Bio, Inc. Methods and compositions for diagnosing, prognosing, and treating neurological conditions
DK2812452T3 (da) 2012-02-09 2020-06-29 Population Bio Inc Fremgangsmåder og sammensætninger til screening og behandling af udviklingsforstyrrelser
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
DK2895621T3 (da) 2012-09-14 2020-11-30 Population Bio Inc Fremgangsmåder og sammensætning til diagnosticering, prognose og behandling af neurologiske tilstande
CA2922005A1 (en) 2012-09-27 2014-04-03 Population Diagnostics, Inc. Methods and compositions for screening and treating developmental disorders
WO2014152421A1 (en) 2013-03-14 2014-09-25 Good Start Genetics, Inc. Methods for analyzing nucleic acids
CA2942811A1 (en) 2013-03-15 2014-09-25 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US9418203B2 (en) 2013-03-15 2016-08-16 Cypher Genomics, Inc. Systems and methods for genomic variant annotation
US11342048B2 (en) 2013-03-15 2022-05-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US8847799B1 (en) 2013-06-03 2014-09-30 Good Start Genetics, Inc. Methods and systems for storing sequence read data
WO2015057565A1 (en) 2013-10-18 2015-04-23 Good Start Genetics, Inc. Methods for assessing a genomic region of a subject
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
WO2015175530A1 (en) 2014-05-12 2015-11-19 Gore Athurva Methods for detecting aneuploidy
CA2996445A1 (en) 2014-09-05 2016-03-10 Eli Hatchwell Methods and compositions for inhibiting and treating neurological conditions
WO2016040446A1 (en) 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
EP3224595A4 (en) 2014-09-24 2018-06-13 Good Start Genetics, Inc. Process control for increased robustness of genetic assays
EP3240909B1 (en) 2014-10-17 2020-10-14 Good Start Genetics, Inc. Pre-implantation genetic screening and aneuploidy detection
US10066259B2 (en) 2015-01-06 2018-09-04 Good Start Genetics, Inc. Screening for structural variants
US20160273049A1 (en) 2015-03-16 2016-09-22 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
CN108474028A (zh) * 2015-11-16 2018-08-31 雷瑞生物传感器有限责任公司 鉴别并区分遗传样品的系统及方法
CN106021986B (zh) * 2016-05-24 2019-04-09 人和未来生物科技(长沙)有限公司 超低频突变分子一致性序列简并算法
US10240205B2 (en) 2017-02-03 2019-03-26 Population Bio, Inc. Methods for assessing risk of developing a viral disease using a genetic test
US11939638B2 (en) 2017-05-09 2024-03-26 Revere Biosensors, Llc Systems and methods for identifying and distinguishing genetic samples
US10892037B2 (en) * 2017-05-16 2021-01-12 Life Technologies Corporation Methods for compression of molecular tagged nucleic acid sequence data
CN109390039B (zh) * 2017-08-11 2020-10-16 深圳华大基因股份有限公司 一种统计dna拷贝数信息的方法、装置及存储介质
EP4177356A1 (en) 2018-08-08 2023-05-10 PML Screening, LLC Methods for assessing risk of developing a viral disease using a genetic test

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721098A (en) 1986-01-16 1998-02-24 The Regents Of The University Of California Comparative genomic hybridization
US5573933A (en) 1987-04-14 1996-11-12 Luminis Pty, Ltd. Transgenic pigs
GB8810400D0 (en) 1988-05-03 1988-06-08 Southern E Analysing polynucleotide sequences
US5800992A (en) * 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
JP2802125B2 (ja) 1989-06-23 1998-09-24 キヤノン株式会社 核酸の検出方法
US6013431A (en) 1990-02-16 2000-01-11 Molecular Tool, Inc. Method for determining specific nucleotide variations by primer extension in the presence of mixture of labeled nucleotides and terminators
US5474796A (en) 1991-09-04 1995-12-12 Protogene Laboratories, Inc. Method and apparatus for conducting an array of chemical reactions on a support surface
IL103267A (en) 1991-09-24 2004-07-25 Keygene Nv Process and kit for amplification of restriction fragment obtained from starting dna
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
ES2161715T3 (es) 1992-03-04 2001-12-16 Univ California Hibridacion genomica comparativa (hgc).
US6277606B1 (en) 1993-11-09 2001-08-21 Cold Spring Harbor Laboratory Representational approach to DNA analysis
US5436142A (en) 1992-11-12 1995-07-25 Cold Spring Harbor Laboratory Methods for producing probes capable of distingushing variant genomic sequences
US20040197774A1 (en) 1992-11-12 2004-10-07 Michael Wigler Representational approach to DNA analysis
US6153379A (en) 1993-06-22 2000-11-28 Baylor College Of Medicine Parallel primer extension approach to nucleic acid sequence analysis
US5710000A (en) 1994-09-16 1998-01-20 Affymetrix, Inc. Capturing sequences adjacent to Type-IIs restriction sites for genomic library mapping
US5830645A (en) 1994-12-09 1998-11-03 The Regents Of The University Of California Comparative fluorescence hybridization to nucleic acid arrays
US5569753A (en) 1994-12-20 1996-10-29 Cold Spring Harbor Laboratory Cancer detection probes
US6350576B1 (en) 1994-12-20 2002-02-26 Cold Spring Harbor Laboratory Cancer detection probes
EP0721987A1 (en) 1995-01-16 1996-07-17 Keygene N.V. Amplification of simple sequence repeats
US5871917A (en) 1996-05-31 1999-02-16 North Shore University Hospital Research Corp. Identification of differentially methylated and mutated nucleic acids
US6119120A (en) 1996-06-28 2000-09-12 Microsoft Corporation Computer implemented methods for constructing a compressed data structure from a data string and for using the data structure to find data patterns in the data string
US5858671A (en) 1996-11-01 1999-01-12 The University Of Iowa Research Foundation Iterative and regenerative DNA sequencing method
AUPO427996A0 (en) 1996-12-20 1997-01-23 Co-Operative Research Centre For Diagnostic Technologies Method for detecting a nucleotide at a specific location within a polynucleotide sequence and apparatus therefor
WO1998030721A1 (en) 1997-01-10 1998-07-16 Pioneer Hi-Bred International, Inc. Hybridization-based genetic amplification and analysis
AU729134B2 (en) 1997-07-22 2001-01-25 Qiagen Genomics, Inc. Amplification and other enzymatic reactions performed on nucleic acid arrays
JP2001521754A (ja) 1997-10-30 2001-11-13 コールド スプリング ハーバー ラボラトリー Dna識別のためのプローブアレイ及びプローブアレイの使用方法
AU1603199A (en) * 1997-12-03 1999-06-16 Curagen Corporation Methods and devices for measuring differential gene expression
JP2002501760A (ja) 1998-02-02 2002-01-22 アマーシャム・ファルマシア・バイオテック・アクチボラグ 核酸解析方法
US6287825B1 (en) 1998-09-18 2001-09-11 Molecular Staging Inc. Methods for reducing the complexity of DNA sequences
EP1124990B1 (en) 1998-10-27 2006-01-18 Affymetrix, Inc. Complexity management and analysis of genomic dna
US6313126B1 (en) 1999-01-07 2001-11-06 American Home Products Corp Arylpiperazinyl-cyclohexyl indole derivatives for the treatment of depression
US6465182B1 (en) * 1999-04-29 2002-10-15 The Regents Of The University Of California Comparative fluorescence hybridization to oligonucleotide microarrays
US20020048763A1 (en) * 2000-02-04 2002-04-25 Penn Sharron Gaynor Human genome-derived single exon nucleic acid probes useful for gene expression analysis
AU2001257448A1 (en) 2000-05-01 2001-11-12 Cold Spring Harbor Laboratory Use of representations of dna for genetic analysis
US7117095B2 (en) * 2000-11-21 2006-10-03 Affymetrix, Inc. Methods for selecting nucleic acid probes
JP2006525814A (ja) 2003-05-23 2006-11-16 コールド スプリング ハーバー ラボラトリー ヌクレオチド配列の実質的表示
JP2005249455A (ja) * 2004-03-02 2005-09-15 Hitachi Ltd 予測方法、そのプログラム及び予測システム
US8554488B2 (en) 2005-12-14 2013-10-08 Cold Spring Harbor Laboratory Determining a probabilistic diagnosis of autism by analysis of genomic copy number variations
WO2007070640A2 (en) 2005-12-14 2007-06-21 Wigler Michael H Use of roma for characterizing genomic rearrangements

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6010027401, BIOINFOMATICS, 17[11](2001) p.1067−1076 *
JPN6010027402, Genome Research, 11[8](2001) p.1418−1424 *
JPN6010027403, Information Sciences, 135(2001) p.13−28 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011521636A (ja) * 2008-05-27 2011-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オリゴヌクレオチド・アレイの設計に関する方法
WO2012033961A2 (en) * 2010-09-09 2012-03-15 Abbott Laboratories Systems and methods for displaying molecular probes and chromosomes
WO2012033961A3 (en) * 2010-09-09 2012-05-31 Abbott Laboratories Systems and methods for displaying molecular probes and chromosomes

Also Published As

Publication number Publication date
CA2526810A1 (en) 2005-04-21
GEP20125384B (en) 2012-01-25
RU2005140278A (ru) 2006-06-27
AU2004280531A1 (en) 2005-04-21
IL172093A0 (en) 2009-02-11
AU2004280531B2 (en) 2010-03-25
WO2005035792A2 (en) 2005-04-21
US20050032095A1 (en) 2005-02-10
NO20056160L (no) 2006-02-23
EP1631690A2 (en) 2006-03-08
NZ544235A (en) 2009-12-24
US8694263B2 (en) 2014-04-08
BRPI0410636A (pt) 2006-07-18
RU2390561C2 (ru) 2010-05-27
WO2005035792A3 (en) 2006-03-09
KR20060103813A (ko) 2006-10-04

Similar Documents

Publication Publication Date Title
JP2006525814A (ja) ヌクレオチド配列の実質的表示
EP1124990B1 (en) Complexity management and analysis of genomic dna
US20190153535A1 (en) Varietal counting of nucleic acids for obtaining genomic copy number information
US8685642B2 (en) Allele-specific copy number measurement using single nucleotide polymorphism and DNA arrays
AU753505B2 (en) Probe arrays and methods of using probe arrays for distinguishing DNA
US20140243229A1 (en) Methods and products related to genotyping and dna analysis
AU6344498A (en) Contiguous genomic sequence scanning
JP2002525127A (ja) 遺伝子型決定およびdna分析に関する、方法および生成物
JP2004504059A (ja) 転写された遺伝子を分析、及び同定するための方法、及びフインガープリント法
US20020029113A1 (en) Method and system for predicting splice variant from DNA chip expression data
WO1999058721A1 (en) Multiplex dna amplification using chimeric primers
US10190155B2 (en) Molecular tag attachment and transfer
MXPA05012638A (en) Virtual representations of nucleotide sequences
WO2001083822A2 (en) Use of representations of dna for genetic analysis
Edwards et al. Mutation and polymorphism detection: a technical overview
Wigler et al. High Resolution Analysis of Copy Number Mutation in Breast Cancer
CN1829805A (zh) 核苷酸序列的虚拟代表
Edwards et al. Mutation and Polymorphism Detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100817

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100817

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111220