JP2006525814A

JP2006525814A - ヌクレオチド配列の実質的表示

Info

Publication number: JP2006525814A
Application number: JP2006514923A
Authority: JP
Inventors: マイケルエイチ．ワイグラー，; ジョンヒーリー，; ローベルトルーサイト，
Original assignee: コールドスプリングハーバーラボラトリー
Priority date: 2003-05-23
Filing date: 2004-05-21
Publication date: 2006-11-16
Also published as: CA2526810A1; GEP20125384B; RU2005140278A; AU2004280531A1; IL172093A0; AU2004280531B2; WO2005035792A2; US20050032095A1; NO20056160L; EP1631690A2; NZ544235A; US8694263B2; BRPI0410636A; RU2390561C2; WO2005035792A3; KR20060103813A

Abstract

本発明は、核酸配列の表示にハイブリダイズするのに用いることができるオリゴヌクレオチドプローブを提供する。マイクロアレイのような該プローブを含有する組成物を提供する。本発明は、治療、診断および研究適用におけるこれらのプローブおよび組成物を使用する方法も提供する。ヌクレオチド配列（例えば、ゲノム）に出現する文字の特定のストリング（すなわち、ヌクレオチド）の回数の数を迅速かつ正確にカウントできる単語カウンティングアルゴリズムを使用するシステムおよび方法を提供する。このアルゴリズムを用いて、本発明のオリゴヌクレオチドプローブを同定することができる。該アルゴリズムは、ゲノム中で起こる特定の単語の回数の数をカウントするためにゲノムのトランスフォームおよび補助的データ構造を用いる。

Description

（発明の分野）
本発明は、一般には、分子生物学に関する。さらに詳しくは、本発明は、与えられた源ＤＮＡ（例えば、ゲノム）の表示であるヌクレオチド配列を生じさせるための材料および方法に関する。

（発明の背景）
ゲノム分析のための全体的な方法は、癌および遺伝子成分に関する他の病気または疾患の病理生理学に対する有用な洞察を提供してきた。そのような方法は核型分析、倍数性の決定、比較ゲノムバイブリダイゼーション（ＣＧＨ）、表示差分析（ＲＤＡ）（例えば、米国特許第５，４３６，１４２）号、およびゲノム表示の分析（１９９９年５月１４日に公開されたＷＯ９９／２３２５６）を含む。一般に、これらの方法は、特定の遺伝子の発現を問い合わせるためにプローブを用いること、またはゲノムそれ自体の変化を調べることいずれかを含む。

オリゴヌクレオチドアレイを用い、これらの方法を用いて、細胞の遺伝子変化の高分解能全体像を得ることができる。しかしながら、これらの方法は、特定のプローブの配列の知識を要する。これは、特に、ｃＤＮＡアレイに対する限定となる。なぜならば、そのようなアレイは遺伝子の限定された組を問い合わせるに過ぎないからである。それらは、ゲノム幅スクリーニングに対する限定でもある。なぜならば、アレイについて設計された多くのオリゴヌクレオチドは問い合わされた集団において表示されないかも知れず、その結果、不十分または非効率的な分析がもたらされる。

（発明の要旨）
本発明は、核酸分子の集団を問い合わせるのに有用な組成物および方法を提供する。これらの組成物および方法を用いて、所望により、マイクロアレイ技術と組み合わせて、複雑なゲノム（例えば、哺乳動物ゲノム）で分析することができる。本発明は、複数の少なくとも１００の核酸分子をその要旨とし、（Ａ）ここに、（ａ）核酸分子の各々は少なくともＺの塩基対のゲノム中の配列に特異的にハイブリダイズし；および（ｂ）該複数の核酸分子の少なくともＰ％は（ｉ）少なくともＫのヌクレオチドの長さを有し；（ｉｉ）該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも１つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムのＲ％以下の複雑性を有し；および（ｉｉｉ）該ゲノム（または該表示）に対してＬ１ヌクレオチドのＸ以下の正確なマッチおよび該ゲノム（または該表示）に対してＬ１ヌクレオチドのＹ以上の正確なマッチを有し；および（Ｂ）（ここに、（ａ）Ｚ≧１×１０^８；（ｂ）３００≧Ｋ≧３０；（ｃ）７０≧Ｒ≧０．００１；（ｄ）Ｐ≧９０−Ｒ；（ｅ）（ｌｏｇ_４（Ｚ）＋２）に最も近い整数≧Ｌ_１≧ｌｏｇ_４（Ｚ）に最も近い整数；（ｆ）ＸはＤ１×（Ｋ−Ｌ_１＋１）に最も近い整数であり；（ｇ）ＹはＤ２×（Ｋ−Ｌ_１＋１）に最も近い整数であり；（ｈ）１．５≧Ｄ_１≧１；および（ｉ）１＞Ｄ_２≧０．５。

いくつかの更なる具体例において、（１）該複数の核酸分子は少なくとも５００；１，０００；２，５００；５，０００；１０，０００；２５，０００；５０，０００；８５，０００；１９０，０００；３５０，０００；または５５０，０００ヌクレオチド分子を含み；（２）Ｚは少なくとも３×１０^８、１×１０^９、１×１０^１０または１×１０^１１であり；（３）Ｒは０．００１、１、２、４、１０、１５、２０、３０、４０、５０または７０であり；（４）ＰはＲから独立していて、少なくとも７０、８０、９０、９５、９７または９９であり；（５）Ｄ１は１であり；（６）Ｌ１は１５、１６、１７、１８、１９、２０、２１、２２、２３または２４であり；（７）Ｐは９１、９２、９３、９４、９５、９６、９７、９８、９９または１００であり；および／または（８）Ｋは４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１４０，１６０，１８０，２００または２５０である。いくつかの具体例において、もう１つの核酸分子に特異的にハイブリダイズする核酸分子は他の核酸分子における同一長さの配列に対して少なくとも９０％配列同一性を有する。さらなる具体例において、それは少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、または１００％配列同一性を有する。

いくつかのさらなる具体例において、該複数の核酸分子の該Ｐ％の各々は、該ゲノムに対してＬ２ヌクレオチドのＡ以下の正確なマッチ、および該ゲノムに対してＬ２ヌクレオチドのＢ以上の正確なマッチをさらに有し、ここに、（ａ）Ｌ_１＞Ｌ_２≧ｌｏｇ_４（Ｚ）−３に最も近い整数、（ｂ）ＡはＤ_３×（（Ｋ−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））；に最も近い整数であり；（ｃ）ＢはＤ_４×（（Ｋ）−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））に最も近い整数であり；（ｄ）４≧Ｄ_３≧１；および（ｅ）１＞Ｄ_４≧０．５。

ＤＮＡ集団の表示は、例えば、制限エンドヌクレアーゼで達成された該ゲノムの配列特異的切断によって生じさせることができる。それは、もう１つの表示に由来することもできる。すなわち、得られた表示は化合物の表示である。

本発明の核酸分子は：（ａ）該ゲノムを制限酵素でｉｎｓｉｌｉｃｏ切断して、複数の予測された核酸分子を創製し；（ｂ）包括的に２００ないし１，２００塩基対の長さを各々が有する予測された核酸分子を同定することによって該ゲノムの実質的表示を創製し、該実質的表示は該ゲノムの包括的に０．００１％ないし７０％の複雑性を有し；（ｃ）包括的に３０ないし３００ヌクレオチドの長さ、および（ｂ）における予測された核酸分子に対して少なくとも９０％の配列同一性を有するオリゴヌクレオチドを選択し；（ｄ）該ゲノムに対して該実質的表示の複雑性を計算し；（ｅ）該オリゴヌクレオチドで起こるＬ１ヌクレオチドのストレッチの全てを同定し；次いで（ｆ）該ゲノム中で起こる該ストレッチの各々の回数の数が種々の所定の要件を満足することを確認することを含む方法によって同定することができる。

本発明の核酸分子は、試料ＤＮＡを分析するためのプローブとして用いることができる。これらのプローブは、半固体表面を含めた固相の表面に固定化することができる。固相は、限定されるものではないが、ナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィア（例えば、常磁性マイクロビーズ）を含む。いくつかの具体例において、該固相上の核酸分子は、例えば、マイクロアレイフォーマットで用いるものとして公知である。また、本発明は、核酸試料（例えば、ゲノム表示）を分析する方法をその要旨とし、該方法は（ａ）試料を本発明の核酸プローブにハイブリダイズさせ；次いで、（ｂ）該複数の核酸分子のいずれに該試料がハイブリダイズするかを判断することを含む。

また、本発明は、２つのゲノムの間のゲノム配列のコピー数の変動を分析する方法を要旨とし、該方法は（ａ）２つの検出可能に標識された表示を供し、各々は、少なくとも１つの同一制限酵素で各ゲノムから調製し；（ｂ）これらの２つの表示を本発明の核酸プローブと接触させて、該表示およびプローブの間のハイブリダイゼーションを可能とし；（ｃ）プローブ組に対する２つの表示のハイブリダイゼーションレベルを分析し、ここに、該プローブ組のメンバーに対する該レベルの差は、該メンバーによって標的化されたゲノム配列に関して２つのゲノムの間のコピー数の変動を示す；ことを含む。いくつかの具体例において、該表示は識別可能に標識され；および／または２つの表示の接触は同時である。

本発明は、さらに、２つのゲノムの間でゲノム配列のメチル化状態を比較する方法をその要旨とし、該方法は各ゲノムからの２つの検出可能に標識された表示を供することを含み、各表示はメチル化感受性方法によって調製される。例えば、第一のゲノムの第一の表示は、第一の制限酵素を用いて調製され、第二のゲノムの第二の表示は第二の制限酵素を用いて調製され、ここに、該第一および第二の制限酵素は同一の制限部位を認識するが、１つはメチル化感受性であって、他方はそうではない。メチルＣを持つ配列は、メチル化ゲノムに表示が非メチル化ゲノムに由来する表示とは区別できるように、非メチル化感受性制限酵素で表示を作成した後に化学的に切断することもできる。次いで、２つの表示を本発明のプローブと接触させて、該表示およびプローブの間のハイブリダイゼーションを可能とする。次いで、２つの表示のプローブへのハイブリダイゼーションを分析し、ここに、特定のプローブに関して表示の間のハイブリダイゼーションレベルの差は、該プローブによって標的化されるゲノム配列に関して２つのゲノムの間のメチル化状態の差を示す。

同様な方法を用いて、後にさらに説明するように、複雑なゲノムの多形を分析することもできる。

本発明のある具体例によると、ゲノム中で起こる単語の回数の数を正確かつ効果的に検出し、カウントするためのアルゴリズムが提供される。本明細書中ではサーチエンジンまたはマーエンジンと時々は言うこのアルゴリズムはゲノムのトランスフォーム（例えば、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォーム）および補助的データ構造を用いて、ゲノムで起こる特定の単語の回数の数をカウントする。「単語」とは、規定された長さのヌクレオチド配列をいう。

一般に、該エンジンは、まず単語の最後の文字を見出すことによって特定の単語をサーチする。次いで、それは、最後の文字に直ぐに先行する文字を探すように進行する。もし最初の直ちに先行する文字が見出されれば、それは、次いで、該単語の最後の文字に対して第二に直ぐに先行する文字を探し、単語が見出されるまでそのようにする。もしさらなる先行文字が見出さなければ、該単語はゲノムに存在しないと結論されるであろう。もし該単語の最初の文字が見出されれば、次いで、それが起こる回数の数はその特定の単語の単語カウントである。

この特定のアルゴリズムは有利である。なぜならば、それを用いて、後に考察するように、ゲノム研究を含むいくつかの実際的な適用を実行することができるからである。

本発明の他の特徴および利点は以下の図面、詳細な記載および請求の範囲から明らかであろう。

（発明の詳細な説明）
本発明は、ＤＮＡ集団（例えば、ゲノム、染色体、またはＤＮＡの混合物）の表示を分析するためのオリゴヌクレオチドプローブをその要旨とする。該オリゴヌクレオチドプローブは溶液中で用いることができるか、あるいはそれらはアレイまたはマイクロビーズのような（半固体を含めた）固体表面に固定化することができる（例えば、Ｌｅｃｈｎｅｒｅｔａｌ．，Ｃｕｒｒ．Ｏｐｉｎ．Ｃｈｅｍ．Ｂｉｏｌ．６：３１−３８（２００１）；Ｋｗｏｋ，Ａｎｎｕ．Ｒｅｖ．ＧｅｎｏｍｉｃｓＨｕｍａｎＧｅｎｅｔ．２：２３５−５８（２００１）；Ａｅｂｅｒｓｏｌｄｅｔａｌ．，Ｎａｔｕｒｅ４２２：１９８−２０７（２００３）；および米国特許第６，３５５，４３１号および第６，４２９，０２７号）。表示は、得られたＤＮＡが、典型的には、新しいフォーマットまたは低下した複雑性または双方を有するＤＮＡ集団の再現性のあるサンプリングである（Ｌｉｓｉｔｓｙｎｅｔａｌ．，Ｓｃｉｅｎｃｅ２５８：９４６−５１（１９９３）；Ｌｕｃｉｔｏｅｔａｌ．，Ｐｒｏｃ．Ｌａｔｌ．Ａｃａｔ．Ｓｃｉ．ＵＳＡ９２：１５１−５（１９９８））。例えば、ゲノムの表示は、ゲノムの小さな部分のみからのものであって、反復配列がほとんど含まれていないＤＮＡ配列よりなることができる。ゲノム表示の分析は、欠失、増幅、染色体再編成および多形のような突然変異を含めたゲノムの変化を明らかにすることができる。臨床的設定でなされる場合、分析は、病気の分子的基礎に対する洞察、およびその診断および治療に対する有用なガイドを提供することができる。

本発明のオリゴヌクレオチド組成物を用いて、源ＤＮＡの表示にハイブリダイズさせることができ、ここに、ハイブリダイゼーションデータを処理して源ＤＮＡの遺伝的プロフィール（例えば、病気関連遺伝的病巣および多形）を供する。組成物中のオリゴヌクレオチドプローブの表示（または以後「テスト」表示）および少なくともあるフラクションは同一種に由来するのが好ましいであろう。哺乳動物種（例えば、ブタ、マウス、ラット、霊長類（例えばヒト）、イヌおよびネコ）、魚類の種、爬虫類の種、植物の種、および微生物の種を含めたいずれの種からのＤＮＡも利用することができる。

（Ｉ．オリゴヌクレオチドプローブ）
本発明のオリゴヌクレオチドプローブは、好ましくは、参照個体のゲノムＤＮＡのような源ＤＮＡの実質的表示によって設計される。ゲノムの表示は、一般的には、しかし不変的ではないが、その複雑性の単純化をもたらす。表示の複雑性は、そこに表されるゲノムのフラクションに対応する。複雑性を計算する１つの方法は、表示中のヌクレオチドの数をゲノム中のヌクレオチドの数で割ることである。表示のゲノム複雑性は、合計ゲノムの１％未満から、その９５％ほど高い範囲とすることができる。比較的単純なゲノムを持つ生物からのＤＮＡを用いる場合、表示は合計ゲノムの１００％複雑性を有することができ、例えば、表示は増幅することなく全ＤＮＡの制限消化によって生じさせることができる。本発明に関連する表示は、典型的には、０．００１％および７０％の間の複雑性を有する。複雑性の低下は、望ましいハイブリダイゼーションキネティックスを可能とする。

ＤＮＡの「現実の」表示は、それによって表示ＤＮＡが選択される実験室的手法（「湿潤処理」）を含む。他方、実質的表示は、完全なゲノム、例えば、ヒトゲノムが配列決定されているという事実を利用する。入手可能なゲノム配列のコンピュータ解析を通じて、下の有無のマップされた領域にハイブリダイズし、ゲノムの残りに対して最小度の配列重複を有する非常に多数のオリゴヌクレオチドプローブを容易に設計することができる。

その例として、ヒト遺伝子解析のためのオリゴヌクレオチドプローブの組を設計するためには、選択されたゲノム中に選択された制限エンドヌクレアーゼの全ての切断部位を突き詰めることによって、ヒト遺伝子のｉｎｓｉｌｉｃｏ（すなわち、実質的）消化を行うことができる。次いで、例えば、ＰＣＲによって増幅することができる所望の範囲（例えば、２００ないし１，２００ｂｐ、１００ないし４００ｂｐ、および４００ないし６００ｂｐ）であるものを同定するために得られた断片を分析することができる。そのような断片は、表示に「存在すると予測される」ものとして本明細書中では定義されている。制限エンドヌクレアーゼは、所望の表示の複雑性に基づいて選択することができる。例えば、６ｂｐまたは８ｂｐ標的配列を認識するもののような頻繁ではなく切断する制限エンドヌクレアーゼはより低い複雑性の表示を生じ、他方、４ｂｐ標的配列を認識するもののような頻繁に切断する制限エンドヌクレアーゼはより高い複雑性の表示を生じるであろう。加えて、分析されたゲノムのＧ／Ｃ含有量のような因子は、特定の制限エンドヌクレアーゼの切断の頻度に影響し、その結果、制限エンドヌクレアーゼの選択に影響する。一般に、スター活性を呈しない頑強な制限エンドヌクレアーゼを用いる。別法として、標的部位のメチル化状態に基づく切断を、例えば、メチル化感受性制限酵素またはＤＮＡ中のメチル化シトシンを認識するＭｃｒＢＣのような他の酵素の使用を介して使用することもできる。

所望の範囲（例えば、２００ないし１，２００ｂｐ、１００ないし４００ｂｐ、および４００ないし６００ｂｐ）の全ての消化された断片の配列は、長さが少なくとも約３０ｂｐであって、ゲノムの残りに対して最小の相同性を有するこれらの断片のいくつかの領域がヒトゲノムについての表示オリゴヌクレオチドプローブとして選択できる場合には、コンピュータによって解析される。実施例１および以下のセクションＶＩは、さらに、本発明のオリゴヌクレオチドを同定する方法を説明する。

本発明のオリゴヌクレオチドは長さが約３０ヌクレオチドないし約１，２００ヌクレオチドの範囲とすることができる。選択されたオリゴヌクレオチドの正確な長さは意図した使用、例えば、それから表示が調整される源ＤＮＡのサイズ、およびそれらがアレイの構成要素として用いられるか否かに依存するであろう。オリゴヌクレオチドは、典型的には、少なくとも３５ヌクレオチド、例えば、少なくとも４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５または１００ヌクレオチドの長さを有するが、それらは、例えば、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９または３０ヌクレオチドの長さを有するより短いものであってもよい。オリゴヌクレオチドは、典型的には、６００ヌクレオチド以下、例えば、５５０、５００、４５０、４００、３５０、３００、２５０、２００または１５０ヌクレオチド以下の長さを有する。当業者によって認識されるであろうように、オリゴヌクレオチドの長さは分析するゲノムの特徴、例えば、複雑性および反復配列の量に依存するであろう。

（ＩＩ．オリゴヌクレオチドアレイ）
本発明のオリゴヌクレオチドプローブはアレイ様式で用いることができる。アレイは、規定された座標またはアドレスに付着された核酸プローブを持つ個体支持体を含む。各アドレスは単一ＤＮＡプローブの多くのコピー、または異なるＤＮＡプローブの混合物いずれかを含む。「マイクロアレイ」または「チップ」とも言われる核酸アレイは、一般には、当該分野で記載されてきた。例えば、米国特許第６，３６１，９４７号およびそこに引用された文献参照。我々は新しいアレイを用いる遺伝子解析を「表示オリゴヌクレオチドマイクロアレイ解析」（「ＲＯＭＡ」）と命名し、または切断が標的部位におけるメチル化に依存する場合には、「メチル化検出オリゴヌクレオチドマイクロアレイ解析」（「ＭＯＭＡ」）と命名した。

本発明のマイクロアレイを製造するためには、予め合成されたオリゴヌクレオチドを、ガラス、プラスチック（例えば、ポリプロピレンまたはナイロン）、ポリアクリルアミド、ニトロセルロースまたは他の材料から作成することができ、多孔性または非多孔性であってよい固体支持体に付着させる。核酸を表面に付着させる１つの方法は、一般にはＳｃｈｅｎａｅｔａｌ．，Ｓｃｉｅｎｃｅ２７０：４６７−７０（１９９５）；ＤｅＲｉｓｉｅｔａｌ．，ＮａｔｕｒｅＧｅｎ．１４：４５７−６０（１９９６）；Ｓｈａｌｏｎｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．６：６３９−４５（１９９６）；およびＳｃｈｅｎａｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９３：１０５３９−１２８６（１９９５）によって記載されているように、ガラスプレート上に印刷することによる。低密度アレイについては、ナイロンハイブリダイゼーション膜上のドットブロットを用いることもできる。例えば、Ｓａｍｂｒｏｏｋｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ−ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（第２版），Ｖｏｌ．１−３，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，ＮｅｗＹｏｒｋ，１９８９参照。

マイクロアレイを作成するためのもう１つの方法は、アレイ基材上に直接、すなわち、ｉｎ・サイチュにて、オリゴヌクレオチドを合成するために写真平版（または「光印刷」）技術を用いることによる。例えば、Ｆｏｄｏｒｅｔａｌ．，Ｓｃｉｅｎｃｅ２５１：７６７−７３（１９９１）；Ｐｅａｓｅｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９１：５０２２−６（１９９４）；Ｌｉｐｓｃｈｕｔｚｅｔａｌ．，Ｎａｔ．Ｇｅｎｅｔ．２１（１Ｓｕｐｐｌ）：２０−４６（１９９９）；Ｎｕｗａｙｓｉｒｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．１２（１１）：１７４９−５５（２００２）；Ａｌｂｅｒｔｅｔａｌ．，Ｎｕｃｌ．Ａｃｉｄｓ．Ｒｅｓ．３１（７）：ｅ３５（２００３）；および米国特許第５，５７８，８３２号、第５，５５６，７５２号および第５，５１０，２７０号参照。迅速合成および規定されたオリゴヌクレオチドの沈着のための他の方法を用いることもできる。例えば、Ｂｌａｎｃｈａｒｄｅｔａｌ．，Ｂｉｏｓｅｎｓｏｒｓ＆Ｂｉｏｅｌｅｃｔｒｏｎｉｃｓ１１：６８７−９０（１９９６）；およびＭａｓｋｏｓ＆Ｓｏｕｔｈｅｒｎ，Ｎｕｃｌ．ＡｃｉｄｓＲｅＳ．２０：１６７９−１６８４（１９９２）参照。
本発明のアレイは、典型的には、少なくとも１００（例えば、少なくとも５００、１，０００、５，０００または１０，０００）のオリゴヌクレオチドプローブを含み、より多くのプローブ、例えば、２５，０００、５０，０００、７５，０００、８５，０００、１００，０００、２００，０００、２５０，０００、５００，０００または７００，０００までのプローブを含むことができる。本発明のアレイは、典型的には、７００，０００を超えるプローブは含まない。しかしながら、それらはより多い、例えば、８００，０００、９００，０００または１，０００，０００までのプローブを含むことができる。いくつかの具体例において、アレイは、１ｃｍ^２当たり約６０の異なるプローブを超える密度を持つ高密度アレイである。アレイ中のオリゴヌクレオチドは一本鎖または二本鎖であってよい。アレイの製造および使用を容易とするためには、本発明のオリゴヌクレオチドプローブは、例えば、ペプチジル構造およびアナログヌクレオチドをプローブに一体化させることによって修飾することができる。

（ＩＩＩ．テスト表示）
本発明のオリゴヌクレオチドアレイを用いて、選択されたいずれの核酸試料もプローブすることができる。例えば、試料はｃＤＮＡライブラリー、ゲノムＤＮＡライブラリー、またはＲＮＡ調製物であってよい。他の具体例においては、本発明のアレイを用いて、高等生物のゲノムのような、複雑なＤＮＡ集団の表示（または「テスト表示」）であるＤＮＡ試料をプローブする。

表示およびそれらの調製のための方法は、例えば、Ｌｉｓｉｔｓｙｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９２：１５１（１９９５）；Ｌｕｃｉｔｏｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９５：４４８７−４４９２（１９９８）；およびＷＯ９９／２３２５６に記載されている。表示を作成するための１つのアプローチは、ＤＮＡ集団を断片へと再現可能に切断することを含む。再現可能な切断は、一般に、１以上の制限エンドヌクレアーゼ（例えば、ＤｐｎＩまたはＢｇｌＩＩ）または特定のメチル化部位（例えば、ＭｃｒＢＣ）において切断する酵素で消化することによって達成されるが、該ＤＮＡを再現可能に切断するいずれの方法を用いることもできる。得られたＤＮＡ断片をアダプターオリゴヌクレオチドに連結する。次いで、アダプターに対して相補的であるプライマーを用い、例えば、ポリメラーゼ鎖反応「ＰＣＲ」）またはリガーゼ鎖反応によって、これらの断片を増幅する。増幅された断片はスターターＤＮＡ集団のサブセットを表す。増幅工程のため、表示は、非常に少量の出発物質から（例えば、５ｎｇのＤＮＡから）作成することができる。Ｌｉｓｉｔｓｙｎｅｔａｌ．，Ｓｃｉｅｎｃｅ２５８：９４６−５１（１９９３）および米国特許第５，４３６，１４２号および第５，５０１，９６４号に記載された表示差分析（「ＲＤＡ」）を用いて、反復配列を含めた、いずれの公知の望まない配列も表示から除去することができる。

スターターＤＮＡ集団は、生物のゲノム、またはその部分（例えば、染色体またはその領域）のような大きなＤＮＡ分子であり得る。我々は、各々、染色体またはゲノム表示のようなＤＮＡ集団の表示に言及する。スターターＤＮＡ集団は、例えば、腫瘍バイオプシー試料、正常な組織試料、腫瘍細胞系、正常細胞系、固定された標本として貯蔵された細胞、オートプシー試料、法医学試料、パレオＤＮＡ試料、ミクロ解剖組織試料、単離された核酸、単離された染色体または染色体の領域、および分画された細胞または組織試料のような病気の組織試料から得ることができる。また、表示（または「化合物表示」）の表示を作成することもできる。化合物表示は多形につきスクリーニングするのに有用である。例えば、ＷＯ９９／２３２５６参照。

正常な細胞からのゲノム表示を癌性またはそうでなければ病気の細胞からのゲノム表示を比較するような、２つのＤＮＡ源からの表示の比較分析のためには、例えば、同時かつ同一方法で２つの細胞からスターターＤＮＡを単離し、同一量のスターターＤＮＡから表示を調製し、同一サーマルサイクラーにおいて同一条件下で同時にＤＮＡ断片を増幅して、平行して２つの表示を調製するのが好ましいであろう。また、正常な細胞および病気の細胞を同一個体から採取するのも好ましいが、例えば、個体の両親からのＤＮＡを組み合わせることによって、「正常な」ゲノムＤＮＡを得ることが可能である。

表示の複雑性は、一般には、スターターＤＮＡ集団のそれよりは低い。なぜならば、表示には存在しないスターター集団には存在する配列があるからである。表示の複雑性は、特定のスターター集団における制限エンドヌクレアーゼの切断頻度に関連する。より頻繁なカッターはより複雑な表示を生起させる。２００ないし１，２００塩基対の間の断片は典型的な条件下ではＰＣＲによって優先的に増幅されるので、断片の大部分が２００ないし１，２００塩基対の間となるようにスターターＤＮＡを切断することによって高い複雑性の表示を得ることができる。逆に、低い複雑性の表示は、より少数の断片が２００ないし１，２００塩基対の間となるようにＤＮＡ分子を切断することによって得ることができる。例えば、ヒトゲノムＤＮＡのＤｐｎＩＩ消化は、全ヒトゲノムの複雑性の約７０％を有する表示を生起させることができる。他方、ＢａｍＨＩまたはＢｇｌＩＩのようなより頻度の低いカッターによる消化は、ヒトゲノムの複雑性のただ約２％を有する表示を生起させることができる。高い複雑性の表示は、例えば、遺伝子コピー数の測定、欠失マッピング、ヘテロ接合性の喪失の測定、比較ゲノムハイブリダイゼーション、およびＤＮＡの編集で有用である。一般に、低い複雑性の表示は同一目的で有用であるが、高い複雑性表示よりも良好なハイブリダイゼーションキネティックスを与える。

表示の複雑性は、１を超える制限酵素を用いて、アダプターの連結に先立って断片を創生することによって、および／または１以上のさらなる制限酵素を用いて、アダプターの連結後に断片のサブセットを切断し、かくして、それらの断片の得られた表示を枯渇させることによってさらに微妙に調整することができる。メチル化感受性制限酵素を含めたいずれの制限酵素を用いて、本明細書中に記載する分析用の表示を生産することもできる。

また、表示の複雑性は、増幅で用いるアダプターの選択によって形成することもできる。例えば、いずれのアダプターを用いるかは、表示のメンバーのサイズに影響し得る。同一のアダプターを切断された断片の両末端に連結する場合、単一ストランド内のアダプター間パンハンドル形成はプライマーアニーリングと競合し、かくして、ＰＣＲによる増幅を阻害する。Ｌｕｋｙａｎｏｖｅｔａｌ．，Ａｎａｌ．Ｂｉｏｃｈｅｍ．２２９：１９８−２０２（１９９５）参照。より短い断片の増幅はより阻害されるようである。なぜならば、アダプターはより短い断片において相互により近く、その結果、連結されたアダプターのより高い効率的局所濃度がもたらされ、かくして、より大きな相互作用がもたらされるからである。ほぼ２９塩基対のパンハンドルを形質するアダプターは、２００ないし１，２００塩基対のサイズ範囲の断片の増幅を可能とする。より短いパンハンドル、例えば、２４塩基対を形成するアダプターは、より小さな断片の阻害のいくらかを開放し、その結果、より小さなＰＣＲ増幅産物、したがって、改変された複雑性の表示が好都合となる。

（ＩＶ．核酸試料のアレイへのハイブリダイゼーション）
本発明のマイクロアレイは、典型的には、溶液中の一本鎖核酸の試料にハイブリダイズする。潜在的ハイブリダイゼーションシグナルはハイブリダイゼーションチャンバー中のアドレス間で変化し得るので、プローブアレイは好ましくはコンパレーターとして用いることができ、徹底的に混合され、したがって、同一のハイブリダイゼーション条件を共有する２つの異なって標識された標本（試料）の間のハイブリダイゼーションの比率を測定する。典型的には、２つの標本は、各々、テスト（例えば、病気の）および対照（例えば、病気のない）細胞からであろう。

マイクロアレイにハイブリダイズさせるべき試料、例えば、前記したテスト表示は、当業者に知られたいずれかの手段によって検出可能に標識することができる。いくつかの具体例において、試料は、例えば、ランダムプライマー標識またはニックトランスレーションによって蛍光部位で標識される。試料が表示である場合、反応に標識された分子を含めることによって、増幅工程の間にそれを標識することができる。蛍光標識は、例えば、リスサミン−コンジュゲーテッドヌクレオチドまたはフルオレセイン−コンジュゲーテッドヌクレオチドアナログであり得る。いくつかの具体例においては、２つの異なって標識された試料（例えば、１つはリスサミンで標識、他方はフルオレセインで標識）を用いる。くつかの具体例においては、試料は標識しない。

ハイブリダイゼーションおよび洗浄条件は、試料中の核酸分子がアレイ上の相補的オリゴヌクレオチドに特異的に結合するように選択される。二本鎖オリゴヌクレオチドを含有するアレイは、一般には、変性条件に付して、試料と接触するに先立ってオリゴヌクレオチドを一本鎖とする。最適なハイブリダイゼーション条件はオリゴヌクレオチドプローブおよび試料核酸の長さおよびタイプ（例えば、ＲＮＡまたはＤＮＡ）に依存するであろう。

本発明のアレイへのハイブリダイゼーションは、当業者に知られたいずれかの方法によって検出することができる。いくつかの具体例において、蛍光標識試料ヌクレオチドのハイブリダイゼーションはレーザースキャナーによって検出される。いくつかの具体例において、標識されたまたは見標識の試料ヌクレオチドのハイブリダイゼーションはそれらの質量を測定することによって検出される。２つの異なる蛍光標識を用いる場合、スキャナーは、１を超える波長の蛍光を典型的には同時に、または殆ど同時に検出でき、該波長は各蛍光標識のそれに対応するものであっても良い。

（Ｖ．オリゴヌクレオチドプローブの例示的使用）
本発明のオリゴヌクレオチドプローブを用いて、ゲノム中の特定の配列のコピー数またはメチル化状態の変化を検出し、定量することができる。複数のＤＮＡ試料に由来する表示を同一オリゴヌクレオチドプローブにハイブリダイズさせる場合、特定のプローブに対する２つの試料間のハイブリダイゼーションの相対的強度は、２つの試料中のそのプローブに対応する配列の相対的コピー数またはメチル化状態を示す。例えば、ゲノムは、典型的には、増幅によるある配列の過剰なコピー、または特定の領域の欠失によるある配列のよる少数のコピーまたは全くないコピーいずれかを含む。これらの方法を用いて、例えば、特定の配列の増幅、欠失またはメチル化状態が、例えば、癌、神経学的病気（例えば、自閉症）、糖尿病、心臓学的病気および炎症病（例えば、自己免疫疾患）を含めた特定の病気の素因、進行または停滞に関係する場合、参照試料および患者試料の間の配列のコピー数またはメチル化状態の変化を分析することができる。

加えて、ゲノムにおけるコピー数またはメチル化状態の改変に関する位置の情報を得ることができる。なぜならば、本発明のオリゴヌクレオチドプローブが相補的なゲノム中の配列が知られているからである。オリゴヌクレオチドプローブがゲノム配列において頻繁にハイブリダイズするように設計され、試料が高い複雑性の表示である場合、ゲノムの増幅、欠失またはメチル化状態の領域を正確にマッピングすることが可能である。かくして、本発明を用いて、特定の病気の素因、進行または段階に関与し得る個々の遺伝子を同定することができる。これらの遺伝子は、配列が、各々、参照ゲノムに対して癌ゲノムにおいて増幅され、欠失され、またはメチル化され／メチル化されないかに応じてオンコジーンおよび腫瘍サプレッサー遺伝子であり得る。

本発明のオリゴヌクレオチドプローブを用いて、個体内および個体間双方における単一ヌクレオチド多形（ＳＮＰ）を含めた多形部位を同定することもできる。これらの多形は共通しており、オリゴヌクレオチドプローブの２ないし３％と多くが「正常な」個体の間でさえ多形挙動を呈する。検出可能な多形は、例えば、それらが表示中のその存在または不存在に反映される場合、点突然変異、欠失、遺伝子再編成、またはヘテロ接合性多形にわたって延びる遺伝子変換のため、制限エンドヌクレアーゼ断片の喪失または獲得に由来し得る。例えば、制限酵素でのヌクレオチド配列の消化の結果、制限部位が存在するか否かに応じて、１つの大きな（すなわち、切断されていない）または２つの小さな断片が生じ得る。もしオリゴヌクレオチドプローブがテスト表示において小さな断片の一方または双方を検出するならば、この多形制限部位はテストゲノムに存在することが知られる。

同様に、転座、挿入、逆位及び欠失を含めたゲノム再編成は、外債変性の少なくとも一部にわたる新しい制限エンドヌクレアーゼ断片の創製をもたらすことができる。これらの新しい断片のいくつかは増幅可能であって、従って、再編成されたゲノムの表示に存在するが、参照表示には存在しない。逆に、ゲノム再編成は表示からの断片の喪失をもたらし得る。いずれの場合にも、あるプローブへのハイブリダイゼーションにおけるテストおよび参照表示の間の差は、ゲノム再編成が参照ゲノムに対してテストゲノムで起こったであろうことを示唆する。これらのプローブの配列および参照ゲノムにおけるこれらのプローブの位置を解析することによって、再編成のタイプおよび再編成の接合を含めた、遺伝子再編成についての情報を得ることができる。

個体内および個体間の特定の配列のコピー数および他の多形を分析する能力は、当業者に明白な多くの用途を有する。これらは、限定されるものではないが、例えば、法医学テストおよび親子関係テスト；植物または動物の育種；定量的特性の分析を含めた、遺伝した特性に遺伝的に連鎖した多形の発見；薬物に対する有益なまたは有害な応答の予測を含めた、患者における薬物応答の測定；診断；および臨床試験における患者の同定および層形成のための個体の同定であり得る。

（ＶＩ．例示的サーチエンジン）
以下に、前記したオリゴヌクレオチドプローブを得るのに用いることができるアルゴリズムを記載する。以下の記載は、このアルゴリズムがそのようなプローブを得るための唯一の手段であることを示すことを意図しないのは理解されるであろう。また、このアルゴリズムは本発明のオリゴヌクレオチドプローブを創製する以外に適応を有することも理解されるであろう。他の適用のいくつかはここに記載する。

本明細書中においては、サーチエンジンまたはマーエンジンと時々は言うこのアルゴリズムは、ゲノムの変換（例えば、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒ変換）および補助的データ構造を用いて、ゲノム中の特定で起こる特定の単語の回数の数をカウントする「単語」とは、いずれかの長さのヌクレオチド配列をいう。

一般に、該エンジンは、単語の最後の文字をまず見出すことによって特定の単語につきサーチする。次いで、それは、最後の文字に直ぐに先行する文字を探すように進行する。もし最初のすぐに先行する文字が見いだされれば、次いで、それは、単語の最後の文字に対して第二に直ぐの先行する文字を探し、単語が見出せるまでそのようにする。もし更なる先行文字が見出されなければ、単語はゲノムに存在しないと結論されるであろう。

この特別なアルゴリズムは有利である。なぜならば、それを用いて、先に考察したように、ゲノム研究に関連するいくつかの実用的な適用を実行することができるからである。サーチエンジンの１つの適用は、それを用いて、ゲノムのようなヌクレオチド配列を注釈することができることである。特に、ゲノムは、ゲノム内に存在する特定の長さのサブストリングを用いて注釈することができる。次いで、サーチエンジンは、ゲノムで起こる特定の長さのサブストリングの回数の数をカウントすることができる。これらのカウントは、より低いカウントがより高いカウントよりも高度なユニーク性を表す場合に、特定のサブストリングのユニーク性の指標を提供する。

プローブの設計は、サーチエンジンを用いることによって有利には増強することができるもう１つの現実的適用である。ゲノムに出現する特定の単語の回数の数を迅速にカウントするエンジンの能力は、交差ハイブリダイゼーションは最小で、ユニークであって、ＤＮＡの特異的領域にハイブリダイズするプローブを設計するにおいて特に有用である。サーチエンジンを用いることによって、プローブが、全ゲノム内の低い単語カウントまたは単語カウント無しを有するような、ユニークであって、ある種のストリンジェンシー条件を満足する構成要素セグメントよりなることを要求することによって、潜在的交差ハイブリダイゼーションを最小化することができる。

サーチエンジンのさらにもう１つの適用が、２つのゲノムの間の差を検出することである。例えば、ヒトゲノムプロジェクトが進行するにつれ、ゲノムの新しいセグメントがマッピングされ、公衆に解放される。同一ゲノムのもう１つのバージョンに対して設計されたサーチエンジンおよびプローブを用い、ゲノムの新しいバージョンに対してどれくらい多くのプローブを適用することができるかを決定することができる。

サーチエンジンを、特定の単語がゲノムに存在するか否かを確認するために用いることができるなおさらにもう１つの適用。単語がゲノムのセクションにハイブリダイズする機会がほとんどないように、ゲノムに出現しない単語を見出すのが望ましいであろう。これらの単語は、基準の予め規定された組に従ってランダムに作り出すことができる。単語が見出されると、その相補体をサーチエンジンに提出して、それがゲノムで出現するか否かを決定する。もし単語およびその相補体の双方がゲノムで出現しないのであれば、これらの単語の双方は相互にハイブリダイズし、ゲノムにはハイブリダイズしないことが知られている。

（Ａ．システムの記載）
サーチエンジンおよびその適用は、図７に示された説明的システム７００を用いて本発明にしたがって実行することができる。システム７００はコンピュータ７１０、ユーザーインターフェース機器７３０、インターネット７４０、および任意の実験室機器（図示せず）を含むことができる。システム７００は多数のコンピュータ７１０およびユーザーインターフェース機器７３０を含むことができるが、各々の１つのみを図７に示して、図面を複雑にするのを回避する。コンピュータ７１０は、連絡経路７９０を介してユーザーインターフェース機器７３０およびインターネット７４０に連結されるのが示される。

コンピュータ７１０は、プロセッサー７１２、データベース７１４（例えば、ハードドライブ）、メモリー７１６（例えば、ランダムアクセスメモリー）、および取り出し可能なメディアドライブ７１８（例えば、フロッピー（登録商標）ディスクドライブ、ＣＤ−ＲＯＭドライブ、またはＤＶＤドライブ）のような回路を含むことができる。この回路を用いて、データをユーザーインターフェース機器７３０およびインターネット７４０へデータを伝達し、それらからおよび／またはそれらの間でデータを伝達することができる。ユーザーインターフェース機器７３０からのユーザーインプットに応答することによって、コンピュータ７１０は本発明の技術を開始することができる。コンピュータ７１０は、サーチエンジンの操作から得られた結果に対してユーザーインターフェース機器７３０においてユーザーに情報を提供することもできる。

データベース７１４は、サーチエンジンを提供する情報にデータを貯蔵する。さらに詳しくは、データベース７１４はゲノムの配列またはゲノムの特定の部分を含むことができる。本発明は、やはりデータベース７１４に貯蔵することができる添字アレイを構築するためにデータベース７１４に貯蔵されたゲノム情報を用いることができる。該添字アレイは、ゲノムまたはその部分のトランスフォームを構築するための調製で作り出されるデータ構造である。ゲノムのデータ表示は、例えば、取り出し可能なメディアドライブ７１８を通じてアクセスすることができるリーダブル媒体（例えば、フロッピー（登録商標）ディスケット、ＣＤ−ＲＯＭ、またはＤＶＤ）から得ることができる。別法として、データが、研究施設（例えば、ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｓｏｆＨｅａｌｔｈまたは大学）に位置するサーバーから伝達される場合、ゲノムデータはインターネット７４０を通じて得ることができる。所望であれば、データベース７１４は、それが入手可能となるように新しいゲノムデータで更新することができる。

一般に、添字アレイを表すデータの量は、ゲノムを表すデータの量よりもかなり大きい。したがって、データベース７１４は、メモリー７１２よりも添字アレイを貯蔵するのにより適しているであろう。なぜならば、データベースはメモリーよりも多くのデータを容易に貯蔵するからである。

ユーザーインターフェース機器７３０はユーザーが入力デバイス７３２を介してコンピュータ７３０に対するコマンドを入力することを可能とする。入力デバイス７３２は、慣用的なキーボード、ワイヤレスキーボード、マウス、タッチパッド、トラックボード、声で活性化される制御卓、またはそのようなデバイスのいずれかの組合せのようないずれかの適当なデバイスであってよい。入力デバイス７３２は、例えば、ユーザーが特定の単語の単語カウントを実行し、または潜在的プローブの統計学的解析を実行するためのコマンドをエンターすることを可能とする。ユーザーは、表示デバイス７３４上でシステム７００を操作するプロセスをモニターすることができる。表示デバイス７３４はコンピュータモニター、テレビ、フラットパネルディスプレイ、液晶ディスプレイ、陰極線管（ＣＲＴ）またはいずれかの他の適当な表示デバイスであってよい。

連絡経路７９０は、ケーブルリンク、ハードワイヤードリンク、ファイバー−およびプティックリンク、赤外リンク、リボンワイヤーリンク、青色−ツースリンク、アナログ連絡リンク、デジタル連絡リンク、またはそのようなリンクのずれかの組合せのようないずれかの適当な連絡経路であってよい。連絡経路７９０は、コンピュータ７１０、ユーザーインターフェース機器７３０、およびインターネット７４０の間のデータ移動を可能とするように配置される。

サーチエンジンで得られた結果が実験に直接適用できるように、またその逆ができるように、実験室機器をシステム７００中に供することができる。

サーチエンジンの利点は、正確な単語マッチをカウントするための技術がコンピュータのメモリー（例えば、メモリー７１６）内に全部起こることができることである。これは、正確な単語マッチのためのゲノムの極端に速くて効果的な質問を提供する。データベース（例えば、ハードドライブ）にアクセスする必要がない。そのような必要性はサーチエンジンの性能を実質的に阻害しかねない。正確な単語マッチをカウントするのに用いる技術は１００％性格である。

（Ｂ．添字アレイ、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームおよびアルファバウンド）
さて、図８を参照し、例示的フローチャート８００は、本発明の原理に従ってサーチエンジンで用いるためのゲノムを調製するにおける工程を示す。フローチャート８００は、特定のゲノムのトランスフォームを創製するための基礎を提供する添字アレイデータ構造を形成するための技術を用いる。このトランスフォームは、本発明のサーチエンジンについての基礎を提供し、ここに、サーチエンジンは特定の単語（例えば、１５、２１、７０または８０文字の長さを有する単語）の出現の数を迅速にカウントすることができる。工程８１０において、ゲノムまたはゲノムの一部のようなヌクレオチド配列が提供される。ゲノムはＮのヌクレオチドの長さを有する文字のストリングとして配置することができ、ここに、Ｎはゲノムを表す文字のストリングにおけるヌクレオチドの合計数を表す。

工程８１０で提供されたゲノムは、いずれかの生物に由来することができ、あるいはそれはランダムに発生することができる。例えば、全公知のヒトゲノムを提供することができるか、あるいはヒトゲノムの一部を提供することができる（例えば、染色体を表すゲノムの一部、または染色体の領域）。所望であれば、酵母、植物、およびトカゲ、魚類および哺乳動物（例えば、マウス、ラット、および非ヒト霊長類）のような動物を含めた、ウイルス、細菌、単細胞および多細胞生物のような非ヒトゲノムデータを提供することができる。

工程８２０において、ゲノムは、所定の辞書編集順序に従ってゲノムのヌクレオチド配置を再組織化する変換プロセスに付される。トランスフォームは、ゲノムに出現する同一構成文字（例えば、Ａ、Ｃ、ＧおよびＴ）を維持するが、これらの文字は異なる順序で配置される。本発明の１つの具体例において、ゲノムは、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームと呼ばれる公知のトランスフォームに付される。該Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームは添字アレイから得ることができる。本発明によると、添字アレイはゲノムの全ての周期的順列を表すＮ×Ｎ行列であり、ここに、該順列は所定の基準（例えば、アルファベット順、数字順等）に従って配置される。有利には、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームは周期的順列の分類されたＮ×Ｎ行列を表す。かくして、本発明のサーチエンジンがそれを延長によってＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームを通じてサーチする場合、添字アレイを通じてサーチし、それは、さらなる延長によって、ゲノムを表す元のストリングを介してサーチする。

ゲノム配列アセンブリーは、Ａ、Ｃ、ＧおよびＴに加えて曖昧な文字を含むことができ、かくして、ゲノムアルファベットを５つの文字まで拡大する。Ｎと通常は言われるこの曖昧な文字は、典型的には、核酸配列の特定の位置におけるヌクレオチドが知られていない場合に用いられる。

Ｂｕｌｌｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームは分類された添字アレイを表すので、文字の特定のストリングにつきサーチする場合には添字アレイをアクセスする必要はない。好ましくは、トランスフォームはメモリーに貯蔵され、ここに、サーチング機能は、トランスフォームがハードディスクに貯蔵される場合よりもかなり速く実行することができる。さらに、添字アレイに含まれるデータの量は実質的であり得るので、添字アレイは、より速い操作メモリー（例えば、コンピュータのランダムアクセスメモリー）とは反対に、ハードディスクドライブに貯蔵されなければならないであろう。例えば、ヒトゲノムについての添字アレイのサイズは１２ギガバイトのオーダーである。もしそのようなアレイをメモリーに貯蔵すれば、１２ギガバイトのメモリーを有するマシーンのコストは、例えば、３ギガバイトのメモリーを有するマシーンよりもかなり高価なものとなろう。従って、サーチエンジンの１つの利点は、それが高価でメモリーが強いマシーンを必要としないことである。なぜならば、トランスフォームは貯蔵された添字アレイの凝縮されたバージョンを表すからである。

添字アレイは本発明にしたがった単語サートを実行するのに必要はないが、トランスフォームおよびアレイの間の関係を示すためにどのようにしてそのようなアレイが得られるかを記載するのは有用であろう。添字アレイは、まず、ヌクレオチド配列の周期的順列を得ることによって構築することができる。例えば、表１は、ゲノム「ＡＧＡＣＡＧＴＣＡＴ＄」の周期的順列を示し、ここに、「＄」は、ゲノムストリングの末端をマークするのに供される。

周期的順列が得られた後には、特定の辞書編集順序（例えば、アルファベット辞書編集順序）を得るための所定の基準に従って、列を分類する。例えば、表２は、分類されたアレイの見出しの元で表１に示された順列のアルファベット順配置を示す。

一旦周期的順列が分類されたならば、ゲノムのトランスフォームは、分類されたアレイの各列の最後の文字を取ることによって得ることができる。これらの文字は「トランスフォーム」の見出しの欄の下で再生され、ゲノム「ＡＧＡＣＡＧＴＣＡＴ＄」のトランスフォームが「ＴＧ＄ＣＣＡＴＡＡＡＧ」であることを示す。

１つの具体例において、ヒトゲノムのようなゲノムの添字アレイは、１６−節クラスターを用いる平行基数分類を用いて形成することができる。このアプローチを用い、ゲノムをＸ数（例えば、１００）の等しい−サイズのサブストリングに分け、各々は７つのヌクレオチドだけ重複し、Ｘは所定の数である。各サブストリング内のゲノムへのオフセット（すなわち、「ゲノム」座標）が、各オフセットにおける７量体（７ヌクレオチド）に従って５^７の「接頭辞」ビンの１つに割り当てられる。各接頭辞ビン内のオフセットは７量体接頭辞に従い配列に基づいて分類され、それにより、添字アレイを作り出す。

工程８３０において、種々の統計を計算して、アルファバウンドデータ構造、Ｋ間隔データ構造、および辞書カウントデータ構造を含むことができる補助的データ構造を作り出す。アルファバウンドは、どのようにしてそこの多くのアデニン、シトシン、グアニン、およびチミンヌクレオチドがトランスフォームにあるかを示す。例えば、表１および２のゲノムを用い、Ａ、Ｃ、ＧおよびＴについてのアルファバウンドは、各々、４、２、２および２である。

アルファバウンドを用いて、貯蔵された添字アレイの各列の先頭に存在する特定の文字に対応するトランスフォームにおける範囲を定めることができる。例えば、ヌクレオチドＡについての定めた範囲は、Ａで出発する添字アレイの各列を示す。表２を参照し、それは、貯蔵されたアレイの列１ないし４がＡで出発することができることを示す。かくして、４つの列は、Ａについて計算されたアルファバウンドに対応する。表２は列５ないし６がＣで始まることを示し、これは、Ｃについて計算されたアルファバウンドに対応する。同様に、Ｇブロックは列７および８に対応し、Ｔブロックはトランスフォームの列９および１０に対応する。

工程８３０はトランスフォームにおける文字のＫ数毎にＫ間隔も作り出すことができ、ここに、Ｋは所定の数である。Ｋ間隔を用いて、各ヌクレオチドのランニング合計を維持することができる。というのは、それはトランスフォームで出現するからである。これらのＫ間隔を本発明のサーチエンジンで用いて、カウンティングプロセスをスピードアップすることができ、これは、図３および４との関連で後に考察する。具体例には、Ｋ間隔の使用は、サーチエンジンが、特に、長さが４００万文字より大きなヌクレオチド配列に適用される場合、慣用的な単語カウンティング技術よりも優れており、より少ないスペースを用いることを可能とする。

以下の例は、さらに、どのようにしてトランスフォームがＫ間隔を用いて表化されるかを説明する。トランスフォームが１０の文字ＡＣＧＴＣＡＧＴＣＡを有し、かつＫ間隔が５つの文字ごとに貯蔵されると仮定する。最初の間隔においては、Ｋ間隔は１つのＡ、２つのＣ、１つのＧおよび１つのＴを含む。第二の間隔（例えば、１０番目の文字）において、Ｋ間隔はトランスフォームで起こり、かくして、遠い全てのヌクレオチドの表化を含む。第二のＫ−感覚は３つのＡ、３つのＣ、２つのＧ、および２つのＴを含む。

工程８４０においては、所定の圧縮率に従って、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒストリングを圧縮する。好ましくは、ストリングは３／１圧縮比を用いて圧縮する。すなわち、３文字ごとでは、ストリングを１つの文字に圧縮する（例えば、３０００文字を１０００文字に凝縮する）。当業者であれば、他の圧縮比を用いることができるのを認識するであろう。例えば、４／１または５／１圧縮を使用することができる。ストリングは辞書−ベースの圧縮スキームを用いて圧縮することができ、１２５の区別される単一バイト暗号のうちの１つは５^３の可能な３文字サブストリング（例えば、ＡＡＡ、ＡＡＣ、．．．、ＴＴＴ）の各々の１つを表す。さらに詳しくは、トランスフォームを３文字サブストリングに分割し、各サブストリングは辞書ベースの圧縮スキームに従って圧縮する。例えば、もし３文字サブストリングがＡＡＡであれば、それは、辞書圧縮スキームのバイト０と等しいであろう。同様に、もしサブストリングがＴＴＴであれば、これは、辞書圧縮スキームのバイト１２４と等しいであろう。

辞書−カウントデータ構造を創製して、圧縮されたバイトで起こる特定の文字の回数の数を迅速に同定するためのより速いアクセス早見表を供することによってカウンティングプロセスにおけるサーチエンジンを助けることができる。これはサーチエンジンが、その圧縮された状態にありつつトランスフォームについてカウンティング操作を実行するのを可能とするので有利である。しかしながら、サーチエンジンがサーチエンジン内で起こる特定の文字の回数の数のカウンティングを終了させるためには、バイトは圧縮解除できなければならないことに注意すべきである。平均して、圧縮されたトランスフォームのバイトは、サーチエンジンによって実行される文字カウンティング工程の間に２／３の時間だけ圧縮解除されることが判明した。

一旦トランスフォームが圧縮されれば、本発明のサーチエンジンで用いる用意ができる。特に、圧縮されたＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームは、ゲノム内に含まれる特定の単語の各出現を突き止め、それをカウントするように質問できる。

（Ｃ．単語カウンティングアルゴリズム）
図９は、マーエンジンの原理に従って、与えられたゲノムに存在する特定の単語の回数の数をカウントするための例示的工程の単純化されたフローチャートである。工程９１０において出発し、ゲノムの圧縮されたトランスフォームおよび補助的データ構造が提供される。圧縮されたトランスフォームおよび補助的データ構造は、例えば、図８に示したフローチャートから得ることができる。工程９１４においては、特定の長さの質問パターンが供される（例えば、ＡＣＧ．．．Ｇ）。該パターンは、好ましくは、ゲノムのトランスフォームにおいてサーチエンジンが探すヌクレオチドのストリングである。

質問パターンが供された後、サーチエンジンは反復サーチィングプロセスを開始して、パターンが存在するか否かを決定する。もしパターンが存在すれば、それは、それが出現する回数の数を迅速かつ正確に出力する。工程９１８において、反復プロセスはサーチ領域を規定する（または再度規定する）ことによって開始され、これは、トランスフォーム内の文字位置の範囲を定める。サーチ領域は、圧縮されたトランスフォームの位置Ｘで出発し、位置Ｙで終了する文字のブロックを示す。このサーチ領域（またはブロック）は、質問パターンの全ての出現を潜在的に含む。サーチ領域は、質問パターンの特定の文字、アルファバウンド、および他のデータのような予め規定された基準を用いて定義される。どのようにしてサーチ領域が規定されるかのより詳しい説明は、図１０に伴う記載の方法と組み合わせて考察する。

工程９２０においては、プロセスは、質問パターンの次の先行文字がサーチ領域に出現するかを決定する。工程９２２においては、もし先行文字カウントが０であれば、質問パターンは存在せず、プロセスは終了する（工程９２４）。もし少なくとも１つの文字が定められた版以内で見出されれば、プロセスは工程９２６まで進行する。工程９２６において、先行文字が質問パターン中の最初の文字であるか否かが判断される。もしそうであるならば、プロセスは工程９２８まで進行し、ここに、工程９２０で得られたカウントは出力され、プロセスは終了する。もし先行文字が質問パターンの最初の文字でなければ、プロセスは工程９１８までループを戻る。なぜならば、もし質問パターンがゲノムに存在するか、または存在しなければ、それは未だ判断されていないからである。工程９１８においては、サーチ領域は所定の基準を用いて再度規定される。

さらに詳しくは、サーチ領域は方程式１および２を用いて再度規定される：
出発位置＝Ａ＋Ｚ（１）
終了位置＝出発位置＋Ｍ−１（２）
ここに、Ａはアルファバウンドに従う先行文字の出発位置であり、Ｚは現在規定されたサーチ領域に先立ってトランスフォームが出現する先行文字の回数の数を表し、およびＭは、現在規定されたサーチ領域で出現する先行文字の回数の数を表す。

再度規定されたサーチ領域は、質問パターンの全ての出現を潜在的に含むが、新しく規定されたサーチ領域は、さらに、工程９２０でサーチされる必要がある文字位置を限定する。新しいサーチ領域が規定された後、プロセスは工程９２０まで続けられ、ここに、質問パターンの次の先行文字（すなわち、先の工程９２０で用いた最後の文字に先行する文字）を新たに規定されたサーチ領域内でカウントする。このループは、質問パターンの最初の文字および、結果として、単語カウントの数を見出す前に、必要であれば、多くの回数反復する。もし先行文字の１つがサーチ領域で見出されないならば、そのようなパターンはゲノムで存在しないと結論されるであろう。

図１０ＡないしＢは、これまでの単語カウンティグアルゴニズムの例を示す。この例は、表１および２との関係で既に記載した例示的ゲノム（ＡＧＡＣＡＧＴＣＡＴ＄）、添字アレイ、Ｂｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォーム（ＴＧ＄ＣＣＡＴＡＡＡＧ）、およびアルファバウンドを用いる。この例においては、ユーザーが、単語「ＣＡＧ」が何回ゲノムで出現するかを決定したいものと仮定する。

図１０Ａにおいては、プロセスはＧブロックを定めることによって開始する。なぜならば、Ｇは単語「ＣＡＧ」中の最後の文字だからである。示したように、ＧブロックはＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームの位置７で開始し、位置８で終了する。これらの位置はアルファバウンドから得られる。一旦Ｇブロックが定められれば、エンジンはＧブロック内に存在する「ＣＡＧ」の次の先行文字であるＡの数をサーチし、カウントする。図１０Ａは、２つのＡがＧブロックで出現することを示し、かくして、ゲノムは「ＡＧ」の２つの出現を含むことを示す。

所望であれば、Ｋ間隔を用いて、サーチ領域内で出現する特定の文字の回数の数をカウントする工程（例えば、Ｇブロック中のＡの数のカウント）を容易とすることができ、また、それを用いて、サーチ領域前に出現する特定の文字の回数の数をカウントすることもできる。そのようなカウンティング工程を行うためには、特定の文字を所定の位置（例えば、開始位置）から出発してカウントし、複数のＫである最も近い位置まで進行させる。サーチエンジンとの関連でＫ間隔を用いる１つの利点は、何回特定の単語がゲノムで出現するかを決定するのに要する時間がＫ間隔、サーチすべき単語のサイズ、および種々のメモリーアドレスにアクセスするのに必要な時間に関して線形であることである。かくして、圧縮されたトランスフォームのサイズおよびＫ間隔データ構造がメモリー（例えば、ランダムアクセスメモリー）にフィッティングするのに余りにも大きいのでなければ、ゲノムのサイズは単語カウントを決定するにおいて因子ではない。１つの具体例において、Ｋを、３００文字、または同等には１００の圧縮されたバイトに設定することができる。そのような配置にて、行う必要があるカウントの最大数はＫ／２を超えない。

所望であれば、各Ｋ間隔内のサイズＫ＾のサブ間隔を用いて、特定のＫ間隔内で起こる文字のランニング合計を維持することができる。もしＫのサイズが２^８未満に制限されていれば、例えば、次いで、各Ｋ間隔の各文字についてのカウントを単一バイトを用いて記録することができる。これは、ただ［（Ｋ／Ｋ＾）／４］のファクターだけＫ間隔カウントについてのスペース要件を増加させつつ、Ｋ／Ｋ＾ファクターだけカウンティング指標の増大させた密度を提供する。そのようなサブ間隔およびサイズの高速は、このアルゴリズムの関係で用いられている補助データ構造によって使用されてきた。ＫおよびＫ＾の選択に依存して、質問実効スピードの３倍ないし５倍増加ヒトゲノムについての２ギガバイト未満のメモリー要件を維持しつつ達成されてきた。

カウンティングプロセスをさらにスピードアップするためには、辞書カウントデータ構造を用いることができる。用いる圧縮スキームは３：１圧縮スキームであり、ここに、バイト０ないし１２４は、各々、「ＡＡＡ」ないし「ＴＴＴ」に圧縮解除されることに注意すべきである。辞書−カウント構造は、５つの欄にて１２５列を持つ行列と考えることができる二次アレイである。各列は、圧縮辞書エントリーの１つに対応し、各欄はＡないしＴのゲノムアルファベットの各文字に対応する。以下に、例として、どのようにして辞書カウント構造およびＫ間隔を用いて、カウンティング操作を実行できるかを説明する。

例えば、サーチエンジンは、サーチ領域の前で起こるＡの数を決定するプロセスにおけるものであると仮定する。前記したＫ間隔カウント構造を用い、エンジンは単一ルックアップ中のサーチ領域の現在の開始位置の少なくとも５０バイト内まで「ジャンプ」することができる。さらに、開始位置は、該間隔の４９番目のバイトである圧縮された「ＡＴＴ」（バイト）における３番目の「Ｔ」を指し示すと仮定する。４８の先行するバイトの各々については、バイト事態は、辞書カウントデータ構造中の列の数として用いることができ、注目する文字「Ａ」は欄の数を表す。辞書カウントアレイにアクセスするための座標としてこの情報を用い、辞書カウントデータ構造は、その圧縮されたバイト中で出現する「Ａ」の回数を供する。従って、どれくらい多くのＡがサーチ領域の開始前に出現するかを決定するためには、辞書カウント構造は４８回アクセスする必要がある。加えて、４９番目のバイトを圧縮解除して、「ＡＴＴ」バイトの最初の２つの文字「ＡＴ」を調べる必要がある。

かくして、辞書カウントデータ構造をＫ間隔データ構造と組み合わせると、いずれかの数の文字をカウントする工程はＫ／６＋１の表ルックアップと、最悪な場合には２つの文字の比較のみを必要とする。

図１０に戻ってそれを参照し、次いで、サーチエンジンは、それがどこで次の先行文字をサーチするかを知るように、トランスフォーム内のＡＧブロックを定める。ＡＧブロックの境界は、トランスフォーム中のＧブロックに先行するＡの回数を、トランスフォームにおいてＡブロックが始まる最初の位置に加えることによって見出される。この例において、ただ１つのＡがＧブロック前に起こる。したがって、Ａが１であって、Ｚが１である前記方程式１を用い、ＡＧブロックについての２の開始位置が得られる。ＡＧの終了位置は、Ｍが２（Ｇブロックで見出されるＡの数）である前記方程式２を用いて得られる。方程式２により、図１０Ｂに示すように、３のＡＢブロックの終了位置が得られる。

一旦ＡＧブロックが見出されると、サーチエンジンはそこで起こるＣのかいすをカウントする。このカウントにより、ゲノムで起こるＣＡＧの数が得られる。なぜならば、Ｃは単語「ＣＡＧ」の最初の文字だからである。かくして、サーチエンジンにより、１つの単語カウントが得られる。

図１１は、座標位置を有する例示的ゲノム、および該ゲノムの座標位置に対応する座標位置を有する分類された添字アレイを示す。すなわち、添字アレイの各列における最初の文字はゲノム中の文字のうちの１つに対応する。例えば、アレイの第二の列は２の座標位置を有し、これは、ゲノムの位置２に対応する。かくして、添字アレイの座標位置はゲノムの座標位置に相関する。

所望であれば、添字アレイを用いて、特定の単語の座標位置を突き止めることができる。例えば、もし「ＣＡＧ」の座標位置が求められているならば、図１１の添字アレイをアクセスすることができ、それは、ＣＡＧが位置３で開始することを示すであろう。しかしながら、前記したように、添字アレイのアクセスは時間を消費するプロセスである。なぜならば、それはハードディスクドライブのアクセスを必要とするからである。従って、メモリーをアクセスすることのみによって単語の座標を得るのが望ましい。これは、予め選択された添字アレイの座標をトランスフォームに割り当て、それにより、座標突き止めアルゴリズムが、トランスフォームを用いて、特定の単語の開始座標を突き止めるのを可能とすることによって達成することができる。

そのような座標突き止めアルゴリズムを例として説明する。添字アレイの丸印の部分はゲノムのトランスフォームであって、座標３および７のみが添字アレイからのトランスフォームまで運ばれたと仮定する。さらに、ＴＣの座標を見出すことが望まれていると仮定する。（もしトランスフォームがＴＣに所属するＧに関連する座標を有するならば、ＴＣの座標は座標突き止めアルゴにズムの使用に頼る必要なくして知られるであろうことに注意すべきである）。ＴＣはトランス携帯中の最後のＧに関連することが知られている。このＧで出発し、該アルゴリズムは、どれくらい多く先行Ｇがあるかを決定する。この場合、１つの先行Ｇがある。

アルファバウンドデータ構造および先行Ｇの数を用いて、いずれの文字がこの特定のＧに先行するかを決定する。アルファバウンドを用い、Ｇブロックが位置７で開始することが知られる。１つの先行Ｇがあるので、該アルゴリズムはこの数を７に加えて８を得る。かくして、ＧＴで開始する添字アレイストリングに対応するＡは、前記したＧに先行する文字である。これは、座標突き止めアルゴリズムの１つの反復を完了する。一般的に言って、この反復は、トランスフォーム上の座標（例えば、３または７）に到達するまで反復される。一旦座標が到達すれば、反復の数を座標に加え、得られた合計は所望の単語（例えば、ＴＣ）の現実の出発座標位置である。

反復プロセスを継続し、２つのＡが、ＧＴで開始する添字アレイストリングに関連するＡに先行することが知られる。アルファバウンドおよび先行Ａの数を用い、該アルゴリズムは、ＡＧＴで開始する添字アレイに関連するＣで落ち着く。この特定のＣに先行するＣはないので、該アルゴリズムはＣＡＧで開始する添字アレイに関連するＡで落ち着く。このＡは座標位置（例えば、３）を有するので、単語ＴＣの現実の位置は、３（このＡの座標位置）をこの例では３である反復の数に加え、その結果、６の座標位置が得られることによって決定することができる。かくして、ＴＣは元のゲノムにおける６の座標位置で開始する。

（Ｄ．サーチエンジンの適用）
サーチエンジンの操作特徴を記載してきたので、エンジンの現実的適用を考察することができる。サーチエンジンの１つの適用は、それを用いて、ゲノム（またはいずれかの他のタイプのヌクレオチド配列）を注釈することができることである。特に、ゲノム内に存在する特定の長さのサブストリングを用いてゲノムを注釈することができる。次いで、サーチエンジンは、ゲノムで起こる特定の長さのサブストリングの回数の数をカウントすることができる。これらのカウントは特定のサブストリングのユニーク性の指標を提供し、ここに、より低いカウントはより高いカウントよりも高度なユニーク性を表す。

所望であれば、ゲノムのいずれかの領域または全ゲノムをその構成要素「マー」頻度に基づいて注釈することができる。「マー」は、特定の長さの単語またはサブストリングについてのもう１つの用語である。かくして、ゲノムまたはその一部を注釈試料としている場合、それは特定の長さのマー（例えば、１５、１８、２１および２４のマー長さ）に基づいて注釈される。注釈すべきマー長さとは無関係に、ゲノムに存在するその長さの各マーがカウントされる。例えば、もしマー長さが１５であれば、サーチエンジンは最初の１５量体についての単語カウントおよび、その後に起こる各１５量体を決定するであろう。各継続する１５量体は１文字だけ以前の１５量体単語と重複する。すなわち、文字１ないし１５は１５量体を構成し、文字２ないし１６はもう１つの１５量体を構成し、文字３ないし１７はさらにもう１つの１５量体を構成する。等各。これは、各注釈された１５量体に、単語カウントが全ゲノムで起こるその特定の１５量体の回数の数を表すように、単語カウントが割り当てられることを確実とする。

プローブの設計はサーチエンジンを用いることによって促進される。ゲノムに出現する特定の単語の回数の数を迅速にカウントするエンジンの能力は、ユニークであって、最小の交差−ハイブリダイゼーションにてＤＮＡの特異的領域にハイブリダイズするプローブを設計するのに有用である。サーチエンジンを用いることによって、潜在的交差−ハイブリダイゼーションは、ユニークであって、全ゲノム内に少数の単語カウントを有する、または単語カウントを有しないようなあるストリンジェンシー条件を満足するより小さなマーよりなる候補プローブを選択することによって最小化することができる。ユニークな単語は、その部分のゲノム内に所定の単語カウントの数未満（例えば、２、５、１０、２５、５０または１００単語カウント未満）を有する、または単語カウントが存在しない（例えば、ゼロ単語カウント）ヌクレオチドの特定のストリングであり得る。

さらに詳しくは、候補プローブは、長さＬ１を候補が有する必要性、および候補が所定の単語カウントを有する必要性（例えば、１の単語カウントを有する候補プローブ）のような所定の基準の組に基づいて得られる。加えて、所定の基準は、候補の逆相補体が所定の単語カウント（例えば、１）を有することを要求することもできる。一旦候補が得られれば、それらを更なる所定の基準に付して、いずれの候補がプローブとして用いるのに適当であるかを決定する。これらの更なる基準を用いて、それらの構成要素サブ領域（すなわち、候補プローブ内に含まれる長さのマー）に基づいて候補を濾過する。例えば、濾過基準は、Ｌ２がＬ１未満である長さＬ２のマーが、他のプローブ候補に対して最小化される単語カウントを有することを要求し得る。かくして、プローブを見出すのに用いられる基準内に関係が存在する−（例えば、各候補がゲノムに関してユニークである）「ハードな」高速および（例えば、構成要素マーカウントが最小化される）「ソフトな」高速の間の関係。

「ハードな」高速を満足する１つの方法は、以前に実行された注釈の結果に基づいて候補を得ることである。単語カウント情報を用い、候補は、単語カウントの低い濃度を有するゲノムの領域から選択することができる（例えば、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを有する候補を得るのが好ましい）。

「ソフトな」拘束を満足するためには、１５量体カウント、１７量体カウント等のような予め規定された基準に従って候補を注釈することができる。注釈から得られたデータを解析して、候補がプローブとして用いられるのに十分な位ユニークであるか否かを決定する。候補は、もし、例えば、それが全ての候補の１５量体カウントの最低合計を有するならば、プローブとして選択することができる。組成物バイアス（例えば、特定のヌクレオチドの長いストリング）の最小出現のような他の基準を適用して、いずれのプローブが最良であるかを決定することができる。該基準を各候補に適用した後、１以上の候補を適当なプローブとして選択する。

サーチエンジンのさらにもう１つの適用は、１つのゲノムからもう１つのゲノムへの変化を検出することである。例えば、ヒトゲノムプロジェクトが進行するにつれ、ゲノムの新しいセグメントがマップされ、公衆に解放される。サーチエンジン、および同一ゲノムのもう１つのバージョンについて設計されたプローブを用い、どれくらい多くのプローブをゲノムの新しいバージョンに適用することができるかを決定することができる。

サーチエンジンを用いることができるなおさらなるもう１つの適用は、特定の単語はゲノムに存在するが否かを確認することである。単語がゲノムのセクションにハイブリダイズする確立がほとんどないように、ゲノムに出現しない単語を見出すのが望ましいであろう。これらの単語は、基準の所定の組に従ってランダムに作り出すことができる。単語が見出されると、その相補体もサーチエンジンに形質して、それがゲノムで出現するか否かを決定する。もし単語およびその相補体双方がゲノムで出現しないならば、ゲノムにこの単語およびその相補体がハイブリダイズする確率は最小である。そのような非−ハイブリダイジングプローブはリーダブルバーコードとしてハイブリダイゼーションで、およびハイブリダイゼーションアレイ対照で用いることができ、ネットワーク情報を通じてハイブリダイゼーションシグナルを増強させる目的で核酸プローブに加えることができる。

ハイブリダイゼーションの機会を最小化する１つの方法は、特定の単語の構成要素マーの頻度を最小化することである。すなわち、ゼロの単語カウントを有する多くの構成要素マー長さを有するプローブを得るのが好ましい。例えば、いくつかの２０量体オリゴヌクレオチドの、ヒトゲノムにハイブリダイズしない目的でもって作り出すと仮定する。次いで、さらに、その構成要素の重複１９量体、１８量体、１７量体、１６量体、さらに下へ行って例えば、６量体の各々について、各２０量体が注釈されると仮定する。理論的には、最も望ましい２０量体は、好ましくは、各長さのマーにつきゼロの単語カウントを有するであろう。現実には、ハイブリダイゼーションに対する最小の機会を有するプローブは、好ましくは、可能な限りマー長さがゼロの多くのマーカウントを有する（例えば、望ましいプローブは１９、１８、１７、１６、１５、１４および１３にマー長さについてのゼロ単語カウントを有するであろう）。かくして、もし１つのプローブがその構成要素１５および１４量体のゼロカウントを有するならば、それは、その構成要素１５量体のゼロカウントを有するが、その構成要素１４量体の１以上のカウントを有するプローブよりもゲノムにハイブリダイズしないようである。かくして、前者のプローブは、後者のプローブよりもハイブリダイズする低い機会を有する。なぜならば、それは、ゲノムのセクションとのいずれかのマッチするいずれの１４量体も有しないからである。

非−ハイブリダイジングオリゴヌクレオチドは、０または低い単語カウントを有する特定のマーの構成要素マーを用いて構築することができる。例えば、もし特定の２０量体が０単語カウントを有する１３量体を有するならば、この１３量体を用いて、ゲノムに恐らくは存在しないオリゴヌクレオチドを形成することができる（例えば、これらの１３量体の２つを相互に付着させて、ユニークな２６量体を作り出すことができる）。

実験室的設定においては、例えば、ゼロカウント単語およびそのゼロカウント相補体（非−ハイブリダイジングオリゴヌクレオチド）を（ハイブリダイジング）プローブまたは標的単語に付着させることができる。要約の意味においては、単語は「ボディ」（すなわち、プローブ）に付着された「アーム」である。ハイブリダイゼーションが開始すると、単語（「アーム」）は相互にハイブリダイズするに過ぎず、他方、プローブはゲノムにハイブリダイズする。単語（「アーム」）は、典型的には、検出可能な物質（例えば、蛍光標識）を運ぶので、自己ハイブリダイゼーションは、バックグラウンドハイブリダイゼーションに対してゲノム内のプローブの位置を区別するのを助ける。かくして、アームの自己のハイブリダイゼーションはゲノムにハイブリダイズするプローブの視覚性を増幅するように働く。

また、非ハイブリダイジングオリゴヌクレオチドをタグとして用いて、他の配列の膨大な集団内で特定の配列をユニークに同定することもできる。非ハイブリダイジングオリゴヌクレオチドを公知の配列に付着させることができ、それにより、特定の配列にタグを加え、または標識することができる。

さらにもう１つの例において、いくつかの異なるＤＮＡ配列を繋いで、（例えば、図８の工程８１０に供される）単一のゲノムを形成することができる。そのような繋がれたゲノムは、例えば、ヒト血液試料内での特定の病原体（例えば、ウイルス）の存在を検出するプローブを設計するのが望ましいならば、有用である。繋いだゲノムは必要である。なぜならば、ヒト血液から抽出したＤＮＡはヒトＤＮＡを含むのみならず、病原体のような他の源からのＤＮＡを含むからである。したがって、プローブがヒト血液中の病原体を効果的に検出するためには、それはヒトゲノムに交差ハイブリダイズすべきではない。

病原体プローブが組織試料中の他のゲノム（例えば、患者のゲノム、および患者で見出された他の微生物のゲノム）に関して完全にはユニークではない場合、他のゲノムにおけるプローブについての単語カウントと、病原体ゲノムにおけるプローブについての単語カウントを比較する必要があろう。このアプローチは２つのサーチエンジンを必要とするであろう −１つは注目する病原体用であり、他方は他のゲノムの組合せ用である。このデュアルサーチエンジンアプローチを適用するにおいて、組織試料中の他のゲノムにおけるプローブカウントが比例せずに低い限り、病原体ゲノム内に高いマーカウントを有するプローブを設計するのが有利であろう。

（ＶＩＩ．実施例）
以下の実施例は説明のためのみに掲げる。それは、本明細書中で開示する発明の範囲を限定する意図ではない。

（実施例１−提示に対して相補的であるオリゴヌクレオチドの選択）
本実施例は、ヒトゲノムのＢｇｌＩＩ−誘導表示に相補的であるオリゴヌクレオチドプローブの同定を示す。同様なアプローチを用いて、その配列が知られている、または予測される核酸のいずれの集団に対して相補的なオリゴヌクレオチドも設計することができる。ヒトゲノム配列の公表されたドラフトアセンブリーを用い、我々は、ドラフトアセンブリー内の全てのＢｇｌＩＩ制限部位を突き止めることによってヒトゲノムのｉｎｓｉｌｉｃｏＢｇｌＩＩ消化を行った。我々は、さらに、長さが２００ないし１，２００塩基対の間であるＢｇｌＩＩ断片の全ての配列を選択した。次いで、我々は、本明細書中で記載したアルゴリズムを用いてこれらの断片の配列を分析した。（「マー−エンジン」とも呼ばれる）このアルゴリズムを用いて、いずれかの配列決定されたゲノムにおけるいずれかの与えられたオリゴヌクレオチド配列のコピー数を決定することができる。このコピー数は、ゲノム中のオリゴヌクレオチド配列の「単語カウント」とも呼ばれる。

我々は、ヒトゲノムの同一ドラフトアセンブリーから構築されたマー−エンジンを用いて、その構成要素、重複する１５−および２１量体（すなわち、１５または２１ヌクレオチドを有するオリゴヌクレオチド）の単語カウントを持つ各ＢｇｌＩＩ−消化断片を注釈した。これを行うために、我々は、構成要素毎に各断片につき、重複する７０量体オリゴヌクレオチドをｉｎｓｉｌｉｃｏ創製した（例えば、１００塩基対断片は３１のそのような７０量体を有するであろう）。以下の属性が後記する断片のそのような７０量体ごとに決定された：最大２１量体（または最大１８量体カウント）、１５量体カウントの幾何平均、パーセントＧ／Ｃ含有量、および各塩基の量、ならびにいずれかの単一塩基の最大ラン。

最大２１量体カウントを決定するために、我々は、各７０量体を重複する２１量体に分解させ、ゲノム中の２１量体配列の全てに対してこれらの２１量体の各々を比較した。我々は、その最大２１量体カウントが１よりも大きな全ての７０量体、すなわち、ゲノム中の１を超える２１量体配列に１００％相補的な２１量体配列を持つものを捨てた。これは７０量体プローブの我々の最初の組であった。

我々は、さらに、３０％未満、または７０％より大きなＧＣ含有量、６塩基よりも大きなＡ／Ｔのラン、または４塩基よりも大きなＧ／Ｃのランを持つものを除去することによって。７０量体プローブを最適化した。残りの７０量体から、我々は、全体としてゲノムのそれに比例して近いＧＣ／ＡＴを有する１（以上の）７０量体を各ＢｇｌＩＩ断片につき選択した。我々は、さらに、７０量体の構成要素の各々、重複する１５量体につきゲノム単語カウントを決定することによって、かく選択された７０量体の各々を分析した。我々は、最低の平均１５量体カウントを有する７０量体を選択する。

総じてのユニーク性についての最終チェックとして、各ＢｇｌＩＩ断片についての最適７０量体プローブを、ＢＬＡＳＴソフトウエアプログラムを用いて全ゲノムと比較した。行わなかった低い複雑性の配列の濾過を例外として、欠陥パラメータを用いた。それ自体以外のいずれかの配列に対してその長さの５０％以上に沿っていずれかの程度の相同性を持ついずれの７０量体プローブも排除した。

マー−エンジンアルゴニズムは、プローブ設計プロセスに対して厳格性、柔軟性および単純性を与えた。全てのサイズの単語につき単語カウントを迅速に決定する能力は、設計基準が、現実のハイブリダイゼーション事象に類似した方法で定量的に構成されるのを可能とする。単語カウントは、配列がポリヌクレオチドの２以上の組に属する程度の定量的尺度と考えることができる。例えば、小さなプローブ「ＡＧＴ」は、６つの区別される単語、すなわち、「Ａ」、「Ｇ」、「Ｔ」、「ＡＧ」。「ＧＴ」および「ＡＧＴ」を含有する組と考えることができる。もしこのプローブを全てのサイズの全ての単語についての単語カウントで注釈するならば、プローブ「ＡＧＴ」である第一の組に出現する各単語の回数の数は、第二の組、すなわち、３０億のヌクレオチドゲノムにそれらが出現する回数の数によってかなり圧倒されるであろうことが見出されるであろう。

この関係は比率Ｘ／Ｙとして表現することができ、ここに、Ｘは当該プローブに対するプローブの構成要素単語の全てについてのカウントの総和であって、Ｙはゲノム内の同一単語の全てについてのカウントの総和である。最小交差−ハイブリダイゼーションにて標的配列にハイブリダイズする７０量体プローブを選択すると、比率Ｘ／Ｙを最大化することができ、ここに、ゲノム配列に由来するプローブについてのＸ／Ｙの最大値は１である。それに関して注釈すべき２単語長のみを選択する技術は、本質的には、この目標に向けての多くの可能な短いカットのうちの１つである。

注目するゲノム領域内でユニークなプローブが見出すことができない場合には、ユニークでないプローブを用いて、相対的コピー数の差、または単純に物の量の明瞭な測定を提供することが可能である。したがって、問題は単語の３つの組：プローブ、注目する含まれる領域、およびゲノムの間の比較まで拡大される。Ｚに、含まれる領域に対する全てのプローブ単語カウントの総計を表すようにする。ＸおよびＹは、各々、プローブおよびゲノムに対する全てのプローブ単語カウントの総計を表すと仮定する。次いで、目標は、表現、（Ｘ／Ｙ）／（Ｘ／Ｚ）、または単純にＺ／Ｙの値を最大化することである。換言すると、全コピー数とは無関係に、領域−特異的であるプローブを見出すことができる。この特殊な場合は、ハイブリダイゼーションを通じて多くのうち１つの特定の存在を認識するためにプローブを選択するいずれの状況も含むように一般化することができる。更なる例は、多くの他の生物のＤＮＡに暴露された場合の１つの生物のＤＮＡの認識である。

この範例のさらにもう１つの適用は、組メンバーシップの最小化のそれである。我々は、マイクロアレイ実験においてハイブリダイゼーション対照として働くプローブを設計した。これらのプローブは、いずれの他のプローブも認識する同等の機会を有するＤＮＡの断片のみにハイブリダイズすることがそれらに意図されている意味で対照である。この場合、目標は、単純に、Ｙができる限りゼロに近いプローブを設計することであった。そのようなプローブは、例えば、ハイブリダイゼーション−リーダブルユニークアイデンティファイヤーとして、またはネットワーキングを介してハイブリダイゼーションシグナルを増強するための他の核酸配列への添加としても有用である。

単語カウントの総計および幾何平均に加え、例えば、特定のサイズの単語についてのプローブの単語カウントの偏差を含めた、多くの他の統計学を用いることができる。この偏差は、特定のコピー数で存在しなければならないプローブの選択についての迅速なプレスクリーニングとして働くことができる。特定の単語サイズについての最大単語カウントは、他のユニークなプローブについての最悪な可能なハイブリダイゼーション結果の指標として採用することができる。これらの定量的尺度は、他の候補に対するハイブリダイゼーションプローブの適合性を迅速に決定するのに理想的である。マー−エンジンアルゴリズムは、本質的には、注目する配列にわたっての単一パススキャンニングまでプローブ選択のプロセスを低下させることができる。

我々が設計した８５，０００の７０量体よりなるプローブ組の１つは、０．８の標準偏差を持つ１．２のヒトゲノムに対する平均１８量体化カウントを保有した。平均は、組み合わせた全てのプローブの全ての１８量体の組にわたって計算された。先行技術、特に、ほぼ２３，０００の７０量体発現アレイプローブの公表された組と比較して、全ての組合されたプローブについての１８量体カウントの平均は１．９であり、標準偏差は１４．８であった。従って、プローブのこの組は４のファクターだけ２のうちのより大きいものであり、１８のファクターだけ終始一貫してよりユニークであった。本実施例における８５，０００プローブの組は、前記したように、ユニークな２１量体拘束および最小化された凝集体１５量体カウント拘束の組合せについて我々が選択した。利点は、経験的によく実行されることが反面したプローブが、ＤＮＡ断片の大きな異種集団に単純にハイブリダイズせず、それにより、そのシグナルを増大させたという信頼性の大きな増加を含んだ。これは、さらに、標的の平均単語カウントについての極端に小さな標準偏差のような厳しい規定された基準を満足するようにプローブ組を設計することができる精度を説明する。

（実施例２−アレイの調製）
我々は、実施例１に従って設計されたオリゴヌクレオチドプローブを含有するマイクロアレイを構築するための２つのフォーマットを用いた。これらのうち最初のもの、「印刷」フォーマットにおいて、我々は、固相化学で作成された約１，０００オリゴヌクレオチドを購入し、それらをクイルでガラス表面に印刷した。具体的には、我々は、ＣａｒｔｅｓｉａｎＰｉｘＳｙｓ５５００（ＧｅｎｅｔｉｃＭｉｃｒｏｓｙｓｔｅｍｓ）を用いて、４×４ビン遠心を用いて我々のプローブコレクションをスライド上に整列させた。各印刷されたアレイの寸法は概略２ｃｍ^２であった。我々のアレイは、商業的に製造されたシラン化スライド（Ｃｏｒｎｉｇ（登録商標）ｕｌｔｒａＧＡＰＳ^ＴＭ＃４００１５）上に印刷された。アレイで用いたビンは、ＭａｊｅｒＰｒｅｃｉｓｉｏｎからのものであった。

第二のフォーマット、「光印刷」フォーマットにおいては、オリゴヌクレオチドは、レーザー−指向性光化学を用いてＮｉｍｂｌｅＧｅｎ^ＴＭＳｙｓｔｅｍｓ，Ｉｎｃ．によってシリカ表面に直接合成された。ほぼ７００，０００のユニークな７０量体オリゴヌクレオチドを、まず、それを８つのチップ上に整列させ、それを、正常な男性Ｊ．ＤｏｅからのゲノムＤＮＡのＢｇｌＩＩおよびＥｃｏＲ１−枯渇ＢｇｌＩＩ表示とハイブリダイズさせることによって、「性能」につきスクリーニングした。我々は、最も強いシグナルを生じた８５，０００オリゴヌクレオチドをピックアップし、それを単一チップ上に整列させた。

双方のフォーマットにおいて、我々は、オリゴヌクレオチドをランダムな順番で整列させて、アレイハイブリダイゼーションの間に幾何学的人工物がゲノム障害と正しくなく解釈される確率を最小化した。引き続いての実施例において、我々は、１０Ｋ印刷アレイおよび８５Ｋ光印刷アレイでの結果を記載する。

（実施例３−テスト表示の調製および標識）
本明細書中に記載したいくつかの実験では、我々はＢｇｌＩＩを選択して、表示を作成した。ＢｇｌＩＩはこれらの特定の実験で有用な特徴を有する：それは頑強な酵素であり；その切断部位はＣｐＧメチル化によって影響されず；それは４塩基突出を残し；およびその切断部位はヒトゲノム中の合理的に均一な分布を有する。ＢｇｌＩＩ表示は、一般には１，２００ｂｐよりも小さな短い断片よりなる。我々は、１７ｋｂの平均間隔を持つ、ヒトゲノムの約２．５％を含むそれらの約２００，０００があると見積もった。

本明細書中に記載した実験の全てにおいて、我々は、平行して調製した表示の比較ハイブリダイゼーションを用いた。比較すべき２つの試料からのＤＮＡを同時に調製し、同一プロトコル、試薬およびサーマルサイクラーを用い、同一濃度の鋳型から表示を調製した。これは、ＰＣＲ増幅に際しての可変収率によって生じる可能な「ノイズ」を排除するであろう。

我々は、Ｌｕｃｉｔｏｅｔａｌ．，１９９８，前掲によって以前に記載されたようにヒトゲノムＤＮＡのＢｇｌＩＩ表示を調製した。簡単に述べれば、我々は、供給業者によって提案された条件下で、ＢｇｌＩＩで３ないし１０ｎｇのヒトゲノムＤＮＡを消化した。我々は、フェノール抽出、および１０μｇのｔＲＮＡの存在下でのエタノール沈殿によって消化物を精製した。我々は、４４４ｐｍｏｌの各アダプター（ＲＢｇ１２４およびＲＢｌｇ１２；Ｌｕｃｉｔｏ，Ｒ．ａｎｄＭ．Ｗｉｇｌｅｒ．２００３．「ＰｒｅｐａｒａｔｉｏｎｏｆＴａｒｇｅｔＤＮＡ」，ＩｎＭｉｃｒｏａｒｒａｙ−ｂａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＡｎａｌｙｓｉｓｏｆＤＮＡＣｏｐｙＮｕｍｂｅｒ（Ｄ．Ｂｏｗｔｅｌｌ＆Ｊ．Ｓａｍｂｒｏｏｋ編），ｐｐ．３８６−３９３．ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，ＮＹ）を含む３０μｌの１× Ｔ４ＤＮＡリガーゼ緩衝液中にペレットを再懸濁させた。我々は、反応混合物を予熱した５５℃のヒートブロックに投入し、温度が１５℃まで降下するまで、ヒートブロックをほぼ１時間氷上に置いた。次いで、我々は、４００ｕｎｉｔのＴ４ＤＮＡリガーゼを加え、反応混合物を１５℃にて１２ないし１８時間インキュベートした。

我々は、１／４０の連結物質、２０μｌの５×ＰＣＲ緩衝液［３３５ｍＭトリス−ＨＣｌ，ｐＨ８．８；２０ｍＭＭｇＣｌ_２；８０ｍＭ（ＮＨ_４）_２ＳＯ_４；５０ｍＭ β−メルカプトエタノールおよび０．５ｍｇ／ｍｌＢＳＡ］、０．３２ｍＭの最終濃度までの２’−ジデオキシヌクレオチド５’三リン酸、０．６μＭの最終濃度までのＲＢｇ１２４アダプター、１．２５ＵのＴａｑポリメラーゼおよび水を２５０μｌのチューブに加えて、容量を１００μｌとした。チューブを７２℃に予熱したＭＪＲｅｓｅａｒｃｈＴＥＴＲＡＤ^ＴＭサーモサイクラーに入れた。次いで、我々は以下のように増幅を行った：５分間の７２℃における１サイクル、次いで、９５℃における１分間、および７２℃における３分間、続いて、７２℃における１０分間の延長時間の２０サイクル。我々は、ＴＥ（ｐＨ８）に再懸濁させ、ＤＮＡ濃度を測定する前に、フェノール：クロロホルム抽出およびエタノール沈殿によって、表示（すなわち、ＰＣＲ産物）を洗浄した。

ある実験では、我々は、その制限部位を含む断片を切断するためにさらなる制限エンドヌクレアーゼでの消化によって枯渇した表示を調製した。これらの場合、我々は、増幅工程の直前に第二の制限エンドヌクレアーゼで連結混合物を消化した。以下に記載する実験では、ＨｉｎｄＩＩＩを用いて枯渇したＢｇｌＩＩ表示を製造した。

我々は、ＤＮＡを０．２ｍｌのＰＣＲチューブに入れることによって表示中の断片を標識した。我々は、Ａｍｅｒｓｈａｍ−ＰｈａｒｍａｃｉａＭｅｇａｐｒｉｍｅ^ＴＭ標識キットからの１０μｌのプライマーを加え、それらをＤＮＡとよく混合した。我々は、容量を水で１００μｌとした。我々は、チューブを１００℃にて５分間、ＭＪＲｅｓｅａｒｃｈＴＥＴＲＡＤ^ＴＭマシーンに入れ、５分間氷上に置き、Ａｍｅｒｓｈａｍ−ＰｈａｒｍａｃｉａＭｅｇａｐｒｉｍｅ^ＴＭ標識キットからの２０μｌの標識緩衝液、１０μｌの標識（Ｃｙ３^ＴＭ−ｄＣＴＰまたはＣｙ５^ＴＭ−ｄＣＴＰ）および１μｌのＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ（登録商標）クレノウ断片を加えた。我々は、３７℃にてチューブを２時間インキュベートし、標識された試料（Ｃｙ３^ＴＭおよびＣｙ５^ＴＭ）を１つのＥｐｐｅｎｄｏｒｆ（登録商標）チューブに組み合わせ、次いで、５０μｌの１μｇ／ｕｌヒトＣｏｔ１ＤＮＡ、１０μｌの１０ｍｇ／ｍｌストック酵母ｔＲＮＡ、および８０μｌの低ＴＥ（３ｍＭトリスｐＨ７．４，０．２ｍＭＥＤＴＡ）を加えた。我々は、試料をＣｅｎｔｒｉｃｏｎ（登録商標）フィルターに負荷し、１２，６００ｒｃｆにおいて１０分間遠心した。我々は、フロースルーを捨て、フィルターを４５０μｌの低ＴＥで洗浄した。我々は、遠心およびＴＥ洗浄を２回反復した。我々は、Ｃｅｎｔｒｉｃｏｎ（登録商標）カラムを新しいチューブに逆向きに入れ、１２，６００ｒｃｆで遠心することによって試料を標識した。我々は、標識された試料を２００μｌのＰＣＲチューブに移し、容量を低ＴＥで１０μｌに調整した。

加えて、いくつかの実験では、我々は、原発性卵巣癌細胞から、およびＭｃｒＢＣでの正常参照からのＤＮＡ単離体を消化し、リンカーを連結させ、前記したように増幅した。

（実施例４−テスト表示のアレイへのハイブリダイゼーション）
我々は、３００ｍＪに設定したＳｔｒａｔａｇｅｎｅ（登録商標）Ｓｔｒａｔａｌｉｎｋｅｒ（登録商標）を用いてオリゴヌクレオチドプローブをスライドへＵＶ−架橋させ、スライドを１８０度回転させ、同一ポット中のスライドを架橋剤中に維持し、処理を反復した。我々は、スライドを０．１％ＳＤＳ中で２分間洗浄し、Ｍｉｌｌｉ−Ｑ（登録商標）水中で２分間洗浄し、沸騰したＭｉｌｌｉ−Ｑ（登録商標）水中で５分間洗浄し、最後に、氷冷９５％ベンゼンフリーのエタノール中で洗浄した。我々は、スライドを金属ラック中に入れ、それを７５ｒｃｆにて５分間回転させることによって乾燥した。我々は、印刷されたマイクロアレイをコップリンジャーまたは他のスライド処理チャンバーに入れ、プレハイブリダイゼーション緩衝液（２５％脱イオン化ホルムアミド、５× ＳＳＣおよび０．１％ＳＤＳ）を加え、チャンバーを２時間で６１℃まで予熱することによって印刷されたマイクロアレイをプレハイブリダイズさせ、次いで、Ｍｉｌｌｉ−Ｑ（登録商標）水中でそれを１０秒間洗浄した。我々は、再度、スライドを金属スライドラックに入れ、７５ｒｃｆにて５分間回転させることによってそれを乾燥した。ＮｉｍｂｌｅＧｅｎ^ＴＭ光印刷したアレイはＵＶ架橋またはプレハイブリダイゼーションを必要としなかった。

我々は、実施例３のように調製した１０μｌの標識した試料に２５μｌのハイブリダイゼーション溶液を加え、混合した。印刷したスライドでは、ハイブリダイゼーション溶液は２５％ホルムアミド、５× ＳＳＣ、および０．１％ＳＤＳであった。ＮｉｍｂｌｅＧｅｎ^ＴＭ光印刷アレイでは、それは５０％ホルムアミド、５× ＳＳＣ、および０．１％ＳＤＳであった。我々は、試料を、ＭＪＲｅｓｅａｒｃｈ^ＴＭＴＥＴＲＡＤ^ＴＭ中で９５℃にて５分間変性させ、次いで、３７℃にて３０分間インキュベートした。我々は、試料を回転させ、それを、リフタースリップで調製したスライド上にピペッティングし、印刷アレイでは５８℃に設定された、ＮｉｍｂｌｅＧｅｎ^ＴＭ光印刷アレイでは４２℃に設定された（ＢｏｅｋｅｌＩｎＳｌｉｄｅＯｕｔ^ＴＭオーブンのような）ハイブリダイゼーションオーブン中でそれを１４ないし１６時間インキュベートした。

ハイブリダイゼーションの後、我々はスライドを以下のように洗浄した：簡単に述べれば、カバーグラスを除くために０．２％ＳＤＳ／０．２× ＳＳＣ中；０．２％ＳＤＳ／０．２× ＳＳＣ中で１分間、０．２× ＳＳＣ中で３０秒間；および０．０５× ＳＳＣ中で３０秒間。我々は、スライドをラックに入れ、それを７５ｒｃｆにて５分間回転させることによって前記したようにそれを乾燥した。次いで、我々は直ちにスライドをスキャンした。

我々は、印刷したアレイでは１０ミクロンの、光印刷したアレイでは５ミクロンの画素サイズに設定されたＡｘｏｎＧｅｎｅＰｉｘ（登録商標）４０００Ｂスキャナーを用いてスライドをスキャンした。我々は、ＧｅｎｅＰｉｘ^ＴＭＰｒｏ４．０ソフトウェアを用いてアレイの密度を定量し、さらなる分析のためにデータをＳ−ＰＬＵＳ（登録商標）に持ち込んだ。我々は、バックグラウンドを差し引くことなく測定された強度を用いて実験における２つのシグナルの間の比率を計算した。我々は、Ｙａｎｇｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．３０：ｅ１５−１５（２００２）に記載されたのと同様な強度ベースのｌｏｗｅｓｓ曲線フィッティングアルゴリズムを用いてデータを正規化した。我々は、色逆転実験から得られたデータを平均し、それを図面に示したように表示した。

（実施例５−アレイの性能および確認）
実施例１で考察したように、我々は、オリゴヌクレオチドプローブがいずれの表示とハイブリダイズするかを、公表されたヒトゲノム配列に基づいて予測することができるはずである。これを確認するために、我々は、我々の１０Ｋ印刷アレイを、１つの蛍光染料で標識した正常ヒトゲノムＤＮＡのＢｇｌＩＩ表示に、およびもう１つの蛍光染料で標識した同一ＤＮＡのＨｉｎｄＩＩＩ−枯渇ＢｇｌＩＩ表示にハイブリダイズさせることによってそれをテストした。

図１は、ＨｉｎｄＩＩＩによって枯渇されたＢｇｌＩＩ表示で得られた結果を示す。図１Ａにおいて、我々は、Ｙ軸に沿って、各プローブのハイブリダイゼーション強度の比率をグラフ化した。各実験を色逆転にて行い、別々の実験からの比率の幾何平均をプロットする。全長および枯渇した表示双方における断片を検出すると予測されたプローブは双方にハイブリダイズした（図１Ａ；左側）。約８，０００のこれらのプローブがあった。枯渇した表示におけるプローブを検出しないと予測されたプローブは検出しなかった（図１Ａ；右側）。約１，８００のこれらのプローブがあった。これらの結果は、（１）表示断片の制限プロフィールは正しく予測された、（２）オリゴヌクレオチドは正しく整列された、および（３）オリゴヌクレオチドは許容されるシグナル強度にて予測されたプローブを検出したことを確認する。図１Ｂにおいて、色逆転実験の比率の間の合致がグラフ化されている。これらのデータにより、我々のアレイの再現性が確認される。

非常に少数のオリゴヌクレオチドプローブは、予測された表示における標的断片にハイブリダイズしなかった。例えば、ＨｉｎｄＩＩＩによって切断されなかった断片にハイブリダイズすると予測された８０００プローブのうち、約１６は、事実切断されたＢｇｌＩＩ断片にハイブリダイズするように見えた。これは、我々の試料および公表されたヒト配列の間の発散によるものであり、これは、多形または配列決定の誤差に由来したものであろう。しかしながら、ここに、データは、公のヒト配列が、表示オリゴヌクレオチドマイクロアレイのためのプローブの設計で十分に信頼できることを示す。

（実施例６−腫瘍ゲノムの全体的分析）
本発明のオリゴヌクレオチドアレイは、それが欠失または増幅であるかにかかわらず、大規模のゲノム障害を容易に検出する。図２Ａ１ないしＡ３、２Ｂ１ないしＢ３、および３Ｃ１ないし３Ｃ３は、３つのゲノム比較用のアレイハイブリダイゼーションデータを示し：図２Ａ１ないしＡ３は同一バイオプシーからの正常なジプロイド細胞（ＣＨＴＮ１５９）と異数体乳癌細胞を比較する（２つの試料表示は約１００ｎｇのＤＮＡから調製し、各々は、フローサイトメトリーによって分離された異数体およびジプロイド画分から単離した）；図２Ｂ１ないしＢ３は未知の民族性の患者に由来する乳癌細胞系（ＳＫ−ＢＲ−３）を（欧州およびアフリカ混血血統の）無関係正常な男性Ｊ．Ｄｏｅ（実施例２参照）と比較し；および図２Ｃ１ないしＣ３はもう一人の正常な男性（アフリカピグミー）からの細胞を同Ｊ．Ｄｏｅと比較する。各場合、試料を色逆転にて、２回ハイブリダイズさせ、幾何平均比率（ｌｏｇスケール）をオリゴヌクレオチドプローブのゲノム順に対してプロットした。増大したコピー数（増幅）は１を超える比率によって示され、減少したコピー数（欠失）は１未満の比率によって示される。図２Ａ１、２Ｂ１および２Ｃ１に示されたデータは１０Ｋ印刷アレイで得られた。図２Ａ２、２Ｂ２および２Ｃ２で示されたデータは８５Ｋ光印刷アレイで得られた。

癌ゲノムに対して明瞭なプロフィールがあった。２つの乳癌系のプロフィールは区別されたが、各々は、ゲノム中で増幅および欠失の大きな領域を示した（図２Ａ１ないしＡ２、および図２Ｂ１ないしＢ２）。対照的に、正常−正常のプロフィールは実質的に平坦であり、これらのゲノムの間には大規模な増幅または欠失がないことを示す（図２Ｃ１ないしＣ２）。これらのデータにより、本発明のオリゴヌクレオチドアレイは大規模なゲノム変化を検出できることが確認された。

また、結果は、全ての３つのゲノム（２つの癌ゲノムおよびアフリカ男性のゲノム）における少量の喪失および獲得を検出する多くのオリゴヌクレオチドプローブがあったことを示す。これらの喪失および獲得は図２Ａ１ないしＡ２、２Ｂ１ないしＢ２および３Ｃ１ないしＣ２において単独ドットとして示し、図２Ｃ２（正常−正常比較）においては、ゲノムを通じて０．５および２．０の比率に近づくプローブの「シェル」またはゾーンとして表す。これらの喪失および獲得は、サンプリングした個体の間のヘテロ接合性ＢｇｌＩＩ多形の結果のようであった。

さらに、１０Ｋ印刷フォーマットおよび８５Ｋ光印刷フォーマットの間の比較は、それらが異なる分解能を有したのにもかかわらず、共に大規模なゲノム特徴の同様な図を捕獲したことを明瞭に示す。我々は、それらが同一ＢｇｌＩＩ断片に対する相補性を共に有するならば、プローブを「兄弟」と呼ぶ。兄弟は重複した配列を必ずしも有しないが、それらはその長さの半分までだけ重複してもよく、あるいはその全長にわたって相補的であってもよい。図２Ａ３、２Ｂ３および２Ｃ３において、我々は、８５Ｋフォーマット（Ｘ軸）からのそれらの兄弟オリゴヌクレオチドの比率に対して１０Ｋフォーマット（Ｙ軸）からの兄弟オリゴヌクレオチドの比率をプロットする。過剰の７，０００兄弟プローブがあった。プローブ配列はフォーマットの間で変化し、アレイイングのそれらのパターンは異なり、ハイブリダイゼーション条件は異なり、かつアレイの表面は異なったという事実にもかかわらず、全ての３つの実験に対する２つのフォーマットでの兄弟プローブの比率の間には顕著な合致があった。これらのデータにより、本発明のオリゴヌクレオチドを含むアレイを用いて得られた結果の再現性が確認された。

加えて、ＭｃｒＢＣでの切断によって生じたＭＯＭＡ表示の分析は、癌細胞および正常な細胞のゲノムの間の改変されたメチル化状態を持つゲノムの領域を示した。ＢｇｌＩＩ表示を用いるこれらの領域におけるコピー数の差に対する正規化により、これらの部位の多くにおける観察された差はメチル化状態の差に基づくものであって、コピー数の差に基づくものではないことが確認された。

（実施例７−自動セグメント化および全ゲノム分析）
また、我々は、ゲノムのより小さな領域からのデータを分析して、実施例６で見られた変異をマッピングした。例えば、我々は、偏差をコードした後にプローブ比率データを同様な平均のセグメントに分析する統計学的セグメント化アルゴリズムを用いて一度に１つの染色体からのデータを分析した（環状二元セグメント化（ＣＢＳ）と呼ばれる；ＯｌｓｈｅｎａｎｄＶｅｎｋａｔｒａｍａｎ，Ｃｈａｎｇｅ−ＰｏｉｎｔＡｎａｌｙｓｉｓｏｆＡｒｒａｙ−ＢａｓｅｄＣｏｍｐａｒａｔｉｖｅＧｅｎｏｍｉｃＨｙｂｒｉｄｉｚａｔｉｏｎＤａｔａ，Ａｌｅｘａｎｄｒｉｅ，ＶＡ，ＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＡｓｓｏｃｉａｔｉｏｎ，２００２参照）。該アルゴリズムは、各染色体からの最良な可能なセグメント化を回帰的に同定し、平均の差が偶然に起こった確率に基づいて分割された各提案を拒絶または許諾する。この確率はランダム化方法によって決定される。その非パラメータ性質のため、該アルゴリズムは、我々が、３未満のプローブによって認識された異常を同定することを妨げた。

図３ＡないしＤは、８５Ｋアレイを用いる癌細胞系ＳＫ−ＢＲ−３の４つの染色体（図３ＡないしＤ中、各々、染色体５、８、１７およびＸ）についてのこの分析の出力を示す。我々は、１０Ｋアレイからのデータを用いた場合、同様なセグメント化プロフィールおよびセグメント平均を観察した。データのさらなる解析により、我々は、細胞の倍数性レベルを決定することが可能となった。

一旦セグメント化すれば、我々は、各オリゴヌクレオチドに、それが属するセグメントの平均比率を割り当て、分類した順に平均比率をプロットした。これらのデータはＣＨＴＮ１５９（図４Ａ）およびＳＫ−ＢＲ−３（図４Ｃ）の癌ゲノムに対してプロットする。図面は、各ゲノム内のセグメント平均比が定量され、同様な値の主たるおよび従たるプラトーがあることを示す。我々は、カウンティング、およびＣＨＴＮ１５９がサブ−トリプロイドであって、ＳＫ−ＢＲ−３がテトラプロイドであるというフロー分析による知識に基づいて、これらの領域のコピー数を推定した。もし各試料が概略モノクローナルであれば、ＣＨＴＮ１５９における２つの主たるプラトーは細胞当たり２および３コピーであり、主たるプラトーＳＫ−ＢＲ−３は細胞当たり３および４コピーであろう。

我々は、主たるプラトーについて計算されたコピー数を用いて、各実験につき倍数性およびＳ_Ｎを解いた。我々は方程式：
Ｒ_Ｍ＝（Ｒ_Ｔ×Ｓ_Ｎ＋１）／（Ｓ_Ｎ＋１）
［式中、Ｒ_Ｍは平均測定比率であり、Ｒ_Ｔは真実の比率であって、Ｓ_Ｎは「非特異的に対する特異的」ノイズを測定する実験的に誘導された性質である］
を用いた。我々は、Ｒ_Ｍを、プラトーにおけるセグメントのプローブの平均として選択し、Ｃ_Ｎ／Ｐに対するＲ_Ｔを設定し、ここに、Ｃ_Ｎはプラトーから知られた真実のコピー数であり、Ｐは腫瘍ゲノムの倍数性であった。該組合せは２つの方程式および２つの未知のＰおよびＳ_Ｎを提供した。ＣＨＴＮ１５９実験では（図４Ａ）、我々は、倍数性Ｐは２．６０と計算し、Ｓ_Ｎは１．１３と計算した。ＳＫ−ＢＲ−３実験では（図４Ｃ）、我々はＰが３．９３であって、Ｓ_Ｎが１．２１であると計算した。

また、我々は該方程式を用いて、平均比率がより高いおよびより低いコピー数につき予測されるであろうと計算した。我々は、「コピー数格子」を形成する水平線で、ゼロから１２のコピー数まで、各グラフのこれらの予測された値をマークした。プローブに割り当てられた平均−セグメント値は、図４Ｂおよび４Ｄにおいては、ゲノム順に表示し、予測されたコピー数格子を埋め込んだ。コピー数格子は、特に、より高いコピー数では、データの従たるプラトーにかなり顕著にフィットする。

（実施例８−微細スケールのゲノム障害の分析）
また、我々は、データを分析して、増幅または欠失を有する個々の染色体中の正確な破断点を決定した。我々の分析は、本発明のアレイを用いて、個々の遺伝子の分解におけるゲノム障害を同定することができることを示した。従って、アレイから得られたデータを用いて、癌細胞への正常細胞の変換についての特定の遺伝子における異常のインパクトを予測することができる。

我々は、まず、図３Ｄに見られるＸ染色体における破壊の領域を分析した。女性から得られたＳＫ−ＢＲ−３細胞を無関係な男性の細胞と比較した。我々は、染色体Ｘにおけるプローブは上昇した比率を有するであろうと予測した。これは、染色体Ｘの長いアームをかなり通過する場合であった。しかしながら、Ｘｑ１３．３の中央においては、２７ｋｂにわたる領域を通じてコピー数の鋭い破断があり、１に近い比率は染色体の残りで観察された（図５Ａ）。かくして、セグメント化によってアレイデータから遺伝的傷害の境界を引き出すことが可能であった。我々は、遺伝子を破壊する鋭いコピー数転移の多くの他の場合を観察した。

ＳＫ−ＢＲ−３ゲノムには３ないし４の狭い増幅があり、各々は２以下の遺伝子を含み、その中には膜貫通受容体があった。

次いで、我々は、増幅の広い区別される領域（図５Ｂ）を含めた、豊富な異常を有した染色体８（図３Ｂ）からのデータを分析した。最も右のピークはほぼ１つのメガベースストレッチであり、これは、３７のプローブよりなるものであった（プローブ座標４５０９９ないし４５１３８、Ｊｕｎｅゲノム座標１２６８１５０７０ないし１２８２０７３４２）。しかし、それは単一のよく特徴付けられた遺伝子ｃ−ｍｙｃを含んだ。

ｃ−ｍｙｃのピークの左側に向けて上昇し、グラフから離れる、ＳＫ−ＢＲ−３に第二の広いピークがあった（図５Ｂ）。この広いピークは、その中央の非常に狭いピークと共に、その右側に広いショルダーを有した（プローブ座標４４９９４ないし４０５０５１、Ｊｕｎｅゲノム座標１２３９７６５６３ないし１２５５６４７０５）。我々は、これに、ｃ−ｍｙｃを含むより広いピークさえ有した腫瘍ゲノムＣＨＴＮ１５９からのセグメント化データを重ねた（プローブ座標４４９９６ないし４５１３１、Ｊｕｎｅゲノム座標１２４０７３５６５ないし１２７８２８２８３）。また、ＣＨＴＮ１５９におけるピークは、第二のＳＫ−ＢＲ−３ピークのショルダーを含んだ（図５Ｂ）。かくして、該ショルダーは注意を引く候補オンコジーンを含むようである。その領域内で、狭いピークにおいて、我々は遺伝腎臓癌腫に関連する転座の標的であるＴＲＣ８を見出した（Ｇｅｍｍｉｌｌｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９５：９５７２−７（１９９８））。これらの結果は、多数のゲノムからの調和するデータの値、および多数のデータ組を分析するための自動方法の必要性を示す。

また、我々は、染色体５上の狭い欠失を分析した。図５Ｃは、コピー数格子上に重ねた合わせた１０Ｋ（塗りつぶしていない丸印）および８５Ｋ（塗りつぶした丸印）分析の結果を示す。欠失は１０Ｋおよび８５Ｋ分解双方において明らかであるが（プローブ座標２９４９６ないし２９５４０、Ｊｕｎｅゲノム座標１４２３１４１４ないし１５５９１２２６）、境界は８５Ｋにおいてかなり明瞭に分解された。この領域は、ＧＥＦドメイン、ＳＨ３ドメイン、およびセリンスレオニンキナーゼドメイン（ＬｉｎａｎｄＧｒｅｅｎｂｅｒｇ，Ｃｅｌｌ１０１：２３０−４２（２０００））を有する蛋白質であるＴＲＩＯ；膜貫通蛋白質であるＡＮＫＨ（Ｎｕｒｎｂｅｒｇｅｔａｌ．，Ｎａｔ．Ｇｅｎｅｔ．２８：３７−４１（２００１））；およびユビキチンリガーゼ媒介蛋白質分解経路の成分であるＦＢＸＬ（Ｉｌｙｉｎｅｔａｌ．，Ｇｅｎｏｍｉｃｓ６７：４０−４７（２０００））を含んだ。

最後に、我々は、亜鉛フィンガー蛋白質のクラスターに影響する染色体１９上のホモ接合性喪失の領域を分析した（図５Ｄ；プローブ座標７７１４２ないし７７１９８、Ｊｕｎｅゲノム座標２１８９３９４８ないし２４９５５９６１）。これらの遺伝子のいくつかは、その欠失が腫瘍形成で役割を有するであろう転写因子をコードすることができる。我々は、そのいくつかは正常な変異に帰属できるであろう豊富な狭いヘミ接合性およびホモ接合性病巣を観察した。実施例９参照。

（実施例９−「正常」ゲノム変異の調査）
また、我々は本発明のオリゴヌクレオチドアレイおよび方法を用いて、２つの正常なゲノムの間のコピー数変動を分析し、多形変動から得られた差を観察した。この分析は、例えば、腫瘍ＤＮＡ試料が正常ＤＮＡに対してマッチできず、無関係な正常ＤＮＡが参照として用いられる状況で重要である。何故ならば、観察された差は多形変動の結果だからである。この変異は２つに分類でき、ＢｇｌＩＩ断片を創製し、または破壊する分類の点配列変異、例えば、ＳＮＰ、またはヒト遺伝子プールに存在する現実のコピー数の変動である。前者は本発明のアレイを用いる分析に対して限定されたインパクトを有する。というのは、それは、統計学的手段によって大いに濾過することができる散乱した「ノイズ」を生じるからである。

図６Ａにおいて（１０Ｋおよび８５Ｋデータ組からの合わせたデータ）、我々は、温和な濾過アルゴリズム（もし比率が周囲の４つのうち最も異常であれば、我々はそれをその２つの隣接体のより近い比率で置き換えた）が、点配列変異のインパクトを最小化し、現実のコピー数の変動がある状況を検出することができることを示す。濾過していない試料（例えば、図Ｃ２）に存在する散乱した多形の曇りはデータのこの提示でリフトされ、異常プローブ秘密の非−ランダムクラスターを明らかとし、正常な固体の間の大規模なゲノムの差を示す。

散乱した品種の多形変異は実験の系列的比較によって濾過することができる。例えば、図６Ｂは、正常なドナーＪ．Ｄｏｅと比較したＳＫ−ＢＲ−３からのデータ、塗りつぶした丸印で表示した８５Ｋ比率、および塗りつぶしていない丸印における１０Ｋを示す。同一グラフにおいて、我々は、緑色の三角形で、アフリカピグミーからのもう１つの正常なＤＮＡと比較したＪ．Ｄｏｅの比率を表示する。我々は、２つの正常な固体の間のハイブリダイゼーションに対する比較によって多形として同定することができるＳＫ−ＢＲ−３−正常ハイブリダイゼーションにおける極端な比率の３つのプローブを見る。これらのデータの最も単純な解釈は、Ｊ．Ｄｏｅが＋／＋であり、ピグミーが＋／−であり、およびＳＫ−ＢＲ−３が−／−であることであり、ここに、＋は小さなＢｇｌＩＩ断片（最もありそうには、ＢｇｌＩＩ部位におけるＳＮＰ）の存在を示す。一般に、３つのゲノムの対様式比較は、対立遺伝子状態の解釈可能な要求を可能とする。かくして、これらの種類のデータは、悪性ゲノムがマッチした正常と対にできない場合に特に有用である。

しかしながら、コピー数における多形は異なる種類の問題を提示する。図６Ａは、正常−正常比較におけるコピー数の大きな領域的差を示す。我々は、セグメント化分析をこれらのデータに適用し、２つの正常な個体間の改変されたコピー数を呈する多数の領域を同定した。我々はいずれの正常−正常比較においても約１ダースの変種領域を観察した。それらは、長さが１００キロベースからメガベースを超えるまで延び、どこにでも起こり得るが、テロメアおよびセントロメア近くでより頻繁に観察され、しばしば、公知の遺伝子を含む。

そのような２つの領域の綿密な検討を、連結させた丸印としての比率、および格子としてのセグメント化値と共に、図６Ｃおよび図６Ｄに表示する。図６Ｃにおいては、異常な領域は染色体６ｐ２１上の１３５ｋｂであり（プローブ座標３２５１８ないし３２５２４、Ｊｕｎｅゲノム座標３５６６９０８３ないし３５８０４７０５）、３つの公知の遺伝子を含む。図６Ｄにおいて、該領域は、多数の重鎖可変領域を含む染色体２ｐ１１からの６２０ｋｂ領域である（プローブ座標９９２７ないし９９５２、Ｊｕｎｅゲノム座標８８７８７６９４ないし８９３８５８１５）。

我々は、癌−正常データの解釈に対する正常−正常変動のインパクトを分析した。図６Ｃおよび図６Ｄにおいて、我々は、各々、菱形および垂直ハッチングにてＳＫ−ＢＲ−３の分析からのセグメント化値を重ねた。ＳＫ−ＢＲ−３についてのコピー数格子は格子としてプロットする。図６Ｃは、正常と比較した、欠失と呼ばれるであろうＳＫ−ＢＲ−３における領域を示す。ＳＫ−ＢＲ−３においては、フランキング領域は、細胞当たり２コピーであると我々が判断したコピー数で起こり、その領域内では、コピー数は１まで低下するようになる。しかしながら、同一領域が、その正常に対するピグミーＤＮＡの比較で出現する。図６Ｄにおいて、我々は染色体２ｐ１１上の類似の条件を観察する。図６Ｄにおいて、我々は腫瘍からのセグメント化データもプロットした。この領域は同様にそこでは明らかに異常である。

（実施例１０−その部分のゲノムの注釈）
以下の実施例は、サーチエンジンの使用を説明するつもりである。当業者に明白である当該分野で通常遭遇する記載された条件およびパラメータの適当な修飾および適合は、本発明の精神および範囲内のものである。

本発明のサーチエンジンを用いて、ゲノムまたはゲノムのサブセット（例えば、染色体）での計算を行うことができる。これらの計算を実行するにおいて、高い単語カウントを有するいくつかの領域が見出され、これはＲｅｐｅａｔＭａｓｋｅｒのようなサーチツールによっては検出されない。ＲｅｐｅａｔＭａｓｋｅｒによって用いられる反復のデータベースは領域特異的または染色体特異的反復を含まないことが示されている。セクションＶＩＩで記載されたサーチエンジンを用い、そのような反復は容易に見つかる。何故ならば、正確なマッチカウンティングはゲノムの組代数についての基礎を形成することができるからである。特に、ゲノムのサブセットはトランスフォームストリングとなすことができ、これを調べると、染色体特異的反復が見出される。

染色体１からのトランスフォームストリングは、それ自体内、および全ゲノム内の単語カウントで注釈された。サーチを行って、長さが少なくとも１００ｂｐであり、正確なマッチが主として染色体１に由来することが判明した高い１８量体カウントを持つ染色体１の連続領域を探した。そのような領域は容易に見つかり、長さが１００ｂｐないし３５ｋｂであった。１つのそのような領域に焦点を当て、その領域は、各々がシグニチャーモードの頻度および長さを持つより短い配列よりなるほとんど工程機能であることが観察された。これらのシグニチャー領域の１つを含有する染色体特異的領域を収集し、染色体１特異的配列のファミリーは迅速に同定された。染色体１特異的領域は、その染色体１カウントがその全ゲノムカウントの９０％を超える１８量体を同定することによって選択され、これらの１８量体を一緒に結んで、染色体特異的反復を創製した。加えて、結んだ１８量体の間のスペースは１００塩基対を超えるようにはできなかった。この反復は、一緒になってミオシンに対して低い相同性を有する大きな予測された蛋白質配列をコードする多くのエキソンを持つＲｅｆＳｅｑ遺伝子（受託番号ＮＭ０１５３８３）と重複するものとして注釈されたことが少なくとも１回見出された。

染色体特異的反復がそれにより同定される同一プロセスは、ＲｅｐｅａｔＭａｓｋｅｒまたは他のプログラムによって認識されないものを含めた、ゲノム全体にわたる反復性ＤＮＡを見出すのに適用することができる。

（実施例１１−マーエンジンを用いるプローブ設計）
前記したサーチエンジンはプローブの設計で用いることができる。プローブは、一般には、相補的ＤＮＡに特異的にハイブリダイズするその能力で有用であり、従って、プローブ設計における主な目的の１つは交差ハイブリダイゼーションを最小化することである。以前のプローブ設計適用は、反復マスキングを用いて、反復領域を考慮から外した。このタイプの解決は、それが、染色体特異的反復のような反復性である領域からの保護を提供せず、かつそれはユニークである「反復性」領域を排除する点で問題である。

不完全にマッチした配列の間のハイブリダイゼーションについての規則はよく確立されていないが、ゲノムの多数の領域に対して正確な「小さな」マッチを有するプローブは好ましくは回避すべきであることは当該分野で知られている。以前のプローブ適用は、凝集体の正確に１２量体のマッチカウントを最小化するプローブを選択しているが、ゲノムプローブについては、これらの方法は不適切である。まず、１２量体の正確なマッチが、通常のストリンジェントなアニーリング条件下でのハイブリダイゼーションに何らかの影響を有することは不明確である。また、ゲノムにおけるユニーク性はさておいて、１２量体カウントは相同性を予測しない。事実、その構成要素１２量体からのカウントの幾何平均に対する１５量体カウントの比較は、本質的にユニークである２つの配列の間の貧弱な相関を生じた。

マー−エンジンを用いるプローブ設計のための一般的プロトコルを以下に記載する。まず、ユニーク性の十分に長いストレッチが見出されるように（例えば、候補プローブ）、ゲノムを特定の長さのマーに従って注釈する。第二に、少なくとも１つの予め規定された長さのマー、好ましくは候補プローブを見出すのに用いたマー長さよりも短い長さのマーを用いてこれらの候補プローブを注釈する。候補プローブの１つは、予め規定されたより短い長さの最小凝集体マー−カウントに基づいてプローブとして選択される。

前記したプロトコルに従い、２１量体カウントから得られたユニーク性データを用い、７０量体候補プローブを小さなＢｇｌＩＩ断片から選択した。これらの候補プローブ内で、１５量体カウントの最低総和にて、約９００のカットオフ値にて、７０量体を選択した。単一ヌクレオチドのランおよび酷い塩基組成バイアスを排除するさらなる基準も適用して、いずれの候補プローブを選択すべきか決定するのを助けた。選択されたプローブを合成し、ガラス上に印刷して、マイクロアレイハイブリダイゼーション条件でのそれらの性能をテストした。実質的に全てのプローブは特定の性能基準において、またはそれを超えて実行されることが判明した。さらに詳しくは、約７０％ないし約９８％の成功率が前記プロトコルを用いて設計したプローブで達成され、ここに、成功は実質的（例えば、大きな）シグナル／ノイズ比率を有するものと定義される。

ＢＬＡＳＴを用いて、選択されたプローブが特定の公表されたゲノム構造内でユニークか否かをテストした。ＭｅｇａＢＬＡＳＴについての欠陥パラメータを用いて３０，０００のそのようなプローブをテストした（単純な配列の濾過はスイッチを切った）。９９％を超える選択されたプローブがゲノム内でユニークであることが判明した。

（実施例１２−アルゴリズムの偽暗号表示）
どのようにしてアルゴリズムを実行して単語カウンティング機能を行うかをさらに説明するために、図１２Ａおよび１２Ｂを参照されたし。図１２Ａは、アルゴリズムによって用いられた変数およびデータ構造をグラフで規定し、図１２Ｂはアルゴリズムの偽暗号表示を示す。セクションＶＩＩで示したように、トランスフォームは「実質的」ゲノム辞書または添字アレイ用の先導的ツールとして用いることができる。最も単純な場合には、サブストリングがゲノムで起こるか否か、およびもしそうであれば、どれくらい多くのコピーで起こるかを決定するのが望まれると仮定する。この場合、サブストリングは単一文字「Ｘ」であると仮定する。Ｘの全ての出現はブロック（例えば、サーチ領域）として辞書で見ることができ、ここに、ＦｘおよびＬｘはＸの最初および最後の出現の指標である。ＦｘおよびＬｘはアルファバウンドデータ構造に由来することができる。このブロック（例えば、サーチ領域）のサイズはｋｘ＝Ｌｘ−Ｆｘ＋１であり、これは、Ｘの出現の数でもある。この数は、トランスフォームにおけるＸの出現の数をカウントすることによって決定できることに注意されたし。

２以上の文字の単語をカウントする場合のようなより困難な場合には、ゲノム中の各文字ＸのＦｘ、Ｌｘおよびｋｘは決定される必要がある。換言すれば、各文字ＸについてのＦｘおよびＬｘはアルファバウンドと呼ばれるデータ構造に貯蔵される。一旦アルファバウンドデータ構造が構築されれば、アルゴリズムを進行させて、ゲノムで起こる特定の単語Ｚの回数の数をカウントすることができる。ＷはＺの添字であり、Ｗはゲノムに存在し、かつＷのアルファバウンド（例えば、図１２Ａに示されるＦｗおよびＬｗ）は知られていると仮定する。次に、ＸＷがサブストリングとして存在するか否か（ここに、ＸはＺ中のＷに先行する文字である）に関して決定をなすことが必要である。加えて、ＸＷブロックの開始および終了指標（例えば、ＦｘｗおよびＬｘｗ）は決定される必要がある。

もしＸがＦｗおよびＬｗの間でトランスフォームで起こるならば、および起こる場合にのみ、ＸＷはゲノム中でサブストリングとして存在する。さらに、ｋｘｗとして示されたトランスフォームの「Ｗブロック」中のＸの数は、ゲノム中のサブストリングＸＷの単語カウントである。ＸＷの開始および終了指標は１）Ｆｘｗ＝Ｆｘ＋ｂｘｗ；および２）Ｌｘｗ＝Ｆｘｗ＋ｋｘｗ−１（式中、ｂｘｗはＸＷの前に起こるゲノム辞書中のＸで開始する単語の数である）を用いて完了することができる。ｂｘｗは、トランスフォームのＷブロック前で起こるＸの数をカウントすることによって決定することができる。

この手法を反復し、一度に添字一文字分長くし、もし添字がゲノム辞書に存在しなければ停止する。もし添字Ｗが全単語Ｚを含むならば、ｋｗはゲノムストリング中のＺの出現の数である。この手法の概略は図１２Ｂに示すように偽暗号中の概略である。図１２Ｂに関し、Ｚは、ゲノムアルファベットからの文字よりなる長さＮのストリングであって、アルファバウンドデータ構造は、ゲノムアルファベットにおける各文字についてのゲノム辞書での最初および最後の出現の指標を含む。

特に断りのない限り、本明細書中で用いた全ての技術および科学用語は、本発明が属する技術分野における当業者によって通常理解されるのと同一の意味を有する。全ての刊行物および本明細書中に記載した他の文献はここに引用してその全体を援用する。コンフリクトする場合、定義を含めた本明細書中が支配する。材料、方法および実施例は説明的なものに過ぎず、限定する意図のものではない。本明細書中を通じ、用語「含む」、または「を含む」または「含んでいる」のような変形は、述べられた整数または整数の群を包括的に意味すると理解されるが、他の整数または整数の群いずれかを排除するものではない。

図１Ａないし図１Ｄは、１０，０００オリゴヌクレオチドを含むマイクロアレイを用いるアレイ測定のインフォマティックスおよび精度の予測性を示す。図１Ａは、ハイブリダイズした試料がＢｇｌＩＩ表示、およびＨｉｎｄＩＩＩ切断部位を持つ断片を枯渇させたＢｇｌＩＩ表示である結果を示す。Ｙ軸（平均比率）は、ｌｏｇスケールでプロットした通常の表示に対する枯渇した表示の２つのハイブリダイゼーションからの平均測定比率である。Ｘ軸（指標）は、内部ＨｉｎｄＩＩＩ部位を有すると定義された断片に由来するプローブが右側となるように構築した偽指標である。図１Ｂは、図１Ａにおける平均比率を作り出すのに用いる複製実験の再現性を示すＹ軸（比率実験１）は実験１からの測定された比率であってＸ軸（比率実験２）は実験２の測定された比率である。双方の軸はｌｏｇスケールでプロットしてある。図１Ｃは、Ｘ軸で枯渇していない試料の強度の関数としてのＹ軸上の正規化された比率をグラフ化する。比率および強度は共にｌｏｇスケールでプロットした。図１Ｄは刺激によって生じたデータを表す。Ｘ軸（指標）は偽指標である。６００の群におけるプローブは、左側から右側へ増大するコピー数を検出する。６００のフランキングプローブは正常なコピー数を検出する。Ｙ軸（平均比率）はｌｏｇスケールでプロットした平均比率である。図２Ａ１ないし２Ａ３、２Ｂ１ないし２Ｂ３、および２Ｃ１ないし２Ｃ３は、１０Ｋ印刷アレイ（図２Ａ１、図２Ｂ１、図２Ｃ１、および８５Ｋ光印刷アレイ（図２Ａ２、図２Ｂ２、図２Ｃ２）を用いる、同一患者からのジプロイド核と比較した異数性核を持つ原発性乳癌試料（ＣＨＴＮ１５９）（図２Ａ１ないし２Ａ３）、正常な男性参照と比較した乳癌細胞系（図２Ｂ１ないし２Ｂ３）、および正常な男性参照に対する正常な男性（図２Ｃ１ないし２Ｃ３）に対するゲノムプロフィールを示す。各場合（図２Ａ１、図２Ｂ１、図２Ｃ１および図２Ａ２、図２Ｂ２、図２Ｃ２）において、Ｙ軸は平均比率であって、Ｘ軸（Ｇｅｎ指標）は指標であり、これは、ゲノムオーダーのプローブをプロットし、染色体をつなぎ合わせ、染色体１ないしＹからの全ゲノムの可視化を可能とする。図２Ａ３、図２Ｂ３、および図２Ｃ３は、１０Ｋおよび８５Ｋマイクロアレイに存在する「兄弟」プローブから測定された比率の対応性を示す。Ｙ軸は１０Ｋマイクロアレイからの測定された比率であって、Ｘ軸は８５Ｋマイクロアレイからの測定された比率である。図３Ａないし３Ｄは、正常参照と比較した、腫瘍細胞系ＳＫ−ＢＲ−３の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Ｙ軸（平均比率）は、ｌｏｇスケールで表した２つのハイブリダイゼーションの平均比率を表す。Ｘ軸（Ｇｅｎ指標）は、ゲノム座標の指標である。図３Ａは染色体５で同定されるコピー数変動を表し、図３Ｂは染色体８につき同定されたコピー数変動を表し、図３Ｃは染色体１７につき同定されたコピー数変動を表し、図３ＤはＸ染色体につき同定されたコピー数変動を表す。図３Ａないし３Ｄは、正常参照と比較した、腫瘍細胞系ＳＫ−ＢＲ−３の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Ｙ軸（平均比率）は、ｌｏｇスケールで表した２つのハイブリダイゼーションの平均比率を表す。Ｘ軸（Ｇｅｎ指標）は、ゲノム座標の指標である。図３Ａは染色体５で同定されるコピー数変動を表し、図３Ｂは染色体８につき同定されたコピー数変動を表し、図３Ｃは染色体１７につき同定されたコピー数変動を表し、図３ＤはＸ染色体につき同定されたコピー数変動を表す。図３Ａないし３Ｄは、正常参照と比較した、腫瘍細胞系ＳＫ−ＢＲ−３の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Ｙ軸（平均比率）は、ｌｏｇスケールで表した２つのハイブリダイゼーションの平均比率を表す。Ｘ軸（Ｇｅｎ指標）は、ゲノム座標の指標である。図３Ａは染色体５で同定されるコピー数変動を表し、図３Ｂは染色体８につき同定されたコピー数変動を表し、図３Ｃは染色体１７につき同定されたコピー数変動を表し、図３ＤはＸ染色体につき同定されたコピー数変動を表す。図３Ａないし３Ｄは、正常参照と比較した、腫瘍細胞系ＳＫ−ＢＲ−３の分析からの変化するコピー数変動を持ついくつかの染色体を示す。Ｙ軸（平均比率）は、ｌｏｇスケールで表した２つのハイブリダイゼーションの平均比率を表す。Ｘ軸（Ｇｅｎ指標）は、ゲノム座標の指標である。図３Ａは染色体５で同定されるコピー数変動を表し、図３Ｂは染色体８につき同定されたコピー数変動を表し、図３Ｃは染色体１７につき同定されたコピー数変動を表し、図３ＤはＸ染色体につき同定されたコピー数変動を表す。図４Ａないし４Ｄは、正常参照（図４Ａおよび図４Ｂ）およびＣＨＴＮ１５９（図４Ｃおよび図４Ｄ）と比較したＳＫ−ＢＲ−３の分析から計算された平均セグメント化を示す。図４Ａないし４Ｄにおいて、Ｙ軸はｌｏｇスケールでの各プローブについての平均セグメントの値である。図４Ａおよび図４Ｃにおいて、Ｘ軸（平均セグメント指標）は、各々、それらの割り当てられた平均セグメントの上昇する値にてリストされる。図４Ｂおよび図４Ｄにおいて、Ｘ軸（Ｇｅｎ指標）はゲノム指標であり、これは、前記したように、全ゲノムの端と端をつなぐ。平均セグメントデータの頂部には、テキスト内の式を用いてアレイデータから外挿したコピー数格子がプロットされる（水平線）。各水平線についての計算されたコピー数は格子の右側にある。図５Ａないし５Ｄは、Ｙ軸（平均比率ＳＫ−ＢＲ−３）上で、ｌｏｇスケールの正常な参照と比較したＳＫ−ＢＲ−３の２つのハイブリダイゼーションの平均比率をグラフ化する。Ｘ軸（Ｇｅｎ指標）は、ゲノム指標である。図５Ａは喪失の領域を持つＸ染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図５Ｂは、正常参照と比較した、ＳＫ−ＢＲ−３の結果からの染色体８（グラフの中央の右側に位置するｃ−ｍｙｃ）の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したＳＫ−ＢＲ−３についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍ＣＨＴＮ１５９についてのセグメント化値がプロットされる。図５Ｃは染色体５上の病巣を示し、これは、１０Ｋアレイと比較した８５Ｋの解像力を示す。結果は、正常参照と比較したＳＫ−ＢＲ−３からのものである。塗りつぶしていない丸印は１０Ｋ印刷マイクロアレイからのものであり、塗りつぶした丸印は８５Ｋ光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図５Ｄは、正常参照とのＳＫ−ＢＲ−３の比較を示し、これは、染色体１９上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。図５Ａないし５Ｄは、Ｙ軸（平均比率ＳＫ−ＢＲ−３）上で、ｌｏｇスケールの正常な参照と比較したＳＫ−ＢＲ−３の２つのハイブリダイゼーションの平均比率をグラフ化する。Ｘ軸（Ｇｅｎ指標）は、ゲノム指標である。図５Ａは喪失の領域を持つＸ染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図５Ｂは、正常参照と比較した、ＳＫ−ＢＲ−３の結果からの染色体８（グラフの中央の右側に位置するｃ−ｍｙｃ）の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したＳＫ−ＢＲ−３についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍ＣＨＴＮ１５９についてのセグメント化値がプロットされる。図５Ｃは染色体５上の病巣を示し、これは、１０Ｋアレイと比較した８５Ｋの解像力を示す。結果は、正常参照と比較したＳＫ−ＢＲ−３からのものである。塗りつぶしていない丸印は１０Ｋ印刷マイクロアレイからのものであり、塗りつぶした丸印は８５Ｋ光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図５Ｄは、正常参照とのＳＫ−ＢＲ−３の比較を示し、これは、染色体１９上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。図５Ａないし５Ｄは、Ｙ軸（平均比率ＳＫ−ＢＲ−３）上で、ｌｏｇスケールの正常な参照と比較したＳＫ−ＢＲ−３の２つのハイブリダイゼーションの平均比率をグラフ化する。Ｘ軸（Ｇｅｎ指標）は、ゲノム指標である。図５Ａは喪失の領域を持つＸ染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図５Ｂは、正常参照と比較した、ＳＫ−ＢＲ−３の結果からの染色体８（グラフの中央の右側に位置するｃ−ｍｙｃ）の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したＳＫ−ＢＲ−３についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍ＣＨＴＮ１５９についてのセグメント化値がプロットされる。図５Ｃは染色体５上の病巣を示し、これは、１０Ｋアレイと比較した８５Ｋの解像力を示す。結果は、正常参照と比較したＳＫ−ＢＲ−３からのものである。塗りつぶしていない丸印は１０Ｋ印刷マイクロアレイからのものであり、塗りつぶした丸印は８５Ｋ光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図５Ｄは、正常参照とのＳＫ−ＢＲ−３の比較を示し、これは、染色体１９上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。図５Ａないし５Ｄは、Ｙ軸（平均比率ＳＫ−ＢＲ−３）上で、ｌｏｇスケールの正常な参照と比較したＳＫ−ＢＲ−３の２つのハイブリダイゼーションの平均比率をグラフ化する。Ｘ軸（Ｇｅｎ指標）は、ゲノム指標である。図５Ａは喪失の領域を持つＸ染色体からの領域を示す。測定されたアレイ比率上には計算されたセグメント化値がプロットされる。図５Ｂは、正常参照と比較した、ＳＫ−ＢＲ−３の結果からの染色体８（グラフの中央の右側に位置するｃ−ｍｙｃ）の領域を示す。データの頂部には、菱形ハッチングを施した正常参照と比較したＳＫ−ＢＲ−３についてのセグメント化値、および垂直ハッチングを施した原発性腫瘍ＣＨＴＮ１５９についてのセグメント化値がプロットされる。図５Ｃは染色体５上の病巣を示し、これは、１０Ｋアレイと比較した８５Ｋの解像力を示す。結果は、正常参照と比較したＳＫ−ＢＲ−３からのものである。塗りつぶしていない丸印は１０Ｋ印刷マイクロアレイからのものであり、塗りつぶした丸印は８５Ｋ光印刷アレイからのものである。水平線は、平均セグメント値からのモデリングに基づくコピー数見積もりである。図５Ｄは、正常参照とのＳＫ−ＢＲ−３の比較を示し、これは、染色体１９上のホモ接合性欠失の領域を提示する。平均セグメント値は白色線としてプロットされ、格子は前記したようにコピー数見積もりである。図６Ａないし６Ｄは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図２Ｃ２に提示されたのと同一な正常なものと比較した正常の結果を示す。図６Ｂは、染色体４からの小さな領域についての実験の系列的比較を示す。Ｙ軸はｌｏｇスケールで表した平均比率である。Ｘ軸はゲノム指標である。塗りつぶした（８５Ｋ）および塗りつぶしていない（１０Ｋ）丸印は、ＳＫ−ＢＲ−３の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図６Ｃは、染色体６上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するＳＫ−３−ＢＲ−３比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍（ジプロイドに対するＣＨＴＮ１５９異数性）比較からのセグメント値である。図６Ｄは染色体２の領域を示す。丸の中に示されたデータは、ＳＫ−ＢＲ−３の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍ＣＨＴＮ１５９についての平均セグメント線は交差ハッチングで表す。図６Ｃおよび図６Ｄについては、水平線についての計算されたコピー数がパネルの右側に見出される。図６Ａないし６Ｄは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図２Ｃ２に提示されたのと同一な正常なものと比較した正常の結果を示す。図６Ｂは、染色体４からの小さな領域についての実験の系列的比較を示す。Ｙ軸はｌｏｇスケールで表した平均比率である。Ｘ軸はゲノム指標である。塗りつぶした（８５Ｋ）および塗りつぶしていない（１０Ｋ）丸印は、ＳＫ−ＢＲ−３の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図６Ｃは、染色体６上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するＳＫ−３−ＢＲ−３比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍（ジプロイドに対するＣＨＴＮ１５９異数性）比較からのセグメント値である。図６Ｄは染色体２の領域を示す。丸の中に示されたデータは、ＳＫ−ＢＲ−３の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍ＣＨＴＮ１５９についての平均セグメント線は交差ハッチングで表す。図６Ｃおよび図６Ｄについては、水平線についての計算されたコピー数がパネルの右側に見出される。図６Ａないし６Ｄは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図２Ｃ２に提示されたのと同一な正常なものと比較した正常の結果を示す。図６Ｂは、染色体４からの小さな領域についての実験の系列的比較を示す。Ｙ軸はｌｏｇスケールで表した平均比率である。Ｘ軸はゲノム指標である。塗りつぶした（８５Ｋ）および塗りつぶしていない（１０Ｋ）丸印は、ＳＫ−ＢＲ−３の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図６Ｃは、染色体６上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するＳＫ−３−ＢＲ−３比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍（ジプロイドに対するＣＨＴＮ１５９異数性）比較からのセグメント値である。図６Ｄは染色体２の領域を示す。丸の中に示されたデータは、ＳＫ−ＢＲ−３の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍ＣＨＴＮ１５９についての平均セグメント線は交差ハッチングで表す。図６Ｃおよび図６Ｄについては、水平線についての計算されたコピー数がパネルの右側に見出される。図６Ａないし６Ｄは、シングレットプローブがテキストに記載されたように濾過されることを除いては、図２Ｃ２に提示されたのと同一な正常なものと比較した正常の結果を示す。図６Ｂは、染色体４からの小さな領域についての実験の系列的比較を示す。Ｙ軸はｌｏｇスケールで表した平均比率である。Ｘ軸はゲノム指標である。塗りつぶした（８５Ｋ）および塗りつぶしていない（１０Ｋ）丸印は、ＳＫ−ＢＲ−３の正常との比較からのものである。空の三角形は、正常参照に対する小人の比較である。図６Ｃは、染色体６上の正常集団に見出される病巣を示す。塗りつぶした丸印は、正常参照に対する小人の分析についての平均比率によってプロットされる。垂直ハッチング線は、正常参照に対する小人比較についての平均セグメント値である。菱形ハッチング線は、正常参照に対するＳＫ−３−ＢＲ−３比較についての平均セグメント値である。交差ハッチング線は、原発性腫瘍（ジプロイドに対するＣＨＴＮ１５９異数性）比較からのセグメント値である。図６Ｄは染色体２の領域を示す。丸の中に示されたデータは、ＳＫ−ＢＲ−３の正常参照に対する比較からのものである。この比較のための平均セグメント線は垂直ハッチングで示す。小人の参照に対する比較のための平均セグメント線は菱形ハッチングで示し、原発性腫瘍ＣＨＴＮ１５９についての平均セグメント線は交差ハッチングで表す。図６Ｃおよび図６Ｄについては、水平線についての計算されたコピー数がパネルの右側に見出される。図７は、本発明のある具体例による説明的システムのブロックダイアグラムを示す。図８は、本発明のある具体例による正確な単語カウントを実行するための例示的前処理工程のフローチャートを示す。図９Ａおよび９Ｂは、本発明のある具体例による例示的単語カウンティングアルゴリズムのフローチャートを示す。図９Ａおよび９Ｂは、本発明のある具体例による例示的単語カウンティングアルゴリズムのフローチャートを示す。図１０Ａおよび１０Ｂは、本発明のある具体例による図９Ａおよび９Ｂの単語カウンティングアルゴリズムの例示的例を示す。図１１は、本発明のある具体例によるゲノムの座標に対応する座標位置を有する例示的添数アレイを示す。図１２Ａは、本発明のある具体例によるアルゴリズムの関係で用いる変数およびデータ構造のグラフ表示を示す。図１２Ｂは、本発明のある具体例によるアルゴリズムの偽暗号表示を示す。

Claims

複数の核酸分子であって、
（ａ）該複数はＮの核酸分子よりなり；
（ｂ）該複数の核酸分子の各々は、Ｚ塩基対のゲノム中の配列に特異的にハイブリダイズするヌクレオチド配列を有し；および
（ｃ）該複数の核酸分子の少なくともＰ％は、
（ｉ）Ｋヌクレオチドの長さを有し；
（ｉｉ）該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも１つの核酸分子に特異的にハイブリダイズし、該表示は該ゲノムの複雑性のＲ％超を有し；および
（ｉｉｉ）該ゲノムに対してＬ_１ヌクレオチドのＸ以下の正確なマッチおよび該ゲノムに対してＬ_１ヌクレオチドのＹ以上の正確なマッチを有し；かつ
（Ａ）Ｎ≧５００；
（Ｂ）Ｚ≧１×１０^８；
（Ｃ）３００≧Ｋ≧３０；
（Ｄ）７０≧Ｒ≧０．００１；
（Ｅ）Ｐ＝（Ｎ×Ｒ＋（３×シグマ））／Ｎ；
（Ｆ）シグマは（Ｎ×Ｒ×（１−Ｒ））の平方根であり；
（Ｇ）（ｌｏｇ_４（Ｚ）＋２）に最も近い整数≧Ｌ_１≧ｌｏｇ_４（Ｚ）に最も近い整数；
（Ｈ）ＸはＤ_１×（Ｋ−Ｌ_１＋１）に最も近い整数であり；
（Ｉ）ＹはＤ_２×（Ｋ−Ｌ_１＋１）に最も近い整数であり；
（Ｊ）１．５≧Ｄ_１≧１；および
（Ｋ）１≧Ｄ_２≧０．５
である該核酸分子。
Ｎが少なくとも５００；少なくとも１，０００；少なくとも２，５００；少なくとも５，０００；少なくとも１０，０００；少なくとも２５，０００；少なくとも５０，０００；少なくとも８５，０００；少なくとも１９０，０００；少なくとも３５０，０００；および少なくとも５５０，０００の核酸分子よりなる群から選択される請求項１記載の複数の核酸分子。
Ｚが少なくとも３×１０^８、少なくとも１×１０^９、少なくとも１×１０^１０および少なくとも１×１０^１１よりなる群から選択される請求項１記載の複数の核酸分子。
前記ゲノムが哺乳動物ゲノムである請求項１記載の複数の核酸分子。
前記ゲノムがヒトゲノムである請求項４記載の複数の核酸分子。
Ｒが０．００１、１、２、４、１０、１５、２０、３０，４０、５０および７０よりなる群から選択される請求項１記載の複数の核酸分子。
Ｐが少なくとも７０、少なくとも８０、少なくとも９０、少なくとも９５、少なくとも９７、および少なくとも９９よりなる群から選択される請求項１記載の複数の核酸分子。
Ｄ_１が１である請求項１記載の複数の核酸分子。
Ｄ_２が１である請求項１記載の複数の核酸分子。
Ｌ_１が１５、１６、１７、１８、１９、２０、２１、２２、２３および２４よりなる群から選択される請求項１記載の複数の核酸分子。
前記複数の核酸分子の前記Ｐ％の各々が、さらに、前記ゲノムに対してＬ_２ヌクレオチドのＡ以下の正確なマッチ、および該ゲノムに対してＬ_２ヌクレオチドのＢ以上の正確なマッチを有し；および
ここで、
（ａ）Ｌ_１＞Ｌ_２≧ｌｏｇ_４（Ｚ）−３に最も近い整数；
（ｂ）ＡはＤ_３×（（Ｋ−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））に最も近い整数であり；
（ｃ）ＢはＤ_４×（（Ｋ−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））に最も近い整数であり；
（ｄ）４≧Ｄ_３≧１；および
（ｅ）１＞Ｄ_４≧０．５
である請求項１記載の複数の核酸分子。
Ｄ_３≦３、２または１．５である請求項１１記載の複数の核酸分子。
前記複数の核酸分子の前記Ｐ％が、前記表示に存在する、または存在すると予測される少なくとも１つの核酸分子に対して、少なくとも９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％の配列同一性を有する請求項１記載の複数の核酸分子。
Ｋが４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１４０、１６０、１８０、２００および２５０よりなる群から選択される請求項１記載の複数の核酸分子。
複数の核酸分子であって、
（ａ）該複数は少なくとも１００の核酸分子よりなり；
（ｂ）該複数の核酸分子の各々は少なくともＺ塩基対のゲノム中の配列に少なくとも９０％同一であるヌクレオチド配列を有し；および
（ｃ）該複数の核酸分子の少なくともＰ％は、
（ｉ）Ｋヌクレオチドの長さ；
（ｉｉ）該ゲノムに由来する表示に存在する、または存在すると予測される少なくとも１つの核酸分子に対して少なくとも９０％配列同一性であって、該表示は該ゲノムの複雑性のＲ％以下を有する、配列同一性；および
（ｉｉｉ）該表示に対してＬ_１ヌクレオチドのＸ以下の正確なマッチ、および該表示に対してＬ_１ヌクレオチドのＹ以上の正確なマッチ；
を有し；および
（Ａ）Ｚ≧１×１０^８；
（Ｂ）３００≧Ｋ≧３０；
（Ｃ）７０≧Ｒ≧０．００１；
（Ｄ）Ｐ≧９０−Ｒ；
（Ｅ）（ｌｏｇ_４（（Ｚ×Ｒ）／１００）＋２）に最も近い整数≧Ｌ_１≧ｌｏｇ_４（（Ｚ×Ｒ）／１００）に最も近い整数；
（Ｆ）ＸはＤ_１×（Ｋ−Ｌ_１＋１）に最も近い整数であり；
（Ｇ）ＹはＤ_２×（Ｋ−Ｌ_１＋１）に最も近い整数であり；
（Ｈ）１．５≧Ｄ_１≧１；および
（Ｉ）１＞Ｄ_２≧０．５；
である該複数の核酸分子。
少なくとも５００；少なくとも１，０００；少なくとも２，５００；少なくとも５，０００；少なくとも１０，０００；少なくとも２５，０００；少なくとも５０，０００；少なくとも８５，０００；少なくとも１９０，０００；少なくとも３５０，０００；または少なくとも５５０，０００の核酸分子を含む請求項１５記載の複数の核酸分子。
Ｚが少なくとも３×１０^８、少なくとも１×１０^９、少なくとも１×１０^１０および少なくとも１×１０^１１よりなる群から選択される請求項１５記載の複数の核酸分子。
前記ゲノムが哺乳動物ゲノムである請求項１５記載の複数の核酸分子。
前記ゲノムがヒトゲノムである請求項１８記載の複数の核酸分子。
Ｒが０．００１、１、２、４、１０、１５、２０、３０、４０、５０および７０よりなる群から選択される請求項１５記載の複数の核酸分子。
Ｐが少なくとも７０、少なくとも８０、少なくとも９０、少なくとも９５、少なくとも９７および少なくとも９９よりなる群から選択される請求項１５記載の複数の核酸分子。
Ｄ_１が１である請求項１５記載の複数の核酸分子。
Ｄ_２が１である請求項１５記載の複数の核酸分子。
Ｌ_１が１５、１６、１７、１８、１９、２０、２１、２２、２３および２４よりなる群から選択される請求項１５記載の複数の核酸分子。
前記複数の核酸分子の前記Ｐ％の各々が、さらに、前記ゲノムに対してＬ_２ヌクレオチドのＡ以下の正確なマッチ、および該ゲノムに対してＬ_２ヌクレオチドのＢ以上の正確なマッチを有し；および
（ａ）Ｌ_１＞Ｌ_２≧ｌｏｇ_４（Ｚ）−３に最も近い整数；
（ｂ）ＡはＤ_３×（（Ｋ−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））に最も近い整数であり；
（ｃ）ＢはＤ_４×（（Ｋ−Ｌ_２＋１）×（Ｚ／４^Ｌ _２））に最も近い整数であり；
（ｄ）４≧Ｄ_３≧１；および
（ｅ）１＞Ｄ_４≧０．５；
である請求項１５記載の複数の核酸分子。
前記複数の核酸分子の前記Ｐ％が前記表示に存在する、または存在すると予測される少なくとも１つの核酸分子に対して少なくとも９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％の配列同一性を有する請求項１５記載の複数の核酸分子。
Ｋが４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１４０、１６０、１８０、２００および２５０よりなる群から選択される請求項１５記載の複数の核酸分子。
前記表示が前記ゲノムの配列特異的切断によって生じる請求項１記載の複数の核酸分子。
配列特異的切断が制限エンドヌクレアーゼによって達成される請求項２８記載の複数の核酸分子。
前記表示が化合物表示である請求項１記載の複数の核酸分子。
前記複数の核酸分子が固相の表面に固定化された請求項１記載の複数の核酸分子。
前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項３１記載の複数の核酸分子。
前記固相上の前記複数の核酸分子の位置が公知である請求項３１記載の複数の核酸分子。
前記複数の核酸分子がマイクロアレイ上にある請求項３３記載の複数の核酸分子。
前記複数の核酸分子がマイクロスフィアに固定化されている請求項３３記載の複数の核酸分子。
（ａ）請求項１記載の複数の核酸分子に試料をハイブリダイズさせ；次いで、
（ｂ）該複数の核酸分子のいずれに該試料がハイブリダイズするかを決定する；
ことを包含する、核酸試料を分析する方法。
前記試料が表示である請求項３６記載の方法。
前記複数の核酸分子が固相の表面に固定化された請求項３６記載の方法。
前記固相がナイロン膜、ニトロセルロース膜、ガラススライド、およびマイクロスフィアよりなる群から選択される請求項３８記載の方法。
前記固相上の前記複数の核酸分子の位置が公知である請求項３８記載の方法。
前記複数の核酸分子がマイクロアレイ上にある請求項４０記載の方法。
前記複数の核酸分子がマイクロスフィアに固定化された請求項３８記載の方法。
２つのゲノムの間のゲノム配列のコピー数変動を分析する方法であって、
（ａ）第一のゲノムおよび第二のゲノムを供し；
（ｂ）少なくとも１つの同一制限酵素を用いて各ゲノムの検出可能に標識された表示を調製し；
（ｃ）該表示を請求項１または３１記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とし；次いで、
（ｄ）該表示のハイブリダイゼーションのレベルを比較することを包含し、
ここに、該レベルの差が、該メンバーによって標的とされるゲノム配列に関して２つのゲノムの間のコピー数変動を示す、該方法。
前記２つの表示が区別可能に標識された請求項４３記載の方法。
前記表示を前記複数の核酸分子と同時に接触させる請求項４４記載の方法。
２つのゲノムの間のゲノム配列のメチル化状態を比較する方法であって、
（ａ）第一および第二のゲノムを提供する工程；
（ｂ）少なくとも１つの同一酵素を用いて各ゲノムの検出可能に標識された表示を調製し、ここで、該表示はメチル化感受性方法によって調製する工程；
（ｃ）該表示を請求項１または３１記載の複数の核酸分子と接触させて、該表示および該複数の核酸分子の間のハイブリダイゼーションを可能とする工程；および
（ｄ）該表示のハイブリダイゼーションのレベルを比較する工程を包含する方法であって、
ここで、該レベルの差は、該メンバーによって標的化されたゲノム配列に関して２つのゲノムの間のメチル化状態の差を示す、方法。
前記メチル化感受性方法が、第一の制限酵素を用いて第一の表示を、および第二の制限酵素を用いて第二の表示を調製する工程を包含し、ここで、該第一および第二の制限酵素は同一制限部位を認識するが、一方はメチル化感受性であって、他方はそうではない請求項４６記載の方法。
前記メチル化感受性方法が、メチル化されたゲノムに由来する表示が非メチル化ゲノムに由来する表示と区別できるように、非メチル化感受性制限酵素で表示を作成した後に、メチル−Ｃ配列の化学的切断を含む請求項４６記載の方法。
（ａ）Ｋヌクレオチドの長さ；
（ｂ）少なくともＺ塩基対のゲノムに由来する表示に存在する、または存在すると予測される少なくとも１つの核酸分子に対して少なくとも９０％の配列同一性；および
（ｃ）該ゲノムに対してＬ_１ヌクレオチドのＸ以下の正確なマッチ、および該ゲノムに対してＬ_１ヌクレオチドのＹ以上の正確なマッチ；
を有し、
ここで、
（ｉ）Ｚ≧１×１０^８；
（ｉｉ）３００≧Ｋ≧３０；
（ｉｉｉ）（ｌｏｇ_４（Ｚ）＋２）に最も近い整数≧Ｌ_１≧ｌｏｇ_４（Ｚ）に最も近い整数；
（ｉｖ）ＸはＤ_１×（Ｋ−Ｌ_１＋１）に最も近い整数；
（ｖ）ＹはＤ_２×（Ｋ−Ｌ_１＋１）に最も近い整数；
（ｖｉ）１．５≧Ｄ_１≧１；および
（ｖｉｉ）１＞Ｄ_２≧０．５；
であるオリゴヌクレオチドを同定する方法であって、
（Ａ）該ゲノムを制限酵素でｉｎｓｉｌｉｃｏ切断して、複数の予測された核酸分子を生じさせる工程、
（Ｂ）各々が包括的に２００ないし１，２００塩基対の長さを有する予測された核酸分子を同定することによって該ゲノムの実質的表示を生じさせる工程；
（Ｃ）包括的に３０ないし３００ヌクレオチドの長さ、および（Ｂ）における予測された核酸分子に対して少なくとも９０％の配列同一性を有するオリゴヌクレオチドを選択する工程；
（Ｄ）該オリゴヌクレオチドで起こるＬ_１ヌクレオチドの全てのストレッチを同定する工程；および
（Ｅ）該ゲノムで起こる該ストレッチの各々の回数の数が（ｃ）の要件を満たすことを確認する工程、を包含する、方法。
工程（Ｅ）が：
前記ゲノムの圧縮されたトランスフォームを提供する工程；
該ゲノムに関連する情報を含む補助的データ構造を提供する工程；および
該圧縮されたトランスフォームおよび補助的データ構造を用いてＬ_１ヌクレオチドについての単語カウントを決定する工程、
を包含する請求項４９記載の方法。
工程（Ｅ）が：
前記ゲノムの圧縮されたトランスフォームを提供する工程；
最後のヌクレオチドで開始し、第一のヌクレオチドまで反復当たり１文字で進行して、Ｌ_１ヌクレオチドの前記ストレッチの各ヌクレオチドを通じて反復する工程であって、ここに、特定の反復に対応するヌクレオチドは指標ヌクレオチドとして貯蔵される、工程であって、該反復は、さらに：
該トランスフォーム内の連続した範囲のヌクレオチドを示すサーチ領域を規定する工程；
該サーチ範囲で起こる該指標ヌクレオチドに先行するヌクレオチドの回数の数をカウントする工程、を包含し；
ここで、該指標ヌクレオチドに先行するヌクレオチドの出現が該サーチ範囲で起こらない場合、該反復を終了する；および
Ｌ_１ヌクレオチドの該ストレッチの第一のヌクレオチドがカウントされる回数の数を出力する工程であって、この数は該ゲノムで出現するＬ_１ヌクレオチドの該ストレッチの回数の数と同等である、工程、
を包含する請求項４９記載の方法。
補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は：
前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォーム中で出現した各ヌクレオチドのランニング合計を維持するＫ間隔データ構造；および
速いルックアップアクセスを圧縮されたトランスフォームに提供する辞書カウントデータ構造を含み；
ここに、前記カウントする工程および前記規定する工程は、該補助的データ構造および該圧縮されたトランスフォームを用いて行われる請求項５１記載の方法。
該トランスフォームは該カウンティングが実行される間は圧縮されたままである請求項５２記載の方法。
前記圧縮解除されたトランスフォーム中の３つの文字ごとに圧縮されてバイトを形成するように該圧縮されたトランスフォームが圧縮され、該カウンティングは該反復の１つの間にせいぜい１つのそのようなバイトを圧縮解除する請求項５２記載の方法。
前記ゲノムが少なくとも３０億文字を含む請求項５１記載の方法。
前記圧縮されたトランスフォームが前記ゲノムのＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームである請求項５１記載の方法。
前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程は該データおよび前記標識ヌクレオチドを用いて前サーチ領域を規定する工程を包含する、請求項５１記載の方法。
さらに、
前記トランスフォームに基づくデータを提供する工程；および
先行ヌクレオチドカウントを決定する工程であって、該先行ヌクレオチドカウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標ヌクレオチドに先行するヌクレオチドの回数の数である、工程、
を包含する方法であって、
ここに、前記規定する工程は、該データ、該指標ヌクレオチド、および該先行ヌクレオチドカウントを用いて、該サーチ領域を規定する工程を包含する、請求項５１記載の方法。
前記先行ヌクレオチドカウントが、Ｋ間隔を用いて得られ、該Ｋ間隔は前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームで出現した各ヌクレオチドのランニング合計を維持する、請求項５８記載の方法。
各々が請求項４９記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも５００オリゴヌクレオチドを含む、オリゴヌクレオチド。
各々が請求項４９記載の方法によって生産される複数のオリゴヌクレオチドであって、該複数は、少なくとも１，０００オリゴヌクレオチド；少なくとも２，５００オリゴヌクレオチド；少なくとも５，０００オリゴヌクレオチド；少なくとも１０，０００オリゴヌクレオチド；少なくとも２５，０００オリゴヌクレオチド；少なくとも５０，０００オリゴヌクレオチド；少なくとも８５，０００オリゴヌクレオチド；少なくとも１９０，０００オリゴヌクレオチド；少なくとも３５０，０００オリゴヌクレオチド；または少なくとも５５０，０００オリゴヌクレオチドを含む、オリゴヌクレオチド。
ヌクレオチド配列を注釈するための方法であって、該ヌクレオチド配列は、文字のストリングを含み、該方法は：
所定の長さの複数の単語に該ヌクレオチド配列を分割する工程であって、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である、工程；および
該ヌクレオチド配列に出現する各単語の回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
を包含する、方法。
前記単語が重複する、請求項６２記載の方法。
前記決定する工程が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用する単語カウンティングアルゴリズムを用いて、各単語が該ヌクレオチド配列で何回起こるかをカウントする工程を包含する、請求項６２記載の方法。
前記単語カウンティングアルゴリズムが：
最後の文字で出発し、最初の文字まで反復当たり１つの文字にて進行して、該単語の１つの各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は、指標文字として貯蔵される、工程、
を包含し、該反復する工程は、さらに：
前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程；
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
を包含する方法であって、
ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程は終了する；および
第一の文字がカウントされる回数の数を出力する工程であって、この数は該ヌクレオチド配列で出現する特定の単語の回数の数と同等である、工程、
を包含する、請求項６４記載の方法。
各単語で得られた単語カウントについて統計学的解析を行う工程をさらに包含する、請求項６２記載の方法。
前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割する工程であって、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である、工程；および
該ヌクレオチド配列に出現する該第二の複数の単語の各々の回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する工程、
をさらに包含する、請求項６２記載の方法。
前記ヌクレオチド配列がゲノムである、請求項６２記載の方法。
ヌクレオチド配列を注釈するためのシステムであって、該ヌクレオチド配列は文字のストリングを含み、該システムは：
該ヌクレオチド配列を所定の長さの複数の単語に分割し、各単語は該所定の長さを有する該ヌクレオチド配列のサブ領域である；および
該ヌクレオチド配列で出現する各単語の回数をカウンティングすることによって、各単語につき単語カウントを決定する；
ように設定されたユーザー機器を備える、システム。
前記単語が重複する、請求項６９記載のシステム。
前記ユーザー機器が、前記ヌクレオチド配列の圧縮されたトランスフォームを利用して、各単語が該ヌクレオチド配列で起こる回数をカウントする単語カウンティングアルゴリズムを用いるように設定された、請求項６９記載の方法。
前記ユーザー機器が、さらに：
最後の文字で出発し、反復当たり１文字にて最初の文字まで進行するように、前記単語の１つの各文字を通じて反復し、ここに、特定の反復に対応する文字は、指標文字として貯蔵されるように設定され、該ユーザー機器は、さらに：
前記トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程；
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程；および
該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、反復を終了する工程、
を反復することによって反復するように設定され；そして、
第一の文字がカウントされる回数の数を出力するように設定され、この数は特定の単語が前記ヌクレオチド配列で出現する回数の数と同等である、請求項７１記載のシステム。
前記ユーザー機器が、各単語につき得られた単語カウントについて統計学的解析を行うように設定された、請求項６９記載のシステム。
前記ユーザー機器が：
前記ヌクレオチド配列を第二の所定の長さの第二の複数の単語に分割し、該第二の複数の単語の各々は、該第二の所定の長さを有する該ヌクレオチド配列のサブ領域である；および
該第二の複数の単語の各々が、該ヌクレオチド配列で出現する回数の数をカウントすることによって、該第二の複数の単語の各々につき単語カウントを決定する；
ように設定された、請求項６９記載のシステム。
該ヌクレオチド配列がゲノムである、請求項６９記載のシステム。
ヌクレオチド配列の望まない領域への交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するための方法であって、該方法は、以下：
該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する工程；
各ヌクレオチドに対して統計学的データを生じさせる工程；および
該ポリヌクレオチドのいずれの１つが、所定の基準を最良に満足する統計学的データを有するかを決定する工程、
を包含する、方法。
前記生じさせる工程が、
各ポリヌクレオチドを所定の長さの複数の単語に分割する工程であって、各単語は該所定の長さを有するポリヌクレオチドのサブ領域である、工程；および
各単語が該ヌクレオチド配列で出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する工程、
を包含する、請求項７６記載の方法。
前記統計学的データが、各ポリヌクレオチドの構成単語が、前記ヌクレオチド配列で出現する回数の数を表す、請求項７６記載の方法。
前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項７６記載の方法。
前記選択する工程が、
前記ヌクレオチド配列で起こる特定長さを有する特定の単語の単語カウントを生じさせる工程；および
前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る工程、
を包含する、請求項７６記載の方法。
ヌクレオチド配列の望まない領域へ交差ハイブリダイズする最小の可能性を有するポリヌクレオチドを選択するためのシステムであって、前記方法は、
該ヌクレオチド配列内に存在する所定の長さの複数のポリヌクレオチドを選択する；
各ポリヌクレオチドに対して統計学的データを生じさせる；および
該ポリヌクレオチドのいずれの１つが、所定の基準を最良に満足する統計学的データを有するかを決定する；
ように設定されたユーザー機器を含む、システム。
前記ユーザー機器が：
各ポリヌクレオチドを所定の長さの複数の単語に分割し、各単語は、該所定の長さを有するポリヌクレオチドのサブ領域である；および
各単語が前記ヌクレオチド配列に出現する回数の数をカウントすることによって、各単語につき単語カウントを決定する；
ように設定された、請求項８１記載のシステム。
前記統計学的データが、各ポリヌクレオチドの構成単語が前記ヌクレオチド配列で出現する回数の数を表す、請求項８１記載のシステム。
前記所定の基準が、所定の長さの単語カウントの最小平均値、所定の長さの単語カウントの幾何平均値、所定の長さの単語カウントのモード値、所定の長さの単語カウントの最小化された最大値、所定の長さの単語カウントの総計合計値、所定の長さの単語カウントの積値、特定のヌクレオチドの最大長ストリング、またはその組合せを含む、請求項８１記載のシステム。
前記ユーザー機器が：
前記ヌクレオチド配列で起こる特定の長さを有する特定の単語の単語カウントを生じさせる；および
前記領域内のサブストリングについての単語カウントが、所定の単語カウントを超えないように、該ヌクレオチド配列の領域からポリヌクレオチドを得る；
ように設定された、請求項８１記載のシステム。
ゲノムで起こる単語の回数の数をカウントするための方法であって、ここに、該単語は文字のストリングを含み、該方法は：
該ゲノムの圧縮されたトランスフォームを提供する工程；
最後の文字で出発し、反復当たり１文字にて第一の文字まで進行させて、該単語の各文字を通じて反復する工程であって、ここに、特定の反復に対応する文字は指標文字として貯蔵される、工程、
を包含し、該反復する工程は、さらに：
該トランスフォーム内の連続範囲の文字を示すサーチ領域を規定する工程；
該サーチ範囲で起こる該指標文字に先行する文字の回数の数をカウントする工程、
を包含する、反復する工程であって、
ここに、該指標文字に先行する文字の出現が該サーチ範囲で起こらない場合、該反復する工程を終了する；ならびに
該単語の第一の文字の回数の数を出力する工程であって、この数は該ゲノムで出現する該単語の回数の数と同等である、工程、
を包含する、方法。
補助的データ構造を提供する工程をさらに包含し、該補助的データ構造は：
前記圧縮されたトランスフォーム中の特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現する各文字のランニング合計を維持するＫ間隔データ構造；および
該圧縮されたトランスフォームへの速ルックアップアクセスを提供する辞書カウントデータ構造、を含み、
ここに、該カウンティングは、少なくとも該Ｋ間隔データ構造および該辞書カウントデータ構造を用いて行われる、請求項８６記載の方法。
前記トランスフォームが、前記カウンティングが行われている間、圧縮されたままである、請求項８７記載の方法。
前記圧縮されたトランスフォームは、圧縮解除されたトランスフォームにおける３文字ごとに圧縮されてバイトを形成するように圧縮され、前記カウンティングは、前記反復の１つの間に、１つのそのようなバイトを圧縮解除する、請求項８７記載の方法。
前記ゲノムの圧縮されたトランスフォームが、３対１の圧縮比率を用いて誘導される、請求項８６記載の方法。
前記ゲノムが少なくとも１００万の文字を含む、請求項８６記載の方法。
前記ゲノムが少なくとも４００万の文字を含む、請求項８６記載の方法。
前記ゲノムが少なくとも１億の文字を含む、請求項８６記載の方法。
前記ゲノムが少なくとも３０億の文字を含む、請求項８６記載の方法。
前記単語が少なくとも１５の文字を含む、請求項８６記載の方法。
前記圧縮されたトランスフォームがゲノムのＢｕｒｒｏｗｓ−Ｗｈｅｅｌｅｒトランスフォームである、請求項８６記載の方法。
前記トランスフォームに基づくデータを提供する工程をさらに包含し、ここに、前記規定する工程が、該データおよび前記指標文字を用いて、前記サーチ領域を規定する工程を包含する、請求項８６記載の方法。
該トランスフォームに基づくデータを提供する工程；および
先行文字カウントを決定する工程であって、該先行文字カウントは、前記サーチ領域の開始前に該トランスフォームで起こる指標文字に先行する文字の回数の数である工程、をさらに包含し、
ここに、前記規定する工程が、該データ、該指標文字、および該先行文字カウントを用いて、該サーチ領域を規定する工程を包含する、請求項８６記載の方法。
前記先行文字カウントが、Ｋ間隔を用いて得られ、該Ｋ間隔が前記トランスフォームに沿った所定の位置に貯蔵され、特定の所定の位置まで、およびそれを含めて、該トランスフォームに出現した各文字のランニング合計を維持する、請求項９８記載の方法。
請求項８６〜９９記載の方法を実行するように設定されたユーザー機器を含む、システム。