JP5926189B2

JP5926189B2 - Ｒｎａ分析方法

Info

Publication number: JP5926189B2
Application number: JP2012542561A
Authority: JP
Inventors: ザイツアレクサンダー; ポールルーカス; ヤンファンミンマクス
Original assignee: Lexogen GmbH
Current assignee: Lexogen GmbH
Priority date: 2009-12-11
Filing date: 2010-12-10
Publication date: 2016-05-25
Anticipated expiration: 2030-12-10
Also published as: CA2782766A1; CN102782152A; AU2010329825B2; EP2510114B1; EP2510114A1; WO2011070155A1; EP2333104A1; US20120238457A1; JP2013513373A; AU2010329825A1

Description

本発明は、核酸の複合混合物の分析及び特性決定のための試料調製、並びにシークエンシング法、特に高スループットのシークエンシング技術、例えば次世代シークエンシング法（Next Generation Sequencing：ＮＧＳ）の分野に関する。

ＮＧＳは現在のところ最も完成された分析方法である。次世代シークエンシング法は、重合を通じて並列的にシークエンシングを行う高スループットＤＮＡシークエンシング法の総称である。ＮＧＳは、各々通常１０塩基対前後から数百塩基対までの長さを有する、最大数百万超の断片の配列を読み取る。これらのリード（reads）のアラインメントによって完全配列が得られるが、これは極めて困難な作業である。一部のＮＧＳ法は、ゲノムデータベース及び／又はトランスクリプトームデータベース内に保持されるコンセンサスブループリント（consensus blue print）を利用する。結果の質は、リード（reads）の長さ及び数、読み取り精度、参照データベースの情報の質、及び適用されるバイオインフォマティクスアルゴリズムに応じて異なる。現在までのところ、多くのリードからは、限られた情報しか得られない。例えば、多くのリードは一義的に割り当てることができず、ゆえに破棄されてしまう。このように割り当てが不確実であることの根底にある主な理由として、ａ）１つのリードが２つ以上の遺伝子とアラインする場合があること、及び、ｂ）１つのリードが同一の遺伝子の異なる複数の変異転写物に由来する場合があること、の２点が挙げられる。

更に、シークエンシングの深度、惹いては不十分量の（low abundant）核酸の検出には限界がある。これは、ＲＮＡ分析では、試料が異なる細胞又は細胞集団又は疾病生物の異なる多数のＲＮＡ分子を含む場合、希少なＲＮＡ又はその部分が検出される可能性は更に低くなるということを意味する。事実、トランスクリプトミクスでは、単純な生物でさえも、希少なＲＮＡ転写物が検出及び定量される可能性は低い。

より詳しくは、多くのＮＧＳ法では、検出可能な信号を生成するために、個々のＲＮＡ分子又はそのＤＮＡコピーを増幅する必要がある。エマルジョン（emulsion）ポリメラーゼ連鎖反応（polymerase chain reaction：ＰＣＲ）は、油相中水性泡に含まれるプライマー被覆ビーズを用いて、個々のＤＮＡ分子を単離するものである。厳密な希釈等によってＤＮＡ分子を単分離するという別の選択肢もある。インビトロでクローン増幅を行う別の方法として、ブリッジ（bridge）ＰＣＲが挙げられる。これは、固体表面に添着されたプライマーを用いて断片を増幅するものである。別の選択肢として、この増幅ステップを省略し、ＤＮＡ分子を表面に直接固定する方法もある。斯かるＤＮＡ分子又は上述のＤＮＡ被覆ビーズを表面に固定化し、並行してシークエンシングを行う。合成によるシークエンシングは、（「旧式」（old style）のダイターミネーション（dye-termination）電気泳動シークエンシング法と同様に）ＤＮＡポリメラーゼを用いて塩基配列を決定する。可逆ターミネータ法は、可逆的なダイターミネータを使用し、繰り返し保護基を除去して他のヌクレオチドを重合させることにより、一度に一つのヌクレオチドを付加して、各位置の蛍光を検出する方法である。パイロシークエンシング（pyrosequencing）もＤＮＡ重合を使用し、一度に一つのヌクレオチド種を付加し、結合されたピロリン酸の放出による発光に基づき、所与の位置に付加されたヌクレオチドの数を検出及び定量する方法である。ライゲーション（ligation）法によるシークエンシング法は、ＤＮＡリガーゼを用いて標的配列を決定する方法である。ポロニー（polony）法及びSOLiD^{登録商標）}技術において用いられるこの方法は、シークエンシング位置に応じて標識された、固定長のあらゆる可能なオリゴヌクレオチドを利用する。オリゴヌクレオチドをアニール及びライゲートする。配列をマッチングするべくＤＮＡリガーゼにより優先的にライゲーションすることにより、その位置のジヌクレオチドによりコーディングされたカラースペース信号が得られる。

ＮＧＳ技術は本質的に入力ＤＮＡのランダム増幅に基づく。これにより調製は容易となるが、このままではシークエンシングの方向が定まらない（undirected）。リードの一義的なアラインメントを妨げる大きな因子は、（同時に取得される）試料情報が極度の複雑性を有することにある。よって、結果の質を高めるには、複雑性の低減が必須である。

例えばヒトゲノムプロジェクト等で使用された、ＤＮＡの複雑性を低減するための従来の手法は、シークエンシングに先立ってＢＡＣ（細菌性人工染色体）クローンを作成するというものである。ゲノムＤＮＡの個々のストレッチを細菌宿主細胞にクローン化し、増幅し、抽出し、これを鋳型としてサンガー（Sanger）シークエンシング法に供する。大型のＢＡＣライブラリーの作製、維持及び検証は、多大な労力を要する作業である上に、相当の費用がかかる。斯かる既存のＮＧＳプラットフォームの非現実性及び不適合性ゆえに、細菌クローニングは避けられるのが通常である。

複雑性を低減する別の選択肢によれば、まずポリ核酸をそのサイズに応じて選択する。異なる手法としては、限定されるものではないが、アガロースゲル電気泳動又はサイズ排除クロマトグラフィーによる分画が挙げられる。小型ＲＮＡシークエンシング法は、この方法を用いることにより、例えばマイクロＲＮＡ（ｍｉＲＮＡ）と呼ばれる１５から３０ヌクレオチドのＲＮＡ分子の画分を取得する。

複雑性を低減するためのおそらく最も単純な手法は、入力される核酸試料の量を制限し、単一の細胞のみとするものである。単一細胞シークエンシング法は、高希釈溶液の増幅反応を利用するもので、全トランスクリプトームを含んでいるために細胞内含有物に由来する複雑性を低減することは実質的に不可能であり、入力される細胞の選択のみに依存することになる。

入力される核酸の量を単一細胞に含まれる量に低減するための別の方法は、限界希釈法（limited dilution）とも呼ばれる方法である。ゲノム核酸試料をまず分画し、ついで試料容積中の核酸断片の空間分布が有意となるまで希釈する。次に、全試料容積から少量ずつ取得してサブプールを作成し、殆どのサブプールが核酸を含有せず、少数のサブプールが各々核酸を１つずつ含有し、更に少数のサブプールが複数の核酸を含有するようにする。こうして核酸を個々に単離することができ、また、単離された核酸は各々ゲノムの断片であるから、全長ゲノムと比べて複雑性を低減することができる。ひいては、個々の核酸断片を含むサブプールから配列をアセンブルする際の効率が向上する。これにより、巨大なゲノムの組立及び骨格構築を容易にするというものである。トランスクリプトーム分析では、各転写物分子が１つのサブプールを占めるために、このような限界希釈法では、同一の遺伝子や異なる遺伝子の発現の変化により生じる複雑性を低減することができない。従って、試料の全トランスクリプトームを表示するためには、試料中の分子と同数のサブプールが必要となってしまう。

更なる選択肢としては、配列特異的にＲＮＡを除外する方法、例えばハイブリダイゼーションを利用して全ＲＮＡ試料からリボゾームＲＮＡを除去する方法が挙げられる。他の分画法が事前の配列情報に依存し、或るいは特定のＲＮＡ画分（例えばポリＡ選択）を対象とするのに対して、ｒＲＮＡを除去する方法では、例えばｍＲＮＡを検査対象とするならば、シークエンシング用試料に影響が及ぶことはない。総ＲＮＡ試料からｒＲＮＡを除去する方法を用いることで、ｍＲＮＡ及び他の転写物をカバーするリードの数は増加する。しかし、リードを特定の遺伝子又はその転写物にアラインする際の複雑性は、やはり低減されない。

また、配列特異的選択法を用いて、例えば特定のエクソン等のゲノム領域を標的化してシークエンシングすることも可能である。斯かる捕捉アレイ（capture arrays）の背後にあるのは、シークエンシングの前に選択工程を挿入するという考えである。こうしたアレイは所望のゲノム領域のみを捕捉するようにプログラムされ、これによりユーザーが所望の特定のゲノム領域のシークエンシングに、ＮＧＳ機器の能力を最大限に生かすことが可能となる。アレイ捕捉ハイブリダイゼーションは、シークエンシングのために低密度で行われる。斯かる技術は、選択工程において特定の配列情報が必要となるため、「仮定中立」（hypothesis neutral）ではない。

同様の正の選択を標的化再シークエンシングにも用いることができる。例えば、相補的ゲノム標的に対して高い特異性を有するビオチン化ＲＮＡ鎖を用いてＤＮＡ断片を抽出し、その後の増幅及び配列の決定に供することができる。斯かる複雑性低減の手法は、利用可能な配列情報に必然的に依存するものであるから、仮定中立（hypothesis neutral）ではない。

試料の複雑性を低減するゲノムの調製法が、国際公開第２００６／１３７７３４及び国際公開第２００７／０７３１７１Ａ２号に記載されている。これらはＡＦＬＰ技術に基づいている（欧州特許公報第０５３４８５８号及びBreyne等（MGG Mol. Genet. Genom., 269 (2) (2003): 173-179)）。ＡＦＬＰは、ＲＮＡ由来の二本鎖形成ｃＤＮＡにも適用されている。これによれば、二本鎖形成ｃＤＮＡはまず制限酵素によって切断され、続いて断片が分別される。各サブプールに含まれる核酸断片の複雑性は低下するものの、多くの場合においては、核酸の各断片は、少なくとも２つの異なるサブプールに分別されてしまう。

これはいわば、シークエンシング後にサブプール情報を用いて試料の核酸の組立を行うことができない、ということを意味する。ある核酸の各制限断片は、異なるサブプールに存在する可能性が高いからである。従って、ｃＤＮＡのＡＦＬＰ時にｃＤＮＡを制限処理する際に、ｃＤＮＡの全長に対する情報は失われてしまう。結局のところ、分別前に試料を断片化するＡＦＬＰ等の手法は、全長転写物配列のアラインメントの観点からは、複雑性を低減できないのである。しかも、大部分のｃＤＮＡの配列を少なくとも１つの制限部位でカバーするためには、多数の制限酵素を使用しなければならないため、斯かる曖昧さはより深刻になる。加えて、ｃＤＮＡＡＦＬＰ法においては、制限酵素のプールが核酸を切断する場合もしない場合もあるため、トランスクリプトームは統計的にカバーされるに過ぎない。

ディファレンシャルディスプレイ法（Differential Display：Liang 1992, Matz 1997）は、ｍＲＮＡ又はそのｃＤＮＡの部分配列のみが表示されるため、やはり全長配列をアセンブルすることはできず、同一の３’配列を共有する一遺伝子の複数の転写バリアントにリードを割り当てることはできない。

複数の微生物が混合された試料の１６ＳｒＤＮＡ又は１６ＳｒＲＮＡ配列のシークエンシングは、通常、斯かる試料中の希少種を検出するために使用される。シークエンシング法を微生物の特定の痕跡に限定することで、複雑性及び情報内容の双方が低減される。多くの場合、得られるのは系統発生情報のみである。

タグによる転写物の同定としては、ＳＡＧＥ（Serial Analysis of Gene Expression）法がある。本方法では、所定長の配列タグが抽出され、シークエンシングが行われる。最初にタグコンカテマーが生成される点がＮＧＳには不利であるため、変形法ではこの工程が省略される。

関連する方法としてＣＡＧＥ（Cap Analysis of Gene Expression）がある。ＣＡＧＥは転写物の５’末端の情報、ひいては対応する転写開始部位の情報を得ることを意図したものである。ＲＮＡ分子を担持する５’キャップを選択した上で、終了タグが抽出され、シークエンシングが行われる。

ＳＡＧＥ及びＣＡＧＥでは、抽出されて分析に供されるのはトランスクリプトームの限られた部分のみであるため、包括的な分別を可能とするものではなく、限界がある。

Nagalakshmi等（Science, 320 (5881) (2008): 1344-1349）及びWilhelm等（方法s, 48 (3) (2009): 249-257）はＲＮＡ−Ｓｅｑ法に関する。この方法は、ポリＡ及びランダムヘキサマープライマーを用いてｃＤＮＡを生成することを含む。この方法では、リードを個々の転写バリアントに割り当てるべく、複雑性を低減することはできない。

Armour等（Nature Methods, 6 (9) (2009): 647）は、ＲＮＡプールからｃＤＮＡを生成してシークエンシングに供する手法に関する。所謂「さほどランダムではない」（not-so-random：ＮＳＲ）プライマーを用いることにより、ｒＲＮＡを除去することができる。この方法によれば、短い配列断片のみが分別される。従って、この方法では、全長転写物の複雑性を低減することはできない。

従って、より小さな核酸試料の画分を提供するとともに、シークエンシング又は検出手順を改善する手法、特に希少核酸の信号取得の可能性を低減する高濃度の核酸プール等において、希少核酸試料の検出を改善する手法を提供することが可能な方法を提供することが可能な方法が求められていた。

即ち、本発明は、多様性を有する可能性があるＲＮＡ分子のプールに由来する核酸分子断片配列を整列させる（ordering）方法であって、
任意により、前記ＲＮＡ分子を逆転写し、ｃＤＮＡ分子のプールを提供し、
前記鋳型ＲＮＡ又はｃＤＮＡプールから核酸を分別し（segregating）、分別された鋳型が共有する核酸弁別特徴（distinctive nucleic acid feature）を用いて、相違する可能性がある鋳型を選択することにより、少なくとも第１の核酸のサブプールを提供し、
任意により、更に一回又は二回以上、前記鋳型ＲＮＡ又はｃＤＮＡから核酸を分別し、異なる核酸弁別特徴を用いて核酸を選択的に分別し、１又は２以上の更なる核酸のサブプールを提供し、
前記分別された核酸分子の断片を断片化により生成し、又は、前記分別された核酸分子の断片コピーを取得し、
ここで、各サブプール又は複数のサブプールの組み合わせの断片が、当該サブプールを物理的に分離することにより、又は、当該サブプールの断片に標識を付すことにより、他のサブプール又は他の複数のサブプールの組み合わせの断片から分離可能に維持されており、ここで当該標識が、あるサブプールを特定し、又は、前記分別された核酸分子の部分配列を決定するとともに、好ましくは少なくとも２つの配列又は部分配列を、結合された配列にアラインする、方法を提供する。

図１はＲＮＡの分別ＮＧＳ法のワークフローである。図２は遺伝子数をｍＲＮＡ数（全遺伝子転写物の総コピー数）の関数として、対数対数正規関数により表したシミュレーションである。活性遺伝子Ｇは１６，６５７、総転写物Ｔは３８０万、最頻転写物数は１０、対数対数正規関数の尺度値μは１、形状パラメーターδは０．４。図３は転写物数の遺伝子に対する関係を定量的に示す関数である。但しパラメーターｔ_{ｓｔａｒｔ}は３３、ｔ_ｅｎｄは１、全遺伝子の合計は２５，２００、転写物は４倍量（１００，２６９）。図４はｍＲＮＡ（コピー数）の転写物に対する依存性を示す指数関数的減衰関数である。但しパラメーターｃ_{ｓｔａｒｔ}は１０，０００、ｃ_ｅｎｄは１、減衰定数τは０．０５２２、全転写物の合計は１００，１２８、全コピー数の合計は３８０万。図５はサブプール化及び断片化の概略ワークフローである。同上。同上。図６はヌクレオチド特異的増幅（分別）を用いた一般原理を示す。この例では、サブプールの定義に用いられた５’末端の最初の２つのヌクレオチドが、配列タグにも用いられる。同上。同上。図７はＲＮＡマトリックス分別を示す。この例で注目すべきは、断片Ｆ２及びＦ４が同一の配列であり、サブプールに分別しない限りこれらは識別できない、という点である（ステップ１０参照）。ステップ２におけるｍＲＮＡの５’末端へのリンカー配列の連結は、本分野で公知の任意の方法、例えばオリゴキャッピング（Maruyama 1994）等によって達成可能である。同上。同上。図８はランダムプライムド重合による断片の作製を示す。ステップ１〜４は図９と同一である。サブプールｎのみを示す。ステップ６のＳｎはサブプール特異的タグを示す。同上。図９はランダムプライムドシークエンシングによる断片リードの作製を示す。ステップ１〜４は図７と同一である。この例ではサブプールｎの分子ｚが二本鎖となっており、各鎖がシークエンシングのための鋳型となる。ランダムプライマーはシークエンシングチップ表面に結合される。サブプールの各分子の一本の鎖がチップ上のプライマーにハイブリダイズする。ランダムプライマーは分子の任意の部分にハイブリダイズし得るので、シークエンシングによって分子から「断片」（fragment）リードが作製される。同上。図１０は１２のサブプールマトリックス（１×１）からの６つのサブプールのうち、１つの非分別試料（セットＡ）及び１つの分別試料（セットＢ）のＮＧＳリードアラインメントによって得られた、マウスゲノムの被覆度の比較を示す。コンセンサス長（ｙ軸）は一義的に検出された配列の合計長を示す。ｘ軸にはリードの合計をギガ塩基単位で示す。平均リード長は６５ヌクレオチドであった。点線は、リードのサブクラスをランダムに抽出し、これらを個別にマウスゲノムとアラインして得られたデータ点を連結したものである。実線は当該データ点の内挿及び外挿に基づく。ＧＣはゲノム被覆度（genome coverage）。図１１は実施例１のセットＢのうち１つのサブプール（サブプール6）と６つのサブプールの組み合わせとの間で遺伝子の発現を比較した散布図である。遺伝子発現はｓｎＲＰＫＭ、即ち、ＲＰＫＭ（Mortazavi 2008）を６つのサブプール内の全てのリードの合計に対して正規化した値で示す。全数値の１０％をランダムに抽出することにより、データ点の数を希釈して視認性を高めた。両対数尺度における対角線は、６分の１毎の切片を表す。グラフに示すのは、０．０１から１０００の間のｓｎＲＰＫＭ値を含む中央部分（central section）である。６／６線の上にある６つの値は、ＣＬＣソフトウェアで用いたアラインメントアルゴリズムの曖昧性により生じたものである。図１２は実施例１のセットＢにおける最も量の多い１５の遺伝子のサブプール分布を示す。異なるサブプールの遺伝子は異なる濃度で示す。異なる転写バリアント濃度を示す異なる遺伝子の転写バリアントが分別されたことを示している。図１３は遺伝子Nmntの転写開始部位分析を、ＲＮＡ−ｓｅｑのリードにより割り当てられた開始部位と共に示す。０及び１×１マトリックス実験による。ゲノムアノテーションは模式的であり、Nnmtの開始領域を示す。個々のリードを夫々の対応する位置に示す。基本リード（base reads）の相対頻度が「リード配列の頻度」の欄の暗灰色領域に相当する。

本発明の分別ステップによれば、核酸のサブプールを提供し、このサブプール情報を利用して、更なるシークエンシング反応（例えば核酸小断片のリード取得に基づく次世代シークエンシングや他の核酸特性決定法）を改善することができるという利点がある。本発明の方法を用いれば、サブプール情報を核酸及び断片に付随させることができ、この情報を用いてシークエンシングリードのアラインメント及びサブプール内の個々の核酸配列の濃度が決定される。更に、サブプール化によって複雑性を低減することにより、試料中に種々の濃度で存在する、ある生物の転写物及び／又は異なる細胞若しくは細胞集団の転写物及び／又は異なる生物の転写物を分別し、大量のＲＮＡ種の試料中に存在する希少核酸の検出可能性を高めることが可能となる。更に、異なる転写バリアント（例えばスプライスバリアント等）に属するシークエンシングリードの検出及び同定が可能となる。

シークエンシングリードを一義的にアラインメントし、次いで正確な配列のアセンブルを行うためには、試料の複雑性を効率的に低減するための手法が求められる。元の試料の高度の複雑性は、種々の濃度の配列の混合による無秩序さによる。本発明の方法によって得られる利点としては、
ｉ）共通の特性を有する核酸試料の所定のサブプールを提供し、
ii）サブプール特異的な情報を当該核酸及びその断片に連結するための手段を提供し、
iii）サブプール内、惹いては元の試料内における個々の配列の濃度測定を容易にし、
これによって、シークエンシングリードアラインメントの質を向上し、及び／又は、他の手段による元の試料の分析を可能にする分別方法が提供できる点が挙げられる。

この方法によって、希少転写物を、競合する他の全ての、そしておそらくは大量に存在する転写物の主信号の中から検出できる程度にまで、トランスクリプトーム試料の複雑性を低減することができる。この方法は、極めて希少な形態から非常に豊富な形態まで、種々の配列及びその断片を定量的に測定するのに適している。

本発明の主要部は、（例えばＮＧＳに必要な）断片化ステップに先立つ、核酸プールのサブプールへのソーティングにある。これによって全ての核酸断片が、その親となる分子から、追加のサブプール情報を獲得することになる。この情報は配列読み取り、例えば部分シークエンシングの間を通じて維持される。続いて、全てのリードが配列とともにサブプール情報を有し、これによってリードアラインメント工程の際に主な利点が提供される。単一の大きな「難問」（puzzle）を解く代わりに、複数の小さな問題を並行して解けばよいということになる。課題の複雑性は顕著に低減されることになる。結果として、ｉ）複数位置への割り当ての可能性が低減され、ii）従来であれば「該当なし」（no-match）に分類されてきたリードの出所をより多く特定することができ、iii）転写物分析においては、スプライス部位及び転写開始部位の変動を、より高い確率で検出することができ、更にはiv）より多くの全長転写物を検出することが可能となる。

転写物プールのサブプール化は、サブプールに複数の異なる情報内容を付加することを通じて実施することができる。得られる利益は使用する方法に応じて異なる。

サブプールへの分別は、転写物の特性を、配列に直接又は間接的に関連する核酸弁別特徴として利用することにより、達成することができる。斯かる特性としては、例えば種々のカラム材（例えばシリカゲル）等の吸着性物質に対する親和性や、塩、ポリマー、又は他の添加物の存在下での溶解性等が挙げられる。斯かる間接的な配列関連分別では、試料核酸に関して必要な情報は限られており、例えば沈殿の場合、主に長さ、ＧＣ含量及び二次構造に依存することになる。核酸弁別特徴は吸着又は溶解特性であってもよい。

これに代えて、又は、これに加えて、サブプールは、ｉ）内部又は末端の部分配列又は／及びii）転写物のサイズ等の、配列弁別特徴を利用した方法によって生成することができる。

ｉ）弁別配列（distinctive sequences）（通常は小さなヌクレオチド配列部分）は最も強力な分別ツールである。例えば、核酸弁別特徴は、鋳型ＲＮＡ又はｃＤＮＡに由来する核酸の部分配列であってもよい。弁別配列としては、分別対象の核酸内の特定の位置に存在する１又はそれ以上のヌクレオチド型（例えばＡ、Ｔ、Ｕ、Ｇ又はＣから選択されたもの）が挙げられる。例えばヌクレオチドを、５’若しくは３’末端、又は、前記末端から所与の距離にある、１又は２以上のヌクレオチド型又は配列の存在に基づいて分別することができる。一方では、前記核酸の弁別部分について１又は２以上の配列の可能性がある場合、これらをカバーするハイブリダイゼーションプローブのアレイを用いて、サブプールを生成することができる。たとえサブプールが異なる複数の核酸を含んでおり、一部の核酸が数個のサブプール内に存在していたとしても、斯かる分別アプローチによれば、元のプールの複雑性が既に低減されることになる。全リードの収集後、アラインメントアルゴリズムは、転写物がサブプール特異的配列を含むことを認識することになる。好ましくは、全ての転写物が少なくとも１つのサブプール特異的配列を示すことを、アラインメントアルゴリズムが保証しなければならない。

弁別配列等の核酸弁別特徴（例えば上述したような特定の位置における単一のヌクレオチド又は部分配列等）に基づく選択による分別は、斯かる核酸を弁別配列に基づいて選択を行うことにより、或いは、前記弁別配列に基づいて核酸を特異的に増幅し、得られたアンプリコンを本発明の方法において利用することにより、行うことができる。

好ましい分別法は、核酸の両末端、即ち開始及び停止部位の配列情報を利用する。末端特異的増幅の後、配列特異性における冗長性が０である（ミスマッチが許容されない）場合には、全てのサブプールが、まさしくこれらの末端を有するアンプリコン（例えばＰＣＲ産物等）を含むことになる。よって、サブプールは複数のＲＮＡ分子の核酸（例えば転写物等）を含むが、各核酸は１つのサブプール内に提示されることになる。この手法によれば、アラインメント手順の複雑性が大幅に低減される。

ii）ＲＮＡ分子サイズを利用すれば、電気泳動法（ゲル又はキャピラリー電気泳動）又は他の方法により、ＲＮＡ当たりのヌクレオチド数に基づいて、ＲＮＡを分別することが可能となる。次いでサブプール毎に異なるリードのアラインメントを行う際に、特定の極めて狭いサイズ範囲の境界条件が利点となる。

本明細書において、ＲＮＡ分子に由来する核酸分子とは、試料由来のＲＮＡと同一の配列を有する任意の種類の核酸を意味するものとする。

特に好ましくは、分別ステップの際に、鋳型ＲＮＡ又はｃＤＮＡプールから、全長又は完全核酸が分別又は選択される。このステップにおける（断片化に先立つ）全長又は完全核酸の分別には、各分別されたプールが全核酸の配列情報を（断片化後でさえも）含んでおり、これによってシークエンシング後の配列のアセンブルが容易になる、という利点が存在する。言い換えれば、異なるサブプール由来のリードが同一の遺伝子にアラインする場合でも、これらのリードはこの遺伝子の異なる転写バリアントに由来するということが言えるのである。従って、ＲＮＡ編集等による配列バリアントの存在や、斯かる転写バリアント間の濃度の違いを検出することができる。更に、斯かる違いを異なる資料館で比較することが可能となる。表現型が異なる複数の試料間においては、斯かる表現型の根底にある因果関係を探る上で、斯かる比較は極めて重要となる。

斯かる点に関して「全長」（full length）又は「完全」（complete）とは、シークエンシングの対象となる（例えば逆転写後に得られた）完全核酸を意味する。５’キャップ末端配列から開始し、最長でポリＡテールまでの（但し多くの場合はポリＡテールを除く）ＲＮＡ配列を含んでいてもよい。また、不完全（逆）に転写された核酸に関するものでもよいが、ヌクレアーゼ等を用いて人為的に切断されたものは除く。

ＲＮＡがヌクレアーゼ活性によって分解又は断片化又は消化され、斯かるＲＮＡ由来のｃＤＮＡ分子が部分配列のみであっても、本発明の範囲内である。また、ｃＤＮＡはＲＮＡの部分コピーのみであってもよい。例えば、オリゴｄＴによりプライミングされたｍＲＮＡの逆転写が、全長ｃＤＮＡコピーの重合される前に停止してもよい。これは例えば、時間的な制約や、逆転写酵素が二次構造の或る領域において重合を停止する場合に生じ得る。斯かる断片は、共通の特徴、ｍＲＮＡのポリＡテールに先行する配列等によって、分別することができる。

ｃＤＮＡのプール（ｃＤＮＡライブラリー）は、転写開始及び／又は停止部位のヌクレオチド（例えば最初の２５及び／又は最後の２５ヌクレオチド等）を含むことが好ましい。また、ｃＤＮＡのプールは、斯かる最初の及び／又は最後のヌクレオチドからなることが好ましい。例えば、ＣＡＧＥ（Shiraki-2003）では、ｍＲＮＡの５’末端を表す２０ヌクレオチドのタグが生成される。もちろん、斯かるアプローチによれば、全長転写物のアセンブル又はその濃度の決定は不可能となる。しかしながら、斯かるタグを用いることによって、全遺伝子レベルで発現を決定することが可能となる。即ち、全転写開始部位の濃度を測定することができる。ＲＮＡの小さな部分しかシークエンシングされないため、シークエンシングの深度は増大し、低レベルで発現される遺伝子が現れる可能性が高くなる。しかし、それでもなお、存在量の多い転写物の方が、存在量の少ない転写物よりも、シークエンシングされる頻度がより高い。従って、分別アプローチによれば、存在量の少ない開始部位が検出される可能性が高くなる。例えば、ＣＡＧＥライブラリーの調製に使用される小型５’タグ配列は、斯かるタグ配列の５’及び／又は３’末端におけるヌクレオチドに応じたマトリックスのフィールドに分別することができる。従って、存在量の少ない転写物の５’タグ配列は、分別ステップを通じて調製されたＣＡＧＥライブラリーにおいて、よりいっそう現れることになる。こうして、ＲＮＡ、そのｃＤＮＡ又は他の核酸、例えばＲＮＡ断片、ｃＤＮＡ断片、又はそれらから増幅された核酸に対して、分別を実施することができる。

任意によりこの分別ステップを繰り返し、異なる特性化核酸特徴を有する異なるサブプールを得ることも可能である。斯かる更なるサブプールの生成は、第１の又は他のサブプールの生成と連続して行ってもよく、並行して行ってもよい。

本発明は本質的に、多様なＲＮＡ分子のプールを選択し、任意によりｃＤＮＡを生成し、前記のＲＮＡ又はｃＤＮＡ、又はそれに由来する任意の他の核酸を、例えば増幅後に分別し、任意により異なるパラメーターを用いて分別を繰り返し、これらの分別された核酸を断片化し、断片のプールを得ることの組み合わせに存する。断片とは、その元となる完全核酸分子よりも長さの短い核酸部分と解する。

斯かる断片を、例えば、次世代シークエンシング法や他の核酸特性決定法に供してもよい。ＮＧＳは現在のところ、最も完全な分析方法である。しかし、本発明はＮＧＳに限定されるものではなく、ＮＧＳに依存するものでもない。他のシークエンシング技術も同様に、本発明の分別方法による利点を享受できる。

必ずという訳ではないが、特定のサブプール分布を明確に特性化するためには、核酸の完全なシークエンシングが必要となる場合が多い。分子プローブとの特異的相互作用や溶融挙動等の任意の他の方法を利用して、元の核酸プールを独自の符号で記述することができる。

例えば、分子プローブは、相補的配列にハイブリダイズ可能なオリゴヌクレオチド等のハイブリダイゼーションプローブであってもよい。斯かる原理は、マイクロアレイ分析において、多数の遺伝子の発現を同時に調べる場合に使用される。斯かるｃＤＮＡ又はオリゴヌクレオチドマイクロアレイを用いて可能な最も詳細な遺伝子（ＤＮＡ）発現の分析は、エキソーム又はスプライセオソーム分析である。しかし、これらの高分解能分析を用いても、遺伝子の特定の転写バリアントへの信号の割り当ては不可能である。しかし、本発明の方法によれば、ｍＲＮＡ分子又はその全長ｃＤＮＡコピーが異なるサブプールに分別される場合、各サブプールをマイクロアレイによって個別に分析することができる。もし２以上の異なるサブプールが同一のプローブ（アレイ上のスポット）に関する信号を生じる場合には、その信号は少なくとも２つの異なる転写物に属することになる。この点は、特に異なる試料の発現を比較する場合に重要である。分析に先立って分別しなければ識別できなかった発現の差異が、分別を行うことによって検出可能となる場合がある。例えば、遺伝子のスプライス部位に選択的なプローブが、第１の試料において１００の相対信号を発し、第２の試料においても１００の相対信号を発するとする。この場合、発現比率は１であり、差が生じることはない。ここで、各試料を例えば１２のサブプールに分別し、各サブプールをマイクロアレイで分析した場合に、一方の試料中２つのサブプールの信号が見いだされ、第１のサブプールの相対信号が９０であり、第２のサブプールの相対信号が１０であるとする。第２の試料において、第１のサブプールの値が１０であり、第２のサブプールの値が９０であるとする。これら２つの試料間のサブプールの組み合わせの比率は依然１であるが、第１のサブプールについての試料間比率は９であり、第２のサブプールについての試料間比率は１／９となる。従って、分別を行わなければ検出不可能であったはずの、１つの遺伝子の２つの転写バリアント間の発現の差異が、分別を行うことによって可能となったのである。言い換えれば、同一の信号が２つの異なる転写バリアントに由来する場合、分別を行わなければ、一方のバリアントの信号が第２のバリアントの信号を覆い隠してしまう。分別によって、各々を個別に測定することが可能となる。

同一の原理を次世代シークエンシング実験にも適用することができる。２つのサブプールのリードが同一の遺伝子にアラインする場合、分別能が100%であれば、これらのリードは異なる転写物に由来するものであるということが分かる。

更に、トランスクリプトームの分別は、異なる遺伝子由来の転写物及び同一の遺伝子由来の転写物を所定のサブプールに分別するという観点からは、比較的短い配列リードを、より長い配列、更には全長配列へとアセンブルする上でも、強力なツールになる。その結果、本発明は多数のシークエンシングリードの各々のアラインメントを向上させ、核酸の配列及び／又はそのコピー数の決定に寄与する。

一実施形態によれば、最初に断片化してから斯かる断片をシークエンシングするのではなく、シークエンシングステップ時に断片（部分）配列の生成を行う。この場合、ランダム（ユニバーサル）プライマーを用いて、単一分子内でのシークエンシング反応をプライミングする。従って、殆どの場合、シークエンシング反応によってこの分子から断片配列が生成される。分子がサブプールに特異的な標識を有する場合、この標識をシークエンシング反応後に読み出すことにより、サブプール特異的標識を有する断片配列が提供される。同一の分子を更なるシークエンシングに供してもよく、これにより多数の断片配列が提供され、これらをアセンブルすることによって核酸分子、ＲＮＡ又は転写されたｃＤＮＡのコンティグ又は全長配列を得ることができる。特定の核酸は多数コピー存在するので、斯かるシークエンシングは並行に実施することも可能である。この場合、多数のランダム（又はユニバーサル）プライマーによって多数の核酸分子のシークエンシング反応がプライミングされ、多数の断片配列が得られる。得られた多数の断片配列全体を用いることにより、分別された核酸の配列をアライン又はアセンブルすることが可能となる。

シークエンシングに先立って各断片を互いに連結することも、本発明の範囲に含まれる。

核酸は単体ヌクレオチドの線状ポリマーである。斯かる分子は遺伝情報（トリプレットコード参照）を担い、或いは、細胞において他の機能（例えば調節）を発揮する構造を形成する。本発明により分析される核酸はリボ核酸（ＲＮＡ）である。ＲＮＡ（シークエンシング）分析は、個々の細胞内に存在するＲＮＡ集団が極めて複雑であるため、特に困難な作業である。本発明は、細胞内に存在するＲＮＡの全種類（例えばｍＲＮＡ（転写物）、マイクロＲＮＡ、リボゾームＲＮＡ、ｓｉＲＮＡ、ｓｎｏＲＮＡ等）の同定（特にシークエンシング）に関する。

トランスクリプトームは、細胞内で産生されるあらゆるＲＮＡ分子、即ち「転写物」（transcripts）の総体である。所与の細胞系毎に概ね一定であるゲノムとは異なり、トランスクリプトームは細胞、組織、器官の種類や発達の段階に応じて様々に異なり、外部環境条件によっても変化し得る。トランスクリプトームは細胞内の全転写物を含むゆえに、所与の時点で活発に発現している遺伝子を反映しており、転写減衰等の分解現象も含んでいる。トランスクリプトミクスは転写物の研究であり、発現プロファイリングとも呼ばれる。本発明の分別方法をＲＮＡ試料に用いることの利点は、低コピー数の転写物や試料中に低濃度で存在する他の任意のＲＮＡについて、サブプール内でシークエンシング及び分析される可能性が高まることである。次世代シークエンシングの欠点の１つは、存在量の多い核酸によって、低濃度の断片がシークエンシングされる可能性が低下してしまう点にある。本発明の分別法によれば、高コピー数の核酸を、低コピー数の核酸から差別化することが可能となる。これにより、斯かる低コピー数の核酸が、検出やそれに先立つ増幅等のステップから除外されてしまうのを防止することができる。

一般原理は、分別されたより小さな部分をシークエンシングすることにより、核酸プールの複雑性を低減するというものである。斯かるより小さな部分はサブプールと呼ばれる。好ましい実施形態によると、全てのサブプールを合わせれば、分析対象となる元のプールの全核酸が含まれることになる。しかしながら、原則として、全てのＲＮＡ分子を分析することは必須ではなく、一部のサブプールを無視したり、更には一部のサブプールを生成せず、及び／又は、空のままとしておいてもよい。核酸プールの複雑性に寄与する主な因子は３つ存在する。

第１の因子は、個々の異なる配列を組み合わせた長さによって決定される。配列は４種の塩基によってコード化される（ＴとＵは同一の情報を担持するため、同視し得る）ため、複雑性は４の塩基数乗に等しい変数となる。しかし、ゲノムには、繰り返し配列や他の種類の命令（例えば遺伝子の進化の過程で生じたもの）等の冗長な情報も含まれている。従って、異なる遺伝子の中にも、同一の配列や又は極めて類似した配列を有する領域が含まれている。これによって、コンティグや全長転写物配列の新規アセンブリー時に曖昧さが生じ、構築可能なコンティグの長さが制限されてしまう。参照配列が利用可能なアラインメントのプロセスにおいても、斯かる曖昧さによって、個々のリードのアラインメントが制限されてしまう。シークエンシングプロセスのリード長を低減するほど、曖昧さは増大する。トランスクリプトーム分析では、１つの遺伝子（又はゲノム領域）が複数の転写物をコードする場合も或るため、より曖昧さが大きくなる。同一の遺伝子から生じる複数の異なる転写物（これを転写バリアント（transcript variants）という場合がある）、例えばスプライスバリアント等は、配列組成の面では極めて類似している。従って、転写バリアントから生じたリードの多くは、一義的にアサインすることができない。例えば、スプライス部位が検出された場合でも、斯かる部位が１の転写物に属するのか、２以上の転写物に属するのかは分からない。

第２の因子は、試料内の異なる配列の数によって決定される。順列組み合わせ数が大きくなるにつれて、すなわち、異なる配列数の階乗に比例して、複雑性は大きくなる。配列が２つであれば、可能な組み合わせの数は２つであり、配列が３つであれば、可能な組み合わせの数は６つとなる、という具合である。

第３の因子は、コピー数（転写物濃度）の違いであり、より程度としては低いものの、例えば特定のコピーの違いが１／１．０００のレベルであることが知られているとすれば、これらの違いに関する予想の量である。異なる配列が各々、ある特定のコピー数を有すると特定されているグループに属する。これらのグループの分布のレベルが、濃度の差異を通じて導入される複雑性を決定付ける。

本発明の分別法は、元の試料プールの異なるＲＮＡ分子の識別に寄与する。この分別ステップを一回又は複数回繰り返してもよい。ここでいう繰り返しとは、第１の分別ステップの後に追加の分別ステップを実施しなければならない、と言う意味に解してはならず（これはもちろん選択肢の一つにすぎない）、１又は２以上の分別ステップを同時に実施することも意味する。即ち、１又は２以上のサブプールを生成し、各サブプールには共通の特徴を共有する特定の核酸が存在し（又は濃縮され）、斯かる核酸弁別特徴を有さない他の核酸は全て、各プールから除去する（或いは少なくとも濃縮対象から除外する）ことができる。

これらの因子は、試料内の全ての分子、特に希少な分子の正しい配列及び濃度を決定することの困難性に、直接寄与することになる。本発明の一般原理は、シークエンシングリードの生成前に、これらの因子が制御され、同時にプールの複雑性が低減された、サブプールを構成することにある。即ち、この方法によれば、インラインの配列アラインメントを単純化することができる。サブプールは、本発明の範囲内の分別方法を通じて生じる。

本発明の好ましい実施形態によれば、この方法は、第１のサブプールの（そして任意により、更なるサブプールの）断片の配列又は部分配列を決定することを更に含む。この断片又はその部分の配列は、当業界で公知の適切な手法を任意に用いて決定することができる。中でも、高スループットシークエンシング法、特に次世代シークエンシングにスケールアップできるシークエンシング法が好ましい。斯かる方法によれば、少なくとも５、好ましくは少なくとも８、少なくとも１０、少なくとも１５、少なくとも１８、少なくとも２０、少なくとも２２ヌクレオチドの配列長を有する断片を決定することができる。好ましくは、断片の全長配列が決定される。断片の一部のみがシークエンシングされる場合、これは５’又は３’末端部分であっても、或いは中間部分であってもよく、特異的又は非特異的（例えばランダム）プライマーを用いて選択することができる。

核酸の部分配列の決定は、少なくとも１０、好ましくは少なくとも１５、少なくとも１８、特に好ましくは少なくとも２０、より一層好ましくは少なくとも２５ヌクレオチドの配列部分を決定することを含むことが好ましいが、核酸の完全配列の決定は除外することが好ましい。本発明によれば、断片化又は断片コピーの取得（例えば核酸分子の一部の増幅）によって、分別された核酸分子の断片を生成してから、その配列を決定してもよいが、或いは、断片又は前記分別された核酸分子の配列又は部分配列を決定し、好ましくは少なくとも２、好ましくは少なくとも３、特に好ましくは少なくとも４、少なくとも６又は少なくとも８の配列又は部分配列を、連結された配列とアラインしてもよい。このオプションによれば、斯かる断片を物理的に提供する必要はない。物理的な断片化ステップを実施しなくとも、核酸分子自身から決定することが可能な配列部分を取得し、斯かる部分配列をアラインすることにより、連結された配列を作成することができる。この実施形態によれば、サブプールの核酸分子に基づいて配列が直接決定されるので、分別されたプールの情報を示す特定の標識を提供する必要はない。これは、例えば核酸分子内部からのプライマー伸長であるランダムプライミングや、例えば配列の任意の点から読み出すことが可能なナノポアによって、惹いては「断片リード」（fragment reads）を作成することによって実施できる。斯かるリードはその後、本明細書に記載のとおりにアラインすることができる。

特に、提供される全ての断片の全長配列を提供することが、常に必要と言うわけではない。シークエンシングが不完全な断片において欠落している配列部分については、例えば重複している他の断片を用いて、欠落している配列と同一の配列を補うことも可能である。例えば、通常は断片の一方の端部のみから配列を決定し、上述したように、例えば少なくとも１０ヌクレオチドの部分配列をシークエンシングするのが、より効率的である。斯かる部分配列は、次いで連結された配列にアラインすることができる。一実施形態によれば、本発明の方法によって分別された核酸分子の全長配列を決定することも可能であるが、前記核酸分子を同定するのに十分な長さを有するその一部のみを決定することも可能である。

シークエンシングの実施時には、核酸分子及びその各断片に、元となるサブプールの情報が付随することが好ましい。一方では、サブプール情報は標識化を通じて引き継がれる。全ての断片に、識別ヌクレオチド配列（例えば１、２、３、４、５、６、７、８又はそれ以上のサブプール関連ヌクレオチドからなるサブプール特異的配列タグの付与）、蛍光色素、ナノドット等のレポーターモジュールを付与してもよい。サブプール特異的標識としては、断片に付与されたヌクレオチド配列（バーコード）が好ましい。更にバーコードは、核酸断片のシークエンシングと同時又はその後に読み出すことが好ましい。他方で、サブプール情報は、空間的又は時間的分割を通じて受継されてもよい。すなわち、各サブプールは機械の異なる領域（スライド上のクラスター）において、或いは異なる時間帯でシークエンシングされてもよい。例えば、各サブプールを連続的にシークエンシングしてもよい。これらの手順の多くについては、更なるプロセスの実行は不要である。レポーター分子による個別の標識化の場合、レポーター信号を同定し、リードに連結する必要がある。

個々のサブプールは個別にシークエンシングすることができる。各サブプールのリードは、ゲノムブループリントに対してアラインされるか、或いは（全プールではなく）同一のサブプール内の他の全てのリードと比較することにより、新たにアラインされる。従って、元の試料プールの複雑性は大幅に低減される。

豊富なＲＮＡ分子（特に転写物）は、その出現がみられる１のサブプールのみに干渉し、その読み取り深度に影響を及ぼすが、他のサブプールには影響を与えない。個々の断片を読み取る確率は、対応するプール又はサブプール内の相対濃度に比例するから、千分の１の確率でしか出現しない断片であれば、他の断片を千回読み取る間に、平均１回しか読み取らないことになろう。

リードのアラインメントの場合、全てのリードがグループ化され、可能な場合には、そのサブプールアドレスに応じて配向される。第２に、全てのリードが互いに、或いはブループリント配列データベースに対してアラインされる。もし、サブプール情報に加えて、例えば完全配列について長さ等の更なる情報が公知である場合には、アラインメントは全ての境界条件を充足しなければならない。

しかしながら、多くの場合、断片を完全にシークエンシングする必要はなく、その配列の一部を取得すればよい。時には、斯かる一部だけでも十分に、ヌクレオチドを同定し、或いは、（例えば断片が重複する配列を含んでいる場合）他の断片のシークエンシングされた他の部分を全長配列に対してアラインすることが可能な場合もある。

断片の一部のシークエンシングは別として、断片（即ち、元の核酸の一部のみを有するより小さな核酸分子）のみを取得し、その配列又はその一部分を決定することも可能である。よって、「前記分別された核酸分子の生成」とは、任意の配列部分を含む断片の取得にも関する。断片化は、配列に依存する手法で、例えばヌクレアーゼ消化等の物理的手段により、或いは配列に依存しない手法で、例えば超音波処理や剪断等の物理的手段で行ってもよい。断片の生成は更に、断片コピーの取得にも関する。例えば核酸分子を増幅して更なるコピーを作成し、これを続いて断片化してもよい。ランダム断片化プロセスを用いる場合、これによって各核酸分子について、異なる断片を生成することができる。他方で、配列に依存する方法を用いる場合、例えば制限ヌクレアーゼ消化や配列特異的増幅を用いる場合、一核酸分子から生じる断片は全て同一となる。更に、断片を増幅によって生成し、即ちシークエンシング断片とすることも可能である。これは例えば、配列に依存しない方法でも、配列に依存する方法でも行うことができる。特にランダムプライミングによって、前記断片とともに内部の配列部分を取得することが好ましい。断片又は決定された部分配列のサイズの例としては、例えば少なくとも１０、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０ヌクレオチドである。断片又は決定された部分配列は、最大２０，０００、最大１０，０００、最大５，０００、最大４，０００、最大３，０００、最大２，０００、最大１，０００、最大８００、最大７００、最大６００、最大５００、又は最大４００ヌクレオチド長である。好ましい範囲は１０〜１０，０００ヌクレオチド、好ましくは２５〜５００ヌクレオチドである。

シークエンシング前に断片を連結することも、本発明の範囲内に属する。斯かる連結された断片の間に異なる配列領域を介挿し、この配列によって、シークエンシングを連続的に実施する際に、シークエンシングプライマーによるプライミングを生じさせることが好ましい。

分別された核酸分子又は分別対象となる核酸分子は、一本鎖でも二本鎖でもよい。一本鎖分子を分別する場合、５’及び３’末端を有することから、その親分子との関連における断片の鎖形成性（strandedness）は明らかである。二本鎖核酸分子を使用する場合、二本鎖は両端に５’及び３’末端を有するため、一方の鎖には識別可能な特性（例えばメチル化）が必要となるが、もう一方には不要である。ＲＮＡ又はｃＤＮＡの５’及び／又は３’末端の特徴（好ましくは配列部分）を核酸特徴として用いる場合、分子の配向は断片化前に公知である。従って二本鎖の一報を用いて断片化を行うことができる。二本鎖の一方の選択は、当業界で周知の手法を任意に用いて行うことができる。例えば、分別時に一方の鎖の末端を標識してもよい。例えばＰＣＲプライマーの一方にビオチン等の標識基を含めておき、その後にアビジン結合マトリックスを用いたカラムクロマトグラフィー等によって選択してもよい。別の可能性としては、一方のプライマーとして５’ホスフェートを有するものを用い、他方のプライマーとして５’ ホスフェートを有しないものを用いて、得られたＰＣＲ産物にラムダエキソヌクレアーゼを作用させ、５’ホスフェートを有する鎖を選択的に消化してもよい。分別及び断片化を通じて核酸分子の鎖形成性（strandedness）又は鎖情報を維持することにより、その後のアセンブリー又はアラインメントの効率を向上させることができる。例えば、断片の鎖形成性が保存されれば、各断片をゲノムのプラス又はマイナス鎖にアラインさせることができ、これによりセンス転写物とアンチセンス転写物とを識別することが可能となる。同様のことが、転写物のクラスター構築又は新規（de novo）アセンブリーにも当てはまる。これらの手法によっても、センス及びアンチセンスクラスター／転写物を識別することができる。従って、断片化の際に鎖形成性又は鎖情報を維持することが好ましく、中でも、例えば他方の鎖をラムダヌクレアーゼ消化する等により、一方の鎖を選択することが好ましい。分別時に鎖情報を維持するために、分別対象となる一方の鎖（センス鎖でもアンチセンス鎖でもよい）を選択し、或いは選択された鎖を標識することも可能である。好ましくは選択された鎖の断片を、鎖情報に従って、また、可能であればプーリング情報について（例えば上述のバーコーディング等により）標識化することが好ましい。

更に好ましい実施形態によれば、これらの断片の少なくとも２、４、５、６、７、８、９、１０、１２、１４、１６、１８、又は少なくとも２０ヌクレオチド、特に連続するヌクレオチドがシークエンシングされる。

多様性を有する可能性があるＲＮＡ分子の元のプールは、何れの材料から得られたものでもよいが、特に生物試料が好ましく、より好ましくはウイルス、原核生物又は真核生物である。本発明の複雑性の低減方法は、如何なる種類のＲＮＡシークエンシング法にとっても重要性を有する。例えば、多様なトランスクリプトームを含む単一の細胞を用いる場合でも、もちろん複数の細胞を含む試料、特に種々の材料に由来する試料、例えば種々の生物の異なる多数の細胞を含む試料や、類似する細胞ではあるがその遺伝子発現が相違し、又は改変されているもの（例えば腫瘍細胞）を含む試料を用いる場合でも同様である。

本発明の特に好ましい実施形態によれば、分別に使用される核酸特徴は、核酸分子内の特定の位置に、好ましくは核酸分子の５’又は３’末端の一方又は双方から１００ヌクレオチド以内の位置に存在する、所与のヌクレオチド型、好ましくはＡ、Ｔ、Ｕ、Ｇ、Ｃの何れか１つから選択されるヌクレオチド型である。斯かる方法として、例えば全長配列元を取得すべく、特に１又は２以上の特定のヌクレオチドを選択する方法が、国際公開第２００７／０６２４４５号公報に開示されている（本文献は参照により本明細書に組み込まれる）。即ち、好ましい実施形態によれば、本発明の分別ステップは、前記鋳型ＲＮＡ又はｃＤＮＡプールから核酸を分別する、相違する可能性がある鋳型を、分別された鋳型が共有する、全長鋳型核酸分子配列の５’又は３’末端から１００ヌクレオチド以内の特定の位置における少なくとも１つの所与のヌクレオチド型について選択することにより、少なくとも第１の核酸のサブプールを提供することを含んでいてもよい。

本発明によれば、例えばプライマーとして、ＲＮＡ又はｃＤＮＡの例えば一端（３’又は５’末端の何れか）について特異的であるとともに、１又は２以上の更なるヌクレオチド特異性を含むプライマーを用いることにより、分別ステップにおいて特定の核酸分子を増幅及び選択することができる。斯かるプライマーは、（ユニバーサル又はウォッブル（wobble））プライマー部位の後の相補的ヌクレオチドに従って核酸分子を分別するように機能する。全長ＲＮＡが分別される場合には、末端部分、例えばポリＡテール（又はこれに対応するｃＤＮＡのポリＴテール）に特異的なプライマーを使用したり、或いは人工テールをＲＮＡ又はｃＤＮＡに付加し、このテールに特異的なプライマーを使用することもできる。斯かるプライマーは続く１〜１００、好ましくは１〜１０ヌクレオチド、例えば続く１、２、３、４、５、６、７、８、９又は１０ヌクレオチドに特異的である。前記プライマーにウォッブルヌクレオチドを用いることにより、これらの末端の後の特定のヌクレオチドを選択することも可能である。好ましくは、特異的に識別されるヌクレオチドは、核酸分子の５’又は３’末端の何れかから最初の１００ヌクレオチド以内に存在する。もちろん、プライマーを用いて、分別ステップにおいて核酸分子が分離されるような任意の内在領域を選択することも可能である。

プライマーについて上述した原理と同一の原理はもちろん、斯かる識別ヌクレオチド型に特異的でありうるオリゴヌクレオチドプローブにも適用される。

核酸分子は、５’及び／又は３’末端に続く１０ヌクレオチド以内に存在する共通のヌクレオチドについて、好ましくは１又は２以上の共通の５’及び／又は３’末端ヌクレオチド型について選択されることが好ましい。

これらのプライマー又はプローブは、異なる核酸特徴について選択されたプライマー又はプローブとの組み合わせで使用することが好ましい。これらのプライマーを、例えば個別に、又は連続的に使用することにより、核酸特徴に特異的なサブプールを生成してもよい。組み合わせて使用されるプライマー又はオリゴヌクレオチド（即ち「プライマーマトリックス」（primer matrix））は、例えばユニバーサル部分と識別部分とを有するプライマーであって、識別部分が例えば第１のプライマーではＡ、第２のプライマーではＴ、第３のプライマーではＧ、第４のプライマーではＣであるプライマーである。好ましくは、２以上のヌクレオチドを核酸特徴として用いる。組み合わせとしては、例えばＡＡ、ＡＴ、ＡＧ、ＡＣ、ＴＡ、ＴＴ、ＴＧ、ＴＣ、ＧＡ、ＧＴ、ＧＧ、ＧＣ、ＣＡ、ＣＴ、ＣＧ、又はＣＣで終了するプライマー又はオリゴヌクレオチドプローブを使用し、これによって相補的ヌクレオチドを有する核酸を異なるサブプールに分別することがでいる。更に好ましい実施形態によれば、核酸特徴は３以上、例えば４、５、６、７、８、又はそれ以上の特定のヌクレオチド型を有する。更に好ましい実施形態によれば、プライマーの組み合わせは、夫々５’及び／又は３’末端の識別ヌクレオチドについて選択するオリゴヌクレオチド、例えば２以上の５’ヌクレオチド及び２以上の３’ヌクレオチドに夫々特異的なプライマー又はプローブである。

上述したように、内部領域について選択を行ってもよく、この場合、アンプリコンの各々の側の２つのヌクレオチド型について選択するようなプライマー対の組み合わせを用いてもよい。或いは、内部領域の選択は、特定の内部領域についての相補的ヌクレオチドに先立って、特定数の非特異的ヌクレオチド（例えばウォッブル又はユニバーサルヌクレオチド）を有する末端特異的プライマー又はプローブを用いて行ってもよい。

好ましい実施形態によれば、分別に使用される核酸特徴は、短いリードのアセンブリー（又はアラインメント）の際に、アセンブルされる（又はアラインされる）配列の適格性を示す特性として使用される。例えば、核酸特徴が特定長又は特定長範囲である場合には、正しくアセンブルされた配列の適格性を示す因子は、斯かる長さ又は長さ範囲ということになろう。核酸特徴が特定の配列であるとして、この核酸のシークエンシング断片が例えば３６塩基長であれば、この３６塩基に加えて、各断片について更にｎ塩基が既知ということになる。ここでｎは核酸特徴の塩基数を表す。例えば核酸特徴が分子の５’側の既知の６塩基と３’側の既知の６塩基であれば、各断片の３６塩基に加えて２×６塩基が、シークエンシング断片から所定の距離（断片化分子の長さ）内に存在することが分かる。従って、核酸特徴が特定の配列であれば、この配列はアセンブルされた配列内にも存在しなければならない。核酸特徴は、分別された核酸の特定の位置に、好ましくは鋳型ＲＮＡ又はｃＤＮＡの５’又は３’末端から所定の距離に存在することが好ましい。核酸特徴は配列であり、かかる配列をアセンブリーの際に使用することが好ましい。核酸特徴は、例えば２、３、４、５、６、７、８、９、又は１０の既知のヌクレオチドからなる、２つの配列部分を含んでいてもよく、これらは所定の塩基距離をおいて、例えば２０〜１００００ｎｔｓ、好ましくは３０〜５０００ｎｔｓ、特に好ましくは５０〜１０００ｎｔｓをおいて位置することが好ましい。

好ましい実施形態によれば、分別された核酸は、鋳型ＲＮＡ又はｃＤＮＡの全長配列を有する。これによって、コンティグの新規アセンブリー、更には全長配列の新規アセンブリーが、大幅に向上する。シークエンシングプロセスの際に生成される全ての断片リードを、サブプール内で、即ち１つのサブプールから得られた断片又は部分配列とともにアラインすることができるからである。

鋳型全長ＲＮＡの５’及び／又は３’末端のヌクレオチドを分別のための（１又は２以上の）核酸特徴として使用する場合、全長ＲＮＡ分子の開始及び／又は停止部位のヌクレオチドは、斯かるサブプールの全断片について既知となる。こうした情報によって、例えば断片又はこれらがアセンブルされたコンティグを、ゲノムＤＮＡのプラス又はマイナス鎖上に正しく位置づけることが可能となり、惹いては遺伝子のセンス及びアンチセンス転写物を分離することが可能となる。好ましい実施形態によれば、本発明の方法で使用されるＲＮＡ分子は全長ＲＮＡである。全長ＲＮＡは、例えば上述の方法を用いて選択することができる。このことは、全長ＲＮＡに対応する全長ｃＤＮＡにも適用される。本明細書で使用される場合、「全長ＲＮＡ」（full length RNA）又は「全長ｃＤＮＡ」（full length DNA）という語は、ＲＮＡの最初の塩基から最後の塩基までのＲＮＡ配列に相補的な配列を含むＲＮＡ又はＤＮＡとして定義される。斯かる方法は、例えば国際公開第２００７／０６２４４５号（参照により組み込まれる）に開示されており、例えば全長ＲＮＡに対して（本明細書の記載に従って）分別された増幅又は選択を実施することによる、末端特異的核酸特徴について選択的な増幅が含まれる。多くの真核性ｍＲＮＡのように、キャップ及び／又はテール（ポリＡテール）を有するＲＮＡ分子の場合、「全長ＲＮＡ」とは、ＲＮＡ鋳型のキャップ（例えばＲＮＡ７−メチルグアノシンキャップ）後の最初の塩基から、テール（ポリＡテール）前の最後の塩基までのＲＮＡ配列に相補的な配列を含むＲＮＡとして定義される。

増幅及び／又はシークエンシング反応時にプライマーを核酸又は断片の末端に結合させるために、リンカー又はアダプターを核酸分子又は断片に付与し、これによってプライマーの結合を可能にしてもよい。

ＲＮＡ分子のプールを本発明のサブプールへと整列させることにより、核酸物質の数が低減されたサブプールを生成し、元の試料の複雑性を大幅に低減することが可能となるとともに、惹いては核酸の検出や、その後のシークエンシング及びアセンブリングを首尾よく行うことができる可能性を向上させることができる。

好ましい実施形態によれば、核酸をサブプールに分割する際に、全サブプールの少なくとも１０％が、全サブプールの核酸の平均量±５０％を占めるようにする。所与の試料に適した分別方法を用いて、核酸を均等にサブプールに分割することにより、複雑性の低減方法を十分に実施することができる。もちろん、核酸の存在量が少ないサブプールや、更には元のプールの核酸が全く含まれない空のサブプール等があってもよい。後者は対照試料として使用することができる。好ましい実施形態によれば、全サブプールの少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％が、全サブプールの核酸の平均量±５０％となるようにする。この±５０％の許容誤差は、好ましい実施形態では、最大±５０％、最大±４５％、最大±４０％、最大±３５％、最大±３０％、最大±２５％、最大±２０％とすることができる。

試料は、少なくとも１、好ましくは２、３、４、５、６、７又は８の希少ＲＮＡ分子を含むことが好ましい。ここで希少（rare）とは、１％未満、０．５％未満、０．１％未満、０．０５％未満、０．０１％（１００ｐｐｍ）未満、好ましくは５０ｐｐｍ未満、１０ｐｐｍ未満、５ｐｐｍ未満、１ｐｐｍ未満、５００ｐｐｂ未満、１００ｐｐｂ未満又は５０ｐｐｂ未満の濃度であることを意味する。少なくとも１、好ましくは２、少なくとも４、少なくとも６又は少なくとも８の希少核酸が、分析対象試料内に存在することが好ましい。

更なる実施形態によれば、核酸をサブプールに分割する際に、少なくともサブプールの１０％が、２以下の核酸、好ましくは１つの核酸のみを含むようにする。斯かる高希釈は、他の核酸が存在する元のプールからの検出が（特に元の濃度のままでは）困難な極めて希少な核酸を検出する場合に、特に望ましい。

更に好ましい実施形態によれば、核酸を分別するステップは、前記鋳型プールから核酸を特異的に増幅することを含む。具体的に、増幅は、プライマーからのヌクレオチド伸長、好ましくはＰＣＲによって行われる。特に好ましくは、増幅は、プライマーからのヌクレオチド伸長、好ましくはＰＣＲによって行われ、特に非特異的プライマー部位の後の少なくとも１つ、好ましくは少なくとも２つ、特に少なくとも２つの隣接する異なるヌクレオチドを選択するプライマーを用いて増幅を行うことが好ましい。これにより、増幅された核酸分子は、選択されたヌクレオチドをサブプールに特異的な核酸特徴として含むことになる。

本発明の方法における上述の断片化ステップは、シークエンシングステップに使用される最初のステップであってもよい。サブプールの核酸の配列の決定は、例えば、上述のようにサブプールのヌクレオチド分子を断片化し、サブプール特異的標識を所与のサブプールの各断片に付与し、組み合わされたプールの断片化ポリヌクレオチドのヌクレオチド配列を決定し（或いは、標識付与の有無によらず、個別のプールのヌクレオチド配列を決定し）、サブプール特異的標識及び他の断片と重複する配列に基づいて断片配列をヌクレオチド分子に割り当てることにより、核酸の配列を決定することを含む。

即ち、好ましい実施形態によれば、サブプール特異的標識が断片に連結される。サブプール特異的標識は、例えばヌクレオチドであり、好ましくはシークエンシング時に同時に決定される。

更に好ましい実施形態として、元のプールの核酸は、分別ステップにおいて、少なくとも２、好ましくは少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８のサブプールに分割される。ここで、ヌクレオチドは各々、サブプール毎に異なるヌクレオチド特性を共有する。

好ましい実施形態によれば、分別ステップにおいて核酸の選択に使用されるプライマー又はプローブは、固体表面、特にマイクロアレイ又はチップ上に固定化されることが好ましい。核酸の識別について上述したのと同様の分別法を、シークエンシングステップ時に異なる断片を識別するために実施してもよい。

特に好ましい実施形態によれば、本発明の方法は更に、好ましくは分別後、配列の決定前に、核酸分子を増幅することを含む。特に好ましくは、前記増幅はＰＣＲによって実施され、少なくとも１のヌクレオチド分子が、ＰＣＲの飽和相に達するまで増幅される。特に、異なるヌクレオチド分子の少なくとも１０％が、ＰＣＲの飽和相に達するまで増幅されることが好ましい。こうした増幅反応を用いて、プール又はサブプール内の核酸分子の濃度を正規化することができる。ＰＣＲ反応は、例えば、核酸分子がＰＣＲサイクル毎に実質的に倍増する指数増幅相を有する。核酸分子がプライマー濃度に応じた特定の濃度に達した後、競合反応が始まって増幅を阻害する。即ち、豊富に存在する核酸分子の増幅は、プライマーの結合の妨げとなる核酸分子の自己阻害によって、減速し始める。或いは、プライマー、ｄＮＴＰ等の反応成分を使い切ってしまう。この相が飽和相と呼ばれるものである。

存在量の多い核酸分子がこの飽和相に達し、増幅が阻害される一方で、存在量の少ない分子は指数的に増幅し続けることが好ましい。異なる核酸分子の少なくとも１０％、特に好ましくは少なくとも２０％が、この飽和相に達することが好ましい。これらの増幅反応は、例えばｑＰＣＲ（定量ＰＣＲ：quantitative PCR）を用いて監視することができる。もちろん、前記反応は、通常のＰＣＲ反応（但し監視不能の場合あり）や、自己阻害を伴う他の増幅反応でも生じる。飽和相への到達は、例えば２０、２２、２４、２６、２８、又は３０の増幅サイクル後であるが、本発明の増幅においては最小のサイクル数であることが好ましい。

例えばＰＣＲ増幅等を通じてサブプールを並行に分別する場合、存在量の多い転写物を含むサブプールほど速く飽和相に達することになる。従って、存在量の多い転写物を含むサブプールが既に飽和相に到達した後のサイクルでも、存在量の多い転写物を含まないサブプールの転写物は依然として増幅されることになる。従って、これらのサブプール全てをシークエンシングする際には、存在量の少ない転写物ほど検出の可能性はより高くなる。

本発明のサブプール化手順を用いて、シークエンシングから、高コピー数の転写物を除去し、例えば存在量の多い核酸分子を含むサブプールを除外することもできる。シークエンシングから除外される、存在量の多い核酸分子を含むサブプールは、好ましくは、試料の全核酸分子を含む全サブプールの平均量に対して、１００％超、特に好ましくは１５０％超、より一層好ましくは２００％超、特に好ましくは３００％超、例えば４００％超、例えば５００％超、特に好ましくは１０００％超の核酸分子を含むサブプールである。斯かるサブプールは、元のプール全体に対して、例えば０．１％超、０．５％超、又は更には１％超、例えば２％以上超、５％超、１０％超を占める核酸分子を含むサブプールである。こうして除外又は正規化されるべき、存在量の多い転写物としては、例えばハウスキーピング遺伝子、ＧＡＰＤＨ、アクチン、チューブリン、ＲＰＬ１、リボゾームタンパク質、又はＰＧＫ１が挙げられる。

本発明を更に、添付の図面及び以下の実施例を用いて説明するが、これらに限定されるものではない。

実施例１：末端特異的マトリックス分離によるｃＤＮＡ分別、及びそれに続くＮＧＳ分析。使用したオリゴヌクレオチドについては表１参照。
マウス（Ｃ５７Ｂｌ／６）肝臓試料から精製された総ＲＮＡ２μｇを、Ｖ（Ｃ、Ｇ又はＡの何れか）アンカー型オリゴ−ｄＴ配列（Ｓｅｑ−２；リンカー２−Ｔ_２７−Ｖ）を３’末端に有するオリゴを用いてプライミングし、逆転写してｃＤＮＡを調製した。逆転写酵素の鋳型乗換え（template switch）活性を用いて、逆転写反応時に鋳型乗換えオリゴ（Ｓｅｑ−１；リンカー１）の逆転写を通じて、リンカー配列をｃＤＮＡの３’末端に付加した（米国特許第５９６２２７１号、米国特許第５９６２３７２号）。得られたｃＤＮＡの５’末端には、ｍＲＮＡの元のポリＡテール及びリンカー２配列に対応するオリゴによって導入されたポリＴストレッチが含まれていた。ｃＤＮＡの３’末端には、キャップ依存的に付加されたＣヌクレオチドに続いて、リンカー１配列の逆相補体が含まれていた。２つの異なる試料のセットをシークエンシング用に調製した。

単一の試料からなる比較用セットＡ（分別なし；０マトリックス）は、５０μＬ反応液中で、約２７ｐｇのｃＤＮＡを約８００ｎｇのレベルまでＰＣＲ増幅することにより調製した。プライマーとしては、ｃＤＮＡの３’末端の鋳型乗換え配列（Ｓｅｑ−３；リンカー１）及び５’末端のポリＴ配列（Ｓｅｑ−４、リンカー２−Ｔ_２７）に夫々ハイブリダイズするものを用いた。その後のシークエンシング用試料の調製に十分な材料を精製するために、８つの精製されたＰＣＲ反応物を混合し、約５μｇを更に処理した。要約すると、この試料は非特異的マトリックスを含んでおり、惹いてはそのうち１フィールドのみが、全ｃＤＮＡが鋳型として機能する増幅を示すはずであった。

セットＢ（分別あり）は、６つの試料を含み、これらは１２のサブプールマトリックス（１×１マトリックス）のうち６つのサブプールに夫々対応するものであった。

本明細書で使用される場合、「１×１マトリックス」という表現は、ｃＤＮＡの３’末端における１の選択的なヌクレオチドと、ｃＤＮＡの５’末端における１の選択的なヌクレオチドとを指す。各ヌクレオチドについて、４種のヌクレオチドの各々に応じたプールへの分別が可能である。しかし、ポリＡテールを含むｍＲＮＡを鋳型として用いる場合、テールに隣接するヌクレオチド（或いはｃＤＮＡの対応するポリＴストレッチ）は、他の３種のヌクレオチドについてのみ選択することができる（即ち、このヌクレオチドを用いることにより、３つのサブプールに分別することができる）。ポリＡテールを有するｍＲＮＡ（末端の核酸型、即ちテールに隣接する核酸型の分別）について、１×１マトリックスは、従って４×３＝１２サブプールに分別する。他のマトリックスの場合、例えば２×０マトリックスは、４×４＝１６サブプールに分別し、０×２マトリックスは、３×４＝１２サブプールに分別し、或いは２×２マトリックスは、３×４×４×４＝１９２サブプールに分別する。

１２のサブプールを生成するために、ｃＤＮＡの３’末端に特異的な３’末端Ａ、Ｇ、Ｃ又はＴを有する４つのプライマーのうち１つと、ｃＤＮＡの５’末端に特異的な３’末端Ａ、Ｇ又はＣを有する３つのプライマーのうちの１つを適用し、各マトリックスフィールド内で、１つの特定の末端の組み合わせを有するｃＤＮＡ分子のみを選択的に増幅した。セットＢの６つの試料（サブプール）を生成するために、６つの５’／３’（ｃＤＮＡ）プライマーの組み合わせのみを使用し（Ｓｅｑ−９／Ｓｅｑ−５（Ｃ／Ｇ）；Ｓｅｑ−１０／Ｓｅｑ−５（Ｇ／Ｇ）；Ｓｅｑ−１１／Ｓｅｑ−６（Ａ／Ａ）；Ｓｅｑ−９／Ｓｅｑ−７（Ｃ／Ｃ）；Ｓｅｑ−１０／Ｓｅｑ−７（Ｇ／Ｃ））；Ｓｅｑ−１１／Ｓｅｑ−８（Ａ／Ｔ））、各々により約２７ｐｇのｃＤＮＡを８００ｎｇまで増幅した。プライマーの組み合わせ毎に、８つのプールされた副生物５μｇずつを用いて、続く反応を実施した。要約すると、セットＢの６つのＰＣＲ試料の各々について、平均でｃＤＮＡの１／１２を鋳型として用いた。

表１：実施例１においてＲＮＡの逆転写及びマトリックスＰＣＲに用いたオリゴヌクレオチド。アステリスクはホスホロチオエート結合を意味する。リボヌクレオチドはその前に「ｒ」を付して表示する。

次世代シークエンシング用の２つのセットの試料を調製するために、ＰＣＲ試料の各々を（超音波処理で）断片化し、平均２００〜１０００ｂｐ長の断片を作成した。その後、Illumina Genome Prep Kit（#FC-102-1001; Illumina Inc., USA）を用いて、試料を標準IlluminaゲノムＤＮＡシークエンシング用試料調製パイプラインに供した。要するに、アダプターを断片の末端に付加し、これを用いて試料をフローセルに結合させた。これによってクラスター生成が可能となり、シークエンシングプライマーのハイブリダイゼーションを開始してシークエンシングを実施することができる。更に、多重化（Multiplexing）試料調製オリゴヌクレオチドキット（#PE-400-2002; Illumina Inc., USA）を用いて、セットＢの６つの試料を、標準Illumina多重（multiplex）タグでバーコード化した。サイズ範囲２００〜６００ｂｐのアダプター連結断片をシークエンシング用に選択した。

セットＡの試料をフローセルの１つのチャンネルにロードし、セットＢの６つの試料を等量で混合したものを第２のチャンネルにロードした。クラスター生成はcBot Instrument（Illumina Inc., USA）により、クラスター生成キット（#GD-203-2001、version 2; Illumina Inc., USA）を用いて行った。続いて、GenmomeAnalyzer II（Illumina Inc.）により、シークエンシング試薬キット（#FC-104-3002, version 3; Illumina Inc., USA）を用いて、76bpのシークエンシングランを実施した。

セットＢの６つの試料のマルチプレックス・タグを、マルチプレクス・シークエンシングプライマー及びPhiX Control Kit（#PE400-2002,version 2; Illumina Inc., USA）を用いて読み出した。

チャンネルの各々について短い（７６ｂｐ）リードを取得し、セットＢの多重化されたリードをそのバーコードに従って分離した。

続いて、セットＡについて４９５００８４のリードをランダムに抽出することにより、両データセットのリード数を正規化した。セットＢの６つの試料の各々については、８２５０１４のリードをランダムに抽出した。従って、セットＢは合計で４９５００８４のリードからなることになった。

リードセットのバイオインフォマティク分析を実施するために、CLC Genomics Workbench V3.6.5（CLC bio, Denmark）を使用した。

５’プライマー配列をリードから切り離し、全ての誤ったヌクレオチド（Ｎｓ）をリードから切除し、閾値長２０ヌクレオチド未満のリードを更なる分析から除外した。

こうして得られたセットＡ及びＢ夫々４９４０８４０及び４９４８６５０のリードを更なる分析二使用した。

ａ）参照ｍＲＮＡデータベースへのアラインメント
２００９年１０月４日に、UCSC Genome Browserウェブページ［６］から、refMrna データベースをダウンロード［１］した。本データベースはマウスゲノムアセンブリー（mm9, NCBI built 37）に基づく２４５７０の参照ｍＲＮＡ配列を含む。分別の有無に応じてこれらの参照ｍＲＮＡのうち幾つが検出されるかを調べるために、これらの参照ｍＲＮＡに対するリードセットＡ及びリードセットＢのアラインメントを実施した。両アラインメントについて、以下のCLCパラメーターを用いた（Add conflict annotations = No; Conflict resolution = Vote; Create Report = Yes; Create SequenceList = Yes; Match mode = random; Sequence masking = No; Similarity = 0,8; Length fraction = 0,5; Insertion cost = 3; Deletion cost = 3; Mismatch cost = 2）。セットＡ（分別無し）については１５６５２のｍＲＮＡが検出された。データセットＢでは検出されたｍＲＮＡは１５７０２まで増加した。データセットＢは可能な１２のサブプールのうち６しか含んでいないので、この僅かな増加は有意であると言える。

しかし、refMrnaデータセットが既知遺伝子１つ当たり１桁の転写物しか含んでいなかったので、より多くの遺伝子の転写バリアント（例えばスプライスバリアント等）を含むより完全なデータセットに対し、両セットのアラインメントを行った。

ｂ）３２８３５８のｍＲＮＡ配列へのアラインメント
２００９年１０月４日に、UCSC genomics browserデータベース［６］から、３２８３５８のGenBankのｍＲＮＡ配列［５］をダウンロードした［２］。上記ａ）と同一のＣＬＣパラメーターを適用し、セットＡ及びセットＢをこれらの３２８３５８のGenBankのｍＲＮＡ配列にアラインメントした。セットＡを用いて８３１９９の配列が検出され、セットＢでは８７７９４の配列が検出された。これは、シークエンシング前に分別を実施した場合に検出されるｍＲＮＡ分子より約５％多い値に相当する。

見出された向上分は有意であったが、この大型のｍＲＮＡデータベースでさえも、その範囲の広さ（遺伝子数）及び深度（遺伝子の転写バリアント）が限定されている。

従って、ゲノムコンテクストにおいて別の分析を行った。

ｃ）マウスゲノムに対するアセンブリー
２００９年１０月４日に、UCSC Genome browserデータベース［６］から、完全参照マウスゲノムをダウンロードした［３］。上記ａ）と同一のＣＬＣパラメーターを用いてアラインメントを実施したところ、結果として得られたゲノム被覆度は、データセットＡについて０．４９４％、データセットＢについて０．５６１％であった（図１０）。従って、セットＢではセットＡと比べて、約１３．５％多くのゲノムが検出された。これは約１８３５６６３のヌクレオチドが新たにマッピングされたことを意味する。マウスのエクソンサイズの平均を約３００〜４００塩基とすれば、約４５８９〜６１１８の更なるエクソンが検出されたことになる。

更に、図１０は、リードのアラインメントによって、リードの深度とは独立に、ゲノム被覆度が向上すること、また、分別された試料（セットＢ）を用いた場合、非分別試料と比べて、リードの深度が低くても、同程度のゲノム被覆度が得られることを示している。分析においては、ランダム抽出によってリードのサブクラスを作成し、次いでこれを個別に参照ゲノムにアラインした。１００Ｍｂｐのリード深度におけるゲノム被覆度は２０％、１Ｇｂｐでは３０％であった。

ｄ）アノテート付マウスゲノムに対するＲＮＡ−Ｓｅｑ分析
ゲノム及びトランスクリプトーム情報を総合し、既知の遺伝子の上下流最大１０００塩基というより狭い範囲内に存在する可能性のある、未知のエクソンの特性決定を実施した。ここで、ＮＣＢＩ［４］データベースからダウンロードした完全アノテート付参照マウスゲノム（NCBI Build 37, mm9, C57BL/6J, July 2007）を参照として用いた。ＲＮＡ−Ｓｅｑ分析［７］は、再度CLC Genomics Workbenchを用いて実施した。アノテート付遺伝子配列の上下流１０００ヌクレオチドを含めるようにパラメーターセットを変更した（Additional upstream bases = 1000; Additional downstream bases = 1000; Create list of unassembled reads = Yes; Exon discovery = Yes; Maximum number of mismatches (short reads) = 2; Minimum length of putative exons = 50; Minimum number of reads = 10; Organism type = Eukaryote; Unspecific match limit = 10; Use colorspace encoding = No; Use gene annotations = Yes; Expression value = RPKM; Minimum exon coverage fraction = 0,2; Minimum length fraction (long reads) = 0,9）。データセットＡを統合することにより、新規と思われる２０７のエクソンが明らかとなった。これらのうち少なくとも７３は、セットＡ単独で独自に検出されたものである。これらの数はデータセットＢによって顕著に上昇し、新規と思われるエクソンの数は２５６、うち少なくとも１２２がＢ単独で発見された。従って、既知の遺伝子のコンテクストでさえ、分別によってより新規な情報が判明することが分かる。

ｅ）全遺伝子のコンテクストにおける個々の遺伝子の転写バリアントの分別
上記ｄ）と同様に、アノテート付参照マウスゲノムを用いて、ＲＮＡ−Ｓｅｑ分析［７］における発現値（ＲＰＫＭ）を、CLC Genomics Workbenchによって決定した。個々のサブプール及び組み合わせた６つのサブプールの間で遺伝子発現値を比較した。サブプール６を複数のサブプールの組み合わせと比較する散布図を図１１に示す。

ランダム分布であれば１／６線の周囲に散布するため、図１１は、散布点が６つのセグメントの全体に分布することを明らかに示している。これは即ち、個々の遺伝子の転写バリアントが、その試料中の濃度に応じて、異なるサブプールに分別されたことを意味する。例えば、５／６線の上方に記載された遺伝子は、このサブプール内に１又は２以上の転写バリアントを有し、これらがこの遺伝子の全転写バリアントの濃度の５／６超を占めることになる。

全サブプールについてｓｎＲＰＫＭ値の分布に従ったグループ分けの要約を表２に示す。ゲノムNCBIデータバンク内のアノテート付遺伝子の数は計３１７８１であった。６つのサブプールを合わせると１１４７８の遺伝子が検出された。６番目のパートに記載されている遺伝子は、要するに２６８８個、又は２３．４％である。これらの遺伝子については、他のサブプール（他の転写バリアントにとっての意味）における試料間の濃度のばらつきは、分別ありの場合に比べて、分別なしだと検出がより困難である。

表２：全６つのサブプールの全４．９５Ｍｉｏ（１００万）のリードの総正規化ＲＰＫＭ（ｓｎＲＰＫＭ）値に対する夫々０．８２５Ｍｉｏのリードから得られたサブプール当たりの総正規化ＲＰＫＭ（ｓｎＲＰＫＭ）値の分布

更に、異なるサブプールへの転写バリアントの分布は、図12に例示するように、遺伝子毎に異なる。図12は、存在量が多い１５の遺伝子のサブプール分布を示す。これは、同一の遺伝子にマップし、異なるサブプールに見出される複数のリードが、異なる様式で発現される別の転写バリアントに属することを意味している。

ｆ）単一遺伝子の複数の転写バリアントのサブプールへの分別
斯かる分別が単一遺伝子に及ぼす結果について、一例を挙げてより詳細に説明する。例として挙げるのはチコチンアミドN-メチルトランスフェラーゼ遺伝子である（Nnmt: ENSMUSG00000032271）。Nnmtは、２つのタンパク質コード化ｍＲＮＡアノテーション、即ちENSMUST00000034808及びENSMUST00000119426と、３つの更なるアノテーションを有する。０マトリックス（セットＡ）及び１×１マトリックス（セットＢ）に加えて、ＲＮＡ−ｓｅｑプロトコル［７］の４．９６Ｍｉｏのリードを比較に使用した。

第１に、ＲＮＡ−ｓｅｑプロトコルを用いて、１８５のリードをＮｎｍｔ遺伝子にマップした。それらの中には、明らかに転写開始配列に相当するものは存在しなかった（図１３参照）。２つのタンパク質コード化転写物も、他の転写物も、確実に識別することはできなかった。

第２に、０マトリックスプロトコル（セットＡ）によって３，２６６のリードがマップされ、総ＲＰＫＭ値はより高い値となった。リンカー配列タグ（リンカー１）に基づいて、１０５のリードが開始配列として同定された。１１の異なる開始部位が２つのリード閾値によってマップされた。残る３，１６１のリードは、リンカー１タグを有していないことから、内部リードであるが、分別が欠けていたため、これら１１の異なる転写物バリアントの何れにも割り当てることができなかった。

第３に、１２の可能なサブプールのうち６つに相当する、分別されたシークエンシングライブラリー（セットＢ）を用いて、３，６８０のリードを作製した。これは、上述の０−マトリックスの数と概ね同じである。１３５のリードのリードが開始配列として同定された。２つのリード閾値により、９つの異なる転写開始部位が同定された。従って、開始部位タグ（リンカー１）を有しない全てのリードが、対応するサブプールにおけるマップされた開始部位の１つに属するはずである。

更なる詳細な分析を表３に要約する。９つの開始部位は、６つのサブプールのうち４つに分布する。開始部位の数は実際には最大１１になるが、関連するＧ／−及びＣ／−サブプールにおける開始部位のうち２つ、Ｇ／Ｇ及びＧ／Ｃ、並びにＣ／Ｃ及びＣ／Ｇは同一である。同定された開始部位を調べることにより、その後のより大きなマトリックスへの割り当てを調べた。２×１では、５つの異なる開始部位しか存在せず、これらはたった２つのサブプール、ＧＴ／Ｃ及びＧＴ／Ｇに残っていた。これら２つのサブプールを３×１マトリックスに拡張することにより、検出された全ての開始部位を１１のサブプールの各々に完全に分別することが可能となる。従って、この段階では、１３５の開始配列リードが完全に分別されるのみならず、３，６８０のリード全てを、同定された転写開始部位に一義的に割り当てることが可能となる。これは、選択的サブプールの数を増加させることにより、マトリックスの分別能も増大することを意味している。

表３:１×１マトリックスにおいてNmntに割り当てられた１３５の開始部位リードの５’開始部位分析。続く２×１及び３×１マトリックスの外挿により、３×１マトリックスを用いて完全な開始部位の分別が達成できることが分かる。ΣＴＳ（２＋）／Σ、２以上のリードによって検出された転写開始部位の合計の、全てのリードの合計に対する比。

結論として、実験１は、小さなマトリックス（１２サブプール）を用い、更に斯かるマトリックスの半分のみ（１２サブプールのうち６つ）を用いてｍＲＮＡを分別した場合でさえも、ゲノム及びトランスクリプトームの両コンテクストにおいて、ｍＲＮＡの検出が有意に向上したことを示している。

[1]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/refMrna.fa.gz
[2]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/mrna.fa.gz
[3]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
[4]http://www.ncbi.nlm.nih.gov/.
[5] Benson, Dennis A. ; Karsch-Mizrachi, Ilene ; Lipman, David J. ; Ostell, James ; Sayers, Eric W.: GenBank. In: Nucleic Acids Res 37 (2009) Nr. Database issue, S. D26-31
[6] Kuhn, R. M. ; Karolchik, D. ; Zweig, A. S. ; Wang, T. ; Smith, K. E. ; Rosenbloom, K. R. ; Rhead, B. ; Raney, B. J. ; Pohl, A. ; Pheasant, M. ; Meyer, L. ; Hsu, F. ; Hinrichs, A. S. ; Harte, R. A. ; Giardine, B. ; Fujita, P. ; Diekhans, M. ; Dreszer, T. ; Clawson, H. ; Barber, G. P. ; Haussler, D. ; Kent, W. J.: The UCSC Genome Browser Database: update 2009. In: Nucleic Acids Res 37 (2009) Nr. Database issue, S. D755-61
[7] Mortazavi, Ali ; Williams, Brian A. ; McCue, Kenneth ; Schaeffer, Lorian ; Wold, Barbara: Mapping and quantifying mammalian transcriptomes by RNA-Seq. In: Nat Methods 5 (2008) Nr. 7, S. 621-8

実施例２：選択的沈殿及び下流ＮＧＳによるｃＤＮＡ分別
第１のステップでは、組織試料の精製されたｍＲＮＡが逆転写及び予備増幅されることになる。第２のステップでは、ＰＥＧ濃度を上昇させることにより、予備増幅されたｃＤＮＡを異なる画分内に沈殿させる［８］。この手法によれば、溶解性が異なるｃＤＮＡを含む１０のプールが調製される。溶解性は主にｃＤＮＡの長さによる影響を受ける。

１０の異なるサブプールのｃＤＮＡを個別に処理する。この処理には断片化と、各サブプールのサブプール特異的配列タグによる標識化とが含まれる。全ての断片がＮＧＳプラットフォームに移送され、シークエンシングされ、更にタグが読み出される。

リードは10の異なるサブプールタグに従って分別される。ここで、第１のアセンブリーでは、各サブプール内でリードをアラインすることによりコンティグを構築する。比較として、第２のアセンブリーでは、サブプール情報を無視してコンティグを構築する。コンティグの構築が各サブプール内で行われる第１のアセンブリーを用いた場合は、リードをサブプールに分離しない第２のアセンブリーと比較して、アセンブルされるコンティグの数が増加し、長さも増大する。

[8] Lis, John ; Size fractionation of double-stranded DNA by precipitation with polyethylene glycol. Nucleic Acids Research, volume 2 number 3 March 1975

実施例３：サイズ分離及び下流ＮＧＳによるｍＲＮＡ分別
組織試料のｍＲＮＡ１０μｇをアガロースゲルで電気泳動により分離する。ゲル画像の濃度測定による特性決定後、１２のバンドを切り出す。バンドは概ね同じ量のｍＲＮＡを含有する。質量マーカーに従い、下限及び上限それぞれ１つのカットオフ長を設定して、各バンドを画定する。これらのバンドによって、全てのｍＲＮＡが、１）２５〜１００ｂｐ、２）１００〜５００ｂｐ、・・・１２）１２０００〜∞ｂｐの何れかに分別される。ゲルのバンドからｍＲＮＡを精製し、１２のサブプールの各々に対して配列タグを加え、個別にＮＧＳシークエンシング用に調製する。タグ化された１２のサブプールを等量ずつ混合し、IlluminaゲノムアナライザーII装置の１レーンを用いてシークエンシングする。

ＮＧＳによって０．８Ｍｉｏの１２倍のリードが提供される。ここで、第１の分析では、完全な転写物の構築を目的として、既知のコンセンサスゲノムを補助として用い、リードを互いにアラインする。転写物は配列マッチに従わなければならないのみならず、それに加えて、各転写物は所定の短さでなければならず、そのバンドサイズのサブプールにおける最大長を超えることは許されない。対比として、第２のアラインメントは、サブプール及びサイズ情報を無視して行う。比較すると、第１のアラインメントの平均コンティグ長は第２のアラインメントよりも長く、第１のアラインメントに含まれる全長配列の数は第２のアラインメントよりも多い。

実施例４：向上のコンピューターによる計算
Random Letter Sequence Generator（http://www.dave-reed.com/Nifty/randSeq.html）を用いてランダム配列を生成し、データベース内に配置した。サイズが小さいゆえに、斯かる作業はスプレッドシートを用いて、モデルゲノムの遺伝子をアセンブルして行うことができる。全てのランダム数（例えば遺伝子及び転写物数）は乱数発生器を用いて生成した。次いで、図２〜４のグラフに示す統計上の条件に従って、遺伝子を用いてモデルトランスクリプトームを生成した。その総数は表５の「トランス」という列に示す。簡略化のため、全ての転写物は親遺伝子の完全コピーとし、バリアントは導入していない。

実験５では、１０の小さな遺伝子（表１の１０遺伝子ゲノム）を選択し、基礎となる原理を簡略化して示す。

表４：プールモデルとして用いた短いランダム配列

まず、転写物をその末端塩基（表６）に従って、１６（４×４）の異なるプールに分類した。

１つの特定のトランスクリプトーム（全てのリードがブループリントにアラインする）を選択し、読み取り誤差は除外したので、シンプルなアラインメントアルゴリズム（配列一致数を与える単純な検索関数）を用いてゲノム／トランスクリプトームを探索することができる。これによって、参照配列（トランスクリプトーム）に対し完全なk-mer一致を示す全てのリードを選択する。そこで、４ｂｐ断片の２４の順列組み合わせ（ＡＡＴＧ等の塩基繰り返しを有さない）を取得し、モデルゲノム／トランスクリプトーム（表５）全体に対して一度、分別されたゲノム／トランスクリプトーム（表６）に対して一度、アラインメントを行う。一義的にヒットした数を両表の右欄に示す。

表５：全トランスクリプトームのブループリントに対する可能な４ｂｐリードアラインメント数を示す表。一義的にアラインされるリードは存在しない。

表６：ヌクレオチド特異的に分別されたトランスクリプトームのブループリントに対する可能な４ｂｐリードアラインメント数を示す表。２２４リードのうち６９が一義的にアラインされる。

この実施例は以下を示している。
ｉ）検出された２４のリードを用いて、全ゲノム／トランスクリプトームに対するアラインメントを試みたところ、一義的にヒットしたのは１つだけであった。総ヒット数は２２４であった。アラインされたリードのうち、最も特異性が高いリードでも、４つの異なる遺伝子／転写物にマッチした。
ii）分子末端に基づく７つのサブプールへの分別後は、６９のリード（３１％）が既に一義的にアラインしていた。

ブループリントを有さない場合でも、同一の原理を適用できる。第１の場合では、調べたリードの中でプール内の特定の位置に属するリードは存在しないのに対して、リードの３１％がその元のサブプール内に特定の１つの位置を有する。転写物のプール内でのアラインメントに関する相対値は、表６の「ノルム」（norm）の欄内に示す数字によって与えられる。例えば、存在量の多い遺伝子転写物２０、３０及び４０を含むプールＣ−／−Ｃ内の４つの一義的なヒットは、全転写物の４０％近くを一義的に特定している。

参考文献一覧：
Liang, P. and A. B. Pardee. (1992) Differential display of eu-karyotic messenger RNA by means of the polymerase chain reaction. Science, 257, 967-71.
Maruyama, K. and Sugano, S. (1994) Oligo-capping: a simple meth-od to replace the cap structure of eukaryotic mRNAs with oli-goribonucleotides. Gene, 138, 171 - 174.
Matz, M. et al., (1997) Ordered differential display: a simple method for systematic comparison of gene expression profiles. Nucleic Acids Res., 25, 2541-2542.
Shiraki, T., Kondo, S., Katayama, S., Waki, K., Kasukawa, T., Kawaji, H., Kodzius, R., Watahiki, A., Nakamura, M., Arakawa, T., Fukuda, S., Sasaki, D., Podhajska, A., Harbers, M., Kawai, J., Carninci, P. and Hayashizaki, Y. (2003) Cap analysis gene ex-pression for high-throughput analysis of transcriptional start-ing point and identification of promoter usage. Proc Natl Acad Sci U S A, 100, 15776-81.
Nagalakshmi U. et al., Science, 320 (5881) (2008): 1344-1349
Armour C. D. et al., Nature Methods, 6 (9) (2009): 647
Breyne P. et al., MGG Mol. Genet. Genom., 269 (2) (2003): 173-179
Wilhelm B. T. et al., Methods, 48 (3) (2009): 249-257

Claims

多様性を有し得るＲＮＡ分子のプールに由来する核酸分子の断片を分類する方法であって、
− 任意により、前記ＲＮＡ分子を逆転写することにより、ｃＤＮＡ分子のプールを提供し、
− 前記鋳型ＲＮＡ分子又はｃＤＮＡ分子のプールから、核酸弁別特徴を共有するが互いに相違し得る核酸分子を分別することにより、少なくとも第１の核酸分子のサブプールを提供し、
− 任意により、更に一回又は二回以上、前記鋳型ＲＮＡ分子又はｃＤＮＡ分子のプールから、別の核酸弁別特徴を共有する核酸分子を分別することにより、１又は２以上の更なる核酸分子のサブプールを提供し、
− （ａ）前記分別された核酸分子をランダム断片化することにより、又は（ｂ）前記分別された核酸分子の断片コピーを取得することにより、前記分別された核酸分子の断片を生成し、更に、
− 前記生成された断片に、リンカー又はアダプターを付与する
ことを含み、
ここで前記核酸弁別特徴は、特定の位置にある少なくとも１つの所与のヌクレオチドの種類であり、ここで前記特定の位置は、ｉ）鋳型核酸分子の全長配列の５’末端又は３’末端から１００ヌクレオチド以内のヌクレオチドから選択され、或いはii）ポリＡテール又はｃＤＮＡのポリＴテールに隣接する１〜１００ヌクレオチドから選択され、或いはiii）鋳型ＲＮＡ分子又はｃＤＮＡ分子に人工的に付加されたテールに隣接する１〜１００ヌクレオチドから選択され、ここで前記ｉ）〜iii）における選択は、前記少なくとも１つの識別可能なヌクレオチドに対して特異的なプライマー又はプローブを用いて行われ、
ここで各サブプール又は複数のサブプールの組み合わせの断片は、他の断片から物理的に分離され、又は、当該サブプールの断片に当該サブプールを特定する標識を付すことにより、他の断片から分離可能に維持される、方法。
前記第１のサブプールの断片について、及び、任意により更なるサブプールの断片について、配列又は部分配列を決定することを更に含む、請求項１に記載の方法。
少なくとも１０、又は少なくとも１８、又は少なくとも２５のヌクレオチドの部分配列が決定される、請求項２に記載の方法。
前記ＲＮＡ分子が、生物試料に由来する、請求項１〜３の何れか一項に記載の方法。
前記ＲＮＡ分子が、ウイルス、原核生物又は真核生物に由来する、請求項４に記載の方法。
ランダム断片化が、物理的手段による断片化により行われる、請求項１〜５の何れか一項に記載の方法。
ランダム断片化が、剪断、超音波処理又は昇温により行われる、請求項１〜５の何れか一項に記載の方法。
多様性を有し得るＲＮＡ分子のプールに由来する核酸分子の断片を分類する方法であって、
− 任意により、前記ＲＮＡ分子を逆転写することにより、ｃＤＮＡ分子のプールを提供し、
− 前記鋳型ＲＮＡ分子又はｃＤＮＡ分子のプールから、核酸弁別特徴を共有するが互いに相違し得る核酸分子を分別することにより、少なくとも第１の核酸分子のサブプールを提供し、
− 任意により、更に一回又は二回以上、前記鋳型ＲＮＡ分子又はｃＤＮＡ分子のプールから、別の核酸弁別特徴を共有する核酸分子を分別することにより、１又は２以上の更なる核酸分子のサブプールを提供し、
− 前記分別された核酸分子の部分配列をナノポアで決定することにより、前記分別された核酸分子の断片を生成する
ことを含み、
ここで前記核酸弁別特徴は、特定の位置にある少なくとも１つの所与のヌクレオチドの型であり、ここで前記特定の位置は、ｉ）鋳型核酸分子の全長配列の５’末端又は３’末端から１００ヌクレオチド以内に存在し、或いはii）ポリＡテール又はｃＤＮＡのポリＴテールに隣接する１〜１００ヌクレオチドから選択され、或いはiii）鋳型ＲＮＡ分子又はｃＤＮＡ分子に人工的に付加されたテールに隣接する１〜１００ヌクレオチドから選択され、ここで、前記ｉ）〜iii）における選択は、前記少なくとも１つの識別可能なヌクレオチドに対して特異的なプライマー又はプローブを用いて行われる、方法。
前記断片が、１０〜１００００ヌクレオチドからなる、請求項１〜８の何れか一項に記載の方法。
前記断片が、２５〜５００ヌクレオチドからなる、請求項９に記載の方法。
前記核酸弁別特徴が、核酸分子の特定の位置における所与のヌクレオチドの種類である、請求項１〜１０の何れか一項に記載の方法。
前記ヌクレオチドの種類が、Ａ、Ｔ、Ｕ、Ｇ、Ｃから選択される、請求項１１に記載の方法。
前記核酸分子の特定の位置が、核酸分子の５’又は３’末端から１００ヌクレオチド以内に存在する、請求項１１又は１２に記載の方法。
前記核酸分子が、５’及び／又は３’末端に隣接する１０ヌクレオチド内の共通のヌクレオチドに基づいて選択される、請求項１１〜１３の何れか一項に記載の方法。
前記核酸分子が、１又は２以上の共通の５’及び／又は３’末端ヌクレオチドの種類について選択される、請求項１４に記載の方法。
前記ＲＮＡ分子が全長ＲＮＡである、及び／又は、前記分別された核酸分子が、全長又は完全ｃＤＮＡ又はＲＮＡの配列を含む、請求項１〜１５の何れか一項に記載の方法。
配列の決定が、前記断片の少なくとも５ヌクレオチド、又は少なくとも８ヌクレオチドの配列を決定することを含む、請求項２又は３に記載の方法。
配列の決定が、前記断片５’又は３’末端からの少なくとも５ヌクレオチド、又は少なくとも８ヌクレオチドの配列を決定することを含む、請求項１７に記載の方法。
配列の決定が、前記断片の全長配列を決定することを含む、請求項１７又は１８に記載の方法。
前記核酸分子がサブプールに分割され、ここで全サブプールの少なくとも１０％が、全サブプールの核酸分子の平均量±５０％を含む、請求項１〜１９の何れか一項に記載の方法。
前記核酸分子がサブプールに分割され、ここで前記サブプールの少なくとも１０％が、２つ以下の核酸分子を含む、請求項１〜２０の何れか一項に記載の方法。
核酸分子の分別が、前記鋳型プールから、核酸分子を特異的に増幅することを含む、請求項１〜２１の何れか一項に記載の方法。
増幅が、プライマーからのヌクレオチド伸長によって行われる、請求項２２に記載の方法。
増幅がＰＣＲによって行われる、請求項２３に記載の方法。
増幅が、非特異的プライマー部位の後の少なくとも１つ、又は少なくとも２つ、又は少なくとも２つの隣接する異なるヌクレオチドを選択するプライマーを用いて行われ、これにより、前記選択されたヌクレオチドを、或るサブプールに特異的な核酸弁別特徴として含む核酸分子が増幅される、請求項２３又は２４に記載の方法。
サブプール特異的標識を前記断片に付すことを特徴とする、請求項１〜２５の何れか一項に記載の方法。
前記サブプール特異的標識が、１又は２以上のヌクレオチドである、請求項２６の何れか一項に記載の方法。
前記サブプール特異的標識が、請求項２又は３に記載のシークエンシング時に共に決定される、請求項２７の何れか一項に記載の方法。
前記核酸分子を増幅することを更に含む、請求項１〜２８の何れか一項に記載の方法。
前記増幅が、分別の後、配列の決定の前に行われる、請求項２９に記載の方法。
前記増幅がＰＣＲによって行われ、少なくとも１つのヌクレオチド分子がＰＣＲの飽和相に達するまで増幅される、請求項２９又は３０に記載の方法。
前記異なるヌクレオチド分子の少なくとも１０％が、ＰＣＲの飽和相に達するまで増幅される、請求項３１に記載の方法。
核酸分子を豊富に含むサブプールがシークエンシングから除外され、ここで核酸分子を豊富に含むサブプールとは、全サブプールの平均量の１０００％を超える核酸分子を含むサブプールである、請求項１〜３２の何れか一項に記載の方法。
核酸の分別時に、選択された１つの鎖が分別され、又は、選択された１つの鎖が標識される、請求項１〜３３の何れか一項に記載の方法。
前記選択された鎖の断片も標識される、請求項３４に記載の方法。