JP5926189B2 - Rna分析方法 - Google Patents

Rna分析方法 Download PDF

Info

Publication number
JP5926189B2
JP5926189B2 JP2012542561A JP2012542561A JP5926189B2 JP 5926189 B2 JP5926189 B2 JP 5926189B2 JP 2012542561 A JP2012542561 A JP 2012542561A JP 2012542561 A JP2012542561 A JP 2012542561A JP 5926189 B2 JP5926189 B2 JP 5926189B2
Authority
JP
Japan
Prior art keywords
nucleic acid
sequence
molecules
nucleotides
subpool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012542561A
Other languages
English (en)
Other versions
JP2013513373A (ja
Inventor
ザイツ アレクサンダー
ザイツ アレクサンダー
ポール ルーカス
ポール ルーカス
ヤン ファン ミン マクス
ヤン ファン ミン マクス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lexogen GmbH
Original Assignee
Lexogen GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lexogen GmbH filed Critical Lexogen GmbH
Publication of JP2013513373A publication Critical patent/JP2013513373A/ja
Application granted granted Critical
Publication of JP5926189B2 publication Critical patent/JP5926189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Description

本発明は、核酸の複合混合物の分析及び特性決定のための試料調製、並びにシークエンシング法、特に高スループットのシークエンシング技術、例えば次世代シークエンシング法(Next Generation Sequencing:NGS)の分野に関する。
NGSは現在のところ最も完成された分析方法である。次世代シークエンシング法は、重合を通じて並列的にシークエンシングを行う高スループットDNAシークエンシング法の総称である。NGSは、各々通常10塩基対前後から数百塩基対までの長さを有する、最大数百万超の断片の配列を読み取る。これらのリード(reads)のアラインメントによって完全配列が得られるが、これは極めて困難な作業である。一部のNGS法は、ゲノムデータベース及び/又はトランスクリプトームデータベース内に保持されるコンセンサスブループリント(consensus blue print)を利用する。結果の質は、リード(reads)の長さ及び数、読み取り精度、参照データベースの情報の質、及び適用されるバイオインフォマティクスアルゴリズムに応じて異なる。現在までのところ、多くのリードからは、限られた情報しか得られない。例えば、多くのリードは一義的に割り当てることができず、ゆえに破棄されてしまう。このように割り当てが不確実であることの根底にある主な理由として、a)1つのリードが2つ以上の遺伝子とアラインする場合があること、及び、b)1つのリードが同一の遺伝子の異なる複数の変異転写物に由来する場合があること、の2点が挙げられる。
更に、シークエンシングの深度、惹いては不十分量の(low abundant)核酸の検出には限界がある。これは、RNA分析では、試料が異なる細胞又は細胞集団又は疾病生物の異なる多数のRNA分子を含む場合、希少なRNA又はその部分が検出される可能性は更に低くなるということを意味する。事実、トランスクリプトミクスでは、単純な生物でさえも、希少なRNA転写物が検出及び定量される可能性は低い。
より詳しくは、多くのNGS法では、検出可能な信号を生成するために、個々のRNA分子又はそのDNAコピーを増幅する必要がある。エマルジョン(emulsion)ポリメラーゼ連鎖反応(polymerase chain reaction:PCR)は、油相中水性泡に含まれるプライマー被覆ビーズを用いて、個々のDNA分子を単離するものである。厳密な希釈等によってDNA分子を単分離するという別の選択肢もある。インビトロでクローン増幅を行う別の方法として、ブリッジ(bridge)PCRが挙げられる。これは、固体表面に添着されたプライマーを用いて断片を増幅するものである。別の選択肢として、この増幅ステップを省略し、DNA分子を表面に直接固定する方法もある。斯かるDNA分子又は上述のDNA被覆ビーズを表面に固定化し、並行してシークエンシングを行う。合成によるシークエンシングは、(「旧式」(old style)のダイターミネーション(dye-termination)電気泳動シークエンシング法と同様に)DNAポリメラーゼを用いて塩基配列を決定する。可逆ターミネータ法は、可逆的なダイターミネータを使用し、繰り返し保護基を除去して他のヌクレオチドを重合させることにより、一度に一つのヌクレオチドを付加して、各位置の蛍光を検出する方法である。パイロシークエンシング(pyrosequencing)もDNA重合を使用し、一度に一つのヌクレオチド種を付加し、結合されたピロリン酸の放出による発光に基づき、所与の位置に付加されたヌクレオチドの数を検出及び定量する方法である。ライゲーション(ligation)法によるシークエンシング法は、DNAリガーゼを用いて標的配列を決定する方法である。ポロニー(polony)法及びSOLiD登録商標)技術において用いられるこの方法は、シークエンシング位置に応じて標識された、固定長のあらゆる可能なオリゴヌクレオチドを利用する。オリゴヌクレオチドをアニール及びライゲートする。配列をマッチングするべくDNAリガーゼにより優先的にライゲーションすることにより、その位置のジヌクレオチドによりコーディングされたカラースペース信号が得られる。
NGS技術は本質的に入力DNAのランダム増幅に基づく。これにより調製は容易となるが、このままではシークエンシングの方向が定まらない(undirected)。リードの一義的なアラインメントを妨げる大きな因子は、(同時に取得される)試料情報が極度の複雑性を有することにある。よって、結果の質を高めるには、複雑性の低減が必須である。
例えばヒトゲノムプロジェクト等で使用された、DNAの複雑性を低減するための従来の手法は、シークエンシングに先立ってBAC(細菌性人工染色体)クローンを作成するというものである。ゲノムDNAの個々のストレッチを細菌宿主細胞にクローン化し、増幅し、抽出し、これを鋳型としてサンガー(Sanger)シークエンシング法に供する。大型のBACライブラリーの作製、維持及び検証は、多大な労力を要する作業である上に、相当の費用がかかる。斯かる既存のNGSプラットフォームの非現実性及び不適合性ゆえに、細菌クローニングは避けられるのが通常である。
複雑性を低減する別の選択肢によれば、まずポリ核酸をそのサイズに応じて選択する。異なる手法としては、限定されるものではないが、アガロースゲル電気泳動又はサイズ排除クロマトグラフィーによる分画が挙げられる。小型RNAシークエンシング法は、この方法を用いることにより、例えばマイクロRNA(miRNA)と呼ばれる15から30ヌクレオチドのRNA分子の画分を取得する。
複雑性を低減するためのおそらく最も単純な手法は、入力される核酸試料の量を制限し、単一の細胞のみとするものである。単一細胞シークエンシング法は、高希釈溶液の増幅反応を利用するもので、全トランスクリプトームを含んでいるために細胞内含有物に由来する複雑性を低減することは実質的に不可能であり、入力される細胞の選択のみに依存することになる。
入力される核酸の量を単一細胞に含まれる量に低減するための別の方法は、限界希釈法(limited dilution)とも呼ばれる方法である。ゲノム核酸試料をまず分画し、ついで試料容積中の核酸断片の空間分布が有意となるまで希釈する。次に、全試料容積から少量ずつ取得してサブプールを作成し、殆どのサブプールが核酸を含有せず、少数のサブプールが各々核酸を1つずつ含有し、更に少数のサブプールが複数の核酸を含有するようにする。こうして核酸を個々に単離することができ、また、単離された核酸は各々ゲノムの断片であるから、全長ゲノムと比べて複雑性を低減することができる。ひいては、個々の核酸断片を含むサブプールから配列をアセンブルする際の効率が向上する。これにより、巨大なゲノムの組立及び骨格構築を容易にするというものである。トランスクリプトーム分析では、各転写物分子が1つのサブプールを占めるために、このような限界希釈法では、同一の遺伝子や異なる遺伝子の発現の変化により生じる複雑性を低減することができない。従って、試料の全トランスクリプトームを表示するためには、試料中の分子と同数のサブプールが必要となってしまう。
更なる選択肢としては、配列特異的にRNAを除外する方法、例えばハイブリダイゼーションを利用して全RNA試料からリボゾームRNAを除去する方法が挙げられる。他の分画法が事前の配列情報に依存し、或るいは特定のRNA画分(例えばポリA選択)を対象とするのに対して、rRNAを除去する方法では、例えばmRNAを検査対象とするならば、シークエンシング用試料に影響が及ぶことはない。総RNA試料からrRNAを除去する方法を用いることで、mRNA及び他の転写物をカバーするリードの数は増加する。しかし、リードを特定の遺伝子又はその転写物にアラインする際の複雑性は、やはり低減されない。
また、配列特異的選択法を用いて、例えば特定のエクソン等のゲノム領域を標的化してシークエンシングすることも可能である。斯かる捕捉アレイ(capture arrays)の背後にあるのは、シークエンシングの前に選択工程を挿入するという考えである。こうしたアレイは所望のゲノム領域のみを捕捉するようにプログラムされ、これによりユーザーが所望の特定のゲノム領域のシークエンシングに、NGS機器の能力を最大限に生かすことが可能となる。アレイ捕捉ハイブリダイゼーションは、シークエンシングのために低密度で行われる。斯かる技術は、選択工程において特定の配列情報が必要となるため、「仮定中立」(hypothesis neutral)ではない。
同様の正の選択を標的化再シークエンシングにも用いることができる。例えば、相補的ゲノム標的に対して高い特異性を有するビオチン化RNA鎖を用いてDNA断片を抽出し、その後の増幅及び配列の決定に供することができる。斯かる複雑性低減の手法は、利用可能な配列情報に必然的に依存するものであるから、仮定中立(hypothesis neutral)ではない。
試料の複雑性を低減するゲノムの調製法が、国際公開第2006/137734及び国際公開第2007/073171A2号に記載されている。これらはAFLP技術に基づいている(欧州特許公報第0534858号及びBreyne等(MGG Mol. Genet. Genom., 269 (2) (2003): 173-179))。AFLPは、RNA由来の二本鎖形成cDNAにも適用されている。これによれば、二本鎖形成cDNAはまず制限酵素によって切断され、続いて断片が分別される。各サブプールに含まれる核酸断片の複雑性は低下するものの、多くの場合においては、核酸の各断片は、少なくとも2つの異なるサブプールに分別されてしまう。
これはいわば、シークエンシング後にサブプール情報を用いて試料の核酸の組立を行うことができない、ということを意味する。ある核酸の各制限断片は、異なるサブプールに存在する可能性が高いからである。従って、cDNAのAFLP時にcDNAを制限処理する際に、cDNAの全長に対する情報は失われてしまう。結局のところ、分別前に試料を断片化するAFLP等の手法は、全長転写物配列のアラインメントの観点からは、複雑性を低減できないのである。しかも、大部分のcDNAの配列を少なくとも1つの制限部位でカバーするためには、多数の制限酵素を使用しなければならないため、斯かる曖昧さはより深刻になる。加えて、cDNA AFLP法においては、制限酵素のプールが核酸を切断する場合もしない場合もあるため、トランスクリプトームは統計的にカバーされるに過ぎない。
ディファレンシャルディスプレイ法(Differential Display:Liang 1992, Matz 1997)は、mRNA又はそのcDNAの部分配列のみが表示されるため、やはり全長配列をアセンブルすることはできず、同一の3’配列を共有する一遺伝子の複数の転写バリアントにリードを割り当てることはできない。
複数の微生物が混合された試料の16S rDNA又は16S rRNA配列のシークエンシングは、通常、斯かる試料中の希少種を検出するために使用される。シークエンシング法を微生物の特定の痕跡に限定することで、複雑性及び情報内容の双方が低減される。多くの場合、得られるのは系統発生情報のみである。
タグによる転写物の同定としては、SAGE(Serial Analysis of Gene Expression)法がある。本方法では、所定長の配列タグが抽出され、シークエンシングが行われる。最初にタグコンカテマーが生成される点がNGSには不利であるため、変形法ではこの工程が省略される。
関連する方法としてCAGE(Cap Analysis of Gene Expression)がある。CAGEは転写物の5’末端の情報、ひいては対応する転写開始部位の情報を得ることを意図したものである。RNA分子を担持する5’キャップを選択した上で、終了タグが抽出され、シークエンシングが行われる。
SAGE及びCAGEでは、抽出されて分析に供されるのはトランスクリプトームの限られた部分のみであるため、包括的な分別を可能とするものではなく、限界がある。
Nagalakshmi等(Science, 320 (5881) (2008): 1344-1349)及びWilhelm等(方法s, 48 (3) (2009): 249-257)はRNA−Seq法に関する。この方法は、ポリA及びランダムヘキサマープライマーを用いてcDNAを生成することを含む。この方法では、リードを個々の転写バリアントに割り当てるべく、複雑性を低減することはできない。
Armour等(Nature Methods, 6 (9) (2009): 647)は、RNAプールからcDNAを生成してシークエンシングに供する手法に関する。所謂「さほどランダムではない」(not-so-random:NSR)プライマーを用いることにより、rRNAを除去することができる。この方法によれば、短い配列断片のみが分別される。従って、この方法では、全長転写物の複雑性を低減することはできない。
従って、より小さな核酸試料の画分を提供するとともに、シークエンシング又は検出手順を改善する手法、特に希少核酸の信号取得の可能性を低減する高濃度の核酸プール等において、希少核酸試料の検出を改善する手法を提供することが可能な方法を提供することが可能な方法が求められていた。
即ち、本発明は、多様性を有する可能性があるRNA分子のプールに由来する核酸分子断片配列を整列させる(ordering)方法であって、
任意により、前記RNA分子を逆転写し、cDNA分子のプールを提供し、
前記鋳型RNA又はcDNAプールから核酸を分別し(segregating)、分別された鋳型が共有する核酸弁別特徴(distinctive nucleic acid feature)を用いて、相違する可能性がある鋳型を選択することにより、少なくとも第1の核酸のサブプールを提供し、
任意により、更に一回又は二回以上、前記鋳型RNA又はcDNAから核酸を分別し、異なる核酸弁別特徴を用いて核酸を選択的に分別し、1又は2以上の更なる核酸のサブプールを提供し、
前記分別された核酸分子の断片を断片化により生成し、又は、前記分別された核酸分子の断片コピーを取得し、
ここで、各サブプール又は複数のサブプールの組み合わせの断片が、当該サブプールを物理的に分離することにより、又は、当該サブプールの断片に標識を付すことにより、他のサブプール又は他の複数のサブプールの組み合わせの断片から分離可能に維持されており、ここで当該標識が、あるサブプールを特定し、又は、前記分別された核酸分子の部分配列を決定するとともに、好ましくは少なくとも2つの配列又は部分配列を、結合された配列にアラインする、方法を提供する。
図1はRNAの分別NGS法のワークフローである。 図2は遺伝子数をmRNA数(全遺伝子転写物の総コピー数)の関数として、対数対数正規関数により表したシミュレーションである。活性遺伝子Gは16,657、総転写物Tは380万、最頻転写物数は10、対数対数正規関数の尺度値μは1、形状パラメーターδは0.4。 図3は転写物数の遺伝子に対する関係を定量的に示す関数である。但しパラメーターtstartは33、tendは1、全遺伝子の合計は25,200、転写物は4倍量(100,269)。 図4はmRNA(コピー数)の転写物に対する依存性を示す指数関数的減衰関数である。但しパラメーターcstartは10,000、cendは1、減衰定数τは0.0522、全転写物の合計は100,128、全コピー数の合計は380万。 図5はサブプール化及び断片化の概略ワークフローである。 同上。 同上。 図6はヌクレオチド特異的増幅(分別)を用いた一般原理を示す。この例では、サブプールの定義に用いられた5’末端の最初の2つのヌクレオチドが、配列タグにも用いられる。 同上。 同上。 図7はRNAマトリックス分別を示す。この例で注目すべきは、断片F2及びF4が同一の配列であり、サブプールに分別しない限りこれらは識別できない、という点である(ステップ10参照)。ステップ2におけるmRNAの5’末端へのリンカー配列の連結は、本分野で公知の任意の方法、例えばオリゴキャッピング(Maruyama 1994)等によって達成可能である。 同上。 同上。 図8はランダムプライムド重合による断片の作製を示す。ステップ1〜4は図9と同一である。サブプールnのみを示す。ステップ6のSnはサブプール特異的タグを示す。 同上。 図9はランダムプライムドシークエンシングによる断片リードの作製を示す。ステップ1〜4は図7と同一である。この例ではサブプールnの分子zが二本鎖となっており、各鎖がシークエンシングのための鋳型となる。ランダムプライマーはシークエンシングチップ表面に結合される。サブプールの各分子の一本の鎖がチップ上のプライマーにハイブリダイズする。ランダムプライマーは分子の任意の部分にハイブリダイズし得るので、シークエンシングによって分子から「断片」(fragment)リードが作製される。 同上。 図10は12のサブプールマトリックス(1×1)からの6つのサブプールのうち、1つの非分別試料(セットA)及び1つの分別試料(セットB)のNGSリードアラインメントによって得られた、マウスゲノムの被覆度の比較を示す。コンセンサス長(y軸)は一義的に検出された配列の合計長を示す。x軸にはリードの合計をギガ塩基単位で示す。平均リード長は65ヌクレオチドであった。点線は、リードのサブクラスをランダムに抽出し、これらを個別にマウスゲノムとアラインして得られたデータ点を連結したものである。実線は当該データ点の内挿及び外挿に基づく。GCはゲノム被覆度(genome coverage)。 図11は実施例1のセットBのうち1つのサブプール(サブプール6)と6つのサブプールの組み合わせとの間で遺伝子の発現を比較した散布図である。遺伝子発現はsnRPKM、即ち、RPKM(Mortazavi 2008)を6つのサブプール内の全てのリードの合計に対して正規化した値で示す。全数値の10%をランダムに抽出することにより、データ点の数を希釈して視認性を高めた。両対数尺度における対角線は、6分の1毎の切片を表す。グラフに示すのは、0.01から1000の間のsnRPKM値を含む中央部分(central section)である。6/6線の上にある6つの値は、CLCソフトウェアで用いたアラインメントアルゴリズムの曖昧性により生じたものである。 図12は実施例1のセットBにおける最も量の多い15の遺伝子のサブプール分布を示す。異なるサブプールの遺伝子は異なる濃度で示す。異なる転写バリアント濃度を示す異なる遺伝子の転写バリアントが分別されたことを示している。 図13は遺伝子Nmntの転写開始部位分析を、RNA−seqのリードにより割り当てられた開始部位と共に示す。0及び1×1マトリックス実験による。ゲノムアノテーションは模式的であり、Nnmtの開始領域を示す。個々のリードを夫々の対応する位置に示す。基本リード(base reads)の相対頻度が「リード配列の頻度」の欄の暗灰色領域に相当する。
本発明の分別ステップによれば、核酸のサブプールを提供し、このサブプール情報を利用して、更なるシークエンシング反応(例えば核酸小断片のリード取得に基づく次世代シークエンシングや他の核酸特性決定法)を改善することができるという利点がある。本発明の方法を用いれば、サブプール情報を核酸及び断片に付随させることができ、この情報を用いてシークエンシングリードのアラインメント及びサブプール内の個々の核酸配列の濃度が決定される。更に、サブプール化によって複雑性を低減することにより、試料中に種々の濃度で存在する、ある生物の転写物及び/又は異なる細胞若しくは細胞集団の転写物及び/又は異なる生物の転写物を分別し、大量のRNA種の試料中に存在する希少核酸の検出可能性を高めることが可能となる。更に、異なる転写バリアント(例えばスプライスバリアント等)に属するシークエンシングリードの検出及び同定が可能となる。
シークエンシングリードを一義的にアラインメントし、次いで正確な配列のアセンブルを行うためには、試料の複雑性を効率的に低減するための手法が求められる。元の試料の高度の複雑性は、種々の濃度の配列の混合による無秩序さによる。本発明の方法によって得られる利点としては、
i)共通の特性を有する核酸試料の所定のサブプールを提供し、
ii)サブプール特異的な情報を当該核酸及びその断片に連結するための手段を提供し、
iii)サブプール内、惹いては元の試料内における個々の配列の濃度測定を容易にし、
これによって、シークエンシングリードアラインメントの質を向上し、及び/又は、他の手段による元の試料の分析を可能にする分別方法が提供できる点が挙げられる。
この方法によって、希少転写物を、競合する他の全ての、そしておそらくは大量に存在する転写物の主信号の中から検出できる程度にまで、トランスクリプトーム試料の複雑性を低減することができる。この方法は、極めて希少な形態から非常に豊富な形態まで、種々の配列及びその断片を定量的に測定するのに適している。
本発明の主要部は、(例えばNGSに必要な)断片化ステップに先立つ、核酸プールのサブプールへのソーティングにある。これによって全ての核酸断片が、その親となる分子から、追加のサブプール情報を獲得することになる。この情報は配列読み取り、例えば部分シークエンシングの間を通じて維持される。続いて、全てのリードが配列とともにサブプール情報を有し、これによってリードアラインメント工程の際に主な利点が提供される。単一の大きな「難問」(puzzle)を解く代わりに、複数の小さな問題を並行して解けばよいということになる。課題の複雑性は顕著に低減されることになる。結果として、i)複数位置への割り当ての可能性が低減され、ii)従来であれば「該当なし」(no-match)に分類されてきたリードの出所をより多く特定することができ、iii)転写物分析においては、スプライス部位及び転写開始部位の変動を、より高い確率で検出することができ、更にはiv)より多くの全長転写物を検出することが可能となる。
転写物プールのサブプール化は、サブプールに複数の異なる情報内容を付加することを通じて実施することができる。得られる利益は使用する方法に応じて異なる。
サブプールへの分別は、転写物の特性を、配列に直接又は間接的に関連する核酸弁別特徴として利用することにより、達成することができる。斯かる特性としては、例えば種々のカラム材(例えばシリカゲル)等の吸着性物質に対する親和性や、塩、ポリマー、又は他の添加物の存在下での溶解性等が挙げられる。斯かる間接的な配列関連分別では、試料核酸に関して必要な情報は限られており、例えば沈殿の場合、主に長さ、GC含量及び二次構造に依存することになる。核酸弁別特徴は吸着又は溶解特性であってもよい。
これに代えて、又は、これに加えて、サブプールは、i)内部又は末端の部分配列又は/及びii)転写物のサイズ等の、配列弁別特徴を利用した方法によって生成することができる。
i)弁別配列(distinctive sequences)(通常は小さなヌクレオチド配列部分)は最も強力な分別ツールである。例えば、核酸弁別特徴は、鋳型RNA又はcDNAに由来する核酸の部分配列であってもよい。弁別配列としては、分別対象の核酸内の特定の位置に存在する1又はそれ以上のヌクレオチド型(例えばA、T、U、G又はCから選択されたもの)が挙げられる。例えばヌクレオチドを、5’若しくは3’末端、又は、前記末端から所与の距離にある、1又は2以上のヌクレオチド型又は配列の存在に基づいて分別することができる。一方では、前記核酸の弁別部分について1又は2以上の配列の可能性がある場合、これらをカバーするハイブリダイゼーションプローブのアレイを用いて、サブプールを生成することができる。たとえサブプールが異なる複数の核酸を含んでおり、一部の核酸が数個のサブプール内に存在していたとしても、斯かる分別アプローチによれば、元のプールの複雑性が既に低減されることになる。全リードの収集後、アラインメントアルゴリズムは、転写物がサブプール特異的配列を含むことを認識することになる。好ましくは、全ての転写物が少なくとも1つのサブプール特異的配列を示すことを、アラインメントアルゴリズムが保証しなければならない。
弁別配列等の核酸弁別特徴(例えば上述したような特定の位置における単一のヌクレオチド又は部分配列等)に基づく選択による分別は、斯かる核酸を弁別配列に基づいて選択を行うことにより、或いは、前記弁別配列に基づいて核酸を特異的に増幅し、得られたアンプリコンを本発明の方法において利用することにより、行うことができる。
好ましい分別法は、核酸の両末端、即ち開始及び停止部位の配列情報を利用する。末端特異的増幅の後、配列特異性における冗長性が0である(ミスマッチが許容されない)場合には、全てのサブプールが、まさしくこれらの末端を有するアンプリコン(例えばPCR産物等)を含むことになる。よって、サブプールは複数のRNA分子の核酸(例えば転写物等)を含むが、各核酸は1つのサブプール内に提示されることになる。この手法によれば、アラインメント手順の複雑性が大幅に低減される。
ii)RNA分子サイズを利用すれば、電気泳動法(ゲル又はキャピラリー電気泳動)又は他の方法により、RNA当たりのヌクレオチド数に基づいて、RNAを分別することが可能となる。次いでサブプール毎に異なるリードのアラインメントを行う際に、特定の極めて狭いサイズ範囲の境界条件が利点となる。
本明細書において、RNA分子に由来する核酸分子とは、試料由来のRNAと同一の配列を有する任意の種類の核酸を意味するものとする。
特に好ましくは、分別ステップの際に、鋳型RNA又はcDNAプールから、全長又は完全核酸が分別又は選択される。このステップにおける(断片化に先立つ)全長又は完全核酸の分別には、各分別されたプールが全核酸の配列情報を(断片化後でさえも)含んでおり、これによってシークエンシング後の配列のアセンブルが容易になる、という利点が存在する。言い換えれば、異なるサブプール由来のリードが同一の遺伝子にアラインする場合でも、これらのリードはこの遺伝子の異なる転写バリアントに由来するということが言えるのである。従って、RNA編集等による配列バリアントの存在や、斯かる転写バリアント間の濃度の違いを検出することができる。更に、斯かる違いを異なる資料館で比較することが可能となる。表現型が異なる複数の試料間においては、斯かる表現型の根底にある因果関係を探る上で、斯かる比較は極めて重要となる。
斯かる点に関して「全長」(full length)又は「完全」(complete)とは、シークエンシングの対象となる(例えば逆転写後に得られた)完全核酸を意味する。5’キャップ末端配列から開始し、最長でポリAテールまでの(但し多くの場合はポリAテールを除く)RNA配列を含んでいてもよい。また、不完全(逆)に転写された核酸に関するものでもよいが、ヌクレアーゼ等を用いて人為的に切断されたものは除く。
RNAがヌクレアーゼ活性によって分解又は断片化又は消化され、斯かるRNA由来のcDNA分子が部分配列のみであっても、本発明の範囲内である。また、cDNAはRNAの部分コピーのみであってもよい。例えば、オリゴdTによりプライミングされたmRNAの逆転写が、全長cDNAコピーの重合される前に停止してもよい。これは例えば、時間的な制約や、逆転写酵素が二次構造の或る領域において重合を停止する場合に生じ得る。斯かる断片は、共通の特徴、mRNAのポリAテールに先行する配列等によって、分別することができる。
cDNAのプール(cDNAライブラリー)は、転写開始及び/又は停止部位のヌクレオチド(例えば最初の25及び/又は最後の25ヌクレオチド等)を含むことが好ましい。また、cDNAのプールは、斯かる最初の及び/又は最後のヌクレオチドからなることが好ましい。例えば、CAGE(Shiraki-2003)では、mRNAの5’末端を表す20ヌクレオチドのタグが生成される。もちろん、斯かるアプローチによれば、全長転写物のアセンブル又はその濃度の決定は不可能となる。しかしながら、斯かるタグを用いることによって、全遺伝子レベルで発現を決定することが可能となる。即ち、全転写開始部位の濃度を測定することができる。RNAの小さな部分しかシークエンシングされないため、シークエンシングの深度は増大し、低レベルで発現される遺伝子が現れる可能性が高くなる。しかし、それでもなお、存在量の多い転写物の方が、存在量の少ない転写物よりも、シークエンシングされる頻度がより高い。従って、分別アプローチによれば、存在量の少ない開始部位が検出される可能性が高くなる。例えば、CAGEライブラリーの調製に使用される小型5’タグ配列は、斯かるタグ配列の5’及び/又は3’末端におけるヌクレオチドに応じたマトリックスのフィールドに分別することができる。従って、存在量の少ない転写物の5’タグ配列は、分別ステップを通じて調製されたCAGEライブラリーにおいて、よりいっそう現れることになる。こうして、RNA、そのcDNA又は他の核酸、例えばRNA断片、cDNA断片、又はそれらから増幅された核酸に対して、分別を実施することができる。
任意によりこの分別ステップを繰り返し、異なる特性化核酸特徴を有する異なるサブプールを得ることも可能である。斯かる更なるサブプールの生成は、第1の又は他のサブプールの生成と連続して行ってもよく、並行して行ってもよい。
本発明は本質的に、多様なRNA分子のプールを選択し、任意によりcDNAを生成し、前記のRNA又はcDNA、又はそれに由来する任意の他の核酸を、例えば増幅後に分別し、任意により異なるパラメーターを用いて分別を繰り返し、これらの分別された核酸を断片化し、断片のプールを得ることの組み合わせに存する。断片とは、その元となる完全核酸分子よりも長さの短い核酸部分と解する。
斯かる断片を、例えば、次世代シークエンシング法や他の核酸特性決定法に供してもよい。NGSは現在のところ、最も完全な分析方法である。しかし、本発明はNGSに限定されるものではなく、NGSに依存するものでもない。他のシークエンシング技術も同様に、本発明の分別方法による利点を享受できる。
必ずという訳ではないが、特定のサブプール分布を明確に特性化するためには、核酸の完全なシークエンシングが必要となる場合が多い。分子プローブとの特異的相互作用や溶融挙動等の任意の他の方法を利用して、元の核酸プールを独自の符号で記述することができる。
例えば、分子プローブは、相補的配列にハイブリダイズ可能なオリゴヌクレオチド等のハイブリダイゼーションプローブであってもよい。斯かる原理は、マイクロアレイ分析において、多数の遺伝子の発現を同時に調べる場合に使用される。斯かるcDNA又はオリゴヌクレオチドマイクロアレイを用いて可能な最も詳細な遺伝子(DNA)発現の分析は、エキソーム又はスプライセオソーム分析である。しかし、これらの高分解能分析を用いても、遺伝子の特定の転写バリアントへの信号の割り当ては不可能である。しかし、本発明の方法によれば、mRNA分子又はその全長cDNAコピーが異なるサブプールに分別される場合、各サブプールをマイクロアレイによって個別に分析することができる。もし2以上の異なるサブプールが同一のプローブ(アレイ上のスポット)に関する信号を生じる場合には、その信号は少なくとも2つの異なる転写物に属することになる。この点は、特に異なる試料の発現を比較する場合に重要である。分析に先立って分別しなければ識別できなかった発現の差異が、分別を行うことによって検出可能となる場合がある。例えば、遺伝子のスプライス部位に選択的なプローブが、第1の試料において100の相対信号を発し、第2の試料においても100の相対信号を発するとする。この場合、発現比率は1であり、差が生じることはない。ここで、各試料を例えば12のサブプールに分別し、各サブプールをマイクロアレイで分析した場合に、一方の試料中2つのサブプールの信号が見いだされ、第1のサブプールの相対信号が90であり、第2のサブプールの相対信号が10であるとする。第2の試料において、第1のサブプールの値が10であり、第2のサブプールの値が90であるとする。これら2つの試料間のサブプールの組み合わせの比率は依然1であるが、第1のサブプールについての試料間比率は9であり、第2のサブプールについての試料間比率は1/9となる。従って、分別を行わなければ検出不可能であったはずの、1つの遺伝子の2つの転写バリアント間の発現の差異が、分別を行うことによって可能となったのである。言い換えれば、同一の信号が2つの異なる転写バリアントに由来する場合、分別を行わなければ、一方のバリアントの信号が第2のバリアントの信号を覆い隠してしまう。分別によって、各々を個別に測定することが可能となる。
同一の原理を次世代シークエンシング実験にも適用することができる。2つのサブプールのリードが同一の遺伝子にアラインする場合、分別能が100%であれば、これらのリードは異なる転写物に由来するものであるということが分かる。
更に、トランスクリプトームの分別は、異なる遺伝子由来の転写物及び同一の遺伝子由来の転写物を所定のサブプールに分別するという観点からは、比較的短い配列リードを、より長い配列、更には全長配列へとアセンブルする上でも、強力なツールになる。その結果、本発明は多数のシークエンシングリードの各々のアラインメントを向上させ、核酸の配列及び/又はそのコピー数の決定に寄与する。
一実施形態によれば、最初に断片化してから斯かる断片をシークエンシングするのではなく、シークエンシングステップ時に断片(部分)配列の生成を行う。この場合、ランダム(ユニバーサル)プライマーを用いて、単一分子内でのシークエンシング反応をプライミングする。従って、殆どの場合、シークエンシング反応によってこの分子から断片配列が生成される。分子がサブプールに特異的な標識を有する場合、この標識をシークエンシング反応後に読み出すことにより、サブプール特異的標識を有する断片配列が提供される。同一の分子を更なるシークエンシングに供してもよく、これにより多数の断片配列が提供され、これらをアセンブルすることによって核酸分子、RNA又は転写されたcDNAのコンティグ又は全長配列を得ることができる。特定の核酸は多数コピー存在するので、斯かるシークエンシングは並行に実施することも可能である。この場合、多数のランダム(又はユニバーサル)プライマーによって多数の核酸分子のシークエンシング反応がプライミングされ、多数の断片配列が得られる。得られた多数の断片配列全体を用いることにより、分別された核酸の配列をアライン又はアセンブルすることが可能となる。
シークエンシングに先立って各断片を互いに連結することも、本発明の範囲に含まれる。
核酸は単体ヌクレオチドの線状ポリマーである。斯かる分子は遺伝情報(トリプレットコード参照)を担い、或いは、細胞において他の機能(例えば調節)を発揮する構造を形成する。本発明により分析される核酸はリボ核酸(RNA)である。RNA(シークエンシング)分析は、個々の細胞内に存在するRNA集団が極めて複雑であるため、特に困難な作業である。本発明は、細胞内に存在するRNAの全種類(例えばmRNA(転写物)、マイクロRNA、リボゾームRNA、siRNA、snoRNA等)の同定(特にシークエンシング)に関する。
トランスクリプトームは、細胞内で産生されるあらゆるRNA分子、即ち「転写物」(transcripts)の総体である。所与の細胞系毎に概ね一定であるゲノムとは異なり、トランスクリプトームは細胞、組織、器官の種類や発達の段階に応じて様々に異なり、外部環境条件によっても変化し得る。トランスクリプトームは細胞内の全転写物を含むゆえに、所与の時点で活発に発現している遺伝子を反映しており、転写減衰等の分解現象も含んでいる。トランスクリプトミクスは転写物の研究であり、発現プロファイリングとも呼ばれる。本発明の分別方法をRNA試料に用いることの利点は、低コピー数の転写物や試料中に低濃度で存在する他の任意のRNAについて、サブプール内でシークエンシング及び分析される可能性が高まることである。次世代シークエンシングの欠点の1つは、存在量の多い核酸によって、低濃度の断片がシークエンシングされる可能性が低下してしまう点にある。本発明の分別法によれば、高コピー数の核酸を、低コピー数の核酸から差別化することが可能となる。これにより、斯かる低コピー数の核酸が、検出やそれに先立つ増幅等のステップから除外されてしまうのを防止することができる。
一般原理は、分別されたより小さな部分をシークエンシングすることにより、核酸プールの複雑性を低減するというものである。斯かるより小さな部分はサブプールと呼ばれる。好ましい実施形態によると、全てのサブプールを合わせれば、分析対象となる元のプールの全核酸が含まれることになる。しかしながら、原則として、全てのRNA分子を分析することは必須ではなく、一部のサブプールを無視したり、更には一部のサブプールを生成せず、及び/又は、空のままとしておいてもよい。核酸プールの複雑性に寄与する主な因子は3つ存在する。
第1の因子は、個々の異なる配列を組み合わせた長さによって決定される。配列は4種の塩基によってコード化される(TとUは同一の情報を担持するため、同視し得る)ため、複雑性は4の塩基数乗に等しい変数となる。しかし、ゲノムには、繰り返し配列や他の種類の命令(例えば遺伝子の進化の過程で生じたもの)等の冗長な情報も含まれている。従って、異なる遺伝子の中にも、同一の配列や又は極めて類似した配列を有する領域が含まれている。これによって、コンティグや全長転写物配列の新規アセンブリー時に曖昧さが生じ、構築可能なコンティグの長さが制限されてしまう。参照配列が利用可能なアラインメントのプロセスにおいても、斯かる曖昧さによって、個々のリードのアラインメントが制限されてしまう。シークエンシングプロセスのリード長を低減するほど、曖昧さは増大する。トランスクリプトーム分析では、1つの遺伝子(又はゲノム領域)が複数の転写物をコードする場合も或るため、より曖昧さが大きくなる。同一の遺伝子から生じる複数の異なる転写物(これを転写バリアント(transcript variants)という場合がある)、例えばスプライスバリアント等は、配列組成の面では極めて類似している。従って、転写バリアントから生じたリードの多くは、一義的にアサインすることができない。例えば、スプライス部位が検出された場合でも、斯かる部位が1の転写物に属するのか、2以上の転写物に属するのかは分からない。
第2の因子は、試料内の異なる配列の数によって決定される。順列組み合わせ数が大きくなるにつれて、すなわち、異なる配列数の階乗に比例して、複雑性は大きくなる。配列が2つであれば、可能な組み合わせの数は2つであり、配列が3つであれば、可能な組み合わせの数は6つとなる、という具合である。
第3の因子は、コピー数(転写物濃度)の違いであり、より程度としては低いものの、例えば特定のコピーの違いが1/1.000のレベルであることが知られているとすれば、これらの違いに関する予想の量である。異なる配列が各々、ある特定のコピー数を有すると特定されているグループに属する。これらのグループの分布のレベルが、濃度の差異を通じて導入される複雑性を決定付ける。
本発明の分別法は、元の試料プールの異なるRNA分子の識別に寄与する。この分別ステップを一回又は複数回繰り返してもよい。ここでいう繰り返しとは、第1の分別ステップの後に追加の分別ステップを実施しなければならない、と言う意味に解してはならず(これはもちろん選択肢の一つにすぎない)、1又は2以上の分別ステップを同時に実施することも意味する。即ち、1又は2以上のサブプールを生成し、各サブプールには共通の特徴を共有する特定の核酸が存在し(又は濃縮され)、斯かる核酸弁別特徴を有さない他の核酸は全て、各プールから除去する(或いは少なくとも濃縮対象から除外する)ことができる。
これらの因子は、試料内の全ての分子、特に希少な分子の正しい配列及び濃度を決定することの困難性に、直接寄与することになる。本発明の一般原理は、シークエンシングリードの生成前に、これらの因子が制御され、同時にプールの複雑性が低減された、サブプールを構成することにある。即ち、この方法によれば、インラインの配列アラインメントを単純化することができる。サブプールは、本発明の範囲内の分別方法を通じて生じる。
本発明の好ましい実施形態によれば、この方法は、第1のサブプールの(そして任意により、更なるサブプールの)断片の配列又は部分配列を決定することを更に含む。この断片又はその部分の配列は、当業界で公知の適切な手法を任意に用いて決定することができる。中でも、高スループットシークエンシング法、特に次世代シークエンシングにスケールアップできるシークエンシング法が好ましい。斯かる方法によれば、少なくとも5、好ましくは少なくとも8、少なくとも10、少なくとも15、少なくとも18、少なくとも20、少なくとも22ヌクレオチドの配列長を有する断片を決定することができる。好ましくは、断片の全長配列が決定される。断片の一部のみがシークエンシングされる場合、これは5’又は3’末端部分であっても、或いは中間部分であってもよく、特異的又は非特異的(例えばランダム)プライマーを用いて選択することができる。
核酸の部分配列の決定は、少なくとも10、好ましくは少なくとも15、少なくとも18、特に好ましくは少なくとも20、より一層好ましくは少なくとも25ヌクレオチドの配列部分を決定することを含むことが好ましいが、核酸の完全配列の決定は除外することが好ましい。本発明によれば、断片化又は断片コピーの取得(例えば核酸分子の一部の増幅)によって、分別された核酸分子の断片を生成してから、その配列を決定してもよいが、或いは、断片又は前記分別された核酸分子の配列又は部分配列を決定し、好ましくは少なくとも2、好ましくは少なくとも3、特に好ましくは少なくとも4、少なくとも6又は少なくとも8の配列又は部分配列を、連結された配列とアラインしてもよい。このオプションによれば、斯かる断片を物理的に提供する必要はない。物理的な断片化ステップを実施しなくとも、核酸分子自身から決定することが可能な配列部分を取得し、斯かる部分配列をアラインすることにより、連結された配列を作成することができる。この実施形態によれば、サブプールの核酸分子に基づいて配列が直接決定されるので、分別されたプールの情報を示す特定の標識を提供する必要はない。これは、例えば核酸分子内部からのプライマー伸長であるランダムプライミングや、例えば配列の任意の点から読み出すことが可能なナノポアによって、惹いては「断片リード」(fragment reads)を作成することによって実施できる。斯かるリードはその後、本明細書に記載のとおりにアラインすることができる。
特に、提供される全ての断片の全長配列を提供することが、常に必要と言うわけではない。シークエンシングが不完全な断片において欠落している配列部分については、例えば重複している他の断片を用いて、欠落している配列と同一の配列を補うことも可能である。例えば、通常は断片の一方の端部のみから配列を決定し、上述したように、例えば少なくとも10ヌクレオチドの部分配列をシークエンシングするのが、より効率的である。斯かる部分配列は、次いで連結された配列にアラインすることができる。一実施形態によれば、本発明の方法によって分別された核酸分子の全長配列を決定することも可能であるが、前記核酸分子を同定するのに十分な長さを有するその一部のみを決定することも可能である。
シークエンシングの実施時には、核酸分子及びその各断片に、元となるサブプールの情報が付随することが好ましい。一方では、サブプール情報は標識化を通じて引き継がれる。全ての断片に、識別ヌクレオチド配列(例えば1、2、3、4、5、6、7、8又はそれ以上のサブプール関連ヌクレオチドからなるサブプール特異的配列タグの付与)、蛍光色素、ナノドット等のレポーターモジュールを付与してもよい。サブプール特異的標識としては、断片に付与されたヌクレオチド配列(バーコード)が好ましい。更にバーコードは、核酸断片のシークエンシングと同時又はその後に読み出すことが好ましい。他方で、サブプール情報は、空間的又は時間的分割を通じて受継されてもよい。すなわち、各サブプールは機械の異なる領域(スライド上のクラスター)において、或いは異なる時間帯でシークエンシングされてもよい。例えば、各サブプールを連続的にシークエンシングしてもよい。これらの手順の多くについては、更なるプロセスの実行は不要である。レポーター分子による個別の標識化の場合、レポーター信号を同定し、リードに連結する必要がある。
個々のサブプールは個別にシークエンシングすることができる。各サブプールのリードは、ゲノムブループリントに対してアラインされるか、或いは(全プールではなく)同一のサブプール内の他の全てのリードと比較することにより、新たにアラインされる。従って、元の試料プールの複雑性は大幅に低減される。
豊富なRNA分子(特に転写物)は、その出現がみられる1のサブプールのみに干渉し、その読み取り深度に影響を及ぼすが、他のサブプールには影響を与えない。個々の断片を読み取る確率は、対応するプール又はサブプール内の相対濃度に比例するから、千分の1の確率でしか出現しない断片であれば、他の断片を千回読み取る間に、平均1回しか読み取らないことになろう。
リードのアラインメントの場合、全てのリードがグループ化され、可能な場合には、そのサブプールアドレスに応じて配向される。第2に、全てのリードが互いに、或いはブループリント配列データベースに対してアラインされる。もし、サブプール情報に加えて、例えば完全配列について長さ等の更なる情報が公知である場合には、アラインメントは全ての境界条件を充足しなければならない。
しかしながら、多くの場合、断片を完全にシークエンシングする必要はなく、その配列の一部を取得すればよい。時には、斯かる一部だけでも十分に、ヌクレオチドを同定し、或いは、(例えば断片が重複する配列を含んでいる場合)他の断片のシークエンシングされた他の部分を全長配列に対してアラインすることが可能な場合もある。
断片の一部のシークエンシングは別として、断片(即ち、元の核酸の一部のみを有するより小さな核酸分子)のみを取得し、その配列又はその一部分を決定することも可能である。よって、「前記分別された核酸分子の生成」とは、任意の配列部分を含む断片の取得にも関する。断片化は、配列に依存する手法で、例えばヌクレアーゼ消化等の物理的手段により、或いは配列に依存しない手法で、例えば超音波処理や剪断等の物理的手段で行ってもよい。断片の生成は更に、断片コピーの取得にも関する。例えば核酸分子を増幅して更なるコピーを作成し、これを続いて断片化してもよい。ランダム断片化プロセスを用いる場合、これによって各核酸分子について、異なる断片を生成することができる。他方で、配列に依存する方法を用いる場合、例えば制限ヌクレアーゼ消化や配列特異的増幅を用いる場合、一核酸分子から生じる断片は全て同一となる。更に、断片を増幅によって生成し、即ちシークエンシング断片とすることも可能である。これは例えば、配列に依存しない方法でも、配列に依存する方法でも行うことができる。特にランダムプライミングによって、前記断片とともに内部の配列部分を取得することが好ましい。断片又は決定された部分配列のサイズの例としては、例えば少なくとも10、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40ヌクレオチドである。断片又は決定された部分配列は、最大20,000、最大10,000、最大5,000、最大4,000、最大3,000、最大2,000、最大1,000、最大800、最大700、最大600、最大500、又は最大400ヌクレオチド長である。好ましい範囲は10〜10,000ヌクレオチド、好ましくは25〜500ヌクレオチドである。
シークエンシング前に断片を連結することも、本発明の範囲内に属する。斯かる連結された断片の間に異なる配列領域を介挿し、この配列によって、シークエンシングを連続的に実施する際に、シークエンシングプライマーによるプライミングを生じさせることが好ましい。
分別された核酸分子又は分別対象となる核酸分子は、一本鎖でも二本鎖でもよい。一本鎖分子を分別する場合、5’及び3’末端を有することから、その親分子との関連における断片の鎖形成性(strandedness)は明らかである。二本鎖核酸分子を使用する場合、二本鎖は両端に5’及び3’末端を有するため、一方の鎖には識別可能な特性(例えばメチル化)が必要となるが、もう一方には不要である。RNA又はcDNAの5’及び/又は3’末端の特徴(好ましくは配列部分)を核酸特徴として用いる場合、分子の配向は断片化前に公知である。従って二本鎖の一報を用いて断片化を行うことができる。二本鎖の一方の選択は、当業界で周知の手法を任意に用いて行うことができる。例えば、分別時に一方の鎖の末端を標識してもよい。例えばPCRプライマーの一方にビオチン等の標識基を含めておき、その後にアビジン結合マトリックスを用いたカラムクロマトグラフィー等によって選択してもよい。別の可能性としては、一方のプライマーとして5’ホスフェートを有するものを用い、他方のプライマーとして5’ ホスフェートを有しないものを用いて、得られたPCR産物にラムダエキソヌクレアーゼを作用させ、5’ホスフェートを有する鎖を選択的に消化してもよい。分別及び断片化を通じて核酸分子の鎖形成性(strandedness)又は鎖情報を維持することにより、その後のアセンブリー又はアラインメントの効率を向上させることができる。例えば、断片の鎖形成性が保存されれば、各断片をゲノムのプラス又はマイナス鎖にアラインさせることができ、これによりセンス転写物とアンチセンス転写物とを識別することが可能となる。同様のことが、転写物のクラスター構築又は新規(de novo)アセンブリーにも当てはまる。これらの手法によっても、センス及びアンチセンスクラスター/転写物を識別することができる。従って、断片化の際に鎖形成性又は鎖情報を維持することが好ましく、中でも、例えば他方の鎖をラムダヌクレアーゼ消化する等により、一方の鎖を選択することが好ましい。分別時に鎖情報を維持するために、分別対象となる一方の鎖(センス鎖でもアンチセンス鎖でもよい)を選択し、或いは選択された鎖を標識することも可能である。好ましくは選択された鎖の断片を、鎖情報に従って、また、可能であればプーリング情報について(例えば上述のバーコーディング等により)標識化することが好ましい。
更に好ましい実施形態によれば、これらの断片の少なくとも2、4、5、6、7、8、9、10、12、14、16、18、又は少なくとも20ヌクレオチド、特に連続するヌクレオチドがシークエンシングされる。
多様性を有する可能性があるRNA分子の元のプールは、何れの材料から得られたものでもよいが、特に生物試料が好ましく、より好ましくはウイルス、原核生物又は真核生物である。本発明の複雑性の低減方法は、如何なる種類のRNAシークエンシング法にとっても重要性を有する。例えば、多様なトランスクリプトームを含む単一の細胞を用いる場合でも、もちろん複数の細胞を含む試料、特に種々の材料に由来する試料、例えば種々の生物の異なる多数の細胞を含む試料や、類似する細胞ではあるがその遺伝子発現が相違し、又は改変されているもの(例えば腫瘍細胞)を含む試料を用いる場合でも同様である。
本発明の特に好ましい実施形態によれば、分別に使用される核酸特徴は、核酸分子内の特定の位置に、好ましくは核酸分子の5’又は3’末端の一方又は双方から100ヌクレオチド以内の位置に存在する、所与のヌクレオチド型、好ましくはA、T、U、G、Cの何れか1つから選択されるヌクレオチド型である。斯かる方法として、例えば全長配列元を取得すべく、特に1又は2以上の特定のヌクレオチドを選択する方法が、国際公開第2007/062445号公報に開示されている(本文献は参照により本明細書に組み込まれる)。即ち、好ましい実施形態によれば、本発明の分別ステップは、前記鋳型RNA又はcDNAプールから核酸を分別する、相違する可能性がある鋳型を、分別された鋳型が共有する、全長鋳型核酸分子配列の5’又は3’末端から100ヌクレオチド以内の特定の位置における少なくとも1つの所与のヌクレオチド型について選択することにより、少なくとも第1の核酸のサブプールを提供することを含んでいてもよい。
本発明によれば、例えばプライマーとして、RNA又はcDNAの例えば一端(3’又は5’末端の何れか)について特異的であるとともに、1又は2以上の更なるヌクレオチド特異性を含むプライマーを用いることにより、分別ステップにおいて特定の核酸分子を増幅及び選択することができる。斯かるプライマーは、(ユニバーサル又はウォッブル(wobble))プライマー部位の後の相補的ヌクレオチドに従って核酸分子を分別するように機能する。全長RNAが分別される場合には、末端部分、例えばポリAテール(又はこれに対応するcDNAのポリTテール)に特異的なプライマーを使用したり、或いは人工テールをRNA又はcDNAに付加し、このテールに特異的なプライマーを使用することもできる。斯かるプライマーは続く1〜100、好ましくは1〜10ヌクレオチド、例えば続く1、2、3、4、5、6、7、8、9又は10ヌクレオチドに特異的である。前記プライマーにウォッブルヌクレオチドを用いることにより、これらの末端の後の特定のヌクレオチドを選択することも可能である。好ましくは、特異的に識別されるヌクレオチドは、核酸分子の5’又は3’末端の何れかから最初の100ヌクレオチド以内に存在する。もちろん、プライマーを用いて、分別ステップにおいて核酸分子が分離されるような任意の内在領域を選択することも可能である。
プライマーについて上述した原理と同一の原理はもちろん、斯かる識別ヌクレオチド型に特異的でありうるオリゴヌクレオチドプローブにも適用される。
核酸分子は、5’及び/又は3’末端に続く10ヌクレオチド以内に存在する共通のヌクレオチドについて、好ましくは1又は2以上の共通の5’及び/又は3’末端ヌクレオチド型について選択されることが好ましい。
これらのプライマー又はプローブは、異なる核酸特徴について選択されたプライマー又はプローブとの組み合わせで使用することが好ましい。これらのプライマーを、例えば個別に、又は連続的に使用することにより、核酸特徴に特異的なサブプールを生成してもよい。組み合わせて使用されるプライマー又はオリゴヌクレオチド(即ち「プライマーマトリックス」(primer matrix))は、例えばユニバーサル部分と識別部分とを有するプライマーであって、識別部分が例えば第1のプライマーではA、第2のプライマーではT、第3のプライマーではG、第4のプライマーではCであるプライマーである。好ましくは、2以上のヌクレオチドを核酸特徴として用いる。組み合わせとしては、例えばAA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG、又はCCで終了するプライマー又はオリゴヌクレオチドプローブを使用し、これによって相補的ヌクレオチドを有する核酸を異なるサブプールに分別することがでいる。更に好ましい実施形態によれば、核酸特徴は3以上、例えば4、5、6、7、8、又はそれ以上の特定のヌクレオチド型を有する。更に好ましい実施形態によれば、プライマーの組み合わせは、夫々5’及び/又は3’末端の識別ヌクレオチドについて選択するオリゴヌクレオチド、例えば2以上の5’ヌクレオチド及び2以上の3’ヌクレオチドに夫々特異的なプライマー又はプローブである。
上述したように、内部領域について選択を行ってもよく、この場合、アンプリコンの各々の側の2つのヌクレオチド型について選択するようなプライマー対の組み合わせを用いてもよい。或いは、内部領域の選択は、特定の内部領域についての相補的ヌクレオチドに先立って、特定数の非特異的ヌクレオチド(例えばウォッブル又はユニバーサルヌクレオチド)を有する末端特異的プライマー又はプローブを用いて行ってもよい。
好ましい実施形態によれば、分別に使用される核酸特徴は、短いリードのアセンブリー(又はアラインメント)の際に、アセンブルされる(又はアラインされる)配列の適格性を示す特性として使用される。例えば、核酸特徴が特定長又は特定長範囲である場合には、正しくアセンブルされた配列の適格性を示す因子は、斯かる長さ又は長さ範囲ということになろう。核酸特徴が特定の配列であるとして、この核酸のシークエンシング断片が例えば36塩基長であれば、この36塩基に加えて、各断片について更にn塩基が既知ということになる。ここでnは核酸特徴の塩基数を表す。例えば核酸特徴が分子の5’側の既知の6塩基と3’側の既知の6塩基であれば、各断片の36塩基に加えて2×6塩基が、シークエンシング断片から所定の距離(断片化分子の長さ)内に存在することが分かる。従って、核酸特徴が特定の配列であれば、この配列はアセンブルされた配列内にも存在しなければならない。核酸特徴は、分別された核酸の特定の位置に、好ましくは鋳型RNA又はcDNAの5’又は3’末端から所定の距離に存在することが好ましい。核酸特徴は配列であり、かかる配列をアセンブリーの際に使用することが好ましい。核酸特徴は、例えば2、3、4、5、6、7、8、9、又は10の既知のヌクレオチドからなる、2つの配列部分を含んでいてもよく、これらは所定の塩基距離をおいて、例えば20〜10000nts、好ましくは30〜5000nts、特に好ましくは50〜1000ntsをおいて位置することが好ましい。
好ましい実施形態によれば、分別された核酸は、鋳型RNA又はcDNAの全長配列を有する。これによって、コンティグの新規アセンブリー、更には全長配列の新規アセンブリーが、大幅に向上する。シークエンシングプロセスの際に生成される全ての断片リードを、サブプール内で、即ち1つのサブプールから得られた断片又は部分配列とともにアラインすることができるからである。
鋳型全長RNAの5’及び/又は3’末端のヌクレオチドを分別のための(1又は2以上の)核酸特徴として使用する場合、全長RNA分子の開始及び/又は停止部位のヌクレオチドは、斯かるサブプールの全断片について既知となる。こうした情報によって、例えば断片又はこれらがアセンブルされたコンティグを、ゲノムDNAのプラス又はマイナス鎖上に正しく位置づけることが可能となり、惹いては遺伝子のセンス及びアンチセンス転写物を分離することが可能となる。好ましい実施形態によれば、本発明の方法で使用されるRNA分子は全長RNAである。全長RNAは、例えば上述の方法を用いて選択することができる。このことは、全長RNAに対応する全長cDNAにも適用される。本明細書で使用される場合、「全長RNA」(full length RNA)又は「全長cDNA」(full length DNA)という語は、RNAの最初の塩基から最後の塩基までのRNA配列に相補的な配列を含むRNA又はDNAとして定義される。斯かる方法は、例えば国際公開第2007/062445号(参照により組み込まれる)に開示されており、例えば全長RNAに対して(本明細書の記載に従って)分別された増幅又は選択を実施することによる、末端特異的核酸特徴について選択的な増幅が含まれる。多くの真核性mRNAのように、キャップ及び/又はテール(ポリAテール)を有するRNA分子の場合、「全長RNA」とは、RNA鋳型のキャップ(例えばRNA7−メチルグアノシンキャップ)後の最初の塩基から、テール(ポリAテール)前の最後の塩基までのRNA配列に相補的な配列を含むRNAとして定義される。
増幅及び/又はシークエンシング反応時にプライマーを核酸又は断片の末端に結合させるために、リンカー又はアダプターを核酸分子又は断片に付与し、これによってプライマーの結合を可能にしてもよい。
RNA分子のプールを本発明のサブプールへと整列させることにより、核酸物質の数が低減されたサブプールを生成し、元の試料の複雑性を大幅に低減することが可能となるとともに、惹いては核酸の検出や、その後のシークエンシング及びアセンブリングを首尾よく行うことができる可能性を向上させることができる。
好ましい実施形態によれば、核酸をサブプールに分割する際に、全サブプールの少なくとも10%が、全サブプールの核酸の平均量±50%を占めるようにする。所与の試料に適した分別方法を用いて、核酸を均等にサブプールに分割することにより、複雑性の低減方法を十分に実施することができる。もちろん、核酸の存在量が少ないサブプールや、更には元のプールの核酸が全く含まれない空のサブプール等があってもよい。後者は対照試料として使用することができる。好ましい実施形態によれば、全サブプールの少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%が、全サブプールの核酸の平均量±50%となるようにする。この±50%の許容誤差は、好ましい実施形態では、最大±50%、最大±45%、最大±40%、最大±35%、最大±30%、最大±25%、最大±20%とすることができる。
試料は、少なくとも1、好ましくは2、3、4、5、6、7又は8の希少RNA分子を含むことが好ましい。ここで希少(rare)とは、1%未満、0.5%未満、0.1%未満、0.05%未満、0.01%(100ppm)未満、好ましくは50ppm未満、10ppm未満、5ppm未満、1ppm未満、500ppb未満、100ppb未満又は50ppb未満の濃度であることを意味する。少なくとも1、好ましくは2、少なくとも4、少なくとも6又は少なくとも8の希少核酸が、分析対象試料内に存在することが好ましい。
更なる実施形態によれば、核酸をサブプールに分割する際に、少なくともサブプールの10%が、2以下の核酸、好ましくは1つの核酸のみを含むようにする。斯かる高希釈は、他の核酸が存在する元のプールからの検出が(特に元の濃度のままでは)困難な極めて希少な核酸を検出する場合に、特に望ましい。
更に好ましい実施形態によれば、核酸を分別するステップは、前記鋳型プールから核酸を特異的に増幅することを含む。具体的に、増幅は、プライマーからのヌクレオチド伸長、好ましくはPCRによって行われる。特に好ましくは、増幅は、プライマーからのヌクレオチド伸長、好ましくはPCRによって行われ、特に非特異的プライマー部位の後の少なくとも1つ、好ましくは少なくとも2つ、特に少なくとも2つの隣接する異なるヌクレオチドを選択するプライマーを用いて増幅を行うことが好ましい。これにより、増幅された核酸分子は、選択されたヌクレオチドをサブプールに特異的な核酸特徴として含むことになる。
本発明の方法における上述の断片化ステップは、シークエンシングステップに使用される最初のステップであってもよい。サブプールの核酸の配列の決定は、例えば、上述のようにサブプールのヌクレオチド分子を断片化し、サブプール特異的標識を所与のサブプールの各断片に付与し、組み合わされたプールの断片化ポリヌクレオチドのヌクレオチド配列を決定し(或いは、標識付与の有無によらず、個別のプールのヌクレオチド配列を決定し)、サブプール特異的標識及び他の断片と重複する配列に基づいて断片配列をヌクレオチド分子に割り当てることにより、核酸の配列を決定することを含む。
即ち、好ましい実施形態によれば、サブプール特異的標識が断片に連結される。サブプール特異的標識は、例えばヌクレオチドであり、好ましくはシークエンシング時に同時に決定される。
更に好ましい実施形態として、元のプールの核酸は、分別ステップにおいて、少なくとも2、好ましくは少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8のサブプールに分割される。ここで、ヌクレオチドは各々、サブプール毎に異なるヌクレオチド特性を共有する。
好ましい実施形態によれば、分別ステップにおいて核酸の選択に使用されるプライマー又はプローブは、固体表面、特にマイクロアレイ又はチップ上に固定化されることが好ましい。核酸の識別について上述したのと同様の分別法を、シークエンシングステップ時に異なる断片を識別するために実施してもよい。
特に好ましい実施形態によれば、本発明の方法は更に、好ましくは分別後、配列の決定前に、核酸分子を増幅することを含む。特に好ましくは、前記増幅はPCRによって実施され、少なくとも1のヌクレオチド分子が、PCRの飽和相に達するまで増幅される。特に、異なるヌクレオチド分子の少なくとも10%が、PCRの飽和相に達するまで増幅されることが好ましい。こうした増幅反応を用いて、プール又はサブプール内の核酸分子の濃度を正規化することができる。PCR反応は、例えば、核酸分子がPCRサイクル毎に実質的に倍増する指数増幅相を有する。核酸分子がプライマー濃度に応じた特定の濃度に達した後、競合反応が始まって増幅を阻害する。即ち、豊富に存在する核酸分子の増幅は、プライマーの結合の妨げとなる核酸分子の自己阻害によって、減速し始める。或いは、プライマー、dNTP等の反応成分を使い切ってしまう。この相が飽和相と呼ばれるものである。
存在量の多い核酸分子がこの飽和相に達し、増幅が阻害される一方で、存在量の少ない分子は指数的に増幅し続けることが好ましい。異なる核酸分子の少なくとも10%、特に好ましくは少なくとも20%が、この飽和相に達することが好ましい。これらの増幅反応は、例えばqPCR(定量PCR:quantitative PCR)を用いて監視することができる。もちろん、前記反応は、通常のPCR反応(但し監視不能の場合あり)や、自己阻害を伴う他の増幅反応でも生じる。飽和相への到達は、例えば20、22、24、26、28、又は30の増幅サイクル後であるが、本発明の増幅においては最小のサイクル数であることが好ましい。
例えばPCR増幅等を通じてサブプールを並行に分別する場合、存在量の多い転写物を含むサブプールほど速く飽和相に達することになる。従って、存在量の多い転写物を含むサブプールが既に飽和相に到達した後のサイクルでも、存在量の多い転写物を含まないサブプールの転写物は依然として増幅されることになる。従って、これらのサブプール全てをシークエンシングする際には、存在量の少ない転写物ほど検出の可能性はより高くなる。
本発明のサブプール化手順を用いて、シークエンシングから、高コピー数の転写物を除去し、例えば存在量の多い核酸分子を含むサブプールを除外することもできる。シークエンシングから除外される、存在量の多い核酸分子を含むサブプールは、好ましくは、試料の全核酸分子を含む全サブプールの平均量に対して、100%超、特に好ましくは150%超、より一層好ましくは200%超、特に好ましくは300%超、例えば400%超、例えば500%超、特に好ましくは1000%超の核酸分子を含むサブプールである。斯かるサブプールは、元のプール全体に対して、例えば0.1%超、0.5%超、又は更には1%超、例えば2%以上超、5%超、10%超を占める核酸分子を含むサブプールである。こうして除外又は正規化されるべき、存在量の多い転写物としては、例えばハウスキーピング遺伝子、GAPDH、アクチン、チューブリン、RPL1、リボゾームタンパク質、又はPGK1が挙げられる。
本発明を更に、添付の図面及び以下の実施例を用いて説明するが、これらに限定されるものではない。
実施例1:末端特異的マトリックス分離によるcDNA分別、及びそれに続くNGS分析。使用したオリゴヌクレオチドについては表1参照。
マウス(C57Bl/6)肝臓試料から精製された総RNA2μgを、V(C、G又はAの何れか)アンカー型オリゴ−dT配列(Seq−2;リンカー2−T27−V)を3’末端に有するオリゴを用いてプライミングし、逆転写してcDNAを調製した。逆転写酵素の鋳型乗換え(template switch)活性を用いて、逆転写反応時に鋳型乗換えオリゴ(Seq−1;リンカー1)の逆転写を通じて、リンカー配列をcDNAの3’末端に付加した(米国特許第5962271号、米国特許第5962372号)。得られたcDNAの5’末端には、mRNAの元のポリAテール及びリンカー2配列に対応するオリゴによって導入されたポリTストレッチが含まれていた。cDNAの3’末端には、キャップ依存的に付加されたCヌクレオチドに続いて、リンカー1配列の逆相補体が含まれていた。2つの異なる試料のセットをシークエンシング用に調製した。
単一の試料からなる比較用セットA(分別なし;0マトリックス)は、50μL反応液中で、約27pgのcDNAを約800ngのレベルまでPCR増幅することにより調製した。プライマーとしては、cDNAの3’末端の鋳型乗換え配列(Seq−3;リンカー1)及び5’末端のポリT配列(Seq−4、リンカー2−T27)に夫々ハイブリダイズするものを用いた。その後のシークエンシング用試料の調製に十分な材料を精製するために、8つの精製されたPCR反応物を混合し、約5μgを更に処理した。要約すると、この試料は非特異的マトリックスを含んでおり、惹いてはそのうち1フィールドのみが、全cDNAが鋳型として機能する増幅を示すはずであった。
セットB(分別あり)は、6つの試料を含み、これらは12のサブプールマトリックス(1×1マトリックス)のうち6つのサブプールに夫々対応するものであった。
本明細書で使用される場合、「1×1マトリックス」という表現は、cDNAの3’末端における1の選択的なヌクレオチドと、cDNAの5’末端における1の選択的なヌクレオチドとを指す。各ヌクレオチドについて、4種のヌクレオチドの各々に応じたプールへの分別が可能である。しかし、ポリAテールを含むmRNAを鋳型として用いる場合、テールに隣接するヌクレオチド(或いはcDNAの対応するポリTストレッチ)は、他の3種のヌクレオチドについてのみ選択することができる(即ち、このヌクレオチドを用いることにより、3つのサブプールに分別することができる)。ポリAテールを有するmRNA(末端の核酸型、即ちテールに隣接する核酸型の分別)について、1×1マトリックスは、従って4×3=12サブプールに分別する。他のマトリックスの場合、例えば2×0マトリックスは、4×4=16サブプールに分別し、0×2マトリックスは、3×4=12サブプールに分別し、或いは2×2マトリックスは、3×4×4×4=192サブプールに分別する。
12のサブプールを生成するために、cDNAの3’末端に特異的な3’末端A、G、C又はTを有する4つのプライマーのうち1つと、cDNAの5’末端に特異的な3’末端A、G又はCを有する3つのプライマーのうちの1つを適用し、各マトリックスフィールド内で、1つの特定の末端の組み合わせを有するcDNA分子のみを選択的に増幅した。セットBの6つの試料(サブプール)を生成するために、6つの5’/3’(cDNA)プライマーの組み合わせのみを使用し(Seq−9/Seq−5(C/G);Seq−10/Seq−5(G/G);Seq−11/Seq−6(A/A);Seq−9/Seq−7(C/C);Seq−10/Seq−7(G/C));Seq−11/Seq−8(A/T))、各々により約27pgのcDNAを800ngまで増幅した。プライマーの組み合わせ毎に、8つのプールされた副生物5μgずつを用いて、続く反応を実施した。要約すると、セットBの6つのPCR試料の各々について、平均でcDNAの1/12を鋳型として用いた。
表1:実施例1においてRNAの逆転写及びマトリックスPCRに用いたオリゴヌクレオチド。アステリスクはホスホロチオエート結合を意味する。リボヌクレオチドはその前に「r」を付して表示する。
Figure 0005926189
次世代シークエンシング用の2つのセットの試料を調製するために、PCR試料の各々を(超音波処理で)断片化し、平均200〜1000bp長の断片を作成した。その後、Illumina Genome Prep Kit(#FC-102-1001; Illumina Inc., USA)を用いて、試料を標準IlluminaゲノムDNAシークエンシング用試料調製パイプラインに供した。要するに、アダプターを断片の末端に付加し、これを用いて試料をフローセルに結合させた。これによってクラスター生成が可能となり、シークエンシングプライマーのハイブリダイゼーションを開始してシークエンシングを実施することができる。更に、多重化(Multiplexing)試料調製オリゴヌクレオチドキット(#PE-400-2002; Illumina Inc., USA)を用いて、セットBの6つの試料を、標準Illumina多重(multiplex)タグでバーコード化した。サイズ範囲200〜600bpのアダプター連結断片をシークエンシング用に選択した。
セットAの試料をフローセルの1つのチャンネルにロードし、セットBの6つの試料を等量で混合したものを第2のチャンネルにロードした。クラスター生成はcBot Instrument(Illumina Inc., USA)により、クラスター生成キット(#GD-203-2001、version 2; Illumina Inc., USA)を用いて行った。続いて、GenmomeAnalyzer II(Illumina Inc.)により、シークエンシング試薬キット(#FC-104-3002, version 3; Illumina Inc., USA)を用いて、76bpのシークエンシングランを実施した。
セットBの6つの試料のマルチプレックス・タグを、マルチプレクス・シークエンシングプライマー及びPhiX Control Kit(#PE400-2002,version 2; Illumina Inc., USA)を用いて読み出した。
チャンネルの各々について短い(76bp)リードを取得し、セットBの多重化されたリードをそのバーコードに従って分離した。
続いて、セットAについて4950084のリードをランダムに抽出することにより、両データセットのリード数を正規化した。セットBの6つの試料の各々については、825014のリードをランダムに抽出した。従って、セットBは合計で4950084のリードからなることになった。
リードセットのバイオインフォマティク分析を実施するために、CLC Genomics Workbench V3.6.5(CLC bio, Denmark)を使用した。
5’プライマー配列をリードから切り離し、全ての誤ったヌクレオチド(Ns)をリードから切除し、閾値長20ヌクレオチド未満のリードを更なる分析から除外した。
こうして得られたセットA及びB夫々4940840及び4948650のリードを更なる分析二使用した。
a)参照mRNAデータベースへのアラインメント
2009年10月4日に、UCSC Genome Browserウェブページ[6]から、refMrna データベースをダウンロード[1]した。本データベースはマウスゲノムアセンブリー(mm9, NCBI built 37)に基づく24570の参照mRNA配列を含む。分別の有無に応じてこれらの参照mRNAのうち幾つが検出されるかを調べるために、これらの参照mRNAに対するリードセットA及びリードセットBのアラインメントを実施した。両アラインメントについて、以下のCLCパラメーターを用いた(Add conflict annotations = No; Conflict resolution = Vote; Create Report = Yes; Create SequenceList = Yes; Match mode = random; Sequence masking = No; Similarity = 0,8; Length fraction = 0,5; Insertion cost = 3; Deletion cost = 3; Mismatch cost = 2)。セットA(分別無し)については15652のmRNAが検出された。データセットBでは検出されたmRNAは15702まで増加した。データセットBは可能な12のサブプールのうち6しか含んでいないので、この僅かな増加は有意であると言える。
しかし、refMrnaデータセットが既知遺伝子1つ当たり1桁の転写物しか含んでいなかったので、より多くの遺伝子の転写バリアント(例えばスプライスバリアント等)を含むより完全なデータセットに対し、両セットのアラインメントを行った。
b)328358のmRNA配列へのアラインメント
2009年10月4日に、UCSC genomics browserデータベース[6]から、328358のGenBankのmRNA配列[5]をダウンロードした[2]。上記a)と同一のCLCパラメーターを適用し、セットA及びセットBをこれらの328358のGenBankのmRNA配列にアラインメントした。セットAを用いて83199の配列が検出され、セットBでは87794の配列が検出された。これは、シークエンシング前に分別を実施した場合に検出されるmRNA分子より約5%多い値に相当する。
見出された向上分は有意であったが、この大型のmRNAデータベースでさえも、その範囲の広さ(遺伝子数)及び深度(遺伝子の転写バリアント)が限定されている。
従って、ゲノムコンテクストにおいて別の分析を行った。
c)マウスゲノムに対するアセンブリー
2009年10月4日に、UCSC Genome browserデータベース[6]から、完全参照マウスゲノムをダウンロードした[3]。上記a)と同一のCLCパラメーターを用いてアラインメントを実施したところ、結果として得られたゲノム被覆度は、データセットAについて0.494%、データセットBについて0.561%であった(図10)。従って、セットBではセットAと比べて、約13.5%多くのゲノムが検出された。これは約1835663のヌクレオチドが新たにマッピングされたことを意味する。マウスのエクソンサイズの平均を約300〜400塩基とすれば、約4589〜6118の更なるエクソンが検出されたことになる。
更に、図10は、リードのアラインメントによって、リードの深度とは独立に、ゲノム被覆度が向上すること、また、分別された試料(セットB)を用いた場合、非分別試料と比べて、リードの深度が低くても、同程度のゲノム被覆度が得られることを示している。分析においては、ランダム抽出によってリードのサブクラスを作成し、次いでこれを個別に参照ゲノムにアラインした。100Mbpのリード深度におけるゲノム被覆度は20%、1Gbpでは30%であった。
d)アノテート付マウスゲノムに対するRNA−Seq分析
ゲノム及びトランスクリプトーム情報を総合し、既知の遺伝子の上下流最大1000塩基というより狭い範囲内に存在する可能性のある、未知のエクソンの特性決定を実施した。ここで、NCBI[4]データベースからダウンロードした完全アノテート付参照マウスゲノム(NCBI Build 37, mm9, C57BL/6J, July 2007)を参照として用いた。RNA−Seq分析[7]は、再度CLC Genomics Workbenchを用いて実施した。アノテート付遺伝子配列の上下流1000ヌクレオチドを含めるようにパラメーターセットを変更した(Additional upstream bases = 1000; Additional downstream bases = 1000; Create list of unassembled reads = Yes; Exon discovery = Yes; Maximum number of mismatches (short reads) = 2; Minimum length of putative exons = 50; Minimum number of reads = 10; Organism type = Eukaryote; Unspecific match limit = 10; Use colorspace encoding = No; Use gene annotations = Yes; Expression value = RPKM; Minimum exon coverage fraction = 0,2; Minimum length fraction (long reads) = 0,9)。データセットAを統合することにより、新規と思われる207のエクソンが明らかとなった。これらのうち少なくとも73は、セットA単独で独自に検出されたものである。これらの数はデータセットBによって顕著に上昇し、新規と思われるエクソンの数は256、うち少なくとも122がB単独で発見された。従って、既知の遺伝子のコンテクストでさえ、分別によってより新規な情報が判明することが分かる。
e)全遺伝子のコンテクストにおける個々の遺伝子の転写バリアントの分別
上記d)と同様に、アノテート付参照マウスゲノムを用いて、RNA−Seq分析[7]における発現値(RPKM)を、CLC Genomics Workbenchによって決定した。個々のサブプール及び組み合わせた6つのサブプールの間で遺伝子発現値を比較した。サブプール6を複数のサブプールの組み合わせと比較する散布図を図11に示す。
ランダム分布であれば1/6線の周囲に散布するため、図11は、散布点が6つのセグメントの全体に分布することを明らかに示している。これは即ち、個々の遺伝子の転写バリアントが、その試料中の濃度に応じて、異なるサブプールに分別されたことを意味する。例えば、5/6線の上方に記載された遺伝子は、このサブプール内に1又は2以上の転写バリアントを有し、これらがこの遺伝子の全転写バリアントの濃度の5/6超を占めることになる。
全サブプールについてsnRPKM値の分布に従ったグループ分けの要約を表2に示す。ゲノムNCBIデータバンク内のアノテート付遺伝子の数は計31781であった。6つのサブプールを合わせると11478の遺伝子が検出された。6番目のパートに記載されている遺伝子は、要するに2688個、又は23.4%である。これらの遺伝子については、他のサブプール(他の転写バリアントにとっての意味)における試料間の濃度のばらつきは、分別ありの場合に比べて、分別なしだと検出がより困難である。
表2:全6つのサブプールの全4.95Mio(100万)のリードの総正規化RPKM(snRPKM)値に対する夫々0.825Mioのリードから得られたサブプール当たりの総正規化RPKM(snRPKM)値の分布
Figure 0005926189
更に、異なるサブプールへの転写バリアントの分布は、図12に例示するように、遺伝子毎に異なる。図12は、存在量が多い15の遺伝子のサブプール分布を示す。これは、同一の遺伝子にマップし、異なるサブプールに見出される複数のリードが、異なる様式で発現される別の転写バリアントに属することを意味している。
f)単一遺伝子の複数の転写バリアントのサブプールへの分別
斯かる分別が単一遺伝子に及ぼす結果について、一例を挙げてより詳細に説明する。例として挙げるのはチコチンアミドN-メチルトランスフェラーゼ遺伝子である(Nnmt: ENSMUSG00000032271)。Nnmtは、2つのタンパク質コード化mRNAアノテーション、即ちENSMUST00000034808及びENSMUST00000119426と、3つの更なるアノテーションを有する。0マトリックス(セットA)及び1×1マトリックス(セットB)に加えて、RNA−seqプロトコル[7]の4.96Mioのリードを比較に使用した。
第1に、RNA−seqプロトコルを用いて、185のリードをNnmt遺伝子にマップした。それらの中には、明らかに転写開始配列に相当するものは存在しなかった(図13参照)。2つのタンパク質コード化転写物も、他の転写物も、確実に識別することはできなかった。
第2に、0マトリックスプロトコル(セットA)によって3,266のリードがマップされ、総RPKM値はより高い値となった。リンカー配列タグ(リンカー1)に基づいて、105のリードが開始配列として同定された。11の異なる開始部位が2つのリード閾値によってマップされた。残る3,161のリードは、リンカー1タグを有していないことから、内部リードであるが、分別が欠けていたため、これら11の異なる転写物バリアントの何れにも割り当てることができなかった。
第3に、12の可能なサブプールのうち6つに相当する、分別されたシークエンシングライブラリー(セットB)を用いて、3,680のリードを作製した。これは、上述の0−マトリックスの数と概ね同じである。135のリードのリードが開始配列として同定された。2つのリード閾値により、9つの異なる転写開始部位が同定された。従って、開始部位タグ(リンカー1)を有しない全てのリードが、対応するサブプールにおけるマップされた開始部位の1つに属するはずである。
更なる詳細な分析を表3に要約する。9つの開始部位は、6つのサブプールのうち4つに分布する。開始部位の数は実際には最大11になるが、関連するG/−及びC/−サブプールにおける開始部位のうち2つ、G/G及びG/C、並びにC/C及びC/Gは同一である。同定された開始部位を調べることにより、その後のより大きなマトリックスへの割り当てを調べた。2×1では、5つの異なる開始部位しか存在せず、これらはたった2つのサブプール、GT/C及びGT/Gに残っていた。これら2つのサブプールを3×1マトリックスに拡張することにより、検出された全ての開始部位を11のサブプールの各々に完全に分別することが可能となる。従って、この段階では、135の開始配列リードが完全に分別されるのみならず、3,680のリード全てを、同定された転写開始部位に一義的に割り当てることが可能となる。これは、選択的サブプールの数を増加させることにより、マトリックスの分別能も増大することを意味している。
表3:1×1マトリックスにおいてNmntに割り当てられた135の開始部位リードの5’開始部位分析。続く2×1及び3×1マトリックスの外挿により、3×1マトリックスを用いて完全な開始部位の分別が達成できることが分かる。ΣTS(2+)/Σ、2以上のリードによって検出された転写開始部位の合計の、全てのリードの合計に対する比。
Figure 0005926189
結論として、実験1は、小さなマトリックス(12サブプール)を用い、更に斯かるマトリックスの半分のみ(12サブプールのうち6つ)を用いてmRNAを分別した場合でさえも、ゲノム及びトランスクリプトームの両コンテクストにおいて、mRNAの検出が有意に向上したことを示している。
[1]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/refMrna.fa.gz
[2]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/mrna.fa.gz
[3]http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
[4]http://www.ncbi.nlm.nih.gov/.
[5] Benson, Dennis A. ; Karsch-Mizrachi, Ilene ; Lipman, David J. ; Ostell, James ; Sayers, Eric W.: GenBank. In: Nucleic Acids Res 37 (2009) Nr. Database issue, S. D26-31
[6] Kuhn, R. M. ; Karolchik, D. ; Zweig, A. S. ; Wang, T. ; Smith, K. E. ; Rosenbloom, K. R. ; Rhead, B. ; Raney, B. J. ; Pohl, A. ; Pheasant, M. ; Meyer, L. ; Hsu, F. ; Hinrichs, A. S. ; Harte, R. A. ; Giardine, B. ; Fujita, P. ; Diekhans, M. ; Dreszer, T. ; Clawson, H. ; Barber, G. P. ; Haussler, D. ; Kent, W. J.: The UCSC Genome Browser Database: update 2009. In: Nucleic Acids Res 37 (2009) Nr. Database issue, S. D755-61
[7] Mortazavi, Ali ; Williams, Brian A. ; McCue, Kenneth ; Schaeffer, Lorian ; Wold, Barbara: Mapping and quantifying mammalian transcriptomes by RNA-Seq. In: Nat Methods 5 (2008) Nr. 7, S. 621-8
実施例2:選択的沈殿及び下流NGSによるcDNA分別
第1のステップでは、組織試料の精製されたmRNAが逆転写及び予備増幅されることになる。第2のステップでは、PEG濃度を上昇させることにより、予備増幅されたcDNAを異なる画分内に沈殿させる[8]。この手法によれば、溶解性が異なるcDNAを含む10のプールが調製される。溶解性は主にcDNAの長さによる影響を受ける。
10の異なるサブプールのcDNAを個別に処理する。この処理には断片化と、各サブプールのサブプール特異的配列タグによる標識化とが含まれる。全ての断片がNGSプラットフォームに移送され、シークエンシングされ、更にタグが読み出される。
リードは10の異なるサブプールタグに従って分別される。ここで、第1のアセンブリーでは、各サブプール内でリードをアラインすることによりコンティグを構築する。比較として、第2のアセンブリーでは、サブプール情報を無視してコンティグを構築する。コンティグの構築が各サブプール内で行われる第1のアセンブリーを用いた場合は、リードをサブプールに分離しない第2のアセンブリーと比較して、アセンブルされるコンティグの数が増加し、長さも増大する。
[8] Lis, John ; Size fractionation of double-stranded DNA by precipitation with polyethylene glycol. Nucleic Acids Research, volume 2 number 3 March 1975
実施例3:サイズ分離及び下流NGSによるmRNA分別
組織試料のmRNA10μgをアガロースゲルで電気泳動により分離する。ゲル画像の濃度測定による特性決定後、12のバンドを切り出す。バンドは概ね同じ量のmRNAを含有する。質量マーカーに従い、下限及び上限それぞれ1つのカットオフ長を設定して、各バンドを画定する。これらのバンドによって、全てのmRNAが、1)25〜100bp、2)100〜500bp、・・・12)12000〜∞bpの何れかに分別される。ゲルのバンドからmRNAを精製し、12のサブプールの各々に対して配列タグを加え、個別にNGSシークエンシング用に調製する。タグ化された12のサブプールを等量ずつ混合し、IlluminaゲノムアナライザーII装置の1レーンを用いてシークエンシングする。
NGSによって0.8Mioの12倍のリードが提供される。ここで、第1の分析では、完全な転写物の構築を目的として、既知のコンセンサスゲノムを補助として用い、リードを互いにアラインする。転写物は配列マッチに従わなければならないのみならず、それに加えて、各転写物は所定の短さでなければならず、そのバンドサイズのサブプールにおける最大長を超えることは許されない。対比として、第2のアラインメントは、サブプール及びサイズ情報を無視して行う。比較すると、第1のアラインメントの平均コンティグ長は第2のアラインメントよりも長く、第1のアラインメントに含まれる全長配列の数は第2のアラインメントよりも多い。
実施例4:向上のコンピューターによる計算
Random Letter Sequence Generator(http://www.dave-reed.com/Nifty/randSeq.html)を用いてランダム配列を生成し、データベース内に配置した。サイズが小さいゆえに、斯かる作業はスプレッドシートを用いて、モデルゲノムの遺伝子をアセンブルして行うことができる。全てのランダム数(例えば遺伝子及び転写物数)は乱数発生器を用いて生成した。次いで、図2〜4のグラフに示す統計上の条件に従って、遺伝子を用いてモデルトランスクリプトームを生成した。その総数は表5の「トランス」という列に示す。簡略化のため、全ての転写物は親遺伝子の完全コピーとし、バリアントは導入していない。
実験5では、10の小さな遺伝子(表1の10遺伝子ゲノム)を選択し、基礎となる原理を簡略化して示す。
表4:プールモデルとして用いた短いランダム配列
Figure 0005926189
まず、転写物をその末端塩基(表6)に従って、16(4×4)の異なるプールに分類した。
1つの特定のトランスクリプトーム(全てのリードがブループリントにアラインする)を選択し、読み取り誤差は除外したので、シンプルなアラインメントアルゴリズム(配列一致数を与える単純な検索関数)を用いてゲノム/トランスクリプトームを探索することができる。これによって、参照配列(トランスクリプトーム)に対し完全なk-mer一致を示す全てのリードを選択する。そこで、4bp断片の24の順列組み合わせ(AATG等の塩基繰り返しを有さない)を取得し、モデルゲノム/トランスクリプトーム(表5)全体に対して一度、分別されたゲノム/トランスクリプトーム(表6)に対して一度、アラインメントを行う。一義的にヒットした数を両表の右欄に示す。
表5:全トランスクリプトームのブループリントに対する可能な4bpリードアラインメント数を示す表。一義的にアラインされるリードは存在しない。
Figure 0005926189
表6:ヌクレオチド特異的に分別されたトランスクリプトームのブループリントに対する可能な4bpリードアラインメント数を示す表。224リードのうち69が一義的にアラインされる。
Figure 0005926189
この実施例は以下を示している。
i)検出された24のリードを用いて、全ゲノム/トランスクリプトームに対するアラインメントを試みたところ、一義的にヒットしたのは1つだけであった。総ヒット数は224であった。アラインされたリードのうち、最も特異性が高いリードでも、4つの異なる遺伝子/転写物にマッチした。
ii)分子末端に基づく7つのサブプールへの分別後は、69のリード(31%)が既に一義的にアラインしていた。
ブループリントを有さない場合でも、同一の原理を適用できる。第1の場合では、調べたリードの中でプール内の特定の位置に属するリードは存在しないのに対して、リードの31%がその元のサブプール内に特定の1つの位置を有する。転写物のプール内でのアラインメントに関する相対値は、表6の「ノルム」(norm)の欄内に示す数字によって与えられる。例えば、存在量の多い遺伝子転写物20、30及び40を含むプールC−/−C内の4つの一義的なヒットは、全転写物の40%近くを一義的に特定している。
参考文献一覧:
Liang, P. and A. B. Pardee. (1992) Differential display of eu-karyotic messenger RNA by means of the polymerase chain reaction. Science, 257, 967-71.
Maruyama, K. and Sugano, S. (1994) Oligo-capping: a simple meth-od to replace the cap structure of eukaryotic mRNAs with oli-goribonucleotides. Gene, 138, 171 - 174.
Matz, M. et al., (1997) Ordered differential display: a simple method for systematic comparison of gene expression profiles. Nucleic Acids Res., 25, 2541-2542.
Shiraki, T., Kondo, S., Katayama, S., Waki, K., Kasukawa, T., Kawaji, H., Kodzius, R., Watahiki, A., Nakamura, M., Arakawa, T., Fukuda, S., Sasaki, D., Podhajska, A., Harbers, M., Kawai, J., Carninci, P. and Hayashizaki, Y. (2003) Cap analysis gene ex-pression for high-throughput analysis of transcriptional start-ing point and identification of promoter usage. Proc Natl Acad Sci U S A, 100, 15776-81.
Nagalakshmi U. et al., Science, 320 (5881) (2008): 1344-1349
Armour C. D. et al., Nature Methods, 6 (9) (2009): 647
Breyne P. et al., MGG Mol. Genet. Genom., 269 (2) (2003): 173-179
Wilhelm B. T. et al., Methods, 48 (3) (2009): 249-257

Claims (35)

  1. 多様性を有し得るRNA分子のプールに由来する核酸分子の断片を分類する方法であって、
    − 任意により、前記RNA分子を逆転写することにより、cDNA分子のプールを提供し、
    − 前記鋳型RNA分子又はcDNA分子のプールから、核酸弁別特徴を共有するが互いに相違し得る核酸分子を分別することにより、少なくとも第1の核酸分子のサブプールを提供し、
    − 任意により、更に一回又は二回以上、前記鋳型RNA分子又はcDNA分子のプールから、別の核酸弁別特徴を共有する核酸分子を分別することにより、1又は2以上の更なる核酸分子のサブプールを提供し、
    − (a)前記分別された核酸分子をランダム断片化することにより、又は(b)前記分別された核酸分子の断片コピーを取得することにより、前記分別された核酸分子の断片を生成し、更に、
    − 前記生成された断片に、リンカー又はアダプターを付与する
    ことを含み、
    ここで前記核酸弁別特徴は、特定の位置にある少なくとも1つの所与のヌクレオチドの種類であり、ここで前記特定の位置は、i)型核酸分子の全長配列の5’末端又は3’末端から100ヌクレオチド以内のヌクレオチドから選択され、或いはii)ポリAテール又はcDNAのポリTテールに隣接する1〜100ヌクレオチドから選択され、或いはiii)鋳型RNA分子又はcDNA分子に人工的に付加されたテールに隣接する1〜100ヌクレオチドから選択され、ここで記i)〜iii)における選択は、前記少なくとも1つの識別可能なヌクレオチドに対して特異的なプライマー又はプローブを用いて行われ、
    ここで各サブプール又は複数のサブプールの組み合わせの断片は、他の片から物理的に分離され、又は、当該サブプールの断片に当該サブプールを特定する標識を付すことにより、他の片から分離可能に維持される、方法。
  2. 前記第1のサブプールの断片について、及び、任意により更なるサブプールの断片について、配列又は部分配列を決定することを更に含む、請求項1に記載の方法。
  3. 少なくとも10、又は少なくとも18、又は少なくとも25のヌクレオチドの部分配列が決定される、請求項2に記載の方法。
  4. 前記RNA分子が、生物試料に由来する、請求項1〜3の何れか一項に記載の方法。
  5. 前記RNA分子が、ウイルス、原核生物又は真核生物に由来する、請求項4に記載の方法。
  6. ランダム断片化が、物理的手段による断片化により行われる、請求項1〜5の何れか一項に記載の方法。
  7. ランダム断片化が、剪断、超音波処理又は昇温により行われる、請求項1〜5の何れか一項に記載の方法。
  8. 多様性を有し得るRNA分子のプールに由来する核酸分子の断片を分類する方法であって、
    − 任意により、前記RNA分子を逆転写することにより、cDNA分子のプールを提供し、
    − 前記鋳型RNA分子又はcDNA分子のプールから、核酸弁別特徴を共有するが互いに相違し得る核酸分子を分別することにより、少なくとも第1の核酸分子のサブプールを提供し、
    − 任意により、更に一回又は二回以上、前記鋳型RNA分子又はcDNA分子のプールから、別の核酸弁別特徴を共有する核酸分子を分別することにより、1又は2以上の更なる核酸分子のサブプールを提供し、
    − 前記分別された核酸分子の部分配列をナノポアで決定することにより、前記分別された核酸分子の断片を生成する
    ことを含み、
    ここで前記核酸弁別特徴は、特定の位置にある少なくとも1つの所与のヌクレオチドの型であり、ここで前記特定の位置は、i)型核酸分子の全長配列の5’末端又は3’末端から100ヌクレオチド以内に存在し、或いはii)ポリAテール又はcDNAのポリTテールに隣接する1〜100ヌクレオチドから選択され、或いはiii)鋳型RNA分子又はcDNA分子に人工的に付加されたテールに隣接する1〜100ヌクレオチドから選択され、ここで前記i)〜iii)における選択は、前記少なくとも1つの識別可能なヌクレオチドに対して特異的なプライマー又はプローブを用いて行われる、方法。
  9. 前記断片が、10〜10000ヌクレオチドからなる、請求項1〜8の何れか一項に記載の方法。
  10. 前記断片が、25〜500ヌクレオチドからなる、請求項9に記載の方法。
  11. 前記核酸弁別特徴が、核酸分子の特定の位置における所与のヌクレオチドの種類である、請求項1〜10の何れか一項に記載の方法。
  12. 前記ヌクレオチドの種類が、A、T、U、G、Cから選択される、請求項11に記載の方法。
  13. 前記核酸分子の特定の位置が、核酸分子の5’又は3’末端から100ヌクレオチド以内に存在する、請求項11又は12に記載の方法。
  14. 前記核酸分子が、5’及び/又は3’末端に隣接する10ヌクレオチド内の共通のヌクレオチドに基づいて選択される、請求項11〜13の何れか一項に記載の方法。
  15. 前記核酸分子が、1又は2以上の共通の5’及び/又は3’末端ヌクレオチドの種類について選択される、請求項14に記載の方法。
  16. 前記RNA分子が全長RNAである、及び/又は、前記分別された核酸分子が、全長又は完全cDNA又はRNAの配列を含む、請求項1〜15の何れか一項に記載の方法。
  17. 配列の決定が、前記断片の少なくとも5ヌクレオチド、又は少なくとも8ヌクレオチドの配列を決定することを含む、請求項2又は3に記載の方法。
  18. 配列の決定が、前記断片5’又は3’末端からの少なくとも5ヌクレオチド、又は少なくとも8ヌクレオチドの配列を決定することを含む、請求項17に記載の方法。
  19. 配列の決定が、前記断片の全長配列を決定することを含む、請求項17又は18に記載の方法。
  20. 前記核酸分子がサブプールに分割され、ここで全サブプールの少なくとも10%が、全サブプールの核酸分子の平均量±50%を含む、請求項1〜19の何れか一項に記載の方法。
  21. 前記核酸分子がサブプールに分割され、ここで前記サブプールの少なくとも10%が、2つ以下の核酸分子を含む、請求項1〜20の何れか一項に記載の方法。
  22. 核酸分子の分別が、前記鋳型プールから、核酸分子を特異的に増幅することを含む、請求項1〜21の何れか一項に記載の方法。
  23. 増幅が、プライマーからのヌクレオチド伸長によって行われる、請求項22に記載の方法。
  24. 増幅がPCRによって行われる、請求項23に記載の方法。
  25. 増幅が、非特異的プライマー部位の後の少なくとも1つ、又は少なくとも2つ、又は少なくとも2つの隣接する異なるヌクレオチドを選択するプライマーを用いて行われ、これにより、前記選択されたヌクレオチドを、或るサブプールに特異的な核酸弁別特徴として含む核酸分子が増幅される、請求項23又は24に記載の方法。
  26. サブプール特異的標識を前記断片に付すことを特徴とする、請求項1〜25の何れか一項に記載の方法。
  27. 前記サブプール特異的標識が、1又は2以上のヌクレオチドである、請求項26の何れか一項に記載の方法。
  28. 前記サブプール特異的標識が、請求項2又は3に記載のシークエンシング時に共に決定される、請求項27の何れか一項に記載の方法。
  29. 前記核酸分子を増幅することを更に含む、請求項1〜28の何れか一項に記載の方法。
  30. 前記増幅が、分別の後、配列の決定の前に行われる、請求項29に記載の方法。
  31. 前記増幅がPCRによって行われ、少なくとも1つのヌクレオチド分子がPCRの飽和相に達するまで増幅される、請求項29又は30に記載の方法。
  32. 前記異なるヌクレオチド分子の少なくとも10%が、PCRの飽和相に達するまで増幅される、請求項31に記載の方法。
  33. 核酸分子を豊富に含むサブプールがシークエンシングから除外され、ここで核酸分子を豊富に含むサブプールとは、全サブプールの平均量の1000%を超える核酸分子を含むサブプールである、請求項1〜32の何れか一項に記載の方法。
  34. 核酸の分別時に、選択された1つの鎖が分別され、又は、選択された1つの鎖が標識される、請求項1〜33の何れか一項に記載の方法。
  35. 前記選択された鎖の断片も標識される、請求項34に記載の方法。
JP2012542561A 2009-12-11 2010-12-10 Rna分析方法 Active JP5926189B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09178923A EP2333104A1 (en) 2009-12-11 2009-12-11 RNA analytics method
EP09178923.0 2009-12-11
PCT/EP2010/069382 WO2011070155A1 (en) 2009-12-11 2010-12-10 Rna analytics method

Publications (2)

Publication Number Publication Date
JP2013513373A JP2013513373A (ja) 2013-04-22
JP5926189B2 true JP5926189B2 (ja) 2016-05-25

Family

ID=41796563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542561A Active JP5926189B2 (ja) 2009-12-11 2010-12-10 Rna分析方法

Country Status (7)

Country Link
US (1) US20120238457A1 (ja)
EP (2) EP2333104A1 (ja)
JP (1) JP5926189B2 (ja)
CN (1) CN102782152A (ja)
AU (1) AU2010329825B2 (ja)
CA (1) CA2782766A1 (ja)
WO (1) WO2011070155A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LT2756098T (lt) 2011-09-16 2018-09-10 Lexogen Gmbh Nukleorūgščių molekulių bibliotekos sudarymo būdas
CN104781415A (zh) * 2012-06-28 2015-07-15 卡尔德拉健康有限责任公司 用于诊断前列腺癌的靶向RNA-Seq的方法和材料
KR102282863B1 (ko) * 2013-02-20 2021-07-27 에모리 유니버시티 혼합물 중 핵산의 서열분석 방법 및 그와 관련된 조성물
EP2868752A1 (en) 2013-10-31 2015-05-06 Lexogen GmbH Nucleic acid copy number determination based on fragment estimates
WO2016005524A1 (en) * 2014-07-09 2016-01-14 Lexogen Gmbh Methods and products for quantifying rna transcript variants

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0534858T4 (da) 1991-09-24 2005-08-08 Keygene Nv Selektiv restriktionsfragmentamplifikation: en general fremgangsmåde til DNA-fingeraftryk-dannelse
HU214640B (hu) 1994-04-25 1998-04-28 Bayer Ag. N-(ciano-fenil)-uracil-származékok, előállításuk és alkalmazásuk, valamint hatóanyagként ezeket a vegyületeket tartalmazó herbicid és inszekticid készítmények
US5962271A (en) 1996-01-03 1999-10-05 Cloutech Laboratories, Inc. Methods and compositions for generating full-length cDNA having arbitrary nucleotide sequence at the 3'-end
US6261770B1 (en) * 1997-05-13 2001-07-17 Display Systems Biotech Aps Method to clone mRNAs
JP2004517602A (ja) * 1998-04-27 2004-06-17 シドニー キメル キャンサー センター 複雑性の減少した核酸標的およびその使用方法
DK1910562T3 (da) 2005-06-23 2011-03-21 Keygene Nv Strategier til high throughput-identificering og detektion af polymorfismer
AT502823B1 (de) 2005-11-29 2007-06-15 Seitz Alexander Dr Polynukleotid-amplifikation
US20090247415A1 (en) * 2005-12-22 2009-10-01 Keygene N.V. Strategies for trranscript profiling using high throughput sequencing technologies
WO2008093098A2 (en) * 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US8298768B2 (en) * 2007-11-29 2012-10-30 Complete Genomics, Inc. Efficient shotgun sequencing methods

Also Published As

Publication number Publication date
CA2782766A1 (en) 2011-06-16
CN102782152A (zh) 2012-11-14
AU2010329825B2 (en) 2015-05-28
EP2510114B1 (en) 2016-04-20
EP2510114A1 (en) 2012-10-17
WO2011070155A1 (en) 2011-06-16
EP2333104A1 (en) 2011-06-15
US20120238457A1 (en) 2012-09-20
JP2013513373A (ja) 2013-04-22
AU2010329825A1 (en) 2012-06-21

Similar Documents

Publication Publication Date Title
US9334532B2 (en) Complexity reduction method
Wong et al. Multiplex Illumina sequencing using DNA barcoding
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
Meyer et al. From micrograms to picograms: quantitative PCR reduces the material demands of high-throughput sequencing
CN113661249A (zh) 用于分离无细胞dna的组合物和方法
US10373705B2 (en) Providing nucleotide sequence data
JP2020014478A (ja) Rna転写産物バリアントを定量するための方法及び製品
JP6125731B2 (ja) 核酸分子数計測法
CN107002120B (zh) 测序方法
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
JP5926189B2 (ja) Rna分析方法
JP2018527928A (ja) 次世代シークエンシングのための高分子量dnaサンプル追跡タグ
CN108359723B (zh) 一种降低深度测序错误的方法
CN103374759B (zh) 一种检测肺癌转移标志性snp的方法及其应用
CN114875118A (zh) 确定细胞谱系的方法、试剂盒和装置
CN116065240A (zh) 一种高通量构建rna测序文库的方法及试剂盒
JP7152599B2 (ja) 塩基配列決定のためのモジュール式およびコンビナトリアル核酸試料調製のためのシステムおよび方法
US11866765B2 (en) Composition for improving molecular barcoding efficiency and use thereof
JP7141165B1 (ja) 変異プロファイリングのためのrnaプローブ及びその使用
KR101967879B1 (ko) 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
Pal et al. RNA Sequencing (RNA-seq)
Ready RNA-SEQ Analysis of Localized MST1/STK4 Expression in Prostate Cancer
Patwardhan Massively parallel functional dissection of regulatory elements

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160421

R150 Certificate of patent or registration of utility model

Ref document number: 5926189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250