DNA配列アセンブリおよびフェーズド配列決定の促進における使用のための鋳型DNAバーコード付けを実施するための方法、キットおよびシステムが、本明細書で開示される。ある場合には、その方法は、試料から抽出されたDNAを断片化し;鋳型DNAの少なくとも第1末端に親和性タグを付加し;少なくとも第1バーコード開始プライマーをタグ付けされた鋳型DNA核酸にハイブリダイズさせ、ここで、少なくとも第1バーコード開始プライマーは、少なくとも鋳型DNA核酸にハイブリダイズする第1配列領域およびさらにバーコード開始部位、例えばバーコード開始因子配列、バーコード開始因子部分または“スプリント”分子にハイブリダイズするための共通のリンカー配列を含む第2配列領域を含み;ポリメラーゼ伸長反応を実施して少なくとも鋳型DNA核酸の全部または一部にアニーリングする相補的DNAの第1鎖を作製し、続いてスプリットプール合成の連続的なラウンドを実施して2以上のコード単位を相補的DNAのそれぞれのアニーリングした鎖に付加して独特のバーコードを作製し、それは、少なくとも相補的DNAの第1鎖がそれから合成された個々の鋳型DNAフラグメントを同定するために役立つ(図1A~C)。好都合には、開示されるDNAにバーコードを付ける方法は、バーコード付け、増幅および配列決定前の個々の鋳型DNA核酸の個々の区画中への分配を必要としない。本明細書において、DNAにバーコードを付ける方法を実施するために必要とされる試薬およびDNAにバーコードを付ける方法を実施するように設計されたシステムを含むキットも、開示される。
ある場合には、開示される方法は、配列アセンブリ、例えばゲノムDNA配列アセンブリを促進するために用いられることができる。例えば、ある場合には、複数のバーコードを付けられた相補的DNA配列(または複数のバーコードを付けられた相補的DNA配列の“セット”)が、それぞれの個々の鋳型DNA核酸から、鋳型DNA核酸に沿って多数の部位においてプライミングし、アニーリングしたプライマーのそれぞれに関してポリメラーゼ伸長反応を実施して鋳型DNA核酸の少なくとも一部に相補的であるDNAを合成し、続いてスプリットプール合成アプローチを用いて2以上のコード単位をアニーリングしたプライマーに相補的な配列のそれぞれに付加して、バーコードを付けられた相補的DNA配列のそれぞれのセットがそれから調製された個々の鋳型DNA核酸の同一性をコードする独特のバーコードを作製することにより調製されることができる。バーコードを付けられた相補的DNA配列の増幅および配列決定後、それぞれの配列に関するバーコード配列領域は、それぞれの鋳型DNA核酸に関する相補的DNA配列のセットを同定およびアラインメントするために用いられることができ、それにより現代的な高スループット配列決定技術に関する典型的な読みの長さよりはるかに大きいDNA核酸に関する効率的なロングレンジ配列アセンブリおよび配列決定を可能にする。
ある場合には、開示される方法は、フェーズド配列決定、反復配列を含有する長いDNA鎖のアセンブリ、染色体の逆位、欠失または挿入の解明、短い配列の読みの限界の克服およびハプロタイプの同定を促進するために用いられることができる。例えば、短い配列の読みは、癌における重要な染色体の違い、例えば逆位、転座または重複を解明することができない。これらに関して、重複した領域または逆位/転座に及ぶ長い配列の読みが、DNAをその正確な染色体位置の文脈中に正確に“配置する”ために必要とされる。ハプロタイプ決定に関して、全ゲノム配列決定は、典型的には、異なる相同染色体、例えば母系および父系の遺伝系統由来の相同染色体上に存在する配列バリアント、例えば一塩基多型(SNP)、挿入、欠失および/または変異を識別することなく単一のコンセンサス配列を生成する。フェーズド配列決定は、どの遺伝的バリアントが同じまたは異なる染色体上に見られ、従って一緒にまたは別々に受け継がれるかを決定することにより、この限界に取り組む。遺伝的バリエーションのパターン、例えばハプロタイプ(すなわち切れ目のない(contiguous)ブロックとして受け継がれる配列バリアントの群)に関する情報は、遺伝的に受け継がれる形質および遺伝病の理解において重要であり、特定の遺伝子のコピー数に関する情報も、重要である。フェーズド配列決定は、ハプロタイプを決定する、ならびに新規の変異の存在を同定するためのアプローチを提供し、従って集団遺伝学および遺伝病の研究において適用を有する。
ある場合には、開示される方法を用いて作製されるバーコード配列は、増幅および配列決定反応を実施する前に個々のDNA鎖または染色体を別々の区画中に分配する必要なく同じDNA鎖および/または同じ染色体と関係しているDNA配列(またはその相補配列)を同定するために用いられることができる。ある場合には、バーコード情報は、増幅および配列決定反応を実施する前に個々のDNA鎖または染色体を別々の区画中に分配する必要なく同じDNA鎖および/または同じ染色体と関係しているDNA配列(またはその相補配列)を同定するために1以上の既知のマーカー遺伝子配列と合わせて用いられることができる。ある場合には、次いで特定の遺伝子バリアントのフェージングに関する結論が引き出されることができる。そのような情報は、ハプロタイプ、すなわち同じ核酸鎖上または異なる核酸鎖上に存在する遺伝的バリアントの特定されたセットを同定するために有用である可能性がある。ある場合には、1以上の特定された既知の遺伝子配列と関係する独特のバーコードの数の決定が、それらの遺伝子に関するコピー数のバリエーションを同定するために用いられることができる。
定義:別途定義されない限り、本明細書で用いられる全ての技術用語は、本開示が属する分野における当業者により一般的に理解されている意味と同じ意味を有する。本明細書および添付された特許請求の範囲において用いられる際、単数形“a”、“an”および“the”は、文脈が別途明確に指示しない限り、複数への言及を含む。本明細書における“または”へのあらゆる言及は、別途記載されない限り“および/または”を包含することが意図されている。
試料:本明細書で開示される方法、キットおよびシステムは、血液、細胞、細胞懸濁液、細胞内小器官、組織試料等を含むがそれらに限定されない様々な試料のいずれから抽出されたDNA(または他の核酸分子)の分析に関しても用いられることができる。
核酸:用語“核酸”は、ヌクレオチドポリマーまたはそのフラグメントを指し、別途限定されない限り、天然存在ヌクレオチドと類似の様式で機能する(例えばハイブリダイズする)ことができる天然ヌクレオチドの既知の類似体を含む。例えば、本明細書で開示される方法、キットおよびシステムは、ゲノムDNA、染色体DNA、ミトコンドリアDNA、RNA、メッセンジャーRNA(mRNA)、転移RNA(tRNA)またはRNA、mRNAもしくはtRNAの逆転写により合成された相補的DNA(cDNA)等を含むがそれらに限定されないDNAまたはDNA以外の核酸分子の分析に関して用いられることができる。
DNA抽出および断片化:様々な生物学的試料からのDNA抽出は、当業者に既知のあらゆる数の技法を用いて実施されることができる。典型的なDNA抽出手順は、以下の工程を含む:(i)DNAが抽出されるべき細胞試料または組織試料の収集、(ii)DNAおよび他の細胞質性構成要素を放出させるための細胞膜の破壊(すなわち細胞溶解)、(iii)タンパク質、脂質およびRNAを沈殿させるための溶解した試料の濃縮塩溶液による処理、続いて沈殿したタンパク質、脂質およびRNAを分離するための遠心分離、ならびに(iv)洗浄剤、タンパク質、塩類または細胞膜溶解工程の間に用いられた他の試薬を除去するための上清からのDNAの精製。
細胞膜の破壊は、様々な機械的剪断(例えばフレンチプレスまたは微細な針を通過させることによる)または超音波破壊技術を用いて実施されることができる。細胞溶解工程は、しばしば脂質、細胞膜および核膜を溶解させるための洗浄剤および界面活性剤の使用を含む。ある場合には、溶解(1ysis)工程は、さらに試料中のタンパク質を分解するためのプロテアーゼの使用および/またはRNAの消化のためのRNアーゼの使用を含むことができる。
DNA精製に関する適切な技法の例は、以下の技法が含まれるが、それらに限定されない:(i)氷冷エタノールまたはイソプロパノール中での沈殿、続いて遠心分離(DNAの沈殿は、イオン強度を増大させることにより、例えば酢酸ナトリウムの添加により増進されることができる)、(ii)フェノール-クロロホルム抽出、続いて核酸を含有する水相を変性したタンパク質を含有する有機相から分離するための遠心分離、ならびに(iii)固相クロマトグラフィー、ここで、核酸は、緩衝液のpHおよび塩濃度に依存して固相(例えばシリカ等)に吸着する。
ある場合には、DNAに結合した細胞性タンパク質およびヒストンタンパク質は、プロテアーゼを添加することによるかまたはタンパク質を酢酸ナトリウムもしくはアンモニウムで沈殿させることによるかまたはDNA沈殿工程の前のフェノール-クロロホルム混合物による抽出によるかのいずれかで除去されることができる。
ある場合には、DNAは、様々な適切な商業的DNA抽出および精製キットのいずれか用いて抽出されることができる。例は、Qiagen(メリーランド州ジャーマンタウン)からのQIAamp(ヒト試料からのゲノムDNAの単離に関する)ならびにDNAeasy(動物または植物試料からのゲノムDNAの単離に関する)キットまたはPromega(ウィスコンシン州マディソン)からのMaxwell(登録商標)およびReliaPrep(商標)シリーズのキットを含むが、それらに限定されない。
単離後、DNAは、典型的にはわずかにアルカリ性の緩衝液、例えばトリス-EDTA(TE)緩衝液中または超純水中で溶解させられる。必要である場合、追加のDNA断片化が、機械的断片化(例えば超音波処理、針剪断、噴霧、ポイントシンク(point-sink)剪断または圧力セルの通過を用いる)または酵素消化技法(例えば制限酵素またはエンドヌクレアーゼの使用による)を用いて実施されることができる。
開示されるDNAにバーコードを付ける方法における使用に適した鋳型DNA核酸またはフラグメントは、現行の高スループット配列決定技術により典型的に用いられる鋳型DNA核酸またはフラグメントよりも実質的に長いことができる。ある場合には、鋳型DNA核酸の平均の長さは、約25塩基(一本鎖DNAに関してはヌクレオチド、または二本鎖DNAに関しては塩基対)~約100キロ塩基の範囲であることができる。ある場合には、鋳型DNA核酸の平均の長さは、少なくとも25塩基、少なくとも50塩基、少なくとも75塩基、少なくとも100塩基、少なくとも250塩基、少なくとも500塩基、少なくとも750塩基、少なくとも1,000塩基、少なくとも10キロ塩基、少なくとも20キロ塩基、少なくとも30キロ塩基、少なくとも40キロ塩基、少なくとも50キロ塩基、少なくとも60キロ塩基、少なくとも70キロ塩基、少なくとも80キロ塩基、少なくとも90キロ塩基または少なくとも100キロ塩基であることができる。ある場合には、鋳型DNAフラグメントの平均の長さは、最大でl00キロ塩基、最大で90キロ塩基、最大で80キロ塩基、最大で70キロ塩基、最大で60キロ塩基、最大で50キロ塩基、最大で40キロ塩基、最大で30キロ塩基、最大で20キロ塩基、最大で10キロ塩基、最大で1,000塩基、最大で750塩基、最大で500塩基、最大で250塩基、最大で100塩基、最大で75塩基、最大で50塩基または最大で25塩基であることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、鋳型DNAフラグメントの平均の長さは、約750塩基~約20キロ塩基の範囲であることができる。当業者は、鋳型DNAフラグメントの平均の長さはこの範囲内のあらゆる値、例えば約4.5キロ塩基を有することができることを認識しているであろう。
鋳型DNAフラグメントおよび会合した相補鎖の精製のための親和性タグ:ある場合には、鋳型DNA核酸は、その後の分離および精製工程を容易にするために親和性タグで標識されることができる。当業者に既知の様々な親和性タグのいずれも用いられることができる。例えば、ある場合には、変性した(一本鎖)鋳型DNAの3’末端が、アビジンまたはストレプトアビジン捕捉技法を用いる分離および精製工程を容易にするためにビオチン部分で標識されることができる。変性した(一本鎖)DNAの3’標識は、当業者に既知の様々な技法を用いて成し遂げられることができる。例は、ターミナルデオキシヌクレオチジルトランスフェラーゼ(TdTまたは“ターミナルトランスフェラーゼ”)による一本鎖DNAの3’-OH末端における鋳型に方向付けられないヌクレオチド組み込みを含むが、それに限定されない。TdTは、一本鎖DNAに強い選好性を示すが、3’オーバーハングを有する二重鎖DNAおよび平滑二重鎖もより低い効率で標識するであろう。TdTは、一本鎖DNAの3’末端における修飾ヌクレオチド、例えばビオチン化ヌクレオチドの組み込みに有用である。一本鎖DNA核酸の3’末端におけるビオチンによる標識は、商業的なキット、例えばPierce-ビオチン3’末端DNA標識キット、カタログ番号89818(ThermoFisher Scientific,マサチューセッツ州ウォルサム)を用いて実施されることができる。
ビオチン化された分子、例えばビオチン化DNA核酸は、当業者に既知のいくつかの技法のいずれかを用いて親和性精製されることができる。典型的には、ビオチン化された種は、固定されたアビジンもしくはストレプトアビジンタンパク質またはそれらのサブドメインを含む樹脂またはビーズベースのマトリックス上を通過させられ、ビオチン部分およびアビジンもしくはストレプトアビジン結合ポケットの間の強い非共有結合的相互作用が、ビオチン化された種の反応混合物の他の構成要素からの分離を可能にする。一部のビオチン類似体、例えばデスチオビオチンは、アビジン様タンパク質に可逆的に結合し、より厳しくない溶離条件を用いるアビジン様タンパク質からのビオチン化された分子の溶離を可能にする。
ビオチン化またはデスチオビオチン化されたタンパク質、ペプチド、オリゴヌクレオチドまたは他の分子の精製のための親和性精製樹脂および他の親和性ベースの捕捉製品は、典型的にはアビジン、ストレプトアビジン、NeutrAvidin(商標)もしくはCaptAvidin(商標)タンパク質またはそれらのサブドメインを含み、ビーズベースの樹脂、コートされた磁性ビーズ、スピンカラム、コートされたマイクロプレートおよびリガンド特異的キットを含むがそれらに限定されない様々な形式で入手可能である。CaptAvidin(商標)(ThermoFisher Scientific,カタログ番号C21 386)は、そのビオチン結合部位中にニトロ化チロシンを含有するビオチン結合タンパク質である。この化学修飾は、従来のアビジン-ビオチン複合体よりも穏やかな条件下でのアビジン-ビオチン複合体の解離も可能にする。
相補的DNA鎖の合成のためのバーコード開始プライマー:鋳型DNAフラグメントの全部または一部に対して相補的な配列を含む相補的DNA鎖は、プライマー伸長反応を実施することにより合成されることができる。ある場合には、複数のバーコード開始プライマーを適切なハイブリダイゼーション条件下でそれぞれの鋳型DNAに(すなわち鋳型DNAに沿った多数の部位において)ハイブリダイズさせることができ、複数のバーコードを付けられた相補的DNA配列または鎖(またはバーコードを付けられた相補的DNA配列もしくは鎖の“セット”)が、アニーリングしたプライマーのそれぞれに関してポリメラーゼ伸長反応を実施して鋳型DNA核酸の全部または一部に相補的であるDNAを合成することにより調製されることができる(図1A~C)。
ある場合には、適切なアニーリング条件下でそれぞれの鋳型DNA核酸に結合したバーコード開始プライマーの平均数は、必要に応じて変動することができる。ある場合には、バーコード開始プライマーは、鋳型DNA核酸に平均で50塩基対ごと~10,000塩基対ごとに結合することができる。より高頻度な結合は、ゲノムのより完全な配列決定カバー度を促進する。ある場合には、バーコード開始プライマーは、鋳型DNA核酸に平均で少なくとも50塩基対ごと、少なくとも100塩基対ごと、少なくとも500塩基対ごと、少なくとも1,000塩基対ごと、少なくとも2,000塩基対ごと、少なくとも3,000塩基対ごと、少なくとも4,000塩基対ごと、少なくとも5,000塩基対ごと、少なくとも6,000塩基対ごと、少なくとも7,000塩基対ごと、少なくとも8,000塩基対ごと、少なくとも9,000塩基対ごと、または少なくとも10,000塩基対ごとに結合することができる。ある場合には、バーコード開始プライマーは、鋳型DNA核酸に平均で最大で10,000塩基対ごと、最大で9,000塩基対ごと、最大で8,000塩基対ごと、最大で7,000塩基対ごと、最大で6,000塩基対ごと、最大で5,000塩基対ごと、最大で4,000塩基対ごと、最大で3,000塩基対ごと、最大で2,000塩基対ごと、最大で1,000塩基対ごと、最大で500塩基対ごと、最大で100塩基対ごと、または最大で50塩基対ごとに結合することができる。この段落において記載された下限および上限値のいずれかが組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、バーコード開始プライマーは、鋳型DNA核酸配列に平均で500塩基対ごと~4,000塩基対ごとに結合することができる。当業者は、バーコード開始プライマーがこの範囲内のあらゆる値を有する頻度で、例えば平均で約5,250塩基対ごとに鋳型DNA核酸に結合することができることを認識しているであろう。
ある場合には、それぞれの鋳型DNA核酸に結合したバーコード開始プライマーの平均数は、少なくともl、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45または少なくとも50であることができる。ある場合には、それぞれの鋳型DNA核酸に結合したバーコード開始プライマーの平均数は、最大で50、最大で45、最大で40、最大で35、最大で30、最大で25、最大で20、最大で15、最大で10、最大で5、最大で4、最大で3、最大で2または最大で1であることができる。この段落において記載された下限および上限値のいずれかが組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、それぞれの鋳型DNA核酸に結合したバーコード開始プライマーの平均数は、約5~約30の範囲であることができる。当業者は、それぞれの鋳型DNA核酸に結合したバーコード開始プライマー核酸の平均数はこの範囲内のあらゆる値、例えば約12を有することができることを認識しているであろう。
一般に、開示されるDNAにバーコードを付ける方法において用いられるバーコード開始プライマーは、鋳型DNAフラグメントにハイブリダイズすることができる第1配列領域およびバーコード開始部位、例えばバーコード開始因子配列、バーコード開始因子部分または“スプリント”分子にハイブリダイズするための共通のリンカー配列を含む第2配列領域を含むことができる。ある場合には、第1配列領域は、鋳型DNA核酸にハイブリダイズすることができるランダム、準ランダムまたは標的特異的配列を含むことができる。ある場合には、開示されるDNAにバーコードを付ける方法において用いられるバーコード開始プライマーは、さらに少なくとも第3配列領域を含むことができ、ここで、少なくとも第3配列領域は、検出可能な標識を取り付けるためのリンカー配列、第1配列領域および第2配列領域を分離するために用いられるスペーサー配列、増幅プライマー結合部位、配列決定プライマー結合部位またはそれらのあらゆる組み合わせを含むことができる。
ランダムプライミング:ある場合には、一本鎖鋳型DNAの相補鎖を合成するためのポリメラーゼ伸長反応は、ランダムプライミングアプローチを用いて、例えばバーコード開始プライマーの第1配列領域に関するランダム配列の短いオリゴヌクレオチド領域(すなわち“ランダムバーコード開始プライマー”)を用いて実施されることができ、それは、鋳型DNAを任意の位置で認識し、結合してそれにより適切なDNAポリメラーゼ(例えばクレノウポリメラーゼ)がアニーリングしたランダムプライマーの3’-OH末端においてヌクレオチドを組み込むことを可能にする。ある場合には、ランダムプライマー配列領域の長さは、約4ヌクレオチド~約12ヌクレオチドの範囲であることができ、すなわち、そのアニーリング温度における安定なハイブリダイゼーションを提供するために十分に長く、かつそのプライマーが多数の部位において鋳型DNAを認識して結合するであろうように十分に短い。ある場合には、ランダムプライマー配列領域の長さは、少なくとも4ヌクレオチド、少なくとも6ヌクレオチド、少なくとも8ヌクレオチド、少なくとも10ヌクレオチドまたは少なくとも12ヌクレオチドであることができる。ある場合には、ランダムプライマー配列領域の長さは、最大で12ヌクレオチド、最大で10ヌクレオチド、最大で8ヌクレオチド、最大で6ヌクレオチドまたは最大で4ヌクレオチドであることができる。用いられる、または必要とされるヌクレオチドの数は、アニーリングの温度および/またはアニーリングした生成物の融解温度に影響を及ぼす溶媒条件により変動し得る。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、ランダムプライマー配列領域の長さは、約4ヌクレオチド~約8ヌクレオチドの範囲であることができる。当業者は、ランダムプライマー配列領域の長さはこの範囲内のあらゆる値、例えば約7ヌクレオチドを有することができることを認識しているであろう。
ある場合には、ランダムバーコード開始プライマーは、分子の3’末端付近に配置されたランダム第1配列領域(例えば“NNNNNN”)を含むことができ、ここで、NNNNNNは、ランダムな6ヌクレオチド配列である。ある場合には、ランダムバーコード開始プライマーは、分子の5’末端付近に配置された増幅プライマー結合部位および/または配列決定プライマー領域(例えばIllumina配列決定プライマー配列)を含むことができる。上記で示されたように、ランダムプライマーは、さらに分子の5’末端付近に配置された第2配列領域を含むことができ、それは、さらにバーコード開始部位、例えばバーコード開始因子配列、バーコード開始因子部分または“スプリント”分子にハイブリダイズするための共通リンカー配列を含む。ある場合には、ランダム第1配列領域、増幅および/もしくは配列決定プライマー結合領域ならびに/または第2配列領域は、1以上のスペーサー配列により隔てられていることができる。
準ランダムプライミング:ある場合には、一本鎖鋳型DNAの相補鎖を合成するためのポリメラーゼ伸長反応は、準ランダムプライミングアプローチを用いて、例えばバーコード開始プライマーの第1配列領域に関して準ランダム配列を含む短いオリゴヌクレオチド(すなわち“準ランダムバーコード開始プライマー”)を用いて実施されることができ、それは、鋳型DNAを準任意の(semi-arbitrary)位置において調節可能な頻度で認識して結合し、それにより適切なDNAポリメラーゼ(例えばクレノウポリメラーゼ)がアニーリングした準ランダムプライマーの3’-OH末端においてヌクレオチドを組み込むことを可能にする。ある場合には、準ランダムプライマー配列領域の長さは、約4ヌクレオチド~約12ヌクレオチドの範囲であることができ、すなわち、そのアニーリング温度における安定なハイブリダイゼーションを提供するために十分に長く、かつそのプライマーが多数の部位において鋳型DNAを認識して結合するであろうように十分に短い。ある場合には、準ランダムプライマー配列領域の長さは、少なくとも4ヌクレオチド、少なくとも6ヌクレオチド、少なくとも8ヌクレオチド、少なくとも10ヌクレオチドまたは少なくとも12ヌクレオチドであることができる。ある場合には、準ランダムプライマー配列領域の長さは、最大で12ヌクレオチド、最大で10ヌクレオチド、最大で8ヌクレオチド、最大で6ヌクレオチドまたは最大で4ヌクレオチドであることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、準ランダムプライマー配列領域の長さは、約4ヌクレオチド~約8ヌクレオチドの範囲であることができる。当業者は、準ランダムプライマー配列領域の長さはこの範囲内のあらゆる値、例えば約7ヌクレオチドを有することができることを認識しているであろう。
ある場合には、準ランダムプライマー配列の非ランダム部分は、約2~約4ヌクレオチド長の範囲であることができる。用いられる非ランダムヌクレオチド配列の選択は、平均でどれくらいの頻度で準ランダムプライマーが鋳型DNAに結合することができるかを決定するであろう。例えば、配列XXXCCC(ここで、Xは、ランダムヌクレオチドである)は、鋳型DNAのGC含量に依存して平均で64塩基対ごとに1回結合するであろう。
ある場合には、準ランダムバーコード開始プライマーは、分子の3’末端付近に配置された準ランダム第1配列領域(例えば“NNNGAG”を含むことができ、ここで、NNNは、ランダムな3ヌクレオチド配列である。ある場合には、準ランダムバーコード開始プライマーは、分子の5’末端付近に配置された増幅プライマー結合部位および/または配列決定プライマー領域(例えばIllumina配列決定プライマー配列)を含むことができる。上記で示されたように、準ランダムバーコード開始プライマーは、さらに分子の5’末端付近に配置された第2配列領域を含むことができ、それは、さらにバーコード開始部位、例えばバーコード開始因子配列、バーコード開始因子部分または“スプリント”分子にハイブリダイズするための共通リンカー配列を含む。ある場合には、準ランダム第1配列領域、増幅および/もしくは配列決定プライマー結合領域ならびに/または第2配列領域は、1以上のスペーサー配列により隔てられていることができる。
ある場合には、準ランダム配列領域は、(M)i(X)j(N)kの形態のものであることができ、ここで、(M)iおよび(N)kは、それぞれ長さiおよびkのあらゆるランダムヌクレオチド配列であり、かつここで、(X)jは、一連の指定された部分配列(sub-sequence)位置(単数または複数)において鋳型DNA核酸配列を補う(complement)ように選択された長さjの特定のオリゴヌクレオチド配列である。典型的には、iおよびkの値は、0~6の範囲であることができ、jの値は、3~6の範囲であることができる。ある場合には、準ランダム配列領域は、既知または部分的に既知の鋳型DNA核酸配列の3’末端に関して指定された位置において指定された鋳型DNA核酸配列に相補的であるように設計されることができ、それによりおおよそZヌクレオチド長である増幅産物を生成し、ここで、Zの値は、典型的には50~1000の範囲であることができる。
バーコード開始配列領域:上記で示されたように、ある場合には、複数のバーコード開始プライマーを適切なハイブリダイゼーション条件下でそれぞれの鋳型DNAフラグメントに(すなわち鋳型DNA核酸に沿った多数の部位において)ハイブリダイズさせることができ、続いて複数のバーコードを付けられた相補的DNA配列(またはバーコードを付けられた相補的DNA配列の“セット”)が、まずアニーリングしたプライマーのそれぞれにおいてポリメラーゼ伸長反応を実施し、次いで多数ラウンドのスプリットプール合成を実施してバーコードを付けられた相補的DNA配列のセットがそれから生じた個々の鋳型DNA核酸を同定するバーコードを作製することにより合成されることができる(図1A~Cおよび2)。バーコードの作製は、複数のバーコード開始プライマーが、さらにバーコード開始部位、例えばバーコード開始因子配列、バーコード開始因子部分または“スプリント”分子にハイブリダイズするための共通リンカー配列を含む第2配列領域を含むことを必要とする。当業者に既知の様々なバーコード合成開始技法が、用いられることができる。ある場合には、例えば、バーコード開始因子配列は、その後3’アルキン末端オリゴヌクレオチドコード単位および鋳型または非鋳型クリック化学(El-Sagheer, et al. (2011), “Biocompatible Artificial DNA Linker That is Read Through by DNA Polymerases and is Functional in Escherichia coli”, PNAS 108(28):11338-11343)と共に使用してDNA核酸バーコードを組み立てるための5’アジド末端ヌクレオチドを含むことができる。ある場合には、バーコード開始因子部分は、例えば第一級アミン、カルボキシル基、チオール基等で官能化されている修飾ヌクレオチドを含むことができ、それは、DNA核酸バーコードを組み立てるためのその後のアミノ酸またはペプチドコード単位の共有結合的コンジュゲーションのための開始部位の役目を果たす。ある場合には、プライマーの第2配列領域は、やはりオリゴヌクレオチドコード単位に結合した共通リンカー(liner)配列に相補的である“スプリント”分子(例えば短いオリゴヌクレオチド配列)へのプライマーのアニーリングを可能にする共通リンカー配列を含むことができる。次いで、プライマー、スプリントおよびコード単位オリゴのアニーリングは、プライマーおよびコード単位オリゴを、それらがライゲーションにより連結されることができるように配置し、そしてアニーリング、ライゲーションおよび変性の繰り返されるサイクルが、DNA核酸バーコードを組み立てるために用いられることができる。細胞由来オリゴヌクレオチドバーコード配列を組み立てるためのスプリント(または“鋳型”)の使用が、同時係属中のPCT出願国際公開第2012/106385号において記載されている。
プライマー結合部位:ある場合には、増幅および/または配列決定プライマー結合部位領域は、約18~約30ヌクレオチド長、好ましくは約20~25ヌクレオチド長の範囲であることができ、65℃~75℃の融点(Tm)を有する。より大きいGC含量またはより長い長さを有する配列の使用は、Tmをより高い温度にシフトさせるであろう。典型的には、プライマー配列のGC含量は、40%~60%であり、プライマーの3’末端は、結合を促進するためにCまたはGで終わるであろう。ある場合には、配列決定プライマー結合部位は、Illumina配列決定プライマーに相補的である配列を含むことができる。
スペーサーまたはリンカー配列:ある場合には、開示されるDNAにバーコードを付ける方法において用いられるバーコード開始プライマーは、さらに第1および第2配列領域を隔てるために、または検出可能な標識の取り付けのために用いられるスペーサー配列またはリンカー配列を含むことができる。一般に、スペーサーおよび/またはリンカー配列の長さは、約2ヌクレオチド~約20ヌクレオチドの範囲であることができる。ある場合には、スペーサーおよび/またはリンカー配列の長さは、少なくとも2ヌクレオチド、少なくとも4ヌクレオチド、少なくとも6ヌクレオチド、少なくとも8ヌクレオチド、少なくとも10ヌクレオチド、少なくとも12ヌクレオチド、少なくともl4ヌクレオチド、少なくとも16ヌクレオチド、少なくとも18ヌクレオチドまたは少なくとも20ヌクレオチドであることができる。ある場合には、スペーサー配列および/またはリンカー配列の長さは、最大で20ヌクレオチド、最大で18ヌクレオチド、最大で16ヌクレオチド、最大で14ヌクレオチド、最大で12ヌクレオチド、最大で10ヌクレオチド、最大で8ヌクレオチド、最大で6ヌクレオチド、最大で4ヌクレオチドまたは最大で2ヌクレオチドであることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、スペーサー配列および/またはリンカー配列の長さは、約4ヌクレオチド~約16ヌクレオチドの範囲であることができる。当業者は、スペーサーおよび/またはリンカー配列の長さはこの範囲内のあらゆる値、例えば約7ヌクレオチドを有することができることを認識しているであろう。
バーコード開始プライマーの全体の長さ:ランダム、準ランダムまたは標的化されたバーコード開始プライマーは、標的(例えば鋳型DNA)に相補的である領域の長さおよび共通リンカー配列、ランダム配列領域、増幅または配列決定プライマー結合配列等を組み込むために用いられる追加の配列領域の長さを含む。ある場合には、開示されるDNAにバーコードを付ける方法において用いられるランダム、準ランダムまたは標的化されたバーコード開始プライマー分子の全体の長さは、約5ヌクレオチド~約80ヌクレオチドの範囲であることができる。ある場合には、バーコード開始プライマーの長さは、少なくとも5ヌクレオチド、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも25ヌクレオチド、少なくとも35ヌクレオチド、少なくとも40ヌクレオチド、少なくとも45ヌクレオチド、少なくとも50ヌクレオチド、少なくとも55ヌクレオチド、少なくとも60ヌクレオチド、少なくとも65ヌクレオチド、少なくとも70ヌクレオチド、少なくとも75ヌクレオチドまたは少なくとも80ヌクレオチドであることができる。ある場合には、バーコード開始プライマーの長さは、最大で80ヌクレオチド、最大で75ヌクレオチド、最大で70ヌクレオチド、最大で65ヌクレオチド、最大で60ヌクレオチド、最大で55ヌクレオチド、最大で50ヌクレオチド、最大で45ヌクレオチド、最大で40ヌクレオチド、最大で35ヌクレオチド、最大で30ヌクレオチド、最大で25ヌクレオチド、最大で20ヌクレオチド、最大で15ヌクレオチド、最大で10ヌクレオチドまたは最大で5ヌクレオチドであることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、バーコード開始プライマーの長さは、約10ヌクレオチド~約40ヌクレオチドの範囲であることができる。当業者は、バーコード開始プライマーの長さはこの範囲内のあらゆる値、例えば約28ヌクレオチドを有することができることを認識しているであろう。
相補的DNA鎖の合成:上記で特筆されたように、鋳型DNA核酸の全部または一部に対する相補的配列を含む相補的DNA鎖は、プライマー伸長反応を実施することにより、すなわち鋳型DNAにアニーリングしたバーコード開始プライマー分子の3’-OH末端におけるヌクレオチドの組み込みにより合成されることができる。ある場合には、複数のバーコード開始プライマー分子を適切なハイブリダイゼーション条件下でそれぞれの鋳型DNA核酸にハイブリダイズさせることができ、複数のバーコードを付けられた相補的DNA配列(またはバーコードを付けられた相補的DNA配列の“セット”)が、アニーリングしたバーコード開始プライマーのそれぞれに関してポリメラーゼ伸長反応を実施して鋳型DNA核酸の全部または一部に相補的であるDNAを合成することにより調製されることができる。プライマー伸長における使用のための適切なDNAポリメラーゼの例は、DNAポリメラーゼ1のクレノウフラグメント(DNAポリメラーゼ1の5’→3’エキソヌクレアーゼ活性を欠いている)、Taqポリメラーゼ(その熱的安定性のため、ポリメラーゼ連鎖反応(PCR)ベースの方法のために一般的に用いられる)、Pfu DNAポリメラーゼ(やはりTaqポリメラーゼと比較したその優秀な熱安定性およびプルーフリーディング特性のためにPCRのために用いられる)等またはそれらの組み合わせを含むが、それらに限定されない。プライマー伸長反応は、安定なプライマー結合を維持し、用いられるポリメラーゼの活性を最適化する温度で実施され、例えばTaqポリメラーゼは、75~80℃において最適活性を有し、約72℃の反応温度がこの酵素に関して用いられる。DNAポリメラーゼは、5’→3’方向で鋳型に相補的であるデオキシヌクレオチド三リン酸(dNTP)を付加し、dNTPの5’ホスフェート基を成長している相補的DNA鎖の末端の3’ヒドロキシル基と縮合させることにより、鋳型DNA核酸に相補的な新規のDNA鎖を合成する。伸長反応の時間は、用いられるDNAポリメラーゼに応じて、そしてコピーされるべきDNA核酸の長さに応じて変動する(DNAポリメラーゼは、最適条件下で1分あたりおおよそ1000塩基を組み込む)。鋳型DNA核酸、プライマー、DNAポリメラーゼおよびdNTPに加えて、伸長反応混合物は、典型的には適切な緩衝剤、二価陽イオン、例えばマグネシウムおよび一価陽イオン、例えばカリウムイオンを含むであろう。ある場合には、伸長反応は、おおよそ0.2~0.5mlの体積を有する反応チューブ中でおおよそ10~200μlの小さい反応体積で実施されることができる。
ある場合には、ジデオキシヌクレオチド三リン酸(ddNTP)を反応混合物中に適切な濃度および/または時点で導入することにより、ランダムな位置における相補的DNA鎖のさらなる伸長を(例えば同じ鋳型DNAフラグメント上で合成されている追加の相補鎖のポリメラーゼによる置換を回避するために)妨げることが望ましい可能性がある。例えば、ddCTPの導入は、遊離の3’-OH基の非存在により鋳型DNA中の次のG残基の位置における相補的DNA鎖のさらなる伸長を妨げ、それにより成長している相補的DNA鎖を終結させるであろう。
ある場合には、例えば標的がRNAである場合、逆転写酵素(RT)が、RNA鋳型にアニーリングしたバーコード開始プライマーに関してプライマー伸長反応を実施するために用いられることができる。トリ骨髄芽球症ウイルス(AMV)逆転写酵素およびMoloneyマウス白血病ウイルス(M-MuLV、MMLV)逆転写酵素(New England Biolabs、マサチューセッツ州イプスウィッチ)を含むがそれらに限定されない当業者に既知の数種類の適切な逆転写酵素のいずれが用いられることもできる。(やはりNew England Biolabs、マサチューセッツ州イプスウィッチからの)M-MuLV逆転写酵素は、3’→5’エキソヌクレアーゼ活性を欠いている。ProtoScript(登録商標)II逆転写酵素(New England Biolabs、マサチューセッツ州イプスウィッチ)は、低減したRNアーゼH活性および増大した熱安定性を有する組み換えM-MuLV逆転写酵素であり、野生型酵素よりも高い温度で第1鎖cDNAを合成するために用いられることができる。操作されたRTの使用は、完全長産物の形成の効率を向上させ、それによりmRNA転写産物の5’末端のコピーが完全であることを確実にし、RNA鋳型配列の正確なcDNAコピーの合成および特性付けを可能にする。逆転写反応がより高い温度で実施されることができるより熱安定性のRTの使用は、高い量の二次構造を含有するRNAの転写を促進する。
DNAバーコードのスプリットプール合成:本明細書で用いられる際、句“スプリットプール合成”は、コンビナトリアル合成プロセスの1つの限定的でない例を指し、ここで、反応混合物は、カップリング反応を実施する前にいくつかの異なる分割量(aliquots)に分けられ、ここで、それぞれの分割量は、カップリングされるべき異なる化学的単量体(すなわちアッセイ可能なポリマーサブユニット(APS)またはコードサブユニット)を与えられる。カップリング反応後、分割量は、組み合わせられ(プールされ)、混合され、そしてカップリングの次のラウンドを実施する前に新しい分割量のセットへと分けられる(分割される)。一般に、そのアプローチは、完全にもしくは部分的にランダムなアミノ酸配列のより長いペプチドを生成するためのアミノ酸(または短いペプチド)カップリング反応、完全にもしくは部分的にランダムな塩基配列のより長いDNAオリゴヌクレオチドを生成するためのデオキシリボヌクレオチド(または短いDNAオリゴヌクレオチド)のカップリングまたは完全にもしくは部分的にランダムな塩基配列のより長いRNAオリゴヌクレオチドを生成するためのリボヌクレオチドのカップリングを含むがそれらに限定されない様々なカップリング反応およびコンジュゲーション化学に関して用いられることができる。従って、様々な化学的単量体、例えばアミノ酸、小分子、短いペプチド、短いオリゴヌクレオチド等のいずれも、独特のバーコードのアセンブリのための構築ブロックとして用いられることができる。好ましい態様において、スプリットプール合成の連続するラウンドにおいて用いられるAPSは、独特に設計された核酸配列を含む。本明細書で開示される鋳型DNA核酸バーコードアセンブリおよび合成法の利点は、個々の鋳型DNA核酸がバーコードアセンブリおよび合成反応を実施する前に個々の反応区画中に分配される必要がないことである。
図2の上側部分は、独特の鋳型DNA核酸バーコードの作製へのスプリットプール合成経路の第1ラウンドを図説している。それぞれの鋳型DNA核酸にアニーリングした複数のバーコード開始プライマー分子を用いる複数の相補的DNA鎖の合成の後、試料は、一連の分割量に分けられ、第1のアッセイ可能なポリマーサブユニット(APS)、例えば短いオリゴヌクレオチドコード単位が、試料分割量内のアニーリングした相補的DNA/鋳型DNA複合体のそれぞれにおけるバーコード合成開始部位にカップリングされ、ここで、それぞれの試料分割量は、異なるAPSで処理される。
図2の下側部分は、独特の鋳型DNA核酸バーコードの作製へのスプリットプール合成経路のその後のラウンドを図説している。第1APS(またはコード単位)カップリングラウンドの後、試料分割量が、プールされ、混合され、新しい一連の分割量へと分配される。次いで、第2コード単位が、アニーリングした相補的DNA/鋳型DNA複合体のそれぞれにおける第1コード単位にカップリングされ、ここで、再度それぞれの試料分割量が、異なるAPS(またはコード単位)で処理される。従って、スプリットプール合成の数回の連続するラウンドの実施は、結果として、元の試料からの個々の鋳型DNA核酸の同一性をコードする実質的に独特の鋳型DNA核酸バーコードのセットの作製をもたらす。
段階的なスプリットプールアセンブリおよび合成を実施することにより達成されることができる鋳型DNAバーコードライブラリーの多様性(すなわち理論的に可能である独特の鋳型DNA核酸バーコードの数)は、各ラウンドにおける使用に関して利用可能な独特のAPS(またはコード単位)の数および鋳型DNA核酸バーコードを組み立てるために用いられるラウンドの総数に依存する。例えば、4ラウンドのアセンブリ/合成および100の独特のAPSを用いて作製される鋳型DNAバーコードに関して(すなわち4つのAPS位置を有する鋳型DNAバーコードに関して)、可能である独特の鋳型DNAバーコード配列の総数は、1004=108または100,000,000である。あるいは、6ラウンドのアセンブリ/合成および100の独特のAPSを用いて作製される鋳型DNAバーコードに関して(すなわち6つのAPS位置を有する鋳型DNAバーコードに関して)、可能である独特の鋳型DNAバーコード配列の総数は、1006=1012または1,000,000,000,000である。一般に、利用可能な独特の配列の総数が標識されるべき個々の鋳型DNA核酸の数より有意に大きいように鋳型DNAバーコードライブラリーを設計し、それによりいずれか2つの鋳型DNA核酸が同じ鋳型DNAバーコードで標識される可能性が極めて低いことを確実にすることが望ましい。ある場合には、ゲノムの非冗長性および既知の配列アセンブリの使用があれば、より少ないバーコードを使用することができる可能性がある。
一般に、独特の鋳型DNA核酸バーコードを作製するために用いられるスプリットプール合成のラウンドの数は、約2~約40ラウンドの範囲であることができる。ある場合には、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも12、少なくとも14、少なくとも16、少なくとも18、少なくとも20、少なくとも25、少なくとも30、少なくとも35または少なくとも40ラウンドのスプリットプール合成が、実施されることができる。ある場合には、最大で40、最大で35、最大で30、最大で25、最大で20、最大で18、最大で16、最大で14、最大で12、最大で10、最大で8、最大で6、最大で4または最大で2ラウンドのスプリットプール合成が、実施されることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、実施されるスプリットプール合成のラウンドの数は、約4~約12の範囲であることができる。当業者は、実施されるスプリットプール合成のラウンドの数はこの範囲内のあらゆる値、例えば約7ラウンドを有することができることを認識しているであろう。
一般に、スプリットプール合成の各ラウンドにおけるカップリングに関して用いられる独特のAPSのプールは、約2~約200の独特のAPSを含むことができる。ある場合には、プール中の独特のAPSの数は、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも150または少なくとも200であることができる。ある場合には、プール中の独特のAPSの数は、最大で200、最大で150、最大で100、最大で100、最大で50、最大で40、最大で30、最大で20、最大で10、最大で8、最大で6、最大で4または最大で2であることができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、プール中の独特のAPSの数は、約4ヌクレオチド~約20の範囲であることができる。当業者は、プール中の独特のAPSの数はこの範囲内のあらゆる値、例えば約12の独特のAPSを有することができることを認識しているであろう。
上記で示されたように、ある場合には、鋳型DNA核酸バーコードのAPS(またはバーコードを組み立てるために用いられるコード単位)は、成長しているバーコード分子の一方の末端に連続的な線状の様式で共有結合的または非共有結合的にカップリングされる。ある場合には、APS(またはコード単位)は、一緒に縫い合わせられ(stitched)、および/またはアニーリングプライマー(すなわち鋳型分子または“スプリント”)を用いて共通リンカー(CL)配列にアニーリングさせられる(図3)。ある場合には、アニーリングプライマーは、段階的合成の前のラウンドの間に付加されたAPSに相補的である配列領域(すなわち第1相補的領域)を含むことができる。ある場合には、アニーリングプライマーは、現在のラウンドの間に付加されているAPSに相補的である第2配列領域(すなわち第2相補的領域)を含むこともできる。従って、アニーリングプライマーは、連続的なラウンドの2以上のオリゴヌクレオチドサブユニットにハイブリダイズすることができ、ある場合にはその後ライゲーション反応が行われ、それによりそれらを一緒に縫い合わせることができる。ある態様において、各ラウンドのアニーリングプライマーの第1相補的領域は、他のラウンドのアニーリングプライマーの第1相補的領域と異なる。ある場合には、各ラウンドのアニーリングプライマーの第2相補的領域は、他のラウンドのアニーリングプライマーの第2相補的領域と異なる。ある場合には、異なるラウンドのアニーリングプライマーの第1または第2相補的領域は、ラウンド間で共有されている。ある態様において、鋳型または“スプリント”(すなわち伸長されたCL分子)が、APSのアセンブリのために用いられ、ここで、スプリントは、個々のAPS(またはコードサブユニット)の段階的なハイブリダイゼーションおよびライゲーションが完成した鋳型DNAバーコードを作製することを可能にするように設計されたアニーリング領域(例えば共通リンカー配列)の多数のセットを含む。
ある場合には、CLまたは“スプリント”オリゴヌクレオチドは、ループアニーリング領域の1以上の対を含む。これらの例において、APSは、CLまたはスプリントにハイブリダイズして、すなわちAPSのそれぞれの末端においてCLループアニーリング領域にハイブリダイズすることによりループ幾何学を作り出すように設計されることができる(図5)。ある場合には、ループアニーリング領域は、付加およびハイブリダイゼーションの連続するラウンドがスプリントに沿ってAPSの位置を配置する(populate)ようにスプリットプール合成のラウンドに特異的であるように設計されることができる。次いで、APSは、当該技術で既知の方法のいずれかを用いて、例えばライゲーションにより一緒に連結されることができる。ある場合には、APSは、それらが他の合成ラウンドに特異的なループアニーリング領域においてスプリントに効率的にハイブリダイズしないことを確実にするように設計されることができる。結果的に、特定のラウンドからのAPSが何らかの理由で欠けている場合、その後のラウンドにおいて付加されるAPSは、正しくライゲーションされる可能性がより低く、従って下流の分析エラーの可能性を低減する。あるいは、鋳型DNAバーコードは、時々欠けているAPSがある場合でさえも合成される可能性があり、その位置は、ループアニーリング領域の対により隣接される。次いで、結果として生じる鋳型DNAバーコードは、それに従って分析されることができ、破棄された、または回収された情報のどちらかが、代わりに処理されることができる。
ランダムまたは準ランダムタグ配列:ある場合には、複数のAPSが、コード配列に加えてさらにランダムまたは準ランダムタグ配列を含むことができ、ここで、所与の鋳型DNA核酸バーコードと関係するそれぞれのAPSに関するランダムまたは準ランダムタグ配列は、所与の鋳型DNA核酸に由来するバーコードを付けられた相補的DNAの個々の鎖を同定するための独特の分子カウンター配列として機能する。ある場合には、それぞれの鋳型DNA核酸バーコード配列と関係する異なる分子カウンター配列の数は、所与の鋳型DNA核酸に由来していた相補的DNAコピーの初期数(すなわち、その後の増幅反応を実施する前に存在していた相補的DNAコピーの数)を数え上げる、もしくは確証するために、または所与の鋳型DNA核酸内のリピート配列を検出するために用いられることができる。ある場合には、そのような分子カウンター配列は、鋳型核酸フラグメントの配列バリアントが増幅反応の間のポリメラーゼのエラー、例えば鎖のスイッチングに由来していた可能性を決定するために用いられることができる。ある場合には、ランダムまたは準ランダムタグ配列は、バーコード開始プライマー分子中に組み込まれることができる。
ある場合には、ランダムまたは準ランダムタグ配列は、約2~約8ヌクレオチド長の範囲であることができる。ある場合には、ランダムまたは準ランダムタグ配列は、少なくとも2、少なくとも4、少なくとも6または少なくとも8ヌクレオチド長であることができる。ある場合には、ランダムまたは準ランダムタグ配列は、最大で8、最大で6、最大で4または最大で2ヌクレオチド長であることができる。この段落において記載された下限および上限値のいずれかが組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、ランダムまたは準ランダムタグ配列は、約4ヌクレオチド長~約6ヌクレオチド長の範囲であることができる。当業者は、ランダムまたは準ランダムタグ配列の長さは、この範囲内のあらゆる値、例えば約7ヌクレオチドを有することができることを認識しているであろう。
エラーチェック:ある場合には、複数のAPSが、1以上のサブコード(SC)領域を含む独特に設計された核酸配列のセットを含むことができ(図4)、ここで、サブコード配列は、複数のAPSにおいてそれぞれの個々のAPS分子に独特である。ある場合には、SC領域または配列は、約3、4、5、6、7、8、9、10または10より長いヌクレオチド長である。ある場合には、サブコードは、定められた長さ、例えば7ヌクレオチドの核酸配列の独特のセットを含み、それは、エラー補正能力を提供するように設計されている。ある場合には、サブコードのセットは、セット中の配列のあらゆる対での組み合わせが定められた“遺伝的距離”またはミスマッチ塩基の数、例えば3の距離を示すように設計された7ヌクレオチド配列を含む。この場合、アッセイの最終工程において同定された鋳型DNAフラグメントバーコードのセット中のサブコードの再調査は、アッセイデータの最終分析を実施する前にハイブリダイゼーションまたは増幅エラーを検出することを可能にする。この場合、ランダム配列領域は、APSコードに隣接して含まれ得るが、アニーリング領域の一部としては含まれない可能性がある。
増幅反応:開示されたDNAにバーコードを付ける方法のある場合において、1回以上の核酸増幅反応が、鋳型DNA核酸またはそのバーコードを付けられた相補的DNA鎖の多数のコピーを作製するために実施されることができる。ある場合には、増幅は、多重化された様式で実施されることができ、ここで、多数の鋳型DNA核酸配列またはバーコードを付けられた相補的DNA鎖が、同時に増幅される。ある場合には、増幅反応は、核酸分子に配列決定アダプターを付加するために用いられることができる。増幅反応は、存在するならばバーコードの少なくとも一部の増幅を含むことができる。増幅反応は、複数の鋳型DNA核酸またはバーコードを付けられたその相補的DNA鎖の少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%または100%の増幅を含むことができる。
ある場合には、特定のオリゴヌクレオチド配列の増幅は、ポリメラーゼ連鎖反応(PCR)を用いて実施されることができる。本明細書で用いられる際、PCRは、DNAの相補鎖の同時プライマー伸長による特定のDNA配列のインビトロ増幅のための反応を指すことができる。本明細書で用いられる際、PCRは、逆転写酵素PCR(RT-PCR)、リアルタイムPCR、ネステッドPCR、定量的PCR、多重PCR、デジタルPCRおよびアセンブリPCRを含むがそれらに限定されない反応の派生形態を包含することができる。
ある場合には、特定のオリゴヌクレオチド配列の増幅は、PCRベースではない方法を含むことができる。PCRベースではない方法の例は、多置換増幅(MDA)、転写に媒介される増幅(TMA)、核酸配列ベースの増幅(NASBA)、鎖置換増幅(SDA)、リアルタイムSDA、ローリングサークル増幅またはサークルトゥサークル増幅(circle-to-circle amplification)を含むが、それらに限定されない。他のPCRベースではない増幅法は、DNAまたはRNA標的を増幅するための多サイクルのDNA依存性RNAポリメラーゼに駆動されるRNA転写増幅またはRNAに方向付けられるDNA合成および転写の実施、リガーゼ連鎖反応(LCR)、Qレプリカーゼ(Q)法、回文構造プローブの使用、鎖置換増幅、制限エンドヌクレアーゼを用いるオリゴヌクレオチドに駆動される増幅、プライマーが核酸配列にハイブリダイズして結果として生じる二重鎖が伸長反応および増幅の前に切断される増幅法、5’エンドヌクレアーゼ活性を欠いている核酸ポリメラーゼを用いる鎖置換増幅、ローリングサークル増幅ならびに分枝(ramification)伸長増幅(RAM)を含む。
1回以上の増幅反応の実施は、1以上の増幅プライマーの使用を含むことができる。上記で示されたように、1以上の増幅プライマーは、約10ヌクレオチド長~約40ヌクレオチド長の範囲であることができる。ある場合には、増幅プライマーの長さは、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも25ヌクレオチド、少なくとも30ヌクレオチド、少なくとも35ヌクレオチドまたは少なくとも40ヌクレオチドであることができる。ある場合には、増幅プライマーの長さは、最大で40ヌクレオチド、最大で35ヌクレオチド、最大で30ヌクレオチド、最大で25ヌクレオチド、最大で20ヌクレオチド、最大で15ヌクレオチドまたは最大で10ヌクレオチドであることができる。この段落において記載された下限および上限値のいずれかが組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、増幅プライマーの長さは、約15ヌクレオチド~約25ヌクレオチドの範囲であることができる。当業者は、増幅プライマーの長さは、この範囲内のあらゆる値、例えば約22ヌクレオチドを有することができることを認識しているであろう。
1以上の増幅プライマーは、複数のバーコードを付けられた核酸配列の少なくとも一部にアニーリングすることができる。1以上のプライマーは、複数のバーコードを付けられた核酸配列の3’末端またはその付近にアニーリングすることができる。1以上のプライマーは、複数のバーコードを付けられた核酸配列の5’末端により近い位置にアニーリングすることができる。1以上のプライマーは、複数のバーコードを付けられた核酸配列の内部領域にアニーリングすることができる。1以上の増幅プライマーは、プライマーの固定されたパネル(panel)を含むことができる。1以上の増幅プライマーは、1以上のカスタムプライマーを含むことができる。1以上のカスタムプライマーは、1以上の標的核酸配列、例えば1以上の遺伝子配列にアニーリングするように設計されることができる。1以上の増幅プライマーは、1以上の対照プライマーを含むことができる。1以上の対照プライマーは、少なくとも1以上のハウスキーピング遺伝子プライマーを含むことができる。1以上の増幅プライマーは、ユニバーサルプライマーを含むことができる。ユニバーサルプライマーは、ユニバーサルプライマー結合部位にアニーリングすることができる。1以上の増幅プライマーは、第1鋳型DNA核酸バーコード、第2鋳型DNA核酸バーコード、別の鋳型DNA核酸バーコード、全ての鋳型DNA核酸バーコード中に組み込まれている増幅またはユニバーサルプライマー結合部位、第1鋳型DNA核酸配列、第2鋳型DNA核酸配列、別の鋳型DNA核酸配列等またはそれらの組み合わせにアニーリングすることができる。1以上の増幅プライマーは、ユニバーサルプライマーおよび1以上のカスタムプライマーを含むことができる。
ある側面において、異なるバーコードを付けられた鋳型DNA核酸の数の決定は、バーコードを付けられた鋳型DNA核酸またはそのあらゆる産物(例えばバーコードを付けられたアンプリコン)の配列の決定を含むことができる。バーコードを付けられた鋳型DNA核酸またはそのあらゆる産物(例えばバーコードを付けられたアンプリコン)の配列の決定は、バーコードの少なくとも一部、バーコードを付けられた鋳型DNA核酸配列の少なくとも一部、その相補配列、その逆相補配列、またはそれらのあらゆる組み合わせの配列を決定するための配列決定反応の実施を含むことができる。
配列決定:開示された方法のある側面において、2以上の指定された鋳型DNA配列の間の空間的関係、例えば単一の鋳型DNA核酸内のコロケーション(co-location)により示されるようなゲノムの所与の区分内でのそれらの近接性の決定は、同じ相補的DNA鎖バーコードと関係している鋳型配列の同定を含むことができる。開示された方法のある側面において、試料中の指定された鋳型DNA配列、例えば特定の遺伝子配列に関するコピー数の決定は、その指定された鋳型DNA配列と関係する独特の相補的DNAバーコード配列の数の決定を含むことができる。バーコードを付けられた相補的DNA鎖またはそのあらゆる産物(例えばバーコードを付けられたアンプリコン)の配列の決定は、バーコードの少なくとも一部、バーコードを付けられた相補的DNA鎖の少なくとも一部、その相補配列、その逆相補配列またはそれらのあらゆる組み合わせの配列を決定するための配列決定反応の実施を含むことができる。
核酸(例えばバーコードを付けられた相補的DNA鎖またはそのバーコードを付けられたアンプリコン)の配列の決定は、合成による配列決定(SBS)(例えばサンガー配列決定またはパイロシーケンシング法)、ハイブリダイゼーションによる配列決定(SBH)、ライゲーションによる配列決定(SBL)、環状アレイベースの配列決定、重合コロニー(POLONY)配列決定等を含むがそれらに限定されない様々な配列決定法のいずれかを用いて実施されることができる。
ある場合には、バーコードを付けられた相補的DNA鎖またはそのあらゆる産物の配列の決定は、ペアエンド配列決定、ショットガン配列決定、高スループット配列決定、ナノポアベースの配列決定、ダイターミネーター配列決定、多重プライマーDNA配列決定、プライマーウォーキング、サンガージデオキシ配列決定、マクサム-ギルバート(Maxim-Gilbert)配列決定、パイロシーケンシング法、真の単分子配列決定またはそれらのあらゆる組み合わせの使用を含むことができる。あるいは、バーコードを付けられた相補的DNA鎖またはそのあらゆる産物の配列は、ある場合には、マイクロアレイチップを用いて、電子顕微鏡法により、または化学感受性電界効果トランジスタ(chemFET)アレイを用いて決定されることができる。
Roche 454、Illumina Solexa、ABI-SOLiD、Ion Torrent、Complete Genomics、Pacific Bioscience、HelicesまたはPolonatorプラットフォームのようなプラットフォームを用いる高スループット配列決定法、例えば環状アレイ配列決定も、利用されることができる。ある場合には、配列決定は、Illumina MiSeq配列決定を含むことができる。
ある場合には、開示されたDNAにバーコードを付ける方法により生成されたバーコードを付けられた相補的DNA鎖の配列決定は、生物のゲノムの遺伝子の約0.01%~生物のゲノムの遺伝子の約100%に相当する相補的DNA配列を配列決定することを含むことができる。ある場合には、配列決定される相補的DNAは、生物のゲノムの少なくとも0.01%、生物のゲノムの少なくとも0.1%、生物のゲノムの少なくとも1%、生物のゲノムの少なくとも5%、生物のゲノムの少なくとも10%、生物のゲノムの少なくとも20%、生物のゲノムの少なくとも30%、生物のゲノムの少なくとも40%、生物のゲノムの少なくとも50%、生物のゲノムの少なくとも60%、生物のゲノムの少なくとも70%、生物のゲノムの少なくとも80%、生物のゲノムの少なくとも90%または生物のゲノムの少なくとも95%を含むことができる。ある場合には、配列決定される相補的DNAは、生物のゲノムの最大で95%、生物のゲノムの最大で90%、生物のゲノムの最大で80%、生物のゲノムの最大で70%、生物のゲノムの最大で60%、生物のゲノムの最大で50%、生物のゲノムの最大で40%、生物のゲノムの最大で30%、生物のゲノムの最大で20%、生物のゲノムの最大で10%、生物のゲノムの最大で5%、生物のゲノムの最大で1%、生物のゲノムの最大で0.1%または生物のゲノムの最大で0.01%を含むことができる。この段落において記載された下限および上限値のいずれかが組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、配列決定される相補的DNAは、生物のゲノムの約5%~約40%を含むことができる。当業者は、配列決定される相補的DNAがこの範囲内のあらゆる値、例えば生物のゲノムの約63%を含むことができることを認識しているであろう。
ある場合には、配列決定は、バーコードを付けられた核酸配列の少なくとも約10、20、30、40、50、60、70、80、90、100、200、300、400またはより多くのヌクレオチドまたは塩基対を配列決定することを含むことができる。ある場合には、配列決定は、バーコードを付けられた核酸配列の少なくとも約500、600、700、800、900、1,000またはより多くのヌクレオチドまたは塩基対を配列決定することを含むことができる。他の場合には、配列決定は、バーコードを付けられた核酸配列の少なくとも約1,500、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000またはl0,000またはより多くのヌクレオチドまたは塩基対を配列決定することを含む。
ある場合には、配列決定は、運転あたり少なくとも約100、1,000、104、105、106、107、108、109または1010またはより多くの配列決定の読みを含むことができる。ある場合には、配列決定は、運転あたり約1,000,000,000以下の配列決定の読みを含むことができる。ある場合には、配列決定は、運転あたり約100,000,000以下の読みを含むことができる。ある場合には、配列決定は、運転あたり約10,000,000以下の読みを含むことができる。ある場合には、配列決定は、運転あたり約1,000,000以下の読みを含むことができる。ある場合には、配列決定は、運転あたり約100,000以下の読みを含むことができる。ある場合には、配列決定は、運転あたり約10,000以下の読みを含むことができる。
配列アセンブリ:比較的短い配列の読みからのより長いDNAまたは他のオリゴヌクレオチド配列、例えばゲノムフラグメントまたは全ゲノムのアセンブリは、多数の短い配列の読みから重複している配列を同定して配列のより長い切れ目のない区分を組み立てることにより実施される。ある場合には、既知の参照配列または同じもしくは類似の生物からのコンセンサス配列に対する比較が、組み立てられた配列中のギャップまたはエラーを同定するために用いられることができる。当業者に既知の様々な生物情報学ソフトウェアプログラムのいずれかが、比較的短い配列の読みからより長い配列を組み立てるために用いられることができる。例は、DBG2OLC、SPAdes、SparseAssembler、FermiおよびSGAを含むが、それらに限定されない。本開示において、それぞれの短い鋳型DNA配列の読みと関係するバーコード配列は、同じ鋳型DNA核酸から生じたそれらの配列の同定を促進し、従って全ゲノムまたはその一部をマッピングするための鋳型配列アセンブリプロセスを促進する。
フェージングおよびハプロタイピング:全ゲノム配列決定は、典型的には、異なる相同染色体、例えば母系および父系の遺伝系統由来の相同染色体上に存在する配列バリアント、例えば一塩基多型(SNP)、挿入、欠失および/または変異を識別することなく単一のコンセンサス配列を生成する。フェーズド配列決定は、どの遺伝的バリアントが同じまたは異なる染色体上に見られ、従って一緒にまたは別々に受け継がれるかを決定することにより、この限界に取り組む。遺伝的バリエーションのパターン、例えばハプロタイプ(すなわち切れ目のないブロックとして受け継がれる配列バリアントの群)に関する情報は、遺伝的に受け継がれる形質および遺伝病の理解において重要であり、特定の遺伝子のコピー数に関する情報も、重要である。フェーズド配列決定は、ハプロタイプを決定する、ならびに新規の変異の存在を同定するためのアプローチを提供し、従って集団遺伝学および遺伝病の研究において適用を有する。
上記で特筆されたように、用語“ハプロタイプ”は、切れ目のないブロックにおいて一緒に受け継がれるDNA配列バリアントのセット(アレル)を指す。一般に、ヒトゲノムは、2コピーのそれぞれの遺伝子(母方のコピーおよび父方のコピー)を含有する。それぞれが2つの可能なアレル、例えば遺伝子アレル“A”および“a”ならびに遺伝子アレル“B”および“b”を有する遺伝子の対に関して、所与の個体のゲノムは、2つのハプロタイプ“AB/ab”(ここで、AおよびBアレルは、同じ染色体上に存在する(“シス”配置))または“Ab/aB”(ここで、AおよびBアレルは、異なる染色体上に存在する(“トランス”配置))の一方を含むであろう。フェーズド配列決定法またはアッセイは、遺伝子アレルの指定されたセットが同じまたは異なる染色体上のどちらに存在するかを決定するために用いられることができる。ある場合には、ハプロタイプを定めるいくつかのリンクしたアレルは、特定の疾患の表現型と相関または関係している可能性があり;そのような場合、いずれか1つの特定の遺伝子バリアントよりもむしろハプロタイプが、患者がその疾患を示すであろうかどうかに関する最も決定的な因子であり得る。
多くの遺伝性疾患、特に癌は、染色体再編成、例えば欠失、挿入、重複、転座および逆位と関係している(Lee, et al. (2012), “Targeted Chromosomal Duplications and Inversions in the Human Genome Using Zinc Finger Nucleases”, Genome Research 22:539-548)。これらのゲノム構造バリエーション(SV)は、健康な個体でも疾患患者でも観察され、従って遺伝的多様性および疾患の発症の両方に寄与している。
遺伝子のコピー数も、一部の疾患表現型において役割を果たしている。ほとんどの遺伝子は、通常は2コピーで存在するが、“増幅した”遺伝子は、2より多くの機能するコピーで存在し、従って異常なレベルのmRNAの産生およびタンパク質発現をもたらし、癌性状態をもたらす可能性がある遺伝子である。癌および他の遺伝性障害は、しばしば染色体の異常な(すなわち増大または減少した)数(“異数性”)と相関している。細胞遺伝学的技法、例えば蛍光インサイチュハイブリダイゼーションまたは比較ゲノムハイブリダイゼーションが、典型的には異常な遺伝子または染色体のコピー数の存在を検出するために用いられる。
フェーズド配列決定のためのバーコードを付けられたDNAフラグメントの使用。本明細書で開示される方法は、複数のバーコードを付けられたDNA分子を生成するための手段を提供し、ここで、それぞれのバーコードを付けられたDNA分子は、少なくとも第1配列領域、第2配列領域および第3配列領域を含む。第1配列領域は、上記のようにスプリットプール合成アプローチを用いて組み立てられたバーコード配列であり、ここで、バーコード配列は、そのDNA分子が由来する元の鋳型DNA核酸に関する独特の識別子を提供する。第2配列領域は、ランダムもしくは準ランダムプライマー配列または標的特異的プライマー配列の相補配列であり、それは、元の鋳型DNA核酸にプライミングするために用いられた。第3配列領域は、元の鋳型DNA核酸の全部または一部に相補的である一続きのDNAである。従って、バーコード配列は、単一の鋳型DNA核酸から生じた複数の相補的DNA分子を同定するために用いられることができる。従って、関係付けられた相補的DNA配列のその後のアラインメントおよびアセンブリは、典型的な配列決定の読みの長さよりも実質的に長い元の鋳型DNAの一続きに関する配列を決定することを可能にする。ある場合には、ロングレンジ配列決定に関する開示されたDNAにバーコードを付ける方法は、増幅および配列決定反応を実施する前に個々のDNA鎖または染色体を別々の区画中に分配する必要なく、同じDNA鎖および/または同じ染色体と関係しているDNA配列(またはその相補配列)を同定するために用いられることができる。ある場合には、バーコード情報は、やはり増幅および配列決定反応を実施する前に個々のDNA鎖または染色体を別々の区画中に分配する必要なく、同じDNA鎖および/または同じ染色体上の1以上の既知のマーカー遺伝子配列と関係しているDNA配列(またはその相補配列)を同定するために1以上の既知のマーカー遺伝子配列と合わせて用いられることができる。ある場合には、次いで特定の遺伝的バリアントのフェージングに関する結論が、引き出されることができる。そのような情報は、ハプロタイプ、すなわち同じ核酸鎖上または異なる核酸鎖上に存在する遺伝的バリアントの特定されたセットを同定するために有用である可能性がある。ある場合には、同じ核酸鎖上または異なる核酸鎖上に存在する遺伝的構造バリアント、例えば欠失、挿入、重複、転座および逆位の特定のセットの同定は、遺伝性疾患、例えば癌の診断のために用いられることができる。ある場合には、1以上の特定された既知の遺伝子配列と関係する独特のバーコード配列の数の決定は、それらの遺伝子に関するコピー数のバリエーションを同定するために用いられることができる。
開示された方法は、現行の核酸配列決定技術およびそれらの関連する試料調製法を超える重要な利点を提供する。短い配列決定の読みからのより長いDNA配列のアセンブリを促進することに加えて、本開示のバーコードを付ける方法は、上記で特筆されたように、ハプロタイプフェージングおよびコピー数バリエーションの決定に適用されることができる可能性がある。ハプロタイプフェージングおよびコピー数バリエーションのデータは、一般にゲノムDNAを配列決定することによっては入手できず、これは、生物学的試料(例えば血液、細胞または組織試料)が、典型的には多数の細胞から遺伝物質を抽出し、それを所与の配列決定技術の入力要求に関して具体的に設計された配列決定ライブラリーに変換するためにまとめて処理されるためである。このまとめての試料採取および処理のアプローチの結果として、配列決定は、典型的には非フェーズド(non-phased)コンセンサス配列データを提供し、それに関して特定の遺伝的バリアントが同じ染色体上または異なる染色体上のどちらに存在するかを決定することはできない。最近、いくつかの刊行物が、バーコードを付けられたcDNAの作製ならびにフェージングおよびハロタイピングの実施に関する方法を開示してきた(例えば、米国特許第8,268,564号;国際公開第2014/124338号;国際公開第2014/210353号;国際公開第2015/200869号;および国際公開第2015/200893号参照)。一般に、後者の方法は、予め合成されたバーコードの使用ならびにその予め合成されたバーコードおよび細胞またはそれから単離された核酸の個々の反応区画、例えば油中水エマルジョンにより形成された液滴中への分配に頼っている。
いくつかの研究が、ヒトゲノムDNA配列および疾患を含む表現型の間の関係は相の情報が入手可能である場合により完全に理解されることができることを実証してきた(Tewhey, et al. (2011), “The Importance of Phase Information for Human Genomics”, Nat. Rev. Genet. 12(3):215-223)。フェーズド配列決定およびハプロタイピングは、遺伝子型の決定および遺伝子型エラーの検出、遺伝的バリエーション(例えば構造的バリエーション、例えば欠失、挿入、重複、転座および逆位)および疾患の相互影響の理解、以前は特性付けられていなかった遺伝的バリエーションの存在の推測、ヒトの人口統計学的歴史の推測、組み換えの点の推測、反復突然変異および選択のサインの検出、ならびに遺伝子発現のシス制御のモデル化を含む(Brown and Brown (2011), “Haplotype Phasing: Existing Methods and New Developments”, Nat. Rev. Genet. 12(10):703-714)。
キット:本発明は、さらにロングレンジ配列決定または配列アセンブリのための、そしてフェーズド配列決定およびハプロタイピングの実施のためのキットに関する。ある場合には、本開示のキットは、相補的DNAのバーコードを付けられたセットを合成するために用いられる1以上のバーコード開始プライマーのセットを含むことができ、ここで、単一の鋳型DNA核酸から生じる相補鎖の全ては、同じ独特のバーコードを含み、かつここで、セットのそれぞれの鎖は、同じ鋳型DNA核酸の全部または一部に相補的であるDNA配列を含む。ある場合には、セット中のバーコード開始プライマーの数は、約2~約40の範囲であることができる。ある場合には、セットは、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも30または少なくとも40のバーコード開始プライマーを含むことができる。ある場合には、セットは、最大で40、最大で30、最大で20、最大で10、最大で8、最大で6、最大で4または最大で2のバーコード開始プライマーを含むことができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、セット中のバーコード開始プライマーの数は、約4~約16の範囲であることができる。当業者は、セット中のバーコード開始プライマーの数はこの範囲内のあらゆる値、例えば約9のバーコード開始プライマーを有することができることを認識しているであろう。
ある場合には、キットは、1種類以上のポリメラーゼ、ヌクレオチドおよびバーコード開始プライマーを用いてプライマー伸長反応を実施するための他の試薬も含むことができる。
ある場合には、キットは、独特の鋳型DNA核酸バーコードの合成において鋳型分子(“スプリント”)および他の化学的カップリング(例えばクリック化学)またはライゲーション試薬と共に用いるための2以上のAPS(またはコード単位)のセットも含むことができる。ある場合には、セット中の独特のAPS(またはコード単位)の数は、約2~約40の範囲であることができる。ある場合には、セットは、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも30または少なくとも40の独特のAPSを含むことができる。ある場合には、セットは、最大で40、最大で30、最大で20、最大で10、最大で8、最大で6、最大で4または最大で2の独特のAPSを含むことができる。この段落において記載された下限および上限値のいずれも、組み合わせられて本開示内に含まれる範囲を形成することができ、例えば、セット中の独特のAPSの数は、約6~約20の範囲であることができる。当業者は、セット中の独特のAPSの数はこの範囲内のあらゆる値、例えば約12の独特のAPSを有することができることを認識しているであろう。
ある場合には、本開示のキットは、1以上の増幅プライマー(例えばユニバーサルプライマーおよび/またはカスタムプライマー)のセット、1以上の配列決定プライマー(例えばIllumina配列決定プライマー)のセット、配列決定ライブラリーの調製における使用のための他のアダプターおよび試薬等またはそれらのあらゆる組み合わせも含むことができる。
システム:記載されたDNAバーコード付けおよびロングレンジ配列アセンブリ法を実施するためのシステムも、本明細書において開示される。ある場合には、本開示のシステムは、複数の反応容器(例えばチューブ、バイアル、マイクロウェルプレート)、流体取り扱いおよび分配構成要素(例えばポンプ、弁、管類、試薬ボトル、自動化されたピペッターまたは注射器等)および処理装置または制御装置を含むことができ、ここで、システムは、試薬を分配し、反応混合物を混合および分配し、鋳型DNA核酸バーコードの自動化されたスプリットプール合成を実施するように設計されている。ある場合には、システムは、さらに温度制御装置を含むことができ、プライマー伸長および核酸増幅反応を実施するように設計されていることができる。ある場合には、処理装置または制御装置は、機器制御ソフトウェア、データ取得および分析ソフトウェアならびに/またはデータ可視化ソフトウェアを含む光学および/または磁気データ記憶媒体を含むことができる。ある場合には、システムは、複数のバーコードを付けられた相補的DNA配列に関して得られた鋳型配列データに基づくロングレンジ配列アセンブリを促進する統合型またはスタンドアローンのデータ分析ソフトウェアを含むことができる。ある場合には、システムは、エラー補正サブコードを含むAPSのセットを用いて合成されたバーコードに関する配列データに基づいてエラーチェックおよび/またはエラー補正を実施する統合型またはスタンドアローンのデータ分析ソフトウェアを含むことができる。
実施例-バーコードを付けられた相補的DNAを用いるロングレンジ配列決定
本開示のDNAにバーコードを付ける方法が、図1A~Cにおいて図説されている。断片化されたDNA試料、例えば断片化されたゲノム、エキソームまたは他のタイプのDNAが、(すなわち一本鎖DNAを作り出すために)融解または変性させられ、後の精製のために3’末端においてビオチンで末端標識される(図1A)。この工程は、おおよそ30分間で完了されることができる。
ビオチン標識工程後、鋳型核酸フラグメントは、複数のバーコード開始プライマー、例えばランダムまたは準ランダム鋳型アニーリング領域およびバーコード開始部位または部分を含むプライマー分子を用いてプライミングされる(図1B)。1以上のバーコード開始プライマーのそれぞれの鋳型DNA核酸フラグメントへのアニーリング後、鋳型DNAにアニーリングした相補的DNA鎖の“セット”を作製するためにポリメラーゼ伸長反応が実施される。アニーリングおよびプライマー伸長反応は、全て単一のチューブまたは反応容器中で実施されることができる。ある場合には、ジデオキシヌクレオチド、例えばddCTPが、ポリメラーゼが同じ鋳型DNA核酸に付着した他の相補的DNA鎖を置換するのを防ぐランダムな停止を作り出すために反応混合物中に導入されることができる。この工程は、おおよそ30分間で完了されることができる。
プライマー伸長工程後、相補的DNA鎖のそれぞれのセットは、上記のようにAPS(またはコード単位)のセットを用いてスプリットプール合成またはアセンブリ反応を実施することによりバーコードを付けられる(図1Cおよび2)。スプリットプール合成のラウンドの数および合成の各ラウンドにおけるカップリングに利用可能な独特のAPSの数は、あらゆる2つの鋳型DNA核酸(または2つの鋳型DNA核酸にアニーリングした相補的DNA鎖のセット)が同じバーコードを有する確率が極めて小さいことを確実にするように選択される。従って、それぞれの鋳型DNA核酸(またはそれぞれの鋳型DNA核酸にアニーリングした相補的DNA鎖のセット)は、実質的に独特のバーコードを有し、それは、続いて単一の鋳型DNA核酸フラグメントから合成された相補的DNA配列のセットを同定するために用いられることができる。鋳型DNAフラグメントバーコードのスプリットプール合成は、例えば単純な微小流体デバイス中または96ウェルプレート中でマルチチャンネルピペッターを用いて実施されることができる。(試料のプールおよび再分割(re-aliquoting)以外に)分離または遠心分離工程は必要とされず、個々の鋳型DNA核酸を別々の反応容器または区画中に分配する必要はない。この工程は、おおよそ1時間で実施されることができる。
バーコードの合成後、鋳型DNA核酸にアニーリングしたバーコードを付けられた相補的DNA鎖のセットは、様々なビオチン/アビジン精製スキームのいずれかを用いて親和性精製されることができ、バーコードを付けられた相補的DNA鎖は、変性させられ、例えば相補鎖のPCRおよび準ランダムプライミングを用いて増幅され、配列決定され、ロングレンジ配列が、バーコードを用いて単一の鋳型DNA核酸から合成された相補配列のセットを同定することにより組み立てられることができる。