本発明の様々な実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実施形態の様々な代替案が利用される可能性があることは理解されるはずである。
用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「0」または「1」の値を有し得る。
用語「区別可能な」または「一意の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または一意の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または一意の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または一意の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。
用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、1つまたは複数の他の成分と連結またはアセンブルされることもある。
用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、1つの層内の成分が別の層内の成分と異なるような、1セットの区別可能な成分を含むことがある。1つまたは複数の層からの成分は、1つまたは複数の識別子を生成するようにアセンブルされることもある。
用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実施形態では、識別子は、1つまたは複数の連結された成分を含み得る。
用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。
用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。
用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の収集物を一般に指す。一部の実施形態では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。1つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する一意のバーコードを含むこともある。
用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはこれらのバリアントを一般に指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)、またはそのバリアントから選択される1つまたは複数のサブユニットを含み得る。ヌクレオチドは、A、C、G、TもしくはU、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、A、C、G、TもしくはUであることもあり、あるいはより多くの相補的A、C、G、TもしくはUのうちの1つに特異的であり得る、またはプリン(すなわち、AもしくはG、またはそのバリアント)もしくはピリミジン(すなわち、C、TもしくはU、またはそのバリアント)と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。
用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド(DNA)もしくはリボヌクレオチド(RNA)のどちらかかまたはその類似体である、様々な長さを有し得る、ポリマー形態のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、デジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、1つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および/または改変ヌクレオチドを含むこともある。
「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)という、またはポリヌクレオチドがRNAの場合はアデニン(A)、シトシン(C)、グアニン(G)およびウラシル(U)という、4つのヌクレオチド塩基の特異的配列で、典型的に構成されている。
改変ヌクレオチドの例としては、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルキューオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、ベータ-D-マンノシルキューオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が(例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である1つもしくは複数の原子が、および/または相補的ヌクレオチドと水素結合を形成することが通常はできない1つもしくは複数の原子が)修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、N-ヒドロキシスクシンイミドエステル(NHS)などのアミン反応性部分の共有結合を可能にするためにアミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアクリルアミド(aminohexhylacrylamide)-dCTP(aha-dCTP)などのアミン修飾基を含有することもある。
用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応(PCR)などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、DNA試料の複製中に、複製を触媒する酵素が、DNA試料に結合したプライマーの3’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、PCRに関するより多くの情報については、化学方法セクションDを参照されたい。
用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、SsoポリメラーゼPocポリメラーゼ、Pabポリメラーゼ、MthポリメラーゼES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’→5’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。PCRと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がPCRにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションDを参照されたい。
二進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。二進コードは、例えば、ビットと呼ばれる2つの二進記号、通常は0および1、を有する二進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非二進記号の配列を含み得る非二進コードの形で表すことができる。符号化された各記号を、一意のビット列(または「バイト」)に再び割り当てることができ、一意のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、2つの記号のうちの1つ(例えば、0または1)であり得る。Nビットの列を含むことができるバイトは、合計2Nの一意のバイト値を有することができる。例えば、8ビットを含むバイトは、合計28または256の可能な一意のバイト値を生じさせることができ、256バイトの各々は、バイトで符号化することができる256の可能な区別可能な記号、文字または命令のうちの1つに対応し得る。生データ(例えば、テキストファイルおよびコンピュータ命令)を、バイト列またはバイトストリームとして表すことができる。zipファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。
本開示の方法およびシステムを使用して、1ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、2ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。
デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。
新規方法は、塩基毎またはデノボ核酸合成(例えば、ホスホルアミダイト合成)に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報(例えば、二進コード)を符号化することができる。しかるが故に、新規戦略は、情報記憶の第1の要求のために区別可能な核酸配列(または成分)の第1のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列(または成分)を再利用することができる。これらの手法は、DNAへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、DNAベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホルアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、のインプリメンテーションと異なり、成分からの識別子構築を使用してDNAに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してDNAへのデジタル情報の書き込み速度を上昇させることができる。
情報を核酸配列に符号化するおよび書き込む方法
ある態様では、本開示は、情報を核酸配列に符号化する方法を提供する。核酸配列に情報を符号化する方法は、(a)情報を記号列に変換するステップと、(b)記号列を複数の識別子にマッピングするステップと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における1つの記号は、識別子の非存在に対応し得る。例えば、「0」および「1」の二進記号(例えば、ビット)列における「0」の出現各々が、識別子の非存在に対応し得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、(c)核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化されるが、核酸分子の各々の配列に符号化されないことがある。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成するステップと、(c)少なくとも1つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
図1は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、1つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「0」または「1」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト(例えば、識別子)にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子をシークエンシングまたは識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。
図1の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々1ビット(「1」のビット値を有するビット)を区別可能な核酸識別子にマッピングするステップとを含み得る。1のビット値に対応する(かつ0のビット値の識別子を含まない)識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法(例えば、シークエンシング、ハイブリダイゼーション、PCRなど)を使用して、識別子ライブラリー中のどの識別子が表されるのかを決定することと、「1」のビット値をこれらの識別子に対応するビットにおよび「0」のビット値を他の場所に割り当てること(識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること)、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。
区別可能なNビットの列の符号化は、可能な識別子として同じ数の一意の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しい項目(Nビットの列)毎に識別子(例えば、核酸分子)のデノボ合成を使用し得る。他の例では、記憶するために情報の新しい項目毎に識別子(数がNと同じであるかまたはそれ未満である)を新たに合成する費用を、情報の新しい項目の符号化が、事前に合成された(または既成の)識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の1回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、(1)記憶するための情報の新しい項目毎の最大N個の識別子のデノボ合成のコストも、または(2)記憶するために情報の新しい項目毎にN個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数(N未満、一部の場合には、Nよりもはるかに少ない)を維持し、そしてその後、これらの配列を、記憶するための情報の新しい項目毎に最大N個の識別子を生成するように酵素反応によって改変することにより、削減することができる。
読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー(例えば、識別子ライブラリー)を含むDNA配列の合理的設計に関しては化学的方法セクションHを参照されたい。
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)中のデジタルデータを符号化する、「アドレスにおけるデータ」と呼ばれる、方法の例を模式的に示す。図2Aは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレスにおけるデータ方法は、バイト値を識別する1つのオブジェクトである「バイト値オブジェクト」(または「データオブジェクト」)、および識別子ランク(または元のビットストリーム中のバイトの相対位置)を識別する1つのオブジェクトである「ランクオブジェクト」(または「アドレスオブジェクト」)という、2つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図2Bは、各ランクオブジェクトが、1セットの成分から組合せ的に構築され、各バイト値オブジェクトが、1セットの成分から組合せ的に構築され得る、アドレスにおけるデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合(例えば、図2A)よりも多くの情報を識別子に書き込むことを可能にする。
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)中のデジタル情報を符号化する方法の別の例を模式的に示す。図3Aは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク(またはアドレス)における識別子の存在により「1」のビット値が指定され、特定のランク(またはアドレス)における識別子の非存在により「0」のビット値が指定される。このタイプの符号化は、単にランク(元のビットストリーム中のビットの相対位置)を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「1」または「0」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「1」のビット値をそれらの対応するランクに割り当てること、および「0」のビット値を他の場所に割り当てることを含み得る。図3Bは、各識別子を1セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合(例えば、図3A)よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、5つの区別可能な成分を含み得る。5つの区別可能な成分を、5成分のうちの2成分を各々が含む10の区別可能な識別子を生成するように、アセンブルすることができる。10の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク(またはアドレス)を各々が有し得る。識別子ライブラリーは、これらの10の可能な識別子のうちの、ビット値「1」の位置に対応するサブセットを含み、これらの10の可能な識別子のうちの、長さ10のビットストリーム内のビット値「0」の位置に対応するサブセットを除外することがある。
図4は、可能な識別子の組合せ空間(C、x軸)と、図3Aおよび3Bに示されている符号化方法を使用してビットの所与の元のサイズの情報(D、等高線)を記憶するために物理的に構築される識別子の平均数(k、y軸)との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズDの一次情報が、数個、つまりk個のビットが「1」のビット値を有するCビットの列(Cは、Dより大きくなり得る)に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「1」である位置については識別子が構築され、ビット値が「0」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log2(Cchoosek)(式中、Cchoosekは、C個の可能性からk個の順不同結果を選ぶ方法の数についての数式であり得る)となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与の項目のサイズ(ビットで)を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。
図5は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに入力を入れることにより、反応を始動することができる。入力は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去(例えば、削除)することができる。1つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を難読化もしくは隠蔽するのに役立つこともある。
識別子ランク(例えば、核酸インデックス)は、識別子の順序付けを決定するための方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレスにおけるデータ符号化方法では、識別子ランク(識別子のランクオブジェクトにより符号化された)を使用して、ビットストリーム内のバイトの位置(識別子のバイト値オブジェクトにより符号化された)を決定することができる。代替方法では、存在する識別子の識別子ランク(全識別子自体により符号化された)を使用して、ビットストリーム内の「1」のビット値の位置を決定することができる。
キーは、区別可能なバイトを試料中の識別子(例えば、核酸分子)の一意のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する一意の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ1または0のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、シークエンシング、ハイブリダイゼーションまたはPCRを含む任意の数の分子生物学技術を含むことができる。一部の実施形態では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、一意の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム(例えば、各ビット列、バイト(単数)、バイト(複数)、またはバイト列)に復号することができる。
識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の定義された群(例えば、組合せ空間)からの1セットの核酸分子(例えば、識別子)を使うことにより、情報を符号化することができる。分子の定義された群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列(例えば、成分)のアセンブリであることもある。個々の識別子各々は、固定された順序で全ての層から1つの成分を連結させることにより構築することができる。例えば、M個の層があり、各層がn個の成分を有する場合には、最大C=nM個の一意の識別子を構築することができ、最大2C個の異なる情報項目またはC個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、1×106個の区別可能な識別子、またはサイズC=1×106の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。n=1×103の成分を各々が含有するM=2の既成の層からアセンブリを作成することができる。あるいは、n=1×102の成分を各々が含有するM=3の層からアセンブリを作成することができる。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用することが有利であり得る。
一例では、xおよびy個の成分(例えば、核酸配列)それぞれを各々が有する2セットの一意の核酸配列または層、XおよびYで、始めることができる。Xからの各核酸配列をYからの各核酸配列にアセンブルすることができる。これらの2セットの中に維持される核酸配列の総数は、xとyの和であり得るが、生成され得る核酸分子の総数およびしたがって可能な識別子は、xとyの積であり得る。Xからの配列がYの配列に任意の順序でアセンブルされてもよいのであれば、よりいっそう多くの核酸配列(例えば、識別子)を生成することができる。例えば、生成される核酸配列(例えば、識別子)の数は、アセンブリ順序がプログラム可能である場合、xとyの積の2倍になり得る。生成され得る全ての可能な核酸配列のこのセットをXYと呼ぶことができる。XY中の一意の核酸配列のアセンブルされた単位の順序を、区別可能な5’および3’末端を有する核酸を使用して制御することができ、配列の区別可能な5’および3’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)、およびシークエンシングを行うことができる。このような手法は、N個の区別可能なビットを符号化するために使用される核酸配列(例えば、成分)の総数を、それらのアセンブリ産物の組合せおよび順序で情報を符号化することにより、低減させることができる。例えば、100ビットの情報を符号化するために、10の区別可能な核酸分子(例えば、成分)の2つの層を固定された順序でアセンブルして、10*10または100の区別可能な核酸分子(例えば、識別子)を生成してもよく、または5つの区別可能な核酸分子(例えば、成分)の1つの層と10の区別可能な核酸分子(例えば、成分)のもう1つの層とを任意の順序でアセンブルして、100の区別可能な核酸分子(例えば、識別子)を生成してもよい。
各層内の核酸配列(例えば、成分)は、一意の(または区別可能な)配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に4つの可能なヌクレオチドが存在する。したがって、3塩基バーコードは、43=64の核酸配列を一意に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学またはシークエンシングを複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。DNA配列の合理的設計に関しては化学的方法セクションHを参照されたい。
核酸配列(例えば、成分)の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Xからのあらゆる成分が、層Yからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第1の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Yからのあらゆる成分が、一方の末端で層Xのあらゆる成分に結合することができ、かつ反対側の末端で層Zのあらゆる成分に結合することができる。
図6Aおよび6Bは、固定された順序で各層から区別可能な成分(例えば、核酸配列)を組合せ的にアセンブルすることにより識別子(例えば、核酸分子)を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図6Aは、積スキームを使用して構築された識別子のアーキテクチャを示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。N個の成分を各々が有するM個の層の場合、NM個の可能な識別子がある。図6Bは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、3つの区別可能な成分を各々が含む3つの層から、組合せ空間を生成することができる。これらの成分を、各層からの1つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリ方法のための全組合せ空間は、27の可能な識別子を含むことができる。
図7~10は、積スキーム(図6を参照されたい)を実行するための化学的方法を示す。図7~10に描かれている方法を、2つまたはそれより多くの区別可能な成分を固定された順序でアセンブルするための任意の他の方法と共に使用して、例えば、識別子ライブラリー中の任意の1つまたは複数の識別子を生成することができる。本明細書で開示される方法またはシステムの最中にいつでも、図7~10に記載のインプリメンテーション方法のいずれかを使用して識別子を構築することができる。一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子(情報を符号化する)を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの1つまたは複数のステップが行われた後である可能性がある時点で(すなわち、情報が書き込まれている最中に)、識別子を構築することができる。
酵素反応を使用して、異なる層またはセットからの成分をアセンブルすることができる。各層の成分(例えば、核酸配列)は、隣接する層の成分のための特異的ハイブリダイゼーションまたは結合領域を有するため、アセンブリをワンポット反応で行うことができる。例えば、層Xからの核酸配列(例えば、成分)X1、層Yからの核酸配列Y1、および層Zからの核酸配列Z1は、アセンブルされた核酸分子(例えば、識別子)X1Y1Z1を形成することができる。加えて、各層からの複数の核酸配列を含めることにより、複数の核酸分子(例えば、識別子)を1反応でアセンブルすることができる。例えば、前の例のワンポット反応にY1とY2の両方を含めることにより、X1Y1Z1およびX1Y2Z1という2つのアセンブルされた産物(例えば、識別子)を生じさせることができる。この反応多重化を使用して、物理的に構築される複数の識別子の書き込み時間を加速することができる。DNA配列の合理的設計についての詳細については、これはアセンブリ効率に関係するので、化学的方法セクションHを参照されたい。核酸配列のアセンブリを約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間もしくは1時間未満であるまたは約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間もしくは1時間に等しい期間で、行うことができる。符号化されたデータの正確度は、少なくとも約90%、95%、96%、97%、98%、99%もしくはそれより高いこともあり、または約90%、95%、96%、97%、98%、99%もしくはそれより高い%に等しいこともある。
識別子を、図7に示されているように、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用して積スキームに従って構築することができる。各層の各成分は、隣接する層からの成分の配列末端の共通ハイブリダイゼーション領域と相同および/または相補的であり得る共通ハイブリダイゼーション領域を配列末端に有する、二本鎖または一本鎖(図に描かれている通り)核酸配列を含むことができる。個々の識別子は、成分X1-XAを含む層X(または層1)からの1つの成分(例えば、一意の配列)と、Y1-YAを含む層Y(または層2)からの第2の成分(例えば、一意の配列)と、Z1-ZBを含む層Z(または層3)からの第3の成分(例えば、一意の配列)とを連結させることにより、構築することができる。層Xからの成分は、層Yからの成分の3’末端と相補性を共有する3’末端を有し得る。したがって、層Xからの一本鎖成分とYからの一本鎖成分とを3’末端で互いにアニールすることができ、PCRを使用して伸長して二本鎖核酸分子を生成することができる。生成された二本鎖核酸分子を融解して、層Zからの成分の3’末端と相補性を共有する3’末端を生成することができる。層Zからの成分を、生成された核酸分子とアニールすることができ、伸長して、層X、YおよびZからの単一成分を固定された順序で含む一意の識別子を生成することができる。OEPCRについては化学的方法セクションAを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
識別子を、図8に示されているように、付着末端ライゲーションを使用して積スキームに従ってアセンブルすることができる。一本鎖3’突出を有する二本鎖成分(例えば、二本鎖DNA(dsDNA))を各々が含む3つの層を使用して、区別可能な識別子をアセンブルすることができる。例えば、成分X1-XAを含む層X(または層1)からの1つの成分と、Y1-YBを含む層Y(または層2)からの第2の成分と、Z1-ZCを含む層Z(または層3)からの第3の成分とを含む識別子。層Xからの成分を層Yからの成分と組み合わせるために、層Xの成分は、図8にaと表示されている共通3’突出を含むことができ、層Yの成分は、共通の相補的3’突出、a*を含むことができる。層Yからの成分を層Zからの成分と組み合わせるために、層Yの要素は、図8にbと表示されている共通3’突出を含むことができ、層Zの要素は、共通の相補的3’突出、b*を含むことができる。層X成分の3’突出は、層Y成分の3’末端と相補的であることができ、層Y成分の他方の3’突出は、層Z成分の3’末端と相補的であることができ、このことにより、これらの成分のハイブリダイゼーションおよびライゲーションが可能になる。しかるが故に、層Xからの成分は、層Xまたは層Zからの他の成分とハイブリダイズすることができず、同様に層Yからの成分は、層Yからの他の要素とハイブリダイズすることができない。さらに、層Yからの単一の成分は、層Xの単一の成分および層Zの単一の成分とライゲーションすることができ、このことにより、完全な識別子が確実に形成される。付着末端ライゲーションについては化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
付着末端ライゲーションのための付着末端は、各層の成分を制限エンドヌクレアーゼで処理することにより生成することができる(制限酵素反応についてのより多くの情報については化学的方法セクションCを参照されたい)。一部の実施形態では、複数の層の成分を、成分の1つの「親」セットから生成することができる。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位(例えば、BamHIおよびBglIIの制限部位)を有し得る実施形態。任意の2つの成分をアセンブリに選択し、一方または他方の相補的制限酵素(例えば、BglIIまたはBamHI)で個別に消化することができ、その結果、相補的付着末端が得られ、これらを互いにライゲーションすることができ、その結果、不活性跡(inert scar)をもたらす。産物核酸配列は、各末端に相補的制限部位(例えば、5’末端にBamHI、および3’末端にBglII)を含むこともあり、さらに、そのような核酸配列を同じプロセスに従って親セットからの別の成分にライゲーションすることができる。このプロセスは、無限に循環し得る(図20)。親がN個の成分を含む場合には、各サイクルは、N個の成分の追加の層を積スキームに加えることに相当し得る。
セットX(例えば、dsDNAのセット1)からの要素とセットY(例えば、dsDNAのセット2)からの要素とを含む核酸の配列を構築するためにライゲーションを使用する方法は、二本鎖配列の2つまたはそれより多くのプール(例えば、dsDNAのセット1およびdsDNAのセット2)を得るステップまたは構築するステップであって、第1のセット(例えば、dsDNAのセット1)が、付着末端(例えば、a)を含み、第2のセット(例えば、dsDNAのセット2)が、第1のセットの付着末端と相補的である付着末端(例えば、a*)を含む、ステップを含み得る。第1のセット(例えば、dsDNAのセット1)からの任意のDNAと第2のセット(例えば、dsDNAのセット2)からのDNAの任意のサブセットとを組み合わせ、アセンブルし、次いで、互いにライゲーションして、第1のセットからの要素と第2のセットからの要素とを有する単一の二本鎖DNAを形成することができる。
識別子を、図9に示されているように、部位特異的組換えを使用して積スキームに従ってアセンブルすることができる。3つの異なる層からの成分をアセンブルすることにより、識別子を構築することができる。層X(または層1)の成分は、分子の一方の側にattBxリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Y(または層2)からの成分は、一方の側にattPxリコンビナーゼ部位および他方の側にattByリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Z(または層3)の成分は、分子の一方の側にattPyリコンビナーゼ部位を含むことができる。対の中のattBおよびattP部位は、それらの下付文字により示されているように、それらの対応するリコンビナーゼ酵素の存在下で組換えが可能である。層Xからの1つの成分が層Yからの1つの成分と会合し、層Yからの1つの成分が層Zからの1つの成分と会合するように、各層の1つの成分を組み合わせることができる。1つまたは複数のリコンビナーゼ酵素の適用は、順序付けられた成分を含む二本鎖識別子を生成するように成分を組み換えることができる。DNAサイズ選択(例えば、ゲル抽出を用いる)、または最外層に隣接するプライマーを用いるPCRを実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。一般に、attBとattPの複数の直交対を使用することができ、各対を使用して追加の層からの成分をアセンブルすることができる。大きいセリンのリコンビナーゼファミリーについては、attBとattPの最大6つの直交対をリコンビナーゼ毎に生成することができ、複数の直交リコンビナーゼを同様に実行することもできる。例えば、BxbIおよびPhiC31などの2つの大きいセリンリコンビナーゼの各々から6つの直交対である、attBとattPの12の直交対を使用することにより、13層をアセンブルすることができる。attBとattPの対の直交性により、1つの対からのattB部位が別の対のattP部位と反応しないことが保証される。これにより、異なる層からの成分を固定された順序でアセンブルすることが可能になる。リコンビナーゼ媒介組換え反応は、実行されるリコンビナーゼ系に依存して可逆的であることもあり、または不可逆的であることもある。例えば、大きいセリンリコンビナーゼファミリーは、いずれの高エネルギー補因子も必要とすることなく不可逆的組換え反応を触媒し、これに対してチロシンリコンビナーゼファミリーは、可逆的反応を触媒する。
識別子を、図10Aに示されているように、鋳型誘導型ライゲーション(TDL)を使用して積スキームに従って構築することができる。鋳型誘導型ライゲーションは、識別子を形成するための成分の順序付けられたライゲーションを容易にするために、「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用する。鋳型は、隣接する層からの成分に同時にハイブリダイズし、それらを互いに(5’末端に対して3’末端)隣接した状態で保持し、その間にリガーゼがそれらをライゲーションする。図10Aからの例では、一本鎖成分の3つの層またはセットが組み合わせられる。配列a*と相補的である共通配列aをそれらの3’末端に共有する成分の第1の層(例えば、層Xまたは層1);配列b*およびc*と相補的である共通配列bおよびcをそれらの5’および3’末端にそれぞれ共有する成分の第2の層(例えば、層Yまたは層2);配列d*と相補的であり得る共通配列dをそれらの5’末端に共有する成分の第3の層(例えば、層Zまたは層3);および2つの鋳型のセット、または第1のステープルが配列a*b*(5’→3’)を含み、第2のステープルが配列c*d*(’5→3’)を含む、2つの「ステープル」のセット。この例では、各層からの1つまたは複数の成分を選択し、ステープルとの反応に混合することができ、これらのステープルは、識別子を形成するための各層からの1つの成分の定義された順序でのライゲーションを相補的アニーリングにより容易にすることができる。TDLについては化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
図10Bは、6層TDLで各々アセンブルされた256の区別可能な核酸配列についてのコピー数(存在量)のヒストグラムを示す。縁層(最初の層および最後の層)各々は、1つの成分を有し、内層(残りの4つの4層)の各々は、4つの成分を有した。各縁層成分は、10塩基ハイブリダイゼーション領域を含む28塩基であった。各内層成分は、5’末端の10塩基共通ハイブリダイゼーション領域と、10塩基可変(バーコード)領域と、3’末端の10塩基共通ハイブリダイゼーション領域とを含む、30塩基であった。3本の鋳型鎖の各々は、長さ20塩基であった。256の区別可能な配列全てを、1つの反応が成分および鋳型、T4ポリヌクレオチドキナーゼ(成分をリン酸化するために)、ならびにT4リガーゼ、ATP、および他の適切な反応試薬の全てを含有する多重方式で、アセンブルした。反応を37度で30分間、次いで室温で1時間インキュベートした。シークエンシングアダプターをPCRでの反応産物に添加し、産物をIllumina MiSeq装置でシークエンシングした。合計192910のアセンブルされた配列読み取りのうちの区別可能なアセンブルされた配列各々についての相対コピー数が示されている。この方法の他の実施形態は、二本鎖成分を使用することがあり、その場合、これらの成分は、ステープルにアニールすることができる一本鎖バージョンを形成するために最初に融解される。この方法(すなわち、TDL)の他の実施形態または派生型を使用して、積スキームで達成され得るものより複雑な識別子の組合せ空間を構築することができる。
ゴールデンゲートアセンブリ、ギブソンアセンブリおよびリガーゼサイクリング反応アセンブリを含む、様々な他の化学的インプリメンテーションを使用して、積スキームに従って、識別子を構築することができる。
図11Aおよび11Bは、成分(例えば、核酸配列)を並べ替えて識別子(例えば、核酸分子)を構築するための、「並び替えスキーム」と呼ばれる方法の例を模式的に示す。図11Aは、並び替えスキームを使用して構築された識別子のアーキテクチャを示す。識別子を、プログラム可能な順序で各層からの単一成分を組み合わせることにより構築することができる。図11Bは、並び替えスキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、1つの区別可能な成分を各々が含む3つの層から、サイズ6の組合せ空間を生成することができる。成分を任意の順序で連結させることができる。一般に、各々がN個の成分を有するM個の層を用いて、並び替えスキームは、合計NMM!個の識別子の組合せ空間を可能にする。
図11Cは、鋳型誘導型ライゲーション(TDL、化学的方法セクションBを参照されたい)を用いる並び替えスキームのインプリメンテーションの例を示す。複数の層からの成分は、縁足場と呼ばれる、固定された左末端成分と固定された右末端成分の間でアセンブルされる。これらの縁足場は、組合せ空間内の全ての識別子について同じであり、したがって、これらの縁足場をインプリメンテーションのための反応マスターミックスの一部として添加することができる。鋳型またはステープルが、任意の2層または足場間の任意の可能な接合部のために存在し、したがって、異なる層からの成分が反応中に識別子に組み込まれる順序は、反応に選択される鋳型に依存する。M個の層について層の任意の可能な並び替えを可能にするために、可能な接合部(足場との接合部を含む)毎にM2+2M個の区別可能な選択可能なステープルが存在し得る。これらの鋳型のうちのM個(灰色の陰付き)は、層とそれら自体の間の接合部を形成し、ここに記載されるような並び替えアセンブリの目的のために排除され得る。しかし、それらを含めることで、図11D~Gに示されているような反復成分を含む識別子を用いてより大きい組合せ空間を可能にすることができる。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
図11D~Gは、反復している成分を有する識別子についてのある特定の場合を含むように並び替えスキームを拡大することができる方法の例を示す。図11Dは、並べ替えられているおよび反復している成分を有する識別子を構築するために使用することができる図11Cからのインプリメンテーションの方法の例を示す。例えば、識別子は、2つの区別可能な成分からアセンブルされた合計3つの成分を含み得る。この例では、層からの成分は、識別子中に複数回存在し得る。同じ成分の隣接した連結は、隣接する相補的ハイブリダイゼーション領域を有するステープル、例えば、図中のa*b*(5’→3’)ステープルを、同じ成分の3’末端と5’末端の両方に使用することにより、達成することができる。一般に、M個の層の場合、M個のそのようなステープルが存在する。このインプリメンテーションでの反復している成分の組込みは、図11Eで実証されるように、縁足場間でアセンブルされる1を超える長さ(すなわち、1、2、3、4またはそれより多くの成分を含む)の核酸配列を生成することができる。図11Eは、図11Dからのインプリメンテーションの例が、識別子に加えて、縁足場間でアセンブルされる非標的化核酸配列をもたらし得る方法を示す。適切な識別子をPCRで非標的化核酸配列から単離することができない。なぜなら、それらは、縁に同じプライマー結合部位を共有するからである。しかし、この例では、アセンブルされる核酸配列各々を、一意の長さを有するように設計することができるので(例えば、全ての成分が同じ長さを有する場合)、DNAサイズ選択(例えば、ゲル抽出を用いる)を実行して、標的化された識別子(例えば、上からの2番目の配列)を非標的化配列から単離することができる。サイズ選択については化学的方法セクションEを参照されたい。図11Fは、反復している成分を有する識別子の構築が、区別可能な長さだが等しい端配列を有する複数の核酸配列を同じ反応中に生成し得る、別の例を示す。この方法では、1つの層中の成分と他の層中の成分を交互パターンでアセンブルする鋳型を使用することができる。図11Eに示されている方法と同様に、サイズ選択を使用して設計長の識別子を選択することができる。図11Gは、反復している成分を有する識別子の構築が、等しい端配列および一部の核酸配列(例えば、上から3番目と4番目、および上から6番目と7番目)については等しい長さを有する、複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、PCRおよびDNAサイズ排除を実行した場合であっても一方を構築することができず、他方の構築もないような、個々の識別子である両方から、除外され得る。
図12A~12Dは、より多数、M個、の可能な成分のうちの任意の数、K個、のアセンブルされた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための、「MchooseKスキーム」と呼ばれる方法の例を模式的に示す。図12Aは、MchooseKスキームを使用して構築された識別子のアーキテクチャを示す。この方法を使用して、識別子は、全ての層の任意のサブセットにおける各層からの1つの成分をアセンブルすることにより構築される(例えば、M個の可能な層のうちのk個の層から成分を選択する)。図12Bは、MchooseKスキームを使用して構築することができる識別子の組合せ空間の例を示す。このアセンブリスキームでは、組合せ空間は、M個の層、層毎にN個の成分、および成分数Kの識別子長の場合、NK個のMchooseKの可能な識別子を含むことがある。一例では、各々が1つの成分を含む5つの層がある場合には、2つの成分を各々含む最大10の区別可能な識別子をアセンブルすることができる。
MchooseKスキームは、図12Cに示されているように、鋳型誘導型ライゲーション(化学的方法セクションBを参照されたい)を使用して実行することができる。並び替えスキームについてのTDLインプリメンテーション(図11C)と同様に、この例での成分は、反応マスターミックスに含まれることもあり、含まれないこともある、縁足場間でアセンブルされる。M個の層、例えば、左縁足場がランク1であり得、右縁足場がランクM+1であり得る場合、2~Mの事前に定義されたランクを有するM=4層に、成分を分割することができる。鋳型は、より低いランク~より高いランクをそれぞれ有する任意の2成分の3’→5’ライゲーションのための核酸配列を含む。((M+1)2+M+1)/2個のそのような鋳型がある。区別可能な層からの任意のK個の成分の個々の識別子は、対応するK+1個のステープルが縁足場とK個の成分をそれらのランク順に接合するために使用されるライゲーション反応でそれらの選択された成分を組み合わせることにより、構築することができる。このような反応設定は、縁足場間で標的識別子に対応する核酸配列を生じさせることができる。あるいは、全ての鋳型を含む反応ミックスを選ばれた成分と組み合わせて標的識別子をアセンブルすることができる。この代替方法は、図12Dに示されているように、区別可能な長さだが同じ端配列を有する(全ての成分長が等しい場合)様々な核酸配列を生成することができる。標的識別子(一番下)を、副産物核酸配列からサイズにより単離することができる。核酸サイズ選択については化学的方法セクションEを参照されたい。
図13Aおよび13Bは、区分された成分を有する識別子を構築するための、「パーティションスキーム」と呼ばれる方法の例を模式的に示す。図13Aは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。異なる層の任意の2つの成分間に任意のパーティション(空間的分類成分)を必要に応じて配置して各層からの1つの成分を固定された順序でアセンブルすることにより、個々の識別子を構築することができる。例えば、1セットの成分を、1つのパーティション成分と、1つの成分を各々が含有する4つの層とに組織化することができる。各層からの成分を固定された順序で組み合わせることができ、単一パーティション成分を層間の様々な位置にアセンブルすることができる。この組合せ空間における識別子は、8つの可能な識別子の組合せ空間を作成するために、パーティション成分を含まないこと、第1の層からの成分と第2の層からの成分の間にパーティションを含むこと、第2の層からの成分と第3の層からの成分の間にパーティションを含むことなどがある。一般に、N個の成分を各々が有するM個の層とp個のパーティション成分とを用いて、NK(p+1)M-1個の可能な識別子を構築することができる。この方法は、様々な長さの識別子を生成することができる。
図13Bは、鋳型誘導型ライゲーション(化学的方法セクションBを参照されたい)を使用するパーティションスキームのインプリメンテーションの例を示す。鋳型は、M個の層の各々から1つの成分を固定された順序で互いにライゲーションするための核酸配列を含む。パーティション成分毎に、鋳型の追加の対が存在し、これらにより、任意の2つの隣接する層からの成分間におけるパーティション成分のライゲーションが可能になる。例えば、対のうちの一方の鋳型(例えば、配列g*b*(5’→3’)を有する)が、層1(配列bを有する)の3’末端がパーティション成分(配列gを有する)の5’末端にライゲーションするのを可能にするような、および対のうちのもう一方の鋳型(例えば、配列c*h*(5’→3’)を有する)が、パーティション成分(配列hを有する)の3’末端が層2(配列cを有する)の5’末端にライゲーションするのを可能にするような、鋳型の対。隣接する層の任意の2つの成分の間にパーティションを挿入するために、これらの層を互いにライゲーションするための標準鋳型を反応に含めなくてもよく、その位置でパーティションをライゲーションするための鋳型の対を反応において選択してもよい。現行の例では、層1と層2の間のパーティション成分の標的化は、鋳型c*b*(5’→3’)ではなく鋳型c*h*(5’→3’)と鋳型g*b*(5’→3’)の対を反応のための選択に使用することができる。成分を、反応ミックスに(最初の層およびM番目の層にそれぞれライゲーションするためのそれらの対応する鋳型と共に)含めることができる縁足場間で、アセンブルすることができる。一般に、M個の層およびp個のパーティション成分の場合、合計約M-1+2*p*(M-1)個の選択可能な鋳型をこの方法に使用することができる。パーティションスキームのこのインプリメンテーションは、区別可能な長さだが同じ端配列を有する様々な核酸配列を反応で生成することができる。標的識別子を、副産物核酸配列からDNAサイズ選択により単離することができる。具体的には、ちょうど1つの核酸配列産物が、ちょうどM個の層成分を有することができる。層成分が、パーティション成分と比較して十分大きく設計されている場合、識別子内の成分の特定の区分化にかかわらず識別子を選択することができる(かつどの非標的化副産物も選択されることがない)普遍的サイズ選択領域を定義することが可能であり得、それによって、複数の反応から複数の区分された識別子を同じサイズ選択ステップで単離することが可能になる。核酸サイズ選択については化学的方法セクションEを参照されたい。
図14Aおよび14Bは、いくつかの可能な成分からの成分の任意の列で構成されている識別子を構築するための、「無制約列スキーム」または「USS」と呼ばれる方法の例を模式的に示す。図14Aは、無制約列スキームを使用して構築することができる3成分(または4足場)長識別子の組合せ空間の例を示す。無制約列スキームは、1つまたは複数の層から各々取られた1つまたは複数の区別可能な成分を有する長さK成分の個々の識別子を構築し、この場合、各々の区別可能な成分が、識別子内のK成分位置のいずれかに出現し得る(これにより反復が可能になる)。例えば、1つの成分を各々が含む2つの層の場合、可能な3成分長識別子が8つある。一般に、1つの成分を各々が有するM個の層に関しては、長さKの成分の可能な識別子がMK個ある。図14Bは、鋳型誘導型ライゲーション(化学的方法セクションBを参照されたい)を使用する無制約列スキームのインプリメンテーションの例を示す。この方法では、K+1個の一本鎖状の順序付けられた足場DNA成分(2個の縁足場およびK-1個の内部足場を含む)が反応ミックス中に存在する。個々の識別子は、隣接する足場のあらゆる対の間でライゲーションした単一の成分を含む。例えば、足場Aと足場B間でライゲーションした成分、足場Cと足場D間でライゲーションした成分など(K個全ての隣接する足場接合部が成分により占有されるまで)。反応では、異なる層から選択された成分が、それらを適切な足場上にアセンブルするように方向付けるステープルの選択された対と共に、足場に導入される。例えば、ステープルa*L*(5’→3’)とステープルA*b*(5’→3’)の対は、5’末端領域「a」と3’末端領域「b」とを有する層1成分を、L足場とA足場の間でライゲーションするように方向付ける。一般に、M個の層およびK+1個の足場で、2*M*K個の選択可能なステープルを使用して長さKの任意のUSS識別子を構築することができる。成分を足場に5’末端で接続するステープルと同じ成分を足場に3’末端で接続するステープルは分離しているため、核酸副産物は、標的識別子と等しい縁足場との、しかしK個未満の成分(K+1個未満の足場)との、またはK個より多い成分(K+1個より多い足場)との、反応で形成し得る。標的化された識別子は、ちょうどK個の成分(K+1個の足場)を用いて形成することができ、したがって、全ての成分が等しい長さになるように設計され、全ての足場が等しい長さになるように設計された場合、DNAサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては化学的方法セクションEを参照されたい。1層当たり1つの成分が存在し得る無制約列スキームについてのある特定の実施形態では、その成分は、(1)識別バーコード、(2)足場への5’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域、および(3)足場への3’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域という、3つの役割の全てを満たす単一の区別可能な核酸配列を、専ら含み得る。
図14Bに示されている内部足場を、それらが、ある成分への足場のステープル媒介5’ライゲーションと別の(必ずしも明確に異ならない)成分への足場のステープル媒介3’ライゲーションとの両方に同じハイブリダイゼーション配列を使用するように、設計することができる。したがって、図14Bにおいて描かれている1足場、2ステープルのスタック式ハイブリダイゼーション事象は、足場とステープルの各々との間で起こる、したがって、5’成分ライゲーションと3’成分ライゲーションの両方を可能にする、統計学的前進・後退ハイブリダイゼーション事象を表す。無制約列スキームの他の実施形態では、2つの連結されたハイブリダイゼーション領域-ステープル媒介3’ライゲーションのための区別可能な3’ハイブリダイゼーション領域およびステープル媒介5’ライゲーションのための区別可能な5’ハイブリダイゼーション領域-を伴う足場を設計することができる。
図15Aおよび15Bは、親識別子からの核酸配列(または成分)を削除することにより識別子を構築するための、「成分削除スキーム」と呼ばれる方法の例を模式的に示す。図15Aは、成分削除スキームを使用して構築することができる可能な識別子の組合せ空間の例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約2、3、4、5、6、7、8、9、10、20、30、40、50もしくはそれを超える数より多い、または約2、3、4、5、6、7、8、9、10、20、30、40、50もしくはそれを超える数に等しい数の、成分を含み得る。個々の識別子は、N個の可能な成分から任意の数の成分を選択的に削除して、サイズ2Nの「完全」組合せ空間をもたらすことにより、またはN個の可能な成分から固定数Kの成分を削除して、かくてサイズNchooseKの「NchooseK」組合せ空間をもたらすことにより、構築することができる。3個の成分を有する親識別子を用いる一例では、完全組合せ空間は8であり得、3choose2組合せ空間は3であり得る。
図15Bは、二本鎖標的化切断および修復(DSTCR)を使用する成分削除スキームのインプリメンテーションの例を示す。親配列は、ヌクレアーゼ特異的標的部位(長さ4塩基またはそれ未満の塩基数であり得る)が隣接している成分を含む一本鎖DNA基質であることがあり、この場合、親は、標的部位に対応する1つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベーションされ得る。個々の成分は、親の成分DNA(および隣接ヌクレアーゼ部位)に結合する相補的一本鎖DNA(または切断鋳型)での削除について標的化され得、その結果、ヌクレアーゼにより両端が切断され得る、親上の安定した二本鎖配列が形成される。別の一本鎖DNA(または修復鋳型)は、親の結果として生じる分離した末端(これらの間に成分配列が存在した)とハイブリダイズし、それらをライゲーションのために、直接的にせよ、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、置換配列により架橋させてにせよ、一緒にされる。本発明者らは、この方法を「二本鎖標的化切断」(DSTC)と呼ぶ。サイズ選択を使用して、ある特定の数の成分が削除された識別子を選択することができる。核酸サイズ選択については化学的方法セクションEを参照されたい。
あるいは、または加えて、親識別子は、どの2つの成分にも同じ配列が隣接しないようにスペーサー配列により隔てられている成分を含む、二本鎖または一本鎖核酸基質であることもある。親識別子は、Cas9ヌクレアーゼと共にインキュベートされ得る。個々の成分は、成分の縁に結合してその隣接部位でのCas9媒介切断を可能にするガイドリボ核酸(切断鋳型)での削除について標的化され得る。一本鎖核酸(修復鋳型)は、親識別子の結果として生じる、分離した末端(例えば、これらの末端間に成分配列が存在した)にハイブリダイズすることができ、かくて、それらをライゲーションのために一緒にされる。ライゲーションを直接行ってもよく、または親のライゲーションされた配列が、Cas9によって標的化され得るスペーサー配列をもはや含有しないように、置換配列で末端を架橋させることによって行ってもよい。本発明者らは、この方法を「配列特異的な標的化切断および修復」または「SSTCR」と呼ぶ。
識別子を、DSTCRの派生型を使用して親識別子に成分を挿入することにより構築することができる。親識別子は、区別可能な核酸配列内に各々が埋め込まれているヌクレアーゼ特異的標的部位(これらは長さが4塩基またはそれ未満の塩基数であり得る)を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する1つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子の個々の標的部位は、親識別子の標的部位および区別可能な周囲核酸配列に結合する相補的一本鎖核酸(切断鋳型)での成分挿入について標的化され得、その結果、二本鎖部位が形成される。二本鎖部位をヌクレアーゼにより切断することもできる。別の一本鎖核酸(または修復鋳型)は、親識別子の結果として生じる分離した末端にハイブリダイズし、それらをライゲーションのために、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて、一緒にされる。あるいは、SSTCRの派生型を使用して、親識別子に成分を挿入することができる。親識別子は、二本鎖核酸または一本鎖核酸であり得、親は、Cas9ヌクレアーゼと共にインキュベートされ得る。親識別子の区別可能な部位は、ガイドRNA(切断鋳型)での切断について標的化され得る。一本鎖核酸(または修復鋳型)は、親識別子の分離した末端にハイブリダイズし、それらをライゲーションのために、親識別子のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて、一緒にされる。サイズ選択を使用して、ある特定の数の成分が挿入された識別子を選択することができる。
図16は、リコンビナーゼ認識部位を有する親識別子を模式的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識され得る。リコンビナーゼの所与のセットについての全ての認識部位は、それらの間の核酸が、リコンビナーゼが適用されると切除され得るように、配列される。図16に示されている核酸鎖は、それに適用されるリコンビナーゼのサブセットに依存して25=32の異なる配列を採用することができる。一部の実施形態では、図16に描かれているように、DNAのセグメントを切除、シフト、反転および転置するためにリコンビナーゼを使用して一意の分子を生成して、異なる核酸分子を作出することができる。一般に、N個のリコンビナーゼを用いて、2N個の可能な識別子を親から構築することができる。一部の実施形態では、異なるリコンビナーゼからの認識部位の複数の直交対を、1つのリコンビナーゼの適用が、下流のリコンビナーゼが適用された場合に起こる組換え事象のタイプに影響を与えるように、オーバーラップ方式で親識別子上に配列することができる(全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたい)。このようなシステムは、N個のリコンビナーゼの順序づけ、N!毎に異なる識別子を構築することが可能であり得る。リコンビナーゼは、チロシンファミリーのリコンビナーゼ、例えば、FlpおよびCreであってもよく、または大きいセリンリコンビナーゼファミリーのリコンビナーゼ、例えば、PhiC31、BxbI、TP901もしくはA118であってもよい。大きいセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、それらが不可逆的組換えを容易にし、したがって、他のリコンビナーゼより効率的に識別子を生成することができるため、有利であり得る。
一部の例では、多数のリコンビナーゼを区別可能な順序で適用することにより多くの区別可能な核酸配列になるように、単一核酸配列をプログラムすることができる。リコンビナーゼの数であるMが、大きいセリンリコンビナーゼファミリーについて7未満であり得るかまたは7であり得る場合、異なるサブセットの中のM個のリコンビナーゼを異なる順序で適用することにより、おおよそ約e1M!個の区別可能な核酸配列を生成することができる。リコンビナーゼの数であるMが、7を超え得る場合、生成され得る配列の数は、3.9Mほどである;例えば、全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたい。1つの共通配列から異なるDNA配列を生成するためのさらなる方法は、CRISPR-Cas、TALEN、およびジンクフィンガーヌクレアーゼなどの、標的化核酸編集酵素を含み得る。リコンビナーゼ、標的化編集酵素などにより生成される配列を、前の方法、例えば、本願の図のいずれかおよび開示において開示される方法のいずれかと併せて、使用することができる。
符号化すべき情報のビットストリームが、任意の単一核酸分子により符号化され得るものより大きい場合には、情報を分割し、核酸配列バーコードでインデックス化することができる。さらに、N個の核酸分子のセットからのサイズkの核酸分子の任意のサブセットを選択して、log2(Nchoosek)ビットの情報を生成することができる。バーコードをサイズkのサブセット内の核酸分子上にアセンブルして、さらにより長いビットストリームを符号化することができる。例えば、M個のバーコードを使用して、M*log2(Nchoosek)ビットの情報を生成することができる。あるセット内の利用可能な核酸分子の数N、および利用可能なバーコードの数Mを考慮して、サイズk=k0のサブセットを、1つの情報を符号化するためのプール内の分子の総数を最小限にするように選択することができる。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、6個のビットを含むビットストリームを、各成分が2個のビットを含む3つの成分に分割することができる。2ビット成分各々をバーコード化して情報カセットを形成し、一緒に群化またはプールして、情報カセットのハイパープールを形成することができる。
バーコードは、符号化すべきデジタル情報の量が、1つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された一意の核酸配列を有するタグを含めることにより、図3で開示される手法を階層化することによって、より長いビット列および/または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分(単数または複数)を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する一意の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、1つまたは複数の一意の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報(例えば、ビット値およびビット位置情報)を一意の配列が符号化しているのかを示すことができる。
バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば10ビットの配列を、各バイトが5ビットを含む2セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子5個の1セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る者が、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識(例えば、第1の5ビットを提供するために、バーコード1を、核酸プール内の配列に結合させることができ、および第2の5ビットを提供するために、バーコード2を、核酸プール内の配列に結合させることができる)を用いて各識別子をバーコード化またはタグ付けし、そしてその後、それら2つのバイトに対応する識別子を組み合わせて1つのプール(例えば、「ハイパープール」または1つもしくは複数の識別子ライブラリー)にすることができる。1つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得る。識別子ライブラリー中の各識別子にバーコードを付加させる方法は、PCR、ギブソン、ライゲーション、または所与のバーコード(例えば、バーコード1)が所与の核酸試料プールに(例えば、バーコード1が核酸試料プール1に、およびバーコード2が核酸試料プール2に)結合できるようにする任意の他の手法を使用することを含み得る。シークエンシング法を用いてハイパープールからの試料を読み取ることができ、バーコードまたはタグを使用してシークエンシング情報を構文解析することができる。識別子ライブラリーおよびバーコードをM個のバーコードとN個の可能な識別子のセット(組合せ空間)で使用する方法は、MとNの積に相当する長さを有するビットストリームを符号化することができる。
一部の実施形態では、識別子ライブラリーをウェルのアレイに記憶させることができる。ウェルのアレイは、n個の列とq個の行を有すると定義することができ、各ウェルは、ハイパープール内の2つまたはそれより多くの識別子ライブラリーを含むことができる。各ウェル内の符号化された情報は、ウェルの各々に収容されている情報よりも大きいn×qサイズの1つの大きい連続した情報項目を構成し得る。ウェルのアレイ内の1つもしくは複数のウェルからアリコートを取り、シークエンシング、ハイブリダイゼーションまたはPCRを使用して符号化を読み取ることができる。
核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する一意の核酸分子(例えば、識別子)、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある(例えば、ビット値に対応しない)。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的供給源に由来することもあり、合成的に生成されることもある。生物学的供給源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、特に、合成的に符号化された情報(例えば、識別子の組合せ空間)が天然遺伝情報(例えば、断片化されたゲノム)と似ているように作成された場合、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的供給源に由来し、補足核酸は、生物学的供給源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、1つまたは複数の生物に由来し、補足核酸配列は、単一の、異なる生物に由来する。補足核酸配列は、1つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。
補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および/または一次情報の意図された受信者を決定および/または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への1つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された1つもしくは複数のバーコードまたはタグに記憶されることもある。
識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×104%、1×105%、1×106%、1×107%、1×108%もしくはそれ未満より低いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×104%、1×105%、1×106%、1×107%、1×108%もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×104%、1×105%、1×106%、1×107%、1×108%もしくはそれを超える%より高いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×104%、1×105%、1×106%、1×107%、1×108%もしくはそれを超える%に等しいこともある。より高い濃度は、難読化またはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い(例えば、1×108%高い)。
核酸配列に記憶されたデータをコピーするおよびそのようなデータにアクセスする方法
別の態様では、本開示は、核酸配列に符号化された情報をコピーする(または複製する)方法を提供する。核酸配列に符号化された情報をコピーする方法は、(a)識別子ライブラリーを提供するステップと、(b)識別子ライブラリーの1つまたは複数のコピーを構築するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、(a)識別子ライブラリーを提供するステップと、(b)識別子ライブラリーから識別子ライブラリー中に存在する識別子の一部またはサブセットを抽出するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
情報を本明細書の他の箇所に記載されているように1つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。識別子ライブラリー中のまたは1つもしくは複数の識別子ライブラリー中の個々の識別子のコピーを生成することにより、記憶されたデータをコピーすることができる。識別子の一部がコピーされることもあり、またはライブラリー全体がコピーされることもある。識別子ライブラリー中の識別子を増幅することにより、コピーを行うことができる。1つまたは複数の識別子ライブラリーが組み合わせられるとき、単一の識別子ライブラリーがコピーされることもあり、または複数の識別子ライブラリーがコピーされることもある。識別子ライブラリーが補足核酸配列を含む場合、補足核酸配列は、コピーされることもあり、またはコピーされないこともある。
1つまたは複数の共通プライマー結合部位を含むように、識別子ライブラリー中の識別子を構築することができる。1つまたは複数の結合部位は、各識別子の縁に位置することもあり、または各識別子の全体にわたって織り交ぜられていることもある。プライマー結合部位は、識別子ライブラリー特異的プライマー対またはユニバーサルプライマー対が識別子に結合することおよび識別子を増幅することを可能にし得る。識別子ライブラリー中の全ての識別子、または1つもしくは複数の識別子ライブラリー中の全ての識別子を、複数のPCRサイクルにより複数回複製することができる。従来のPCRを使用して識別子をコピーすることができ、識別子を各PCRサイクルに伴って指数関数的に複製することができる。識別子のコピーの数を、各PCRサイクルに伴って指数関数的に増加させることができる。線形PCRを使用して識別子をコピーすることができ、識別子を各PCRサイクルに伴って線形に複製することができる。識別子のコピーの数を、各PCRサイクルに伴って線形に増加させることができる。識別子をPCR増幅の前に環状ベクターにライゲーションすることができる。環状ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのPCRプライマーは、ベクターからプライミングするように設計することができ、したがって、バーコード化された縁は、識別子に伴って増幅産物に含まれる。増幅中に、識別子間の組換えの結果として、各々の縁に無相関のバーコードを含むコピーされた識別子が生じ得る。無相関のバーコードは、識別子の読み取り時に検出可能であり得る。無相関のバーコードを含有する識別子を偽陽性と見なすことができ、情報復号プロセス中は無視することができる。化学的方法セクションDを参照されたい。
情報の各ビットを一意の核酸分子に割り当てることにより、情報を符号化することができる。例えば、2つの核酸配列を各々が有する3つの試料セット(X、YおよびZ)は、8個の一意の核酸分子にアセンブルし、下記の8個のデータビットを符号化することができる:
N1=X1Y1Z1
N2=X1Y1Z2
N3=X1Y2Z1
N4=X1Y2Z2
N5=X2Y1Z1
N6=X2Y1Z2
N7=X2Y2Z1
N8=X2Y2Z2
したがって、列の中の各ビットを対応する核酸分子に割り当てることができる(例えば、N1は、第1のビットを指定することができ、N2は、第2のビットを指定することができ、N3は、第3のビットを指定することができる、など)。ビット列全体を核酸分子の組合せに割り当てることができ、この場合、「1」のビット値に対応する核酸分子が、組合せまたはプールに含まれる。例えば、UTF-8符号化では、文字「K」を8ビット列コード01001011によって表すことができ、この8ビット列コードを4つの核酸分子の存在によって符号化することができる(例えば、上の例ではX1Y1Z2、X2Y1Z1、X2Y2Z1、およびX2Y2Z2)。
情報にシークエンシングまたはハイブリダイゼーションアッセイによってアクセスすることができる。例えば、プライマーまたはプローブを、核酸配列の共通領域またはバーコード化領域に結合するように設計することができる。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物のシークエンシングにより、またはハイブリダイゼーションアッセイにより、読み取ることができる。文字「K」を符号化する上の例では、データの前半が目的のものである場合、X1核酸配列のバーコード領域に特異的なプライマー、およびZセットの共通領域に結合するプライマーを使用して、核酸分子を増幅することができる。これにより、0100を符号化することができる配列Y1Z2を返すことができる。Y1核酸配列のバーコード領域に結合するプライマーおよびZセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することにより、そのデータの部分列にもアクセスすることができる。これにより、部分列01を符号化するZ2核酸配列を返すことができる。あるいは、シークエンシングを用いずに特定の核酸配列の存在または非存在についてチェックすることにより、データにアクセスすることもできる。例えば、Y2バーコードに特異的なプライマーを用いる増幅は、Y1バーコードではなくY2バーコードについての増幅産物を生成することができる。Y2増幅産物の存在は、「1」のビット値を知らせることができる。あるいは、Y2増幅産物の非存在は、「0」のビット値を知らせることができる。
PCRベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール(例えば、識別子ライブラリー)からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションDを参照されたい。試料がハイパープールを含む例では、識別子の一方の縁にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の縁にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスすること、およびそのようなサブセットを取得することができる。このプロセスを複数回反復して、識別子のサブプール(例えば、2つまたはそれより多くの特定のバーコードを有する全ての核酸)からのサブプールにアクセスすることができる。例えば、一方の縁にある特定のバーコードに結合するプライマーを先ず用い、そしてその後、前記縁から除去された特定のバーコード1に結合する特定のプライマーを再び用い、そしてその後、前記縁から除去されたバーコード2に結合する特定のプライマーを再び用いるなどの、ネステッドPCRを使用することによる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。
核酸分子(例えば、識別子)に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的化識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的化された識別子を選択的に捕捉することにより行うこともできる。標的化された識別子は、より長い情報項目の中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的化された識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図17A~17Cは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図17Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリー)は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。1つまたは複数のプライマーが、識別子の縁の共通または可変領域に結合し得る。プライマーが結合している識別子を、PCRにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、1つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。
核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数のプローブと相補性を共有し得る。1つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、ビーズに結合して、ビーズと少なくとも1つのプローブと少なくとも1つの識別子とを含む複合体を生成することができる。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的化識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。親和性タグは、カラムに結合することができる。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的化識別子をカラムに選択的に標的化することができ、その一方で、標的化された識別子は、カラムを通って流れうる。標的化された識別子へのアクセスは、1つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または1つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。核酸捕捉に関しては化学的方法セクションFを参照されたい。
分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、1つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの1つとハイブリダイズすることができる。プローブのセットは、RNAを含むことがあり、RNAは、Cas9酵素を誘導することができる。Cas9酵素を1つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Cas9酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばS1ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー(例えば、アガロースゲル電気泳動)などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を(例えば、PCRを使用して)選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。
図17Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、2つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「OR」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスPCR反応において2つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、1つのフォワードプライマーが左末端の識別子のセットに結合し、1つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら2セットの交差点の「AND」増幅を、フォワードプライマーとリバースプライマーをPCR反応においてプライマー対として一緒に使用することにより、果たすことができる。このプロセスを逐次方式(例えば、ネステッドPCR)で反復して、任意の数の成分を共通して有する識別子サブプールにアクセスすることができる。
プライマーは、各々の縁から内側へ内側へと繰り返し成分に結合するように設計されているので、識別子ライブラリーに対するPCRベースのアクセスを繰り返すたびに、識別子は短くなり得る。例えば、識別子ライブラリーは、A-B-C-D-E-F-Gという形の識別子を含むことができ、この場合のA、B、C、D、E、FおよびGは層である。特定の成分に結合するプライマーを用いて、例えば、層AおよびGにおいてそれぞれA1およびG1を用いて増幅すると、識別子ライブラリーの増幅された部分は、A1-B-C-D-E-F-G1という形を取ることができる。特定の成分に結合するプライマーを用いて、例えば、層BおよびFにおいてそれぞれB1およびF1を用いてさらに増幅すると、識別子ライブラリーの増幅された部分は、B1-C-D-E-F1という形を取り、これらのより短い増幅された配列は、成分A1を層Aの位置におよびG1を層Gの位置にさらに含む完全識別子に対応すると考えることができる。
図17Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「P1」が、成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が、成分「C2」を有する全ての識別子を捕捉する場合には、P1およびP2を同時に使用することによりC1またはC2を有する全ての識別子のセットを捕捉することができる(「OR」操作に対応する)。同じ成分およびプローブを用いる別の例では、P1およびP2を逐次的に使用することによりC1およびC2を有する全ての識別子のセットを捕捉することができる(「AND」操作に対応する)。
核酸配列に記憶された情報を読み取る方法
別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、(a)識別子ライブラリーを提供するステップと、(b)識別子ライブラリー中に存在する識別子を識別するステップと、(c)識別子ライブラリー中に存在する識別子から記号列を生成するステップと、(d)記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
情報を本明細書の他の箇所に記載されているように1つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。
識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、二進列中の第1の記号値(例えば、第1のビット値)を示すことができ、識別子ライブラリー中の識別子の非存在は、二進列中の第2の記号値(例えば、第2のビット値)を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に対してビット値を基づかせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「1」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「0」のビット値を示すことができる。
1つの情報についての記号(例えば、ビット値)の生成は、記号(例えば、ビット)をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために本識別子をシークエンシングすることまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、シークエンシングプラットフォームを使用して行うことができる。シークエンシングプラットフォームの例は、2014年8月21日に出願された米国特許出願第14/465,685号、2013年5月2日に出願された米国特許出願第13/886,234号、および2009年3月9日に出願された米国特許出願第12/400,593号に記載されており、これらの各々は、全体が参照により本明細書に組み込まれる。
一例では、核酸符号化データの復号は、Illumina(登録商標)Sequencingなどの、核酸鎖の塩基毎のシークエンシングにより果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示すシークエンシング技術を利用することにより果たすことができる。シークエンシングは、可逆的ターミネーターの使用を利用することもある。シークエンシングは、天然または非天然(例えば、操作された)ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシークエンシング、ハイスループットシークエンシング、合成によるシークエンシング、単一分子シークエンシング、ライゲーションによるシークエンシング、RNA-Seq(Illumina)、次世代シークエンシング、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガンシークエンシング、マクサム(Maxim)・ギルバートシークエンシング、または大規模並列シークエンシングを含むがこれらに限定されない、様々なシークエンシング手法を使用することができる。
様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。
識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。
より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で3つの核酸分子(例えば、識別子)にマッピングされ得る「111」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「000」部分列に再符号化することができる。「000」の代替入力部分列を「111」に再符号化することもできる。この再符号化方法は、データセット中の「1」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「111」を「00」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「1」の数を低減させることができる。
検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する(例えば、高める)ことができる。例えば、検出を容易にするために設計される核酸配列(例えば、識別子)は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、dNaM、3-メトキシ-2-ナフチル基を含有する人工ヌクレオシド、およびd5SICS、6-メチルイソキノリン-1-チオン-2-イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を伴って設計されることもある。DNA設計に関しては化学的方法セクションHを参照されたい。
操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。
シークエンシングプラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。シークエンシングプラットフォームを一本鎖または二本鎖核酸分子のシークエンシング専用にすることができる。シークエンシングプラットフォームは、個々の塩基を読み取ること(例えば、塩基毎のシークエンシング)により、または核酸分子(例えば、識別子)に組み込まれた全核酸配列(例えば、成分)の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。シークエンシングプラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。シークエンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果としてシークエンシング時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、一意の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その一意の光学的、電気化学的または化学的シグナルの存在または非存在は、「0」または「1」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。
符号化および復号エラーを最小限にするまたは検出するために、一意のコードを適用することができる。符号化および復号エラーは、偽陰性(無作為試料抽出に含まれない核酸分子または識別子)によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実施形態では、チェックサム配列をR識別子の連続セット毎に含めることができ、この場合のRは、サイズが1、2、5、10、50、100、200、500もしくは1000に等しいまたはそれより大きいこともあり、または1000、500、200、100、50、10、5もしくは2未満であることもある。Rの値が小さいほど、エラー検出は良好である。一部の実施形態では、チェックサムは、補足核酸配列であり得る。例えば、7個の核酸配列(例えば、成分)を含むセットを、積スキームで識別子を構築するための核酸配列(層X中の成分X1~X3、および層Y中のY1~Y3)と補足チェックサムのための核酸配列(X4~X7およびY4~Y7)という、2つの群に分けることができる。チェックサム配列X4~X7は、層Xの0、1、2または3個の配列が層Yの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Y4~Y7は、層Yの0、1、2または3個の配列が層Xの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるX1Y1の非存在、ならびにX1Y6およびX6Y1の存在は、X1Y1核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、PCRまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および/または単離することができる。一部の実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。
データ符号化および復号のノイズを、パリンドロームとして識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分のパリンドローム対を使用することにより、低減させることができる。次いで、異なる層からの成分の対をパリンドローム様式(例えば、成分XおよびYについてXYではなくYXY)で互いにアセンブルすることができる。このパリンドローム方法を、より多くの数の層(例えば、XYZではなくZYXYZ)に拡大することができ、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。
識別子への過剰(例えば、大過剰)な補足核酸配列の付加は、シークエンシングによる符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。あるいは、または加えて、特異的プライマーを使用するシークエンシング(例えば、合成によるシークエンシング)により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。
バイナリ配列データを符号化するためのシステム
デジタル情報を核酸(例えば、DNA)に符号化するためのシステムは、ファイルおよびデータ(例えば、生データ、圧縮されたzipファイル、整数データ、および他の形態のデータ)をバイトに変換し、バイトを核酸、一般にはDNAのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。
ある態様では、本開示は、核酸を使用してバイナリ配列データを符号化するためのシステムを提供する。核酸を使用してバイナリ配列データを符号化するためのシステムは、デバイスおよび1つまたは複数のコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリーが構築されるように構成することができる。(i)情報を記号列に翻訳するため、(ii)記号列を複数の識別子にマッピングするため、および(iii)複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するために、1つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、1つまたは複数の成分に含み得る。1つまたは複数の成分の個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸を使用してバイナリ配列データを読み取るためのシステムを提供する。核酸を使用してバイナリ配列データを読み取るためのシステムは、データベースおよび1つまたは複数のコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリーを記憶し得る。(i)識別子ライブラリー中の識別子を識別するため、(ii)(i)で識別された識別子から複数の記号を生成するため、および(iii)複数の記号から情報をコンパイルするために、1つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。識別子ライブラリーは、複数の識別子のサブセットを含み得る。複数の識別子の各個の識別子は、記号列内の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
デジタルデータを符号化するためのシステムを使用する方法の非限定的な実施形態は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス(または識別子のランク)を使用してバイト内のビットの位置をマッピングし、ビット値1またはビット値0のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、1つまたは複数のビットにマッピングされる核酸の配列(例えば、識別子)を含む核酸試料または核酸プールについてシークエンシングし、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。
核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合されたユニットであってもよく、上述の操作の1つまたは複数が実行されるように構成された複数のユニットであってもよい。情報を核酸分子(例えば、識別子)に符号化し、書き込むためのシステムは、デバイスおよび1つまたは複数のコンピュータプロセッサを含み得る。1つまたは複数のコンピュータプロセッサは、情報が記号列(例えば、ビットの列)に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を2つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。1つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。
デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの1つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、1つまたは複数の一意の成分を含み得る。1つの層内の成分は、別の層の成分と重複しない一意のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分、および鋳型をデバイスの1つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリ反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、1つまたは複数のその後の反応が行われて、識別子の1つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。1つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体(例えば、試薬、成分、鋳型)を転送することができる。
識別子ライブラリーをデバイスに保管することができるまたは別々のデータベースに移すことができる。データベースは、1つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件(例えば、識別子の分解を低減するための条件)をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる(凍結乾燥に関するより多くの情報に関しては化学的方法セクションGを参照されたい)。データベースは、紫外線光防護、温度の低下(例えば、冷蔵または凍結)、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸(EDTA)および/または核酸分子の安定性を維持するために緩衝液を含み得る。
データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、アリコートの識別子ライブラリーをデバイスから抽出し、そのアリコートを試薬および構成成分と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、1つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の1つよりも多くのプールを同時にコピーすることができる。
コピーされた識別子をコピーデバイスからアクセスデバイスに移すことができる。アクセスデバイスは、コピーデバイスと同じデバイスであってよい。アクセスデバイスは、別々の領域、セクション、またはパーティションを含み得る。アクセスデバイスは、親和性タグと結合した識別子を分離するための1つまたは複数のカラム、ビーズレザバー、または磁気領域を有し得る(核酸捕捉に関しては化学的方法セクションFを参照されたい)。その代わりに、またはそれに加えて、アクセスデバイスは、1つまたは複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る(核酸サイズ選択に関するより多くの情報については化学的方法セクションEを参照されたい)。コピーおよび抽出は、デバイスの同じ領域で実施されてもよく、デバイスの異なる領域で実施されてもよい(核酸増幅に関しては化学的方法セクションDを参照されたい)。
アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。シークエンシングプラットフォームは、核酸配列に符号化された情報の復号および読み取りのために特別に設計されたものであってよい。シークエンシングプラットフォームは、一本鎖または二本鎖核酸分子のシークエンシング専用のものであってよい。シークエンシングプラットフォームは、個々の塩基を読み取ることによって(例えば、塩基ごとのシークエンシング)、または核酸分子(例えば、識別子)内に組み入れられた核酸配列全体(例えば、成分)の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、シークエンシングプラットフォームは、Illumina(登録商標)Sequencingなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによって実装される様々な解析技法を使用して実施することができる。
核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報(例えば、病歴および診療記録)を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき(例えば、着用できるデバイス中に)、体内に保管することもできる(例えば、皮下カプセル中に)。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診療記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診療記録の保管により、診療記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診療記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。
コンピュータシステム
本開示は、本開示の方法を実装するようにプログラミングされたコンピュータシステムを提供する。図19は、デジタル情報を核酸配列に符号化し、かつ/または核酸配列から導き出された情報を読み取る(例えば、復号する)ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム1901を示す。コンピュータシステム1901は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。
コンピュータシステム1901は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも)1905を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム1901はまた、メモリまたはメモリ位置1910(例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ)、電子記憶装置1915(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース1920(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターなどの周辺機器1925も含む。メモリ1910、記憶装置1915、インターフェース1920および周辺機器1925は、CPU1905と、マザーボードなどの通信バス(実線)を通じて通信する。記憶装置1915は、データを保管するためのデータストレージユニット(またはデータリポジトリ)であってよい。コンピュータシステム1901は、通信インターフェース1920を利用してコンピュータネットワーク(「ネットワーク」)1930と作動可能にカップリングすることができる。ネットワーク1930は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク1930は、一部の場合では、電気通信および/またはデータネットワークであり得る。ネットワーク1930は、1つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク1930は、一部の場合ではコンピュータシステム1901を利用して、ピアツーピアネットワークを実装することができ、それにより、コンピュータシステム1901とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。
CPU1905は、プログラムまたはソフトウェアで具体化することができる機械可読命令のシークエンスを実行することができるものである。命令は、メモリ1910などのメモリ位置に記憶させることができるものである。命令をCPU1905に方向付けることができ、その後、それにより、CPU1905を、本開示の方法を実装するようにプログラムするまたは他のやり方で構成することができる。CPU1905により実施される操作の例は、フェッチ、復号、実行、およびライトバック(writeback)を含み得る。
CPU1905は、集積回路などの回路の一部であってよい。システム1901の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)である。
記憶装置1915は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置1915は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム1901は、一部の場合では、例えばコンピュータシステム1901とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム1901に対して外付けである、1つまたは複数の追加的なデータストレージユニットを含み得る。
コンピュータシステム1901は、1つまたは複数の遠隔コンピュータシステムとネットワーク1930を通じて通信することができるものである。例えば、コンピュータシステム1901は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび/もしくは機構(例えば、シークエンサーまたは核酸配列中の窒素含有塩基の順序を化学的に決定するための他のシステム)と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android使用可能デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム1901にネットワーク1930を介してアクセスすることができる。
本明細書に記載の方法は、例えば、メモリ1910または電子記憶装置1915など、コンピュータシステム1901の電子ストレージ場所に記憶された機械(例えば、コンピュータプロセッサ)により実行可能なコードによって実装することができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ1905によって実行することができる。一部の場合では、コードを記憶装置1915から取得し、プロセッサ1905による即時アクセスのためにメモリ1910に記憶させることができる。一部の状況では、電子記憶装置1915を除外し、機械により実行可能な命令をメモリ1910に記憶させることができる。
コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプレコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプレコンパイル様式でまたは同時コンパイル様式(as-compiled fashion)で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。
コンピュータシステム1901などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械(またはプロセッサ)実行可能なコードおよび/または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ(例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令をもたらすことに関与するあらゆる媒体を指す。
したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ(複数可)中のストレージデバイスなど、例えば、図に示されているデータベースなどを実装するために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波(RF)および赤外(IR)データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つまたは複数の命令の1つまたは複数のシークエンスをプロセッサに運ぶことに関与し得る。
コンピュータシステム1901は、例えば、クロマトグラフ、配列、ならびに、DNA記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたzipファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース(UI)1940を含む電子ディスプレイ1935を含み得るまたはそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザインターフェース(GUI)およびウェブに基づくユーザインタフェースが挙げられる。本開示の方法およびシステムは、1つまたは複数のアルゴリズムを介して実装することができる。アルゴリズムは、中央処理装置1905により実行されるとソフトウェアを介して実装することができる。デジタル情報を符号化する前に、デジタル情報を生データまたはzipファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、DNAインデックスおよび生データまたはzipファイルに圧縮もしくは復元されたデータを用いて使用することができる。
化学的方法セクション
A.オーバーラップ伸長PCR(OEPCR)アセンブリ
OEPCRでは、ポリメラーゼおよびdNTP(dATP、dTTP、dCTP、dGTPまたはそのバリアントもしくは類似体を含むデオキシヌクレオチド三リン酸)を含む反応で成分をアセンブルする。成分は、一本鎖核酸であっても二本鎖核酸であってもよい。互いに隣接するアセンブルされる成分は、相補的な3’末端、相補的な5’末端、または1つの成分の5’末端と隣接する成分の3’末端の間の相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と称され、OEPCR中の成分間のハイブリダイズした接合部の形成を容易にすることを目的とするものであり、ここで、1つの入力成分(またはその相補物)の3’末端がその意図された隣接成分(またはその相補物)の3’末端とハイブリダイズする。次いで、アセンブルされた二本鎖産物をポリメラーゼ伸長によって形成する。次いで、この産物を、その後のハイブリダイゼーションおよび伸長を通じてより多くの成分にアセンブルすることができる。図7は、3つの核酸をアセンブルするためのOEPCRの概略図例を例示する。
一部の実施形態では、OEPCRは、3つの温度:融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびに成分内または成分間での二次構造またはハイブリダイゼーションの形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏95度を超える。一部の実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、または105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、または90度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、またはそれよりも長く、例えば、30秒間、1分間、2分間、または3分間にわたって適用することができる。
アニーリング温度は、意図された隣接成分(またはそれらの相補物)の相補的な3’末端間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、意図されたハイブリダイズした核酸形成の算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏10度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、または70度であり得る。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含量が高いハイブリダイゼーション領域ほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたOEPCR反応用の成分を設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、または30秒間にわたって、またはそれよりも長く適用することができる。
伸長温度は、1つまたは複数のポリメラーゼ酵素によって触媒される、ハイブリダイズした3’末端の核酸鎖延長を開始させ、またそれを容易にすることを目的とするものである。一部の実施形態では、伸長温度を、ポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、または70度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、または60秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たり約15~45秒間であり得る。
OEPCRの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリングおよび伸長温度の例としては、摂氏60度、65度、または72度が挙げられる。
一部の実施形態では、OEPCRを1つの温度サイクルで実施することができる。そのような実施形態には、ただ2つの成分の意図されたアセンブリが伴い得る。他の実施形態では、OEPCRを複数の温度サイクルで実施することができる。OEPCRにおけるいかなる所与の核酸も、1つのサイクルでは最大で1つの他の核酸としかアセンブルできない。これは、アセンブリ(または伸長または延長)を核酸の3’末端でしか行うことができず、また、各核酸は3’末端を1つしか有することができないからである。したがって、複数の成分のアセンブリには複数の温度サイクルが必要になり得る。例えば、4種の成分のアセンブルには、3つの温度サイクルが伴い得る。6種の成分のアセンブルには5つの温度サイクルが伴い得る。10種の成分のアセンブルには9つの温度サイクルが伴い得る。一部の実施形態では、最低限必要なものよりも多くの温度サイクルを使用することによりアセンブリ効率を上昇させることができる。例えば、2種の成分をアセンブルするために4つの温度サイクルを使用することにより、1つの温度サイクルのみを使用するよりも多くの産物をもたらすことができる。これは、成分のハイブリダイゼーションおよび延長が、各サイクルにおいて成分の総数のうちごく一部で起こる統計学的事象だからである。したがって、アセンブルされた成分の総画分は、サイクルの増加と共に増加させることができる。
温度サイクリングの考慮事項に加えて、OEPCRにおける核酸配列の設計がそれらの互いとのアセンブリの効率に影響を及ぼす可能性がある。長いハイブリダイゼーション領域を有する核酸は、所与のアニーリング温度で、短いハイブリダイゼーション領域を有する核酸と比較してより効率的にハイブリダイズし得る。これは、より長いハイブリダイズした産物はより多数の安定な塩基対を含有し、したがって、全体的なハイブリダイズした産物がより短いハイブリダイズした産物よりも安定であり得るからである。ハイブリダイゼーション領域は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、またはそれよりも多くの塩基の長さを有し得る。
高グアニンまたはシトシン含量のハイブリダイゼーション領域は、所与の温度で、低グアニンまたはシトシン含量のハイブリダイゼーション領域よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりも安定な塩基対を形成するからである。ハイブリダイゼーション領域は、0%から100%の間の任意のグアニンまたはシトシン含量(GC含量としても公知)を有し得る。
ハイブリダイゼーション領域の長さおよびGC含量に加えて、OEPCRの効率に影響を及ぼし得る核酸配列設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とのハイブリダイゼーション産物を形成するその能力が妨げられる恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸についての可能な二次構造の型およびそれらの安定性(例えば、融解温度)は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、効率的なOEPCRのための適当な長さおよびGC含量の基準を満たす核酸配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ-ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。
同様に、ホモ二量体(同じ配列の核酸分子とハイブリダイズする核酸分子)および望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他の核酸配列とハイブリダイズする核酸配列)の形成により、OEPCRが妨げられる恐れがある。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、核酸設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して予測し、説明することができる。
より長い核酸配列またはより高いGC含量により、OEPCRでの望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短い核酸配列またはより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いハイブリダイゼーション領域または高いGC含量を使用する設計戦略が打ち消され得る。そのように、一部の実施形態では、高いGC含量の長いハイブリダイゼーション領域を使用するが低いGC含量の短い非ハイブリダイゼーション領域を使用することによってOEPCRを最適化することができる。核酸の全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。一部の実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域の最適な長さおよび最適なGC含量が存在し得る。
OEPCR反応におけるより多数の区別可能な核酸は、予測されるアセンブリ効率に干渉し得る。これは、より多数の区別可能な核酸配列により、望ましくない分子間相互作用、特にヘテロ二量体の形態のより高い確率が生じ得るからである。したがって、多数の成分をアセンブルするOEPCRの一部の実施形態では、効率的なアセンブリのための核酸配列の制約はよりストリンジェントになり得る。
予測される最終的なアセンブルされた産物を増幅するためのプライマーをOEPCR反応に含めることができる。次いで、OEPCR反応を、単に構成する成分間でより多くのアセンブリを創出することによってだけでなく、完全なアセンブルされた産物を従来のPCRの様式で指数関数的に増幅することによっても(化学的方法セクションDを参照されたい)アセンブルされた産物の収量を改善するために、より多くの温度サイクルを用いて実施することができる。
アセンブリ効率を改善するために添加剤をOEPCR反応に含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはこれらの組合せの添加。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のポリメラーゼをOEPCRのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸延長の間のより高い忠実度に寄与し得る3’から5’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間にリーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。このプロセスはA尾部付加と称され、また、アデニン塩基の付加により、意図された隣接成分間の設計された3’相補性が破壊され得るので、このプロセスはOEPCRに対して阻害性であり得る。
OEPCRは、ポリメラーゼサイクリングアセンブリ(またはPCA)とも称され得る。
B.ライゲーションアセンブリ
ライゲーションアセンブリでは、別々の核酸を、1つまたは複数のリガーゼ酵素および追加的な補因子を含む反応でアセンブルする。補因子は、アデノシン三リン酸(ATP)、ジチオスレイトール(DTT)、またはマグネシウムイオン(Mg2+)を含み得る。ライゲーションの間、1つの核酸鎖の3’末端を別の核酸鎖の5’末端と共有結合により連結し、したがって、アセンブルされた核酸を形成する。ライゲーション反応の成分は、平滑末端化された二本鎖DNA(dsDNA)、一本鎖DNA(ssDNA)、または部分的にハイブリダイズした一本鎖DNAであり得る。核酸の末端を1つにまとめる戦略は、リガーゼ酵素の実行可能な基質の頻度を増大させるものであり、したがって、リガーゼ反応の効率を改善するために使用することができる。平滑末端化されたdsDNA分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を1つにまとめるためのより上首尾の戦略は、それらがアセンブルすることが意図されている成分の突出との相補性を有する5’または3’一本鎖突出のいずれかを有する核酸成分を使用することであり得る。後者の例では、塩基-塩基ハイブリダイゼーションに起因してより安定な核酸2重鎖が形成され得る。
二本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端の他方の鎖は、「くぼみ」と称することができる。まとめると、くぼみと突出は、「粘着末端」としても公知の「付着末端」を形成する。付着末端は、3’突出と5’くぼみ、または5’突出と3’くぼみのいずれであってもよい。2つの意図された隣接成分間の付着末端は、相補性を有し、したがって、両方の付着末端の突出がハイブリダイズし、したがって、各突出末端が他の成分のくぼみの始まりと直接隣接するように設計することができる。これにより、リガーゼの作用によって「シール」する(リン酸ジエステル結合を通じて共有結合により連結する)ことができる「ニック」(二本鎖DNA切断)が形成される。3つの核酸をアセンブルするための付着末端ライゲーションの概略図例については図8を参照されたい。一方の鎖または他方の鎖、または両方の鎖のいずれのニックもシールすることができる。熱力学的に、付着末端を形成する分子の上の鎖および下の鎖は、会合した状態と解離した状態を移動し得、したがって、付着末端は、一過性の形成であり得る。しかし、2種の成分間の付着末端2重鎖の一方の鎖に沿ったニックがシールされると、逆の鎖のメンバーが解離したとしても共有結合性の連結が残存する。次いで、連結した鎖が、逆の鎖の意図された隣接メンバーが結合することができる鋳型になり、シールすることができるニックが再度形成される。
付着末端は、dsDNAを1つまたは複数のエンドヌクレアーゼで消化することによって創出することができる。エンドヌクレアーゼ(制限酵素と称することができる)は、dsDNA分子のいずれかの末端または両末端の特異的な部位(制限部位と称することができる)を標的化し、互い違いの切断を創出し得(時には消化と称される)、したがって、付着末端が残される。制限酵素消化に関しては化学的方法セクションCを参照されたい。消化により、パリンドローム突出(それ自体の逆相補物である配列を有する突出)が残される。その場合、同じエンドヌクレアーゼで消化される2種の成分は、リガーゼを用いてそれに沿ってアセンブルすることができる相補的な付着末端を形成し得る。消化およびライゲーションは、エンドヌクレアーゼおよびリガーゼが適合する場合には同じ反応において共に行うことができる。反応は、摂氏4度、10度、16度、25度、または37度などの均一温度で行うことができる。または、反応は、複数の温度間、例えば、摂氏16度と摂氏37度の間のサイクルであってよい。複数の温度間でサイクルさせることにより、サイクルの異なる部分の間に消化およびライゲーションを各々それらのそれぞれの最適な温度で進行させることが可能になる。
消化およびライゲーションを別々の反応で実施することが有益な場合がある。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーション産物がエンドヌクレアーゼの新しい制限部位を形成する場合。これらの例では、制限酵素消化、次いでライゲーションを別々に実施することがより良好であり得、また、おそらく、制限酵素をライゲーションの前に除去することがさらに有益であり得る。核酸を酵素からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着、洗浄、および溶出によって分離することができる。複数のエンドヌクレアーゼを同じ反応において使用することができるが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするために注意を払うべきである。2種のエンドヌクレアーゼを使用し、一方のエンドヌクレアーゼによりdsDNA成分の両末端に直交性の(非相補的な)付着末端を創出することができる。
エンドヌクレアーゼ消化により、付着末端にリン酸化された5’末端が残される。リガーゼは、リン酸化された5’末端に対してのみ機能することができ、リン酸化されていない5’末端に対しては機能することができない。そのように、消化とライゲーションの間に中間の5’リン酸化ステップのいかなる必要もない場合がある。付着末端にパリンドローム突出を有する消化されたdsDNA成分はそれ自体とライゲーションする可能性がある。自己ライゲーションを防止するために、ライゲーション前に前記dsDNA成分を脱リン酸化することが有益であり得る。
複数のエンドヌクレアーゼが異なる制限部位を標的化し得るが、適合する突出(互いに逆相補物である突出)が残される。2種のそのようなエンドヌクレアーゼを用いて創出された付着末端のライゲーション産物では、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含有しないアセンブルされた産物がもたらされ得る。そのようなエンドヌクレアーゼにより、ただ2つのエンドヌクレアーゼを使用し、反復的な消化-ライゲーションサイクルを実施することによってプログラム可能に複数の成分をアセンブルすることができるバイオブリックアセンブリなどのアセンブリ方法の基礎が形成される。図20は、エンドヌクレアーゼBamHIおよびBglIIを適合する突出と共に使用した消化-ライゲーションサイクルの例を例示する。
一部の実施形態では、付着末端を創出するために使用されるエンドヌクレアーゼは、IIS型制限酵素であり得る。これらの酵素は、固定数の塩基をこれらの酵素の制限部位から特定の方向に切り出し、したがって、これらの酵素によって生成される突出の配列をカスタマイズすることができる。突出配列はパリンドロームである必要はない。同じIIS型制限酵素を使用して、複数の異なる付着末端を同じ反応においてまたは複数の反応において創出することができる。さらに、1つまたは複数のIIS型制限酵素を使用して、適合する突出を有する成分を同じ反応でまたは複数の反応で創出することができる。IIS型制限酵素によって生成される2つの付着末端間のライゲーション部位は、それにより新しい制限部位が形成されないように設計することができる。さらに、IIS型制限酵素部位を、dsDNAにおいて、制限酵素が付着末端を有する成分を生成する際にそれ自体の制限部位を切断するように位置させることができる。したがって、IIS型制限酵素により生成した複数の成分間のライゲーション産物は、いかなる制限部位も含有しない場合がある。
IIS型制限酵素を反応においてリガーゼと混合して、成分の消化とライゲーションを一緒に実施することができる。反応の温度を2つまたはそれよりも多くの値の間でサイクルさせて、最適な消化およびライゲーションを促進することができる。例えば、消化を摂氏37度で最適に実施することができ、ライゲーションを摂氏16度で最適に実施することができる。より一般的には、反応を少なくとも摂氏0度、5度、10度、15度、20度、25度、30度、35度、40度、45度、50度、55度、60度、または65度またはそれよりも高い温度値の間をサイクルさせることができる。組み合わせた消化およびライゲーション反応を使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、または20種の成分、またはそれよりも多くをアセンブルすることができる。IIS型制限酵素を活用して付着末端を創出するアセンブリ反応の例としては、Golden Gate Assembly(Golden Gateクローニングとしても公知)またはモジュラークローニング(MoCloとしても公知)が挙げられる。
ライゲーションの一部の実施形態では、エキソヌクレアーゼを使用して、付着末端を有する成分を創出することができる。3’エキソヌクレアーゼを使用して、dsDNAから3’末端をチューバックし(chew back)、したがって、5’突出を創出する。同様に、5’エキソヌクレアーゼを使用して、dsDNAから5’末端をチューバックし、したがって、3’突出を創出する。異なるエキソヌクレアーゼは異なる性質を有し得る。例えば、エキソヌクレアーゼは、ssDNAに作用するかどうかに関わりなく、リン酸化された5’末端に作用するのかリン酸化されていない5’末端に作用するのかに関わりなく、ニックで開始することができるかどうかに関わりなく、またはそれらの活性を5’くぼみ、3’くぼみ、5’突出、もしくは3’突出において開始することができるかどうかに関わりなく、それらのヌクレアーゼ活性の方向が異なり得る(5’から3’へまたは3’から5’へ)。異なる型のエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、RecJf、エキソヌクレアーゼIII、エキソヌクレアーゼI、エキソヌクレアーゼT、エキソヌクレアーゼV、エキソヌクレアーゼVIII、エキソヌクレアーゼVII、ヌクレアーゼBAL_31、T5エキソヌクレアーゼ、およびT7エキソヌクレアーゼが挙げられる。
エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分をアセンブルすることができる。反応は、固定温度で行うこともでき、各々がリガーゼまたはエキソヌクレアーゼそれぞれに理想的な複数の温度の間をサイクルさせることもできる。ポリメラーゼをアセンブリ反応にリガーゼおよび5’→3’エキソヌクレアーゼと一緒に含めることができる。そのような反応における成分は、互いに隣接してアセンブルすることが意図された成分がそれらの縁に相同な配列を共有するように設計することができる。例えば、成分Yとアセンブルされる成分Xは、5’-z-3’形態の3’縁配列を有し得、成分Yは、5’-z-3’形態の5’縁配列を有し得、ここで、zは、任意の核酸配列である。そのような形態の相同な縁配列は、「ギブソンオーバーラップ」と称することができる。5’エキソヌクレアーゼによりギブソンオーバーラップを有するdsDNA成分の5’末端がチューバックされると、互いとハイブリダイズする適合する3’突出が創出される。次いで、ハイブリダイズした3’末端がポリメラーゼの作用によって鋳型成分の末端までまたは一方の成分の伸長した3’突出が隣接成分の5’くぼみを満たす点まで伸長し、それにより、リガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と称される。ギブソンアセンブリは、T5エキソヌクレアーゼ、Phusionポリメラーゼ、およびTaqリガーゼを使用し、反応を摂氏50度でインキュベートすることによって実施することができる。前記例では、好熱性リガーゼであるTaqを使用することにより、反応における3つの型の酵素全てに適した温度である摂氏50度で反応を進行させることが可能になる。
「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼが関与する任意のアセンブリ反応を指す。ギブソンアセンブリを使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれより多くの成分をアセンブルすることができる。ギブソンアセンブリは、一段階の等温性反応として行うこともでき、1つまたは複数の温度でのインキュベーションを伴う多段階反応として行うこともできる。例えば、ギブソンアセンブリは、少なくとも30度、40度、50度、60度、または70度、またはそれよりも低い温度で行うことができる。ギブソンアセンブリのインキュベーション時間は、少なくとも1分間、5分間、10分間、20分間、40分間、または80分間であり得る。
ギブソンアセンブリ反応は、意図された隣接成分間のギブソンオーバーラップがある特定の長さであり、ヘアピン、ホモ二量体、または望ましくないヘテロ二量体などの望ましくないハイブリダイゼーション事象を回避する配列などの配列特色を有する場合に、最適に行うことができる。一般に、少なくとも20塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、長さ少なくとも1塩基、2塩基、3塩基、5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、100塩基、またはそれよりも多くの塩基であり得る。ギブソンオーバーラップのGC含量は、0%から100%の間のいずれかであり得る。
ギブソンアセンブリは、一般に、5’エキソヌクレアーゼを用いて説明されるが、この反応は、3’エキソヌクレアーゼを用いて行うこともできる。3’エキソヌクレアーゼによりdsDNA成分の3’末端がチューバックされると、ポリメラーゼにより、3’末端が伸長することによって作用が打ち消される。この動的プロセスを、2種の成分(ギブソンオーバーラップを共有する)の5’突出(エキソヌクレアーゼによって創出される)がハイブリダイズし、ポリメラーゼにより一方の成分の3’末端がその隣接成分の5’末端に到達するのに十分に伸長し、したがって、リガーゼによってシールすることができるニックが残されるまで続けることができる。
ライゲーションの一部の実施形態では、付着末端を有する成分は、酵素的なものとは対照的に、完全な相補性を共有しない2つの一本鎖核酸またはオリゴを一緒に混合することによって合成的に創出することができる。例えば、2つのオリゴ、オリゴXおよびオリゴYを、オリゴのいずれか一方または両方の全体を構成する塩基のより大きな列の部分列を形成する相補的な塩基の連続した列に沿ってのみ完全にハイブリダイズするように設計することができる。この相補的な塩基の列は、「インデックス領域」と称される。インデックス領域がオリゴXの全体およびオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の3’突出を有する他方に付着末端を有する成分を形成する(図21A)。インデックス領域がオリゴXの全体およびオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の5’突出を有する他方に付着末端を有する成分を形成する(図21B)。インデックス領域がオリゴXの全体を占有し、オリゴYのいずれの末端も占有しない場合(インデックス領域がオリゴYの中央に埋め込まれていることを意味する)、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方およびオリゴY由来の5’突出を有する他方に付着末端を有する成分を形成する(図21C)。インデックス領域がオリゴXの5’末端のみおよびオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方およびオリゴX由来の3’突出を有する他方に付着末端を有する成分を形成する(図21D)。インデックス領域がオリゴXの3’末端のみおよびオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の5’突出を有する一方およびオリゴX由来の5’突出を有する他方に付着末端を有する成分を形成する(図21E)。上述の例では、突出の配列は、インデックス領域の外側のオリゴ配列によって定義される。これらの突出配列は、ライゲーションのために成分がハイブリダイズする領域であるので、ハイブリダイゼーション領域と称することができる。
付着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域(複数可)は、成分の適当なアセンブリが容易になるように設計することができる。長い突出を有する成分は、所与のアニーリング温度で、短い突出を有する成分と比較してより効率的に互いとハイブリダイズすることができる。突出は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、15塩基、20塩基、30塩基、またはそれよりも多くの塩基の長さを有し得る。
高グアニンまたはシトシン含量を含有する突出を有する成分は、それらの相補的な成分と、所与の温度で、低グアニンまたはシトシン含量を含有する突出を有する成分よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりもより安定な塩基対を形成するからである。突出は、0%から100%の間のいずれかのグアニンまたはシトシン含量(GC含量としても公知)を有し得る。
突出配列と同様に、オリゴのインデックス領域のGC含量および長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖および下の鎖が安定に結合していれば付着末端成分がより効率的にアセンブルすることができるからである。したがって、より高いGC含量、より長い配列、およびより高い融解温度を促進する他の特色を有するインデックス領域を設計することができる。しかし、インデックス領域および突出配列(複数可)の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とアセンブルされた産物を形成するその能力が妨げられる恐れがある。これは、インデックス領域内、突出配列内、またはその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型およびそれらの安定性(例えば、融解温度)は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さおよびGC含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ-ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。
同様に、ホモ二量体(同じ配列のオリゴとハイブリダイズするオリゴ)および望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ)の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成を、予測し、オリゴ設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して説明することができる。
より長いオリゴ配列またはより高いGC含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短いオリゴまたはより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴまたは高いGC含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さおよび最適なGC含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なGC含量は、0%から100%の間のいずれかであり得る。
付着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル(または鋳型または架橋)鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション(SSL)、鋳型誘導型ライゲーション(TDL)、または架橋鎖ライゲーションと称することができる。3つの核酸をアセンブルするためのTDLの概略図例については図10Aを参照されたい。TDLでは、2つの一本鎖核酸を鋳型上に隣接してハイブリダイズさせ、したがって、リガーゼによってシールすることができるニックを形成する。付着末端ライゲーションと同じ核酸設計考慮事項がTDLにも当てはまる。鋳型とそれらの意図された相補的な核酸配列の間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導くことができる。したがって、鋳型の両側でのハイブリダイゼーション安定性(または融解温度)を改善する配列特色により、ライゲーション効率を改善することができる。これらの特色は、より長い配列の長さおよびより高いGC含量を含み得る。鋳型を含めたTDLにおける核酸の長さは、少なくとも5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。鋳型を含めた核酸のGC含量は、0%から100%の間のいずれかであり得る。
TDLでは、付着末端ライゲーションと同様に、配列空間検索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分および鋳型配列を設計するために注意を払うことができる。TDLにおける成分は、二本鎖の代わりに一本鎖であり得るので、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある(付着末端ライゲーションと比較)。
TDLは、平滑末端化されたdsDNA成分を用いて実施することもできる。そのような反応では、ステープル鎖が2つの一本鎖核酸を適当に架橋するためには、まずステープルが、完全な一本鎖相補物を置き換えるまたは部分的に置き換えることが必要な可能性がある。dsDNA成分を用いたTDL反応を容易にするために、dsDNAを最初に高温でインキュベートすることで融解させることができる。次いで、反応を冷却し、したがって、ステープル鎖がそれらの適当な核酸相補物にアニーリングすることを可能にすることができる。このプロセスは、dsDNA成分と比較して比較的高い濃度の鋳型を使用することによってさらにいっそう効率的なものにすることができ、したがって、結合に関して鋳型が適当な全長ssDNA相補物に打ち勝つことが可能になる。2つのssDNA鎖がそれらの鋳型およびリガーゼによってアセンブルされたら、次いで、そのアセンブルされた核酸が逆の全長ssDNA相補物の鋳型になり得る。したがって、TDLを用いた平滑末端化されたdsDNAのライゲーションを、融解(より高い温度でのインキュベーション)およびアニーリング(より低い温度でのインキュベーション)の複数のラウンドを通じて改善することができる。このプロセスは、リガーゼサイクリング反応、またはLCRと称することができる。適当な融解温度およびアニーリング温度は核酸配列に依存する。融解温度およびアニーリング温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、60度、70度、80度、90度、または100度であり得る。温度サイクルの数は、少なくとも1回、5回、10回、15回、20回、15回、30回、またはそれよりも多くであり得る。
全てのライゲーションを固定温度反応または多重温度反応で実施することができる。ライゲーション温度は、少なくとも摂氏0度、4度、10度、20度、20度、30度、40度、50度、または60度またはそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合うまたはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって、成分が一時的に隣り合うまたはハイブリダイズする頻度を増大させることができる。しかし、温度の上昇により、塩基対結合の破壊、したがって、これらの隣り合ったまたはハイブリダイズした成分2重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、アセンブルされる核酸の数、それらの核酸の配列、リガーゼの型、ならびに反応添加剤などの他の因子に依存し得る。例えば、4塩基の相補的な突出を有する2つの付着末端成分は、摂氏4度でT4リガーゼを用いると、摂氏25度でT4リガーゼを用いるよりも速くアセンブルすることができる。しかし、25塩基の相補的な突出を有する2つの付着末端成分は、摂氏25度でT4リガーゼを用いると、摂氏4度でT4リガーゼを用いるよりも速くアセンブルすることができ、また、おそらく、4塩基の突出をいずれの温度でライゲーションするよりも速くアセンブルすることができる。ライゲーションの一部の実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。
ライゲーションを使用して、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれよりも多くの核酸をアセンブルすることができる。ライゲーションインキュベーション時間は、最大で30秒間、1分間、2分間、5分間、10分間、20分間、30分間、1時間、またはそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善することができる。
ライゲーションには5’リン酸化末端を有する核酸が必要な場合がある。5’リン酸化末端を有さない核酸成分は、T4ポリヌクレオチドキナーゼ(またはT4 PNK)などのポリヌクレオチドキナーゼとの反応でリン酸化することができる。ATP、マグネシウムイオン、またはDTTなどの他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏37度で30分間行うことができる。ポリヌクレオチドキナーゼ反応温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、または60度であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、またはそれよりも長い時間であり得る。あるいは、核酸成分は、改変された5’リン酸化を用いて合成的に(酵素的なものとは対照的に)設計し、製造することができる。それらの5’末端にアセンブルされる核酸のみにリン酸化が必要になり得る。例えば、TDLにおける鋳型は、アセンブルされるものではないので、リン酸化されていなくてよい。
ライゲーション効率を改善するために、添加剤をライゲーション反応に含めることができる。例えば、ジメチルスルホキシド(DMSO)、ポリエチレングリコール(PEG)、1,2-プロパンジオール(1,2-Prd)、グリセロール、Tween(登録商標)-20またはこれらの組合せの添加。PEG6000が特に有効なライゲーション増強剤であり得る。PEG6000は、クラウディング剤として作用することによってライゲーション効率を上昇させ得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分をより近づけ得る。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のリガーゼをライゲーションのために使用することができる。リガーゼは、天然に存在するものであっても合成されたものであってもよい。リガーゼの例としては、T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、Taq DNAリガーゼ、9oN(商標)DNAリガーゼ、E.coli DNAリガーゼ、およびSplintR DNAリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定かつ最適に機能し得る。例えば、Taq DNAリガーゼは熱安定性であり、T4 DNAリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる性質を有する。例えば、T4 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができるが、T7 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができない。
ライゲーションを使用して、シークエンシングアダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、シークエンシングアダプターを非対称にライゲーションすることができる。例えば、フォワードシークエンシングアダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバースシークエンシングアダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる(例えば、A尾部など)。
ライゲーションは、熱失活(例えば、摂氏65度で少なくとも20分間のインキュベーション)、変性剤の添加、またはEDTAなどのキレート剤の添加によって阻害され得る。
C.制限酵素消化
制限酵素消化は、制限エンドヌクレアーゼ(または制限酵素)が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を切断する(または消化する)反応である。I型、II型、III型、またはIV型制限酵素を制限酵素消化のために使用することができる。II型制限酵素が核酸消化のための最も効率的な制限酵素であり得る。II型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を切断することができる。前記制限酵素(およびそれらの制限部位)の例としては、AatII(GACGTC)、AfeI(AGCGCT)、ApaI(GGGCCC)、DpnI(GATC)、EcoRI(GAATTC)、NgeI(GCTAGC)、およびさらに多くが挙げられる。DpnIおよびAfeIなどのいくつかの制限酵素は、それらの制限部位を中央で切断することができ、したがって、平滑末端化されたdsDNA産物が残される。EcoRIおよびAatIIなどの他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって、付着末端(または互い違いの末端)を有するdsDNA産物が残される。いくつかの制限酵素は、不連続の制限部位を標的化し得る。例えば、制限酵素AlwNIは、制限部位CAGNNNCTGを認識し、ここで、Nは、A、T、C、またはGのいずれかである。制限部位は、長さ少なくとも2塩基、4塩基、6塩基、8塩基、10塩基、またはそれよりも多くの塩基であり得る。
いくつかのII型制限酵素は、それらの制限部位の外側の核酸を切断する。この酵素は、IIS型またはIIG型制限酵素に下位分類することができる。前記酵素は、パリンドロームでない制限部位を認識することができる。前記制限酵素の例としては、GAAACを認識し、2塩基(同じ鎖)および6塩基(逆の鎖)さらに下流に互い違いの切断を創出するBbsIが挙げられる。別の例としては、GGTCTCを認識し、1塩基(同じ鎖)および5塩基(逆の鎖)さらに下流に互い違いの切断を創出するBsaIが挙げられる。前記制限酵素をゴールデンゲートアセンブリまたはモジュラークローニング(MoClo)のために使用することができる。BcgI(IIG型制限酵素)などのいくつかの制限酵素は、その認識部位の両末端に互い違いの切断を創出し得る。制限酵素は、それらの認識部位から少なくとも1塩基、5塩基、10塩基、15塩基、20塩基、またはそれよりも遠く離れた核酸を切断し得る。前記制限酵素は、それらの認識部位の外側で互い違いの切断を創出し得るので、得られる核酸突出の配列を任意に設計することができる。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内に互い違いの切断を創出する制限酵素とは対照的である。制限酵素消化によって創出される核酸突出は、長さ少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、またはそれよりも多くの塩基であり得る。制限酵素により核酸を切断する場合、得られる5’末端はホスフェートを含有する。
1つまたは複数の核酸配列を制限酵素消化反応に含めることができる。同様に、1つまたは複数の制限酵素を一緒に制限酵素消化反応に使用することができる。制限酵素消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、BSA、S-アデノシル-L-メチオニン(SAM)、またはこれらの組合せを含めた添加剤および補助因子を含有し得る。制限酵素消化反応は、摂氏37度で1時間インキュベートすることができる。制限酵素消化反応は、少なくとも摂氏0度、10度、20度、30度、40度、50度、または60度の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限酵素消化反応は、最大で1分間、10分間、30分間、60分間、90分間、120分間、またはそれよりも長くインキュベートすることができる。より長いインキュベーション時間により、消化の増大をもたらすことができる。
D.核酸増幅
核酸増幅は、ポリメラーゼ連鎖反応、またはPCRを用いて実行することができる。PCRでは、核酸の出発プール(鋳型プールまたは鋳型と称される)をポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTP、およびその類似体またはバリアントなど)、ならびにベタイン、DMSO、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。一般には、PCR反応には2種のプライマーが存在し、一方は標的鋳型の上の鎖のプライマー結合性部位に相補的であり、他方は第1の結合性部位よりも下流の、標的鋳型の下の鎖のプライマー結合性部位に相補的である。これらのプライマーがそれらの標的に結合する5’から3’への配向は、それらの間の核酸配列を首尾よく複製し、指数関数的に増幅するために、互いに向かい合っていなければならない。「PCR」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。
一部の実施形態では、PCRは、3つの温度:融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびにハイブリダイゼーション産物および二次構造の形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏95度を超える。一部の実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、または105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、または90度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、またはそれよりも長く、例えば、30秒間、1分間、2分間、または3分間にわたって適用することができる。複雑なまたは長い鋳型を用いたPCRにはより長い最初の融解温度ステップが推奨される場合がある。
アニーリング温度は、プライマーとそれらの標的鋳型の間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏10度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、または70度であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含量が高いプライマーほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、または30秒間にわたって、またはそれよりも長く適用することができる。アニーリングを確実にすることを補助するために、プライマー濃度を高くするまたは量を飽和させることができる。プライマー濃度は、500ナノモル濃度(nM)であり得る。プライマー濃度は、最大で1nM、10nM、100nM、1000nM、またはそれよりも高い濃度であり得る。
伸長温度は、1つまたは複数のポリメラーゼ酵素によって触媒されるプライマーの3’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。一部の実施形態では、伸長温度をポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、または70度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、または60秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たりおよそ15~45秒間であり得る。
PCRの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリングおよび伸長温度の例としては、摂氏60度、65度、または72度が挙げられる。
一部の実施形態では、PCRを1つの温度サイクルで実施することができる。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、PCRを複数の温度サイクルで実施することができる。PCRが効率的であれば、各サイクルで標的核酸分子の数が2倍になり、それにより、元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。PCRの効率は変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、100%より多いまたは少ない可能性がある。各PCRサイクルで変異したおよび組み換えられた核酸などの望ましくないアーチファクトが導入される可能性がある。この潜在的な害を縮小するために、忠実度が高く処理能力が高いポリメラーゼを使用することができる。さらに、限られた数のPCRサイクルを使用することができる。PCRは、最大で1、5、10、15、20、25、30、35、40、45、またはそれよりも多くのサイクルを伴い得る。
一部の実施形態では、複数の区別可能な標的核酸配列を1つのPCRで一緒に増幅することができる。各標的配列が共通のプライマー結合性部位を有する場合、全ての核酸配列を、同じプライマーセットを用いて増幅することができる。あるいは、PCRは、各々が区別可能な核酸を標的化することが意図された複数のプライマーを含み得る。前記PCRは多重PCRと称することができる。PCRは、最大で1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれよりも多くの区別可能なプライマーを伴い得る。複数の区別可能な核酸標的を有するPCRでは、各PCRサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだまたは非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ(例えば、高忠実度および配列頑強性を有する)および最適なPCR条件を使用することができる。アニーリングおよび伸長の温度および時間などの因子を最適化することができる。さらに、限られた数のPCRサイクルを使用することができる。
PCRの一部の実施形態では、鋳型中のその標的化プライマー結合性部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を変異させることができる。PCRの一部の実施形態では、5’末端に余分の配列(突出として公知)を有するプライマーを使用して、その標的化された核酸に配列を付着させることができる。例えば、5’末端にシークエンシングアダプターを含有するプライマーを使用して、シークエンシングのための核酸ライブラリーを調製および/または増幅することができる。ある特定のシークエンシング技術のための十分な富化のために、シークエンシングアダプターを標的化するプライマーを使用して核酸ライブラリーを増幅することができる。
一部の実施形態では、プライマーが鋳型の一方の鎖のみ(両方の鎖ではなく)標的化する線形PCR(または非対称PCR)を使用する。線形PCRでは、各サイクルから複製される核酸はプライマーと相補的なものではなく、したがって、プライマーはその核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって、線形(指数関数的なものとは対照的な)増幅になる。線形PCRからの増幅は従来の(指数関数的な)PCRほど高速でない可能性があるが、最大収量はより大きい可能性がある。理論的に、線形PCRにおけるプライマー濃度は、従来のPCRではそうなるような、サイクルの増加および収量の上昇での制限因子にはならない。指数関数的増幅後線形増幅PCR(Linear-After-The-Exponential-PCR)(またはLATE-PCR)は、特に高収量を可能にし得る線形PCRの改変バージョンである。
核酸増幅の一部の実施形態では、融解、アニーリング、および伸長のプロセスを単一の温度で行うことができる。そのようなPCRは、等温性PCRと称することができる。等温性PCRでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるまたは置き換えるために温度に依存しない方法を活用することができる。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法、およびニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で摂氏20度、30度、40度、50度、60度、または70度またはそれよりも高い温度で行うことができる。
一部の実施形態では、PCRは、試料中の核酸の量を定量化するための蛍光プローブまたは色素をさらに含み得る。例えば、色素を二本鎖核酸に挿入することができる。前記色素の例は、SYBR Greenである。蛍光プローブは、蛍光単位が付着した核酸配列であってもよい。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後伸長ポリメラーゼ単位から改変されると放出され得る。前記プローブの例としては、TaqManプローブが挙げられる。そのようなプローブをPCRおよび光学的測定ツール(励起および検出のための)と併せて使用して、試料中の核酸濃度を定量化することができる。このプロセスは、定量的PCR(qPCR)またはリアルタイムPCR(rtPCR)と称することができる。
一部の実施形態では、PCRを複数の鋳型分子のプールに対してではなく単一の分子鋳型に対して(単一分子PCRと称することができるプロセスで)実施することができる。例えば、エマルジョン-PCR(ePCR)を使用して、単一の核酸分子を油エマルジョン中の水滴の中に封入することができる。水滴はPCR試薬も含み得、水滴を、PCRのための必要な温度サイクリングが可能な温度調節された環境で保持することができる。このように、複数の自己完結型PCR反応を同時にハイスループットで行うことができる。界面活性剤を用いて油エマルジョンの安定性を改善することができる。マイクロ流体チャネルを通じて圧力を用いて液滴の動きを制御することができる。マイクロ流体デバイスは、液滴を創出するため、液滴を分割するため、液滴を合体させるため、材料を液滴中に注射するため、ならびに液滴をインキュベートするために使用することができる。油エマルジョン中の水滴のサイズは、少なくとも1ピコリットル(pL)、10pL、100pL、1ナノリットル(nL)、10nL、100nL、またはそれよりも大きいサイズであり得る。
一部の実施形態では、単一分子PCRを固相担体上で実施することができる。例としては、Illumina固相増幅法またはその変形が挙げられる。鋳型プールを固相担体に暴露させ、ここで、固相担体は、鋳型をある特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより、単一分子を担体上でハイスループット様式で増幅することができる。
ハイスループット単一分子PCRは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子PCRでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子PCRは、シークエンシングのための核酸を調製するために特に有用であり得る。単一分子PCRは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルPCR(またはdPCR)では、区別可能な単一分子PCR増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。
PCRの一部の実施形態では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プール中の全ての核酸に隣接するプライマー結合性部位に対するプライマー。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実施形態では、PCRを使用して、標的化された核酸のサブセットをプールから選択的に増幅することができる。例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの縁に共通のプライマー結合性部位を共有する(サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。一部の実施形態では、PCRを核酸アセンブリ反応(例えば、ライゲーションまたはOEPCRなど)と組み合わせて、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸を部分的にアセンブルされたまたはミスアセンブルされた(または意図されたものではないもしくは望ましくない)副産物から選択的に増幅することができる。例えば、アセンブリは、核酸を各縁配列上のプライマー結合性部位と、完全にアセンブルされた核酸産物のみが増幅のための必須の2つのプライマー結合性部位を含有するようにアセンブルすることを伴い得る。前記例では、部分的にアセンブルされた産物は、プライマー結合性部位を有する縁配列のいずれも含有しないまたはその一方のみを含有する可能性があり、したがって、増幅されないはずである。同様に、ミスアセンブルされた(または意図されたものではないもしくは望ましくない)産物は、縁配列のいずれも含有しないもしくはその一方のみを含有する、または両方の縁配列を含有するが誤った配向であるもしくは誤った量の塩基によって分離されている。したがって、前記ミスアセンブルされた産物は、増幅されないかまたは増幅されて誤った長さの産物が創出されるはずである。後者の場合、誤った長さの増幅されたミスアセンブルされた産物を、正しい長さの増幅された完全にアセンブルされた産物から、アガロースゲルでのDNA電気泳動、その後のゲル抽出などの核酸サイズ選択方法によって分離することができる(化学的方法セクションEを参照されたい)。
核酸増幅の効率を改善するために、PCRに添加剤を含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはこれらの組合せの添加。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のポリメラーゼをPCRのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸延長の間、より高い忠実度に寄与し得る3’から5’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間リーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度および処理能力を有し得、増幅された核酸収量のために最小の変異を有することが重要である場合、および区別可能な核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシークエンシング調製などのPCR適用により適切であり得る。
E.サイズ選択
サイズ選択技法を使用して特定のサイズの核酸を試料から選択することができる。一部の実施形態では、サイズ選択を、ゲル電気泳動またはクロマトグラフィーを使用して実施することができる。核酸の液体試料を固定相またはゲル(またはマトリックス)の一方の端子にロードすることができる。ゲルの負端子が、核酸試料がロードされる端子になり、ゲルの正端子が逆の端子になるようにゲルにわたって電圧差をかけることができる。核酸は負に荷電したリン酸骨格を有するので、ゲルを横切って正端子に移動する。核酸のサイズにより、核酸がゲルを通る相対的な移動スピードが決定される。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解される。電圧差は、100Vまたは120Vであり得る。電圧差は、最大で50V、100V、150V、200V、250V、またはそれよりも大きい差異であり得る。電圧差が大きいほど核酸移動のスピードおよびサイズ分解能が大きくなり得る。しかし、電圧差が大きいと、核酸またはゲルの損傷も生じ得る。より大きなサイズの核酸を分解するために、より大きな電圧差が推奨される場合がある。典型的な移動時間は15分間から60分間の間であり得る。移動時間は、最大で10分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きなサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、200塩基の核酸を250塩基の核酸から分解するためには、120Vという電圧差および30分という移動時間が十分であり得る。
ゲル、またはマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、一般には、TAE(トリス-酢酸-EDTA)またはTBE(トリス-ホウ酸-EDTA)などの伝導性緩衝液中に分散したアガロースまたはポリアクリルアミドなどのポリマー物質を含む。ゲル中の物質(例えば、アガロースまたはアクリルアミド)の含量(重量/体積)は、最大で5%、1%、2%、3%、5%、10%、15%、20%、25%、またはそれよりも多くであり得る。含量が高いほど移動スピードが低下し得る。より小さな核酸を分解するために、より高い含量が好ましい場合がある。二本鎖DNA(dsDNA)を分解するためにはアガロースゲルがより良好であり得る。一本鎖DNA(ssDNA)を分解するためにはポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型およびサイズ、添加剤(例えば、色素、染料、変性溶液、またはローディング緩衝液)の適合性ならびに見込まれる下流の適用(例えば、ゲル抽出、次いでライゲーション、PCR、またはシークエンシング)に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるボラート(酵素阻害剤)持ち越し汚染により下流の酵素反応が阻害される可能性があるので、TAEはTBEほど良好な伝導体ではないが、同様にゲル抽出に関してはより良好であり得る。
ゲルは、SDS(ドデシル硫酸ナトリウム)または尿素などの変性溶液をさらに含み得る。SDSは、例えば、タンパク質を変性させるためまたは核酸を潜在的に結合したタンパク質から分離するために使用することができる。尿素は、DNAの二次構造を変性させるために使用することができる。例えば、尿素により、dsDNAをssDNAに変換することができる、または尿素により、フォールディングされたssDNA(例えば、ヘアピン)をフォールディングされていないssDNAに変換することができる。ssDNAを正確に分解するために尿素-ポリアクリルアミドゲル(TBEをさらに含む)を使用することができる。
試料をゲルに異なるフォーマットで組み入れることができる。一部の実施形態では、ゲルは、試料を手動でロードすることができるウェルを含有し得る。1つのゲルが複数の核酸試料を流すための複数のウェルを有し得る。他の実施形態では、ゲルを、核酸試料(複数可)を自動的にロードするマイクロ流体チャネルに付着させることができる。各ゲルはいくつかのマイクロ流体チャネルの下流にあってもよく、ゲル自体が別々のマイクロ流体チャネルを占有していてもよい。ゲルの寸法が核酸検出(または可視化)の感度に影響を及ぼし得る。例えば、薄いゲルまたはマイクロ流体チャネルの内側にあるゲル(例えば、バイオアナライザまたはテープステーション中のものなど)により、核酸検出の感度を改善することができる。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。
核酸サイズ参照のためにゲルにラダーをロードすることができる。ラダーは、核酸試料を比較することができる種々のサイズのマーカーを含有し得る。異なるラダーは異なるサイズ範囲および分解能を有し得る。例えば、50塩基のラダーは、50塩基、100塩基、150塩基、200塩基、250塩基、300塩基、350塩基、400塩基、450塩基、500塩基、550塩基、および600塩基のところにマーカーを有し得る。前記ラダーは、50塩基から600塩基のサイズ範囲内の核酸を検出し、選択するために有用であり得る。ラダーは、試料中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。
核酸試料およびラダーをローディング緩衝液と混合して、ゲル電気泳動(またはクロマトグラフィー)プロセスを容易にすることができる。ローディング緩衝液は、核酸の移動の追跡を補助するための色素およびマーカーを含有し得る。ローディング緩衝液は、核酸試料が試料ローディングウェル(ランニング緩衝液中に浸されていてもよい)の底部に沈むことを確実にするために、ランニング緩衝液(例えば、TAEまたはTBE)よりも密度の高い試薬(例えば、グリセロールなど)をさらに含み得る。ローディング緩衝液は、SDSまたは尿素などの変性剤をさらに含み得る。ローディング緩衝液は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝液は、核酸をヌクレアーゼから保護するためのEDTAを含有し得る。
一部の実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用することができる染料を含み得る。染料は、dsDNA、ssDNA、またはその両方に特異的なものであってよい。異なる染料を異なるゲル物質に適合させることができる。いくつかの染料は、可視化のために光源光(または電磁波)からの励起を必要とする。光源光は、UV(紫外線)または青色光であり得る。一部の実施形態では、染料をゲルに電気泳動前に添加することができる。他の実施形態では、染料をゲルに電気泳動後に添加することができる。染料の例としては、臭化エチジウム(EtBr)、SYBR Safe、SYBR Gold、銀染色、またはメチレンブルーが挙げられる。ある特定のサイズのdsDNAを可視化するための信頼できる方法は、例えば、アガロースTAEゲルをSYBR SafeまたはEtBr染色と一緒に使用することである。ある特定のサイズのssDNAを可視化するための信頼できる方法は、例えば、尿素-ポリアクリルアミドTBEゲルをメチレンブルーまたは銀染色と一緒に使用することである。
一部の実施形態では、ゲルを通る核酸の移動を、電気泳動に加えて他の方法によって駆動することができる。例えば、重力、遠心分離、真空、または圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解することができる。
刃または剃刀を使用してある特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出すことができる。切り出しがある特定のバンドで的確に行われること、および、切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が首尾よく排除されることを確実にするために、適当な光学的検出技法およびDNAラダーを使用することができる。ゲルバンドを緩衝液と一緒にインキュベートしてゲルバンドを溶解させ、したがって、核酸を緩衝溶液中に放出させることができる。加熱または物理的撹拌により、溶解のスピードを上げることができる。あるいは、ゲルバンドを、緩衝液中で、ゲル溶解を必要とせずにDNAの緩衝溶液中への拡散を可能にするために十分に長くインキュベートすることができる。次いで、緩衝液を残りの固相ゲルから、例えば、吸引または遠心分離によって分離することができる。次いで、核酸を溶液からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着などの標準の精製または緩衝液交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
ゲル切り出しの代替として、ある特定のサイズの核酸を、ゲルから流出させることによってゲルから分離することができる。移動している核酸は、ゲルに埋め込まれたかまたはゲルの最後にあるたらい(またはウェル)を通過し得る。移動プロセスについて時間を計るまたは光学的にモニタリングし、したがって、ある特定のサイズの核酸群がたらいに入ったら、試料をたらいから収集することができる。収集は、例えば吸引によって行うことができる。次いで、核酸を、収集された溶液からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着などの標準の精製または緩衝液交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
核酸サイズ選択のための他の方法としては、質量分光測定または膜に基づく濾過を挙げることができる。膜に基づく濾過の一部の実施形態では、核酸を、dsDNA、ssDNA、またはその両方のいずれかに優先的に結合し得る膜(例えば、シリカ膜)を通過させる。膜は、少なくともある特定のサイズの核酸を優先的に捕捉するように設計することができる。例えば、膜を、20塩基未満、30塩基未満、40塩基未満、50塩基未満、70塩基未満、90塩基未満、またはそれよりも多くの塩基未満の核酸を濾過して取り除くように設計することができる。前記膜に基づくサイズ選択技法は、ゲル電気泳動またはクロマトグラフィーほどストリンジェントでない可能性がある。
F.核酸捕捉
親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにすることができる。インキュベーション温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、またはそれよりも大きく下回るまであってよい。ハイブリダイズした標的を、親和性タグに特異的に結合する固相担体に捕捉することができる。固相担体は、膜、ウェル、カラム、またはビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸を全て標的から除去することができる。洗浄は、洗浄の間の標的配列の安定な固定化を容易にするためにプローブの融解温度を下回る温度で行うことができる。洗浄温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、またはそれよりも大きく下回る温度までであってよい。最終的な溶出ステップにより、核酸標的を固相担体から、ならびに親和性タグ付きプローブから回収することができる。溶出ステップは、核酸標的の溶出緩衝液中への放出を容易にするためにプローブの融解温度を上回る温度で行うことができる。溶出温度は、プローブの融解温度を摂氏5度上回る温度まで、10度上回る温度まで、15度上回る温度まで、20度上回る温度まで、25度上回る温度まで、またはそれよりも大きく上回る温度までであってよい。
一部の実施形態では、ビオチンを、固相担体上のストレプトアビジンによって固定化される親和性タグとして使用することができる。ビオチン化オリゴを、核酸捕捉プローブとして使用するために設計し、製造することができる。オリゴの5’末端または3’末端をビオチン化することができる。オリゴの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン担体でのより強力な捕捉をもたらすことができる。オリゴの3’末端のビオチンにより、PCRの間にオリゴが伸長するのを遮断することができる。ビオチンタグは、標準のビオチンのバリアントであってよい。例えば、ビオチンバリアントは、ビオチン-TEG(トリエチレングリコール)、二重ビオチン、PCビオチン、デスチオビオチン-TEG、およびアジ化ビオチンであり得る。二重ビオチンにより、ビオチン-ストレプトアビジン親和性を増大させることができる。ビオチン-TEGは、TEGリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えば、その標的とのハイブリダイゼーションに干渉するのを防止することができる。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。
ビオチン化核酸プローブは、その標的にいかによくハイブリダイズすることができるかを考慮して設計することができる。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズし得る。より長い核酸プローブ、ならびにGC含量がより高いプローブは、融解温度が上昇するので、より強力にハイブリダイズし得る。核酸プローブは、少なくとも5塩基、10塩基、15塩基、20塩基、30塩基、40塩基、50塩基、または100塩基、またはそれよりも多くの塩基の長さを有し得る。核酸プローブは、0%から100%の間のいずれかのGC含量を有し得る。プローブの融解温度がストレプトアビジン担体の温度許容度を超えないことを確実にするために注意を払うことができる。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体、およびヘテロ二量体などの阻害性二次構造が回避されるように設計することができる。プローブ融解温度とオフターゲットの結合の間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さおよびGC含量が存在し得る。合成核酸ライブラリーは、その核酸が効率的なプローブ結合性部位を含むように設計することができる。
固相ストレプトアビジン担体は磁気ビーズであってよい。磁気ビーズを、磁気ストリップまたはプレートを使用して固定化することができる。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップまたはプレートを容器から取り出して磁気ビーズを容器壁から溶液中に放出させることができる。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径1マイクロメートル(μm)から3マイクロメートル(μm)の間のいずれかであってよい。ビーズは、最大で1マイクロメートル、2マイクロメートル、3マイクロメートル、4マイクロメートル、5マイクロメートル、10マイクロメートル、15マイクロメートル、20マイクロメートル、または20マイクロメートルを超える直径を有し得る。ビーズ表面は疎水性であっても親水性であってもよい。ビーズをブロッキングタンパク質、例えば、BSAでコーティングすることができる。使用前に、ビーズが核酸に非特異的に結合するのを防止するために、ビーズを洗浄するまたはブロッキング溶液などの添加剤で前処理することができる。
ビオチン化プローブを磁性ストレプトアビジンビーズとカップリングした後に核酸試料プールと一緒にインキュベートすることができる。このプロセスは、直接捕捉と称することができる。あるいは、ビオチン化プローブを核酸試料プールと一緒にインキュベートした後に磁性ストレプトアビジンビーズを添加することができる。このプロセスは、間接的な捕捉と称することができる。間接的な捕捉方法により、標的の収量を改善することができる。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくすることができる。
核酸プローブと核酸試料の最適なインキュベーションは、プローブの融解温度を摂氏1~10度またはそれよりも大きく下回る温度で行うことができる。インキュベーション温度は、最大で摂氏5度、10度、20度、30度、40度、50度、60度、70度、80度、またはそれよりも高い温度であり得る。推奨されるインキュベーション時間は1時間であり得る。インキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。インキュベーション時間が長いほど良好な捕捉効率を導くことができる。ビオチン-ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに10分間のインキュベーションを行うことができる。この追加的な時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオンなどの添加剤を伴う緩衝化溶液中で行うことができる。
核酸プールが一本鎖核酸である場合(二本鎖とは対照的に)、プローブとその標的のハイブリダイゼーションを改善することができる。ssDNAプールをdsDNAプールから調製することには、一般にプール中の全ての核酸配列の縁に結合する1つのプライマーを用いて線形PCRを実施することが必要になり得る。核酸プールが合成により創出またはアセンブルされたものである場合、この共通のプライマー結合性部位を合成設計に含めることができる。線形PCRの産物はssDNAになる。核酸捕捉のためのより多くの出発ssDNA鋳型をより多くの線形PCRのサイクルで生成することができる。PCRに関しては化学的方法セクションDを参照されたい。
核酸プローブがそれらの標的とハイブリダイズし、磁性ストレプトアビジンビーズとカップリングした後、ビーズを磁石によって固定化し、いくつかのラウンドの洗浄を行うことができる。非標的核酸を除去するためには3~5回の洗浄で十分であり得るが、それよりも多いまたは少ないラウンドの洗浄を使用することができる。増やした洗浄各々により、標的化されていない核酸をさらに減少させることができるが、標的核酸の収量も低下し得る。洗浄ステップの間の標的核酸とプローブの適当なハイブリダイゼーションを容易にするために、低インキュベーション温度を使用することができる。摂氏60度、50度、40度、30度、20度、10度、または5度またはそれよりも低いという低さの温度を使用することができる。洗浄緩衝液は、ナトリウムイオンを伴うトリス緩衝化溶液を含み得る。
ハイブリダイズした標的の磁気ビーズ-カップリングしたプローブからの最適な溶出を、プローブの融解温度と等しいまたはそれよりも高い温度で行うことができる。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で摂氏30度、40度、50度、60度、70度、80度、または90度、またはそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で1分間、2分間、5分間、10分間、30分間、60分間またはそれよりも長い時間であり得る。典型的なインキュベーション時間はおよそ5分間であり得るが、より長いインキュベーション時間により、収量を改善することができる。溶出緩衝液は、EDTAなどの添加剤を伴う水またはトリス緩衝化溶液であってよい。
区別可能な部位のセットのうちの少なくとも1つ、または複数を含有する標的配列の核酸捕捉を、それらの部位の各々に対して複数の区別可能なプローブを用いて1つの反応で実施することができる。区別可能な部位のセットのあらゆるメンバーを含有する標的配列の核酸捕捉を、その特定の部位に対するプローブを使用して区別可能な部位各々に対して1つの反応である一連の捕捉反応で実施することができる。一連の捕捉反応後の標的の収量は低い可能性があるが、捕捉された標的をその後PCRで増幅することができる。核酸ライブラリーが合成により設計されたものである場合、標的は、PCRのために共通のプライマー結合性部位を有するように設計することができる。
一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリ反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた(または意図されたものではないもしくは望ましくない)副産物を濾過して取り除くために使用することができる。例えば、アセンブリには、各縁配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の2つの捕捉反応を通るのに必要な必須の2つのプローブ結合性部位を含有するようにアセンブルすることを含み得る。前記例では、部分的にアセンブルされた産物は、プローブ部位のいずれも含有しないまたは一方のみを含有する可能性があり、したがって、最終的に捕捉されないはずである。同様に、ミスアセンブルされた(または意図されたものではないもしくは望ましくない)産物は、縁配列のいずれも含有しないまたはその一方のみを含有する可能性がある。したがって、前記ミスアセンブルされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合性部位を含めることができる。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全にアセンブルされた産物(各成分を含有する)のみをアセンブリ反応のあらゆる副産物から単離することができる。その後のPCRにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善することができる。
一部の実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する(サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。
G.凍結乾燥
凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物(例えば、活性酵素)を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。
H.DNA設計
合成ライブラリー(例えば、識別子ライブラリー)を構築するための核酸の配列(例えば、成分)は、合成、シークエンシング、およびアセンブリの複雑化が回避されるように設計することができる。さらに、当該配列は、合成ライブラリーの構築費用が低減するように、かつ、合成ライブラリーを保管することができる寿命が改善されるように設計することができる。
核酸は、合成するのが難しい場合がある長いホモポリマーの列(または繰り返された塩基配列)が回避されるように設計することができる。核酸は、2を超える、3を超える、4を超える、5を超える、6を超える、7を超えるまたはそれよりも長いホモポリマーの長さが回避されるように設計することができる。さらに、核酸は、それらの合成プロセスを阻害する可能性があるヘアピンループなどの二次構造の形成が回避されるように設計することができる。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリーを構築するための核酸は、短く設計することができる。核酸が長いほど合成が難しく、費用がかかる可能性がある。核酸が長いほど、合成の間の変異の機会も増大する。核酸(例えば、成分)は、最大で5塩基、10塩基、15塩基、20塩基、25塩基、30塩基、40塩基、50塩基、60塩基またはそれよりも多くの塩基であり得る。
アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計することができる。それぞれOEPCRおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するより多くの情報については付録AおよびBを参照されたい。効率的なアセンブリ反応には、一般には、隣接成分間のハイブリダイゼーションが伴う。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計することができる。ロックド核酸(LNA)などの核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化することができる。これらの修飾核酸を、例えば、ステープル鎖ライゲーションにおけるステープルとして、または付着鎖ライゲーションにおける付着末端として使用することができる。合成核酸ライブラリー(または識別子ライブラリー)を構築するために使用することができる他の修飾塩基としては、2,6-ジアミノプリン、5-ブロモdU、デオキシウリジン、反転dT、反転ジデオキシ-T、ジデオキシ-C、5-メチルdC、デオキシイノシン、Super T、Super G、または5-ニトロインドールが挙げられる。核酸は、1つまたは複数の同じまたは異なる修飾塩基を含有し得る。前記修飾塩基のいくつかは、より高い融解温度を有し、したがって、アセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体(例えば、5-メチルdCおよび2,6-ジアミノプリン)である。前記修飾塩基のいくつかは、全ての天然の塩基に結合することができ、したがって、望ましい結合性部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基(例えば、5-ニトロインドール)である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマーおよびプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするので、プライマー(例えば、PCR用)およびプローブ(例えば、核酸捕捉用)に有用であり得る。それぞれ核酸増幅(またはPCR)および核酸捕捉についてのさらなる核酸設計考慮事項に関しては化学的方法セクションDおよびFを参照されたい。
核酸は、シークエンシングが容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびGC含量が高すぎるまたは低すぎる配列などの典型的なシークエンシング複雑化が回避されるように設計することができる。ある特定のシークエンサーまたはシークエンシング方法は、エラープローンであり得る。合成ライブラリー(例えば、識別子ライブラリー)を構成する核酸配列(または成分)は、互いからのある特定のハミング距離で設計することができる。このように、シークエンシングにおいて塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸(または成分)にマッピングし戻すことができる。核酸配列は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、11塩基、12塩基、13塩基、14塩基、15塩基またはそれよりも多くの塩基の変異というハミング距離で設計することができる。ハミング距離の代替距離測定基準を使用して、設計される核酸間の最小の必要距離を規定することもできる。
いくつかのシークエンシング方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記シークエンシング計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーにアセンブルすることが伴う。しかし、合成核酸ライブラリー(例えば、識別子ライブラリー)が特定の計器または方法でシークエンシングされることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー(例えば、識別子ライブラリー)を含む核酸(例えば、成分)中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上にシークエンシングアダプターをアセンブルすることができる。
核酸は、DNA損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、UVB(紫外線-B)光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシークエンシングおよびPCRが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがUVBに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン(すなわち、TT)または隣接するシトシン(すなわち、CC)が回避されるように設計することが有益であり得る。
化学的方法セクションに含有される情報は全て、上述の技術、方法、プロトコール、システム、およびプロセスを支持し、可能にするものとする。
(実施例1:DNA分子における単一のポエム(poem)の符号化、書き込みおよび読み取り)
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長PCRを用いて実装される産生スキームを使用して識別子を構築するために、データを、ピペットを用いて96種の成分の層2つからのDNA成分と一緒に混合して手動で符号化する。第1の層、Xは、96種の総DNA成分を含む。第2の層、Yも96種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの61ビットの連続した(隣接する分離した)列の全てが正確に17のビット値1で96ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを96×96表にハッシュして、参照マップを形成する。
図18Aの中央のパネルは、ポエムが複数の識別子に符号化された96×96表の2次元の参照マップを示す。黒い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データを、96種の成分の層2つを使用して識別子に符号化する。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にする。識別子ライブラリーのシークエンシングを行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図18Aの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位17の最も豊富な(X,Y)アセンブリとして取る(均一の重み符号化により、96ビットの連続した列各々が正確に17の「1」値、したがって、17の対応する識別子を有し得ることが保証される)。
(実施例2:62824ビットのテキストファイルの符号化)
符号化されるデータは、総計62824ビットになる3つのポエムのテキストファイルである。オーバーラップ伸長PCRを用いて実装される産生スキームを使用して識別子を構築するために、データを、Labcyte Echo(登録商標)リキッドハンドラーを使用して384種の成分の層2つからのDNA成分と一緒に混合して符号化する。第1の層、Xは384種の総DNA成分を含む。第2の層、Yも384種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、重み(ビット値「1」の数)が減少し、チェックサムが含まれるように再符号化する。チェックサムを、192ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ10,100であり、これは、構築される識別子の数に対応する。次いで、データを384×384表にハッシュして参照マップを形成することができる。
図18Bの中央のパネルは、テキストファイルが複数の識別子に符号化された384×384表の2次元の参照マップを示す。各座標(X,Y)は、X+(Y-1)*192位のデータのビットに対応する。黒い点はビット値「1」に対応し、白い点はビット値「0」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック(例えば、データを復号するための辞書)である。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にすることができる。識別子ライブラリーのシークエンシングを行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図18Bの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Sの最も豊富な(X,Y)アセンブリとして取り、ここで、各行のSはチェックサム値であり得る。
(実施例3:15片、付着末端ライゲーションにおける5’突出と3’突出、および4塩基突出と6塩基突出の比較)
表1は、以下のラベルの15DNA成分の4つの異なるセットの測定されたライゲーション効率を提示する:6/24/6 3’、6/24/6 5’、4/24/4 3’、および4/24/4 5’。ラベルの最初の3つの数字、X/Y/Zは、一方の末端にX塩基の突出を有し、中間にY塩基の2重鎖(またはバーコード)領域を有し、他方の末端にZ塩基の突出を有する、セット中の各DNA成分の形態を示す。各ラベルの最後の数字(アポストロフィーの前の数字)は、セット中の突出が5’であるか3’であるかを示す。ライゲーションを、37℃で、0.067μMの各DNA成分、5CEU/μLのT4リガーゼ(CEU=粘着末端単位)、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準のT4リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は2.5分であった。効率を、可能なセット各々について、完全にライゲーションした産物を表す全長対照(FLC)と比べたqPCRを用いて測定した。
図22は、4つの異なる実験的ライゲーション反応の各々のうちの1つからのqPCR産物の、およそ450塩基の長さを有するそれらのそれぞれのFLCと並べたゲル電気泳動画像を示す。表1と一緒に、結果から、6塩基の突出では、4塩基の突出よりも高い全長産物のライゲーション効率および特異性が導かれたことが示される。5’突出の使用と3’突出の使用に関しては効率に明白なパターンは観察されない。
図23Aおよび23Bは、2分間、2.5分間、3分間、および1440分間にわたってライゲーションした6/24/6 3’DNA成分セット(図23B)および6/24/6 5’DNA成分セット(図23A)のライゲーション効率についてのデータを示す。図23Aおよび23Bは、各セットについての、FLCと比べた、qPCRによって測定されたライゲーション効率を示す。図23Cは、qPCR産物の、およそ450塩基の長さを有するそれらのFLCと並べたゲル電気泳動画像を示す。同様に結果から、3’突出セットが5’突出セットよりも高い特異性を有し得ることが示される。
(実施例4:突出の長さ、突出の融解温度、および突出のGC含量の付着末端ライゲーション効率に対する影響の試験)
表2は、異なる長さの突出(短い=6塩基、中間=8塩基、および長い=10塩基)、異なるGC含量(低い、中間、および高い)、ならびに異なる融解温度(Tm)を有するように設計された、異なる付着末端を有する(3’突出を有する)DNA成分対9種の特徴を提示する。突出自体が表のセルにそれらの予測される摂氏温度単位の融解温度と一緒に示されている。ライゲーションを、各DNA成分対に対して、37℃で、0.067μMの各DNA成分、5CEU/μLのT4リガーゼ、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準のT4リガーゼ緩衝液部分を用いて実施した。ライゲーションを2.5分間および60分間実施した。効率を、各対について、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。
表2.異なる付着末端を有する(3’突出を有する)DNA成分対の特徴
図24Aおよび24Bは、突出の長さによって群分けされたこれらのDNA成分対についてのライゲーション効率を示す。図24Aは2.5分のライゲーション効率を示し、図24Bは2.5分時点と60分時点の間の効率の比を示す。結果から、ライゲーション率が、より短い突出を使用した場合により高くなり得ることが示される。
図25Aおよび25Bは、GC含量によって群分けされたこれらのDNA成分対についてのライゲーション効率を示す。図25Aは2.5分のライゲーション効率を示し、図25Bは2.5分時点と60分時点の間の効率の比を示す。結果から、異なるGC含量(または融解温度)の突出に関してライゲーション率に大きな差異はない可能性があるが、より高いGC含量(または融解温度)の突出を使用した場合にライゲーション率がわずかに高い可能性があることが示される。融解温度はGC含量と相関する。
(実施例5:温度のライゲーション効率に対する影響の試験)
図26は、種々の温度でT4リガーゼを用いてライゲーションした、付着末端を有する(6塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.25μMの各DNA成分、5CEU/μLまたは20CEU/μLのT4リガーゼ、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準のT4リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、温度が高いほど、およびリガーゼ濃度が高いほど、T4リガーゼを用いたライゲーション効率が上昇することが示される。
図27は、種々の温度でT4リガーゼを用いてライゲーションした、付着末端を有する(6塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分、5CEU/μLのT4リガーゼ(20μL、したがって、総計100CEU)、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準のT4リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、温度が高いほど、およびリガーゼ濃度が高いほど、T4リガーゼを用いたライゲーション効率が上昇することが示される。結果から、図26において観察されるものと同様の傾向が示される。
(実施例6:リガーゼ型のライゲーション効率に対する影響の試験)
図28Aおよび28Bは、T4 DNAリガーゼと比較した、T7 DNAリガーゼ(図28A)およびT3 DNAリガーゼ(図28B)のライゲーション効率についてのデータを示す。ライゲーションを、付着末端を有する(6塩基、3’突出を有する)DNA成分4種に対して、25℃で、0.125μMの各DNA成分を用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。リガーゼ濃度を10CEU/μLから100CEU/μLの間で変動させた。各プロット内で、効率を、T4 DNAリガーゼを5CEU/μLで用いて実施した同じライゲーションと比較する。結果から、およそ100CEU/μLの濃度のT3リガーゼが室温でのライゲーションに最適なリガーゼであり得ることが示される。
図29は、種々の濃度でのE.coli DNAリガーゼのライゲーション効率についてのデータを示す。ライゲーションを、付着末端を有する(6塩基、3’突出を有する)DNA成分4種に対して、25℃で、0.125μMの各DNA成分を用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。リガーゼ濃度を1CEU/μLから100CEU/μLの間で変動させた。
表3は、4種の異なる型のリガーゼについての平均ライゲーション効率測定値を提示する。ライゲーションを、付着末端を有する(6塩基、3’突出を有する)DNA成分15種に対して、25℃で、0.268μMの各DNA成分を用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。T4は20CEU/μLであり、T3およびT7は各々150CEU/μLであった。
図30Aおよび30Bは、T7 DNAリガーゼ(図30A)またはT3 DNAリガーゼ(図30B)を種々の温度で用いてライゲーションした、付着末端を有する(6塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分および150CEU/μLのT7またはT3 DNAリガーゼを用いて実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、T3およびT7が20℃から40℃の間で効率を失う可能性があり、T3の方が速く降下するが、より低い温度(例えば、15~20℃)での効率は高いことが示される。これにより、より高い温度でのインキュベーション(例えば、37℃)では、T4 DNAリガーゼ(例えば、図26および図27を参照されたい)がT3 DNAリガーゼおよびT7 DNAリガーゼよりも良好に機能することが示される。
(実施例7:ポリエチレングリコール(PEG)のライゲーション効率に対する影響の試験)
図31A~Cは、種々の量(重量/体積パーセントの単位で)のPEG8000(図31A)、PEG6000(図31B)、およびPEG400(図31C)と一緒にライゲーションした、付着末端を有する(10塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分および5CEU/μLのT4リガーゼを用いて25℃で実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、PEGを特定の量までライゲーションに添加することにより効率を改善することができるが、ある特定の量を超えると効率が阻害されることが示される。効率を改善するためにライゲーション反応に添加することができるPEGの量は、PEGの分子量に依存する。
図32は、PEG400またはPEG6000のいずれかの、低い重量/体積濃度での存在下で一緒にライゲーションした付着末端を有する(10塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分、5CEU/μLのT4 DNAリガーゼ、20%v/vのグリセロール、および標準のT4リガーゼ緩衝液部分を用いて37℃で実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、これらの条件下で、PEG6000を添加することにより、等価量(重量で)のPEG400を添加するよりもライゲーション効率を改善することができることが示される。
(実施例8:ライゲーション非活性化方法の比較)
図33は、緩衝液QGまたはEDTAを使用してリガーゼを不活化することに関するデータを示す。ライゲーションを、4種の付着末端を有するDNA成分に対して実施した。緩衝液QGは、Qiagenによって製造された緩衝液QGまたは同様の成分(例えば、5.5Mのチオシアン酸グアニジン(GuSCN)、20mMのTris HCl、pH6.6)を有する緩衝液を指す。対照群では、T4リガーゼを標準緩衝液条件下、室温、横軸に示されている所与の体積で使用した。実験群では、T4リガーゼ反応ミックスを示されている添加剤で処理した後、DNA成分に添加して所与の体積の反応を作製した。ライゲーション時間は2.5分であった。垂直方向の軸は、各ライゲーションの全長産物に対するqPCRから得られたCt結果を示す。Ctは濃度についての2を底とする対数尺度を表すことに留意されたい。結果から、EDTAまたは緩衝液QGの使用によりリガーゼが非活性化し得ることが示される。EDTAおよび緩衝液QGで非活性化したリガーゼを用いたライゲーション群の結果は、リガーゼなし群と同様に見える。
(実施例9:DNA複製に関する研究)
図34は、Q5、Phusion、およびTaq DNAポリメラーゼを使用した複製の線形性に関するデータを示す。横軸は理論的な標的DNA濃度(ng/μL)を表し、垂直方向の軸は、標準物質と比べた、qPCRを使用して測定された標的DNA濃度(ng/μL)を表す。測定値はPCR反応の異なるサイクルで取得した。完全な対角線上のドットは、完全な線形性(理論的)を表す。他のドットは、異なるリガーゼからの実験データ点を表す。結果から、標準のPCR反応(リガーゼにかかわらず)が、10ng/μLまでまたはそれを超える標的で線形になり得ることが示される。本実施例では、使用して標的DNAは約450塩基であった。
(実施例10:DNAを乾燥させるための異なる方法に関する研究)
図35は、室温で4日間保管したDNA試料についてのデータを示す。異なる量の、長さ約450塩基のDNAを含有するDNA試料を保管した(50ng、500ng、および5000ng)。DNA試料を異なる条件で保管した:湿潤または乾燥、および保存添加剤の有無(例えば、BMは、バイオ安定化材料(biostabilizing material)を示す)。結果を、これらの4日間凍結水中で保管した長さ約450塩基のDNAを含有する同じDNA試料と比較した。結果から、室温では最小のDNA分解が起こること、およびBM(バイオ安定化材料)のような保存添加剤の使用が分解の低減に寄与し得ることが示される。DNA保存添加剤が存在しない場合、乾燥プロセスによりDNA分解が導かれる可能性がある。
図36は、室温で繰り返し乾燥させ再水分添加させたDNAについてのデータを示す。保存添加剤(例えば、BMはバイオ安定化材料を示す)を伴うDNAおよび伴わないDNAについての結果が示されている。結果から、保存添加剤を伴うおよび伴わないDNA試料の乾燥/再水分添加を、相当量のDNAを失うことなく3~4回達成することができることが示される。
(実施例11:ライゲーションのための6塩基突出の設計および試験)
表4は、コンピュータにより設計された3’突出32種のセットを提示する。突出(およびそれらの逆相補物)を、長さ6塩基を有し、3塩基を超えるホモポリマーを有さず、互いとの間に3塩基未満のハミング距離を有さず、互いとの間に3塩基を超える等価の部分列を有さず、突出のいずれかの縁の部分列について互いから2塩基を超える等価の部分列を有さないように設計した。
表4.コンピュータにより設計された3’突出32種のセット
表5は、コンピュータにより設計された3’突出32種の別のセットを提示する。この6塩基の突出(およびそれらの逆相補物)のセットは、全体として表4のものほど厳密には制約されないが、表4のものと等価の制約を満たす16種の突出のサブセットを含有するように設計した。2種の太字の配列は、組合せ実験の対照として、互いに逆相補物になるように設計した。
表5.コンピュータにより設計された3’突出32種のセット
表4および表5の各突出およびそれらの逆相補物の付着末端DNA配列を構築した。各表中の各突出(および逆相補物)の各配列は同じ近位2重鎖領域を有するが、その遠位末端において区別可能な3塩基の5’突出を用いて一意にバーコード化されたものであった。構築された付着末端配列のスキームについては図37を参照されたい。合計で、各表について、逆相補物と共に、64種の配列を構築した。それらの配列を等モル濃度でプールし、T4リガーゼを用いて37℃、標準のリガーゼ緩衝液中でライゲーションした。ライゲーションを2.5分間実施した後、EDTAを用いてクエンチした。ライゲーションされた配列をゲル抽出によって精製し、次いで、5’末端を埋め、クレノウポリメラーゼを使用してdA尾部付加した。その後、シークエンシングアダプターを産物の末端とライゲーションし、Illumina iSeqでのシークエンシングのために増幅し、精製して調製した。可能なライゲーション産物各々の相対的なコピー数を、バーコードの可能な組合せ各々について配列読み取りの数を計数することによって推定した。突出の各セット(表4および表5)について合計64×(64+1)/2=2080種の可能な産物が存在し、そのうち64種がそれらの正しい逆相補物パートナーとライゲーションした突出にそれぞれ対応した。
図38は、表4(図38A)および表5(図38B)の突出配列のセットのライゲーションからのデータを示す。各ヒートマップ中の各画素はその画素の行および列を表す突出によって形成されたライゲーション産物に対応する。画素のグレースケール(または「ヒート」)は、そのライゲーション産物の相対量を表す(2を底とする対数尺度)。各行および列は、表4(図38A)または表5(図38B)のいずれかからの突出1~32、そしてそれらの突出の逆相補物に対応する。結果から、各突出はその逆相補物と最も強力にライゲーションするが、複数の非特異的産物もライゲーションにおいて形成し得ることが示唆される。
これらのデータを使用して、32種の突出の各セットからの突出のサブセットについてペナルティスコアを算出した。突出のサブセットについて、データセットにおいてサブセット中の可能な突出各々について形成されたオフターゲットの産物の相対量(正しい産物の量と比較した)を加えることによってペナルティスコアを算出した。
図39は、表4および表5の突出のセット各々からの15種の突出の2Mのサブセットからのペナルティスコアを示す。ペナルティスコアを使用して、16種の成分ライゲーションに使用する高効率、高特異性の15種の突出のセットを予測することができる。上位候補は最低ペナルティスコアで見いだすことができる。同様の解析を、X種の突出のサブセットを用いて行って、X+1種の突出をライゲーションするための上位突出候補を見いだすことができる。この解析に基づいて、表6は、16種のDNA成分とライゲーションするための推定上の高効率、高特異性の15種の突出(表4のセットから取得したもの)のサブセットを提示する。同様に、表7は、16種のDNA成分とライゲーションするための15種の突出(表5のセットから取得したもの)の推定上のサブセットを提示する。
表6.推定上の高効率、高特異性の15種の突出のサブセット
表7.推定上の15種の突出のサブセット
図40は、表7の最後の(陰影をつけた)行からの突出および印字ヘッド(printhead)からの分散を最適化することができるライゲーションミックスの特定の製剤を使用した16種のDNA成分のライゲーション効率についてのデータを示す。ミックスは、グリセロールの形態の保湿剤、Orange Gの形態の色素、およびのNipacideの形態の殺生物剤を含有する。ライゲーションを2つのリガーゼ濃度-0.1Weiss単位/μLおよび0.2Weiss単位/μLで実施した。さらに、ライゲーションを、0.0625μMの各DNA成分、22.5%v/vのグリセロール、3.1%w/vのPEG6000、1.25%w/vのOrange G色素、0.1%w/vのNipacide、および標準のT4リガーゼ緩衝液部分を用いて37℃で実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。
(実施例12:60kbのデジタル情報への符号化、複製、およびアクセス)
長さ68,800ビット(エラー保護後73,440ビット)のデジタル化オーディオクリップ(「メッセージ」)を、372種のDNA成分の成分ライブラリーを使用し、8層産物スキームで符号化した(産物スキーム概要については図16Bを参照されたい)。3種の成分の層が7つ(「基礎層」)および351種の成分の層(「多重層」)が1つ、したがって、767637種の可能な識別子が存在したが、符号化されたメッセージでは、組合せ空間からの119353種の識別子のみを使用した。Labcyte Echo 555 Access Systemで書き込みを実施した。このプロセスを2回繰り返した。DNA成分はコンピュータにより設計し、製造されたオリゴを二重にすることによって構築した。
書き込みプロセスを4相で行った:(1)コンピュータによる符号化、(2)DNA成分コロケーション(collocation)、(3)ライゲーション、および(4)コンソリデーション。(1)コンピュータによる符号化の間、エラー補正したメッセージを長さ13および重み3の連続したコードワードに符号化した。したがって、コードワードは13種の辞書学的に順序づけられた識別子によって表され、そのうちの3種は存在することが意図されたものであり(「真の識別子」)、他の10種は存在しないことが意図されたものであった(「偽の識別子」)。合計9181のコードワードが存在した。(2)DNAコロケーションでは、372種のDNA成分を(384ウェルプレートの)341の反応ウェル中、Labcyte Echo 555を使用して混合した。各反応は、ただ1つのコードワード(合計3種の真の識別子)が創出されることを意図した1つの反応以外は、27の連続したコードワード(合計81種の真の識別子)が創出されることを意図したものであった。反応を、基礎層の各々から1種のDNA成分、および多重層から複数の成分(各コードワードについて3種)が含有されるように設定した。さらに、完全に形成された識別子の各末端にライゲーションするためのシークエンシングアダプターを反応ウェルに添加した。(3)ライゲーションでは、T4リガーゼ反応ミックス(5CEU/μLのT4リガーゼおよび7.5%のPEG6000を含有する)4μLを各反応ウェルに添加し、37℃で1時間インキュベートした。濃度を、各反応がおよそ4nMの各層からの総DNA成分を含有するように設定した。その後、(4)コンソリデーションでは、全ての反応およそ50nLを、EDTA溶液を伴う1つの容器中にコンソリデートして、リガーゼ活性を非活性化した。識別子のコンソリデートされたプール(識別子ライブラリー)を、シークエンシングのために、PCRを使用して増幅し、ゲル精製して全長識別子を抽出した。
図41A~Bは、メッセージを符号化する識別子ライブラリーのシークエンシングから回収されたデータを示す。図41Aは、符号化されたメッセージ(コンピュータによる符号化後)の341×351参照マップを示す。黒い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データを、「1」ビット値の位置に対応する識別子を構築することによってDNAに書き込む(これは、識別子が辞書学的順序を有するので可能である)。図41Bは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量のヒートマップ(341×351)を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。各行の識別子は同じ反応で構築されたものである。最大のグレースケール(暗い)強度を各行内の識別子の平均コピー数に設定する。識別子は、13種の識別子の連続した列(マップの行に沿って)において最も豊富な識別子の上位3つ以内に入る場合、真の識別子(ビット値「1」を表す識別子)と解釈することができる。他の識別子は全て偽の識別子(ビット値「0」を表す識別子)であると解釈される。この復号処理ステップをデータに適用することにより、識別子エラー(コードワード内で、偽の識別子が真の識別子よりも多くの読み取りを有する事象)ゼロおよび識別子抹消(上位3つの最も豊富な識別子を区別することができない事象)ゼロがもたらされる。したがって、復号されたメッセージは符号化されたメッセージと正確に一致する(図41A)。図42は、符号化、書き込み、シークエンシング、および復号プロセス全体の2連の試行からのデータを示す。再度、メッセージは首尾よく書き込まれ、読み取られ、エラーまたは抹消はゼロであった。
図43A~Cは、メッセージを含有する元の識別子ライブラリーの複数のコピーを創出することからのデータを示す(図41A~Bから)。ライブラリーを1000×希釈し、次いで、10サイクルの、Phusionポリメラーゼおよびアダプター配列の外側の縁に結合するプライマー(ライブラリー中の全ての配列に共通する)を用いたPCRで増幅した。10サイクルのPCRによりライブラリー約1024×がその元の濃度に増幅された。図43Aは、シークエンシングによって決定された、複製された識別子ライブラリー中に存在する配列の存在量のヒートマップ(341×351)を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール(暗い)強度を各行内の識別子の平均コピー数に設定する。識別子は、13種の識別子の連続した列(マップの行に沿って)において最も豊富な識別子の上位3つ以内に入る場合、ビット値「1」を表すと解釈することができる。他の識別子は全て、ビット値「0」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロがもたらされる。識別子抹消が1つあり、これは、シークエンシングの試料サイズが小さいことによって説明することができる(表8参照)。これは全ての偽の識別子が読み取りゼロを有したが、真の識別子のうちの1つも読み取りゼロを有したコードワードである。図43Bは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図43Cは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーの複製の間に偏りはほとんどまたは全く生じない可能性があることが示される。
図44A~Cは、元のメッセージを含有する識別子ライブラリーの一部にアクセスすることからのデータを示す(図41A~Bから)。アクセス方法は、図17Bに記載されている「AND」操作であった。識別子ライブラリーを約32000×希釈し、次いで、各縁層の特異的なDNA成分に結合するプライマーを用いたPCRを使用して増幅し、したがって、ライブラリーのおよそ1/9にアクセスした(各層が可能な成分を3種有するので)。PCRを、Phusionポリメラーゼを用いて15サイクルにわたって実施した。シークエンシングアダプターを得られたサブライブラリーの末端にライゲーションし、それをIllumina iSeqでシークエンシングした。図44Aは、シークエンシングによって決定された、アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ(341×351)を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール(暗い)強度を各行内の識別子の平均コピー数に設定する。識別子は、13種の識別子の連続した列(マップの行に沿って)において最も豊富な識別子の上位3つ以内に入る場合、ビット値「1」を表すと解釈することができる。他の識別子は全て、ビット値「0」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するデータセットがもたらされる(図41A)。図44Bは、元のライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図44Cは、元の識別子ライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーアクセスの間に偏りはほとんどまたは全く生じない可能性があることが示される。
図45A~Cは、アクセスされた識別子ライブラリーの副次部分にさらにアクセスすることからのデータを示す(図44A~Cから)。元の識別子ライブラリーからのアクセス方法は、2つの入れ子状の「AND」操作であった(各「AND」は図17Bに記載されている通りであった)。元の識別子ライブラリーを約32000×希釈し、次いで、各縁層の特異的なDNA成分に結合するプライマーを用いたPCRを使用して増幅し、したがって、ライブラリーのおよそ1/9にアクセスした(各層が可能な成分を3種有するので)。得られたアクセスされた識別子ライブラリーを再度約32000×希釈し、次いで、各縁から1つ離れた、層の特異的なDNA成分に結合するプライマーを用いたPCRを使用して増幅し、したがって、アクセスされたライブラリーのおよそ1/9(各層が可能な成分を3種有するので)、または元のライブラリー全体のおよそ1/81(1/9の1/9)にアクセスした。得られたサブライブラリーを「2×アクセスされた」識別子ライブラリーと称する。PCRを、Phusionポリメラーゼを用いて15サイクルにわたって実施した。シークエンシングアダプターを得られたサブライブラリーの末端にライゲーションし、それをIllumina iSeqでシークエンシングした。図45Aは、シークエンシングによって決定された、2×アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ(341×351)を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール(暗い)強度を各行内の識別子の平均コピー数に設定する。識別子は、13種の識別子の連続した列(マップの行に沿って)において最も豊富な識別子の上位3つ以内に入る場合、ビット値「1」を表すと解釈することができる。他の識別子は全て、ビット値「0」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するデータセットがもたらされる(図41A)。図45Bは、元のライブラリーと2×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図45Cは、元の識別子ライブラリーと2×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、入れ子状識別子アクセス方法の間に偏りはほとんどまたは全く生じない可能性があることが示される。
図46A~Cは、メッセージを表す元の識別子ライブラリーを100℃で4日間保管した後のデータを示す(図41から)。元の識別子ライブラリーを、保存添加剤(バイオ安定化材料)と共に乾燥させ、100℃に保持したサーモサイクラー中で4日間維持した。図46Aは、シークエンシングによって決定された、保管された識別子ライブラリー中に存在する配列の存在量のヒートマップ(341×351)を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール(暗い)強度を各行内の識別子の平均コピー数に設定する。識別子は、13種の識別子の連続した列(マップの行に沿って)において最も豊富な識別子の上位3つ以内に入る場合、ビット値「1」を表すと解釈することができる。他の識別子は全て、ビット値「0」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するマップがもたらされる(図41A)。図46Bは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図46Cは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーの長期間にわたる極度の加熱の間に偏りはほとんどまたは全く生じない可能性があることが示される。さらに、二本鎖DNA定量化(Qubit蛍光定量による定量化を用いた)により、元の識別子ライブラリー(36.4ng/mL)と保管された識別子ライブラリー(41.2ng/mL)の間で同様の値がもたらされ、これにより、インキュベーションの間にDNAの喪失はほとんどまたは全くなかった可能性があることが示される。
表8は、メッセージおよびメッセージのアクセスされた部分を表す識別子ライブラリーの書き込みおよび読み取りからの統計値を提示する(図41~46から)。各ライブラリーについて、ビット値「0」を表す識別子(偽の識別子)の読み取りの総数、ビット値「1」を表す識別子(真の識別子)の読み取りの総数、シークエンシングされた偽の識別子の分率(「識別子エラー率」)、コードワードの総数、コードワード抹消の数、およびコードワードエラーの数を報告する。各コードワードにおける識別子の分布を、偽の識別子の各々が等しく分布し、真の識別子の各々が等しく分布し、偽の識別子読み取り(サンプリング)の確率が識別子エラー率と等価である多項分布としてモデリングした。各ライブラリー中で表されるコードワードの数、および各コードワードからの識別子読み取りの数を各コードワードの試料サイズとして使用して、このモデルを使用して、予測されるコードワード抹消およびコードワードエラーの数を算出した。大きな試料サイズでコードワード抹消またはコードワードエラーの確率を算出することのコンピュータによる取り扱いにくさに起因して、40読み取りを超える試料サイズはいずれも40に固定した。したがって、期待値は上限とみなされるべきである。結果から、複製されたライブラリー中の抹消されたコードワード(図43A、図43B、および図43C)を内因性サンプリングノイズに起因して予測することができたことが示される。
表8.識別子ライブラリーの書き込みおよび読み取りからの統計値
(実施例13:DNAの安定性に関する研究)
図47A~Dは、4つの異なる温度で8日間インキュベートしたDNA試料についてのデータを示す。各々が約450塩基のDNA(標的)およそ250ngである複数の試料を保存添加剤(BMはバイオ安定化材料を示す)と共に乾燥し、75.1℃(図47A)、84.4℃(図47B)、90.2℃(図47C)、または95.0℃(図47D)で8日間加熱した。8日間にわたり、異なる時点において試料を取り出し、8日間の最後に最終的に測定するまで室温で保管した。最終的な測定時に、各試料中の標的DNAの相対量をqPCRで定量化した。定量化の値を、加熱していないゼロ時点の試料に対して正規化する。結果から、高温での持続的なインキュベーションを伴っても、最小のDNA分解が起こる可能性があることが示される。
(実施例14:グリセロールのライゲーションに対する影響に関する研究)
図48は、種々の量(体積/体積パーセント単位で)のグリセロールを用いてライゲーションした、付着末端を有する(6塩基、3’突出を有する)DNA成分4種のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分および5CEU/μLのT4リガーゼ(全体で100CEU)を用いて25℃で実施した。ライゲーション時間は2.5分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたqPCRを使用して測定した。結果から、20%までまたはそれよりも多くのグリセロールの添加はライゲーションに影響を及ぼさない可能性があるが、40%またはそれよりも多くの添加は阻害性であり得ることが示される。
本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実施形態に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。
本発明は、例えば以下の項目を提供する。
(項目1)
情報を核酸配列に書き込むための方法であって、
(a)前記情報を表すために記号列を生成するステップと、
(b)複数の成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと、
(c)前記複数の成分のうちの前記個々の成分の少なくとも1つの付着末端を生成するステップと、
(d)前記複数の成分のうちの2つまたはそれより多くの成分を、前記2つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも1つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、2つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
(e)前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目2)
前記記号列の各記号が、1つまたは複数の可能な記号値のうちの1つである、項目1に記載の方法。
(項目3)
前記記号列中の各記号が、2つの可能な記号値のうちの1つである、項目1または2に記載の方法。
(項目4)
前記記号列の各位置における1つの記号値を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができる、項目1~3のいずれか一項に記載の方法。
(項目5)
前記2つの可能な記号値が、0および1のビット値であり、前記記号列中の0の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができ、前記記号列中の1の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の前記区別可能な識別子の存在により表すことができるか、またはその逆である、項目3に記載の方法。
(項目6)
(d)が、2つまたはそれより多くの層からの前記2つまたはそれより多くの成分を化学的に連結させることを含み、前記2つまたはそれより多くの層の各層が、成分の区別可能なセットを含む、項目1に記載の方法。
(項目7)
前記識別子ライブラリーからの前記個々の識別子が、前記2つまたはそれより多くの層の各層からの1つの成分を含む、項目6に記載の方法。
(項目8)
前記2つまたはそれより多くの成分が、固定された順序でアセンブルされる、項目7に記載の方法。
(項目9)
前記2つまたはそれより多くの成分が、任意の順序でアセンブルされる、項目7に記載の方法。
(項目10)
前記2つまたはそれより多くの成分が、前記2つまたはそれより多くの層のうちの異なる層からの2つの成分間に1つまたは複数の区分化成分を配置してアセンブルされる、項目7に記載の方法。
(項目11)
前記個々の識別子が、前記2つまたはそれより多くの層のサブセットの各層からの1つの成分を含む、項目6に記載の方法。
(項目12)
前記個々の識別子が、前記2つまたはそれより多くの層の各々からの少なくとも1つの成分を含む、項目6に記載の方法。
(項目13)
(c)が、(i)前記複数の成分のうちの前記個々の成分の前記少なくとも1つの付着末端を生成するためにエンドヌクレアーゼを使用すること、または(ii)使用することを含む、項目1~12のいずれか一項に記載の方法。
(項目14)
前記少なくとも1つの付着末端が、前記個々の成分の5’末端にある、項目1~13のいずれか一項に記載の方法。
(項目15)
前記少なくとも1つの付着末端が、前記個々の成分の3’末端にある、項目1~13のいずれか一項に記載の方法。
(項目16)
(c)が、前記個々の成分の2つの付着末端を生成することを含む、項目1~15のいずれか一項に記載の方法。
(項目17)
前記少なくとも1つの付着末端が、長さ少なくとも1ヌクレオチドである、項目1~16のいずれか一項に記載の方法。
(項目18)
前記少なくとも1つの付着末端が、長さ6ヌクレオチドである、項目1~17のいずれか一項に記載の方法。
(項目19)
前記少なくとも1つの付着末端が、表4または表5に収載されている配列からなる群より選択される核酸配列を含む、項目1~18のいずれか一項に記載の方法。
(項目20)
前記複数の核酸配列が、前記情報のメタデータを記憶する、または前記情報を隠蔽する、項目1~19のいずれか一項に記載の方法。
(項目21)
2つまたはそれより多くの識別子ライブラリーが組み合わせられ、前記2つまたはそれより多くの識別子ライブラリーの各識別子ライブラリーが、区別可能なバーコードでタグ付けされる、項目1~20のいずれか一項に記載の方法。
(項目22)
前記識別子ライブラリー中の個々の識別子各々が、区別可能なバーコードを含む、項目1~21のいずれか一項に記載の方法。
(項目23)
前記複数の識別子、または前記識別子を含む前記複数の成分が、読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために選択される、項目1~22のいずれか一項に記載の方法。
(項目24)
化学的に連結させることが、リガーゼを含む試薬を使用して前記複数の成分のうちの2つまたはそれより多くの成分を互いにライゲーションすることを含む、項目1~23のいずれか一項に記載の方法。
(項目25)
前記リガーゼが、T4リガーゼ、T7リガーゼ、T3リガーゼ、またはE.coliリガーゼである、項目23に記載の方法。
(項目26)
前記試薬が、添加剤をさらに含む、項目24または25に記載の方法。
(項目27)
前記添加剤が、前記リガーゼの効率を高める、項目24~26のいずれか一項に記載の方法。
(項目28)
前記添加剤が、ポリエチレングリコール(PEG)を含む、項目26または27に記載の方法。
(項目29)
前記PEGが、PEG400、PEG6000、PEG8000、またはこれらの任意の組合せである、項目28に記載の方法。
(項目30)
前記PEG分子の最終濃度が、単位体積当たり少なくとも約1重量(w/v)%である、項目28または29に記載の方法。
(項目31)
前記ライゲーションの反応時間が、少なくとも1分である、項目24~30のいずれか一項に記載の方法。
(項目32)
前記ライゲーションが、摂氏30度またはそれより高い温度でのライゲーションである、項目24~30のいずれか一項に記載の方法。
(項目33)
前記ライゲーションの反応効率が、少なくとも約20%である、項目24~31のいずれか一項に記載の方法。
(項目34)
EDTAまたはチオシアン酸グアニジンを含有する緩衝液を使用して前記リガーゼを不活化するステップをさらに含む、項目24~33のいずれか一項に記載の方法。
(項目35)
前記リガーゼの最終濃度が、少なくとも約5CEU/μLである、項目24~34のいずれか一項に記載の方法。
(項目36)
前記試薬が、グリセロール分子をさらに含む、項目24~35のいずれか一項に記載の方法。
(項目37)
(d)における化学的に連結させることが、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)を使用することを含む、項目1~23のいずれか一項に記載の方法。
(項目38)
前記個々の成分が、デオキシリボ核酸(DNA)またはリボ核酸である、項目1~37のいずれか一項に記載の方法。
(項目39)
前記個々の成分が再水分添加されている、項目1~38のいずれか一項に記載の方法。
(項目40)
前記個々の成分が、脱水された成分から再水分添加される、項目1~39のいずれか一項に記載の方法。
(項目41)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々を脱水することにより前記識別子ライブラリーを脱水するステップをさらに含む、項目1~40のいずれか一項に記載の方法。
(項目42)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々が脱水される、項目1~41のいずれか一項に記載の方法。
(項目43)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々を再水分添加するステップをさらに含む、項目41または42に記載の方法。
(項目44)
識別子分解を防止するために前記識別子ライブラリーに保存添加剤を添加するステップをさらに含む、項目1~40のいずれか一項に記載の方法。
(項目45)
前記複数の識別子が、PCRでコピーされる、項目1~40のいずれか一項に記載の方法。
(項目46)
前記PCRが、少なくとも10サイクルを有する、項目45に記載の方法。
(項目47)
前記複数の識別子が、1マイクロリットル当たり10ナノグラムの濃度までPCRで増幅される、項目45に記載の方法。
(項目48)
前記PCRが、エマルジョンPCRである、項目45~47のいずれか一項に記載の方法。
(項目49)
前記複数の識別子が、線形増幅でコピーされる、項目1~40のいずれか一項に記載の方法。
(項目50)
前記PCRの後、前記複数の識別子のより多くのコピーを作出するために線形増幅が使用される、項目45~47のいずれか一項に記載の方法。
(項目51)
前記複数の識別子のサブセットが、1回または複数回のPCR反応でアクセスされる、項目1~50のいずれか一項に記載の方法。
(項目52)
前記複数の識別子のサブセットが、1つまたは複数の親和性タグ付きプローブでアクセスされる、項目1~50のいずれか一項に記載の方法。
(項目53)
前記複数の識別子の前記サブセットの識別子が、成分のセットを共通して有する、項目51または52に記載の方法。
(項目54)
前記識別子が、ゲル電気泳動により精製される、項目1~52のいずれか一項に記載の方法。
(項目55)
前記識別子が、親和性タグ付きプローブにより精製される、項目1~52のいずれか一項に記載の方法。
(項目56)
前記識別子が、PCRを使用して増幅される、項目1~52のいずれか一項に記載の方法。
(項目57)
前記識別子が、チミン-チミンジヌクレオチドまたはシトシン-シトシンジヌクレオチドを回避するように設計される、項目1~56のいずれか一項に記載の方法。
(項目58)
情報を核酸配列に書き込むための方法であって、
(a)前記情報を表すために記号列を生成するステップと、
(b)複数の成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと、
(c)前記複数の成分のうちの前記個々の成分の少なくとも1つの付着末端を生成するステップであって、前記少なくとも1つの付着末端が、長さ少なくとも6ヌクレオチドである、ステップと、
(d)前記複数の成分のうちの2つまたはそれより多くの成分を、前記2つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも1つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、2つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
(e)前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目59)
前記少なくとも1つの付着末端が、前記個々の成分の3’末端にある、項目58に記載の方法。
(項目60)
前記連結させることが、前記複数の成分のうちの少なくとも15またはそれより多くの成分を連結させることを含む、項目58または59に記載の方法。
(項目61)
前記少なくとも1つの付着末端が、表4または表5に収載されている配列からなる群より選択される核酸配列を含む、項目58~60のいずれか一項に記載の方法。
(項目62)
情報を核酸配列に書き込むための方法であって、
(a)前記情報を表すために記号列を生成するステップと、
(b)複数の付着末端成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が、核酸配列および少なくとも1つの付着末端を含む、ステップと、
(c)前記複数の成分のうちの2つまたはそれより多くの成分を、前記2つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも1つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、2つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
(d)前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目63)
(b)が、2つのオリゴヌクレオチドをアニールして、個々の成分各々が前記少なくとも1つの付着末端を有するように個々の成分各々を構築することを含む、項目62に記載の方法。