JP2023546330A

JP2023546330A - 温度制御流体反応システム

Info

Publication number: JP2023546330A
Application number: JP2023518164A
Authority: JP
Inventors: ナサニエルロケ，; ショーンミーム，
Original assignee: カタログテクノロジーズ，インコーポレイテッド
Priority date: 2020-09-22
Filing date: 2021-09-21
Publication date: 2023-11-02
Also published as: WO2022066637A1; KR20230074153A; AU2021347675A1; CA3195364A1; EP4217112A1

Abstract

本開示は、供給源リザーバと、供給源リザーバおよび主チャネルと流体連通する投入チャネルとを含む、化学反応を実行するための方法およびシステムを開示する。投入チャネルは、供給源リザーバからの反応体積を主チャネルに分配するように構成される。主チャネルは、エレクトロウェッティングを介して複数の液滴として反応体積を搬送するように構成された主チャネルの内面上に複数のパッドを含む。システムは、複数の液滴を主チャネルからプールに受け入れるように構成された宛先リザーバを含む。

Description

相互参照
本出願は、２０２０年９月２２日に出願された米国仮特許出願第６３／０８１，６６６号の利益および優先権を主張し、その全体が参照により本明細書に組み込まれる。

背景
ポリメラーゼ連鎖反応（ＰＣＲ）のような複数の温度工程を必要とする化学反応は、非効率的な熱伝達のために大規模に実行することが困難である。ＰＣＲの場合、反応は、典型的には、１ミリリットル未満の体積（典型的には２５０マイクロリットル）を保持する小型の特殊化されたチューブ（ＰＣＲチューブ）内で行われる。ＰＣＲを行うための従来のシステムは、温度制御システムに接続された熱伝導チャンバを使用してＰＣＲチューブを加熱および冷却するように構成されたサーモサイクラーである。大量の反応物に対してＰＣＲを行うために、ユーザは、大量の反応物を複数のＰＣＲチューブに分割し、ハイスループットサーモサイクラーを使用してそれらに対して同時にＰＣＲを行うことができる。通常、これらのハイスループットサーモサイクラーは、複数のチューブ用の複数のチャンバを有し、最大およそ１０ミリリットル（ｍＬ）の凝集体積（全てのＰＣＲチューブにわたっる合計）を処理することができる。これは、９６個のチャンバがあり、各チャンバが１００マイクロリットル（ｕＬ）の反応体積を有する管の温度を動的に制御するように構成されているシステムを想定している。より多くの体積を各管に充填することができるが、それは熱伝達の効率を低下させ、したがって反応に悪影響を及ぼす。したがって、この従来のシステムは、反応の総体積が大きいほど、より多くの管を収容するためにシステムがより並列化されなければならないため、うまくスケーリングしない。このシステムでは、数万のチャンバを有する非常に大きな機器を必要とするため、１リットル程度以上の反応体積へのスケーリングは実用的ではない。

サーモサイクラーは、反応が配置されるチャンバの温度を動的に制御するが、他のシステムは、異なる温度に設定されたチャンバまたは位置の間で反応を移動させることに依存する。そのようなシステムの一実施形態は、反応体積を保持するためのチャンバおよび大きな管または容器として水浴を使用する。次いで、大きな反応を異なる温度の水浴間で移す。例えば、ＰＣＲの場合、一方の水浴は、二本鎖ＤＮＡを融解するために摂氏９５度（℃）に固定されてもよく、一方の水浴は、プライマーをアニーリングするために５５℃に固定されてもよく、他方の水浴は、ポリメラーゼによるプライマー伸長のために７２℃に固定されてもよい。反応体積は、これらの浴を横切って複数回循環させることができる。このようなシステムは、大きな反応体積を物理的に収容することができるが、反応体積が増加するにつれて熱伝達効率が低下すると想定される。そのようなシステムは、十分にスケーリングされず、１リットルまでの体積でさえ実用的ではない。

この形態の代替システムは、マイクロ流体を活用する。これらのシステムでは、反応体積は、狭いマイクロ流体チャネルを通るポンプによって駆動される。チャネルは、異なる温度に固定された位置を通過し、それによってＰＣＲを可能にする。反応体積は、連続流体としてマイクロ流体チャネルを通って移動してもよく、またはエマルジョンとしてマイクロ流体チャネルを通って移動する複数の水性液滴に封入されてもよい。しかしながら、そのようなシステムは、チャネルを横切る不均一な流れを被る可能性があり、それにより、反応体積の不正確なまたは一貫しない温度制御をもたらす。

核酸デジタルデータストーレージは、情報を長期間にわたって符号化および格納するための安定した手法であり、データは磁気テープまたはハードドライブストーレージシステムよりも高密度で格納される。さらに、低温および乾燥条件で格納された核酸分子に保存されたデジタルデータは、６０，０００年以上もの間、検索することができる。

核酸分子に格納されたデジタルデータにアクセスするために、核酸分子を配列決定することができる。このように、核酸デジタルデータストーレージは、頻繁にアクセスされないが、長期間保存またはアーカイブされる大量の情報を有し得るデータを格納するための理想的な方法であり得る。

現在の方法は、配列中の塩基対塩基の関係がデジタル情報（例えば、バイナリコード）に直接変換されるように、デジタル情報（例えば、バイナリコード）を塩基ごとの核酸配列に符号化することに依存している。デジタル符号化された情報のビットストリームまたはバイトに読み取ることができる塩基ごとの配列に格納されたデジタルデータの配列決定は、デノボ塩基ごとの核酸合成のコストが高価になる可能性があるため、エラーが発生しやすく、符号化にコストがかかる可能性がある。核酸デジタルデータストーレージを実行する新しい方法の機会は、より安価で商業的に実施するのがより容易なデータを符号化および検索するためのアプローチを提供し得る。

要旨
本明細書に記載の技術は、例えば複数の温度段階を使用するシステムの精度または精度を犠牲にすることなく、化学反応を実行する、例えばポリメラーゼ連鎖反応を大量にスケーリングするためのシステムおよび方法を提供することができる。このシステムの有用な用途は、大規模ＰＣＲであろう。そのような大規模ＰＣＲは、大量の特定のＤＮＡ配列を製造するために使用することができる。さらに、大規模ＰＣＲは、ＤＮＡ配列の大きなライブラリを増幅するために使用することができる。これは、ファージディスプレイ等のスクリーニングに使用されるＤＮＡ変異体のライブラリに有用であり得る。別の用途は、配列決定のための遺伝子ＤＮＡの大きなライブラリの増幅および調製であり得る。いくつかの実施態様では、本明細書に記載のシステムは、デジタル情報を符号化するＤＮＡの大型ライブラリの増幅および調製に使用することができる。

一態様では、化学反応を実行するためのシステムは、供給源リザーバと、供給源リザーバと流体連通する投入チャネルと、主チャネルとを備える。投入チャネルは、供給源リザーバからの反応体積を主チャネルに分配するように構成される。主チャネルは、エレクトロウェッティングを介して複数の液滴として反応体積を搬送するように構成された主チャネルの内面上に複数のパッドを含む。システムは、複数の液滴を主チャネルからプールに受け入れるように構成された宛先リザーバを含む。

いくつかの実施態様では、複数のパッドの各パッドは、電極、誘電材料、および疎水性表面を備える。

いくつかの実施態様では、複数のパッドは、内面上にアレイとして配置され、アレイは、アレイのパッド列に沿って複数の液滴の個々の液滴を搬送するように構成され、アレイは、複数のパッド列を含み、各パッド列は、主チャネルの長さに沿って延在する。いくつかの実施態様では、複数のパッド列は、複数の液滴を並行して搬送するように構成される。いくつかの実施態様では、システムは、主チャネルの内面の上方の高さｈに位置するカバープレートを含み、高さｈが、主チャネルを一次元で画定する。

いくつかの実施態様では、主チャネルの高さｈ、主チャネルの幅ｗ、主チャネルを通る複数の液滴の液滴速度ｖ、および複数の液滴によって占有される主チャネルの平均部分体積ｏのうちの少なくとも１つは、ｈ＊ｗ＊ｖ＊ｏに等しいシステムの有効流量が、目標時間量で主チャネルを通って供給源リザーバ内の初期反応体積を移動させるのに十分であるように構成される。

いくつかの実施態様では、初期反応体積は、約１リットル以上であり、前記目標時間量が約２時間以下である。いくつかの実施態様では、液滴速度ｖは、前記液滴速度がｘ＊ｆに等しくなるようにパッド長さｘおよびパッドスイッチング周波数ｆによって決定される。

いくつかの実施態様では、複数のパッドは、目標温度に設定されたパッド行を含む。いくつかの実施態様では、アレイは、複数の目標温度に設定された複数のパッド行を含む。いくつかの実施態様では、各パッド列は、液滴がアレイの個々のパッド列に沿って搬送されるときに液滴が複数の目標温度にさらされるように、複数の目標温度に設定された複数のパッド行の各パッド行からのパッドを含む。

いくつかの実施態様では、アレイは、主チャネルの長さに沿って周期的な温度パターンを有するパッド行のパターンを含む。いくつかの実施態様では、パターンは温度サイクルを定義し、アレイはパターンの複数のインスタンスを含む。

いくつかの実施態様では、反応体積はポリメラーゼ連鎖反応（ＰＣＲ）処方であり、個々のサイクルの複数の標的温度は、二本鎖ＤＮＡを融解し、プライマーをアニーリングし、プライマーを伸長するように構成される。

いくつかの実施態様では、温度サイクルの個々の温度に対するパッドスイッチング周波数およびパッド行の数が、個々の液滴が個々の温度で目標時間を費やすように設定される。

いくつかの実施態様では、主チャネルの長さは、少なくともパターンのインスタンスの数×パターン長と同じ長さである。

いくつかの実施態様では、複数のパッドのうちの１つのパッドが酵素とコンジュゲートされる。いくつかの実施態様では、複数のパッドのうちの１つのパッドは酵素を捕捉するように構成される。

いくつかの実施態様では、複数の液滴の各液滴が磁気ビーズを含有し、酵素が磁気ビーズに結合しており、パッドは、酵素が結合している磁気ビーズを捕捉するように構成された電磁石を含む。いくつかの実施態様では、酵素はポリメラーゼである。

いくつかの実施態様では、システムは、複数の液滴を供給源リザーバから投入チャネルを介して主チャネルに搬送するように構成された投入ポンプを含む。いくつかの実施態様では、システムは、主チャネルから宛先リザーバに液滴を吸引するように構成された排出ポンプを含む。いくつかの実施態様では、投入ポンプおよび排出ポンプのうちの少なくとも１つは、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの１つである。

いくつかの実施態様では、供給源リザーバは加圧される。いくつかの実施態様では、宛先リザーバは減圧される。いくつかの実施態様では、宛先リザーバは、反応を阻害するように構成された試薬をさらに含む。いくつかの実施態様では、試薬はＥＤＴＡである。

いくつかの実施態様では、主チャネルは空気を含む。いくつかの実施態様では、主チャネルは油を含む。いくつかの実施態様では、反応体積は、デジタル情報を符号化するＤＮＡ分子のライブラリを含む。いくつかの実施態様では、反応体積はゲノムＤＮＡのライブラリを含む。いくつかの実施態様では、反応体積は、スクリーニングのためのＤＮＡ変異体のライブラリを含む。

いくつかの実施態様では、宛先リザーバは、プールの少なくとも一部を容器内または基板上に分配するように構成されたディスペンサを含む。

幾つかの実施態様では、システムは、主チャネルおよび宛先リザーバと流体連通する排出チャネルをさらに備え、排出チャネルが、複数の液滴を前記主チャネルから宛先リザーバに搬送するように構成される。

態様では、デバイスは、前述した実施態様のいずれかの主チャネルを含む。

一態様において、化学反応を実行するためのデバイスは、底面と、底面上に配置された複数のパッドと、底面の第１の末端にある入口と、第１の末端とは反対側の底面の第２の末端にある出口と、底面の上方のチャネル高さに位置するカバーとを備える。底面およびカバーは、チャネル高さによって特徴付けられるチャネルを規定する。

いくつかの実施態様では、複数のパッドの各パッドは、電極、誘電材料、および疎水性表面を備える。いくつかの実施態様では、各パッドは、底面とカバーとの間に電界を生成するように構成される。

いくつかの実施態様では、複数のパッドは底面上にアレイとして配置され、アレイは複数のパッド行および複数のパッド列を含む。いくつかの実施態様では、各パッド列は各パッド行と交差し、その逆も同様であり、各パッド列は各パッド行からのパッドを含み、その逆も同様である。

いくつかの実施態様では、各パッド行は目標温度にある。いくつかの実施態様では、アレイはパッド行の複数のセットを含み、各セットは目標温度にあり、１またはそれを超えるパッド行を含む。いくつかの実施態様では、アレイは温度サイクルのパターンを含み、各温度サイクルは複数のセットを含み、温度サイクルにおける複数のセットの各セットは異なる目標温度を有する。

いくつかの実施態様では、チャネルは、複数の液滴として凝集反応体積を含む。いくつかの実施態様では、複数のパッドは、入口から出口に液滴を搬送するように配置され、入口から前記出口への方向は、チャネル高さに直交する。

いくつかの実施態様では、凝集反応体積は、デジタル情報を符号化するＤＮＡ分子のライブラリ、ゲノムＤＮＡ分子のライブラリ、スクリーニング用のＤＮＡ変異体のライブラリ、またはＲＮＡのライブラリのうちの１つまたは複数を含む。

いくつかの実施態様では、チャネル高さｈ、チャネルの幅ｗ、チャネルを通る複数の液滴の液滴速度ｖ、および複数の液滴によって占められるチャネルの平均部分体積ｏのうちの少なくとも１つは、ｈ＊ｗ＊ｖ＊ｏに等しいデバイスの有効流量が、凝集反応体積を目標時間量で入口から出口までチャネルを通って移動させるのに十分であるように構成される。

いくつかの実施態様では、パッドは、酵素が結合している磁気ビーズを捕捉するように構成された電磁石を含む。いくつかの実施態様では、酵素はポリメラーゼである。

いくつかの実施態様では、デバイスは、供給源リザーバおよびチャネルの入口の各々と流体連通する投入チャネルを介して、供給源リザーバから前記チャネル内に初期反応体積を搬送するように構成された投入ポンプを含む。

いくつかの実施態様では、デバイスは、チャネルの出口および宛先リザーバのそれぞれと流体連通する排出チャネルを介して、チャネルから宛先リザーバに流体または粒子を搬送するように構成された排出ポンプを含む。いくつかの実施態様では、投入ポンプおよび排出ポンプのうちの少なくとも１つは、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの１つである。いくつかの実施態様では、チャネルは、底面とカバーとの間に空気を含む。いくつかの実施態様では、チャネルは、底面とカバーとの間に油を含む。

プール内の固有の核酸配列の存在下または非存在下でビット値情報を符号化することによって、塩基ごとの合成なしに核酸（例えば、デオキシリボ核酸、ＤＮＡ）分子内のデジタル情報を符号化するための方法およびシステムも開示され、固有の核酸配列を有するビットストリーム内の各ビット位置を指定すること、およびプール内の対応する固有の核酸配列の存在下または非存在下によってその位置のビット値を指定することを含む。しかし、より一般的には、核酸配列の固有のサブセットによってバイトストリーム内の固有のバイトを指定することが開示されている。また、コンビナトリアルゲノム戦略を使用して塩基対塩基合成なしでユニーク核酸配列を生成する方法も開示される（例えば、複数の核酸配列のアセンブリまたは核酸配列の酵素ベースの編集）。

本開示のさらなる態様および利点は、本開示の例示的な実施形態のみが示され説明される以下の詳細な説明から当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明白な点で修正が可能である。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。
参照による組み込み

本明細書で言及される全ての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる開示と矛盾する限り、本明細書は、そのような矛盾する材料に取って代わるおよび／または優先することを意図している。

本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、および添付の図面（本明細書では「図（Ｆｉｇｕｒｅ）」および「図（ＦＩＧ．）」もまた）を参照することによって得られるであろう。

図１Ａおよび図１Ｂは、異なる寸法であるが同じ断面積を有するチャネルの２つの例を概略的に示す。チャネルの断面は、チャネルを通る流れがページに出入りすると解釈できるように示されている。断面は、高さ寸法および幅寸法を含む。矢印で示すように、熱は幅に沿ってチャネルに伝達される。図１Ａのチャネルは、図１Ｂと比較して幅（熱源がある場所）に沿ってより多くの表面を有するため、より効率的な熱伝達を受ける。

図２Ａおよび図２Ｂは、ＰＣＲ等の大規模な化学反応を実行するためのシステムを概略的に示す。図２Ａは、システムの側面図を示し、図２Ｂは、図２Ａの主チャネルの鳥瞰図を示す。反応体積は、（１）供給源リザーバで開始する。体積は、（２）投入チャネルを通って移動し、（３）主チャネル内に液滴として堆積される。主チャネルは、図２Ａに示すように高さｈ、および（２Ｂ）に示すように幅Ｗおよび長さＬを有する。液滴は、矢印によって示されるように、長さに沿ってパッド間から主チャネル内を移動する。パッドは、エレクトロウェッティングを使用して液滴のプログラム可能な移動を容易にする。幅に沿ったパッドの異なる行は、液滴が主チャネルの長さに沿って移動するときに複数の温度段階にさらされるように、異なる温度で構成されてもよい。主チャネルの終わりに、液滴は、（４）排出チャネルによって（５）宛先リザーバに吸引される。

図３は、２段階ＰＣＲを行うように設計された、図２の主チャネルの構成を示す。液滴は、主チャネルに沿って矢印の方向に移動する。パッドの影付きの行は、二本鎖ＤＮＡを融解するのに適切な温度に構成されている。網掛けされていない行は、プライマーをアニーリングおよび伸長するための適切な温度に構成される。この例では、８行のパッドのパターンでフル溶融アニール延長サイクルが構成されている。このパターンは、複数のサイクルにわたって主チャネルに沿って繰り返すことができる。

図４Ａ、図４Ｂおよび図４Ｃは、パッド上の液滴中でＰＣＲを行うためのポリメラーゼ酵素を構成するための異なる戦略を示す。図４Ａは、ポリメラーゼが液滴溶液の一部である例を示す。この場合、ポリメラーゼは、パッドを離れるときに液滴と共に移動する。図４Ｂは、ポリメラーゼがパッドの表面にテザリングされている例を示す。この場合、ポリメラーゼは、パッドを出るときに液滴と共に移動しない。ポリメラーゼは、パッド上に移動する任意の液滴中で活性である。図４Ｃは、ポリメラーゼがビーズにつながれ、パッドの表面に対するビーズの親和性をオンまたはオフに切り替えることができる例を示す。親和性がオフにされると、ポリメラーゼは液滴溶液中に自由に溶解し、親和性がオンにされると、ポリメラーゼはパッドの表面に捕捉され、パッドから移動するときに液滴と共に移動しない。この構成では、ポリメラーゼをプログラム可能に放出し、液滴溶液から捕捉することができる。

図５は、核酸配列に格納されたデジタル情報の符号化、書き込み、アクセス、読み出しおよび復号のための処理の概要を模式的に示す。

図６Ａおよび図６Ｂは、オブジェクトまたは識別子（例えば、核酸分子）を使用して「アドレスのデータ」と呼ばれるデジタルデータを符号化する例示的な方法を概略的に示す。図６Ａは、識別子を作成するためにランクオブジェクト（またはアドレスオブジェクト）をバイト値オブジェクト（またはデータオブジェクト）と結合することを示す。図６Ｂは、ランクオブジェクトおよびバイト値オブジェクトがそれ自体他のオブジェクトの組み合わせ連結であるアドレス指定方法におけるデータの実施形態を示す。

図７Ａおよび図７Ｂは、オブジェクトまたは識別子（例えば、核酸配列）を使用してデジタル情報を符号化する例示的な方法を概略的に示す。図７Ａは、ランクオブジェクトを識別子として用いたデジタル情報の符号化を例示する。図７Ｂは、アドレスオブジェクト自体が他のオブジェクトの組み合わせ連結である符号化方法の実施形態を示す。

図８は、可能な識別子の組み合わせ空間（Ｃ、ｘ軸）と、所与のサイズの情報（輪郭線）を格納するように構成され得る識別子の平均数（ｋ、ｙ軸）との間の関係の、対数空間における輪郭プロットを示す。

図９は、核酸配列に情報を書き込む方法（例えば、デオキシリボ核酸）の概要を模式的に示す。

図１０Ａおよび図１０Ｂは、別個の成分（例えば、核酸配列）を組み合わせてアセンブリすることによって識別子（例えば、核酸分子）を構築するための、「産物スキーム」と呼ばれる例示的な方法を示す。図１０Ａは、産物スキームを使用して構築された識別子の構造を示す。図１０Ｂは、産物スキームを用いて構築され得る識別子の組み合わせ空間の例を示す。

図１１は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための重複伸長ポリメラーゼ連鎖反応の使用を概略的に示す。

図１２は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための粘着末端ライゲーションの使用を概略的に示す。

図１３は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するためのリコンビナーゼアセンブリの使用を概略的に示す。

図１４Ａおよび図１４Ｂは、鋳型指向性ライゲーションを示す。図１４Ａは、成分を（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための鋳型指向性ライゲーションの使用を概略的に示す。図１４Ｂは、１つのプールされた鋳型指向性ライゲーション反応において６つの核酸配列（例えば、成分を）からそれぞれ組み合わせて構築された２５６個の異なる核酸配列のコピー数（存在量）のヒストグラムを示す。同上。

図１５Ａ、図１５Ｂ、図１５Ｃ、図１５Ｄ、図１５Ｅ、図１５Ｆおよび図１５Ｇは、並べ替えられた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための、「順列置換スキーム」と呼ばれる例示的な方法を概略的に示す；図１５Ａは、順列置換スキームを使用して構築された識別子の構造を示す；図１５Ｂは、順列置換スキームを用いて構築され得る識別子の組み合わせ空間の例を示す；図１５Ｃは、鋳型指向ライゲーションを用いた置換スキームの例示的な実施態様を示す；図１５Ｄは、図１５Ｃからの実施態様をどのように修正して、並び替えられた成分および繰り返された成分を有する識別子を構築することができるかの例を示す；図１５Ｅは、図１５Ｄの例示的な実施態様が、核酸サイズ選択で除去され得る望ましくない副生成物をどのようにもたらし得るかを示す；図１５Ｆは、鋳型指向ライゲーションおよびサイズ選択を使用して、並び替えられた成分および繰り返された成分を有する識別子を構築する方法の別の例を示す。；図１５Ｇは、サイズ選択が望ましくない副生成物から特定の識別子を分離できない場合の例を示す図である。同上。同上。同上。同上。同上。

図１６Ａ、図１６Ｂ、図１６Ｃ、および図１６Ｄは、可能な成分のより大きな数Ｍから、任意の数Ｋのアセンブリされた成分（例えば、核酸配列）の識別子（例えば、核酸分子）を構築するための、「ＭｃｈｏｏｓｅＫ」スキームと呼ばれる例示的な方法を概略的に示す。図１６Ａは、ＭｃｈｏｏｓｅＫスキームを用いて構築された識別子の構造を例示する。図１６Ｂは、ＭｃｈｏｏｓｅＫスキームを用いて構築され得る識別子の組み合わせ空間の例を例示する。図１６Ｃは、鋳型指向性ライゲーションを使用するＭｃｈｏｏｓｅＫスキームの例示的な実施態様を示す。図１６Ｄは、図１６Ｃの例示的な実施態様が、核酸サイズ選択で除去され得る望ましくない副生成物をどのようにもたらし得るかを示す。同上。同上。

図１７Ａおよび図１７Ｂは、パーティション付きの成分を有する識別子を構築するための「パーティションススキーム」と呼ばれる例示的な方法を概略的に示す。図１７Ａは、パーティションスキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。図１７Ｂは、鋳型指向性ライゲーションを使用するパーティションスキームの例示的な実施態様を示す。同上。

図１８Ａおよび図１８Ｂは、いくつかの可能な成分から成分の任意の列から構成される識別子を構築するための、「無制限文字列」（またはＵＳＳ）方式と呼ばれる例示的な方法を概略的に示す。図１８Ａは、ＵＳＳスキームを用いて構築され得る識別子の組み合わせ空間の例を示す。図１８Ｂは、鋳型指向性ライゲーションを使用するＵＳＳスキームの例示的な実施態様を示す。同上。

図１９Ａおよび図１９Ｂは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される例示的な方法を概略的に例示する。図１９Ａは、成分削除スキームを用いて構築され得る識別子の組み合わせ空間の例を示す。図１９Ｂは、二本鎖標的化切断および修復を使用する成分欠失スキームの例示的な実施態様を示す。同上。

図２０は、リコンビナーゼ認識部位を有する親識別子を概略的に示し、リコンビナーゼを親識別子に適用することによってさらなる識別子を構築することができる。

図２１Ａ、図２１Ｂおよび図２１Ｃは、より多数の識別子から多数の特定の識別子にアクセスすることによって核酸配列に格納された情報の部分にアクセスするための例示的な方法の概要を概略的に示す。図２１Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して、特定の成分を含有する識別子にアクセスするための例示的な方法を示す。図２１Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」演算を実行し、複数の指定された成分を含む識別子にアクセスする例示的な方法を示す。図２１Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」演算を実行し、複数の指定された成分を含む識別子にアクセスするための例示的な方法を示す。同上。同上。

図２２Ａおよび図２２Ｂは、核酸分子に符号化されたデータの符号化、書き込みおよび読み出しの例を示す。図２２Ａは、５，８５６ビットのデータの符号化、書き込みおよび読出しの一例を示す。図２２ｂは、６２，８２４ビットのデータの符号化、書き込みおよび読出しの一例を示す、ならびに

図２３は、本明細書で提供される方法を実施するようにプログラムまたは他の方法で構成されたコンピュータシステムを示す。

図２４は、二本鎖成分の単一の親セットから選択された任意の２つの二本鎖成分のアセンブリの例示的なスキームを示す。

図２５は、２つのオリゴＸおよびＹから作製された可能な粘着末端成分の構造を示す。

図２６は、１５片の粘着末端ＤＮＡ成分ライゲーションからのｑＰＣＲ産物の例示的なゲル電気泳動画像を示す。

図２７Ａは、２、２．５、３および１４４０分間ライゲーションされた１５片、６塩基の５’オーバーハングＤＮＡ成分セットのライゲーション効率の例示的なデータを示す。図２７Ｂは、２、２．５、３および１４４０分間ライゲーションされた１５片、６塩基の３’ ＤＮＡ成分セットのライゲーション効率の例示的なデータを示す。図２７Ｃは、ｑＰＣＲ産物の例示的なゲル電気泳動画像を示す。

図２８Ａは、オーバーハング長さによってグループ化されたＤＮＡ成分対のライゲーション効率を示す例示的なデータを示す。図２８Ｂは、オーバーハング長さによってグループ化されたＤＮＡ成分対のライゲーション効率を示す例示的なデータを示す。

図２９Ａは、ＧＣ含有量によってグループ分けされたＤＮＡ成分対のライゲーション効率を示す例示的なデータを示す。図２９Ｂは、ＧＣ含有量によってグループ分けされたＤＮＡ成分対のライゲーション効率を示す例示的なデータを示す。

図３０は、様々な温度でＴ４リガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからの例示的データを示す。

図３１は、様々な温度でＴ４リガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからの例示的データを示す。

図３２Ａは、Ｔ４ＤＮＡリガーゼと比較した、Ｔ７ＤＮＡリガーゼのライゲーション効率についての例示的なデータを示す。図３２Ｂは、Ｔ４ＤＮＡリガーゼと比較した、Ｔ３ＤＮＡリガーゼのライゲーション効率についての例示的なデータを示す。

図３３は、様々な濃度での大腸菌ＤＮＡリガーゼのライゲーション効率についての例示的データを示す。

図３４Ａは、様々な温度でＴ７ＤＮＡリガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからの例示的データを示す。図３４Ｂは、様々な温度でＴ３ＤＮＡリガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからの例示的データを示す。

図３５Ａは、ライゲーション効率に対するＰＥＧ８０００の効果の例示的なデータを示す。図３５Ｂは、ライゲーション効率に対するＰＥＧ６０００の効果の例示的なデータを示す。図３５Ｃは、ライゲーション効率に対するＰＥＧ４００の効果の例示的なデータを示す。

図３６は、ＰＥＧ４００またはＰＥＧ６０００の存在下で一緒にライゲーションされた４つの粘着末端（１０塩基、３’オーバーハングあり）ＤＮＡ成分のライゲーションからの例示的なデータを示す。

図３７は、リガーゼに対するバッファーＱＧまたはＥＤＴＡの効果の例示的なｑＰＣＲデータを示す。

図３８は、Ｑ５、ＰｈｕｓｉｏｎおよびＴａｑＤＮＡポリメラーゼを使用した複製の線形性に関する例示的なデータを示す。

図３９は、室温で４日間保存した異なるＤＮＡサンプルの例示的なゲル画像を示す。

図４０は、室温で乾燥および再水和を繰り返したＤＮＡの例示的なデータを示す。

図４１は、構築された粘着末端配列の例示的スキームを示す。

図４２Ａは、表４に列挙した異なる対のオーバーハング配列のライゲーションからの例示的なデータを示す。図４２Ｂは、表５に列挙した異なる対のオーバーハング配列のライゲーションからの例示的なデータを示す。

図４３は、表４および表５に列挙されたオーバーハングの各セットからの１５個のオーバーハングの２００万個のサブセットからのペナルティスコアを示す。

図４４は、表７の最終行からのオーバーハングを使用した１６個のＤＮＡ成分のライゲーション効率の例示的なデータを示す。

図４５Ａは、（コンピュータによる符号化後の）符号化されたメッセージの３４１×３５１参照マップを示す。図４５Ｂは、配列決定によって決定された、識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。

図４６は、図４１Ａ～図４１Ｂ示された符号化、書き込み、配列決定、および復号プロセス全体の複製実行からの例示的なデータを示す。

図４７Ａは、配列決定によって決定された、複製された識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４５Ａ～図４５Ｂのメッセージを含む元の識別子ライブラリの複数のコピーを作成することによって得られた。図４７Ｂは、元の識別子ライブラリ内の識別子コピー数と複製された識別子ライブラリとの間の相関関係を示す。図４７Ｃは、複製された識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。

図４８Ａは、配列決定によって決定された、アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４５Ａ～図４５Ｂからの元のメッセージを含む識別子ライブラリの一部にアクセスすることによって得られた。図４８Ｂは、元のライブラリにおける識別子コピー数とアクセスされた識別子ライブラリとの間の相関関係を示す。図４８Ｃは、アクセスされた識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。

図４９Ａは、配列決定によって決定された、２回アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４８Ａ～図４８Ｃのアクセスされた識別子ライブラリの下位部分にさらにアクセスすることによって得られた。図４９Ｂは、元のライブラリにおける識別子コピー数と２回アクセスされた識別子ライブラリとの間の相関関係を示す。図４９Ｃは、２回アクセスされた識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。

図５０Ａは、配列決定によって決定された、格納された識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、１００℃で４日間、図４５Ａ～図４５Ｂからのメッセージを表す元の識別子ライブラリを記憶した後から得られた。

図５０Ｂは、元の識別子ライブラリ内の識別子コピー数と複製された識別子ライブラリとの間の相関関係を示す。

図５０Ｃは、複製された識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。

図５１Ａは、７５．１℃で８日間インキュベートしたＤＮＡサンプルの例示的なデータを示す。図５１Ｂは、８４．４℃で８日間インキュベートしたＤＮＡサンプルの例示的なデータを示す。図５１Ｃは、９０．２℃で８日間インキュベートしたＤＮＡサンプルの例示的なデータを示す。図５１Ｄは、９５．０℃で８日間インキュベートしたＤＮＡサンプルの例示的なデータを示す。

図５２は、様々な量の（体積当たりの体積パーセントに関して）グリセロールと共にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからの例示的なデータを示す。

詳細な説明
本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。

本明細書で使用される場合、「記号」という用語は、一般に、デジタル情報の単位の表現を指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号はビットであってもよく、ビットは「０」または「１」の値を有してもよい。

本明細書で使用される場合、「別個の」または「固有の」という用語は、一般に、グループ内の他の物体と区別可能な物体を指す。例えば、別個のまたはユニークな核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であり得る。別個のまたはユニークな核酸分子は、他の核酸分子と同じ配列を有していなくてもよい。別個のまたはユニークな核酸配列または分子は、別の核酸配列または分子と類似性の領域を共有し得る。

本明細書で使用される場合、「成分」という用語は、一般に核酸配列を指す。成分は、別個の核酸配列であり得る。成分は、他の核酸配列または分子を生成するために、１またはそれを超える他の成分と連結またはアセンブリされてもよい。

本明細書で使用される場合、「層」という用語は、一般に、成分のグループまたはプールを指す。各層は、１つの層の成分が別の層の成分と異なるように、１組の別個の成分を含んでもよい。１またはそれを超える層からの成分は、１またはそれを超える識別子を生成するためにアセンブリすることができる。

本明細書で使用される場合、「識別子」という用語は、一般に、より大きなビット列内のビット列の位置および値を表す核酸分子または核酸配列を指す。より一般的には、識別子は、記号列内の記号を表すかまたはそれに対応する任意の目的物を指すことができる。いくつかの実施形態では、識別子は、１つまたは複数結された成分を含むことができる。

本明細書で使用される場合、「組み合わせ空間」という用語は、一般に、成分等のオブジェクトの開始セットから生成され得る全ての可能な別個の識別子のセット、および識別子を形成するためにそれらのオブジェクトをどのように修正するかについての許容可能な規則のセットを指す。成分をアセンブリするか連結することによって作られる識別子の組み合わせ空間のサイズは、成分の層の数、各層の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。

本明細書で使用される場合、「識別子ランク」という用語は、一般に、セット内の識別子の順序を定義する関係を指す。

本明細書で使用される場合、「識別子ライブラリ」という用語は、一般に、デジタル情報を表す記号列内の記号に対応する識別子の集合を指す。いくつかの実施形態では、識別子ライブラリに所与の識別子が存在しないことは、特定の位置に記号値を示すことができる。１またはそれを超える識別子ライブラリは、プール、グループ、または識別子のセットで組み合わせることができる。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含むことができる。

本明細書で使用される場合、「核酸」という用語は、一般に、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはそれらの変異体を指す。核酸は、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）、およびウラシル（Ｕ）から選択される１またはそれを超えるサブユニット、またはそれらの変異体を含み得る。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵ、またはそれらの変異体を含むことができる。ヌクレオチドは、成長中の核酸鎖に組み込むことができる任意のサブユニットを含むことができる。そのようなサブユニットは、Ａ、Ｃ、Ｇ、ＴもしくはＵ、またはより多くの相補的なＡ、Ｃ、Ｇ、ＴもしくはＵのうちの１つに特異的であり得るか、またはプリン（すなわち、ＡもしくはＧ、またはその変異体）もしくはピリミジン（すなわち、Ｃ、Ｔ、もしくはＵ、またはそれらの変異体）に相補的であり得る任意の他のサブユニットであり得る。いくつかの例では、核酸は一本鎖または二本鎖であり得、いくつかの場合、核酸は環状である。

本明細書で使用される場合、「核酸分子」または「核酸配列」という用語は、一般に、デオキシリボヌクレオチド（ＤＮＡ）もしくはリボヌクレオチド（ＲＮＡ）、またはそれらの類縁体の様々な長さを有し得るヌクレオチドまたはポリヌクレオチドのポリマー形態を指す。「核酸配列」という用語は、ポリヌクレオチドのアルファベット表示を指し得る。あるいは、この用語は、物理的ポリヌクレオチド自体に適用され得る。このアルファベット表示は、中央処理装置を有するコンピュータ内のデータベースに入力することができ、核酸配列または核酸分子をデジタル情報を符号化する記号またはビットにマッピングするために使用することができる。核酸配列またはオリゴヌクレオチドは、１またはそれを超える非標準ヌクレオチド（複数可）、ヌクレオチド類縁体および／または修飾ヌクレオチド（複数可）を含み得る。

本明細書で使用される場合、「オリゴヌクレオチド」は、一般に、一本鎖核酸配列を指し、典型的には４つのヌクレオチド塩基：アデニン（Ａ）の特定の配列から構成される：シトシン（Ｃ）；ポリヌクレオチドがＲＮＡである場合、グアニン（Ｇ）、およびチミン（Ｔ）またはウラシル（Ｕ）。

修飾ヌクレオチドの例としては、ジアミノプリン、５－フルオロウラシル、５－ブロモウラシル、５－クロロウラシル、５－ヨードウラシル、ヒポキサンチン、キサンチン、４－アセチルシトシン、５－（カルボキシヒドロキシルメチル）ウラシル、５－カルボキシメチルアミノメチル－２－チオウリジン、５－カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ－Ｄ－ガラクトシルケオシン、イノシン、Ｎ６－イソペンテニルアデニン、１－メチルグアニン、１－メチルイノシン、２，２－ジメチルグアニン、２－メチルアデニン、２－メチルグアニン、３－メチルシトシン、５－メチルシトシン、Ｎ６－アデニン、７－メチルグアニン、５－メチルアミノメチルウラシル、５－メトキシアミノメチル－２－チオウラシル、ベータ－Ｄ－マンノシルケオシン、５’－メトキシカルボキシメチルウラシル、５－メトキシウラシル、２－メチルチオ－Ｄ４６－イソペンテニルアデニン、ウラシル－５－オキシ酢酸（ｖ）、ウィブトキソシン、プソイドウラシル、ケオシン、２－チオシトシン、５－メチル－２－チオウラシル、２－チオウラシル、４－チオウラシル、５－メチルウラシル、ウラシル－５－オキシ酢酸メチルエステル、ウラシル－５－オキシ酢酸（ｖ）、５－メチル－２－チオウラシル、３－（３－アミノ－３－Ｎ－２－カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ、２，６－ジアミノプリン等が挙げられるが、これらに限定されない。核酸分子はまた、塩基部分（例えば、典型的には相補的ヌクレオチドと水素結合を形成するために利用可能な１もしくはそれを超える原子および／または典型的には相補的ヌクレオチドと水素結合を形成することができない１もしくはそれを超える原子において）、糖部分またはリン酸骨格において修飾され得る。核酸分子はまた、Ｎ－ヒドロキシスクシンイミドエステル（ＮＨＳ）等のアミン反応性部分の共有結合を可能にするために、アミノアリル－ｄＵＴＰ（ａａ－ｄＵＴＰ）およびアミノヘキシルアミド－ｄＣＴＰ（ａｈａ－ｄＣＴＰ）等のアミン修飾基を含有し得る。

本明細書で使用される場合、「プライマー」という用語は、一般に、ポリメラーゼ連鎖反応（ＰＣＲ）等の核酸合成の出発点として働く核酸の鎖を指す。一例では、ＤＮＡサンプルの複製中、複製を触媒する酵素は、ＤＮＡサンプルに結合したプライマーの３’末端で複製を開始し、反対鎖をコピーする。プライマー設計に関する詳細を含むＰＣＲに関するさらなる情報については、化学的方法のセクションＤを参照されたい。

本明細書で使用される場合、「ポリメラーゼ」または「ポリメラーゼ酵素」という用語は、一般に、ポリメラーゼ反応を触媒することができる任意の酵素を指す。ポリメラーゼの例としては、限定されないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される（すなわち、結合の形成を触媒する酵素）。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ｐｈｉ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。ＰＣＲと共に使用され得るさらなるポリメラーゼについて、ならびにポリメラーゼの特徴がＰＣＲにどのように影響し得るかについての詳細については、化学的方法のセクションＤを参照されたい。

「約」および「およそ」という用語は、当該用語に続く値の±２０％以内を意味すると理解されるべきである。

本明細書では、例えば、図１Ａおよび図１Ｂに示すように、チャネルを介して、例えばチャネルを介して大量の反応体積を移動させるためにエレクトロウェッティングを利用するシステム等の技術について説明する。いくつかの実施態様では、例示的なチャネルは、約２：１～１５：１の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約４：１～１５：１の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約８：１～１５：１の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約２：１～４：１の幅対高さ比を有することができる。流体ポンプとは異なり、エレクトロウェッティングは、パッドまたは離散化された表面に電圧を印加することによって、正確かつ均一な流体運動を容易に可能にする。パッドは、電極、誘電材料、および疎水性表面を含むことができる。パッドは、パッドの１またはそれを超える電気的特性を制御するために制御システムに接続（例えば、電気的に接続される）されてもよい。エレクトロウェッティングは、印加された電界による表面の湿潤特性（例えば、疎水性）の操作を含み得る。ウェッティング特性を操作することにより、液体、固体、および気体または不混和性液体等の第３の流体の交差部で形成される液体接触角。エレクトロウェッティングは、液滴を形成し、液滴を広げ、液滴の形状を変化させ、形状モード振動を誘発し、液滴を分割し、表面を横切って液滴を移動させ、液滴を併合および混合するために、液体および／または液滴に適用され得る。

図２Ａおよび図２Ｂは、供給源リザーバ、投入チャネル、主チャネル、排出チャネル、および宛先リザーバを含むシステムの一例を示す。図２Ａは、システムの線形ワークフローを示す。反応体積は、供給源リザーバから投入チャネルを通って引き込まれ、液滴として主チャネルに分配される。液滴は、本明細書に記載されるようにパッドのトラックに沿って主チャネルを通るエレクトロウェッティングを使用して移動される。液滴は、排出チャネルを介して主チャネルから除去され、宛先リザーバに移送される。

いくつかの実施態様では、反応体積は、投入から主チャネルのパッド上に分配される。液体はパッド上に蓄積し、液滴を形成し、次いで、これはエレクトロウェッティングによって主チャネルに沿って別のパッドに移動する。これにより、新しい液滴がその場所に形成され、プロセスが継続する。各液滴は、投入チャネルを通じた分注プロセスと主チャネルにおけるエレクトロウェッティングとの複合作用によって形成される。

図２Ｂは、主チャネルの上面図を示す。主チャネル内のパッドは、幅および長さを有するトラックまたはアレイを形成する。主チャネルの長さに沿ったパッドのラインは、パッドの列または「パッド列」と呼ばれ、主チャネルの幅に沿ったパッドのラインは、パッドの行または「パッド行」と呼ばれる。例示的なパッドは、電極、誘電材料、および疎水性表面を含むことができる。パッドは、図２Ｂに示すように正方形であってもよいし、長方形、三角形、または他の形状等の異なる形状であってもよい。パッドは、液滴の形成および移動を容易にする。液滴は、パッド上に置かれ、例えば、プロセッサおよびメモリを含む制御システムを使用して、プログラム可能な方法でパッド間を移動することができる。いくつかの実施態様では、システムは、いくつかの液滴の動きを同時に統合することができるか、または統合するように構成される。図２Ａおよび図２Ｂの例では、主チャネルは、液滴の行が複数の平行なパッド列に沿って同時に移動することができるように、パッド列に沿って投入チャネルから排出チャネルに液滴を移動させるように構成される。パッドの主チャネルおよびアレイは、ソフトリソグラフィを使用してポリジメチルシロキサン（ＰＤＭＳ）内に形成されてもよい。例示的な実施態様では、ＰＤＭＳ構造は、疎水性誘電体層でコーティングされたガラス基板に取り付けられてもよい。

いくつかの実施態様では、システムは、感光性電極を含む１またはそれを超えるパッドを含む。いくつかの実施態様では、システムは、液滴がパッドとカバープレートとの間を流れるように、各パッドの上方に位置された複数の透明電極を含むカバープレートを含む。感光電極および透明電極は、いずれも電源、例えば交流電源に接続されている。感光性電極は、（選択的に）光に曝露されて電気的接続を形成し、局所的な電界を形成することができる。いくつかの実施態様では、光の１またはそれを超える「スポット」を１またはそれを超える感光性電極に向けて電気的接続を形成し、局所的な電界を形成することができる。主チャネル内の電界を成形するために、異なるパターンの光を電極／パッドのアレイに投射することができる。例えば、デジタル光プロセッサチップおよび１またはそれを超える光学デバイスを使用して、複数のパッドのうちの複数に同時に制御された方法で光を投射することができる。各液滴内の核酸の存在に起因する電荷（例えば、負電荷）を有する液滴は、誘電泳動によって主チャネルを横切って移動することができ、移動する電場と共に移動するように液滴を強制する。いくつかの実施態様では、リアルタイム映像フィードバック制御デバイスを使用して、複数の液滴を同時に移動させ、正確な移動および制御を確実にすることができる。

いくつかの実施態様では、主チャネルは、エレクトロウェッティングを容易にするカバープレートを有することができる。主チャネルの高さは、パッドのトラックとカバープレートとの間の距離である。チャネルの高さは、エレクトロウェッティングおよび液滴への効率的な熱伝達を可能にするように構成されてもよい。流路の高さは、０．１ｍｍ～１０ｍｍであってもよい。流路の高さは、０．５ｍｍ～５ｍｍであってもよい。例示的な実施態様では、効率的な熱伝達とエレクトロウェッティングの両方に１ｍｍの高さが適切である。高さ、幅、および液滴速度は、特定の流量容量をサポートするように構成され得る。例えば、高さが１ｍｍ、幅が１００ｍｍ、液滴速度が２ｍｍ／ｓであるとすると、システムの流量容量は１＊１００＊２＝２００ｍｍ^３／ｓとなる。１ｍｍ^３＝１ｕＬの変換を使用すると、この数は２００ｕＬ／ｓの流量容量に対応する。主チャネル内の容積の全てが反応液滴によって占められた場合、主チャネルを通る反応体積の流量として「流量容量」を定義することができる。しかし、実際には、液滴は離間しなければならないため、主チャネルの全体積を占めない。「占有率」は、液滴によって占められる主チャネルの平均部分体積として定義することができる。占有をプログラムすることができる。２００ｕＬ／ｓの流量容量および０．５の占有率を考えると、有効流量は０．５＊２００＝１００ｕＬ／ｓとなる。したがって、この例では、供給源リザーバ内の初期反応体積が１Ｌである場合、システムは、体積全体を主チャネルに流すのにおよそ１０Ｋ秒、またはほぼ２．８時間かかる。この期間は、総体積に比例する。したがって、１０Ｌの初期反応体積は、およそ１００Ｋ秒または２８時間かかる。持続時間は、幅または液滴速度を増加させることによって短縮することができ、それぞれが持続時間と逆の関係を有する。上記の例では、幅を２倍し２００ｍｍにし、速度を１０ｍｍ／ｓに５倍に増加させる場合、初期反応体積１０Ｌの持続時間は、１００Ｋ秒ではなく１０Ｋ秒に短縮される。したがって、システムの有効流量は、本明細書に記載のいくつかの実際の用途のための合理的な目標時間量内に、大きな反応体積であっても初期反応体積を処理するように容易に構成することができる。

いくつかの実施態様では、液滴速度は、パッドの長さおよびスイッチング周波数によって制御することができる。スイッチング周波数は、液滴が１つのパッドから近接するパッドに移動することができる速度である。例えば、システムが１Ｈｚ（１パッド／秒）のスイッチング周波数を有し、各パッドが１０ｍｍの長さを有する場合、液滴速度は１０ｍｍ／秒になる。いくつかの実施態様では、システムは、０．０１Ｈｚ～１００Ｈｚのスイッチング周波数を有することができる。いくつかの実施態様では、システムは、０．１Ｈｚ～１０Ｈｚのスイッチング周波数を有することができる。いくつかの実施態様では、システムは、０．５Ｈｚ～５Ｈｚのスイッチング周波数を有することができる。

いくつかの実施態様では、主チャネルの異なる部分（例えば、１またはそれを超えるパッド行）は、カバープレートまたはパッド自体の温度を制御することによって異なる温度を有するように構成することができる。例えば、液滴が主チャネルの長さに沿って移動すると、一定期間異なる温度にさらされるように、異なるパッド行を異なる温度に設定することができる。これらの期間は、特定の温度に設定されたスイッチング周波数および直列の連続するパッド行の数によって制御することができる。例えば、ＰＣＲでは、典型的には、高温（例えば、９５℃）で短時間、例えば５秒間行われる融解工程がある。一例では、スイッチング周波数が０．２／ｓ（０．２Ｈｚ）である場合、この５秒間の温度段階は、単一行のパッドを９５℃に設定することによって主チャネル内で達成することができる。あるいは、スイッチング周波数が０．４／ｓ（０．４Ｈｚ）である場合、５秒工程は、９５℃で２つの連続したパッド行を必要とする。ＰＣＲ反応における後続の温度段階は、プライマーをアニーリングするために構成され得る。例えば、これは、反応物を６０℃に１０秒間曝露することを必要とし得る。スイッチング周波数を０．２／ｓと仮定すると、これは、連続する２つのパッド行を６０℃に設定することによって達成され得る。ポリメラーゼを用いてプライマーを伸長するために、後続の温度段階が必要とされ得る。これは、主チャネル内に構成することもできる。例えば、拡張工程が３０秒間７２℃を必要とし、スイッチング速度が０．２／ｓである場合、これは、６つの連続する行を７２℃に設定することによって主チャネルで達成することができる。いくつかのＰＣＲ処方では、アニーリングおよび伸長を単一の温度段階で行うことができる。温度サイクルは、異なる温度でパッド行の繰り返しパターンを確立することによって実行することができる。１またはそれを超える加熱または冷却機構を使用して、主チャネルの一部に温度を設定することができる。例えば、誘導プレート、熱ダイオード、ペルチェ素子、または任意の他の適切な熱交換器のいずれかを１またはそれを超えるパッド行に近接して位置し、１またはそれを超えるパッド行を目標温度まで加熱または冷却することができる。いくつかの実施態様では、１またはそれを超える加熱／冷却チャネルは、１またはそれを超えるパッド行に沿って位置することができ、１またはそれを超えるパッド行を絶縁、加熱、または冷却するように構成された流体を流すように構成することができる。

図３は、２段階ＰＣＲの構成例を示している。この例では、ＰＣＲサイクルは８つのパッド行で達成され、１つのパッド行は溶融のための温度に保持され、続いて７つのパッド行はアニーリングおよび伸長のための温度に保持される。次いで、８パッドパターンを複数サイクル繰り返すことができる。例えば、この例における１０サイクルＰＣＲの実施は、８パッドパターンを１０回繰り返し、主チャネル内の合計８０パッド行に対して行うことができる。したがって、主チャネルの長さを使用して、ＰＣＲ反応のサイクル数を制御することができる。別の例として、反応サイクルが例えば５パッド行を必要とする場合、２０ＰＣＲサイクルのために１００パッド行が必要である。追加のパッド行は、主チャネルの始めまたは終わりに組み込むことができる。例えば、ＰＣＲでは、追加のパッド行を必要とする第１のサイクルに細長い溶融工程があってもよい。同様に、追加のパッド行を必要とする最後のサイクルの終わりに引き延ばされた伸長工程があってもよい。

エレクトロウェッティングのための現在の技術水準では、パッドサイズを縮小し、スイッチング周波数を上げることは困難である。適切には、本明細書に記載のシステムは、現在の技術水準に対して小さいパッドサイズまたは高いスイッチング周波数に依存しない。例えば、主チャネルは、高さ１ｍｍ、幅に沿って８０個のパッドおよび長さに沿って１２０個のパッドを有する３ｍｍ×３ｍｍのパッドで構築することができる。このシステムにおける２段階ＰＣＲサイクルは、２～２０または２０～４０のパッド行を含み得る。このシステム上の例示的な２段階ＰＣＲサイクルは、（少なくとも）１２個のパッド行、例えば、溶融のための２個のパッド行と、それに続くアニーリングおよび伸長のための１０個のパッド行とを含むことができる。例示的な実施態様では、スイッチング周波数は０．５Ｈｚとすることができ、サイクルごとに４秒の溶融段階、それに続く２４秒のアニーリングおよび伸長段階を可能にする。１ｍｍの主チャネル高さ、３ｍｍ×３ｍｍのパッドサイズ、０．５Ｈｚのスイッチング周波数、および結果として生じる１．５ｍｍ／ｓの液滴速度は、エレクトロウェッティングのための現在の技術水準で容易に達成可能である。例示的な実施態様では、結果として得られるシステムの主チャネルは、標準的なベンチトップに適合するのに十分小さい約２４０ｍｍの幅および約３６０ｍｍの長さとすることができる。しかしながら、例示的なシステムを使用して、１Ｌを超える前例のないスケールで反応体積に対して１０サイクルのＰＣＲを実施することができる。例えば、５０％の占有率では、有効流速は１８０ｕＬ／ｓであり、１ＬのＰＣＲ反応に約１．５時間をもたらす。

いくつかの実施態様では、供給源リザーバおよび標準リザーバは、大型ボトルまたは容器、例えば、１ｍｌ、５ｍｌ、１０ｍｌ、またはそれを超える体積を有する容器であってもよい。例示的な実施態様では、供給源リザーバは、少なくとも１つの投入チャネルを使用して主チャネル内への液滴の制御された堆積のために加圧されてもよい。宛先リザーバは、少なくとも１つの排出チャネルを使用して主チャネルからの液滴の制御された吸引のために減圧されてもよい。あるいは、１またはそれを超える投入および排出チャネルを介した主チャネルへの堆積および主チャネルからの吸引は、蠕動ポンプまたはダイアフラムポンプ等の他のポンプ機構によって制御されてもよい。いくつかの実施態様では、システムは、パッド列ごとに１つの投入チャネル、および同様にパッド列ごとに１つの排出チャネルを含むことができる。いくつかの実施態様では、システムは、複数のパッド列のための１つの投入チャネルを含むことができる。１つの投入チャネルは、複数のパッド列に移動または分割される液滴を堆積させることができる。いくつかの実施態様では、１つの排出チャネルは、複数のパッド列からの液滴を凝集させることができる。一実施形態では、主チャネルは空気で満たされてもよい。いくつかの実施態様では、主チャネルは、安定した液滴形成を提供する油または別の液体物質で満たされてもよい。

いくつかの実施態様では、完全な反応処方を混合し、供給源リザーバに充填することができる。例えば、ＰＣＲでは、ポリメラーゼ、ｄＮＴＰ、反応バッファー、および鋳型ＤＮＡの組み合わせを供給源リザーバにロードすることができる。いくつかの実施態様では、主チャネルは、特定の反応成分の活性化を可能にするように構成され得る。例えば、ＰＣＲ反応体積は、ホットスタートポリメラーゼを用いて供給源リザーバにロードされてもよく、主チャネル内の第１系列のパッド行は、ポリメラーゼを活性化するために反応液滴を加熱するように構成されてもよい。いくつかの実施態様では、主チャネルは、反応成分を含むように構成され得る。例えば、ポリメラーゼのような酵素を各パッドの表面にコンジュゲートさせることができる。あるいは、酵素を磁気ビーズにコンジュゲートさせることができ、これを捕捉し、電磁機構を用いてパッドの表面に放出することができる。例えば、ビーズコンジュゲート化酵素は、液滴中に放出され、次いで、液滴がパッドから離れる前に捕捉され得る。例えば、主チャネルの末端にある１またはそれを超える捕捉パッド行を使用して、液滴が目的チャンバに移送される前に全てのビーズおよび／または酵素が捕捉されることを確実にすることができる。パッド上に酵素を保持するこれらの機構は、酵素の使用を少なくすることを可能にし得る（例えば、酵素が反応体積に溶解される場合、液滴が宛先リザーバに入るたびに消費される）。しかし、酵素がパッド上に保持されている場合、それらは複数の反応液滴のために再使用することができる。したがって、反応液滴中に酵素を配置するよりもパッド上に酵素を保持する方が安価であり得る。さらに、パッド上に酵素を保持することは、例えば、異なるパッド行が異なる酵素を保持する場合、複数の温度段階だけでなく、複数の酵素段階も含む主チャネル内で反応を実行する方法を提供し得る。例えば、制限エンドヌクレアーゼ酵素をパッド行のセットに保持することによって、核酸断片化のために制限消化工程を実施することができる。ライゲーション工程（例えば、粘着末端ライゲーションまたは平滑末端ライゲーション）は、パッド行のセット上にリガーゼ酵素を保持することによって、バーコード核酸を標的核酸に付加するために、または標的核酸を組み合わせるために実施され得る。いくつかの実施態様では、パッドのアレイは、特定の酵素を特定のパッド行に保持し、各列の温度を設定することによって、任意の指定された順序で、上記の説明に従って任意の数のＰＣＲ、ライゲーション、および制限工程を実行するように構成される。

図４は、ＰＣＲ用のパッドにポリメラーゼを保持する異なる方法を示す。宛先リザーバは、ＥＤＴＡまたは塩等の反応阻害のための追加の成分を含み得る。図４Ａは、ポリメラーゼが液滴溶液の一部である例を示す。この場合、ポリメラーゼは、パッドを離れるときに液滴と共に移動する。図４Ｂは、ポリメラーゼがパッドの表面にテザリングされている例を示す。この場合、ポリメラーゼは、パッドを出るときに液滴と共に移動しない。ポリメラーゼは、パッド上に移動する任意の液滴中で活性である。図４Ｃは、ポリメラーゼがビーズにつながれ、パッドの表面に対するビーズの親和性をオンまたはオフに切り替えることができる例を示す。親和性がオフにされると、ポリメラーゼは液滴溶液中に自由に溶解し、親和性がオンにされると、ポリメラーゼはパッドの表面に捕捉され、パッドから移動するときに液滴と共に移動しない。この構成では、ポリメラーゼをプログラム可能に放出し、液滴溶液から捕捉することができる。

本明細書に記載のシステムは、複数の温度段階の精度または精度を犠牲にすることなく、大量のスケーリング反応を提供することができる。このシステムの有用な用途は、大規模ＰＣＲであろう。そのような大規模ＰＣＲは、大量の特定のＤＮＡ配列を製造するために使用することができる。さらに、大規模ＰＣＲは、ＤＮＡ配列の大きなライブラリを増幅するために使用することができる。これは、ファージディスプレイ等のスクリーニングに使用されるＤＮＡ変異体のライブラリに有用であり得る。別の用途は、配列決定のための遺伝子ＤＮＡの大きなライブラリの増幅および調製であり得る。いくつかの実施態様では、本明細書に記載のシステムは、デジタル情報を符号化するＤＮＡの大型ライブラリの増幅および調製に使用することができる。そのようなデータ符号化ライブラリは、塩基ごとの合成または大規模ＤＮＡアセンブリ等の様々な方法によって作製することができる。いくつかの実施態様では、そのようなライブラリは、商業的に関連する量の情報を符号化し格納するために、（少なくとも）数十億の固有のＤＮＡ配列を含み得る。本明細書に記載のシステムは、従来のＰＣＲシステムによって容易に取り扱うことができる規模を超えてこれらのライブラリを提供および処理することができる。したがって、本明細書に記載のシステムは、ＤＮＡ内の大規模データ記憶システムの展開を成功させるために不可欠であり得る。さらに、本明細書で提供されるシステムおよび方法は、ＲＮＡのライブラリ上に逆転写酵素を使用して相補的ＤＮＡ（ｃＤＮＡ）のライブラリを作製する大規模逆転写ＰＣＲ（ＲＴ－ＰＣＲ）に使用することができ、これをさらに増幅および分析してＲＮＡに対応する遺伝子発現を測定することができる。本明細書で提供されるシステムおよび方法の別の用途は、ＤＮＡ結合色素および蛍光標識配列特異的プライマーまたはプローブを使用することによるリアルタイムＰＣＲ（ｑＰＣＲ）である。この実施態様では、蛍光検出モジュールを使用して、増幅が起こるにつれて各液滴内の蛍光シグナルを監視することができる。測定された蛍光はアンプリコンの総量に比例し、各液滴の蛍光の変化を経時的に監視して、各増幅サイクルで産生されるアンプリコンの量を計算することができる。

そのようなライブラリを設計および生成するための適切なシステムおよび方法は、２０１７年１２月２１日に出願された米国特許第１０，６５０，３１２号、発明の名称「ＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」（ＤＮＡ中のデジタル情報の符号化を記載）；２０１９年５月１６日に米国特許出願第１６／４６１，７７４号として出願され、米国特許出願公開第２０１９／０３６２８１４号として公開された、発明の名称「ＳＹＳＴＥＭＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」（ＤＮＡベースのデータストーレージのための符号化方式を記載）；２０１９年５月１６日に米国特許出願第１６／４１４，７５２号として出願され、米国特許出願公開第２０１９／０３５１６７３号として公開された、発明の名称「ＰＲＩＮＴＥＲ－ＦＩＮＩＳＨＥＲＳＹＳＴＥＭＦＯＲＤＡＴＡＳＴＯＲＡＧＥＩＮＤＮＡ」（符号化されたＤＮＡのアセンブリのためのプリンターフィニッシャシステムを記載）；２０１９年５月１６日出願に米国特許出願第１６／４１４，７５８号として出願され、米国特許出願公開第２０２０／０１９３３０１号として公開された、発明の名称「ＣＯＭＰＯＳＩＴＩＯＮＳＡＮＤＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」（ＤＮＡベースのデータストーレージのための高度なアセンブリ方法を記載）；２０１９年８月５日に米国特許出願第１６／５３２，０７７号として出願され、米国特許出願公開第２０２０／０１８５０５７号として公開された、発明の名称「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＳＴＯＲＩＮＧＡＮＤＲＥＡＤＩＮＧＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＷＩＴＨＥＲＲＯＲＰＲＯＴＥＣＴＩＯＮ」（データ構造ならびにＤＮＡ符号化のためのエラー保護および訂正を記載）；２０２０年５月１１日に米国特許出願第１６／８７２，１２９号と出願された、発明の名称「ＤＡＴＡＳＴＲＵＣＴＵＲＥＳＡＮＤＯＰＥＲＡＴＩＯＮＳＦＯＲＳＥＡＲＣＨＩＮＧ，ＣＯＭＰＵＴＩＮＧ，ＡＮＤＩＮＤＥＸＩＮＧＩＮＤＮＡ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」（アクセス、ランク、および検索のためのデータ構造および演算を記載）；ならびに２０２０年９月４日に米国特許出願第１７／０１２，９０９号として出願された、発明の名称「ＣＨＥＭＩＣＡＬＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」（符号化ＤＮＡアセンブリのための化学的方法を記載する）に記載されており、これらはそれぞれ、その全体が参照により本明細書に組み込まれる。

バイナリコードの形態のコンピュータデータ等のデジタル情報は、記号の配列または記号列を含むことができる。バイナリコードは、例えば、ビットと呼ばれる２つのバイナリ記号、典型的には０および１を有する二進数システムを使用して、テキストまたはコンピュータプロセッサ命令を符号化または表現することができる。デジタル情報は、一連の非バイナリ記号を含むことができる非バイナリコードの形態で表すことができる。各符号化記号は、固有のビット列（または「バイト」に再割り当てすることができ、固有のビット列またはバイトは、バイト列またはバイトストリームに配置することができる。所与のビットのビット値は、２つの記号（例えば、０または１）のうちの１つであり得る。Ｎビットの文字列を含むことができるバイトは、合計２^Ｎ個の一意のバイト値を有することができる。例えば、８ビットを含むバイトは、合計２^８または２５６の可能な一意のバイト値を生成することができ、２５６バイトの各々は、バイトで符号化することができる２５６の可能な別個の記号、文字、または命令のうちの１つに対応することができる。生データ（例えば、テキストファイルおよびコンピュータ命令）は、バイト列またはバイトストリームとして表すことができる。Ｚｉｐファイル、または生データを含む圧縮データファイルをバイトストリームに格納することもでき、これらのファイルを圧縮形式のバイトストリームとして格納し、次いでコンピュータによって読み取られる前に生データに解凍することができる。

本開示の方法およびシステムを使用して、コンピュータデータまたは情報を複数の識別子に符号化することができ、その各々は元の情報の１またはそれを超えるビットを表すことができる。いくつかの例では、本開示の方法およびシステムは、各々が元の情報の２ビットを表す識別子を使用してデータまたは情報を符号化する。

デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基ごとの合成に依存しており、これは費用および時間がかかる可能性がある。代替方法は、効率を改善し、デジタル情報を符号化するための塩基ごとの核酸合成への依存を低減することによってデジタル情報記憶の商業的実行可能性を改善し、全ての新しい情報記憶要求に対する別個の核酸配列のデノボ合成を排除することができる。

新しい方法は、塩基ごとまたはデノボ核酸合成（例えば、ホスホラミダイト合成）に依存する代わりに成分の組み合わせ配置を含む複数の識別子または核酸配列においてデジタル情報（例えば、バイナリコード）を符号化することができる。このように、新しい戦略は、情報記憶の第１の要求のために第１のセットの別個の核酸配列（または成分）を生成することができ、その後、後続の情報記憶要求のために同じ核酸配列（または成分）を再使用することができる。これらのアプローチは、情報からＤＮＡへの符号化および書き込みプロセスにおける核酸配列のｄｅ－ｎｏｖｏ合成の役割を減らすことによって、ＤＮＡベースの情報記憶のコストを大幅に削減することができる。さらに、各伸長核酸への各塩基の周期的送達を使用することができるホスホロアミダイト化学または鋳型フリーのポリメラーゼに基づく核酸伸長等の塩基ごとの合成の実施態様とは異なり、成分からの識別子構築を使用した情報－ＤＮＡ書き込みの新しい方法は、必ずしも周期的核酸伸長を使用しない高度に並列化可能なプロセスである。したがって、新しい方法は、古い方法と比較して、デジタル情報をＤＮＡに書き込む速度を高めることができる。
核酸配列（複数可）に情報を符号化および書き込むための方法

一態様では、本開示は、情報を核酸配列に符号化する方法を提供する。情報を核酸配列に符号化する方法は、（ａ）情報を記号列に変換することと、（ｂ）記号列を複数の識別子にマッピングすることと、（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含み得る。複数の識別子の個々の識別子は、１またはそれを超える成分を含むことができる。１またはそれを超える成分の個々の成分は、核酸配列を含み得る。記号列内の各位置の各記号は、別個の識別子に対応することができる。個々の識別子は、記号列内の個々の位置における個々の記号に対応することができる。さらに、記号列内の各位置における１つの記号は、識別子の非存在に対応し得る。例えば、「０」および「１」のバイナリ記号（例えば、ビット）の文字列において、「０」の各出現は、識別子の非存在に対応し得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成することと、（ｃ）核酸配列を有する核酸分子を記憶することとを含み得る。コンピュータデータは、核酸分子の各々の配列ではなく、合成された核酸分子の少なくともサブセットに符号化されてもよい。

別の態様では、本開示は、核酸配列に情報を書き込み、格納するための方法を提供する。本方法は、（ａ）情報を表す仮想識別子ライブラリを受信または符号化することと、（ｂ）識別子ライブラリを物理的に構築することと、（ｃ）識別子ライブラリの１またはそれを超える物理的コピーを１またはそれを超える別々の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、１またはそれを超える成分を含むことができる。１またはそれを超える成分の個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータストーレージのための方法は、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成することと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を格納することとを含み得る。核酸分子の合成は、塩基別核酸合成の非存在下であり得る。

別の態様では、本開示は、核酸配列に情報を書き込み、格納するための方法を提供する。核酸配列に情報を書き込み、格納するための方法は、（ａ）情報を表す仮想識別子ライブラリを受信または符号化することと、（ｂ）識別子ライブラリを物理的に構築することと、（ｃ）識別子ライブラリの１またはそれを超える物理的コピーを１またはそれを超える別々の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、１またはそれを超える成分を含むことができる。１またはそれを超える成分の個々の成分は、核酸配列を含み得る。

図５は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み出し、読み出した情報を復号する概要処理を示す。デジタル情報またはデータは、１またはそれを超える記号列に変換することができる。一例では、記号はビットであり、各ビットは「０」または「１」のいずれかの値を有することができる。各記号は、その記号を表すオブジェクト（例えば、識別子）にマッピングまたは符号化され得る。各記号は、別個の識別子によって表され得る。別個の識別子は、成分から構成される核酸分子であり得る。成分は核酸配列であり得る。デジタル情報は、情報に対応する識別子ライブラリを生成することによって核酸配列に書き込まれ得る。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することによって物理的に生成することができる。デジタル情報の全てまたは任意の部分が一度にアクセスされてもよい。一例では、識別子のサブセットは識別子ライブラリからアクセスされる。識別子のサブセットは、識別子を配列決定し識別することによって読み取られ得る。識別された識別子は、デジタルデータを復号するためにそれらの対応する記号と関連付けられ得る。

図５の手法を使用して情報を符号化および読み取りするための方法は、例えば、ビットストリームを受信することと、識別子ランクまたは核酸インデックスを使用して、ビットストリーム内の各１ビット（「１」のビット値を有するビット）を別個の核酸識別子にマッピングすることとを含むことができる。１のビット値に対応する識別子のコピーを含む（０のビット値の識別子を除外する）核酸サンプルプールまたは識別子ライブラリの構築。サンプルを読み取ることは、分子生物学的方法（例えば、配列決定、ハイブリダイゼーション、ＰＣＲ等）を使用することと、識別子ライブラリでどの識別子が表されているかを判定することと、それらの識別子に対応するビットに「１」のビット値および他の場所の「０」のビット値を割り当てて（ここでも識別子ランクを参照して、各識別子が対応する元のビットストリーム内のビットを識別する）、元の符号化ビットストリームに情報を復号することとを風組むことができる。

Ｎ個の別個のビットの文字列を符号化することは、可能な識別子として同数の固有の核酸配列を使用することができる。情報符号化に対するこの手法は、格納するために情報の新しい項目（Ｎビットの文字列）ごとの識別子（例えば、核酸分子）のｄｅ－ｎｏｖｏ合成を使用することができる。他の例では、新たな情報項目を符号化することが、識別子ライブラリを形成するために予め合成された（または予め作製された）識別子を機械的に選択および混合することを含むことができるように、格納すべき新たな情報項目ごとに識別子（Ｎ個またはそれ未満の数で同等）を新たに合成するコストは、１回のｄｅ－ｎｏｖｏ合成およびその後の全ての可能な識別子の保守によって低減することができる。他の例では、（１）格納すべき新たな情報項目ごとに最大Ｎ個の識別子をｄｅ－ｎｏｖｏ合成すること、または（２）格納すべき新たな情報項目ごとにＮ個の可能な識別子を維持および選択すること、またはそれらの任意の組み合わせの両方のコストは、多数（Ｎ未満、場合によってははるかにＮより少ない）の核酸配列を合成および維持し、次いで酵素反応によってこれらの配列を改変して、格納すべき新たな情報項目ごとに最大Ｎ個の識別子を生成することによって低減され得る。

識別子は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために合理的に設計および選択され得る。識別子は、書き込みエラー、突然変異、劣化、および読み出しエラーを最小限に抑えるように設計および選択することができる。合成核酸ライブラリ（例えば、識別子ライブラリ）を含むＤＮＡ配列の合理的な設計については、化学的方法のセクションＨを参照されたい。

図６Ａおよび図６Ｂは、オブジェクトまたは識別子（例えば、核酸分子）においてデジタルデータを符号化する、「アドレスのデータ」と呼ばれる例示的な方法を概略的に示す。図６Ａは、ビットストリームを識別子ライブラリに符号化することを示し、個々の識別子は、識別子ランクを指定する単一の成分をバイト値を指定する単一の成分と連結またはアセンブリすることによって構築される。一般に、アドレス方式のデータは、２つのオブジェクト、すなわち、バイト値を識別する１つのオブジェクト「バイト値オブジェクト」（または「データオブジェクト」）と、識別子ランク（または元のビットストリーム内のバイトの相対位置）を識別する１つのオブジェクト「ランク対象」（または「アドレスオブジェクト」）とを備えることによってモジュール式に情報を符号化する識別子を使用する。図６Ｂは、各ランクオブジェクトが成分のセットから組み合わせ的に構築され得、各バイト値オブジェクトが成分のセットから組み合わせ的に構築され得るアドレス指定方法におけるデータの一例を示す。ランクおよびバイト値オブジェクトのそのような組み合わせ構築は、オブジェクトが単一の成分のみから作成される場合（例えば、図６Ａ）よりも多くの情報を識別子に書き込むことを可能にする。

図７Ａおよび図７Ｂは、オブジェクトまたは識別子（例えば、核酸配列）においてデジタル情報を符号化する別の例示的な方法を概略的に示す。図７Ａは、ビットストリームを識別子ライブラリに符号化することを示し、識別子は、識別子ランクを指定する単一の成分から構築される。特定のランク（またはアドレス）における識別子の存在は、「１」のビット値を指定し、特定のランク（またはアドレス）における識別子の非存在は、「０」のビット値を指定する。このタイプの符号化は、ランク（元のビットストリーム内のビットの相対位置）のみを符号化する識別子を使用し、識別子ライブラリ内のそれらの識別子の有無を使用して、それぞれ「１」または「０」のビット値を符号化することができる。情報を読み出して復号することは、識別子ライブラリに存在する識別子を識別することと、「１」のビット値をそれらの対応するランクに割り当てることと、「０」のビット値を他の場所に割り当てることとを含むことができる。図７Ｂは、各可能な組み合わせ構成がランクを指定するように、各識別子が成分のセットから組み合わせ的に構成され得る例示的な符号化方法を示す。そのような組み合わせ構成は、識別子が単一の成分のみから作成される場合（例えば、図７Ａ）よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、５つの別個の成分を含むことができる。５つの別個の成分は、各々が５つの成分のうちの２つを含む１０個の別個の識別子を生成するようにアセンブリすることができる。１０個の別個の識別子は各々、ビットストリーム内のビットの位置に対応するランク（またはアドレス）を有することができる。識別子ライブラリは、ビット値「１」の位置に対応する１０個の可能な識別子のサブセットを含み、長さ１０のビットストリーム内のビット値「０」の位置に対応する１０個の可能な識別子のサブセットを除外することができる。

図８は、図８Ａおよび図８Ｂ示された符号化方法を使用して所与の元のサイズの情報をビットで格納するために（Ｄ、輪郭線）、可能な識別子の組み合わせ空間（Ｃ、ｘ軸）と物理的に構築される識別子の平均数（ｋ、ｙ軸）との間の関係のログ空間における等高線プロットを示す。このプロットは、サイズＤの元の情報がＣビットの文字列（ＣはＤより大きい場合がある）に再符号化され、ビット数ｋが’１’のビット値を有すると仮定する。さらに、プロットは、再符号化されたビット列に対して情報対核酸符号化が実行され、ビット値が「１」である位置の識別子が構築され、ビット値が「０」である位置の識別子は構築されないと仮定する。仮定に従って、可能な識別子の組み合わせ空間は、再符号化されたビット列内の全ての位置を識別するためのサイズＣを有し、サイズＤのビット列を符号化するために使用される識別子の数は、Ｄ＝ｌｏｇ_２（Ｃｃｈｏｏｓｅｋ）のようになり、Ｃｃｈｏｏｓｅｋは、Ｃ個の可能性からｋ個の順不同の結果を選ぶ方法の数の数式であり得る。したがって、可能な識別子の組み合わせ空間が所与の情報項目のサイズ（ビット単位）を超えて増加するにつれて、物理的に構築された識別子の数が減少して、所与の情報を格納するために使用され得る。

図９は、核酸配列に情報を書き込むための概観方法を示す。情報を書き込む前に、情報は記号列に変換され、複数の識別子に符号化されてもよい。情報を書き込むことは、可能な識別子を生成するために反応を設定することを含むことができる。反応は、投入を区画にデポジットすることによって設定され得る。投入は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。区画は、ウェル、チューブ、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン内の液滴であってもよい。複数の反応を複数の区画に設定することができる。反応は、プログラムされた温度インキュベーションまたはサイクリングによって識別子を生成するために進行し得る。反応は、選択的または遍在的に除去され得る（例えば、削除される）。反応はまた、それらの識別子を１つのプールに集めるために、選択的または遍在的に中断され、統合され、精製され得る。複数の識別子ライブラリからの識別子は、同じプールに収集されてもよい。個々の識別子は、どの識別子ライブラリに属するかを識別するためのバーコードまたはタグを含むことができる。代替的に、またはそれに加えて、バーコードは、符号化された情報のためのメタデータを含むことができる。補助的な核酸または識別子もまた、識別子ライブラリと共に識別子プールに含まれ得る。補足的な核酸または識別子は、符号化された情報のためのメタデータを含むか、または符号化された情報を難読化または秘匿化するのに役立ち得る。

識別子ランク（例えば、核酸インデックス）は、識別子の順序を決定するための方法または鍵を備えることができる。本方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。本方法はまた、識別子を構成する全ての成分のランク有するルックアップテーブルと、それらの成分の組み合わせを含む任意の識別子の順序を決定するための関数とを含むことができる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書内の単語がアルファベット順に並べられる方法に類似することがある。アドレスにおけるデータ符号化方法では、（識別子のランクオブジェクトによって符号化された）識別子ランクを使用して、ビットストリーム内の（識別子のバイト値オブジェクトによって符号化された）バイトの位置を判定することができる。代替方法では、現在の識別子の（識別子自体全体によって符号化された）識別子ランクを使用して、ビットストリーム内の「１」のビット値の位置を判定することができる。

鍵は、サンプル内の識別子（例えば、核酸分子）の一意のサブセットに異なるバイトを割り当てることができる。例えば、単純な形態では、キーは、ビットの位置を指定する固有の核酸配列にバイト内の各ビットを割り当てることができ、次いで、サンプル内のその核酸配列の有無は、それぞれ１または０のビット値を指定することができる。核酸サンプルから符号化された情報を読み取ることは、配列決定、ハイブリダイゼーション、またはＰＣＲを含む任意の数の分子生物学技術を含むことができる。いくつかの実施形態では、符号化データセットを読み取ることは、データセットの一部を再構築すること、または各核酸サンプルから符号化データセット全体を再構築することを含み得る。配列を読み取ることができる場合、核酸インデックスを固有の核酸配列の存在または非存在と共に使用することができ、核酸サンプルをビットストリーム（例えば、ビット、バイト、バイト（複数）の各文字列、またはバイト（複数）の文字列）に復号することができる。

識別子は、成分核酸配列を組み合わせてアセンブリすることによって構築され得る。例えば、情報は、分子の定義された群（例えば、組み合わせ空間）から核酸分子のセット（例えば、識別子）を取ることによって符号化され得る。定義された分子群の可能な各識別子は、層に分割され得る予め作製された成分のセットからの核酸配列（例えば、成分）のアセンブリであり得る。各個別の識別子は、全ての層から１つの成分を固定された順序で連結することによって構築されてもよい。例えば、Ｍ個の層があり、各層がｎ個の成分を有し得る場合、最大Ｃ＝ｎ^Ｍの固有の識別子が構築され得、最大２^Ｃの異なる情報項目、またはＣビットが符号化され、格納され得る。例えば、メガビットの情報の記憶は、１×１０^６個の別個の識別子またはサイズＣ＝１×１０^６の組み合わせ空間を使用することができる。この例の識別子は、異なる方法で編成された様々な成分からアセンブリすることができる。アセンブリは、それぞれがｎ＝１×１０^３の成分を含むＭ＝２のプレハブ層から作製されてもよい。あるいは、アセンブリは、それぞれがｎ＝１×１０^２の成分を含有するＭ＝３層から作製されてもよい。この例が示すように、より多数の層を使用して同じ量の情報を符号化することにより、成分の総数をより少なくすることができる。より少ない数の全成分を使用することは、書き込みコストの点で有利であり得る。

一例では、それぞれｘおよびｙ成分（例えば、核酸配列）を有する２組のユニークな核酸配列または層ＸおよびＹから始めることができる。Ｘからの各核酸配列を、Ｙからの各核酸配列にアセンブリすることができる。２つのセットで維持される核酸配列の総数はｘとｙの合計であり得るが、生成され得る核酸分子の総数、したがって可能な識別子はｘとｙの積であり得る。Ｘからの配列を任意の順序でＹの配列にアセンブリすることができる場合、さらに多くの核酸配列（例えば、識別子）を生成することができる。例えば、生成される核酸配列（例えば、識別子）の数は、アセンブリ順序がプログラム可能である場合、ｘとｙの積の２倍であり得る。生成され得る全ての可能な核酸配列のこのセットは、ＸＹと呼ばれ得る。ＸＹにおける固有核酸配列のアセンブリされた単位の順序は、別個の５’および３’末端を有する核酸を使用して制御することができ、配列の別個の５’および３’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応（ＰＣＲ）および配列決定が行われ得る。そのようなアプローチは、それらのアセンブリ製品の組み合わせおよび順序で情報を符号化することによって、Ｎ個の別個のビットを符号化するために使用される核酸配列（例えば、成分）の総数を減らすことができる。例えば、１００ビットの情報を符号化するために、１０個の異なる核酸分子（例えば、成分）の２つの層を固定された順序でアセンブリして１０＊１０個または１００個の異なる核酸分子（例えば、識別子）を生成してもよく、または５個の異なる核酸分子（例えば、成分）の１つの層および１０個の異なる核酸分子（例えば、成分）の別の層を任意の順序でアセンブリして１００個の異なる核酸分子（例えば、識別子）を生成してもよい。

各層内の核酸配列（例えば、成分）は、中央に、一方の末端に共通のハイブリダイゼーション領域を含み、他方の末端に別の共通のハイブリダイゼーション領域を含み得る。バーコードは、層内の全ての配列を一意に識別するのに十分な数のヌクレオチドを含み得る。例えば、典型的には、バーコード内の各塩基位置に対して４つの可能なヌクレオチドが存在する。したがって、三塩基バーコードは、４^３＝６４個の核酸配列を一意的に識別し得る。バーコードは、ランダムに生成されるように設計されてもよい。あるいは、バーコードは、識別子または配列決定の構築化学を複雑にする可能性がある配列を回避するように設計されてもよい。さらに、バーコードは、各々が他のバーコードからの最小ハミング距離を有することができるように設計されてもよく、それによって、塩基分解能突然変異または読み取りエラーがバーコードの適切な識別を妨げる可能性を低減する。ＤＮＡ配列の合理的な設計については、化学的方法のセクションＨを参照されたい。

核酸配列の一末端のハイブリダイゼーション領域（例えば、成分）は、各層で異なっていてもよいが、層内の各部材で同じであってもよい。近接する層は、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域をそれらの成分上に有する層である。例えば、層Ｘからの任意の成分は、相補的なハイブリダイゼーション領域を有し得るので、層Ｙからの任意の成分に結合することができ得る。反対側の末端のハイブリダイゼーション領域は、第１の末端のハイブリダイゼーション領域と同じ目的を果たし得る。例えば、層Ｙからの任意の成分は、一方の末端の層Ｘの任意の成分および反対側の末端の層Ｚの任意の成分に結合することができる。

図１０Ａおよび図１０Ｂは、固定された順序で各層から別個の成分（例えば、核酸配列）を組み合わせてアセンブリすることによって識別子（例えば、核酸分子）を構築するための、「産物スキーム」と呼ばれる例示的な方法を示す。図１０Ａは、産物スキームを用いて構築された識別子の構造を示す。識別子は、各層からの単一の成分を固定された順序で組み合わせることによって構築されてもよい。各々がＮ個の成分を有するＭ個の層について、Ｎ^Ｍ個の可能な識別子がある。図１０Ｂは、産物スキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。一例では、組み合わせ空間は、各々が３つの別個の成分を含む３つの層から生成され得る。各層からの１つの成分が固定された順序で組み合わされるように、成分が組み合わされてもよい。このアセンブリ方法の組み合わせ空間全体は、２７個の可能な識別子を含むことができる。

図１１～図１４は、産物スキーム（図６参照）を実施するための化学的方法を示す。図１１～図１４に示す方法は、２またはそれを超える別個の成分を固定された順序でアセンブリするための任意の他の方法と共に、例えば、識別子ライブラリ内の任意の１またはそれを超える識別子を生成するために使用され得る。識別子は、本明細書に開示されている方法またはシステムの間の任意の時点で、図１１～図１４に記載される実施方法のいずれかを使用して構築され得る。場合によっては、可能な識別子の組み合わせ空間の全てまたは一部は、デジタル情報が符号化または書き込まれる前に構築されてもよく、その後、書き込みプロセスは、既存のセットから（情報を符号化する）識別子を機械的に選択およびプールすることを含んでもよい。他の例では、識別子は、データ符号化または書き込みプロセスの１またはそれを超える工程が発生した後（すなわち、情報が書き込まれているとき）に構築されてもよい。

酵素反応を使用して、異なる層またはセットから成分をアセンブリすることができる。各層の成分（例えば、核酸配列）は、近接する層の成分のための特異的なハイブリダイゼーションまたは結合領域を有するので、ワンポット反応でアセンブリが起こり得る。例えば、層Ｘからの核酸配列（例えば、成分）Ｘ１、層Ｙからの核酸配列Ｙ１、および層Ｚからの核酸配列Ｚ１は、集合した核酸分子（例えば、識別子）Ｘ１Ｙ１Ｚ１を形成し得る。さらに、各層から複数の核酸配列を含めることによって、複数の核酸分子（例えば、識別子）を１回の反応でアセンブリすることができる。例えば、前の例のワンポット反応にＹ１およびＹ２の両方を含めると、２つの集合生成物（例えば、識別子）、Ｘ１Ｙ１Ｚ１およびＸ１Ｙ２Ｚ１が得られ得る。この反応多重化は、物理的に構築された複数の識別子の書き込み時間を高速化するために使用され得る。アセンブリ効率に関するＤＮＡ配列の合理的な設計についての詳細については、化学的方法のセクションＨを参照されたい。核酸配列のアセンブリは、約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間または１時間以下の期間で行われ得る。符号化データの精度は、少なくとも約９０％、９５％、９６％、９７％、９８％、９９％またはそれを超えてもよい。

識別子は、図１１に示すように、重複伸長ポリメラーゼ連鎖反応（ＯＥＰＣＲ）を使用して産物スキームに従って構築することができる。各層中の各成分は、近接する層からの成分の配列末端上の共通のハイブリダイゼーション領域に相同および／または相補的であり得る配列末端上の共通のハイブリダイゼーション領域を有する二本鎖または一本鎖（図に示す）核酸配列を含み得る。個々の識別子は、成分Ｘ_１－Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分（例えば、ユニーク配列）、Ｙ_１－Ｙ_Ａを含む層Ｙ（または層２）からの第２の成分（例えば、ユニーク配列）、およびＺ_１－Ｚ_Ｂを含む層Ｚ（または層３）からの第３の成分（例えば、ユニーク配列）を連結することによって構築され得る。層Ｘからの成分は、層Ｙからの成分上の３’末端と相補性を共有する３’末端を有し得る。したがって、層ＸおよびＹからの一本鎖成分は、３’末端で一緒にアニーリングされ得、ＰＣＲを使用して伸長されて二本鎖核酸分子を生成し得る。生成された二本鎖核酸分子を溶融して、層Ｚからの成分の３’末端と相補性を共有する３’末端を生成することができる。層Ｚからの成分は、生成された核酸分子とアニールされてもよく、層Ｘ、Ｙ、およびＺからの単一成分を固定された順序で含む固有の識別子を生成するように拡張されてもよい。ＯＥＰＣＲについては、化学的方法のセクションＡを参照されたい。最も外側の層に隣接するプライマーを用いたＤＮＡサイズ選択（例えば、ゲル抽出を用いて、化学的方法のセクションＥを参照されたい）またはポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法のセクションＤを参照されたい）を実施して、反応で形成され得る他の副生成物から完全にアセンブリされた識別子生成物を単離することができる。２つの最外層の各々に１つずつの２つのプローブによる連続的な核酸捕捉もまた、完全にアセンブリされた識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る（化学的方法のセクションＦを参照されたい）。

識別子は、図１２に示すように、粘着末端ライゲーションを使用して産物スキームに従ってアセンブリすることができる。一本鎖３’オーバーハングを有する二本鎖成分（例えば、二本鎖ＤＮＡ（ｄｓＤＮＡ））をそれぞれ含む３つの層を使用して、別個の識別子をアセンブリすることができる。例えば、成分Ｘ_１－Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分、Ｙ_１－Ｙ_Ｂを含む層Ｙ（または層２）からの第２の成分、およびＺ_１－Ｚ_Ｃを含む層Ｚ（または層３）からの第３の成分を含む識別子である。層Ｘからの成分を層Ｙからの成分と組み合わせるために、層Ｘの成分は共通の３’オーバーハングを含むことができ、図１２ではａとラベル付けされ、層Ｙの成分は共通の相補的な３’オーバーハングａ＊を含むことができる。層Ｙからの成分を層Ｚからの成分と組み合わせるために、層Ｙの要素は共通の３’オーバーハングを含むことができ、図１２ではｂとラベル付けされ、層Ｚの要素は共通の相補的な３’オーバーハングｂ＊を含むことができる。層Ｘ成分の３’オーバーハングは層Ｙ成分の３’末端と相補的であり得、層Ｙ成分の他の３’オーバーハングは層Ｚ成分の３’末端と相補的であり得、成分がハイブリダイズしライゲーションすることを可能にする。したがって、層Ｘからの成分は、層Ｘまたは層Ｚからの他の成分とハイブリダイズすることができず、同様に、層Ｙからの成分は、層Ｙからの他の元素とハイブリダイズすることができない。さらに、層Ｙからの単一の成分は、層Ｘの単一の成分および層Ｚの単一の成分にライゲーションすることができ、完全な識別子の形成を確実にする。粘着末端ライゲーションについては、化学的方法のセクションＢを参照されたい。最も外側の層に隣接するプライマーを用いたＤＮＡサイズ選択（例えば、ゲル抽出を用いて、化学的方法のセクションＥを参照されたい）またはポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法のセクションＤを参照されたい）を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。２つの最外層の各々に１つずつの２つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る（化学的方法のセクションＦを参照されたい）。

粘着末端ライゲーションのための粘着末端は、各層の成分を制限エンドヌクレアーゼで処理することによって生成され得る（制限酵素反応についてのより多くの情報については化学的方法のセクションＣを参照されたい）。いくつかの実施形態では、複数の層の成分は、成分の１つの「親」セットから生成されてもよい。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位（例えば、ＢａｍＨＩおよびＢｇｌＩＩの制限部位）を有し得る実施形態。任意の２つの成分をアセンブリのために選択し、１つまたは他の相補的制限酵素（例えば、ＢｇｌＩＩまたはＢａｍＨＩ）で個別に消化して、互いにライゲーションされて不活性瘢痕をもたらすことができる相補的な粘着末端をもたらすことができる。産物核酸配列は、各末端に相補的制限部位を含み得（例えば、５’末端のＢａｍＨＩおよび３’末端のＢｇｌＩＩ）、同じプロセスに従って親セットからの別の成分にさらにライゲーションされ得る。このプロセスは、無期限にサイクルし得る（図２４）。親がＮ個の成分を含む場合、各サイクルは、Ｎ個の成分の追加の層を産物スキームに追加することと同等であり得る。

セットＸからの要素（例えば、ｄｓＤＮＡのセット１）およびセットＹからの要素（例えば、ｄｓＤＮＡのセット２）を含む核酸配列を構築するためにライゲーションを使用する方法は、第１のセット（例えば、ｄｓＤＮＡのセット１）が粘着末端（例えば、）を含み、第２のセット（例えば、ｄｓＤＮＡのセット２）が第１のセットの粘着末端に相補的な粘着末端（例えば、ａ＊）を含む、二本鎖配列の２またはそれを超えるプール（例えば、ｄｓＤＮＡのセット１およびｄｓＤＮＡのセット２）を得るまたは構築する工程を含み得る。第１のセット（例えば、ｄｓＤＮＡのセット１）からの任意のＤＮＡおよび第２のセット（例えば、ｄｓＤＮＡのセット２）からの任意のＤＮＡサブセットを組み合わせ、アセンブリし、次いで一緒にライゲーションして、第１のセットからの要素および第２のセットからの要素を有する一本鎖二本鎖ＤＮＡを形成することができる。

識別子は、図１３に示すように、部位特異的組換えを使用して産物スキームに従ってアセンブリすることができる。識別子は、３つの異なる層から成分をアセンブリすることによって構築されてもよい。層Ｘ（または層１）の成分は、分子の片側にａｔｔＢ_ｘリコンビナーゼ部位を有する二本鎖分子を含み得、層Ｙ（または層２）の成分は、片側にａｔｔＰ_ｘリコンビナーゼ部位を有し、反対側にａｔｔＢ_ｙリコンビナーゼ部位を有する二本鎖分子を含み得、層Ｚ（または層３）の成分は、分子の片側にａｔｔＰ_ｙリコンビナーゼ部位を含み得る。対内のａｔｔＢおよびａｔｔＰ部位は、それらの添字によって示されるように、それらの対応するリコンビナーゼ酵素の存在下で再結合することができる。各層からの１つの成分は、層Ｘからの１つの成分が層Ｙからの１つの成分と会合し、層Ｙからの１つの成分が層Ｚからの１つの成分と会合するように組み合わされてもよい。１またはそれを超えるリコンビナーゼ酵素の適用は、成分を再結合して、順序付けられた成分を含む二本鎖識別子を生成し得る。ＤＮＡサイズ選択（例えば、ゲル抽出による）または最も外側の層に隣接するプライマーを用いたＰＣＲを実施して、反応で形成され得る他の副生成物から識別子産物を単離することができる。一般に、複数の直交するａｔｔＢおよびａｔｔＰの対を使用することができ、各対を使用して余分な層から成分をアセンブリすることができる。リコンビナーゼのラージセリンファミリーの場合、リコンビナーゼごとに最大６つの直交するａｔｔＢおよびａｔｔＰ対を生成することができ、複数の直交するリコンビナーゼも実装することができる。例えば、ＢｘｂＩおよびＰｈｉＣ３１等の２つの大きなセリンリコンビナーゼのそれぞれからの１２個の直交するａｔｔＢおよびａｔｔＰ対、６個の直交する対を使用することによって、１３個の層をアセンブリすることができる。ａｔｔＢおよびａｔｔＰ対の直交性は、ある対からのａｔｔＢ部位が別の対からのａｔｔＰ部位と反応しないことを保証する。これにより、異なる層からの成分を固定された順序でアセンブリすることが可能になる。リコンビナーゼ媒介組換え反応は、実施されるリコンビナーゼシステムに応じて可逆的または不可逆的であり得る。例えば、大きなセリンリコンビナーゼファミリーは、高エネルギー補因子を必要とせずに不可逆的な組換え反応を触媒し、一方、チロシンリコンビナーゼファミリーは可逆的反応を触媒する。

識別子は、図１４Ａに示されるように、鋳型指向性ライゲーション（ＴＤＬ）を使用する産物スキームに従って構築され得る。鋳型指向性ライゲーションは「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用して、識別子を形成するための成分の順序付きライゲーションを容易にする。鋳型は、近接する層からの成分に同時にハイブリダイズし、リガーゼがそれらをライゲーションしながらそれらを互いに近接して保持する（３’末端対５’末端）。図１４Ａの例では、３つの層または一本鎖成分のセットが組み合わされている。配列ａ＊に相補的な共通の配列ａをその３’末端に共有する成分の第１の層（例えば、層Ｘまたは層１）；配列ｂ＊およびｃ＊に相補的な共通の配列ｂおよびｃをそれらの５’および３’末端でそれぞれ共有する成分の第２の層（例えば、層Ｙまたは層２）；配列ｄ＊と相補的であり得る共通の配列ｄをそれらの５’末端で共有する成分の第３の層（例えば、層Ｚまたは層３）；第１のステープルが配列ａ＊ｂ＊（５’から３’）を含み、第２のステープルが配列ｃ＊ｄ＊（’５から３’）を含む、２つの鋳型または「ステープル」のセット。この例では、各層からの１またはそれを超える成分を選択し、ステープルとの反応に混合することができ、これは相補的アニーリングによって、識別子を形成するために規定された順序で各層からの１つの成分のライゲーションを容易にすることができる。ＴＤＬについては化学的方法のセクションＢを参照されたい。最も外側の層に隣接するプライマーを用いたＤＮＡサイズ選択（例えば、ゲル抽出を用いて、化学的方法のセクションＥを参照されたい）またはポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法のセクションＤを参照されたい）を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。２つの最外層の各々に１つずつの２つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る（化学的方法のセクションＦを参照されたい）。

図１４Ｂは、それぞれが６層ＴＤＬでアセンブルされた２５６個の異なる核酸配列のコピー数（存在量）のヒストグラムを示す。エッジ層（第１および最終層）はそれぞれ１つの成分を有し、内層（残りの４つの層）はそれぞれ４つの成分を有していた。各エッジ層の成分は、１０塩基のハイブリダイゼーション領域を含む２８塩基であった。各内層成分は、５’末端に１０塩基の共通のハイブリダイゼーション領域、１０塩基の可変（バーコード）領域および３’末端に１０塩基の共通のハイブリダイゼーション領域を含む３０塩基であった。３本の鋳型鎖の各々は２０塩基長であった。２５６個全ての異なる配列を、全ての成分および鋳型、Ｔ４ポリヌクレオチドキナーゼ（成分をリン酸化するため）、ならびにＴ４リガーゼ、ＡＴＰ、および他の適切な反応試薬を含有する一反応物を用いて多重様式でアセンブリした。反応物を３７℃で３０分間、次いで室温で１時間インキュベートした。ＰＣＲを用いて配列決定アダプタを反応産物に加え、ＩｌｌｕｍｉｎａＭｉＳｅｑ装置を用いて産物を配列決定した。１９２９１０個の総アセンブルされた配列リードの中の各別個のアセンブルされた配列の相対コピー数を示す。この方法の他の実施形態は、二本鎖成分を使用することができ、成分は最初に溶融されてステープルにアニールすることができる一本鎖バージョンを形成する。この方法の他の実施形態または派生物（すなわち、ＴＤＬ）を使用して、産物スキームで達成され得るものよりも複雑な識別子の組み合わせ空間を構築することができる。

識別子は、ゴールデンゲートアセンブリ、ギブソンアセンブリ体、およびリガーゼサイクル反応アセンブリを含む様々な他の化学的実施態様を使用して、産物スキームに従って構築され得る。

図１５Ａおよび図１５Ｂは、並べ替えられた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための、「順列置換スキーム」と呼ばれる例示的な方法を概略的に示している。図１５Ａは、順列置換スキームを用いて構築された識別子の構造を示す。識別子は、各層からの単一の成分をプログラム可能な順序で組み合わせることによって構築することができる。図１５Ｂは、順列置換スキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。一例では、サイズ６の組み合わせ空間は、各々が１つの別個の成分を含む３つの層から生成され得る。成分は任意の順序で連結されてもよい。一般に、各々がＮ個の成分を有するＭ個の層では、順列置換スキームはＮ^ＭＭ！個の総識別子の組み合わせ空間を可能にする。

図１５Ｃは、鋳型指向ライゲーション（ＴＤＬ、化学的方法のセクションＢを参照されたい）による順列置換スキームの例示的な実施態様を示す。複数の層から成分は、エッジスキャフォールドと呼ばれる固定された左末端成分と右末端成分との間にアセンブリされる。これらのエッジスキャフォールドは、組み合わせ空間内の全ての識別子について同じであり、したがって、実施のための反応マスターミックスの一部として添加され得る。鋳型またはステープルは、異なる層からの成分が反応において識別子に組み込まれる順序が反応のために選択された鋳型に依存するように、任意の２つの層またはスキャフォールド間の任意の可能な接合部のために存在する。Ｍ層の層の任意の可能な順列を可能にするために、全ての可能な接合部（スキャフォールドとの接合部を含む）に対してＭ^２＋２Ｍの別個の選択可能なステープルがあり得る。これらの鋳型のうちのＭ個（灰色で網掛け）は、層とそれ自体との間の接合部を形成し、本明細書中に記載されるような順列アセンブリの目的のために除外され得る。しかしながら、それらの包含は、図１５Ｄ～図１５Ｇに示されるような繰り返し成分を含む識別子を有するより大きな組み合わせ空間を可能にすることができる。最も外側の層に隣接するプライマーを用いたＤＮＡサイズ選択（例えば、ゲル抽出を用いて、化学的方法のセクションＥを参照されたい）またはポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法のセクションＤを参照されたい）を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。２つの最外層の各々に１つずつの２つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る（化学的方法のセクションＦを参照されたい）。

図１５Ｄ～図１５Ｇは、成分が繰り返される識別子の特定のインスタンスを含むように順列置換スキームがどのように拡張され得るかの例示的な方法を示す。図１５Ｄは、図１５Ｃの実施態様を使用して、並び替えられた成分および繰り返された成分を有する識別子を構築する方法の一例を示す。例えば、識別子は、２つの別個の成分からアセンブリされた３つの合計成分を含むことができる。この例では、層からの成分は、識別子内に複数回存在し得る。同じ成分の近接する連結は、図のａ＊ｂ＊（５’から３’）ステープルのような、同じ成分の３’末端および５’末端の両方に近接する相補的ハイブリダイゼーション領域を有するステープルを使用することによって達成され得る。一般に、Ｍ個の層の場合、Ｍ個のそのようなステープルがある。この実施態様に繰り返し成分を組み込むことにより、図１５Ｅに示されるように、エッジスキャフォールドの間に構築される２つ以上の長さ（すなわち、１つ、２つ、３つ、４つ、またはそれを超える成分を含む）の核酸配列が生成され得る。図１５Ｅは、図１５Ｄからの例示的な実施態様が、エッジスキャフォールド間でアセンブリされる識別子以外の非標的核酸配列をどのようにもたらし得るかを示す。適切な識別子は、それらがエッジ上で同じプライマー結合部位を共有するので、ＰＣＲを用いて非標的核酸配列から単離することができない。しかし、この例では、各構築された核酸配列は固有の長さ（例えば、全ての成分が同じ長さを有する場合）を有するように設計することができるため、ＤＮＡサイズ選択（例えば、ゲル抽出を用いて）を実施して非標的配列から標的化識別子（例えば、上から２番目の配列）を単離することができる。サイズ選択については、化学的方法のセクションＥを参照されたい。図１５Ｆは、反復成分を用いて識別子を構築することにより、同じ反応において等しいエッジ配列を有するが異なる長さを有する複数の核酸配列を生成し得る別の例を示す。この方法では、１つの層の成分を他の層の成分と交互のパターンでアセンブリする鋳型を使用することができる。図１５Ｅに示す方法と同様に、サイズ選択を使用して、設計された長さの識別子を選択することができる。図１５Ｇは、反復成分を用いて識別子を構築することにより、等しいエッジ配列およびいくつかの核酸配列（例えば、上から３番目と４番目、上から６番目と７番目）に対して等しい長さを有する複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、ＰＣＲおよびＤＮＡサイズ選択が実施されたとしても、他方を構築せずに一方を構築することは不可能であり得るため、両方の個々の識別子から除外され得る。

図１６Ａ～図１６Ｄは、より多数のＭ個の可能な成分のうちの任意の数Ｋ個のアセンブリされた成分（例えば、核酸配列）の識別子（例えば、核酸分子）を構築するための、「ＭｃｈｏｏｓｅＫスキーム」と呼ばれる例示的な方法を概略的に示す。図１６Ａは、ＭｃｈｏｏｓｅＫスキームを用いて構築された識別子の構造を示す。この方法を使用して、識別子は、全ての層（例えば、Ｍ個の可能な層のうちのｋ個の層から成分を選択する）の任意のサブセット内の各層から１つの成分をアセンブリすることによって構築される。図１６Ｂは、ＭｃｈｏｏｓｅＫスキームを用いて構築され得る識別子の組み合わせ空間の例を例示する。このアセンブリ方式では、組み合わせ空間は、Ｍ個の層に対してＮ^ＫＭｃｈｏｏｓｅＫ個の可能な識別子、層ごとのＮ個の成分、およびＫ個の成分の識別子長さを含むことができる。一例では、各々が１つの成分を含む５つの層がある場合、各々が２つの成分を含む最大１０個の別個の識別子をアセンブリすることができる。

ＭｃｈｏｏｓｅＫスキームは、図１６Ｃに示されるように、鋳型指向性ライゲーション（化学的方法のセクションＢを参照されたい）を使用して実施され得る。順列置換スキーム（図１５Ｃ）のためのＴＤＬ実施態様と同様に、この例における成分は、反応マスターミックスに含まれていても含まれていなくてもよいエッジスキャフォールドの間にアセンブリされる。成分は、Ｍ個の層、例えば、２からＭまでの所定のランクを有するＭ＝４個の層に分割されてもよく、左端スキャフォールドはランク１であってもよく、右端スキャフォールドはランクＭ＋１であってもよい。鋳型は、それぞれ低いランクから高いランクまでの任意の２つの成分の３’から５’へのライゲーションのための核酸配列を含む。そのような鋳型は（（Ｍ＋１）^２＋Ｍ＋１）／２個存在する。別個の層からの任意のＫ個の成分の個々の識別子は、ライゲーション反応においてそれらの選択された成分を、Ｋ個の成分をエッジスキャフォールドと共にそれらのランク順に運ぶために使用される対応するＫ＋１ステープルと組み合わせることによって構築され得る。そのような反応セットアップは、エッジスキャフォールド間の標的識別子に対応する核酸配列をもたらし得る。あるいは、全ての鋳型を含む反応混合物を選択成分と組み合わせて、標的識別子をアセンブリすることができる。この代替方法は、図１６Ｄに示すように、同じエッジ配列を有するが異なる長さ（全ての成分の長さが等しい場合）を有する様々な核酸配列を生成し得る。標的識別子（下）は、サイズによって副生成物核酸配列から単離され得る。核酸サイズ選択については、化学的方法のセクションＥを参照されたい。

図１７Ａおよび図１７Ｂは、分割された成分を有する識別子を構築するための「パーティション方式」と呼ばれる例示的な方法を概略的に示す。図１７Ａは、パーティション方式を使用して構築され得る識別子の組み合わせ空間の一例を示す。個々の識別子は、異なる層の任意の２つの成分の間に任意のパーティション（特別に分類された成分）を必要に応じて配置して、固定された順序で各層から１つの成分をアセンブリすることによって構築することができる。例えば、成分のセットは、１つのパーティション成分と、各々が１つの成分を含む４つの層とに編成することができる。各層からの成分は、固定された順序で組み合わされてもよく、単一のパーティション成分は、層間の様々な位置にアセンブリされてもよい。この組み合わせ空間内の識別子は、８つの可能な識別子の組み合わせ空間を作るために、パーティション成分、第１および第２の層からの成分間のパーティション成分、第２および第３の層からの成分間のパーティション等を含まなくてもよい。一般に、各々がＮ個の成分を有するＭ個の層およびｐ個のパーティション成分を用いて、構築され得るＮ^Ｋ（ｐ＋１）^Ｍ－１個の可能な識別子が存在する。この方法は、様々な長さの識別子を生成することができる。

図１７Ｂは、鋳型指向性ライゲーションを使用したパーティションスキームの例示的な実施態様を示す（化学的方法のセクションＢを参照されたい）。鋳型は、Ｍ層の各々からの１つの成分を固定された順序で一緒に連結するための核酸配列を含む。各パーティション成分について、パーティション成分が任意の２つの近接する層からの成分間にライゲーションすることを可能にする鋳型のさらなる対が存在する。例えば、対中の１つの鋳型（例えば、配列ｇ＊ｂ＊（５’から３’）を有する）が、層１の３’末端（配列ｂを有する）をパーティション成分の５’末端（配列ｇを有する）にライゲーションすることを可能にし、対中の第２の鋳型（例えば、配列ｃ＊ｈ＊（５’から３’）を有する）が、パーティション成分の３’末端（配列ｈを有する）を層２の５’末端（配列ｃを有する）にライゲーションすることを可能にするような鋳型の対。近接する層の任意の２つの成分間にパーティションを挿入するために、それらの層を一緒に連結するための標準的な鋳型を反応において除外することができ、その位置のパーティションをライゲーションするための鋳型対を反応において選択してもよい。本実施例では、層１と層２との間のパーティション成分を標的とするために、鋳型ｃ＊ｂ＊（５’から３’）ではなく、対の鋳型ｃ＊ｈ＊（５’から３’）およびｇ＊ｂ＊（５’から３’）を使用して反応を選択することができる。成分は、反応混合物（第１および第Ｍの層にそれぞれライゲーションするためのそれらの対応する鋳型と共に、）に含まれ得るエッジスキャフォールドの間でアセンブリされ得る。一般に、合計約Ｍ－１＋２＊ｐ＊（Ｍ－１）個の選択可能な鋳型が、Ｍ個の層およびｐ個のパーティション成分のためのこの方法に使用され得る。パーティションスキームのこの実施態様は、同じエッジ配列であるが異なる長さを有する反応において様々な核酸配列を生成し得る。標的識別子は、ＤＮＡサイズ選択によって副生成物核酸配列から単離され得る。具体的には、正確にＭ個の層成分を有する正確に１つの核酸配列産物が存在し得る。層成分がパーティション成分比較して十分に大きく設計されている場合、汎用サイズ選択領域を定義することが可能であり得、識別子内の成分の特定のパーティションに関係なく識別子（および非標的副生成物のいずれもない）を選択することができ、それにより、複数の反応からの複数のパーティション化された識別子を同じサイズ選択工程で分離することが可能になる。核酸サイズ選択については、化学的方法のセクションＥを参照されたい。

図１８Ａおよび図１８Ｂは、いくつかの可能な成分から成分の任意の列からなる識別子を構築するための、「無制限文字列スキーム」または「ＵＳＳ」と呼ばれる例示的な方法を概略的に示す。図１８Ａは、無制限文字列スキームを使用して構築され得る３成分（または４スキャフォールド）の長さ識別子の組み合わせ空間の一例を示す。無制限文字列スキームは、各々が１またはそれを超える層から取られた１またはそれを超える別個の成分を有する長さＫの成分の個々の識別子を構築し、各別個の成分は、識別子内のＫ個の成分位置のいずれかに現れることができる（繰り返しを可能にする）。例えば、各々が１つの成分を含む２つの層について、８つの可能な３成分長識別子がある。一般に、各々が１つの成分を有するＭ個の層では、長さＫの成分のＭ^Ｋ個の可能な識別子がある。図１８Ｂは、鋳型指向性ライゲーションを使用する無制限文字列スキームの例示的な実施態様を示す（化学的方法のセクションＢを参照されたい）。この方法では、Ｋ＋１の一本鎖および秩序化スキャフォールドＤＮＡ成分（２つのエッジスキャフォールドおよびＫ－１の内部スキャフォールドを含む）が反応混合物中に存在する。個々の識別子は、近接するスキャフォールドの全ての対の間にライゲーションされた単一の成分を含む。例えば、スキャフォールドＡとスキャフォールドＢとの間にライゲーションされた成分、スキャフォールドＣとスキャフォールドＤとの間にライゲーションされた成分等が、Ｋ個全ての近接するスキャフォールド接合部が成分によって占有されるまで続く。反応では、異なる層から選択された成分が、適切なスキャフォールド上にアセンブリするようにそれらに指示するステープルの選択された対と共にスキャフォールドに導入される。例えば、一対のステープルａ＊Ｌ＊（５’から３’）およびＡ＊ｂ＊（５’から３’）は、ＬスキャフォールドとＡスキャフォールドとの間にライゲーションするように、５’末端領域「ａ」および３’末端領域「ｂ」を有する層１成分を導く。一般に、Ｍ層およびＫ＋１スキャフォールドでは、２＊Ｍ＊Ｋの選択可能なステープルを使用して、長さＫの任意のＵＳＳ識別子を構築することができる。成分をスキャフォールドに５’末端で接続するステープルは、同じ成分をスキャフォールドに３’末端で接続するステープルから分離しているので、核酸副生成物は、標的識別子として等しいエッジスキャフォールドを有するが、Ｋ個未満の成分（Ｋ＋１個未満のスキャフォールド）またはＫ個を超える成分（Ｋ＋１個を超えるスキャフォールド）を有する反応で形成され得る。標的化された識別子は、正確にＫ個の成分（Ｋ＋１スキャフォールド）で形成され得、したがって、全ての成分が長さが等しくなるように設計され、全てのスキャフォールドが長さが等しくなるように設計されている場合、ＤＮＡサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては、化学的方法のセクションＥを参照されたい。層ごとに１つの成分が存在し得る無制限文字列スキームの特定の実施形態では、その成分は、（１）識別バーコード、（２）５’末端のスキャフォールドへのステープル媒介ライゲーションのためのハイブリダイゼーション領域、および（３）３’末端のスキャフォールドへのステープル媒介ライゲーションのためのハイブリダイゼーション領域の３つの役割全てを満たす単一の別個の核酸配列のみを含み得る。

図１８Ｂに示す内部スキャフォールドは、成分へのスキャフォールドのステープル媒介５’ライゲーションおよび別の（必ずしも別個ではない）成分へのスキャフォールドのステープル媒介３’ライゲーションの両方に同じハイブリダイゼーション配列を使用するように設計され得る。したがって、図１８Ｂに示される１スキャフォールド、２ステープル積層ハイブリダイゼーション事象は、スキャフォールドとステープルのそれぞれとの間に生じる統計的な往復ハイブリダイゼーション事象を表し、したがって５’成分ライゲーションおよび３’成分ライゲーションの両方を可能にする。無制限文字列スキームの他の実施形態では、スキャフォールドは、２つのライゲーションされたハイブリダイゼーション領域、すなわちステープル媒介３’ライゲーションのための別個の３’ハイブリダイゼーション領域およびステープル媒介５’ライゲーションのための別個の５’ハイブリダイゼーション領域を用いて設計され得る。

図１９Ａおよび図１９Ｂは、親識別子から核酸配列（または成分）を削除することによって識別子を構築するための、「成分削除スキーム」と呼ばれる例示的な方法を概略的に示す。図１９Ａは、成分削除スキームを使用して構築され得る可能な識別子の組み合わせ空間の一例を示す。この例では、親識別子は複数の成分を含み得る。親識別子は、約２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０またはそれを超える成分を含み得る。個々の識別子は、Ｎ個の可能な成分から任意の数の成分を選択的に削除してサイズ２^Ｎの「全」組み合わせ空間をもたらすことによって、またはＮ個の可能な成分から固定数のＫ個の成分を削除してサイズＮｃｈｏｏｓｅＫの「ＮｃｈｏｏｓｅＫ」組み合わせ空間をもたらすことによって構築され得る。３つの成分を有する親識別子を有する例では、完全な組み合わせ空間は８であり得、３ｃｈｏｏｓｅ２の組み合わせ空間は３であり得る。

図１９Ｂは、二本鎖標的化切断および修復（ＤＳＴＣＲ）を使用する成分欠失スキームの例示的な実施態様を示す。親配列は、ヌクレアーゼ特異的標的部位（４塩基長またはそれ未満であり得る）に隣接する成分を含む一本鎖ＤＮＡ基質であり得、親は、標的部位に対応する１またはそれを超える二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。個々の成分は、親の成分ＤＮＡ（および隣接するヌクレアーゼ部位）に結合する相補的一本鎖ＤＮＡ（または切断鋳型）による欠失を標的とすることができ、したがって、ヌクレアーゼによって両末端で切断され得る安定な二本鎖配列を親に形成する。別の一本鎖ＤＮＡ（または修復鋳型）は、親の得られた不連続末端（その間に成分があった）にハイブリダイズし、直接または置換配列によって架橋されたライゲーションのためにそれらを一緒にして、親上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないようにする。本発明者らは、この方法を「二本鎖標的切断」（ＤＳＴＣ）と呼ぶ。サイズ選択は、特定の数の削除された成分を有する識別子を選択するために使用され得る。核酸サイズ選択については、化学的方法のセクションＥを参照されたい。

代替的に、またはそれに加えて、親識別子は、２つの成分が同じ配列に隣接しないようにスペーサー配列によって分離された成分を含む二本鎖または一本鎖核酸基質であり得る。親識別子をＣａｓ９ヌクレアーゼと共にインキュベートすることができる。個々の成分は、その成分のエッジに結合し、その隣接部位でＣａｓ９媒介性切断を可能にするガイドリボ核酸（切断鋳型）による欠失の標的とされ得る。一本鎖核酸（修復鋳型）は、親識別子（例えば、成分配列が存在していた末端の間）の得られた不連続末端にハイブリダイズし、それによってそれらをライゲーションのため共に架橋し得る。ライゲーションは、親上のライゲーションされた配列がもはやＣａｓ９によって標的化され得るスペーサー配列を含まないように、直接または置換配列で末端を架橋することによって行われ得る。本発明者らは、この方法を「配列特異的標的切断および修復」または「ＳＳＴＣＲ」と呼ぶ。

識別子は、ＤＳＴＣＲの誘導体を使用して親識別子に成分を挿入することによって構築することができる。親識別子は、それぞれが異なる核酸配列内に埋め込まれたヌクレアーゼ特異的標的部位（４塩基長またはそれ未満であり得る）を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する１またはそれを超える二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子上の個々の標的部位は、標的部位および親識別子上の別個の周囲核酸配列に結合し、したがって二本鎖部位を形成する相補的一本鎖核酸（切断鋳型）による成分挿入のために標的化され得る。二本鎖部位は、ヌクレアーゼによって切断され得る。別の一本鎖核酸（修復鋳型）は、親識別子の得られた不連続末端にハイブリダイズし、親上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないように、ライゲーションのためにそれらを共に成分配列によって架橋することができる。あるいは、ＳＳＴＣＲの誘導体を使用して、成分を親識別子に挿入することができる。親識別子は二本鎖または一本鎖核酸であり得、親はＣａｓ９ヌクレアーゼと共にインキュベートされ得る。親識別子上の別個の部位は、ガイドＲＮＡ（切断鋳型）による切断のために標的化され得る。一本鎖核酸（修復鋳型）は、親識別子の不連続末端にハイブリダイズし、親識別し上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないように、ライゲーションのためにそれらを共に成分配列によって架橋することができる。サイズ選択を使用して、特定の数の成分挿入を有する識別子を選択することができる。

図２０は、リコンビナーゼ認識部位を有する親識別子を概略的に示す図である。異なるパターンの認識部位は、異なるリコンビナーゼによって認識され得る。リコンビナーゼの所与のセットに対する全ての認識部位は、リコンビナーゼが適用された場合にその間の核酸が切除され得るように配置される。図２０に示す核酸鎖は、それに適用されるリコンビナーゼのサブセットに応じて２^５＝３２の異なる配列を採用することができる。いくつかの実施形態では、図２０に示すように、リコンビナーゼを使用してＤＮＡのセグメントを切り出し、シフトさせ、反転させ、および転移させて、異なる核酸分子を作製することにより、固有の分子を生成することができる。一般に、Ｎ個のリコンビナーゼでは、親から構築された２^Ｎ個の可能な識別子が存在し得る。いくつかの実施形態では、異なるリコンビナーゼからの認識部位の複数の直交する対は、１つのリコンビナーゼの適用が、下流のリコンビナーゼが適用されたときに生じる組換え事象のタイプに影響を及ぼすように、重複する様式で親識別子上に配置され得る（参照により本明細書に完全に組み込まれる、Ｒｏｑｕｅｔｅｔａｌ．，Ｓｙｎｔｈｅｔｉｃｒｅｃｏｍｂｉｎａｓｅ－ｂａｓｅｄｓｔａｔｅｍａｃｈｉｎｅｓｉｎｌｉｖｉｎｇｃｅｌｌｓ，Ｓｃｉｅｎｃｅ３５３（６２９７）：ａａｄ８５５９（２０１６）を参照されたい）。そのようなシステムは、Ｎ個のリコンビナーゼ、Ｎ！の順序ごとに異なる識別子を構築することが可能であり得る。リコンビナーゼは、ＦｌｐおよびＣｒｅ等のチロシンファミリー、またはＰｈｉＣ３１、ＢｘｂＩ、ＴＰ９０１もしくはＡ１１８等の大きなセリンリコンビナーゼファミリーであり得る。大きなセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、不可逆的な組換えを促進し、したがって他のリコンビナーゼよりも効率的に識別子を生成し得るので有利であり得る。

いくつかの例では、多数のリコンビナーゼを異なる順序で適用することによって、単一の核酸配列を多くの異なる核酸配列になるようにプログラムすることができる。およそ～ｅ^１Ｍ！リコンビナーゼの数Ｍが大型セリンリコンビナーゼファミリーについて７以下であり得る場合、異なるサブセットおよびその順序でＭ個のリコンビナーゼを適用することによって、別個の核酸配列を生成することができる。リコンビナーゼの数Ｍが７より大きくてもよい場合、生成され得る配列の数はおよそ３．９^Ｍであり、例えば、参照により全体が本明細書に組み込まれるＲｏｑｕｅｔｅｔａｌ．，Ｓｙｎｔｈｅｔｉｃｒｅｃｏｍｂｉｎａｓｅ－ｂａｓｅｄｓｔａｔｅｍａｃｈｉｎｅｓｉｎｌｉｖｉｎｇｃｅｌｌｓ，Ｓｃｉｅｎｃｅ３５３（６２９７）：ａａｄ８５５９（２０１６）を参照されたい。１つの共通配列から異なるＤＮＡ配列を生成するためのさらなる方法は、ＣＲＩＳＰＲ－Ｃａｓ、ＴＡＬＥＮＳ、およびジンクフィンガーヌクレアーゼ等の標的核酸編集酵素を含むことができる。リコンビナーゼ、標的化編集酵素等によって産生された配列は、前述の方法のいずれか、例えば本出願の図および開示のいずれかに開示されている方法と組み合わせて使用することができる。

符号化される情報のビットストリームが任意の単一の核酸分子によって符号化され得るビットストリームよりも大きい場合、情報は分割され、核酸配列バーコードでインデックス付けされ得る。さらに、Ｎ個の核酸分子のセットからのサイズｋの核酸分子の任意のサブセットを選択して、ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。バーコードは、さらに長いビットストリームを符号化するために、サイズｋのサブセット内の核酸分子上に構築され得る。例えば、Ｍ個のバーコードを使用して、Ｍ＊ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。セット内の利用可能な核酸分子の数Ｎおよび利用可能なバーコードの数Ｍが与えられると、サイズｋ＝ｋ_０のサブセットは、情報を符号化するためのプール内の分子の総数を最小化するように選択され得る。デジタル情報を符号化する方法は、ビットストリームを分割し、個々の要素を符号化する工程を含むことができる。例えば、６ビットを含むビットストリームは、各々が２ビットを含む３つの成分に分割することができる。各２ビット成分をバーコード化して情報カセットを形成し、グループ化またはプールして情報カセットのハイパープールを形成することができる。

バーコードは、符号化されるデジタル情報の量が１つのプールのみに収まる量を超える場合、情報インデックス化を容易にすることができる。より長いビット列および／または複数バイトを含む情報は、図７に開示された手法を積層することによって、例えば核酸インデックスを使用して符号化された固有の核酸配列を有するタグを含めることによって、符号化することができる。情報カセットまたは識別子ライブラリは、所与の配列が対応するビットストリームの１つまたは複数の成分を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する固有の核酸配列を含む窒素塩基または核酸配列を含むことができる。情報カセットは、１またはそれを超える固有の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットの参照および情報カセットに含まれる任意の配列を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ユニーク配列がビットストリームのどの部分またはビット成分を符号化するか（例えば、以下のビット値およびビット位置情報）を示すことができる。

バーコードを使用すると、可能な識別子の組み合わせ空間のサイズよりも多くのビットの情報をプールに符号化することができる。例えば、１０ビットの配列は、各バイトが５ビットを含む２セットのバイトに分離することができる。各バイトは、５つの可能な個別の識別子のセットにマッピングすることができる。最初は、各バイトに対して生成された識別子は同じであり得るが、それらは別々のプールに保持され得るか、または情報を読み取る者が特定の核酸配列がどのバイトに属するかを知ることができない可能性がある。しかしながら、各識別子は、符号化された情報が適用されるバイト（例えば、最初の５ビットを提供するためにバーコード１を核酸プール中の配列に結合させることができ、２番目の５ビットを提供するためにバーコード２を核酸プール中の配列に結合させることができる）に対応するラベルでバーコード化またはタグ付けすることができ、次いで、２つのバイトに対応する識別子を１つのプール（例えば、「ハイパープール」または１つもしくはそれを超える識別子ライブラリ）に組み合わせることができる。１またはそれを超える組み合わせた識別子ライブラリの各識別子ライブラリは、所与の識別子を所与の識別子ライブラリに属するものとして識別する別個のバーコードを含むことができる。バーコードを識別子ライブラリ内の各識別子に付加する方法は、ＰＣＲ、Ｇｉｂｓｏｎ、ライゲーション、または所与のバーコード（例えば、バーコード１）を所与の核酸サンプルプール（例えば、バーコード１から核酸サンプルプール１およびバーコード２から核酸サンプルプール２）に結合させることを可能にする任意の他のアプローチを使用することを含むことができる。ハイパープールからのサンプルは配列決定方法で読み取ることができ、配列決定情報はバーコードまたはタグを使用して解析することができる。Ｍ個のバーコードおよびＮ個の可能な識別子（組み合わせ空間）のセットを有する識別子ライブラリおよびバーコードを使用する方法は、ＭとＮの積に等しい長さを有するビットのストリームを符号化することができる。

いくつかの実施形態では、識別子ライブラリは、ウェルのアレイに格納され得る。ウェルのアレイは、ｎ列およびｑ行を有するものとして定義することができ、各ウェルは、ハイパープール内に２またはそれを超える識別子ライブラリを含むことができる。各ウェルに符号化された情報は、各ウェルに含まれる情報よりも大きいサイズｎ×ｑの１つの大きな連続した情報項目を構成し得る。アリコートは、ウェルのアレイ内の１またはそれを超えるウェルから採取され得、符号化は、配列決定、ハイブリダイゼーション、またはＰＣＲを使用して読み取られ得る。

核酸サンプルプールまたはハイパープールを含む核酸サンプルプール、ハイパープール、識別子ライブラリ、識別子ライブラリのグループ、またはウェルは、情報のビットおよび複数の補足核酸配列に対応する固有の核酸分子（例えば、識別子）を含み得る。補足核酸配列は、符号化データ（例えば、ビット値に対応しない）に対応しない場合がある。補助核酸サンプルは、サンプルプールに格納された情報をマスクまたは暗号化することができる。補足核酸配列は、生物学的供給源に由来し得るか、または合成的に産生され得る。生物学的供給源に由来する補足核酸配列は、ランダムに断片化された核酸配列または合理的に断片化された配列を含み得る。生物学的に誘導された補足核酸は、特に合成的に符号化された情報（例えば、識別子の組み合わせ空間）が天然の遺伝情報（例えば、断片化されたゲノム）に類似するようにされている場合、合成的に符号化された情報と共に天然の遺伝情報を提供することによって、サンプルプール内のデータ含有核酸を隠すまたは不明瞭にすることができる。一例では、識別子は生物源に由来し、補足核酸は生物源に由来する。サンプルプールは、識別子および補足核酸配列の複数のセットを含み得る。識別子および補足核酸配列の各セットは、異なる生物に由来し得る。一例では、識別子は１またはそれを超える生物に由来し、補足核酸配列は単一の異なる生物に由来する。補足核酸配列はまた、１またはそれを超える生物に由来してもよく、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来してもよい。識別子および補足核酸配列の両方は、複数の異なる生物に由来し得る。キーを使用して、識別子を補足核酸配列と区別することができる。

補足核酸配列は、書き込まれた情報に関するメタデータを格納し得る。メタデータは、元の情報のソースおよび／または元の情報の意図された受信者を決定および／または許可するための追加の情報を含むことができる。メタデータは、元の情報のフォーマット、元の情報を符号化して書き込むために使用される機器および方法、ならびに元の情報を識別子に書き込む日時に関する追加の情報を含むことができる。メタデータは、元の情報のフォーマット、元の情報を符号化して書き込むために使用される機器および方法、ならびに元の情報を核酸配列に書き込む日時に関する追加情報を含み得る。メタデータは、情報を核酸配列に書き込んだ後に元の情報に対して行われた修正に関する追加情報を含み得る。メタデータは、元の情報に対する注釈または外部情報に対する１またはそれを超える参照を含むことができる。代替的に、またはそれに加えて、メタデータは、識別子に添付された１またはそれを超えるバーコードまたはタグに格納されてもよい。

識別子プール内の識別子は、互いに同じ、類似、または異なる長さを有することができる。補足核酸配列は、識別子の長さよりも短いか、実質的に等しいか、またはそれを超える長さを有し得る。補足核酸配列は、識別子の平均長さの１塩基以内、２塩基以内、３塩基以内、４塩基以内、５塩基以内、６塩基以内、７塩基以内、８塩基以内、９塩基以内、１０塩基以内、またはそれを超える塩基以内の平均長さを有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリ中の識別子の濃度よりも低くてもよく、実質的に等しくてもよく、またはそれを超えてもよい。補足核酸の濃度は、約１％、１０％、２０％、４０％、６０％、８０％、１００、％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％以下または識別子の濃度未満でもよい。補足核酸の濃度は、約１％、１０％、２０％、４０％、６０％、８０％、１００、％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％以上または識別子の濃度を超えてもよい。より大きな濃度は、データの難読化または秘匿化に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール内の識別子の濃度よりも実質的に高い（例えば、１×１０^８％超）。
核酸配列に格納されたデータをコピーし、アクセスする方法

別の態様では、本開示は、核酸配列（複数可）に符号化された情報をコピーする（または複製する）方法を提供する。核酸配列（複数可）に符号化された情報をコピーする方法は、（ａ）識別子ライブラリを提供すること、および（ｂ）識別子ライブラリの１またはそれを超えるコピーを構築することを含み得る。識別子ライブラリは、より大きな組み合わせ空間からの複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、１またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。

別の態様では、本開示は、核酸配列に符号化された情報にアクセスするための方法を提供する。核酸配列に符号化された情報にアクセスするための方法は、（ａ）識別子ライブラリを提供すること、および（ｂ）識別子ライブラリから識別子ライブラリに存在する識別子の一部またはサブセットを抽出することを含み得る。識別子ライブラリは、より大きな組み合わせ空間からの複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、１またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。

情報は、本明細書の他の箇所に記載されているように、１またはそれを超える識別子ライブラリに書き込まれてもよい。識別子は、本明細書の他の箇所に記載されている任意の方法を使用して構築することができる。格納されたデータは、識別子ライブラリまたは１つもしくは複数の識別子ライブラリに個々の識別子のコピーを生成することによってコピーすることができる。識別子の一部をコピーしてもよいし、ライブラリ全体をコピーしてもよい。コピーは、識別子ライブラリ内の識別子を増幅することによって実行されてもよい。１またはそれを超える識別子ライブラリが組み合わされる場合、単一の識別子ライブラリまたは複数の識別子ライブラリをコピーすることができる。識別子ライブラリが補足核酸配列を含む場合、補足核酸配列はコピーされてもされなくてもよい。

識別子ライブラリ中の識別子は、１またはそれを超える共通プライマー結合部位を含むように構築され得る。１またはそれを超える結合部位は、各識別子の縁部に配置されてもよく、または各識別子全体にわたって織り合わされてもよい。プライマー結合部位は、識別子ライブラリ特異的プライマー対またはユニバーサルプライマー対が識別子に結合してこれを増幅することを可能にし得る。識別子ライブラリ内の全ての識別子または１もしくはそれを超える識別子ライブラリ内の全ての識別子は、複数のＰＣＲサイクルによって複数回複製することができる。従来のＰＣＲを使用して識別子をコピーし、各ＰＣＲサイクルで識別子を指数関数的に複製することができる。識別子のコピー数は、ＰＣＲサイクルごとに指数関数的に増加し得る。線形ＰＣＲを使用して識別子をコピーし、各ＰＣＲサイクルで識別子を線形に複製することができる。識別子コピーの数は、各ＰＣＲサイクルで直線的に増加し得る。ＰＣＲ増幅の前に、識別子を環状ベクターにライゲーションしてもよい。円ベクターは、識別子挿入部位の各末端にバーコードを含むことができる。識別子を増幅するためのＰＣＲプライマーは、バーコード化エッジが増幅産物中の識別子と共に含まれるようにベクターにプライミングするように設計され得る。増幅中、識別子間の組換えは、各エッジ上に非相関バーコードを含むコピーされた識別子をもたらし得る。非相関バーコードは、識別子を読み取ると検出可能であり得る。相関のないバーコードを含む識別子は、フォールスポジティブとみなされてもよく、情報復号プロセス中に無視されてもよい。化学的方法のセクションＤを参照されたい。

情報は、情報の各ビットを固有の核酸分子に割り当てることによって符号化され得る。例えば、各々が２つの核酸配列を含む３つのサンプルセット（Ｘ、Ｙ、Ｚ）は、８つのユニークな核酸分子に集合し、８ビットのデータを符号化し得る。
Ｎ１＝Ｘ１Ｙ１Ｚ１
Ｎ２＝Ｘ１Ｙ１Ｚ２
Ｎ３＝Ｘ１Ｙ２Ｚ１
Ｎ４＝Ｘ１Ｙ２Ｚ２
Ｎ５＝Ｘ２Ｙ１Ｚ１
Ｎ６＝Ｘ２Ｙ１Ｚ２
Ｎ７＝Ｘ２Ｙ２Ｚ１
Ｎ８＝Ｘ２Ｙ２Ｚ２
次いで、文字列内の各ビットを対応する核酸分子に割り当てることができる（例えば、Ｎ１は第１のビットを指定することができ、Ｎ２は第２のビットを指定することができ、Ｎ３は第３のビットを指定することができ、以下同様である）。ビット列全体は、「１」のビット値に対応する核酸分子が組み合わせまたはプールに含まれる核酸分子の組み合わせに割り当てられ得る。例えば、ＵＴＦ－８コーディングでは、文字「Ｋ」は、４つの核酸分子（例えば、上記の例では、Ｘ１Ｙ１Ｚ２、Ｘ２Ｙ１Ｚ１、Ｘ２Ｙ２Ｚ１、およびＸ２Ｙ２Ｚ２である。）の存在によって符号化され得る８ビット文字列コード０１００１０１１によって表され得る。

情報は、配列決定またはハイブリダイゼーションアッセイによってアクセスされ得る。例えば、プライマーまたはプローブは、核酸配列の共通領域またはバーコード化領域に結合するように設計され得る。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物を配列決定することによって、またはハイブリダイゼーションアッセイによって読み取ることができる。文字「Ｋ」を符号化する上記の例では、データの前半が関心対象である場合、Ｘ１核酸配列のバーコード領域に特異的なプライマーおよびＺセットの共通領域に結合するプライマーを使用して核酸分子を増幅することができる。これは、０１００を符号化し得る配列Ｙ１Ｚ２を返し得る。そのデータの部分列は、Ｙ１核酸配列のバーコード領域に結合するプライマーおよびＺセットの共通配列に結合するプライマーで核酸分子をさらに増幅することによってアクセスすることもできる。これは、部分文字列０１を符号化するＺ２核酸配列を返し得る。あるいは、配列決定なしで特定の核酸配列の有無をチェックすることによってデータにアクセスすることができる。例えば、Ｙ２バーコードに特異的なプライマーを用いた増幅は、Ｙ１バーコードではなく、Ｙ２バーコードの増幅産物を生成し得る。Ｙ２増幅産物の存在は、「１」のビット値をシグナル伝達し得る。あるいは、Ｙ２増幅産物が存在しないことは、「０」のビット値をシグナル伝達し得る。

ＰＣＲに基づく方法を使用して、識別子または核酸サンプルプールからのデータにアクセスし、コピーすることができる。プールまたはハイパープール内の識別子に隣接する共通のプライマー結合部位を使用して、情報を含む核酸を容易にコピーすることができる。あるいは、等温増幅等の他の核酸増幅アプローチを使用して、サンプルプールまたはハイパープール（例えば、識別子ライブラリ）からデータを容易にコピーすることもできる。核酸増幅に関する化学的方法のセクションＤを参照されたい。サンプルがハイパープールを含むインスタンスでは、順方向の識別子の一方のエッジで特定のバーコードに結合するプライマーを、逆方向の識別子の反対側のエッジで共通配列に結合する別のプライマーと共に使用することによって、情報の特定のサブセット（例えば、特定のバーコードに関連する全ての核酸）にアクセスし、検索することができる。このプロセスは、識別子のサブプールからサブプールにアクセスするために複数回繰り返すことができる（例えば、２またはそれを超える特定のバーコードを有する全ての核酸）。例えば、ネステッドＰＣＲを使用することによって、最初に１つのエッジ上の特定のバーコードに結合するプライマーを用い、次に当該エッジから除去された１つの特定のバーコードに結合する特定のプライマーを用い、次に当該エッジから除去された２つのバーコードに結合する特定のプライマーを用い、以下同様である。コードされた核酸から情報を引き出すために様々な読み出し方法を使用することができ、例えば、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量ＰＣＲ（ｑＰＣＲ）、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を、そしてひいてはデジタル符号化されたデータを読み出すことができる。

核酸分子に格納された情報（例えば、識別子）にアクセスすることは、識別子ライブラリまたは識別子のプールから非標的識別子の一部を選択的に除去することによって、または例えば、複数の識別子ライブラリのプールから識別子ライブラリの全ての識別子を選択的に除去することによって実行され得る。データへのアクセスはまた、識別子ライブラリまたは識別子のプールからターゲット識別子を選択的に取り込むことによって実行されてもよい。ターゲット識別子は、より大きな情報項目内の関心のあるデータに対応することができる。識別子のプールは、補足核酸分子を含み得る。補足的な核酸分子は、符号化された情報に関するメタデータを含み得るか、または情報に対応する識別子を暗号化またはマスクするために使用され得る。補足核酸分子は、標的化された識別子にアクセスしている間に抽出されてもされなくてもよい。図２１Ａ～図２１Ｃは、より多数の識別子から多数の特定の識別子にアクセスすることによって核酸配列に格納された情報の部分にアクセスするための例示的な方法の概要を概略的に示す。図２１Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して、特定の成分を含有する識別子にアクセスするための例示的な方法を示す。ＰＣＲベースのアクセスの場合、識別子のプール（例えば、識別子ライブラリ）は、各末端に共通配列、各末端に可変配列、または各末端に共通配列もしくは可変配列のうちの１つを有する識別子を含むことができる。共通の配列または可変配列は、プライマー結合部位であり得る。１またはそれを超えるプライマーは、識別子エッジ上の共通または可変領域に結合し得る。プライマーが結合した識別子は、ＰＣＲによって増幅され得る。増幅された識別子は、増幅されていない識別子よりも大幅に多くなり得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリからの識別子は、そのライブラリとは異なるその末端の一方または両方に配列を含むことができ、したがって、単一のライブラリを複数の識別子ライブラリのプールまたはグループから選択的にアクセスできるようにする。

親和性タグに基づくアクセス、核酸捕捉と呼ばれ得るプロセスでは、プール内の識別子を構成する成分は、１またはそれを超えるプローブと相補性を共有し得る。１またはそれを超えるプローブは、アクセスされる識別子に結合またはハイブリダイズすることができる。プローブは親和性タグを含み得る。親和性タグはビーズに結合し、ビーズ、少なくとも１つのプローブ、および少なくとも１つの識別子を含む複合体を生成し得る。ビーズは磁性であってもよく、磁石と共に、ビーズはアクセスされる識別子を収集して分離することができる。識別子は、読み取り前に変性条件下でビーズから除去することができる。代替的に、またはそれに加えて、ビーズは、標的化されていない識別子を収集し、別の容器に洗浄して読み取ることができるプールの残りの部分からそれらを隔離することができる。親和性タグは、カラムに結合し得る。アクセスされる識別子は、取得のために列に結合することができる。列に結合した識別子は、その後、読み取り前に列から溶出または変性され得る。あるいは、ターゲット指定されていない識別子は、カラムに選択的にターゲット指定されてもよく、ターゲット指定された識別子は、カラムを通って流れてもよい。標的識別子にアクセスすることは、１またはそれを超えるプローブを識別子のプールに同時に適用すること、または１またはそれを超えるプローブを識別子のプールに順次適用することを含み得る。核酸捕捉に関する化学的方法のセクションＦを参照されたい。

分解ベースのアクセスの場合、プール内の識別子を構成する成分は、１またはそれを超える分解標的化プローブと相補性を共有し得る。プローブは、識別子上の異なる成分に結合またはハイブリダイズし得る。プローブは、エンドヌクレアーゼ等の分解酵素の標的であり得る。一例では、１またはそれを超える識別子ライブラリを組み合わせることができる。プローブセットは、識別子ライブラリの１つとハイブリダイズし得る。プローブセットはＲＮＡを含み得、ＲＮＡはＣａｓ９酵素をガイドし得る。Ｃａｓ９酵素は、１またはそれを超える識別子ライブラリに導入され得る。プローブとハイブリダイズした識別子は、Ｃａｓ９酵素によって分解され得る。アクセスされる識別子は、分解酵素によって分解されなくてもよい。別の例では、識別子は一本鎖であり得、識別子ライブラリは、アクセスされない識別子を選択的に分解するＳ１ヌクレアーゼ等の一本鎖特異的エンドヌクレアーゼ（複数可）と組み合わされ得る。アクセスされる識別子は、一本鎖特異的エンドヌクレアーゼ（複数可）による分解からそれらを保護するために、識別子の相補的なセットとハイブリダイズされ得る。アクセスされる識別子は、サイズ選択クロマトグラフィー（例えば、アガロースゲル電気泳動）等のサイズ選択によって分解産物から分離され得る。代替的または追加的に、劣化していない識別子は、劣化生成物が増幅されないように選択的に増幅されてもよい（例えば、ＰＣＲを使用する）。分解されていない識別子は、分解されていない識別子の各末端にハイブリダイズし、したがって分解または切断された識別子の各末端にハイブリダイズしないプライマーを使用して増幅され得る。

図２１Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」演算を実行し、複数の成分を含む識別子にアクセスするための例示的な方法を示す。一例では、２つのフォワードプライマーが左末端で別個の識別子のセットに結合する場合、それらの識別子のセットの結合の「ＯＲ」増幅は、右末端で識別子の全てに結合するリバースプライマーを用いたマルチプレックスＰＣＲ反応において２つのフォワードプライマーを一緒に使用することによって達成され得る。別の例では、１つのフォワードプライマーが左末端に１組の識別子を結合し、１つのリバースプライマーが右末端に１組の識別子を結合する場合、それらの２組の識別子の交点の「ＡＮＤ」増幅は、ＰＣＲ反応においてフォワードプライマーとリバースプライマーを一緒にプライマー対として使用することによって達成され得る。このプロセスは、共通の任意の数の成分を有する識別子サブプールにアクセスするために順次に（例えば、ネステッドＰＣＲ）繰り返すことができる。

識別子ライブラリに対するＰＣＲベースのアクセスの各反復では、プライマーが各エッジからさらに内側に反復的に成分を結合するように設計されているので、識別子は短くなり得る。例えば、識別子ライブラリは、Ａ－Ｂ－Ｃ－Ｄ－Ｅ－Ｆ－Ｇの形式の識別子を含むことができ、Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、およびＧは層である。特定の成分、例えば、それぞれ層ＡおよびＧのＡ_１およびＧ_１に結合するプライマーで増幅すると、識別子ライブラリの増幅部分は、Ａ_１－Ｂ－Ｃ－Ｄ－Ｅ－Ｆ－Ｇ_１の形態をとり得る。特定の成分、例えば、それぞれ層ＢおよびＦのＢ_１およびＦ_１を結合するプライマーでさらに増幅すると、識別子ライブラリの増幅部分は、Ｂ_１－Ｃ－Ｄ－Ｅ－Ｆ_１の形をとることができ、これらのより短い増幅配列は、層Ａの位置の成分Ａ_１および層Ｇの位置のＧ_１をさらに含む完全な識別子に対応すると仮定することができる。

図２１Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」演算を実行し、複数の成分を含む識別子にアクセスするための例示的な方法を示す。一例において、親和性プローブ「Ｐ１」が成分「Ｃ１」を有する全ての識別子を捕捉し、別の親和性プローブ「Ｐ２」が成分「Ｃ２」を有する全ての識別子を捕捉する場合、Ｃ１またはＣ２を有する全ての識別子のセットは、Ｐ１およびＰ２を同時に使用することによって捕捉することができる（「ＯＲ」演算に対応する）。同じ成分をおよびプローブを有する別の例では、Ｃ１およびＣ２を有する全ての識別子のセットは、Ｐ１およびＰ２を順次使用することによって捕捉することができる（「ＡＮＤ」演算に相当する）。
核酸配列に格納された情報を読み取る方法

別の態様では、本開示は、核酸配列に符号化された情報を読み取るための方法を提供する。核酸配列に符号化された情報を読み取るための方法は、（ａ）識別子ライブラリを提供すること、（ｂ）識別子ライブラリに存在する識別子を識別すること、（ｃ）識別子ライブラリに存在する識別子から記号列を生成すること、および（ｄ）記号列から情報をコンパイルすることを含み得る。識別子ライブラリは、組み合わせ空間からの複数の識別子のサブセットを含むことができる。識別子のサブセットの個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、１またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。

情報は、本明細書の他の箇所に記載されているように、１またはそれを超える識別子ライブラリに書き込まれてもよい。識別子は、本明細書の他の箇所に記載されている任意の方法を使用して構築することができる。格納されたデータは、本明細書の他の箇所に記載された任意の方法を使用してコピーおよびアクセスされてもよい。

識別子は、符号化記号の位置、符号化記号の値、または符号化記号の位置と値の両方に関する情報を含むことができる。識別子は、符号化された記号の位置に関する情報を含むことができ、識別子ライブラリにおける識別子の有無は、記号の値を示すことができる。識別子ライブラリ内の識別子の存在は、バイナリ文字列内の第１の記号値（例えば、第１のビット値）を示すことができ、識別子ライブラリ内の識別子の非存在は、バイナリ文字列内の第２の記号値（例えば、第２のビット値）を示すことができる。バイナリシステムでは、識別子ライブラリ内の識別子の有無に基づくビット値は、アセンブリされる識別子の数を減らすことができ、したがって書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置で「１」のビット値を示すことができ、識別子の非存在は、マッピングされた位置で「０」のビット値を示すことができる。

情報のための記号（例えば、ビット値）を生成することは、記号（例えば、ビット）がマッピングまたは符号化され得る識別子の有無を識別することを含み得る。識別子の有無を判定することは、現在の識別子を配列決定すること、またはハイブリダイゼーションアレイを使用して識別子の存在を検出することを含み得る。一例では、符号化された配列の復号および読み取りは、配列決定プラットフォームを使用して実行され得る。配列決定プラットフォームの例は、２０１４年８月２１日に出願された米国特許出願第１４／４６５，６８５号；２０１３年５月２日に出願された米国特許出願第１３／８８６，２３４号；および２００９年３月９日に出願された米国特許出願第１２／４００，５９３号に記載され、その各々が参照により本明細書に完全に組み込まれる。

一例では、核酸符号化データの復号は、Ｉｌｌｕｍｉｎａ（登録商標）シーケンシング等の核酸鎖の塩基別配列決定によって、またはキャピラリー電気泳動による断片化分析等の特定の核酸配列の有無を示す配列決定技術を利用することによって達成され得る。配列決定は、可逆的ターミネーターの使用を使用し得る。配列決定は、天然または非天然（例えば、操作された）ヌクレオチドまたはヌクレオチド類縁体の使用を使用し得る。代替において、または、加えて、核酸配列を解読することが、様々な分析技術を使用して行われる場合があり、そのような分析技術には、光学的シグナル、電気化学的シグナルまたは化学的シグナルを生じさせる任意の方法が含まれるが、これらに限定されない。ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ、サンガーシーケンシング、ハイスループットシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ライゲーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、次世代シーケンシング、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、クローナルシングルマイクロアレイ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、Ｍａｘｉｍ－Ｇｉｌｂｅｒｔシーケンシング、または大規模並列シーケンシングを含むがこれらに限定されない様々な配列決定アプローチが使用され得る。

様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量ＰＣＲ（ｑＰＣＲ）、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を、そしてひいてはデジタル符号化されたデータを読み出すことができる。

識別子ライブラリは、情報に関するメタデータを提供する、情報を暗号化もしくはマスクする、またはメタデータを提供すると同時に情報をマスクする補足核酸配列をさらに含み得る。補助核酸は、識別子の識別と同時に識別され得る。あるいは、補助核酸は、識別子を同定する前または後に同定され得る。一例では、補足核酸は、符号化された情報の読み取り中に識別されない。補足核酸配列は、識別子と区別できない場合がある。識別子インデックスまたはキーを使用して、補助核酸分子を識別子と区別することができる。

より少ない核酸分子の使用を可能にするために入力ビット列を記録することによって、データを符号化および復号する効率を高めることができる。例えば、入力文字列が、符号化方法を用いて３つの核酸分子（例えば、識別子）にマッピングすることができる「１１１」部分文字列の高い発生で受信された場合、それは、核酸分子のヌルセットにマッピングすることができる「０００」部分文字列に記録され得る。「０００」の代替入力部分文字列もまた、「１１１」に記録され得る。この記録方法は、データセット内の「ｌ」の数が減少する可能性があるため、データを符号化するために使用される核酸分子の総量を減少させることができる。この例では、データセットの合計サイズは、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を低減するために入力文字列を再符号化することであり得る。例えば、「１１１」は「００」に記録され、データセットのサイズを縮小し、データセット内の「１」の数を減らすことができる。

核酸符号化データを復号する速度および効率は、検出を容易にするために識別子を特に設計することによって制御され得る（例えば、増加）。例えば、検出を容易にするために設計された核酸配列（例えば、識別子）は、光学的、電気化学的、化学的または物理的特性に基づいて呼び出しおよび検出するのがより容易な大部分のヌクレオチドを含む核酸配列を含み得る。操作された核酸配列は、一本鎖または二本鎖のいずれかであり得る。操作された核酸配列は、核酸配列の検出可能な特性を改善する合成または非天然ヌクレオチドを含み得る。操作された核酸配列は、全ての天然ヌクレオチド、全ての合成もしくは非天然ヌクレオチド、または天然、合成、および非天然ヌクレオチドの組み合わせを含み得る。合成ヌクレオチドは、ペプチド核酸、ロックド核酸、グリコール核酸、およびトレオース核酸等のヌクレオチド類縁体を含み得る。非天然ヌクレオチドには、３－メトキシ－２－ナフトエ基を含有する人工ヌクレオシドであるｄＮａＭ、および６－メチルイソキノリン－１－チオン－２－イル基を含有する人工ヌクレオシドであるｄ５ＳＩＣＳが含まれ得る。操作された核酸配列は、増強された光学特性等の単一の増強された特性のために設計され得るか、または設計された核酸配列は、増強された光学特性および電気化学特性、または増強された光学特性および化学特性等の複数の増強された特性を有するように設計され得る。ＤＮＡ設計に関する化学的方法のセクションＨを参照されたい。

操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を改善しない反応性の天然、合成および非天然ヌクレオチドを含み得る。核酸配列の反応性成分は、核酸配列に改善された特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含んでもよく、または複数の化学的部分を含んでもよい。例示的な化学部分には、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変化させる部分が含まれ得るが、これらに限定されない。

配列決定プラットフォームは、核酸配列に符号化された情報を復号および読み取りするために特に設計され得る。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用であり得る。配列決定プラットフォームは、個々の塩基を読み取ることによって（例えば、塩基ごとの配列決定）、または核酸分子内に組み込まれた核酸配列全体（例えば、成分）の存在もしくは非存在を検出することによって（例えば、識別子）、核酸符号化データを復号し得る。配列決定プラットフォームは、無差別試薬の使用、リード長の増加、および検出可能な化学部分の付加による特異的核酸配列の検出を含み得る。配列決定中のより乱雑な試薬の使用は、より速い塩基呼び出しを可能にすることによって読み取り効率を高めることができ、これは配列決定時間を短縮することができる。増加したリード長の使用は、符号化された核酸のより長い配列をリードごとに復号することを可能にし得る。検出可能な化学部分タグの付加は、化学部分の存在または非存在による核酸配列の存在または非存在の検出を可能にし得る。例えば、１ビットの情報を符号化する各核酸配列は、固有の光学的、電気化学的、または化学的シグナルを生成する化学部分でタグ付けされ得る。その固有の光学的、電気化学的、または化学的シグナルの有無は、「０」または「１」ビット値を示し得る。核酸配列は、単一の化学的部分または複数の化学的部分を含み得る。化学的部分は、データを符号化するために核酸配列を使用する前に核酸配列に付加され得る。代替において、または加えて、化学的部分は、データを符号化した後であるが、データを復号する前に、核酸配列に付加される場合がある。化学部分タグは核酸配列に直接付加されてもよく、または核酸配列は合成または非天然のヌクレオチドアンカーを含んでもよく、化学部分タグはそのアンカーに付加されてもよい。

一意のコードを適用して、符号化および復号エラーを最小化または検出することができる。符号化および復号エラーは、偽陰性（例えば、ランダムサンプリングに含まれない核酸分子または識別子）から発生する可能性がある。エラー検出コードの一例は、識別子ライブラリに含まれる可能な識別子の連続したセット内の識別子の数をカウントするチェックサム配列であり得る。識別子ライブラリを読み取る間、チェックサムは、取得することを期待する識別子のその連続したセットからの識別子の数を示すことができ、期待数が満たされるまで、識別子を読み取りのためにサンプリングし続けることができる。いくつかの実施形態では、チェックサム配列は、Ｒ識別子の全ての連続したセットに含まれてもよく、Ｒは、サイズが等しいか、または１、２、５、１０、５０、１００、２００、５００、もしくは１０００またはそれを超えてもよく、または１０００、５００、２００、１００、５０、１０、５、もしくは２もしくはそれ未満であってもよい。Ｒの値が小さいほど、エラー検出は良好である。いくつかの実施形態では、チェックサムは補足核酸配列であり得る。例えば、７つの核酸配列（例えば、成分）を含むセットは、２つのグループ、産物スキームで識別子を構築するための核酸配列（層Ｘの成分Ｘ１～Ｘ３および層Ｙの成分Ｙ１～Ｙ３）、および補足チェックサムのための核酸配列（Ｘ４～Ｘ７およびＹ４～Ｙ７）に分割され得る。チェックサム配列Ｘ４～Ｘ７は、層Ｘの０、１、２、または３つの配列が層Ｙの各部材とアセンブリされるかどうかを示すことができる。あるいは、チェックサム配列Ｙ４～Ｙ７は、層Ｙの０、１、２、または３つの配列が層Ｘの各部材とアセンブリされているかどうかを示すことができる。この例では、識別子｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３｝を有する元の識別子ライブラリは、以下のプールになるチェックサムを含むように補足され得る：｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３、Ｘ１Ｙ６、Ｘ２Ｙ７、Ｘ３Ｙ４、Ｘ６Ｙ１、Ｘ５Ｙ２、Ｘ６Ｙ３｝。チェックサム配列は、エラー訂正にも使用され得る。例えば、上記データセットからＸ１Ｙ１が存在しないこと、ならびにＸ１Ｙ６およびＸ６Ｙ１が存在することは、Ｘ１Ｙ１核酸分子がデータセットから欠落していると推測することを可能にし得る。チェックサム配列は、識別子が識別子ライブラリのサンプリングまたは識別子ライブラリのアクセスされた部分から欠落しているかどうかを示すことができる。欠落したチェックサム配列の場合、ＰＣＲまたは親和性タグ付きプローブハイブリダイゼーション等のアクセス方法は、それを増幅および／または単離することができる。いくつかの実施形態では、チェックサムは補足核酸配列でなくてもよい。それらのチェックサムは、それらが識別子によって表されるように情報に直接符号化されてもよい。

データの符号化および復号におけるノイズは、例えば、産物スキームにおいて単一の成分ではなく成分の回文ペアを使用することによって、回文的に識別子を構築することによって低減され得る。次いで、異なる層からの成分の対は、回文的に（例えば、成分ＸおよびＹのＸＹの代わりにＹＸＹ）互いにアセンブリされてもよい。この回文法は、より多数の層（例えば、ＸＹＺの代わりにＺＹＸＹＺ）に拡張することができ、識別子間の誤った交差反応の検出を可能にすることができる。

過剰な（例えば、膨大な過剰）補足核酸配列を識別子に付加することは、配列決定が符号化された識別子を回復するのを妨げる可能性がある。情報を復号する前に、識別子を補足核酸配列から濃縮することができる。例えば、識別子は、識別子末端に特異的なプライマーを使用する核酸増幅反応によって濃縮され得る。代替的に、またはそれに加えて、情報は、特異的プライマーを使用して配列決定すること（例えば、合成による配列決定）によってサンプルプールを濃縮することなく復号され得る。両方の復号方法において、復号鍵を持たずに、または識別子の構成について何かを知らずに情報を強化または復号することは困難であり得る。親和性タグベースのプローブを使用する等、代替のアクセス方法を使用することもできる。
二進シーケンスデータを符号化するためのシステム

デジタル情報を核酸（例えば、ＤＮＡ）にコード化するためのシステムは、ファイルおよびデータ（例えば、生データ、圧縮されたｚｉｐファイル、整数データ、および他の形式のデータ）をバイトに変換し、バイトを核酸、典型的にはＤＮＡ、またはそれらの組み合わせのセグメントまたは配列に符号化するためのシステム、方法およびデバイスを含むことができる。

一態様では、本開示は、核酸を使用して二進シーケンスデータを符号化するためのシステムを提供する。核酸を使用して二進シーケンスデータを符号化するためのシステムは、デバイスおよび１またはそれを超えるコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリを構築するように構成され得る。１またはそれを超えるコンピュータプロセッサは、（ｉ）情報を記号の文字列に変換し、（ｉｉ）記号列を複数の識別子にマッピングし、（ｉｉｉ）複数の識別子の少なくともサブセットを含む識別子ライブラリを構築するように、個別にまたは集合的にプログラムすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応することができる。複数の識別子の個々の識別子は、１またはそれを超える成分を含むことができる。１またはそれを超える成分の個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸を使用して二進シーケンスデータを読み取るためのシステムを提供する。核酸を使用して二進シーケンスデータを読み取るためのシステムは、データベースおよび１またはそれを超えるコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリを格納することができる。１またはそれを超えるコンピュータプロセッサは、（ｉ）識別子ライブラリ内の識別子を識別し、（ｉｉ）（ｉ）で識別された識別子から複数の記号を生成し、（ｉｉｉ）複数の記号から情報をコンパイルするように、個別にまたは集合的にプログラムすることができる。識別子ライブラリは、複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、１またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。

デジタルデータを符号化するためにシステムを使用するための方法の非限定的な実施形態は、バイトストリームの形態でデジタル情報を受信するための工程を含むことができる。バイトストリームを個々のバイトに解析し、核酸インデックス（または識別子ランク）を使用してバイト内のビットの位置をマッピングし、１のビット値または０のビット値のいずれかに対応するシ配列を識別子に符号化する。デジタルデータを検索する工程は、１またはそれを超えるビットにマッピングする核酸の配列（例えば、識別子）を含む核酸サンプルまたは核酸プールを配列決定することと、識別子が核酸プールに存在するかどうかを確認するために識別子ランクを参照することと、各配列の位置およびビット値情報をデジタル情報の配列を含むバイトに復号することとを含むことができる。

核酸分子に符号化され書き込まれた情報を符号化、書き込み、コピー、アクセス、読み取り、および復号するためのシステムは、単一の統合されたユニットであってもよく、または前述の動作の１またはそれを超えて実行するように構成された複数のユニットであってもよい。核酸分子（例えば、識別子）に情報を符号化および書き込むためのシステムは、デバイスおよび１またはそれを超えるコンピュータプロセッサを含み得る。１またはそれを超えるコンピュータプロセッサは、情報を記号列（例えば、ビットの文字列）に解析するようにプログラムされてもよい。コンピュータプロセッサは、識別子ランクを生成し得る。コンピュータプロセッサは、記号を２またはそれを超えるカテゴリに分類することができる。一方のカテゴリは、識別子ライブラリ内の対応する識別子の存在によって表される記号を含むことができ、他方のカテゴリは、識別子ライブラリ内の対応する識別子の非存在によって表される記号を含むことができる。コンピュータプロセッサは、識別子ライブラリ内の識別子の存在に対して表される記号に対応する識別子をアセンブリするようにデバイスに指示することができる。

デバイスは、複数の領域、セクション、またはパーティションを備えることができる。識別子をアセンブリするための試薬および成分は、デバイスの１またはそれを超える領域、セクション、またはパーティションに格納することができる。層は、デバイスのセクションの別々の領域に格納されてもよい。層は、１またはそれを超える固有の成分を含むことができる。１つの層内の成分は、別の層内の成分と固有であってもよい。領域または区画は容器を含むことができ、パーティションはウェルを含むことができる。各層は、別個の容器またはパーティションに格納されてもよい。各試薬または核酸配列は、別個の容器またはパーティションに格納され得る。代替的に、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成してもよい。デバイスは、デバイスの１つのセクションから試薬、成分および鋳型を移送して、別のセクションで組み合わせることができる。デバイスは、アセンブリ反応を完了するための条件を提供することができる。例えば、デバイスは、加熱、撹拌、および反応進行の検出を提供することができる。構築された識別子は、バーコード、共通配列、可変配列、またはタグを識別子の１またはそれを超える末端に付加するために１またはそれを超える後続の反応を受けるように指示され得る。次いで、識別子は、識別子ライブラリを生成するために領域またはパーティションに向けられてもよい。１またはそれを超える識別子ライブラリは、デバイスの各領域、セクション、または個々のパーティションに格納することができる。デバイスは、圧力、真空、または吸引を使用して流体（例えば、試薬、成分、鋳型）を移送することができる。

識別子ライブラリは、デバイスに格納されてもよく、または別個のデータベースに移動されてもよい。データベースは、１またはそれを超える識別子ライブラリを含むことができる。データベースは、識別子ライブラリの長期保存のための条件を提供することができる（例えば、識別子の劣化を低減するための条件）。識別子ライブラリは、粉末、液体、または固体の形態で保存することができる。識別子の水溶液は、より安定した保存のために凍結乾燥することができる（凍結乾燥についてのより多くの情報については、化学的方法のセクションＧを参照されたい）。データベースは、Ｕｌｔｒａ－Ｖｉｏｌｅｔ光保護、低温（例えば、冷蔵または冷凍）、および分解化学物質および酵素からの保護を提供することができる。データベースに転送される前に、識別子ライブラリを凍結乾燥または凍結することができる。識別子ライブラリは、ヌクレアーゼを不活性化するためのエチレンジアミン四酢酸（ＥＤＴＡ）および／または核酸分子の安定性を維持するためのバッファーを含み得る。

データベースは、情報を識別子に書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスに結合され、それを含み、またはそれとは別個であってもよい。識別子ライブラリの一部は、コピー、アクセス、または読み取りの前にデータベースから削除されてもよい。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じであっても異なっていてもよい。情報をコピーするデバイスは、デバイスから識別子ライブラリのアリコートを抽出し、そのアリコートを試薬および構成成分と組み合わせて識別子ライブラリの一部または全体を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができる。デバイスはパーティションを含んでもよく、識別子ライブラリを含むパーティションで１またはそれを超える増幅反応が行われてもよい。デバイスは、一度に２つ以上の識別子のプールをコピーし得る。

コピーされた識別子は、コピーデバイスからアクセスデバイスに転送されてもよい。アクセスデバイスは、コピーデバイスと同じデバイスであってもよい。アクセスデバイスは、別個の領域、セクション、またはパーティションを備えることができる。アクセスデバイスは、親和性タグに結合した識別子を分離するための１またはそれを超えるカラム、ビードリザーバー、または磁気領域を有し得る（核酸捕捉に関する化学的方法のセクションＦを参照）。代替的に、またはそれに加えて、アクセスデバイスは、１またはそれを超えるサイズ選択ユニットを有してもよい。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る（核酸サイズ選択についてのより多くの情報については化学的方法のセクションＥを参照されたい）。コピーおよび抽出は、デバイスの同じ領域において、またはデバイスの異なる領域において行われ得る（核酸増幅についての化学的方法のセクションＤを参照されたい）。

アクセスされたデータは、同じデバイスで読み出されてもよいし、アクセスされたデータが別のデバイスに転送されてもよい。読み取りデバイスは、識別子を検出および識別するための検出ユニットを備えることができる。検出ユニットは、シーケンサー、ハイブリダイゼーションアレイ、または識別子の有無を識別するための他のユニットの一部であり得る。配列決定プラットフォームは、核酸配列に符号化された情報を復号および読み取りするために特に設計され得る。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用であり得る。配列決定プラットフォームは、個々の塩基を読み取ることによって（例えば、塩基ごとの配列決定）、または核酸分子内に組み込まれた核酸配列全体（例えば、成分）の存在もしくは非存在を検出することによって（例えば、識別子）、核酸符号化データを復号し得る。あるいは、配列決定プラットフォームは、Ｉｌｌｕｍｉｎａ（登録商標）シーケンシングまたはキャピラリー電気泳動による断片化分析等のシステムであり得る。代替において、または、加えて、核酸配列を解読することが、デバイスによって実施される様々な分析技術を使用して行われる場合があり、そのような分析技術には、光学的シグナル、電気化学的シグナルまたは化学的シグナルを生じさせる任意の方法が含まれるが、これらに限定されない。

核酸分子における情報記憶は、長期情報記憶、機密情報記憶、および医療情報の記憶を含むがこれらに限定されない様々な用途を有し得る。一例では、人の医療情報（例えば、病歴および記録）は、核酸分子に格納され、人に携帯され得る。情報は、身体の外部（例えば、ウェアラブルデバイスにおいて、）または身体の内部（例えば、皮下カプセル内）に格納することができる。患者が診療所または病院に運ばれると、デバイスまたはカプセルからサンプルが採取され、核酸シーケンサーを使用して情報が復号され得る。核酸分子における医療記録の個人ストーレージは、コンピュータおよびクラウドベースのストーレージシステムの代替を提供し得る。核酸分子における医療記録の個人ストーレージは、ハッキングされる医療記録の事例または広がりを減少させ得る。医療記録のカプセルベースストーレージに使用される核酸分子は、ヒトゲノム配列に由来し得る。ヒトゲノム配列の使用は、カプセル不全および漏出の場合に核酸配列の免疫原性を低下させ得る。
コンピュータシステム

本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図２３は、デジタル情報を核酸配列に符号化し、および／または核酸配列に由来する情報を読み取る（例えば、復号）ようにプログラムまたは他の方法で構成されたコンピュータシステム１９０１を示す。コンピュータシステム１９０１は、例えば、符号化ビットストリームまたはバイトストリームからの所与のビットまたはバイトのビット値およびビット位置情報等、本開示の符号化および復号手順の様々な態様を調整することができる。

コンピュータシステム１９０１は、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサとすることができる中央処理装置（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」）１９０５を含む。コンピュータシステム１９０１はまた、メモリまたはメモリ位置１９１０（例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ）と、電子ストーレージユニット１９１５（例えば、ハードディスク）と、１またはそれを超える他のシステムと通信するための通信インターフェース１９２０（例えば、ネットワークアダプタ）と、キャッシュ、他のメモリ、データストーレージ、および／または電子ディスプレイアダプタ等の周辺デバイス１９２５とを含む。メモリ１９１０、ストーレージユニット１９１５、インターフェース１９２０および周辺デバイス１９２５は、マザーボード等の通信バス（実線）を介してＣＰＵ１９０５と通信する。ストーレージユニット１９１５は、データを記憶するためのデータストーレージユニット（またはデータリポジトリ）とすることができる。コンピュータシステム１９０１は、通信インターフェース１９２０の助けを借りてコンピュータネットワーク（「ネットワーク」）１９３０に動作可能に結合することができる。ネットワーク１９３０は、インターネット、インターネットおよび／またはエクストラネット、またはインターネットと通信するイントラネットおよび／またはエクストラネットとすることができる。ネットワーク１９３０は、場合によっては、電気通信および／またはデータネットワークである。ネットワーク１９３０は、クラウドコンピューティング等の分散コンピューティングを可能にすることができる１またはそれを超えるコンピュータサーバを含むことができる。ネットワーク１９３０は、場合によっては、コンピュータシステム１９０１の助けを借りて、コンピュータシステム１９０１に結合されたデバイスがクライアントまたはサーバとして動作することを可能にすることができるピアツーピアネットワークを実装することができる。

ＣＰＵ１９０５は、プログラムまたはソフトウェアで具現化することができる一連の機械可読命令を実行することができる。命令は、メモリ１９１０等のメモリ位置に格納することができる。命令は、ＣＰＵ１９０５を対象とすることができ、その後、本開示の方法を実施するようにＣＰＵ１９０５をプログラムまたは構成することができる。ＣＰＵ１９０５によって実行される動作の例は、フェッチ、復号、実行、およびライトバックを含むことができる。

ＣＰＵ１９０５は、集積回路等の回路の一部とすることができる。システム１９０１の１またはそれを超える他の成分を回路に含めることができる。場合によっては、回路は特定用途向け集積回路（ＡＳＩＣ）である。

ストーレージユニット１９１５は、ドライバ、ライブラリおよび保存されたプログラム等のファイルを格納することができる。ストーレージユニット１９１５は、ユーザデータ、例えば、ユーザプレファレンスおよびユーザプログラムを格納することができる。コンピュータシステム１９０１は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム１９０１と通信するリモートサーバ上に位置する等、コンピュータシステム１９０１の外部にある１またはそれを超える追加のデータ記憶装置を含むことができる。

コンピュータシステム１９０１は、ネットワーク１９３０を介して１またはそれを超えるリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム１９０１は、核酸の配列において符号化または復号されたデータを分析する過程でユーザによって使用され得るユーザまたは他のデバイスおよび／または機械のリモートコンピュータシステムと通信することができる（例えば、核酸配列中の窒素塩基の順序を化学的に決定するためのシーケンサーまたは他のシステム）。リモートコンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）Ｇａｌａｘｙタブ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が含まれる。ユーザは、ネットワーク１９３０を介してコンピュータシステム１９０１にアクセスすることができる。

本明細書に記載の方法は、例えばメモリ１９１０または電子ストーレージユニット１９１５等のコンピュータシステム１９０１の電子ストーレージ場所に格納された機械（例えば、コンピュータプロセッサ）実行可能コードによって実施することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ１９０５によって実行することができる。場合によっては、コードは、ストーレージユニット１９１５から取得され、プロセッサ１９０５による容易なアクセスのためにメモリ１９１０に格納され得る。いくつかの状況では、電子ストーレージユニット１９１５を除外することができ、機械実行可能命令がメモリ１９１０に格納される。

コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイルおよび構成することができ、またはランタイム中にコンパイルすることができる。コードは、コードが予めコンパイルされた方法またはコンパイルされた方法で実行することを可能にするように選択することができるプログラミング言語で供給することができる。

コンピュータシステム１９０１等、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具現化することができる。本技術の様々な態様は、典型的には機械（またはプロセッサ）実行可能コードおよび／またはある種の機械可読媒体上に担持されるかまたはそれに具体化される関連データの形態の「製品」または「製造品」と考えることができる。機械実行可能コードは、メモリ（例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスク等の電子ストーレージユニットに格納することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサ等の有形メモリ、または様々な半導体メモリ、テープドライブ、ディスクドライブ等の関連モジュールのいずれかまたは全てを含むことができ、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供することができる。ソフトウェアの全部または一部は、インターネットまたは様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にすることができる。したがって、ソフトウェア要素を担持することができる別のタイプの媒体は、ローカルデバイス間の物理インターフェースにわたって、有線および光の地上ネットワークを介して、および様々なエアリンクを介して使用されるような、光波、電気波、および電磁波を含む。有線または無線リンク、光リンク等、そのような波を搬送する物理的要素もまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータまたは機械の「可読媒体」等の用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。

したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用され得る任意のコンピュータ（複数可）等の記憶デバイスのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル；コンピュータシステム内にバスを備えるワイヤを含む、銅ワイヤおよび光ファイバを含む。搬送波伝送媒体は、電気信号もしくは電磁信号、または無線周波数（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されるような音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／またはデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のために１つまたは複数の命令の１またはそれを超える配列をプロセッサに搬送することに関与することができる。

コンピュータシステム１９０１は、例えば、ＤＮＡ格納データに符号化または復号される核酸、生データ、ファイル、および圧縮または解凍されたｚｉｐファイルを符号化または復号する機械またはコンピュータシステムによって符号化または読み取りされるクロマトグラフ、配列、ならびにビット、バイト、またはビットストリームを含む配列出力データを提供するためのユーザインターフェース（ＵＩ）１９４０を含む電子ディスプレイ１９３５を含むか、またはそれと通信することができる。ＵＩの例には、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースが含まれるが、これらに限定されない。
本開示の方法およびシステムは、１またはそれを超えるアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置１９０５による実行時にソフトウェアによって実施することができる。アルゴリズムは、例えば、デジタル情報を符号化する前に、生データまたはｚｉｐファイル圧縮データからデジタル情報を符号化するためのカスタマイズされた方法を決定するために、ＤＮＡインデックスおよび生データまたはｚｉｐファイル圧縮データもしくは解凍データと共に使用することができる。
化学的方法のセクション
Ａ．オーバーラップ伸長ＰＣＲ（ＯＥＰＣＲ）アセンブリ

ＯＥＰＣＲでは、ポリメラーゼおよびｄＮＴＰ（ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰまたはそれらの変異体もしくは類縁体を含むデオキシヌクレオチド三リン酸）を含む反応で成分がアセンブリされる。成分は、一本鎖または二本鎖核酸であり得る。互いに近接してアセンブリされる成分は、相補的な３’末端、相補的な５’末端、または１つの成分の５’末端と近接する成分の３’末端との間の相同性を有し得る。「ハイブリダイゼーション領域」と呼ばれるこれらの末端領域は、ＯＥＰＣＲ中に成分間のハイブリダイズした接合部の形成を促進することを意図しており、１つの投入成分（またはその相補体）の３’末端がその意図する近接成分（またはその相補体）の３’末端にハイブリダイズする。次いで、アセンブリされた二本鎖生成物がポリメラーゼ伸長によって形成される。次いで、この生成物は、その後のハイブリダイゼーションおよび伸長によってより多くの成分にアセンブリされ得る。図１１は、３つの核酸をアセンブリするためのＯＥＰＣＲの例示的な概略図を示す。

いくつかの実施形態では、ＯＥＰＣＲは、融解温度、アニーリング温度、および伸長温度の３つの温度間のサイクルを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変換し、ならびに成分内または成分間の二次構造またはハイブリダイゼーションの形成を除去することを意図している。典型的には、溶融温度は高く、例えば摂氏９５度を上回る。いくつかの実施形態では、溶融温度は、少なくとも摂氏９６、９７、９８、９９、１００、１０１、１０２、１０３、１０４、または１０５度であってもよい。他の実施形態では、溶融温度は、最大９５、９４、９３、９２、９１、または９０℃であってもよい。より高い融解温度は、核酸およびそれらの二次構造の解離を改善するが、核酸またはポリメラーゼの分解等の副作用も引き起こし得る。溶融温度は、少なくとも１、２、３、４、５秒を上回って、例えば３０秒、１分、２分、または３分にわたって反応に適用され得る。

アニーリング温度は、意図された近接成分（またはそれらの相補体）の相補的３’末端間のハイブリダイゼーションの形成を促進することを意図する。いくつかの実施形態では、アニーリング温度は、意図するハイブリダイズした核酸形成の計算された融解温度と一致し得る。他の実施形態では、アニーリング温度は、当該融解温度の摂氏１０度またはそれを超えてもよい。いくつかの実施形態では、アニーリング温度は、少なくとも摂氏２５、３０、５０、５５、６０、６５、または７０度であってもよい。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。より長いハイブリダイゼーション領域は、より高い融解温度を有し、より高いパーセント含有量のグアニンヌクレオチドまたはシトシンヌクレオチドを有するハイブリダイゼーション領域は、より高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に集合することを意図したＯＥＰＣＲ反応のための成分を設計することが可能であり得る。アニーリング温度は、少なくとも１、５、１０、１５、２０、２５、または３０秒、またはそれを上回って反応に適用され得る。

伸長温度は、１またはそれを超えるポリメラーゼ酵素によって触媒されるハイブリダイズした３’末端の核酸鎖伸長を開始および促進することを意図する。いくつかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性または忠実度に関して最適に機能する温度に設定され得る。いくつかの実施形態では、伸長温度は、少なくとも摂氏３０、４０、５０、６０、または７０度またはそれを上回ってもよい。アニーリング温度は、少なくとも１、５、１０、１５、２０、２５、３０、４０、５０、または６０秒またはそれを上回って反応に適用され得る。推奨される伸長時間は、予想伸長のキロベースあたり約１５～４５秒であり得る。

ＯＥＰＣＲのいくつかの実施形態では、アニーリング温度および伸長温度は同じであり得る。したがって、３段階の温度サイクルの代わりに２段階の温度サイクルを使用してもよい。アニーリング温度と伸長温度の組み合わせの例は、摂氏６０、６５、または７２度を含む。

いくつかの実施形態では、ＯＥＰＣＲは、１つの温度サイクルで実行され得る。そのような実施形態は、２つの成分のみの意図されたアセンブリを含んでもよい。他の実施形態では、ＯＥＰＣＲは複数の温度サイクルで実行されてもよい。ＯＥＰＣＲにおける任意の所与の核酸は、１サイクルで最大１つの他の核酸にのみアセンブリされ得。これは、アセンブリ（または伸長もしくは伸長）が核酸の３’末端でのみ起こり得、各核酸が１つの３’末端のみを有し得るからである。したがって、複数の成分のアセンブリは、複数の温度サイクルを必要とする場合がある。例えば、４つの成分をアセンブリすることは、３つの温度サイクルを含み得る。６つの成分をアセンブリすることは、５つの温度サイクルを含み得る。１０個の成分をアセンブリすることは、９回の温度サイクルを含み得る。いくつかの実施形態では、必要最小限よりも多くの温度サイクルを使用することにより、アセンブリ効率を高めることができる。例えば、２つの成分をアセンブリするために４つの温度サイクルを使用すると、１つの温度サイクルのみを使用するよりも多くの生成物を得ることができる。これは、成分のハイブリダイゼーションおよび伸長が、各サイクルにおける成分の総数の一部で生じる統計的事象であるためである。したがって、アセンブリされた成分の総割合は、サイクルの増加と共に増加し得る。

温度サイクルの考慮に加えて、ＯＥＰＣＲにおける核酸配列の設計は、それらの相互のアセンブリの効率に影響を及ぼし得る。長いハイブリダイゼーション領域を有する核酸は、短いハイブリダイゼーション領域を有する核酸と比較して、所与のアニーリング温度でより効率的にハイブリダイズし得る。これは、より長いハイブリッド生成物がより多数の安定な塩基対を含有し、したがって、より短いハイブリッド生成物よりも安定な全体的なハイブリッド生成物であり得るためである。ハイブリダイゼーション領域は、少なくとも１、２、３、４、５、６、７、８、９、１０またはそれを超える塩基の長さを有し得る。

高いグアニンまたはシトシン含有量を有するハイブリダイゼーション領域は、低いグアニンまたはシトシン含有量を有するハイブリダイゼーション領域よりも所与の温度でより効率的にハイブリダイズし得る。これは、グアニンがシトシンと、アデニンがチミンとより安定な塩基対を形成するためである。ハイブリダイゼーション領域は、０％～１００％のいずれかのグアニンまたはシトシン含有量（ＧＣ含有量としても知られる）を有し得る。

ハイブリダイゼーション領域の長さおよびＧＣ含有量に加えて、ＯＥＰＣＲの効率に影響を及ぼし得る核酸配列設計のさらなる態様が存在する。例えば、成分内の望ましくない二次構造の形成は、その意図された近接する成分とのハイブリダイゼーション生成物を形成するその能力を妨げ得る。これらの二次構造はヘアピンループを含むことができる。核酸の可能な二次構造の種類およびそれらの安定性（例えば、計量温度）は、配列に基づいて予測することができる。設計空間探索アルゴリズムを使用して、潜在的に阻害性の二次構造を有する配列を回避しながら、効率的なＯＥＰＣＲのための適切な長さおよびＧＣ含有量基準を満たす核酸配列を決定することができる。設計空間探索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分岐限定探索アルゴリズム、動的プログラミングベースのアルゴリズム、制約付き組み合わせ最適化アルゴリズム、勾配降下ベースのアルゴリズム、ランダム化探索アルゴリズム、またはそれらの組み合わせを含み得る。

同様に、ホモ二量体（同じ配列の核酸分子とハイブリダイズする核酸分子）および望ましくないヘテロ二量体（それらの意図されたアセンブリパートナー以外の他の核酸配列とハイブリダイズする核酸配列）の形成は、ＯＥＰＣＲを妨害し得る。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、計算方法および設計空間探索アルゴリズムを使用して核酸設計中に予測および説明することができる。

より長い核酸配列またはより高いＧＣ含有量は、ＯＥＰＣＲによる望ましくない二次構造、ホモ二量体およびヘテロ二量体の形成の増加をもたらし得る。したがって、いくつかの実施形態では、より短い核酸配列またはより低いＧＣ含有量の使用は、より高いアセンブリ効率をもたらし得る。これらの設計原理は、より効率的なアセンブリのために長いハイブリダイゼーション領域または高いＧＣ含有量を使用する設計戦略を妨げる可能性がある。したがって、いくつかの実施形態では、ＯＥＰＣＲは、高いＧＣ含有量を有する長いハイブリダイゼーション領域を使用するが、低いＧＣ含有量を有する短い非ハイブリダイゼーション領域を使用することによって最適化され得る。核酸の全長は、少なくとも１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００塩基、またはそれを上回ってもよい。いくつかの実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域に最適な長さおよび最適なＧＣ含有量が存在し得る。

ＯＥＰＣＲ反応におけるより多くの異なる核酸は、予想されるアセンブリ効率を妨害し得る。これは、より多数の異なる核酸配列が、特にヘテロ二量体の形態で、望ましくない分子相互作用の確率をより高くし得るためである。したがって、多数の成分をアセンブリするＯＥＰＣＲのいくつかの実施形態では、核酸配列の制約は、効率的なアセンブリのためにより厳しくなり得る。

予想される最終的な組み合立てられた産物を増幅するためのプライマーをＯＥＰＣＲ反応に含めてもよい。次いで、構成成分間により多くのアセンブリを作製するだけでなく、従来のＰＣＲの様式で完全に集合した生成物を指数関数的に増幅することによっても、ＯＥＰＣＲ反応をより多くの温度サイクルで実施して、アセンブリされた生成物の収率を改善することができる（化学的方法のセクションＤを参照されたい）。

添加剤は、アセンブリ効率を改善するためにＯＥＰＣＲ反応に含まれてもよい。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはそれらの組み合わせの添加。添加剤の含有量（体積当たりの重量）は、少なくとも０％、１％、５％、１０％、２０％、またはそれを超えてもよい。

ＯＥＰＣＲには様々なポリメラーゼが使用され得る。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される（すなわち、結合の形成を触媒する酵素）。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ｐｈｉ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。異なるポリメラーゼは安定であり得、異なる温度で最適に機能し得る。さらに、異なるポリメラーゼは異なる特性を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼ等のいくつかのポリメラーゼは、３’から５’のエキソヌクレアーゼ活性を示し得、これは核酸伸長中のより高い忠実度に寄与し得る。一部のポリメラーゼは伸長中にリーディング配列を置換し得るが、他のポリメラーゼはそれらを分解するかまたは伸長を停止し得る。Ｔａｑのようないくつかのポリメラーゼは、核酸配列の３’末端にアデニン塩基を組み込む。このプロセスはＡ－テーリングと呼ばれ、アデニン塩基の添加が意図された近接成分間の設計された３’相補性を破壊し得るので、ＯＥＰＣＲに対して阻害性であり得る。

ＯＥＰＣＲは、ポリメラーゼサイクリングアセンブリ（またはＰＣＡ）とも呼ばれ得る。
Ｂ．ライゲーションアセンブリ

ライゲーションアセンブリでは、別個の核酸が、１またはそれを超えるリガーゼ酵素および追加の補因子を含む反応でアセンブリされる。補因子としては、アデノシン三リン酸（ＡＴＰ）、ジチオスレイトール（ＤＴＴ）またはマグネシウムイオン（Ｍｇ２＋）が挙げられ得る。ライゲーションの間、１つの核酸鎖の３’末端は、別の核酸鎖の５’末端に共有結合しており、したがってアセンブリされた核酸を形成する。ライゲーション反応における成分は、平滑末端二本鎖ＤＮＡ（ｄｓＤＮＡ）、一本鎖ＤＮＡ（ｓｓＤＮＡ）、または部分的にハイブリダイズした一本鎖ＤＮＡであり得る。核酸の末端を一緒にする戦略は、リガーゼ酵素の生存可能な基質の頻度を増加させ、したがってリガーゼ反応の効率を改善するために使用され得る。平滑末端ｄｓＤＮＡ分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を一緒にするためのより成功した戦略は、構築しようとする成分のオーバーハングに対して相補性を有する５’または３’一本鎖オーバーハングを有する核酸成分を使用することであり得る。後者の場合、塩基－塩基ハイブリダイゼーションにより、より安定な核酸二重鎖が形成され得る。

二本鎖核酸が一方の末端にオーバーハング鎖を有する場合、同じ末端の他方の鎖は「キャビティ」と称され得る。キャビティおよびオーバーハングは一緒になって、「密着末端」としても知られる「粘着末端」を形成する。粘着末端は、３’オーバーハングおよび５’キャビティ、または５’オーバーハングおよび３’キャビティのいずれかであり得る。２つの意図された近接する成分間の粘着末端は、両方の粘着末端のオーバーハングが、各オーバーハング末端が他方の成分上のキャビティの開始部に直接近接するようにハイブリダイズするような相補性を有するように設計され得る。これは、リガーゼの作用によって「封止」（ホスホジエステル結合を介して共有結合する）ことができる「ニック」（二本鎖ＤＮＡ切断）を形成する。３つの核酸をアセンブリするための粘着末端ライゲーションの例示的な概略図については図１２を参照されたい。一方のストランドまたは他方のストランドのいずれか、または両方のニックを密封することができる。熱力学的には、粘着末端を形成する分子のトップ鎖およびボトム鎖は、会合状態と解離状態との間を移動することができ、したがって、粘着末端は一時的な形成であり得る。しかしながら、一旦、２つの成分間の粘着末端二重鎖の一方の鎖に沿ったニックが密封されると、その共有結合は、反対の鎖のメンバーが解離しても残る。次いで、連結された鎖は、反対の鎖の意図された近接するメンバーが結合することができる鋳型になり、再び密封され得るニックを形成することができる。

粘着末端は、ｄｓＤＮＡを１またはそれを超えるエンドヌクレアーゼで消化することによって作製され得る。エンドヌクレアーゼ（制限酵素と呼ばれることもある）は、ｄｓＤＮＡ分子の一方または両方の末端の特定の部位（制限部位と呼ばれることもある）を標的化し、互い違いの切断（消化と呼ばれることもある）を作り出し、それにより粘着末端を残し得る。制限消化物に関する化学的方法のセクションＣを参照されたい。消化物は、回文オーバーハング（それ自体の逆相補体である配列を有するオーバーハング）を残し得る。そうである場合、同じエンドヌクレアーゼで消化された２つの成分は相補的な粘着末端を形成し得、それに沿ってリガーゼとアセンブリされ得る。エンドヌクレアーゼとリガーゼが適合性である場合、消化とライゲーションは同じ反応で一緒に行われ得る。反応は、４、１０、１６、２５、または３７℃等の均一な温度で起こり得る。または、反応は、１６℃～３７℃等の複数の温度間で循環してもよい。複数の温度間でのサイクルは、サイクルの異なる部分の間にそれぞれの最適温度で消化およびライゲーションをそれぞれ進行させることを可能にし得る。

消化およびライゲーションを別々の反応で行うことが有益であり得る。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーションされた産物がエンドヌクレアーゼのための新しい制限部位を形成する場合。これらの例では、制限消化、次いでライゲーションを別々に行うことがより良好であり得、おそらくライゲーションの前に制限酵素を除去することがさらに有益であり得る。核酸は、フェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着、洗浄、および溶出によって酵素から分離することができる。複数のエンドヌクレアーゼを同じ反応で使用してもよいが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするように注意すべきである。２つのエンドヌクレアーゼを使用して、ｄｓＤＮＡ成分の両端に直交する（非相補的な）粘着末端を作製することができる。

エンドヌクレアーゼ消化は、リン酸化５’末端を有する粘着末端を残すことができる。リガーゼは、リン酸化５’末端でのみ機能し得、非リン酸化５’末端では機能し得ない。したがって、消化とライゲーションとの間に中間体５’リン酸化工程は必要ない場合がある。その粘着末端に回文オーバーハングを有する消化されたｄｓＤＮＡ成分は、それ自体にライゲーションし得る。自己ライゲーションを防止するために、ライゲーションの前に当該ｄｓＤＮＡ成分を脱リン酸化することが有益であり得る。

複数のエンドヌクレアーゼは、異なる制限部位を標的とし得るが、適合するオーバーハング（互いの逆相補体であるオーバーハング）を残し得る。２つのそのようなエンドヌクレアーゼを用いて作製された粘着末端のライゲーション産物は、ライゲーション部位にいずれかのエンドヌクレアーゼに対する制限部位を含まない集合産物をもたらし得る。そのようなエンドヌクレアーゼは、反復消化－ライゲーションサイクルを実施することによって２つのエンドヌクレアーゼのみを使用して複数の成分をプログラム可能にアセンブリすることができるバイオブリックアセンブリ等のアセンブリ方法の基礎を形成する。図２４は、適合するオーバーハングを有するエンドヌクレアーゼＢａｍＨＩおよびＢｇｌＩＩを使用する消化－ライゲーションサイクルの一例を示す。

いくつかの実施形態では、粘着末端を作製するために使用されるエンドヌクレアーゼは、ＩＩＳ型制限酵素であり得る。これらの酵素は、それらの制限部位から特定の方向に固定数の塩基を切断するので、それらが生成するオーバーハングの配列はカスタマイズされ得る。オーバーハング配列は回文配列である必要はない。同じタイプのＩＩＳ制限酵素を使用して、同じ反応で、または複数の反応で複数の異なる粘着末端を作製することができる。さらに、１つまたは複数のＩＩＳ型制限酵素を使用して、同じ反応で、または複数の反応で適合するオーバーハングを有する成分を作製することができる。ＩＩＳ型制限酵素によって生成される２つの粘着末端間のライゲーション部位は、それが新たな制限部位を形成しないように設計され得る。加えて、ＩＩＳ型制限酵素部位は、それが粘着末端を有する成分を生成するときに制限酵素がそれ自体の制限部位を切断するようにｄｓＤＮＡ上に配置され得る。したがって、ＩＩＳ型制限酵素から生成された複数の成分間のライゲーション産物は、制限部位を含まなくてもよい。

ＩＩＳ型制限酵素をリガーゼと共に反応中に混合して、成分消化およびライゲーションを一緒に行うことができる。最適な消化およびライゲーションを促進するために、反応の温度を２またはそれを超える値の間で循環させることができる。例えば、消化は、３７℃で最適に実施されてもよく、ライゲーションは、１６℃で最適に実施されてもよい。より一般的には、反応は、少なくとも０、５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０もしくは６５℃またはそれを上回る温度値の間で循環してもよい。組み合わせた消化およびライゲーション反応を使用して、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、もしくは２０個またはそれを超える成分をアセンブリすることができる。ＩＩＳ型制限酵素を利用して粘着末端を生成するアセンブリ反応の例としては、ゴールデンゲートアセンブリ（ゴールデンゲートクローニングとしても知られる）またはモジュラークローニング（ＭｏＣｌｏとしても知られる）が挙げられる。

ライゲーションのいくつかの実施形態では、エキソヌクレアーゼを使用して、粘着末端を有する成分を作製することができる。３’エキソヌクレアーゼを使用して、ｄｓＤＮＡから３’末端をフィードバック（ｃｈｅｗｂａｃｋ）することにより、５’オーバーハングを作製することができる。同様に、５’エキソヌクレアーゼを使用して、ｄｓＤＮＡから５’末端をフィードバック（ｃｈｅｗｂａｃｋ）することにより、３’オーバーハングを作製することができる。異なるエキソヌクレアーゼは、異なる特性を有し得る。例えば、エキソヌクレアーゼは、それらのヌクレアーゼ活性の方向（５’から３’または３’から５’）、それらがｓｓＤＮＡに作用するかどうか、それらがリン酸化５’末端もしくは非リン酸化５’末端に作用するかどうか、それらがニック上で開始することができるかどうか、またはそれらが５’キャビティ、３’キャビティ、５’オーバーハングもしくは３’オーバーハング上でそれらの活性を開始することができるかどうかにおいて異なり得る。様々なタイプのエキソヌクレアーゼには、ラムダエキソヌクレアーゼ、ＲｅｃＪ_ｆ、エキソヌクレアーゼＩＩＩ、エキソヌクレアーゼＩ、エキソヌクレアーゼＴ、エキソヌクレアーゼＶ、エキソヌクレアーゼＶＩＩＩ、エキソヌクレアーゼＶＩＩ、ヌクレアーゼＢＡＬ＿３１、Ｔ５エキソヌクレアーゼ、およびＴ７エキソヌクレアーゼが含まれる。

エキソヌクレアーゼは、複数の成分をアセンブリするためにリガーゼと共に反応に使用され得る。反応は、それぞれリガーゼまたはエキソヌクレアーゼにとって理想的な複数の温度間の固定温度またはサイクルで起こり得る。ポリメラーゼは、リガーゼおよび５’から３’へのエキソヌクレアーゼとのアセンブリ反応に含まれ得る。そのような反応における成分は、互いに近接してアセンブリするように意図された成分がそれらのエッジで相同配列を共有するように設計され得る。例えば、成分Ｙとアセンブリされる成分Ｘは、形態５’－ｚ－３’の３’エッジ配列を有し得、成分Ｙは、形態５’－ｚ－３’の５’エッジ配列を有し得、ここで、ｚは任意の核酸配列である。そのような形態の相同なエッジ配列は、「ギブソンオーバーラップ」と呼ばれることがある。５’エキソヌクレアーゼがギブソンオーバーラップを有するｄｓＤＮＡ成分の５’末端を噛み返すと、それは互いにハイブリダイズする適合性の３’オーバーハングを形成する。次いで、ハイブリダイズした３’末端は、ポリメラーゼの作用によって鋳型成分の末端まで、または１つの成分の伸長した３’オーバーハングが近接する成分の５’キャビティと出会う点まで伸長され、それによってリガーゼによって密封され得るニックを形成し得る。ポリメラーゼ、リガーゼおよびエキソヌクレアーゼが一緒に使用されるこのようなアセンブリ反応は、「ギブソンアセンブリ」と呼ばれることが多い。ギブソンアセンブリは、Ｔ５エキソヌクレアーゼ、ＰｈｕｓｉｏｎポリメラーゼおよびＴａｑリガーゼを使用し、反応物を５０℃でインキュベートすることによって行うことができる。当該例では、好熱性リガーゼＴａｑの使用は、反応中の３種類全ての酵素に適した温度である摂氏５０度で反応を進行させることを可能にする。

「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを含む任意のアセンブリ反応を指し得る。ギブソンアセンブリは、少なくとも２、３、４、５、６、７、８、９、１０またはそれを超える成分をアセンブリするために使用されてもよい。ギブソンアセンブリは、１段階の等温反応として、または１もしくはそれを超える温度インキュベーションとの多段階反応として起こり得る。例えば、ギブソンアセンブリは、少なくとも３０、４０、５０、６０、または７０℃またはそれ未満の温度で生じ得る。ギブソンアセンブリのインキュベーション時間は、少なくとも１、５、１０、２０、４０、または８０分であり得る。

ギブソンアセンブリ反応は、意図された近接成分間のギブソンオーバーラップが特定の長さであり、ヘアピン、ホモ二量体または望ましくないヘテロ二量体等の望ましくないハイブリダイゼーション事象を回避する配列等の配列特徴を有する場合に最適に起こり得る。一般に、少なくとも２０塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、少なくとも１、２、３、５、１０、２０、３０、４０、５０、６０、１００塩基長またはそれを超える塩基長であり得る。ギブソンオーバーラップのＧＣ含有量は、０％～１００％のいずれかであり得る。

ギブソンアセンブリは一般に５’エキソヌクレアーゼで記載されているが、反応は３’エキソヌクレアーゼでも起こり得る。３’エキソヌクレアーゼがｄｓＤＮＡ成分の３’末端を噛み返すと、ポリメラーゼは３’末端を伸長することによって作用に対抗する。この動的プロセスは、２つの成分（ギブソンオーバーラップを共有する）の５’オーバーハング（エキソヌクレアーゼによって生成される）がハイブリダイズし、ポリメラーゼが１つの成分の３’末端をその近接する成分の５’末端を満たすのに十分遠くまで伸長させ、それによってリガーゼによって密封され得るニックを残すまで継続し得る。

ライゲーションのいくつかの実施形態では、酵素的ではなく、完全な相補性を共有しない２つの一本鎖核酸またはオリゴを一緒に混合することによって、粘着末端を有する成分を合成的に作製することができる。例えば、２つのオリゴ、オリゴＸおよびオリゴＹは、一方または両方のオリゴの全体を構成するより大きな一連の塩基の部分文字列を形成する連続した一連の相補的塩基に沿ってのみ完全にハイブリダイズするように設計され得る。この相補的な塩基列は、「インデックス領域」と呼ばれる。インデックス領域がオリゴＸの全体およびオリゴＹの５’末端のみを占有する場合、オリゴは一緒になって、一方の側が平滑末端であり、他方の側が粘着末端であり、オリゴＹから３’オーバーハングを有する成分を形成する（図２５Ａ）。インデックス領域がオリゴＸの全体およびオリゴＹの３’末端のみを占有する場合、オリゴは一緒になって、一方の側が平滑末端であり、他方の側が粘着末端であり、オリゴＹから５’オーバーハングを有する成分を形成する（図２５Ｂ）。インデックス領域がオリゴＸの全体を占め、オリゴＹのいずれの末端も占めない場合（インデックス領域がオリゴＹの中央に埋め込まれていることを意味する）、オリゴは一緒になって、一方の側がオリゴＹから３’オーバーハングし、他方の側がオリゴＹから５’オーバーハングした粘着末端を有する成分を形成する（図２５Ｃ）。インデックス領域がオリゴＸの５’末端のみおよびオリゴＹの５’末端のみを占有する場合、オリゴは一緒になって、一方の側がオリゴＹから３’オーバーハングし、他方の側がオリゴＸから３’オーバーハングした粘着末端を有する成分を形成する（図２５Ｄ）。インデックス領域がオリゴＸの３’末端のみおよびオリゴＹの３’末端のみを占有する場合、オリゴは一緒になって、一方の側がオリゴＹから５’オーバーハングし、他方の側がオリゴＸから５’オーバーハングした粘着末端を有する成分を形成する（図２５Ｅ）。上述の例では、オーバーハングの配列は、インデックス領域の外側のオリゴ配列によって定義される。これらのオーバーハング配列は、成分がライゲーションのためにハイブリダイズする領域であるので、ハイブリダイゼーション領域と呼ばれ得る。

粘着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域（複数可）は、成分の適切なアセンブリを容易にするように設計され得る。長い突出部を有する成分は、短いオーバーハングを有する成分と比較して、所与のアニーリング温度でより効率的に互いにハイブリダイズすることができる。オーバーハングは、少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、またはそれを超える塩基の長さを有し得る。

高いグアニンまたはシストシン含有量を含むオーバーハングを有する成分は、低いグアニンまたはシトシン含有量を含むオーバーハングを有する成分よりも所与の温度でそれらの相補的成分に効率的にハイブリダイズし得る。これは、グアニンがシトシンと、アデニンがチミンとより安定な塩基対を形成するためである。オーバーハングは、０％～１００％のいずれかのグアニンまたはシトシン含有量（ＧＣ含有量としても知られる）を有し得る。

オーバーハング配列と同様に、オリゴのＧＣ含有量およびインデックス領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上部ストランドおよび下部ストランドが安定して結合されている場合、粘着末端成分がより効率的にアセンブリされ得るからである。したがって、インデックス領域は、より高いＧＣ含有量、より長い配列、およびより高い融解温度を促進する他の特徴を有するように設計され得る。しかしながら、インデックス領域およびオーバーハング配列（複数可）の両方について、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計のさらなる態様が存在する。例えば、成分内の望ましくない二次構造の形成は、意図された近接する成分とアセンブリされた製品を形成するその能力を妨げる可能性がある。これは、インデックス領域、オーバーハング配列、またはその両方の二次構造のいずれかに起因して起こり得る。これらの二次構造はヘアピンループを含むことができる。オリゴの可能な二次構造の種類およびそれらの安定性（例えば、計量温度）は、配列に基づいて予測することができる。設計空間探索アルゴリズムを使用して、潜在的に阻害性の二次構造を有する配列を回避しながら、有効成分の形成のための適切な長さおよびＧＣ含有量基準を満たすオリゴ配列を決定することができる。設計空間探索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分岐限定探索アルゴリズム、動的プログラミングベースのアルゴリズム、制約付き組み合わせ最適化アルゴリズム、勾配降下ベースのアルゴリズム、ランダム化探索アルゴリズム、またはそれらの組み合わせを含み得る。

同様に、ホモ二量体（同じ配列のオリゴとハイブリダイズするオリゴ）および望ましくないヘテロ二量体（意図するアセンブリパートナー以外の他のオリゴとハイブリダイズするオリゴ）の形成は、ライゲーションを妨害し得る。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、計算方法および設計空間探索アルゴリズムを使用してオリゴ設計中に予測および説明することができる。

より長いオリゴ配列またはより高いＧＣ含有量は、ライゲーション反応内で望ましくない二次構造、ホモ二量体およびヘテロ二量体の形成の増加をもたらし得る。したがって、いくつかの実施形態では、より短いオリゴまたはより低いＧＣ含有量の使用は、より高いアセンブリ効率をもたらし得る。これらの設計原理は、より効率的なアセンブリのために長いオリゴまたは高いＧＣ含有量を使用する設計戦略を妨げる可能性がある。したがって、ライゲーションアセンブリ効率が最適化されるように、各成分を構成するオリゴの最適な長さおよび最適なＧＣ含有量が存在し得る。ライゲーションに使用されるオリゴの全長は、少なくとも１０、２０、３０、４０、５０、６０、７０、８０、９０、もしくは１００塩基、またはそれを上回ってもよい。ライゲーションに使用されるオリゴの全ＧＣ含有量は、０％～１００％のいずれかであり得る。

粘着末端ライゲーションに加えて、ライゲーションはまた、ステープル（または鋳型または架橋）鎖を使用して一本鎖核酸間で起こり得る。この方法は、ステープルストランドライゲーション（ＳＳＬ）、鋳型指向性ライゲーション（ＴＤＬ）、またはブリッジストランドライゲーションと呼ばれることがある。３つの核酸をアセンブリするためのＴＤＬの例示的な概略図については図１４Ａを参照されたい。ＴＤＬでは、２つの一本鎖核酸が鋳型上に近接してハイブリダイズし、したがってリガーゼによって密封され得るニックを形成する。粘着末端ライゲーションのための同じ核酸設計の考慮事項がＴＤＬにも適用される。鋳型とそれらの意図される相補的核酸配列との間のより強いハイブリダイゼーションは、ライゲーション効率の増加をもたらし得る。したがって、鋳型の両側のハイブリダイゼーション安定性（または融解温度）を改善する配列特徴は、ライゲーション効率を改善し得る。これらの特徴は、より長い配列長およびより高いＧＣ含有量を含み得る。鋳型を含むＴＤＬ中の核酸の長さは、少なくとも５、１０、２０、３０、４０、５０、６０、７０、８０、９０もしくは１００塩基、またはそれを上回ってもよい。鋳型を含む核酸のＧＣ含有量は、０％～１００％のいずれかであり得る。

ＴＤＬでは、粘着末端ライゲーションと同様に、配列空間探索アルゴリズムを有する核酸構造予測ソフトウェアを使用することによって、望ましくない二次構造を回避する成分および鋳型配列を設計することに注意を払うことができる。ＴＤＬ中の成分は二本鎖ではなく一本鎖であり得るため、露出した塩基に起因して（粘着末端ライゲーションと比較して）望ましくない二次構造の発生率がより高くなり得る。

ＴＤＬはまた、平滑末端ｄｓＤＮＡ成分を用いて実施され得る。そのような反応では、ステープル鎖が２つの一本鎖核酸を適切に架橋するために、ステープルは最初に完全な一本鎖相補体を置換または部分的に置換する必要があり得る。ｄｓＤＮＡ成分とのＴＤＬ反応を促進するために、ｄｓＤＮＡは、最初に高温でのインキュベーションによって融解され得る。次いで、反応物を冷却して、ステープルストランドをそれらの適切な核酸相補体にアニールさせることができる。このプロセスは、ｄｓＤＮＡ成分と比較して比較的高濃度の鋳型を使用することによってさらに効率的にすることができ、したがって鋳型が結合のための適切な全長ｓｓＤＮＡ相補体を打ち負かすことを可能にする。２つのｓｓＤＮＡ鎖がそれらの鋳型およびリガーゼによって構築されると、その構築された核酸は、反対の全長ｓｓＤＮＡ相補体の鋳型になり得る。したがって、平滑末端ｄｓＤＮＡとＴＤＬとのライゲーションは、複数回の融解（高温でのインキュベーション）およびアニーリング（低温でのインキュベーション）によって改善され得る。このプロセスは、リガーゼサイリング反応またはＬＣＲと呼ばれることがある。適切な融解温度およびアニーリング温度は、核酸配列に依存する。溶融およびアニーリング温度は、少なくとも４、１０、２０、２０、３０、４０、５０、６０、７０、８０、９０、または１００℃であってもよい。温度サイクルの数は、少なくとも１、５、１０、１５、２０、１５、３０、またはそれを超えてもよい。

全てのライゲーションは、固定温度反応または多温度反応で行うことができる。ライゲーション温度は、少なくとも０、４、１０、２０、２０、３０、４０、５０もしくは６０℃、またはそれを上回ってもよい。リガーゼ活性のための最適温度は、リガーゼのタイプに応じて異なり得る。さらに、成分が反応において隣接またはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度は、より速い拡散を促進し、したがって成分が一時的に隣接またはハイブリダイズする頻度を増加させ得る。しかしながら、温度の上昇はまた、塩基対結合を破壊し、したがって、それらの隣接またはハイブリダイズした成分二重鎖の安定性を低下させ得る。ライゲーションに最適な温度は、構築される核酸の数、それらの核酸の配列、リガーゼの種類、ならびに反応添加剤等の他の因子に依存し得る。例えば、４塩基相補的オーバーハングを有する２つの粘着末端成分は、Ｔ４リガーゼを用いた２５℃よりもＴ４リガーゼを用いた４℃でより速く集合し得る。しかし、２５塩基の相補的オーバーハングを有する２つの粘着末端成分は、Ｔ４リガーゼを用いた４℃よりもＴ４リガーゼを用いた２５℃でより速く、おそらく任意の温度での４塩基オーバーハングを用いたライゲーションよりも速く集合することができる。ライゲーションのいくつかの実施形態では、リガーゼ添加の前にアニーリングのために成分を加熱し、ゆっくり冷却することが有益であり得る。

ライゲーションは、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０またはそれを超える核酸をアセンブリするために使用され得る。ライゲーションインキュベーション時間は、最大で３０秒、１分、２分、５分、１０分、２０分、３０分、１時間、またはそれより長くてもよい。より長いインキュベーション時間は、ライゲーション効率を改善し得る。

ライゲーションは、５’リン酸化末端を有する核酸を必要とし得る。５’リン酸化末端を有しない核酸成分は、Ｔ４ポリヌクレオチドキナーゼ（またはＴ４ＰＮＫ）等のポリヌクレオチドキナーゼとの反応においてリン酸化され得る。他の補因子、例えばＡＴＰ、マグネシウムイオンまたはＤＴＴが反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏３７度で３０分間起こり得る。ポリヌクレオチドキナーゼ反応温度は、少なくとも４、１０、２０、２０、３０、４０、５０、または６０℃であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大でも１分、５分、１０分、２０分、３０分、６０分、またはそれを超えてもよい。あるいは、核酸成分は、改変された５’リン酸化を用いて（酵素的ではなく）合成的に設計および製造されてもよい。５’末端で構築されている核酸のみがリン酸化を必要とし得る。例えば、ＴＤＬ中の鋳型は、それらがアセンブリされることを意図していないので、リン酸化されていなくてもよい。

ライゲーション効率を改善するために、添加剤をライゲーション反応に含めてもよい。例えば、ジメチルスルホキシド（ＤＭＳＯ）、ポリエチレングリコール（ＰＥＧ）、１，２－プロパンジオール（１，２－Ｐｒｄ）、グリセロール、Ｔｗｅｅｎ（登録商標）－２０またはそれらの組み合わせの添加。ＰＥＧ６０００は、特に有効なライゲーションエンハンサであり得る。ＰＥＧ６０００は、クラウディング剤として作用することによってライゲーション効率を高め得る。例えば、ＰＥＧ６０００は、リガーゼ反応溶液中の空間を占め、リガーゼおよび成分をより近接させる凝集した結節を形成し得る。添加剤の含有量（体積当たりの重量）は、少なくとも０％、１％、５％、１０％、２０％、またはそれを超えてもよい。

ライゲーションには様々なリガーゼが使用され得る。リガーゼは、天然に存在し得るか、または合成され得る。リガーゼの例としては、Ｔ４ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、９°Ｎ^ＴＭＤＮＡリガーゼ、大腸菌ＤＮＡリガーゼおよびＳｐｌｉｎｔＲＤＮＡリガーゼが挙げられる。異なるリガーゼは安定であり得、異なる温度で最適に機能し得る。例えば、ＴａｑＤＮＡリガーゼは熱安定性であり、Ｔ４ＤＮＡリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる特性を有する。例えば、Ｔ４ＤＮＡリガーゼは平滑末端ｄｓＤＮＡをライゲーションし得るが、Ｔ７ＤＮＡリガーゼはライゲーションし得ない。

ライゲーションは、配列決定アダプタを核酸のライブラリに結合させるために使用され得る。例えば、ライゲーションは、核酸ライブラリの各メンバーの末端に共通の粘着末端またはステープルを用いて実施され得る。核酸の一方の末端の粘着末端またはステープルが他方の末端の粘着末端またはステープルと異なる場合、シーケンシングアダプタは非対称的にライゲーションされ得る。例えば、順方向配列決定アダプタを核酸ライブラリのメンバーの一末端にライゲーションしてもよく、逆方向配列決定アダプタを核酸ライブラリのメンバーの他末端にライゲーションしてもよい。あるいは、平滑末端ライゲーションを使用して、平滑末端二本鎖核酸のライブラリにアダプタを取り付けることができる。フォーク型アダプタを使用して、各末端（Ａ尾部等）が同等である平滑末端または粘着末端のいずれかを有する核酸ライブラリにアダプタを非対称に取り付けることができる。

ライゲーションは、熱不活性化（例えば、６５℃で少なくとも２０分間のインキュベーション）、変性剤の添加、またはＥＤＴＡ等のキレート剤の添加によって阻害され得る。
Ｃ．制限消化物

制限消化物は、制限エンドヌクレアーゼ（または制限酵素）が核酸上のそれらの同族制限部位を認識し、続いて当該制限部位を含有する核酸を切断（または消化）する反応である。Ｉ型、ＩＩ型、ＩＩＩ型、またはＩＶ型の制限酵素を制限消化物に使用することができる。ＩＩ型制限酵素は、核酸消化のための最も効率的な制限酵素であり得る。ＩＩ型制限酵素は、回文制限部位を認識し、認識部位内の核酸を切断し得る。当該制限酵素（およびその制限部位）の例としては、ＡａｔＩＩ（ＧＡＣＧＴＣ）、ＡｆｅＩ（ＡＧＣＧＣＴ）、ＡｐａＩ（ＧＧＧＣＣＣ）、ＤｐｎＩ（ＧＡＴＣ）、ＥｃｏＲＩ（ＧＡＡＴＴＣ）、ＮｇｅＩ（ＧＣＴＡＧＣ）等が挙げられる。ＤｐｎＩおよびＡｆｅＩ等のいくつかの制限酵素は、それらの制限部位を中央で切断して、平滑末端ｄｓＤＮＡ産物を残し得る。ＥｃｏＲＩおよびＡａｔＩＩ等の他の制限酵素は、それらの制限部位を中心からずらして切断し、それにより、粘着末端（または互い違いの末端）を有するｄｓＤＮＡ産物を残す。いくつかの制限酵素は、不連続な制限部位を標的とし得る。例えば、制限酵素ＡｌｗＮＩは、制限部位ＣＡＧＮＮＮＣＴＧを認識し、Ｎは、Ａ、Ｔ、ＣまたはＧのいずれかであり得る。制限部位は、少なくとも２、４、６、８、１０、またはそれを超える塩基長であり得る。

一部のＩＩ型制限酵素は、その制限部位の外側で核酸を切断する。酵素は、ＩＩＳ型制限酵素またはＩＩＧ型制限酵素のいずれかとして下位分類され得る。当該酵素は、非パリンドロームである制限部位を認識し得る。当該制限酵素の例としては、ＧＡＡＡＣを認識し、さらに下流で２（同じ鎖）および６（反対の鎖）塩基の互い違いの切断をもたらすＢｂｓＩが挙げられる。別の例としては、ＧＧＴＣＴＣを認識し、さらに下流に、互い違いの切断１（同じ鎖）および５（反対の鎖）塩基を生成するＢｓａＩが挙げられる。当該制限酵素は、ゴールデンゲートアセンブリまたはモジュラークローニング（ＭｏＣｌｏ）に使用され得る。ＢｃｇＩ（ＩＩＧ型制限酵素）等のいくつかの制限酵素は、その認識部位の両末端に互い違いの切断を生じさせ得る。制限酵素は、核酸をその認識部位から少なくとも１、５、１０、１５、２０、またはそれを超える塩基を切断し得る。当該制限酵素は、それらの認識部位の外側に互い違いの切断を生じ得るため、得られる核酸オーバーハングの配列は任意に設計され得る。これは、結果として生じる核酸オーバーハングの配列が制限部位の配列にカップリングされる、それらの認識部位内に互い違いの切断を生じる制限酵素とは対照的である。制限消化物によって作り出される核酸オーバーハングは、少なくとも１、２、３、４、５、６、７、８塩基長またはそれを超える塩基長であり得る。制限酵素が核酸を切断する場合、得られた５’末端はリン酸を含有する。

１またはそれを超える核酸配列が制限消化反応に含まれ得る。同様に、１またはそれを超える制限酵素が制限消化反応において一緒に使用され得る。制限消化物は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、ＢＳＡ、Ｓ－アデノシル－Ｌ－メチオニン（ＳＡＭ）、またはそれらの組み合わせを含む添加剤および補因子を含有し得る。制限消化反応物を３７℃で１時間インキュベートすることができる。制限消化反応は、少なくとも０、１０、２０、３０、４０、５０、または６０℃の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限消化反応は、最大で１、１０、３０、６０、９０、１２０分、またはそれを超えてインキュベートされ得る。より長いインキュベーション時間は、消化の増加をもたらし得る。
Ｄ．核酸増幅

核酸増幅は、ポリメラーゼ連鎖反応またはＰＣＲを用いて実行され得る。ＰＣＲでは、核酸の出発プール（鋳型プールまたは鋳型と呼ばれる）を、ポリメラーゼ、プライマー（短い核酸プローブ）、ヌクレオチド三リン酸（例えば、ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰおよびそれらの類縁体または変異体）、ならびにベタイン、ＤＭＳＯ、およびマグネシウムイオン等の追加の補因子および添加剤と組み合わせてもよい。鋳型は、一本鎖または二本鎖核酸であり得る。プライマーは、鋳型プール中の標的配列を補完してハイブリダイズするように合成的に構築された短い核酸配列であり得る。典型的には、ＰＣＲ反応には２つのプライマーが存在し、１つは標的鋳型のトップ鎖上のプライマー結合部位を補完するためのものであり、もう１つは第１の結合部位の下流の標的鋳型のボトム鎖上のプライマー結合部位を補完するためのものである。これらのプライマーがそれらの標的に結合する５’から３’への配向は、それらの間で核酸配列を首尾よく複製および指数関数的に増幅するために、互いに対向していなければならない。「ＰＣＲ」は、典型的には当該形態の反応を特に指し得るが、任意の核酸増幅反応を指すためにより一般的に使用されてもよい。

いくつかの実施形態では、ＰＣＲは、融解温度、アニーリング温度、および伸長温度の３つの温度間のサイクルを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変換し、ハイブリダイゼーション生成物および二次構造の形成を除去することを意図している。典型的には、溶融温度は高く、例えば摂氏９５度を上回る。いくつかの実施形態では、溶融温度は、少なくとも摂氏９６、９７、９８、９９、１００、１０１、１０２、１０３、１０４、または１０５度であってもよい。他の実施形態では、溶融温度は、最大９５、９４、９３、９２、９１、または９０℃であってもよい。より高い融解温度は、核酸およびそれらの二次構造の解離を改善するが、核酸またはポリメラーゼの分解等の副作用も引き起こし得る。溶融温度は、少なくとも１、２、３、４、５秒を上回って、例えば３０秒、１分、２分、または３分にわたって反応に適用され得る。複雑な鋳型または長い鋳型を用いたＰＣＲには、より長い初期融解温度段階が推奨され得る。

アニーリング温度は、プライマーとそれらの標的鋳型との間のハイブリダイゼーションの形成を促進することを意図している。いくつかの実施形態では、アニーリング温度は、プライマーの計算された融解温度と一致し得る。他の実施形態では、アニーリング温度は、当該融解温度の摂氏１０度またはそれを超えてもよい。いくつかの実施形態では、アニーリング温度は、少なくとも摂氏２５、３０、５０、５５、６０、６５、または７０度であってもよい。融解温度は、プライマーの配列に依存し得る。より長いプライマーは、より高い融解温度を有し得、より高いパーセント含有量のグアニンヌクレオチドまたはシストシンヌクレオチドを有するプライマーは、より高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に集合することを意図したプライマーを設計することが可能であり得る。アニーリング温度は、少なくとも１、５、１０、１５、２０、２５、または３０秒、またはそれを上回って反応に適用され得る。アニーリングを確実にするのを助けるために、プライマー濃度は高量または飽和量であり得る。プライマー濃度は５００ナノモル（ｎＭ）であり得る。プライマー濃度は、最大１ｎＭ、１０ｎＭ、１００ｎＭ、１０００ｎＭまたはそれを超えてもよい。

伸長温度は、１またはそれを超えるポリメラーゼ酵素によって触媒されるプライマーの３’末端核酸鎖伸長を開始および促進することを意図する。いくつかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性または忠実度に関して最適に機能する温度に設定され得る。いくつかの実施形態では、伸長温度は、少なくとも摂氏３０、４０、５０、６０、または７０度またはそれを上回ってもよい。アニーリング温度は、少なくとも１、５、１０、１５、２０、２５、３０、４０、５０、または６０秒またはそれを上回って反応に適用され得る。推奨される伸長時間は、予想伸長のキロベースあたりおよそ１５～４５秒であり得る。

ＰＣＲのいくつかの実施形態では、アニーリング温度および伸長温度は同じであり得る。したがって、３段階の温度サイクルの代わりに２段階の温度サイクルを使用してもよい。アニーリング温度と伸長温度の組み合わせの例は、摂氏６０、６５、または７２度を含む。

いくつかの実施形態では、ＰＣＲは、１つの温度サイクルで実行され得る。そのような実施形態は、標的一本鎖鋳型核酸を二本鎖核酸に変換することを含み得る。他の実施形態では、ＰＣＲは複数の温度サイクルで実行されてもよい。ＰＣＲが効率的である場合、標的核酸分子の数は各サイクルで２倍になり、それによって元の鋳型プールからの標的核酸鋳型の数が指数関数的に増加すると予想される。ＰＣＲの効率は変動し得る。したがって、各回で複製される標的化核酸の実際の割合は、１００％より大きくても小さくてもよい。各ＰＣＲサイクルは、突然変異核酸および組換え核酸等の望ましくないアーチファクトを導入する可能性がある。この潜在的な有害性を低減するために、高い忠実度および高い加工性を有するポリメラーゼを使用することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。ＰＣＲは、最大で１、５、１０、１５、２０、２５、３０、３５、４０、４５、またはそれを超えるサイクルを含み得る。

いくつかの実施形態では、複数の異なる標的核酸配列が１つのＰＣＲで一緒に増幅され得る。各標的配列が共通のプライマー結合部位を有する場合、全ての核酸配列を同じプライマーセットで増幅することができる。あるいは、ＰＣＲは、それぞれの異なる核酸を標的とすることを意図した複数のプライマーを含み得る。当該ＰＣＲは、マルチプレックスＰＣＲと称され得る。ＰＣＲは、最大で１、２、３、４、５、６、７、８、９、１０またはそれを超える異なるプライマーを含み得る。複数の異なる核酸標的を用いるＰＣＲでは、各ＰＣＲサイクルは標的核酸の相対分布を変化させ得る。例えば、均一な分布が歪んだり不均一に分布したりすることがある。この潜在的な有害性を低減するために、最適なポリメラーゼ（例えば、高い忠実度および配列ロバスト性を有す）および最適なＰＣＲ条件を使用することができる。アニーリングおよび伸長温度および時間等の要因を最適化することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。

ＰＣＲのいくつかの実施形態では、鋳型におけるその標的化されたプライマー結合部位に対する塩基ミスマッチを有するプライマーが、標的配列を変異させるために使用される場合がある。ＰＣＲのいくつかの実施形態では、その５’末端に余分な配列（オーバーハングとして知られる）を有するプライマーを使用して、その標的核酸に配列を結合させることができる。例えば、５’末端に配列決定アダプタを含むプライマーを使用して、配列決定のための核酸ライブラリを調製および／または増幅することができる。シーケンシングアダプタを標的とするプライマーを使用して、核酸ライブラリを増幅して特定の配列決定技術に十分に濃縮することができる。

いくつかの実施形態では、プライマーが鋳型の一方の鎖（両方の鎖ではない）のみを標的とする線形ＰＣＲ（または非対称ＰＣＲ）が使用される。線形ＰＣＲでは、各サイクルからの複製された核酸はプライマーに相補されないため、プライマーはそれに結合しない。したがって、プライマーは、各サイクルで元の標的鋳型を複製するだけであり、したがって線形（指数関数的とは対照的）増幅である。線形ＰＣＲからの増幅は従来の（指数関数的）ＰＣＲほど速くないかもしれないが、最大収率はより大きくなり得る。理論的には、線形ＰＣＲにおけるプライマー濃度は、従来のＰＣＲの場合のように、サイクルの増加および収率の増加を伴う制限因子にならない可能性がある。線形指数関数的ＰＣＲ（またはＬＡＴＥ－ＰＣＲ）は、特に高収率が可能であり得る線形ＰＣＲの改変版である。

核酸増幅のいくつかの実施形態では、融解、アニーリングおよび伸長のプロセスは、単一の温度で起こり得る。このようなＰＣＲは等温ＰＣＲと呼ばれることがある。等温ＰＣＲは、プライマー結合を優先して完全に相補された核酸鎖を互いに解離または置換するための温度に依存しない方法を活用し得る。戦略には、ループ媒介等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅、およびニッキング酵素増幅反応が含まれる。等温核酸増幅は、最大で摂氏２０、３０、４０、５０、６０、もしくは７０度またはそれを超える温度で起こり得る。

いくつかの実施形態では、ＰＣＲは、サンプル中の核酸の量を定量するための蛍光プローブまたは色素をさらに含み得る。例えば、色素は、二本鎖核酸に内挿され得る。当該染料の一例は、ＳＹＢＲＧｒｅｅｎである。蛍光プローブはまた、蛍光ユニットに結合した核酸配列であり得る。蛍光ユニットは、プローブの標的核酸へのハイブリダイゼーションおよびその後の伸長ポリメラーゼユニットからの修飾時に放出され得る。当該プローブの例としては、Ｔａｑｍａｎプローブが挙げられる。そのようなプローブは、サンプル中の核酸濃度を定量するためにＰＣＲおよび光学測定ツール（励起および検出用）と併せて使用され得る。このプロセスは、定量ＰＣＲ（ｑＰＣＲ）またはリアルタイムＰＣＲ（ｒｔＰＣＲ）と呼ばれることがある。

いくつかの実施形態では、ＰＣＲは、複数の鋳型分子のプールではなく、単一の分子鋳型で（単一分子ＰＣＲと呼ばれ得るプロセスで）実施され得る。例えば、エマルジョン－ＰＣＲ（ｅＰＣＲ）を使用して、単一の核酸分子を油エマルジョン内の液滴内に封入することができる。液滴はまた、ＰＣＲ試薬を含有してもよく、液滴は、ＰＣＲに必要な温度サイクルが可能な温度制御された環境に保持されてもよい。このようにして、複数の自己完結型ＰＣＲ反応が高スループットで同時に起こり得る。油エマルジョンの安定性は、界面活性剤で改善され得る。液滴の移動は、マイクロ流体チャネルを通る圧力によって制御することができる。マイクロ流体デバイスを使用して、液滴を生成し、液滴を分割し、液滴を併合し、材料を液滴内に注入し、液滴をインキュベートすることができる。油エマルジョン中の液滴のサイズは、少なくとも１ピコリットル（ｐＬ）、１０ｐＬ、１００ｐＬ、１ナノリットル（ｎＬ）、１０ｎＬ、１００ｎＬ、またはそれを超えてもよい。

いくつかの実施形態では、単一分子ＰＣＲは、１つの固相基質に対して行われ得る。例えば、Ｉｌｌｕｍｉｎａ固相増幅法またはその変形例が挙げられる。鋳型プールは、固相基質に曝露され得、固相基質は、一定の空間分解能で鋳型を固定化し得る。次いで、ブリッジ増幅が各鋳型の空間的近傍内で起こり得、それにより、単一分子が基板上で高スループット様式で増幅される。

ハイスループット単一分子ＰＣＲは、互いに干渉し得る別個の核酸のプールを増幅するのに有用であり得る。例えば、複数の異なる核酸が共通の配列領域を共有する場合、この共通領域に沿った核酸間の組換えがＰＣＲ反応中に起こり、新たな組換え核酸がもたらされ得る。単一分子ＰＣＲは、異なる核酸配列を互いに区画化して相互作用しない可能性があるため、この潜在的な増幅エラーを防ぐであろう。単一分子ＰＣＲは、配列決定のための核酸の調製に特に有用であり得る。単一分子ＰＣＲマットはまた、鋳型プール内のいくつかの標的の絶対定量にも有用である。例えば、デジタルＰＣＲ（またはｄＰＣＲ）は、異なる単一分子ＰＣＲ増幅シグナルの頻度を使用して、サンプル中の出発核酸分子の数を推定する。

ＰＣＲのいくつかの実施形態では、核酸の群は、全ての核酸に共通のプライマー結合部位のためのプライマーを使用して無差別に増幅され得る。例えば、プール中の全ての核酸に隣接するプライマー結合部位用のプライマー。合成核酸ライブラリは、一般的な増幅のためにこれらの共通部位を用いて作成または構築され得る。しかしながら、いくつかの実施形態では、ＰＣＲを使用して、プールから標的化された核酸サブセットを選択的に増幅することができる。例えば、当該標的化された核酸サブセット上にのみ現れるプライマー結合部位を有するプライマーを使用することによって。合成核酸ライブラリは、より一般的なライブラリからのサブライブラリの選択的増幅のために、目的の潜在的なサブライブラリに属する核酸が全てそれらのエッジに共通のプライマー結合部位を共有する（サブライブラリ内では共通であるが、他のサブライブラリとは異なる）ように作製または構築され得る。いくつかの実施形態では、ＰＣＲを核酸アセンブリ反応（ライゲーションまたはＯＥＰＣＲ等）と組み合わせて、部分的にアセンブリされたまたは誤ってアセンブリされた（または意図せずもしくは望ましくない）副生成物から完全にアセンブリされたまたは潜在的に完全にアセンブリされた核酸を選択的に増幅することができる。例えば、アセンブリは、完全にアセンブリされた核酸産物のみが増幅に必要な２つのプライマー結合部位を含むように、各エッジ配列上のプライマー結合部位を用いて核酸をアセンブリすることを含み得る。当該例では、部分的にアセンブリされた産物は、プライマー結合部位を有するエッジ配列のいずれも含まないか、または１つのみを含み得、したがって増幅されるべきではない。同様に、誤ってアセンブリされた（または意図せずもしくは望ましくない）生成物は、エッジ配列のいずれも含まないか、一方のみ含むか、または両方のエッジ配列を含むが、誤った向きであるか、または誤った量の塩基によって分離されている可能性がある。したがって、当該誤ってアセンブリされた生成物は、誤った長さの生成物を生成するために増幅または増幅されるべきではない。後者の場合、増幅された誤った長さの誤ってアセンブリされた生成物は、核酸サイズ選択法（例えば、アガロースゲルにおけるＤＮＡ電気泳動、その後のゲル抽出）によって、増幅された完全にアセンブリされた正しい長さの生成物から分離され得る（化学的方法のセクションＥを参照されたい）。

核酸増幅の効率を改善するために、添加剤をＰＣＲに含めることができる。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはそれらの組み合わせの添加。添加剤の含有量（体積当たりの重量）は、少なくとも０％、１％、５％、１０％、２０％、またはそれを超えてもよい。

ＰＣＲには種々のポリメラーゼを使用することができる。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される（すなわち、結合の形成を触媒する酵素）。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ｐｈｉ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。異なるポリメラーゼは安定であり得、異なる温度で最適に機能し得る。さらに、異なるポリメラーゼは異なる特性を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼ等のいくつかのポリメラーゼは、３’から５’のエキソヌクレアーゼ活性を示し得、これは核酸伸長中のより高い忠実度に寄与し得る。一部のポリメラーゼは伸長中にリーディング配列を置換し得るが、他のポリメラーゼはそれらを分解するかまたは伸長を停止し得る。Ｔａｑのようないくつかのポリメラーゼは、核酸配列の３’末端にアデニン塩基を組み込む。さらに、いくつかのポリメラーゼは、他のポリメラーゼよりも高い忠実度および加工性を有することができ、増幅された核酸収量が最小限の突然変異を有することが重要であり、異なる核酸の分布が増幅全体にわたって均一な分布を維持することが重要である場合、配列決定調製等のＰＣＲ用途により適していることができる。
Ｅ．サイズ選択

特定のサイズの核酸は、サイズ選択技術を使用してサンプルから選択され得る。いくつかの実施形態では、サイズ選択は、ゲル電気泳動またはクロマトグラフィーを使用して行われ得る。核酸の液体サンプルは、固定相またはゲル（またはマトリクス）の一方の末端にロードされ得る。電圧差は、ゲルの負の末端が核酸サンプルがロードされる末端であり、ゲルの正の末端が反対の末端であるように、ゲルを横切って配置され得る。核酸は負に帯電したリン酸骨格を有するので、それらはゲルを横切って正の末端に移動する。核酸のサイズは、ゲルを通る移動の相対速度を決定する。したがって、異なるサイズの核酸は、移動するにつれてゲル上で分解する。電圧差は、１００Ｖまたは１２０Ｖであってもよい。電圧差は、最大で５０Ｖ、１００Ｖ、１５０Ｖ、２００Ｖ、２５０Ｖ、またはそれを超えてもよい。より大きな電圧差は、核酸移動の速度およびサイズ分解能を増加させ得る。しかしながら、より大きな電圧差はまた、核酸またはゲルを損傷し得る。より大きなサイズの核酸を分割するために、より大きな電圧差が推奨され得る。典型的な泳動時間は、１５分～６０分であり得る。移行時間は、最大で１０分、３０分、６０分、９０分、１２０分、またはそれを超えてもよい。より長い移動時間は、より高い電圧と同様に、より良好な核酸分解をもたらし得るが、核酸損傷の増加をもたらし得る。より大きなサイズの核酸を分割するために、より長い移動時間が推奨され得る。例えば、１２０Ｖの電圧差および３０分の泳動時間は、２５０塩基の核酸から２００塩基の核酸を分割するのに十分であり得る。

ゲルまたはマトリクスの特性は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、典型的には、ＴＡＥ（Ｔｒｉｓ－アセテート－ＥＤＴＡ）またはＴＢＥ（Ｔｒｉｓ－ボレート－ＥＤＴＡ）等の導電性バッファーに分散されたアガロースまたはポリアクリルアミド等のポリマー物質を含む。ゲル中の物質（例えば、アガロースまたはアクリルアミド）の含有量（体積当たりの重量）は、最大で５％、１％、２％、３％、５％、１０％、１５％、２０％、２５％、またはそれより高くてもよい。含有量が多いと、移動速度が低下する可能性がある。より小さい核酸を分解するためには、より高い含有量が好ましい場合がある。アガロースゲルは、二本鎖ＤＮＡ（ｄｓＤＮＡ）を分離するのにより良好であり得る。ポリアクリルアミドゲルは、一本鎖ＤＮＡ（ｓｓＤＮＡ）を分離するのにより良好であり得る。好ましいゲル組成物は、核酸の種類およびサイズ、添加剤の適合性（例えば、染料、染色剤、変性溶液またはローディングバッファー）ならびに予測される下流用途（例えば、ゲル抽出、次いでライゲーション、ＰＣＲまたは配列決定）に依存し得る。アガロースゲルは、ポリアクリルアミドゲルよりもゲル抽出が簡単であり得る。ＴＡＥは、ＴＢＥほど良好な導電体ではないが、抽出プロセスにおけるホウ酸塩（酵素阻害剤）のキャリーオーバが下流の酵素反応を阻害する可能性があるため、ゲル抽出にも良好であり得る。

ゲルは、ＳＤＳ（ドデシル硫酸ナトリウム）または尿素等の変性溶液をさらに含んでもよい。ＳＤＳは、例えば、タンパク質を変性させるために、または潜在的に結合したタンパク質から核酸を分離するために使用され得る。尿素は、ＤＮＡ中の二次構造を変性させるために使用され得る。例えば、尿素はｄｓＤＮＡをｓｓＤＮＡに変換し得るか、または尿素は折り畳まれたｓｓＤＮＡ（例えばヘアピン）を折り畳まれていないｓｓＤＮＡに変換し得る。尿素－ポリアクリルアミドゲル（さらにＴＢＥを含む）は、ｓｓＤＮＡを正確に分割するために使用され得る。

サンプルは、異なるフォーマットのゲルに組み込むことができる。いくつかの実施形態では、ゲルは、サンプルが手動でロードされ得るウェルを含み得る。１つのゲルは、複数の核酸サンプルを実行するための複数のウェルを有し得る。他の実施形態では、ゲルは、核酸サンプル（複数可）を自動的にロードするマイクロ流体チャネルに取り付けられてもよい。各ゲルは、いくつかのマイクロ流体チャネルの下流にあってもよく、またはゲル自体がそれぞれ別個のマイクロ流体チャネルを占有してもよい。ゲルの寸法は、核酸検出（または視覚化）の感度に影響を及ぼし得る。例えば、マイクロ流体チャネル内の薄いゲルまたはゲル（例えば、バイオアナライザまたはタペステション内）は、核酸検出の感度を改善し得る。核酸検出工程は、正しいサイズの核酸断片を選択し抽出するために重要であり得る。

ラダーは、核酸サイズ参照のためにゲルにロードされ得る。ラダーは、核酸サンプルが比較され得る異なるサイズのマーカーを含み得る。異なるラダーは、異なるサイズ範囲および解像度を有することができる。例えば、５０塩基ラダーは、５０、１００、１５０、２００、２５０、３００、３５０、４００、４５０、５００、５５０および６００塩基のマーカーを有し得る。当該ラダーは、５０塩基および６００塩基のサイズ範囲内の核酸を検出および選択するのに有用であり得る。ラダーはまた、サンプル中の異なるサイズの核酸の濃度を推定するための標準として使用され得る。

核酸サンプルおよびラダーは、ゲル電気泳動（またはクロマトグラフィー）プロセスを容易にするためにローディングバッファーと混合され得る。ローディングバッファーは、核酸の移動を追跡するのを助ける色素およびマーカーを含み得る。ローディングバッファーは、核酸サンプルがサンプルローディングウェルの底部に確実に沈むようにするために（例えば、ＴＡＥまたはＴＢＥ）、ランニングバッファーよりも高密度の試薬（グリセロール等）をさらに含み得る（ランニングバッファーに浸漬され得る）。ローディングバッファーは、ＳＤＳまたは尿素等の変性剤をさらに含み得る。ローディングバッファーは、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディングバッファーは、核酸をヌクレアーゼから保護するためにＥＤＴＡを含有し得る。

いくつかの実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用され得る染色剤を含み得る。染色は、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方に特異的であり得る。異なる染色剤は、異なるゲル物質と適合し得る。一部の染色は、視覚化するために光源光（または電磁波）からの励起を必要とする場合がある。光源光は、ＵＶ（紫外線）または青色光であってもよい。いくつかの実施形態では、電気泳動の前に染色剤をゲルに添加することができる。他の実施形態では、電気泳動後に染色剤をゲルに添加してもよい。染色剤の例には、臭化エチジウム（ＥｔＢｒ）、ＳＹＢＲＳａｆｅ、ＳＹＢＲＧｏｌｄ、銀染色剤、またはメチレンブルーが含まれる。特定のサイズのｄｓＤＮＡを可視化するための信頼できる方法は、例えば、ＳＹＢＲＳａｆｅまたはＥｔＢｒ染色を含むアガロースＴＡＥゲルを使用することであり得る。特定のサイズのｓｓＤＮＡを可視化するための信頼できる方法は、例えば、メチレンブルーまたは銀染色を有する尿素－ポリアクリルアミドＴＢＥゲルを使用することであり得る。

いくつかの実施形態では、ゲルを通る核酸の移動は、電気泳動以外の他の方法によって駆動され得る。例えば、重力、遠心分離、真空または圧力を使用して、ゲルを通して核酸を駆動し、そのサイズに従って分解することができる。

特定のサイズの核酸を、ブレードまたはカミソリを使用してゲルから抽出して、核酸を含有するゲルのバンドを切除することができる。適切な光学検出技術およびＤＮＡラダーを使用して、切除が特定のバンドで正確に行われ、切除が異なる望ましくないサイズバンドに属し得る核酸をうまく排除することを確実にすることができる。ゲルバンドをバッファーとインキュベートしてそれを溶解し、したがって核酸をバッファーに放出することができる。熱または物理的撹拌は溶解を促進し得る。あるいは、ゲルバンドは、ゲル溶解を必要とせずにバッファー中へのＤＮＡの拡散を可能にするのに十分な長さでバッファー中でインキュベートされ得る。次いで、バッファーを、例えば吸引または遠心分離によって、残りの固相ゲルから分離することができる。次いで、フェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉および／またはシリカ膜吸着、洗浄および溶出等の標準的な精製またはバッファー交換技術を使用して、溶液から核酸を精製することができる。核酸はまた、この工程で濃縮され得る。

ゲル切除の代替として、特定のサイズの核酸をゲルから流出させることによってゲルから分離することができる。移動する核酸は、ゲルに埋め込まれているかまたはゲルの末端にあるかのいずれかのベイズン（またはウェル）を通過し得る。移動プロセスは、特定のサイズの核酸群がベイズンに入ると、サンプルがベイズンから収集されるように、時間を調整するかまたは光学的に監視することができる。収集は、例えば、吸引によって行うことができる。次いで、フェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉および／またはシリカ膜吸着、洗浄および溶出等の標準的な精製またはバッファー交換技術を使用して、収集した溶液から核酸を精製することができる。核酸はまた、この工程で濃縮され得る。

核酸サイズ選択のための他の方法は、質量分析または膜ベースの濾過を含み得る。膜ベースの濾過のいくつかの実施形態では、核酸は、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方のいずれかに優先的に結合し得る膜（例えばシリカ膜）を通過する。膜は、少なくとも特定のサイズの核酸を優先的に捕捉するように設計され得る。例えば、膜は、２０、３０、４０、５０、７０、９０、またはそれを超える塩基よりも少ない核酸を濾別するように設計され得る。当該膜ベースのサイズ選択技術は、ゲル電気泳動またはクロマトグラフィーほど厳密でなくてもよい。
Ｆ．核酸捕捉

親和性タグ付き核酸は、核酸捕捉のための配列特異的プローブとして使用され得る。プローブは、核酸のプール内の標的配列を補完するように設計され得る。続いて、プローブを核酸プールとインキュベートし、その標的にハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを促進するためにプローブの融解温度より低くてもよい。インキュベーション温度は、プローブの融解温度より５、１０、１５、２０、２５℃まで、またはそれを超えて低くてもよい。ハイブリダイズした標的は、親和性タグに特異的に結合する固相基質に捕捉され得る。固相基板は、膜、ウェル、カラムまたはビーズであり得る。複数回の洗浄は、全ての非ハイブリダイズ核酸を標的から除去し得る。洗浄は、洗浄中の標的配列の安定な固定化を容易にするために、プローブの融解温度より低い温度で行われ得る。洗浄温度は、プローブの融解温度よりも５、１０、１５、２０、２５℃まで、またはそれを超えて低くてもよい。最終溶出工程は、固相－基質ならびに親和性タグ付きプローブから核酸標的を回収し得る。溶出工程は、核酸標的の溶出バッファーへの放出を促進するために、プローブの融解温度より高い温度で行われ得る。溶出温度は、プローブの融解温度より５、１０、１５、２０、２５℃まで、またはそれを超えて上回ってもよい。

いくつかの実施形態では、ビオチンは、固相基質上にストレプトアビジンによって固定化される親和性タグとして使用され得る。核酸捕捉プローブとして使用するためのビオチン化オリゴを設計および製造することができる。オリゴは、５’末端または３’末端がビオチン化されていてもよい。それらはまた、チミン残基上で内部的にビオチン化され得る。オリゴ上のビオチンの増加は、ストレプトアビジン基質上でのより強い捕捉をもたらし得る。オリゴの３’末端のビオチンは、ＰＣＲ中にオリゴが伸長するのを阻止し得る。ビオチンタグは、標準的なビオチンの変異体であってもよい。例えば、ビオチン変異体は、ビオチン－ＴＥＧ（トリエチレングリコール）、二重ビオチン、ＰＣビオチン、デスチオビオチン－ＴＥＧ、およびビオチンアジドであり得る。二重ビオチンは、ビオチン－ストレプトアビジン親和性を増加させ得る。ビオチン－ＴＥＧは、ＴＥＧリンカーによって分離された核酸上にビオチン基を結合させる。これにより、ビオチンが核酸プローブの機能、例えば標的へのそのハイブリダイゼーションを妨害するのを防ぐことができる。核酸ビオチンリンカーもまた、プローブに結合され得る。核酸リンカーは、標的にハイブリダイズすることを意図しない核酸配列を含み得る。

ビオチン化核酸プローブは、その標的にどれだけよくハイブリダイズし得るかを考慮して設計され得る。より高い設計融解温度を有する核酸プローブは、それらの標的により強くハイブリダイズし得る。より長い核酸プローブ、ならびにより高いＧＣ含有量を有するプローブは、融解温度の上昇により、より強くハイブリダイズし得る。核酸プローブは、少なくとも５、１０、１５、２０、３０、４０、５０、または１００塩基、またはそれを超える長さを有し得る。核酸プローブは、０～１００％のいずれかのＧＣ含有量を有し得る。プローブの融解温度がストレプトアビジン基質の温度許容範囲を超えないことを確実にするように注意してもよい。核酸プローブは、ヘアピン、ホモ二量体、およびオフターゲット核酸を有するヘテロ二量体等の阻害性二次構造を回避するように設計され得る。プローブ融解温度とオフターゲット結合との間にはトレードオフがあり得る。融解温度が高く、オフターゲット結合が低い最適なプローブ長およびＧＣ含有量が存在し得る。合成核酸ライブラリは、その核酸が効率的なプローブ結合部位を含むように設計され得る。

固相ストレプトアビジン基質は磁性ビーズであってもよい。磁気ビーズは、磁気ストリップまたはプレートを使用して固定化され得る。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定することができる。逆に、容器壁から溶液中に磁気ビーズを放出するために、容器から磁気ストリップまたはプレートを取り外してもよい。異なるビーズ特性がそれらの適用に影響を及ぼし得る。ビーズは様々なサイズを有し得る。例えば、ビーズは、直径１～３マイクロメートル（ｕｍ）のいずれかであり得る。ビーズは、最大１、２、３、４、５、１０、１５、２０マイクロメートル、またはそれを超える直径を有し得る。ビーズ表面は疎水性または親水性であり得る。ビーズは、ブロッキングタンパク質、例えばＢＳＡでコーティングされ得る。使用前に、ビーズが核酸に非特異的に結合するのを防ぐために、ビーズを洗浄するか、またはブロッキング溶液等の添加剤で前処理することができる。

ビオチン化プローブは、核酸サンプルプールとのインキュベーションの前に磁性ストレプトアビジンビーズに結合され得る。このプロセスは、直接的捕捉と呼ばれることがある。あるいは、ビオチン化プローブは、磁性ストレプトアビジンビーズの添加前に核酸サンプルプールとインキュベートされ得る。このプロセスは、間接的捕捉と呼ばれることがある。間接的捕捉方法は、目標収率を改善することができる。より短い核酸プローブは、磁気ビーズに結合するのにより短い時間を必要とし得る。

核酸プローブと核酸サンプルとの最適なインキュベーションは、プローブの融解温度より１～１０℃またはそれを超えて低い温度で行われ得る。インキュベーション温度は、最大で摂氏５、１０、２０、３０、４０、５０、６０、７０、８０度、またはそれを超えてもよい。推奨されるインキュベーション時間は１時間であり得る。インキュベーション時間は、最大で１、５、１０、２０、３０、６０、９０、１２０分、またはそれを超えてもよい。より長いインキュベーション時間は、より良好な捕捉効率をもたらし得る。ビオチン－ストレプトアビジンカップリングを可能にするためにストレプトアビジンビーズを添加した後、さらに１０分間のインキュベーションを行うことができる。この追加時間は、最大で１、５、１０、２０、３０、６０、９０、１２０分、またはそれを超えてもよい。インキュベーションは、ナトリウムイオン等の添加剤を含む緩衝溶液中で行われ得る。

核酸プールが（二本鎖ではなく）一本鎖核酸である場合、その標的へのプローブのハイブリダイゼーションは改善され得る。ｄｓＤＮＡプールからｓｓＤＮＡプールを調製することは、プール中の全ての核酸配列のエッジに一般的に結合する１つのプライマーを用いて線形ＰＣＲを行うことを伴い得る。核酸プールが合成的に作製または構築される場合、この共通のプライマー結合部位は合成設計に含まれ得る。線形ＰＣＲの産物はｓｓＤＮＡとなる。より多くのサイクルの線形ＰＣＲを用いて、核酸捕捉のためのより多くの開始ｓｓＤＮＡ鋳型を生成することができる。ＰＣＲについては、化学的方法のセクションＤを参照されたい。

核酸プローブをそれらの標的にハイブリダイズさせ、磁気ストレプトアビジンビーズに結合させた後、ビーズを磁石によって固定化し、数回の洗浄を行うことができる。非標的核酸を除去するには３～５回の洗浄で十分であり得るが、より多いまたはより少ない回数の洗浄が使用され得る。各漸増洗浄は、非標的核酸をさらに減少させ得るが、標的核酸の収量も減少させ得る。洗浄工程中のプローブへの標的核酸の適切なハイブリダイゼーションを容易にするために、低いインキュベーション温度を使用することができる。６０、５０、４０、３０、２０、１０、もしくは５℃またはそれ未満低い温度を使用することができる。洗浄バッファーは、ナトリウムイオンを含むトリス緩衝溶液を含み得る。

磁気ビーズ結合プローブからのハイブリダイズした標的の最適な溶出は、プローブの融解温度と同等またはそれを超える温度で起こり得る。より高い温度は、プローブへの標的の解離を促進する。溶出温度は、最大で３０、４０、５０、６０、７０、８０、または９０℃、またはそれを超えてもよい。溶出インキュベーション時間は、最大で１、２、５、１０、３０、６０分またはそれを超えてもよい。典型的なインキュベーション時間はおよそ５分であり得るが、より長いインキュベーション時間は収率を改善し得る。溶出バッファーは、水またはＥＤＴＡ等の添加剤を含むトリス緩衝溶液であり得る。

一組の異なる部位のうちの少なくとも１つ以上を含有する標的配列の核酸捕捉は、それらの部位の各々について複数の異なるプローブとの１回の反応で実施され得る。一組の別個の部位の全てのメンバーを含む標的配列の核酸捕捉は、一連の捕捉反応で行われ得、その特定の部位に対するプローブを使用して、各別個の部位に対して１つの反応が行われる。一連の捕捉反応後の標的収率は低くなり得るが、捕捉された標的はその後ＰＣＲで増幅され得る。核酸ライブラリが合成的に設計されている場合、標的は、ＰＣＲのための共通のプライマー結合部位を用いて設計され得る。

合成核酸ライブラリは、一般的な核酸捕捉のための共通のプローブ結合部位を用いて作成または構築され得る。これらの共通部位を使用して、完全にアセンブリされたまたは潜在的に完全にアセンブリされた核酸をアセンブリ反応から選択的に捕捉し、それによって部分的にアセンブリされたまたは誤ってアセンブリされた（または意図しないまたは望ましくない）副生成物を除去することができる。例えば、アセンブリは、完全にアセンブリされた核酸産物のみが、各プローブを使用して一連の２つの捕捉反応を通過するのに必要な必須の２つのプローブ結合部位を含むように、各エッジ配列上のプローブ結合部位と核酸をアセンブリすることを含み得る。当該例では、部分的にアセンブリされた産物は、プローブ部位のいずれも含まないか、または１つのみを含むことができ、したがって最終的に捕捉されるべきではない。同様に、誤ってアセンブリされた（または意図せずもしくは望ましくない）生成物は、エッジ配列のいずれも含まないか、またはいずれか１つのみを含み得る。したがって、当該誤ってアセンブリされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを高めるために、共通のプローブ結合部位をアセンブリの各成分に含めることができる。各成分に対するプローブを使用するその後の一連の核酸捕捉反応は、アセンブリ反応の任意の副生成物から完全にアセンブリされた生成物（各成分を含有する）のみを単離することができる。その後のＰＣＲは標的濃縮を改善し得、その後のサイズ選択は標的ストリンジェンシーを改善し得る。

いくつかの実施形態では、核酸捕捉を使用して、プールから核酸の標的サブセットを選択的に捕捉することができる。例えば、当該標的化された核酸サブセット上にのみ現れる結合部位を有するプローブを使用することによって。合成核酸ライブラリは、より一般的なライブラリからのサブライブラリの選択的捕捉のために、目的の潜在的なサブライブラリに属する核酸が全て共通のプローブ結合部位（サブライブラリ内では共通であるが、他のサブライブラリとは異なる）を共有するように作成または構築され得る。
Ｇ．凍結乾燥

凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥物質は、より長い寿命を有し得る。化学的安定剤等の添加剤を使用して、凍結乾燥プロセスを通して機能性産物（例えば、活性酵素）を維持することができる。二糖類、例えばスクロースおよびトレハロースは、化学的安定剤として使用され得る。
Ｈ．ＤＮＡ設計

合成ライブラリ（例えば、識別子ライブラリ）を構築するための核酸（例えば、成分）の配列は、合成、配列決定およびアセンブリの複雑さを回避するように設計され得る。さらに、それらは、合成ライブラリを構築するコストを低減し、合成ライブラリを格納することができる寿命を改善するように設計してもよい。

核酸は、合成が困難であり得るホモポリマーの長い文字列（または反復塩基配列）を回避するように設計され得る。核酸は、２、３、４、５、６、７またはそれを超える長さのホモポリマーを回避するように設計され得る。さらに、核酸は、それらの合成プロセスを阻害し得るヘアピンループ等の二次構造の形成を回避するように設計され得る。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリを構築するための核酸は、短く設計され得る。より長い核酸は、合成がより困難で高価であり得る。より長い核酸はまた、合成中に突然変異の可能性がより高くなり得る。核酸（例えば、成分）は、最大で５、１０、１５、２０、２５、３０、４０、５０、６０またはそれを超える塩基であり得る。

アセンブリ反応において成分となる核酸は、そのアセンブリ反応を促進するように設計され得る。ＯＥＰＣＲおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するさらなる情報については、それぞれ付録ＡおよびＢを参照されたい。効率的なアセンブリ反応は、典型的には、近接する成分間のハイブリダイゼーションを含む。配列は、潜在的なオフターゲットハイブリダイゼーションを回避しながら、これらのオンターゲットハイブリダイゼーション事象を促進するように設計され得る。核酸塩基修飾、例えばロックド核酸（ＬＮＡ）は、オンターゲットハイブリダイゼーションを強化するために使用され得る。これらの修飾核酸は、例えば、ステープルストランドライゲーションにおけるステープルとして、または粘着性ストランドライゲーションにおける粘着末端として使用され得る。合成核酸ライブラリ（または識別子ライブラリ）を構築するために使用され得る他の修飾塩基としては、２，６－ジアミノプリン、５－ブロモｄＵ、デオキシウリジン、逆ｄＴ、逆ジデオキシ－Ｔ、ジデオキシ－Ｃ、５－メチルｄＣ、デオキシノシン、スーパーＴ、スーパーＧまたは５－ニトロインドールが挙げられる。核酸は、１つまたは複数の同じまたは異なる修飾塩基を含み得る。当該修飾塩基のいくつかは、より高い融解温度を有する天然塩基類縁体（例えば、５－メチルｄＣおよび２，６－ジアミノプリン）であり、したがって、アセンブリ反応における特異的ハイブリダイゼーション事象を促進するために有用であり得る。当該修飾塩基のいくつかは、全ての天然塩基に結合することができるユニバーサル塩基（例えば、５－ニトロインドール）であり、したがって、望ましい結合部位内に可変配列を有し得る核酸とのハイブリダイゼーションを促進するのに有用であり得る。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、核酸プール内のそれらの標的核酸へのプライマーおよびプローブの特異的結合を促進し得るので、プライマー（例えば、ＰＣＲ用）およびプローブ（例えば、核酸捕捉のために）において有用であり得る。それぞれ核酸増幅（またはＰＣＲ）および核酸捕捉に関するより多くの核酸設計の考慮事項については、化学的方法のセクションＤおよびＦを参照されたい。

核酸は、配列決定を容易にするように設計され得る。例えば、核酸は、二次構造、ホモポリマーのストレッチ、反復配列、およびＧＣ含有量が高すぎるまたは低すぎる配列等の典型的な配列決定の複雑さを回避するように設計され得る。特定のシーケンサーまたは配列決定方法は、誤りやすい可能性がある。合成ライブラリ（例えば、識別子ライブラリ）を構成する核酸配列（または成分）は、互いに一定のハミング距離で設計され得る。このようにして、塩基分解能エラーが配列決定において高速で発生した場合でも、エラー含有配列のストレッチは依然として、それらの最も可能性の高い核酸（または成分）にマッピングし戻され得る。核酸配列は、少なくとも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５またはそれを超える塩基突然変異のハミング距離で設計され得る。ハミング距離からの代替的な距離メトリックを使用して、設計された核酸間の最小必要距離を定義することもできる。

いくつかの配列決定方法および装置は、アダプタ配列またはプライマー結合部位等の特定の配列を含む入力核酸を必要とし得る。これらの配列は、「方法固有配列」と称され得る。当該配列決定装置および方法の典型的な準備ワークフローは、方法特異的配列を核酸ライブラリにアセンブリすることを含み得る。しかしながら、合成核酸ライブラリ（例えば、識別子ライブラリ）が特定の機器または方法で配列決定されることが事前に分かっている場合、これらの方法特異的配列は、ライブラリ（例えば、識別子ライブラリ）を含む核酸（例えば、成分）に設計され得る。例えば、合成核酸ライブラリのメンバー自体が個々の核酸成分からアセンブリされる場合と同じ反応工程で、配列決定アダプタを合成核酸ライブラリのメンバー上にアセンブリすることができる。

核酸は、ＤＮＡ損傷を促進し得る配列を回避するように設計され得る。例えば、部位特異的ヌクレアーゼのための部位を含む配列は、回避され得る。別の例として、ＵＶＢ（紫外－Ｂ）光は、近接するチミンにピリミジン二量体を形成させ、次いで配列決定およびＰＣＲを阻害し得る。したがって、合成核酸ライブラリがＵＶＢに曝露された環境に格納されることを意図する場合、近接するチミン（すなわち、ＴＴ）または近接するシトシン（すなわち、ＣＣ）を回避するようにその核酸配列を設計することが有益であり得る。

化学的方法のセクションに含まれる全ての情報は、前述の技術、方法、プロトコル、システム、およびプロセスをサポートし、可能にすることを意図している。

実施例１：ＤＮＡ分子中に１つのｐｏｅｍを符号化、書き込みおよび読み取る。
符号化されるデータは、ｐｏｅｍを含むテキストファイルである。データは、９６個の成分の２つの層からのＤＮＡ成分を一緒に混合して、重複伸長ＰＣＲで実施される産物スキームを使用して識別子を構築するために、ピペットを用いて手動で符号化される。第１の層Ｘは、９６個の全ＤＮＡ成分を含む。第２の層Ｙも、合計９６個の成分を含む。ＤＮＡを書き込む前に、データはバイナリにマッピングされ、次いで均一な重みフォーマットに記録され、元のデータの６１ビットの全ての連続した（近接する不連続な）文字列は、正確に１７ビット値の１を有する９６ビット列に変換される。この均一な重みフォーマットは、自然なエラーチェック品質を有することができる。次いで、データは、９６×９６のテーブルにハッシュされて参照マップを形成する。

図２２Ａの中央パネルは、短冊を複数の識別子に符号化する９６×９６の表の二次元基準マップを示す。濃い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データは、９６個の成分の２つの層を使用して識別子に符号化される。テーブルの各Ｘ値およびＹ値には成分が割り当てられ、ＸおよびＹ成分は、「１」値を有する各（Ｘ、Ｙ）座標についてオーバーラップ拡張ＰＣＲを使用して識別子にアセンブリされる。各可能な（Ｘ、Ｙ）アセンブリの存在または非存在を決定するために識別子ライブラリを配列決定することによって、データを読み取った（例えば、復号される）。

図の図２２Ａの右側のパネルは、配列決定によって決定された識別子ライブラリに存在する配列の存在量の二次元ヒートマップを示す。各ピクセルは、対応するＸおよびＹ成分を含む分子を表し、そのピクセルでのグレースケール強度は、他の分子と比較したその分子の相対的存在量を表す。識別子は、各行において上位１７個の最も豊富な（Ｘ、Ｙ）集合とみなされる（均一重み符号化は、９６ビットの各連続文字列が正確に１７「１」個の値、したがって１７個の対応する識別子を有し得ることを保証するため）。
実施例２：６２８２４ビットのテキストファイルを符号化する。

符号化対象のデータは、合計６２８２４ビットの３つのｐｏｅｍのテキストファイルである。データは、ＬａｂｃｙｔｅＥｃｈｏ（登録商標）ＬｉｑｕｉｄＨａｎｄｌｅｒを使用して符号化され、３８４成分の２つの層からのＤＮＡ成分を一緒に混合して、重複伸長ＰＣＲで実施される産物スキームを使用して識別子を構築する。第一の層Ｘは、３８４個の全ＤＮＡ成分を含む。第２の層Ｙも、合計３８４個の成分を含む。ＤＮＡを書き込む前に、データはバイナリにマッピングされ、次いで、重み（’１’のビット値の数）を減少させ、チェックサムを含むように記録される。チェックサムは、１９２ビットのデータの連続文字列ごとにチェックサムに対応する識別子が存在するように確立される。再符号化されたデータは、構築される識別子の数に対応するおよそ１０，１００の重みを有する。次いで、データを３８４×３８４のテーブルにハッシュして、参照マップを形成することができる。

図２２Ｂの中央パネルは、テキストファイルを複数の識別子に符号化する３８４×３８４テーブルの二次元参照マップを示す。各座標（Ｘ，Ｙ）は、位置Ｘ＋（Ｙ－１）＊１９２のデータのビットに対応する。黒点は「１」のビット値に対応し、白点は「０」のビット値に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック（例えば、データを復号するための辞書）である。テーブルの各Ｘ値およびＹ値には成分が割り当てられ得、ＸおよびＹ成分は、「１」値を有する各（Ｘ、Ｙ）座標についてオーバーラップ拡張ＰＣＲを使用して識別子にアセンブリされる。各可能な（Ｘ、Ｙ）アセンブリの存在または非存在を決定するために識別子ライブラリを配列決定することによって、データを読み取った（例えば、復号される）。

図２２Ｂの右側のパネルは、配列決定によって決定された識別子ライブラリに存在する配列の存在量の二次元ヒートマップを示す。各ピクセルは、対応するＸおよびＹ成分を含む分子を表し、そのピクセルでのグレースケール強度は、他の分子と比較したその分子の相対的存在量を表す。識別子は、各行の上位Ｓ個の最も豊富な（Ｘ、Ｙ）アセンブリとみなされ、各行のＳはチェックサム値であり得る。
実施例３：１５片の粘着末端ライゲーションにおける５’対３’オーバーハングおよび４塩基対６塩基オーバーハングの比較

表１は、６／２４／６３’、６／２４／６５’、４／２４／４３’、および４／２４／４５’と標識された４つの異なる１５個のＤＮＡ成分セットの測定されたライゲーション効率を示す。標識中の最初の３つの数字Ｘ／Ｙ／Ｚは、一末端にＸ塩基オーバーハング、中央にＹ塩基二重鎖（またはバーコード）領域、他末端にＺ塩基オーバーハングを有するセット中の各ＤＮＡ成分の形態を示す。各ラベルの最後の数字（アポストロフィの前）は、セットのオーバーハングが５’であるか３’であるかを示している。ライゲーションを、０．０６７μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ（ＣＥＵ＝凝集末端単位）、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロールおよび標準的なＴ４リガーゼバッファー部分を用いて３７℃で行った。ライゲーション時間は２．５分であった。各可能なセットについて完全にライゲーションされた産物に相当する完全長対照（ＦＬＣ）と比較してｑＰＣＲで効率を測定した。

表１．ライゲーション効率の測定

図２６は、約４５０塩基の長さを有するそれぞれのＦＬＣとともに、４つの異なる実験的ライゲーション反応の各々からのｑＰＣＲ産物のゲル電気泳動画像を示す。表１と合わせて、結果は、６塩基オーバーハングが４塩基オーバーハングよりも高いライゲーション効率および全長産物の特異性をもたらしたことを示している。５’オーバーハング対３’オーバーハングの使用に関して、効率の明らかなパターンは観察されない。

図２７Ａおよび図２７Ｂは、２、２．５、３、および１４４０分間ライゲーションした６／２４／６３’（図２７Ｂ）および６／２４／６５’（図２７Ａ）ＤＮＡ成分セットのライゲーション効率のデータを示す。図２７Ａおよび図２７Ｂは、各セットについてＦＬＣに対するｑＰＣＲによって測定されるライゲーション効率を示す。図２７Ｃは、約４５０塩基の長さを有するそれらのＦＬＣと共にｑＰＣＲ産物のゲル電気泳動画像を示す。結果はまた、３’オーバーハング集合が５’オーバーハング集合よりも高い特異性を有し得ることを示している。
実施例４：粘着末端ライゲーション効率に対するオーバーハング長さ、オーバーハング融解温度およびオーバーハングＧＣ含有量の効果の試験

表２は、異なる長さのオーバーハング（短＝６塩基、中程度＝８塩基、長＝１０塩基）、異なるＧＣ含有量（低、中、高）、および異なる融解温度（Ｔｍ）を有するように設計された９つの異なる粘着末端（３’オーバーハングを有する）ＤＮＡ成分対の特徴を示す。オーバーハング自体は、摂氏での予測溶融温度と共に表のセルに与えられる。０．０６７μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準的なＴ４リガーゼバッファー部を用いて、３７℃で各ＤＮＡ成分対に対してライゲーションを行った。ライゲーションを２．５分および６０分で行った。各対について完全にライゲーションされた産物を表す完全長対照と比較して、ｑＰＣＲを用いて効率を測定した。

表２．異なる粘着末端（３’オーバーハングを有する）ＤＮＡ成分対の特徴

図２８Ａおよび図２８Ｂは、オーバーハング長によってグループ化されたこれらのＤＮＡ成分対のライゲーション効率を示す。図２８Ａは、２．５分のライゲーション効率を示し、図２８Ｂは、２．５分の時点と６０分の時点との間の効率の比を示す。結果は、より短いオーバーハングが使用される場合、ライゲーション速度がより高くなり得ることを示している。

図２９Ａおよび図２９Ｂは、ＧＣ含有量によってグループ分けされたこれらのＤＮＡ成分対のライゲーション効率を示す。図２９Ａは、２．５分のライゲーション効率を示し、図２９Ｂは、２．５分の時点と６０分の時点との間の効率の比を示す。結果は、異なるＧＣ含有量（または融解温度）のオーバーハングについてはライゲーション速度に大きな差がない可能性があるが、より高いＧＣ含有量（または融解温度）を有するオーバーハングが使用される場合、ライゲーション速度がわずかに高くなる可能性があることを示している。融解温度はＧＣ含有量と相関する。
実施例５：ライゲーション効率に対する温度の影響の試験

図３０は、様々な温度でＴ４リガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからのデータを示す。ライゲーションを、０．２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬまたは２０ＣＥＵ／μＬのＴ４リガーゼ、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準Ｔ４リガーゼバッファー部分を用いて行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、より高い温度およびより高いリガーゼ濃度がＴ４リガーゼによるライゲーション効率を増加させ得ることを示す。

図３１は、様々な温度でＴ４リガーゼと一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ（２０μＬ、したがって合計１００ＣＥＵ）、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準的なＴ４リガーゼバッファー部を用いて行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、より高い温度およびより高いリガーゼ濃度がＴ４リガーゼによるライゲーション効率を増加させ得ることを示す。結果は、図３０で観察されたのと同様の傾向を示す。
実施例６：ライゲーション効率に対するリガーゼの種類の効果の試験

図３２Ａおよび図３２Ｂは、Ｔ４ＤＮＡリガーゼと比較した、Ｔ７（図３２Ａ）およびＴ３（図３２Ｂ）ＤＮＡリガーゼのライゲーション効率についてのデータを提示する。ライゲーションを、０．１２５μＭの各ＤＮＡ成分を用いて２５℃で４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分に対して行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。リガーゼ濃度は、１０ＣＥＵ／μＬと１００ＣＥＵ／μＬとの間で変動した。各プロット内で、５ＣＥＵ／μＬでＴ４ＤＮＡリガーゼを用いて実施した同じライゲーションと効率を比較する。結果は、約１００ＣＥＵ／ｕＬの濃度のＴ３リガーゼが室温ライゲーションに最適なリガーゼであり得ることを示している。

図３３は、様々な濃度での大腸菌ＤＮＡリガーゼのライゲーション効率についてのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分を用いて２５℃で４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分に対して行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。リガーゼ濃度は、１ＣＥＵ／μＬと１００ＣＥＵ／μＬとの間で変動した。

表３は、４つの異なるタイプのリガーゼの平均ライゲーション効率測定値を示す。ライゲーションを、０．２６８μＭの各ＤＮＡ成分を用いて２５℃で１５の粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分に対して行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。Ｔ４は２０ＣＥＵ／μＬであり、Ｔ３およびＴ７はそれぞれ１５０ＣＥＵ／μＬであった。

表３．平均ライゲーション効率測定

図３４Ａおよび図３４Ｂは、様々な温度でＴ７ＤＮＡリガーゼ（図３４Ａ）またはＴ３ＤＮＡリガーゼ（図３４Ｂ）と一緒にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからのデータを示す。０．１２５μＭの各ＤＮＡ成分および１５０ＣＥＵ／μＬのＴ７またはＴ３ＤＮＡリガーゼを用いてライゲーションを行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、Ｔ３およびＴ７が２０℃～４０℃の間で効率を失う可能性があり、Ｔ３はより速く低下するが、より低い温度（例えば、１５から２０℃）ではより高い効率を有することを示す。これは、より高い温度のインキュベーション（例えば、３７℃）では、Ｔ４ＤＮＡリガーゼ（例えば、図３０および図３１を参照されたい）がＴ３およびＴ７ＤＮＡリガーゼよりも良好に機能し得ることを示している。
実施例７：ライゲーション効率に対するポリエチレングリコール（ＰＥＧ）の効果の試験

図３５Ａ～Ｃは、様々な量のＰＥＧ８０００（図３５Ａ）、ＰＥＧ６０００（図３５Ｂ）およびＰＥＧ４００（図３５Ｃ）と共にライゲーションされた４つの粘着末端（１０塩基、３’突出部あり）ＤＮＡ成分のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分および５ＣＥＵ／μＬのＴ４リガーゼを用いて２５℃で行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、ライゲーションに特定の量までＰＥＧを添加すると効率を改善することができるが、特定の量を超えると効率を阻害することを示している。効率を改善するためにライゲーション反応に添加され得るＰＥＧの量は、ＰＥＧの分子量に依存する。

図３６は、低重量／体積濃度のＰＥＧ４００またはＰＥＧ６０００のいずれかの存在下で一緒にライゲーションされた４つの粘着末端（１０塩基、３’オーバーハングあり）ＤＮＡ成分のライゲーションからのデータを示す。０．１２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬＴ４ＤＮＡリガーゼ、２０％ｖ／ｖグリセロールおよび標準Ｔ４リガーゼバッファー部分を用いて３７℃でライゲーションを行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、これらの条件下で、ＰＥＧ６０００の添加が、ＰＥＧ４００の添加および等量（重量による）よりもライゲーション効率を改善し得ることを示している。
実施例８：ライゲーション不活性化方法の比較

図３７は、バッファーＱＧまたはＥＤＴＡを使用してリガーゼを不活性化することに関するデータを示す。４つの粘着末端ＤＮＡ成分に対してライゲーションを行った。バッファーＱＧとは、Ｑｉａｇｅｎ製のバッファーＱＧまたは同様の成分（例えば、５．５Ｍグアニジンチオシアネート（ＧｕＳＣＮ）、２０ｍＭＴｒｉｓＨＣｌｐＨ６．６）を含むバッファーをいう。対照群では、Ｔ４リガーゼを標準バッファー条件下室温で横軸に示した所与の体積で使用した。実験群では、Ｔ４リガーゼ反応混合物を表示の添加剤で処理した後、ＤＮＡ成分に添加して所与の体積の反応を行った。ライゲーション時間は２．５分であった。縦軸は、各ライゲーションの全長産物に対するｑＰＣＲから得られたＣｔ結果を示す。なお、Ｃｔは濃度のＬｏｇｂａｓｅ－２スケールである。結果は、ＥＤＴＡまたはバッファーＱＧを使用するとリガーゼが不活性化され得ることを示している。ＥＤＴＡおよびバッファーＱＧ不活性化リガーゼを用いたライゲーション群の結果は、リガーゼなし群の結果と同様に見える。
実施例９：ＤＮＡ複製の研究

図３８は、Ｑ５、ＰｈｕｓｉｏｎおよびＴａｑＤＮＡポリメラーゼを使用した複製の線形性に関するデータを示す。横軸は理論上の目標ＤＮＡ濃度（ｎｇ／μＬ）であり、縦軸は標準に対してｑＰＣＲを用いて測定した目標ＤＮＡ濃度（ｎｇ／μＬ）である。ＰＣＲ反応の異なるサイクルで測定を行った。完全な対角線上のドットは、完全な線形性（理論上）を表す。他のドットは、異なるリガーゼからの実験データ点を表す。結果は、標準的なＰＣＲ反応（リガーゼに関係なく）が１０ｎｇ／μＬの標的までまたはそれを超えて線形であり得ることを示す。この実施例では、使用した標的ＤＮＡは約４５０塩基であった。
実施例１０：ＤＮＡを乾燥させるための様々な方法の研究

図３９は、室温で４日間保存したＤＮＡサンプルのデータを示す。約４５０塩基長のＤＮＡを含む異なる量（５０ｎｇ、５００ｎｇおよび５０００ｎｇ）のＤＮＡサンプルを保存した。ＤＮＡサンプルを異なる条件で保存した：湿潤または乾燥、保存添加剤ありまたはなし（例えば、ＢＭは生体安定化材料を表す）。結果を、それらの４日間にわたって凍結水中に保存された約４５０塩基長のＤＮＡを含有する同じＤＮＡサンプルと比較した。結果は、最小限のＤＮＡ分解が室温で起こり得ること、およびＢＭ（生体安定化材料）のような保存添加剤の使用が分解の減少に寄与し得ることを示している。乾燥プロセスは、ＤＮＡ保存添加剤の存在なしでＤＮＡ分解をもたらし得る。

図４０は、室温で乾燥および再水和を繰り返したＤＮＡのデータを示す。保存添加剤を含むＤＮＡおよび含まないＤＮＡについての結果を示す（例えば、ＢＭは生体安定化材料を表す）。結果は、添加剤の有無にかかわらず、３～４回のＤＮＡサンプルの乾燥／再水和が、かなりの量のＤＮＡを失うことなく達成され得ることを示している。
実施例１１：ライゲーションのための６つの塩基オーバーハングの設計および試験

表４は、コンピュータにより設計された３２個の３’オーバーハングのセットを示す。オーバーハング（およびそれらの逆相補体）は、オーバーハングのいずれかのエッジ上の部分文字列について、６塩基の長さを有する、３塩基を超えるホモポリマーなし、互いに３塩基未満のハミング距離なし、互いに３塩基を超える等価部分文字列なし、および互いに２塩基を超える等価部分文字列なしとなるように設計された。

表４．コンピュータにより設計された３２個の３’オーバーハングのセット

表５は、コンピュータにより設計された３２個の３’オーバーハングの別のセットを示す。このセットの６塩基オーバーハング（およびそれらの逆相補体）は、表４のものよりも全体的にあまり制約されないが、表４のものと同等の制約を満たす範囲内で１６個のオーバーハングのサブセットを含むように設計された。２つの太字の配列は、組み合わせ実験の対照として、互いに逆相補であるように設計された。

表５．コンピュータにより設計された３２個の３’オーバーハングのセット

表４および表５の各オーバーハングおよびそれらの逆相補体の粘着末端ＤＮＡ配列を構築した。各表の各オーバーハング（および逆相補体）の各配列は、同じ近位二重鎖領域を有していたが、その遠位末端に異なる３塩基５’オーバーハングで一意にバーコード化されていた。構築された粘着末端配列のスキームについては図４１を参照されたい。合計で、逆相補体を用いて、各表に対して６４個の配列を構築した。これらの配列を等モル濃度でプールし、標準的なリガーゼバッファー中３７℃でＴ４リガーゼとライゲーションした。ライゲーションを２．５分間行った後、ＥＤＴＡでクエンチした。ライゲーションした配列をゲル抽出によって精製し、次いで、クレノウポリメラーゼを使用して５’末端を充填し、ｄＡテール化した。その後、配列決定アダプタを産物の末端にライゲーションし、増幅および精製して、ＩｌｌｕｍｉｎａｉＳｅｑ上での配列決定のために調製した。各可能なライゲーション産物の相対コピー数を、バーコードの各可能な組み合わせについて配列リードの数を数えることによって推測した。オーバーハングの各セットについて合計６４×（６４＋１）／２＝２０８０の可能性のある生成物があり（表４および表５）、そのうちの６４個はそれぞれ、それらの正しい逆相補体パートナーにライゲーションされたオーバーハングに対応する。

図４２は、表４（図４２Ａ）および表５（図４２Ｂ）のオーバーハング配列のセットのライゲーションからのデータを示す。各ヒートマップ内の各画素は、その画素の行および列を表すオーバーハングによって形成されるライゲーション産物に対応する。ピクセルのグレースケール（または「熱」）は、そのライゲーション産物の相対量（ｌｏｇベース－２スケール）を表す。各行および各列は、表４（図４２Ａ）または表５（図４２Ｂ）のオーバーハング１～３２に対応し、次いでそれらのオーバーハングの逆相補に対応する。結果は、各オーバーハングライゲーションがその逆相補体と最も強くライゲーションするが、ライゲーションにおいて複数の非特異的産物も形成され得ることを示唆している。

これらのデータを使用して、３２個のオーバーハングの各セットからのオーバーハングのサブセットのペナルティスコアを計算した。オーバーハングのサブセットについて、データセット内の（正しい産物の量と比較した）サブセット内の可能なオーバーハングごとに形成されたオフターゲット産物の相対量を加算することによって、ペナルティスコアを計算した。

図４３は、表４および表５のオーバーハングの各セットからの１５個のオーバーハングの２Ｍサブセットからのペナルティスコアを示す。ペナルティスコアを使用して、１６成分のライゲーションで使用される１５オーバーハングの高効率、高特異性セットを予測することができる。最も低いペナルティスコアで上位の候補を見つけることができる。Ｘ＋１個のオーバーハングを一緒にライゲーションするための上部オーバーハング候補を見つけるために、Ｘ個のオーバーハングのサブセットを用いて同様の分析を行うことができる。この分析に基づいて、表６は、１６個のＤＮＡ成分を一緒にライゲーションするための１５個のオーバーハング（表４のセットから得られる）の推定される高効率、高特異性サブセットを示す。同様に、表７は、１６個のＤＮＡ成分を一緒に連結するための１５個のオーバーハング（表５のセットから得た）の推定サブセットを示す。
表６．１５個のオーバーハングの推定される高効率、高特異性サブセット
表７．１５個のオーバーハングの推定サブセット

図４４は、表７の最終（網掛け）行からのオーバーハングと、プリントヘッドからの分注に最適化され得るライゲーションミックスの特定の配合物とを使用した、１６個のＤＮＡ成分のライゲーション効率のデータを示す。混合物は、グリセロールの形態の湿潤剤、ＯｒａｎｇｅＧの形態の染料、およびＮｉｐａｃｉｄｅの形態の殺生物剤を含有する。ライゲーションは、－０．１Ｗｅｉｓｓ単位／μＬおよび０．２Ｗｅｉｓｓ単位／μＬの２つのリガーゼ濃度で行った。さらに、ライゲーションを、３７℃にて、０６２５μＭの各ＤＮＡ成分、２２．５％ｖ／ｖのグリセロール、３．１％ｗ／ｖのＰＥＧ６０００、１．２５％ｗ／ｖのオレンジＧ色素、０．１％ｗ／ｖのＮｉｐａｃｉｄｅ、および標準Ｔ４リガーゼバッファー部を用いて行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。
実施例１２：６０ｋｂのデジタル情報への符号化、その複製、およびそれからのアクセス

長さ６８，８００ビット（エラー保護後７３，４４０ビット）のデジタル化されたオーディオクリップ（「メッセージ」）を、３７２個のＤＮＡ成分の成分ライブラリを使用して、８層積スキームで符号化した（産物スキームの概要については図２０Ｂを参照されたい）。３つの成分の７つの層（「ベース層」）および３５１個の成分の１つの層（「多重層」）があり、したがって７６７６３７個の可能な識別子があったが、符号化されたメッセージは組み合わせ空間からの１１９３５３個の識別子のみを使用した。書き込みは、ＬａｂｃｙｔｅＥｃｈｏ５５５アクセスシステムで行った。このプロセスを２回繰り返した。ＤＮＡ成分をコンピュータにより設計し、製造されたオリゴを二重鎖化することによって構築した。

書き込みプロセスは４つの段階で発生した：（１）コンピュータによる符号化、（２）ＤＮＡ成分の並置、（３）ライゲーション、および（４）統合。（１）コンピュータによる符号化の間、誤り訂正されたメッセージは、長さ１３および重み３の連続した符号語に符号化された。したがって、符号語は１３個の辞書式順序の識別子によって表され、そのうち３個は存在することが意図されており（「真の識別子」）、残りの１０個は存在しないことが意図されていた（「偽の識別子」）。符号語は合計９１８１個あった。（２）ＤＮＡ並置では、ＬａｂｃｙｔｅＥｃｈｏ５５５を使用して、３７２個のＤＮＡ成分を（３８４ウェルプレートの）３４１個の反応ウェルで一緒に混合した。各反応は、ただ１つの符号語（合計３つの真の識別子）を作成することを意図した１つの反応を除いて、２７個の連続した符号語（合計８１個の真の識別子）を作成することを意図した。反応は、ベース層の各々からの１つのＤＮＡ成分および多重層からの複数の成分（各符号語について３）を含むように設定した。さらに、完全に形成された識別子の各末端にライゲーションするための配列決定アダプタを反応ウェルに加えた。（３）ライゲーションにおいて、４ｕＬのＴ４リガーゼ反応ミックス（５ＣＥＵ／μＬのＴ４リガーゼおよび７．５％ＰＥＧ６０００を含む）を各反応ウェルに添加し、３７℃で１時間インキュベートした。各反応が各層からおよそ４ｎＭの凝集ＤＮＡ成分を含むように濃度を設定した。続いて、（４）統合では、およそ５０ｎＬの全ての反応物を、リガーゼ活性を失活させるためにＥＤＴＡ溶液を含む１つの容器内に統合した。統合された識別子のプール（識別子ライブラリ）をＰＣＲを用いて増幅し、ゲル精製して配列決定のために全長識別子を抽出した。

図４５Ａ～図４５Ｂは、メッセージを符号化する識別子ライブラリの配列決定から復元されたデータを提示する。図４５Ａは、（コンピュータによる符号化後の）符号化されたメッセージの３４１×３５１参照マップを示す。濃い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データは、「１」ビット値の位置に対応する識別子を構築することによってＤＮＡに書き込まれる（これは、識別子が辞書式順序を有するために可能である）。図４５Ｂは、配列決定によって決定された、識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。各行の識別子は同じ反応で構築される。最大グレースケール（濃）強度は、各行の識別子の平均コピー数に設定される。識別子は、（マップの行に沿って）連続した１３個の識別子の列の中で最も多い上位３つの識別子内にある場合、真の識別子（「１」のビット値を表す識別子）として解釈され得る。他の全ては、偽の識別子（「０」のビット値を表す識別子）であると解釈される。この復号化処理工程をデータに適用すると、０個の識別子エラー（符号語内で、偽の識別子が真の識別子よりも多くのリードを有するイベント）および０個の識別子消去（上位３個の最も豊富な識別子を区別できないイベント）が生じる。したがって、復号されたメッセージは、符号化されたメッセージと正確に一致する（図４５Ａ）。図４６は、符号化、書き込み、配列決定、および復号プロセス全体の重複実行からのデータを提示する。この場合も、メッセージは正常に書き込まれ、０のエラーまたは消去で読み取られた。

図４７Ａ～図４７Ｃは、メッセージを含む元の識別子ライブラリの複数のコピーの作成からのデータを提示する（図４５Ａ～図４５Ｂより）。ライブラリを１０００倍希釈し、次いで、Ｐｈｕｓｉｏｎポリメラーゼおよびアダプタ配列の外側エッジに結合したプライマー（ライブラリ中の全ての配列に共通）を用いて１０サイクルのＰＣＲで増幅した。１０サイクルのＰＣＲにより、ライブラリを元の濃度まで約１０２４倍に増幅した。図４７Ａは、配列決定によって決定された、複製された識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール（濃）強度は、各行の識別子の平均コピー数に設定される。識別子は、（マップの行に沿って）連続した１３個の識別子の列内の上位３個の最も豊富な識別子内にある場合、「１」のビット値を表すと解釈され得る。他の全ては、「０」のビット値を表すと解釈される。この復号処理工程をデータに適用すると、識別子エラーが０になる。小さい配列決定サンプルサイズによって説明され得る１つの識別子消去があった（表８を参照されたい）。これは、全ての偽の識別子が０リードを有する符号語であったが、真の識別子のうちの１つも０リードを有していた。図４７Ｂは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の相関関係を示し、図４７Ｃは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、識別子ライブラリ複製中にバイアスがほとんどまたは全く発生し得ないことを示している。

図４８Ａ～図４８Ｃは、元のメッセージを含む識別子ライブラリの一部へのアクセスからのデータを提示する（図４５Ａ～図４５Ｂより）。アクセス方法は、図２１Ｂに記載されるような「ＡＮＤ」演算であった。識別子ライブラリを約３２０００倍に希釈し、次いで、各エッジ層の特定のＤＮＡ成分に結合したプライマーを用いてＰＣＲを使用して増幅し、ライブラリのおよそ１／９にアクセスした（各層は３つの可能な成分を有していたため）。ＰＣＲはＰｈｕｓｉｏｎポリメラーゼを用いて１５サイクル行った。配列決定アダプタを、得られたサブライブラリの末端にライゲーションし、ＩｌｌｕｍｉｎａｉＳｅｑで配列決定した。図４８Ａは、配列決定によって決定された、アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール（濃）強度は、各行の識別子の平均コピー数に設定される。識別子は、（マップの行に沿って）連続した１３個の識別子の列内の上位３個の最も豊富な識別子内にある場合、「１」のビット値を表すと解釈され得る。他の全ては、「０」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、０個の識別子エラーおよび０個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するデータセットが生じる（図４５Ａ）。図４８Ｂは、元のライブラリとアクセスされた識別子ライブラリとの間の識別子コピー数の相関関係を示し、図４８Ｃは、元の識別子ライブラリとアクセスされた識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、識別子ライブラリアクセス中にバイアスがほとんどまたは全く発生し得ないことを示している。

図４９Ａ～図４９Ｃは、アクセスされた識別子ライブラリの下位部分にさらにアクセスすることからのデータを提示する（図４９Ａ～図４９Ｃより）。元の識別子ライブラリからのアクセス方法は、２つのネステッド「ＡＮＤ」演算であった（ここで、各「ＡＮＤ」は図２１Ｂで説明したとおりであった）。元の識別子ライブラリを約３２０００倍に希釈し、次いで、各エッジ層の特定のＤＮＡ成分に結合したプライマーを用いてＰＣＲを使用して増幅し、ライブラリのおよそ１／９にアクセスした（各層は３つの可能な成分を有していたため）。得られたアクセスされた識別子ライブラリを再び約３２０００倍に希釈し、次いで、各エッジから除去された層上の特定のＤＮＡ成分に結合するプライマーを用いてＰＣＲを使用して増幅し、アクセスされたライブラリのおよそ１／９（各層は３つの可能な成分を有していたため）、または元のライブラリ全体のおよそ１／８１（１／９の１／９）にアクセスした。本発明者らは、得られたサブライブラリを「２回アクセスした」識別子ライブラリと呼ぶ。ＰＣＲはＰｈｕｓｉｏｎポリメラーゼを用いて１５サイクル行った。配列決定アダプタを、得られたサブライブラリの末端にライゲーションし、ＩｌｌｕｍｉｎａｉＳｅｑで配列決定した。図４９Ａは、配列決定によって決定された、２回アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール（濃）強度は、各行の識別子の平均コピー数に設定される。識別子は、（マップの行に沿って）連続した１３個の識別子の列内の上位３個の最も豊富な識別子内にある場合、「１」のビット値を表すと解釈され得る。他の全ては、「０」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、０個の識別子エラーおよび０個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するデータセットが生じる（図４５Ａ）。図４９Ｂは、元のライブラリと２回アクセスされた識別子ライブラリとの間の識別子コピー数の相関関係を示し、図４９Ｃは、元の識別子ライブラリと２回アクセスされた識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、ネステッド識別子アクセス方法の間にバイアスがほとんどまたは全く発生し得ないことを示している。

図５０Ａ～図５０Ｃは、メッセージ（図４５より）を表す元の識別子ライブラリを１００℃で４日間保存した後のデータを提示する。元の識別子ライブラリを保存添加剤（生体安定化材料）で乾燥させ、１００℃に保持されたサーモサイクラーに４日間保持した。図５０Ａは、配列決定によって決定された、格納された識別子ライブラリに存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール（濃）強度は、各行の識別子の平均コピー数に設定される。識別子は、（マップの行に沿って）連続した１３個の識別子の列内の上位３個の最も豊富な識別子内にある場合、「１」のビット値を表すと解釈され得る。他の全ては、「０」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、０個の識別子エラーおよび０個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するマップが生じる（図４５Ａ）。図５０Ｂは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の相関関係を示し、図５０Ｃは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、長期間にわたる識別子ライブラリの極端な加熱中にバイアスがほとんどまたは全く発生し得ないことを示している。さらに、二本鎖ＤＮＡ定量（Ｑｕｂｉｔ蛍光定量）は、元の識別子ライブラリ（３６．４ｎｇ／ｍＬ）と格納された識別子ライブラリ（４１．２ｎｇ／ｍＬ）との間で同様の値をもたらし、インキュベーション中にＤＮＡの損失がほとんどまたは全くなかった可能性があることを示している。

表８は、メッセージおよびメッセージのアクセスされた部分を表す識別子ライブラリの書き込みおよび読み出しからの統計を提示する（図４５～５０より）。各ライブラリについて、本発明者らは、「０」のビット値を表す識別子のリードの総数（偽の識別子）、「１」のビット値を表す識別子のリードの総数（真の識別子）、配列決定された偽の識別子の割合（「識別子エラー率」）、符号語の総数、符号語消去の数、および符号語エラーの数を報告する。各符号語における識別子の分布は、偽の識別子の各々が同一に分布し、真の識別子の各々が同一に分布し、偽の識別子を読み取る（サンプリングする）確率が識別子誤り率と等価である多項分布としてモデル化された。各ライブラリで表される符号語の数、および各符号語から読み取られる識別子の数を各符号語のサンプルサイズとして使用して、本発明者らはモデルを使用して、符号語消去および符号語エラーの予想数を計算した。大きいサンプルサイズで符号語消去または符号語誤りの確率を計算する計算上の扱いやすさのために、４０リードを超えるサンプルサイズはいずれも４０に制限された。したがって、期待値は上限とみなされるべきである。結果は、複製されたライブラリ内の消去された符号語（図４７Ａ、図４７Ｂ、図４７Ｃ）が、固有のサンプリングノイズに起因して予期された可能性があることを示している。
表８．識別子ライブラリの書き込みおよび読み取りからの統計

実施例１３：ＤＮＡの安定性の研究

図５１Ａ～図５１Ｄは、４つの異なる温度で８日間インキュベートしたＤＮＡサンプルのデータを示す。およそ２５０ｎｇの約４５０塩基のＤＮＡ（標的）のそれぞれの複数のサンプルを保存添加剤（ＢＭは生体安定化材料を表す）と共に乾燥させ、７５．１℃（図５１Ａ）、８４．４℃（図５１Ｂ）、９０．２℃（図５１Ｃ）または９５．０℃（図５１Ｄ）で８日間加熱した。８日間にわたる異なる時点で、サンプルを取り出し、８日間の最後の最終測定まで室温で保存した。最終測定時に、各サンプル中の標的ＤＮＡの相対量をｑＰＣＲで定量した。定量値を、加熱しなかった０時点のサンプルに対して正規化する。結果は、高温での長時間のインキュベーションであっても、最小限のＤＮＡ分解が起こり得ることを示している。
実施例１４：ライゲーションに対するグリセロールの効果の研究

図５２は、様々な量の（体積当たりの体積パーセントに関して）グリセロールと共にライゲーションされた４つの粘着末端（６塩基、３’オーバーハングを有する）ＤＮＡ成分のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分および５ＣＥＵ／μＬのＴ４リガーゼ（全体で１００ＣＥＵ）を用いて２５℃で行った。ライゲーション時間は２．５分であった。完全にライゲーションされた産物を表す完全長対照と比較してｑＰＣＲを用いて効率を測定した。結果は、２０％またはそれを超えるグリセロールの添加はライゲーションに影響を与えない可能性があるが、４０％以上のグリセロールの添加は阻害性であり得ることを示している。

態様では、本開示は、核酸配列に情報を書き込むための方法であって、（ａ）情報を表す記号列を生成することと；（ｂ）複数の成分を構築することであって、複数の成分の個々の各成分が核酸配列を含むことと；（ｃ）複数の成分の個々の成分の少なくとも１つの粘着末端を生成することと；（ｄ）複数の成分のうちの２またはそれを超える成分を、２またはそれを超える成分の個々の成分の少なくとも１つの粘着末端を介して化学的に連結させ、それによって、複数の識別子を生成することであって、複数の識別子の各識別子が２またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成することと；（ｅ）複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に取得または増幅することと、を含む方法を提供する。

いくつかの実施形態では、記号列の各記号は、１またはそれを超える可能な記号値のうちの１つである。いくつかの実施形態では、記号列内の各記号は、２つの可能な記号値のうちの１つである。いくつかの実施形態では、記号列の各位置における１つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、２つの可能な記号値は０および１のビット値であり、記号列内のビット値が０の個々の記号は、識別子ライブラリ内の別個の識別子の非存在によって表され得、記号列内の前記ビット値が１の個々の記号は、識別子ライブラリ内の別個の識別子の存在によって表され得、またはその逆も同様である。いくつかの実施形態では、（ｄ）は、２またはそれを超える層からの２またはそれを超える成分を化学的に結合することを含み、２またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、識別子ライブラリからの個々の識別子は、２またはそれを超える層の各層からの１つの成分を含む。いくつかの実施形態では、２またはそれを超える成分は、固定された順序でアセンブリされる。いくつかの実施形態では、２またはそれを超える成分は、任意の順序でアセンブリされる。いくつかの実施形態では、２またはそれを超える成分は、２またはそれを超える層の異なる層からの２つの成分の間に配置された１またはそれを超えるパーティション成分と共にアセンブリされる。いくつかの実施形態では、個々の識別子は、２またはそれを超える層のサブセットの各層からの１つの成分を含む。いくつかの実施形態では、個々の識別子は、２またはそれを超える層の各々からの少なくとも１つの成分を含む。いくつかの実施形態では、（ｃ）は、エンドヌクレアーゼを使用して、複数の成分の個々の成分の少なくとも１つの粘着末端を生成することを含む。いくつかの実施形態では、少なくとも１つの粘着末端は、個々の成分の５’末端にある。いくつかの実施形態では、少なくとも１つの粘着末端は、個々の成分の３’末端にある。いくつかの実施形態では、（ｃ）は、個々の成分の２つの粘着末端を生成することを含む。いくつかの実施形態では、少なくとも１つの粘着末端は、少なくとも１ヌクレオチド長である。いくつかの実施形態では、少なくとも１つの粘着末端は、６ヌクレオチド長である。いくつかの実施形態では、少なくとも１つの粘着末端は、表４または表５に列挙された配列からなる群から選択される核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、または情報を秘匿化する。いくつかの実施形態では、２またはそれを超える識別子ライブラリが組み合わされ、２またはそれを超える識別子ライブラリの各識別子ライブラリは別個のバーコードでタグ付けされる。いくつかの実施形態では、識別子ライブラリ内の各個々の識別子は、別個のバーコードを含むか、または識別子ライブラリのサブセット識別子は、別個のバーコードを含む。いくつかの実施形態では、複数の識別子、または識別子を含む複数の成分は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために選択される。いくつかの実施形態では、化学的に連結することは、リガーゼを含む試薬を使用して複数の成分のうちの２またはそれを超える成分を一緒にライゲーションすることを含む。いくつかの実施形態では、リガーゼはＴ４リガーゼ、Ｔ７リガーゼ、Ｔ３リガーゼまたは大腸菌リガーゼである。いくつかの実施形態では、試薬は添加剤をさらに含む。いくつかの実施形態では、添加剤はリガーゼの効率を高める。いくつかの実施形態では、添加剤はポリエチレングリコール（ＰＥＧ）を含む。いくつかの実施形態では、ＰＥＧは、ＰＥＧ４００、ＰＥＧ６０００、ＰＥＧ８０００またはそれらの任意の組み合わせである。いくつかの実施形態では、ＰＥＧ分子の最終濃度は、少なくとも約１％重量／体積（ｗ／ｖ）である。いくつかの実施形態では、ライゲーションの反応時間は少なくとも１分である。いくつかの実施形態では、ライゲーションは摂氏３０度またはそれよりも高い。いくつかの実施形態では、ライゲーションの反応効率は、少なくとも約２０％である。いくつかの実施形態では、本方法は、ＥＤＴＡまたはチオシアン酸グアニジンを含有するバッファーを使用してリガーゼを不活性化することをさらに含む。いくつかの実施形態では、リガーゼの最終濃度は少なくとも約５ＣＥＵ／μＬである。いくつかの実施形態では、試薬はグリセロール分子をさらに含む。いくつかの実施形態では、（ｄ）における化学的連結は、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）を使用することを含む。いくつかの実施形態では、個々の成分は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸である。いくつかの実施形態では、個々の成分は再水和されている。いくつかの実施形態では、個々の成分は、脱水された成分から再水和される。いくつかの実施形態では、本方法は、複数の識別子の少なくともサブセットの各個々の識別子を脱水することによって識別子ライブラリを脱水することをさらに含む。いくつかの実施形態では、複数の識別子の少なくともサブセットの各個々の識別子が脱水される。いくつかの実施形態では、本方法は、複数の識別子の少なくともサブセットの各個々の識別子を再水和することをさらに含む。いくつかの実施形態では、本方法は、識別子の劣化を防ぐために識別子ライブラリに保存添加剤を添加することをさらに含む。いくつかの実施形態では、複数の識別子はＰＣＲでコピーされる。いくつかの実施形態では、ＰＣＲは少なくとも１０サイクルを有する。いくつかの実施形態では、複数の識別子は、１０ナノグラム／マイクロリットルの濃度までＰＣＲで増幅される。いくつかの実施形態では、ＰＣＲはエマルジョンＰＣＲである。いくつかの実施形態では、複数の識別子は線形増幅でコピーされる。いくつかの実施形態では、ＰＣＲの後、線形増幅を使用して複数の識別子のより多くのコピーを作成する。いくつかの実施形態では、複数の識別子のサブセットは、１またはそれを超えるＰＣＲ反応でアクセスされる。いくつかの実施形態では、複数の識別子のサブセットは、１またはそれを超える親和性タグ付きプローブを用いてアクセスされる。いくつかの実施形態では、複数の識別子のサブセットの識別子は、共通の成分のセットを有する。いくつかの実施形態では、識別子はゲル電気泳動によって精製される。いくつかの実施形態では、識別子は親和性タグ付きプローブによって精製される。いくつかの実施形態では、識別子はＰＣＲを使用して増幅される。いくつかの実施形態では、識別子は、チミン－チミンジヌクレオチドまたはシトシン－シトシンジヌクレオチドを回避するように設計される。

別の態様では、本開示は、核酸配列に情報を書き込むための方法であって、情報を表す記号列を生成することと；複数の成分を構築することであって、複数の成分の個々の各成分が核酸配列を含むことと；複数の成分の個々の成分の少なくとも１つの粘着末端を生成することであって、少なくとも１つの粘着末端が少なくとも６ヌクレオチド長である、複数の成分の個々の成分の少なくとも１つの粘着末端を生成することと；複数の成分のうちの２またはそれを超える成分を、２またはそれを超える成分の個々の成分の少なくとも１つの粘着末端を介して化学的に連結させ、それによって、複数の識別子を生成することであって、複数の識別子の各識別子が２またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成することと；複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に取得または増幅することと、を含む方法を提供する。

いくつかの実施形態では、少なくとも１つの粘着末端は、個々の成分の３’末端にある。いくつかの実施形態では、連結は、複数の成分のうちの少なくとも１５個またはそれを超える成分を連結することを含む。いくつかの実施形態では、少なくとも１つの粘着末端は、表４または表５に列挙された配列からなる群から選択される核酸配列を含む。

別の態様では、核酸配列に情報を書き込む方法であって、（ａ）情報を表す記号列を生成すること；（ｂ）複数の粘着末端成分を構築することであって、該複数の成分の個々の各成分が核酸配列および少なくとも１つの粘着末端を含む、複数の粘着末端成分を構築すること；（ｃ）複数の成分のうちの２またはそれを超える成分を、２またはそれを超える成分の個々の成分の少なくとも１つの粘着端を介して化学的に結合し、それによって複数の識別子を生成することであって、複数の識別子の各識別子が、２またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成すること；ならびに（ｄ）前記複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に捕捉または増幅すること、を含む方法が本明細書で提供される。いくつかの実施形態では、（ｂ）は、２つのオリゴヌクレオチドをアニーリングして、各個々の成分が少なくとも１つの粘着末端を有するように、各個々の成分を構築することを含む。

一態様では、本開示は、情報を核酸配列（複数可）に書き込むための方法であって、（ａ）情報を記号列に変換すること；（ｂ）記号列を複数の識別子にマッピングすることであって、複数の識別子の個々の識別子が１またはそれを超える成分を含み、１またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個別の識別子が、記号列の個別の記号に対応する、記号列を複数の識別子にマッピングすること；ならびに（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリを構築すること、を含む方法を提供する。

いくつかの実施形態では、当該記号列内の各記号は、２つの可能な記号値のうちの１つである。いくつかの実施形態では、当該記号列の各位置における１つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、当該２つの可能な記号値は０および１のビット値であり、当該記号列内の当該ビット値が０の当該個々の記号は、当該識別子ライブラリ内の別個の識別子の非存在によって表され得、当該記号列内の当該ビット値が１の当該個々の記号は、当該識別子ライブラリ内の当該別個の識別子の存在によって表され得、その逆も同様である。いくつかの実施形態では、記号列の各記号は、１またはそれを超える可能な記号値のうちの１つである。いくつかの実施形態では、識別子ライブラリ内の個々の識別子の存在は、バイナリ文字列内の第１の記号値に対応し、個々の識別子の非存在は、バイナリ文字列内の第２の記号値に対応する。いくつかの実施形態では、第１の記号値は１のビット値であり、第２の記号値は０のビット値である。いくつかの実施形態では、第１の記号値は０のビット値であり、第２の記号値は１のビット値である。

いくつかの実施形態では、識別子ライブラリ内に個々の識別子を構築することは、１またはそれを超える層から１またはそれを超える成分をアセンブリすることを含み、１またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、識別子ライブラリからの個々の識別子は、１またはそれを超える層の各層からの１つの成分を含む。いくつかの実施形態では、１またはそれを超える成分は、固定された順序でアセンブリされる。いくつかの実施形態では、１またはそれを超える成分は、ランダムな順序でアセンブリされる。いくつかの実施形態では、１またはそれを超える成分は、１またはそれを超える層の異なる層からの２つの成分の間に配置された１またはそれを超えるパーティション成分と共にアセンブリされる。いくつかの実施形態では、個々の識別子は、１またはそれを超える層のサブセットの各層からの１つの成分を含む。いくつかの実施形態では、個々の識別子は、１またはそれを超える層の各々からの少なくとも１つの成分を含む。いくつかの実施形態では、１またはそれを超える成分は、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）、ポリメラーゼサイクリングアセンブリ、粘着末端ライゲーション、バイオブリックアセンブリ、ゴールデンゲートアセンブリ、ギブソンアセンブリ、リコンビナーゼアセンブリ、リガーゼサイクリング反応、または鋳型指向ライゲーションを使用してアセンブリされる。

いくつかの実施形態では、識別子ライブラリ内に個体識別子を構築することは、核酸編集酵素を親識別子に適用することによって、親識別子内の少なくとも１つの成分を削除、置換、または挿入することを含む。いくつかの実施形態では、親識別子は、ヌクレアーゼ特異的標的部位、リコンビナーゼ認識部位または別個のスペーサー配列に隣接する複数の成分を含む。いくつかの実施形態では、核酸編集酵素は、ＣＲＩＳＰＲ－Ｃａｓ、ＴＡＬＥＮ、ジンクフィンガーヌクレアーゼ、リコンビナーゼおよびそれらの機能的変異体からなる群から選択される。

いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、および／または情報を秘匿化する。いくつかの実施形態では、メタデータは、情報のソース、情報の意図された受取人、情報の元のフォーマット、情報を符号化するために使用される機器および方法、情報を識別子ライブラリに書き込む日付および時間、情報に対して行われた修正、および／または他の情報への参照に対応する二次情報を含む。

いくつかの実施形態では、１またはそれを超える識別子ライブラリが組み合わされ、１またはそれを超える識別子ライブラリの各識別子ライブラリは別個のバーコードでタグ付けされる。いくつかの実施形態では、識別子ライブラリ内の各個々の識別子は、別個のバーコードを含む。いくつかの実施形態では、複数の識別子は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために選択される。いくつかの実施形態では、複数の識別子は、書き込みエラー、突然変異、劣化、および読み出しエラーを最小限に抑えるように選択される。

別の態様において、本開示は、核酸配列（複数可）に符号化された情報にコピーするための方法であって、（ａ）記号列を符号化する識別子ライブラリを提供することであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が１またはそれを超える成分含み、１またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個々の識別子が記号列の個々の記号に対応する、記号列を符号化する識別子ライブラリを提供することと、（ｂ）識別子ライブラリの１つまたは複数のコピーを構築することと、を含む方法を提供する。

いくつかの実施形態では、複数の識別子は、１またはそれを超えるプライマー結合部位を含む。いくつかの実施形態では、識別子ライブラリは、ポリメラーゼ連鎖反応（ＰＣＲ）等の核酸増幅を使用してコピーされる（化学的方法のセクションＤを参照されたい）。いくつかの実施形態では、ＰＣＲは従来のＰＣＲまたは線形ＰＣＲであり、識別子ライブラリのコピー数は、各ＰＣＲサイクルでそれぞれ倍増するかまたは線形に増加する。いくつかの実施形態では、ＰＣＲの前に、識別子ライブラリ中の個々の識別子を環状ベクターにライゲーションし、ここで、円ベクターは、個々の識別子の各末端に相関バーコードを含み、それにより、ＰＣＲ中に何らかの意図しないＤＮＡクロスオーバー事象が生じた場合、得られた誤って形成された分子が配列決定において検出可能になる。いくつかの実施形態では、ＰＣＲは等温である。いくつかの実施形態では、ＰＣＲはローリングサークル増幅の一形態である。いくつかの実施形態では、ＰＣＲはエマルジョンＰＣＲ（ｅＰＣＲ）である。

いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列がコピーされる。いくつかの実施形態では、コピーの前に１またはそれを超える識別子ライブラリが組み合わされ、１またはそれを超える識別子ライブラリの各ライブラリは別個のバーコードを含む。

別の態様において、本開示は、核酸配列（複数可）に符号化された情報にアクセスするための方法であって、（ａ）記号列を符号化する識別子ライブラリを提供することであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が１またはそれを超える成分含み、１またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個々の識別子が記号列の個々の記号に対応する、記号列を符号化する識別子ライブラリを提供することと、（ｂ）識別子ライブラリから複数の識別子の標的サブセットを抽出することと、を含む方法を提供する。

いくつかの実施形態では、複数のプローブが識別子ライブラリと組み合わされる。いくつかの実施形態では、複数のプローブは、識別子ライブラリからの複数の識別子の標的サブセットと相補性を共有する。いくつかの実施形態では、複数のプローブは、識別子ライブラリ内の複数の識別子の標的サブセットにハイブリダイズする。いくつかの実施形態では、複数のプローブは、１またはそれを超える親和性タグを含み、１またはそれを超える親和性タグは、核酸捕捉と呼ばれ得るプロセスにおいて、親和性ビーズまたは親和性カラムによって捕捉される（核酸捕捉に関する化学的方法のセクションＦを参照されたい）。

いくつかの実施形態では、識別子ライブラリは、複数のプローブの１またはそれを超えるサブセットと順次組み合わされ、識別子ライブラリの一部は、複数のプローブの１またはそれを超えるサブセットに結合する。いくつかの実施形態では、複数のプローブの１またはそれを超えるサブセットに結合する識別子ライブラリの部分は、複数のプローブの別のサブセットを識別子ライブラリに追加する前に除去される。核酸捕捉のこれらの実施形態では、捕捉された核酸は、保存される代わりに識別子プールから除去されてもよい。

いくつかの実施形態では、複数の識別子の個々の識別子は、１もしくはそれを超える共通プライマー結合領域、１もしくはそれを超える可変プライマー結合領域、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、識別子ライブラリは、１もしくはそれを超える共通プライマー結合領域、または１もしくはそれを超える可変プライマー結合領域に結合するプライマーと組み合わされる。いくつかの実施形態では、１またはそれを超える可変プライマー結合領域に結合するプライマーは、識別子ライブラリの標的サブセットを選択的に増幅するために使用される（化学的方法のセクションＤを参照されたい）。

いくつかの実施形態では、識別子の一部は、選択的ヌクレアーゼ切断によって識別子ライブラリから除去される。いくつかの実施形態では、識別子ライブラリはＣａｓ９およびガイドプローブと組み合わされ、ガイドプローブはＣａｓ９をガイドして識別子ライブラリから指定された識別子を除去する。いくつかの実施形態では、個々の識別子は一本鎖であり、識別子ライブラリは一本鎖特異的エンドヌクレアーゼ（複数可）と組み合わされる。いくつかの実施形態では、識別子ライブラリは、一本鎖特異的エンドヌクレアーゼ（複数可）の添加前に標的個体識別子を分解から保護する個体識別子の相補的なセットと混合される。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子は、サイズ選択的クロマトグラフィーによって分離される（核酸サイズ選択に関する化学的方法のセクションＥを参照されたい）。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子は増幅され、選択的ヌクレアーゼ切断によって切断される個々の識別子は増幅されない（核酸増幅に関する化学的方法のセクションＤを参照されたい）。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子が捕捉され、選択的ヌクレアーゼ切断によって切断される個々の識別子は捕捉されない（核酸捕捉に関する化学的方法のセクションＦを参照されたい）。いくつかの実施形態では、識別子ライブラリは、複数の核酸配列を含み、複数の核酸配列は、識別子ライブラリ内の複数の識別子の標的サブセットで抽出される。

別の態様では、本開示は、核酸配列（複数可）に符号化された情報を読み取るための方法であって、（ａ）複数の識別子を含む識別子ライブラリを提供することであって、複数の識別子の個々の識別子が１またはそれを超える成分を含み、１またはそれを超える成分の個々の成分が核酸配列を含む、複数の識別子を含む識別子ライブラリを提供することと、（ｂ）識別子ライブラリ内の複数の識別子を識別することと、（ｃ）（ｂ）で識別された複数の識別子から複数の記号を生成することであって、複数の記号の個々の記号が、複数の識別子の個々の識別子に対応する、（ｂ）で識別された複数の識別子から複数の記号を生成することと、（ｄ）複数の記号から情報をコンパイルすることと、を含む方法を提供する。

いくつかの実施形態では、当該記号列内の各記号は、２つの可能な記号値のうちの１つである。いくつかの実施形態では、当該記号列の各位置における１つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、当該２つの可能な記号値は０および１のビット値であり、当該記号列内の当該ビット値が０の当該個々の記号は、当該識別子ライブラリ内の別個の識別子の非存在によって表され得、当該記号列内の当該ビット値が１の当該個々の記号は、当該識別子ライブラリ内の当該別個の識別子の存在によって表され得、その逆も同様である。いくつかの実施形態では、識別子ライブラリ内の個々の識別子の存在は、バイナリ文字列内の第１の記号値に対応し、識別子ライブラリ内の個々の識別子の非存在は、バイナリ文字列内の第２の記号値に対応する。いくつかの実施形態では、第１の記号値は１のビット値であり、第２の記号値は０のビット値である。いくつかの実施形態では、第１の記号値は０のビット値であり、第２の記号値は１のビット値である。

いくつかの実施形態では、複数の識別子を識別することは、識別子ライブラリ内の複数の識別子を配列決定することを含む。いくつかの実施形態では、配列決定は、デジタルポリメラーゼ連鎖反応（ＰＣＲ）、定量的ＰＣＲ、マイクロアレイ、合成による配列決定、または超並列配列決定を含む。いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、および／または情報を秘匿化する。いくつかの実施形態では、１またはそれを超える識別子ライブラリが組み合わされ、１またはそれを超える識別子ライブラリ内の各識別子ライブラリは別個のバーコードを含む。いくつかの実施形態では、バーコードは情報のメタデータを格納する。

別の態様では、本開示は、核酸ベースのコンピュータデータストーレージのための方法であって、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成することであって、コンピュータデータが、合成された核酸分子の少なくともサブセットに符号化され、核酸分子の各々の配列にはコードされていない、コンピュータデータをコードする核酸配列を含む核酸分子を合成することと、（ｃ）核酸配列を有する核酸分子を格納することとを含む方法を提供する。

いくつかの実施形態では、核酸分子の少なくともサブセットは一緒にグループ化される。いくつかの実施形態では、本方法は、核酸配列（複数可）を決定するために核酸分子（複数可）を配列決定し、それによってコンピュータデータを検索することをさらに含む。いくつかの実施形態では、（ｂ）は、約１日未満の期間で行われる。いくつかの実施形態では、（ｂ）は、少なくとも約９０％の精度で行われる。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法であって、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータをコードする少なくとも１つの核酸配列を含む核酸分子を合成することであって、核酸分子を合成することが塩基ごとの核酸合成の非存在下である、コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成することと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を格納することとを含む方法を提供する。

いくつかの実施形態では、本方法は、核酸配列を決定するために核酸分子を配列決定し、それによってコンピュータデータを検索することをさらに含む。いくつかの実施形態では、（ｂ）は、約１日未満の期間で行われる。いくつかの実施形態では、（ｂ）は、少なくとも約９０％の精度で行われる。

別の態様では、本開示は、核酸を使用して二進シーケンスデータを符号化するためのシステムであって、識別子ライブラリを構築するように構成されたデバイスであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が１またはそれを超える成分を含み、１またはそれを超える成分の個々の成分が核酸配列である、デバイスと、１またはそれを超えるコンピュータプロセッサであって、該デバイスに動作可能に結合されており、（ｉ）情報を記号列に変換し、（ｉｉ）記号列を複数の識別子にマッピングするように個別にまたは集合的にプログラムされており、複数の識別子の個々の識別子が、記号列の個々の記号に対応し、（ｉｉｉ）複数の識別子を含む識別子ライブラリを構築する、１またはそれを超えるコンピュータプロセッサと、を備える、システムを提供する。

いくつかの実施形態では、デバイスは複数のパーティションを含み、識別子ライブラリは１またはそれを超える複数のパーティションで生成される。いくつかの実施形態では、複数のパーティションはウェルを含む。いくつかの実施形態では、識別子ライブラリ内に個々の識別子を構築することは、１またはそれを超える層から１またはそれを超える成分をアセンブリすることを含み、１またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、１またはそれを超える層の各層は、デバイスの別個の部分に格納され、デバイスは、１またはそれを超える層からの１つまたは複数の成分を組み合わせるように構成される。いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、１またはそれを超える識別子ライブラリは、デバイスの単一の領域内で組み合わされ、１またはそれを超える識別子ライブラリの各識別子ライブラリは、別個のバーコードを含む。

別の態様では、本開示は、核酸配列（複数可）に符号化された情報を読み取るためのシステムであって、複数の識別子を含む識別子ライブラリを格納するデータベースであって、複数の識別子の個々の識別子が１またはそれを超える成分を含み、１またはそれを超える成分の個々の成分が核酸配列を含む、データベースと、データベースに動作可能に結合された１またはそれを超えるコンピュータプロセッサであって、１またはそれを超えるコンピュータプロセッサが、（ｉ）識別子ライブラリ内の複数の識別子を識別し、（ｉｉ）（ｉ）で識別された複数の識別子から複数の記号を生成し、複数の記号の個々の記号が、複数の識別子の個々の識別子に対応し、（ｉｉｉ）複数の記号から情報をコンパイルするように、個別にまたは集合的にプログラムされる、１またはそれを超えるコンピュータプロセッサとを備える、システムを提供する。

いくつかの実施形態では、システムは、複数のパーティションをさらに備える。いくつかの実施形態では、パーティションはウェルである。いくつかの実施形態では、複数のパーティションの所与のパーティションは、１またはそれを超える識別子ライブラリを含み、１またはそれを超える識別子ライブラリの各識別子ライブラリは、別個のバーコードを含む。いくつかの実施形態では、システムは、識別子ライブラリ内の複数の識別子を識別するように構成された検出ユニットをさらに備える。

本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明は、本明細書内で提供される特定の例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明および例示は、限定的な意味で解釈されることを意味しない。当業者であれば、現在、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、任意のそのような代替形態、修正形態、変形形態または均等物も包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物がそれによって包含されることが意図される。

Claims

化学反応を実行するためのシステムであって、
供給源リザーバと、
前記供給源リザーバおよび主チャネルと流体連通する投入チャネルであって、前記投入チャネルが、前記供給源リザーバからの反応体積を主チャネルに分配するように構成され、前記主チャネルが、エレクトロウェッティングを介して複数の液滴として前記反応体積を搬送するように構成された前記主チャネルの内面上に複数のパッドを備える、投入チャネルと、
前記複数の液滴を前記主チャネルからプールに受け入れるように構成された宛先リザーバと、
を備える、化学反応を実行するためのシステム。
前記複数のパッドの各パッドが、電極、誘電材料、および疎水性表面を含む、請求項１に記載のシステム。
前記複数のパッドが、前記内面上にアレイとして配置され、前記アレイが、前記アレイのパッド列に沿って前記複数の液滴の個々の液滴を搬送するように構成され、前記アレイが、複数のパッド列を備え、各パッド列が、前記主チャネルの長さに沿って延在する、請求項１または２のいずれかに記載のシステム。
前記複数のパッド列が、複数の液滴を並行して搬送するように構成される、請求項３に記載のシステム。
前記主チャネルの前記内面の上方の高さｈに位置するカバープレートをさらに備え、前記高さｈが、前記主チャネルを一次元で画定する、請求項３および４のいずれかに記載のシステム。
前記主チャネルの前記高さｈ、前記主チャネルの幅ｗ、前記主チャネルを通る前記複数の液滴の液滴速度ｖ、および前記複数の液滴によって占有される前記主チャネルの平均部分体積ｏのうちの少なくとも１つが、ｈ＊ｗ＊ｖ＊ｏに等しい前記システムの有効流量が、目標時間量で前記主チャネルを通って前記供給源リザーバ内の初期反応体積を移動させるのに十分であるように構成される、請求項５に記載のシステム。
前記初期反応体積が約１リットル以上であり、前記目標時間量が約２時間以下である、請求項６に記載のシステム。
前記液滴速度ｖが、前記液滴速度がｘ＊ｆに等しくなるようにパッド長さｘおよびパッドスイッチング周波数ｆによって決定される、請求項６～７のいずれかに記載のシステム。
前記複数のパッドが、目標温度に設定されたパッド行を含む、請求項３～８のいずれかに記載のシステム。
前記アレイが、複数の目標温度に設定された複数のパッド行を備え、各パッド列が、複数の目標温度に設定された前記複数のパッド行の各パッド行からのパッドを備え、それにより、液滴が、前記アレイの個々のパッド列に沿って搬送される際に前記複数の目標温度に曝される、請求項９に記載のシステム。
前記アレイが、前記主チャネルの前記長さに沿って周期的な温度パターンを有するパッド行のパターン備える、請求項１０に記載のシステム。
前記パターンが温度サイクルを規定し、前記アレイが前記パターンの複数のインスタンスを含む、請求項１１に記載のシステム。
前記反応体積がポリメラーゼ連鎖反応（ＰＣＲ）処方であり、個々のサイクルの前記複数の標的温度が、二本鎖ＤＮＡ、アニーリングプライマーおよび伸長プライマーを溶融するために構成される、請求項１１～１２のいずれかに記載のシステム。
前記温度サイクルの個々の温度に対するパッドスイッチング周波数およびパッド行の数が、個々の液滴が前記個々の温度で目標時間を費やすように設定される、請求項１２～１３のいずれかに記載のシステム。
前記主チャネルの前記長さが、前記パターンのインスタンスの数×パターン長と少なくとも同じ長さである、請求項１２～１４のいずれかに記載のシステム。
前記複数のパッドのうちの１つのパッドが酵素とコンジュゲートされる、請求項１～１５のいずれかに記載のシステム。
前記複数のパッドのうちの１つのパッドが酵素を捕捉するように構成される、請求項１～１５のいずれかに記載のシステム。
前記複数の液滴の各液滴が磁気ビーズを含有し、前記酵素が前記磁気ビーズに結合しており、前記パッドが、前記酵素が結合している前記磁気ビーズを捕捉するように構成された電磁石を備える、請求項１７に記載のシステム。
前記酵素がポリメラーゼである、請求項１６～１８のいずれかに記載のシステム。
前記複数の液滴を前記供給源リザーバから前記投入チャネルを介して前記主チャネルに搬送するように構成された投入ポンプをさらに備える、請求項１～１９のいずれかに記載のシステム。
前記主チャネルから前記宛先リザーバに液滴を吸引するように構成された排出ポンプをさらに備える、請求項１～２０のいずれかに記載のシステム。
前記投入ポンプおよび前記排出ポンプのうちの少なくとも１つが、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの１つである、請求項２０～２１のいずれかに記載のシステム。
前記供給源リザーバが加圧される、請求項１～２２のいずれかに記載のシステム。
前記宛先リザーバが減圧される、請求項１～２３のいずれかに記載のシステム。
前記宛先リザーバが、反応を阻害するように構成された試薬をさらに含む、請求項１～２４のいずれかに記載のシステム。
前記試薬がＥＤＴＡである、請求項２５に記載のシステム。
前記主チャネルが空気を含む、請求項１～２６のいずれかに記載のシステム。
前記主チャネルが油を含む、請求項１～２６のいずれかに記載のシステム。
前記反応体積が、デジタル情報を符号化するＤＮＡ分子のライブラリを含む、請求項１～２８のいずれかに記載のシステム。
前記反応体積がゲノムＤＮＡのライブラリを含む、請求項１～２８のいずれかに記載のシステム。
前記反応体積が、スクリーニングのためのＤＮＡ変異体のライブラリを含む、請求項１～２８のいずれかに記載のシステム。
前記宛先リザーバが、前記プールの少なくとも一部を容器内または基板上に分注するように構成されたディスペンサを備える、請求項１～３１のいずれかに記載のシステム。
前記主チャネルおよび前記宛先リザーバと流体連通する排出チャネルをさらに備え、前記排出チャネルが、前記複数の液滴を前記主チャネルから前記宛先リザーバに搬送するように構成される、請求項１～３２のいずれかに記載のシステム。
請求項１～３３のいずれかに記載の主チャネルを備えるデバイス。
化学反応を実行するためのデバイスであって、
底面と、
前記底面に配置された複数のパッドと、
前記底面の第１の末端にある入口と
前記第１の末端の反対側の前記底面の第２の末端にある出口と
前記底面の上方のチャネル高さに位置するカバーとを備え、
前記底面および前記カバーが、前記チャネル高さによって特徴付けられるチャネルを規定する、化学反応を実行するためのデバイス。
前記複数のパッドの各パッドが、電極、誘電材料、および疎水性表面を備える、請求項３５に記載のデバイス。
各パッドが、前記底面と前記カバーとの間に電界を発生させるように構成されている、請求項３６に記載のデバイス。
前記複数のパッドが、前記底面上にアレイとして配置され、前記アレイが、複数のパッド行および複数のパッド列を備え、各パッド列が各パッド行と交差し、その逆も同様であり、各パッド列が各パッド行からのパッドを備え、その逆も同様である、請求項３５～３７のいずれかに記載のデバイス。
各パッド行が目標温度にある、請求項３８に記載のデバイス。
前記アレイが、複数のセットのパッド行を備え、各セットが目標温度にあり、１またはそれを超えるパッド行を備える、請求項３８に記載のデバイス。
前記アレイが温度サイクルのパターンを含み、各温度サイクルが複数のセットを備え、前記温度サイクルにおける前記複数のセットの各セットが異なる目標温度を有する、請求項４０に記載のデバイス。
前記チャネルが、複数の液滴として凝集反応体積を含有する、請求項３５～３８のいずれかに記載のデバイス。
前記複数のパッドが、前記入口から前記出口に前記液滴を搬送するように配置され、前記入口から前記出口への方向が、前記チャネル高さに直交する、請求項３９に記載のデバイス。
前記凝集反応体積が、デジタル情報を符号化するＤＮＡ分子のライブラリ、ゲノムＤＮＡ分子のライブラリ、スクリーニング用のＤＮＡ変異体のライブラリ、またはＲＮＡのライブラリのうちの１つまたは複数を含む、請求項４２および４３のいずれかに記載のデバイス。
前記チャネル高さｈ、前記チャネルの幅ｗ、前記チャネルを通る前記複数の液滴の液滴速度ｖ、および前記複数の液滴によって占められる前記チャネルの平均部分体積ｏのうちの少なくとも１つが、ｈ＊ｗ＊ｖ＊ｏに等しい前記デバイスの有効流量が、前記凝集反応体積を目標時間量で前記入口から前記出口まで前記チャネルを通って移動させるのに十分であるように構成される、請求項３９および４０のいずれかに記載のデバイス。
前記複数のパッドのうちの１つのパッドが酵素とコンジュゲートされる、請求項３５～４５のいずれかに記載のデバイス。
前記複数のパッドのうちの１つのパッドが酵素を捕捉するように構成される、請求項３５～４５のいずれかに記載のデバイス。
前記パッドが、前記酵素が結合している磁気ビーズを捕捉するように構成された電磁石を備える、請求項４７に記載のデバイス。
前記酵素がポリメラーゼである、請求項４６～４８のいずれかに記載のデバイス。
前記供給源リザーバおよび前記チャネルの前記入口の各々と流体連通する投入チャネルを介して、供給源リザーバから前記チャネル内に初期反応体積を搬送するように構成された投入ポンプをさらに備える、請求項３５～４９のいずれかに記載のデバイス。
前記チャネルの前記出口および前記宛先リザーバのそれぞれと流体連通する排出チャネルを介して、前記チャネルから前記宛先リザーバに流体または粒子を搬送するように構成された排出ポンプをさらに備える、請求項３５～５０のいずれかに記載のデバイス。
前記投入ポンプおよび前記排出ポンプのうちの少なくとも１つが、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの１つである、請求項５０～５１のいずれかに記載のデバイス。
前記チャネルが、前記底面と前記カバーとの間に空気を含む、請求項１～２６のいずれかに記載のシステム。
前記チャネルが、前記底面と前記カバーとの間に油を含む、請求項１～２６のいずれかに記載のシステム。