JP2021524229A

JP2021524229A - 核酸ベースのデータ記憶のための組成物および方法

Info

Publication number: JP2021524229A
Application number: JP2020564340A
Authority: JP
Inventors: ナサニエルロケ，; ヒョンジュンパク，; スワプニルピー．バティア，; デビンリーク，
Original assignee: カタログテクノロジーズ，インコーポレイテッド
Priority date: 2018-05-16
Filing date: 2019-05-16
Publication date: 2021-09-13
Also published as: EP3794598A1; US20200193301A1; AU2019270159A1; US11227219B2; WO2019222561A1; CA3100529A1; US20210209479A1; KR20210029147A

Abstract

本開示は、デジタル情報を様々な方法で核酸分子に記憶させるためのシステムおよび方法を提供する。デジタル情報は、記号列として受信することができ、記号列における各記号は、記号列内で記号値および記号位置を有する。第１の識別子核酸分子は、Ｍ個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって形成され得る。各々がそれぞれの記号位置に対応する、複数の識別子核酸分子が形成され得る。識別子核酸分子は、粉末、液体、または固体形態を有するプール中に形成され得る。

Description

関連出願の相互参照
本願は、２０１８年５月１６日に出願され、「ＣＯＭＰＯＳＩＴＩＯＮＳＡＮＤＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ−ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」と題する米国特許仮出願第６２／６７２，４９５号の優先権および恩典を主張する。上記で参照した出願の全内容は、参照により本明細書に組み込まれる。

核酸デジタルデータ記憶は、情報を符号化し、長期間にわたって記憶するための安定した手法であり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で保管される核酸分子に記憶されたデジタルデータを、６０，０００年もの年数またはそれより長い年数を経た後に取得することができる。

核酸分子に記憶されたデジタルデータにアクセスするために、核酸分子をシークエンシングすることができる。しかるが故に、核酸デジタルデータ記憶は、長期間にわたって記憶またはアーカイブされる大量の情報を有し得るが稀にしかアクセスされないデータを記憶させるための理想的な方法であり得る。

現行の方法は、配列内の塩基間の関係をデジタル情報（例えば、２進コード）に直接変換するような、塩基毎の核酸配列へのデジタル情報（例えば、２進コード）の符号化に依拠する。デジタル符号化された情報のビットストリームまたはバイトに読み込むことができる、塩基毎の配列に記憶されたデジタルデータのシークエンシングは、エラーを起こしやすい可能性があり、塩基毎のデノボ核酸合成の費用が高価であり得るため符号化費用が嵩み得る。核酸デジタルデータ記憶を実施する新規方法の機会は、あまり費用が嵩まず、商業的インプリメンテーションがより容易である、データの符号化および取得のための手法を提供し得る。

本開示は、デジタル情報を様々な方法で核酸分子に記憶させて、そのデジタル情報の回収およびアクセスの効率を改善するためのシステムおよび方法を提供する。例えば、成分核酸分子（例えば、成分）を選択し、互いに連結して、その各々が記号列（例えばビットストリーム）における特定の記号（例えば、ビットまたは一連のビット）またはその記号の位置（例えば、ランクまたはアドレス）に対応する識別子核酸分子（例えば、識別子）を形成する。それらの成分は、デジタルデータを表す効率的なスキームを提供するために構造化された様式で構築することができる。例えば、成分の構造により、複数の成分分子を同じコンパートメントに蓄積または分配した後に、成分分子を自己アセンブルするか、または他のやり方で既定の順序で成分分子を選別することができる。

本明細書において、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択するステップ、（２）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、（３）（２）におけるＭ個の選択された成分核酸分子を物理的にアセンブルして、第１および第２の末端分子ならびに第１および第２の末端分子の間に位置する第３の分子を有する第１の識別子核酸分子を形成し、したがって第１および第２の層からの成分核酸分子が識別子核酸分子の第１および第２の末端分子に対応し、第３の層における成分核酸分子が識別子核酸分子の第３の分子に対応し、第１の識別子核酸分子におけるＭ個の層の物理的順序を定義するステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々が（１）第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、（２）それぞれの記号位置に対応する、複数の追加の識別子核酸分子を形成するステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における第１の識別子核酸分子の標的分子と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。

一部のインプリメンテーションでは、識別子核酸分子の集団は、同じ標的分子を共有し、同じプール中の他の識別子核酸分子は、異なる標的分子を有し得る。少なくとも１つの追加の識別子核酸分子の第１および第２の末端分子のうちの少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり得る。一部のインプリメンテーションでは、Ｍ個の選択された成分核酸分子を物理的にアセンブルするステップは、成分核酸分子のライゲーションを含む。

一部のインプリメンテーションでは、各層からの成分核酸分子は、（ｂ）および（ｃ）における識別子核酸分子の形成のための付着末端ライゲーションを可能にするために、別の層からの成分核酸分子の少なくとも１つの付着末端に相補的である少なくとも１つの付着末端を含む。例えば、各層（例えば、Ａ、Ｂ、Ｃ）内の全ての成分が、互いと同じ付着末端を有してもよく、層Ａにおける全ての成分の１つの付着末端は、層Ｂにおける全ての成分の１つの付着末端に相補的である。その上、層Ｂにおける全ての成分の他の付着末端は、層Ｃにおける全ての成分の１つの付着末端に相補的であり得る等々である。一部のインプリメンテーションでは、（ｃ）における少なくとも１つの追加の識別子核酸分子の第１の分子は、（ｂ）における識別子核酸分子の第１の末端分子と同一であり、（ｃ）における少なくとも１つの追加の識別子核酸分子の第２の末端分子は、（ｂ）における識別子核酸分子の第２の末端分子と同一である。

一部のインプリメンテーションでは、方法は、プローブを使用して、第１の識別子核酸分子における少なくとも一部の識別子核酸分子および複数の追加の識別子核酸分子の標的分子とハイブリダイズさせて、連続する記号位置を有するそれぞれの記号に対応する識別子核酸分子を選択するステップをさらに含む。連続する記号位置を有する記号は、互いに隣接し、類似の近傍にあるために類似の特徴を共有し得る。したがって、同じプローブを使用して互いに近位に位置する識別子核酸分子を選択することが望ましいであろう。一部のインプリメンテーションでは、方法は、単一のＰＣＲ反応を適用して、連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を増幅するステップをさらに含む。一部のインプリメンテーションでは、連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を、識別子核酸分子の第３の分子における特異的成分核酸分子を標的とする別のＰＣＲ反応によってさらに増幅することができる。

一部のインプリメンテーションでは、各層における成分核酸分子は、第１および第２の末端領域と共に構造化され、Ｍ個の層のある層からの各成分核酸分子の第１の末端領域は、Ｍ個の層の別の層からの任意の成分核酸分子の第２の末端領域に結合するように構造化される。一部のインプリメンテーションでは、Ｍは、３より大きいかまたは３に等しい。一部のインプリメンテーションでは、記号列内の各記号位置は、対応する異なる識別子核酸分子を有する。一部のインプリメンテーションでは、（ｂ）および（ｃ）における識別子核酸分子は、Ｍ個の層の各々からの１つの成分核酸分子を各々が含む、可能な識別子核酸分子の組合せ空間のサブセットを表す。

一部のインプリメンテーションでは、（ｄ）におけるプール中の識別子核酸分子の存在または非存在は、記号列内の対応するそれぞれの記号位置の記号値を表す。例えば、識別子の存在は、対応する記号位置での記号値が１であることを表し得るが、非存在は、記号値がゼロであることを表し、またはその逆も当てはまる。一部のインプリメンテーションでは、連続する記号位置を有する記号は、類似のデジタル情報を符号化する。一部のインプリメンテーションでは、Ｍ個の層の各々における成分核酸分子の数の分布は非均一である。例えば、１つの層は、識別子核酸分子を創出するための可能な順列の数および／または種類を調整するために、別の層より多くの成分核酸分子を有し得る。

一部のインプリメンテーションでは、第３の層が第１の層または第２の層のいずれかより多い成分核酸分子を含む場合、（ｄ）におけるプールにアクセスするために使用されるＰＣＲクエリは、第３の層が第１の層または第２の層のいずれかより少ない成分核酸分子を含む場合よりアクセスされた識別子核酸分子の大きいプールをもたらす。

一部のインプリメンテーションでは、第３の層が第１の層または第２の層のいずれかより少ない成分核酸分子を含む場合、（ｄ）におけるプールにアクセスするために使用されるＰＣＲクエリは、第３の層が第１の層または第２の層のいずれかより多い成分核酸分子を含む場合よりアクセスされた識別子核酸分子の小さいプールをもたらし、アクセスされた識別子核酸分子のより小さいプールは、記号列における記号に対するアクセスのより高い分解能に対応する。

一部のインプリメンテーションでは、第１の層は最高の優先順位を有し、第２の層は第２の高い優先順位を有し、残りのＭ−２個の層は第１および第２の末端分子の間の対応する成分核酸分子を有する。一部のインプリメンテーションでは、（ｄ）におけるプールを、１つのＰＣＲ反応において第１および第２の末端分子で特定の成分核酸分子を有するプール中の全ての識別子核酸分子にアクセスするために使用することができる。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択するステップ、（２）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、および（３）（２）におけるＭ個の選択された成分核酸分子を物理的にアセンブルして、第１および第２の末端分子ならびに第１および第２の末端分子の間に位置する第３の分子を有する第１の識別子核酸分子を形成し、したがって第１および第２の層からの成分核酸分子が識別子核酸分子の第１および第２の末端分子に対応し、第３の層における成分核酸分子が識別子核酸分子の第３の分子に対応し、第１の識別子核酸分子におけるＭ個の層の物理的順序を定義するステップとを含む方法を提供する。

一部のインプリメンテーションでは、方法は、上記のステップ（ａ）と、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む。

一部のインプリメンテーションでは、Ｍ個の層の少なくとも一部は、イメージデータの異なる特色に対応する。一部のインプリメンテーションでは、異なる特色は、ｘ座標、ｙ座標、および強度の値または強度の値の範囲を含む。イメージデータを核酸分子に記憶させるステップは、本明細書に記載のアクセススキームのいずれかなどのランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にし得る。一部のインプリメンテーションでは、イメージデータを核酸分子に記憶させるステップは、イメージデータを、イメージデータの元の分解能の分率で復号することを可能にする。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々が、第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における第１の識別子核酸分子の標的分子と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。イメージデータを核酸分子に記憶させるステップは、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にし得る。

一部のインプリメンテーションでは、イメージデータを核酸分子に記憶させるステップは、イメージデータを、イメージデータの元の分解能の分率で復号することを可能にし、その分率でイメージデータを復号するステップを使用して、監視イメージのアーカイブまたはビデオアーカイブにおいて特定の視覚的特色に関して検索し、目的のフレームを識別する。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々が、第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における第１の識別子核酸分子の標的分子と同一であり、Ｍ個の選択された成分核酸分子を物理的にアセンブルして（ｂ）における識別子核酸分子を形成するステップが、クリックケミストリーを使用するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。デジタル情報を記憶させる方法のステップ（ｃ）は、上記で列挙したように、第１および第２の末端分子ならびに第３の分子を有する分子を形成するステップを実施することなく、各々がそれぞれの記号位置に対応する複数の識別子核酸分子を一般的に形成するステップを伴い得る。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を、クリックケミストリーを使用して物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップと、（ｅ）プールにおいて回収されたデータを削除するステップとを含む方法を提供する。一部のインプリメンテーションでは、ステップ（ｃ）は、各々が、第１および第２の末端分子ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における第１の識別子核酸分子の標的分子と同一であり、Ｍ個の選択された成分核酸分子を物理的にアセンブルして（ｂ）における識別子核酸分子を形成するステップが、クリックケミストリーを使用するステップを含む。

一部のインプリメンテーションでは、方法は、（ｄ）におけるプールからの選択識別子核酸分子を引き下げる配列特異的プローブを使用して、データを選択的に削除するステップをさらに含む。一部のインプリメンテーションでは、選択識別子核酸分子は、ＣＲＩＳＰＲに基づく方法を使用して選択的に削除される。一部のインプリメンテーションでは、方法は、（ｄ）におけるプール中の識別子核酸分子を不鮮明にして（obfuscating）、データをアクセス不能にするかまたは読み取りを困難もしくは不可能にすることによって、データを非選択的に削除するステップをさらに含む。一部のインプリメンテーションでは、方法は、超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のＤＮＡ修飾剤による処置、放射線照射、燃焼、および非特異的ヌクレアーゼ消化を使用して、（ｄ）におけるプールから識別子核酸分子を分解させて、データを非選択的に削除するステップをさらに含む。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）記号列を、固定された長さ以下のサイズの１つまたは複数のブロックに分割するステップと、（ｃ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｄ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｅ）粉末、液体、または固体形態を有するプール中の（ｄ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。

一部のインプリメンテーションでは、上記のステップ（ｄ）における複数の識別子核酸分子は各々が、第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応し、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つは（ｂ）における第１の識別子核酸分子の標的分子と同一である。

一部のインプリメンテーションでは、方法は、記号列に基づいて各ブロックのサイズを決定するステップ、必要条件を処理するステップ、またはデジタル情報の意図される適用をさらに含む。一部のインプリメンテーションでは、方法は、各ブロックのハッシュを計算するステップをさらに含む。一部のインプリメンテーションでは、方法は、１つまたは複数のエラー検出補正を各ブロックに適用するステップ、および１つまたは複数のエラー保護バイトを計算するステップをさらに含む。一部のインプリメンテーションでは、方法は、１つまたは複数のブロックを、符号化または復号の際の化学条件を最適化するコードワードのセットにマッピングするステップをさらに含む。一部のインプリメンテーションでは、固定された数の識別子核酸分子がライターシステムにおける各反応コンパートメントにおいて、各反応コンパートメント内および反応コンパートメントを超えてほぼ等しい濃度でアセンブルされるように、コードワードのセットは固定された重みを有する。

ある態様では、本開示は、核酸分子に記憶されているデジタル情報について計算を実施する方法を提供する。重要なことに、その計算は、分子のプールから実際のデジタル情報を読み取るまたは復号する必要なく実施され得る。計算は、ＡＮＤ、ＯＲ、ＮＯＴ、またはＮＡＮＤ操作などのブール論理ゲートの任意の組合せを含み得る。具体的には、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップと、（ｅ）（ｄ）における識別子核酸分子を使用して記号列についてＡＮＤ、ＯＲ、ＮＯＴ、またはＮＡＮＤを含むブール論理操作を伴う計算を実施して、新規核酸分子プールを産生するステップとを含む方法を提供する。そのような新規核酸分子プールは、計算の結果または出力を表し得る。

一部のインプリメンテーションでは、上記の（ｃ）における識別子核酸分子は各々が、第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応し、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つは（ｂ）における第１の識別子核酸分子の標的分子と同一である。

一部のインプリメンテーションでは、計算は、識別子核酸分子のいずれも復号することなく（ｄ）における識別子核酸分子のプールについて実施され、記号列における任意の記号を得る。一部のインプリメンテーションでは、計算を実施するステップは、ハイブリダイゼーションおよび切断を含む一連の化学操作を含む。

一部のインプリメンテーションでは、（ａ）における記号列はａと表示されてサブビットストリームｓを含み、（ｄ）におけるプール中の複数の識別子核酸分子は二本鎖でありｄｓＡと表示され、方法は、ｄｓＢと表示されてサブビットストリームｔを含むｂと表示される別の記号列を表す別の複数の識別子核酸分子の別のプールを得るステップをさらに含み、計算はｄｓＡおよびｄｓＢについて一連のステップを実施することによってサブビットストリームｓおよびｔについて実施される。一部のインプリメンテーションでは、ｄｓＡおよびｄｓＢについての一連のステップは、ｄｓＡにおける二本鎖識別子核酸分子を、Ａと表示されるプラス鎖一本鎖型に変換するステップと、ｄｓＡにおける二本鎖識別子核酸分子を、Ａ^＊と表示されるマイナス鎖一本鎖型に変換するステップであって、Ａ^＊がＡの逆相補鎖であるステップと、ｄｓＢにおける二本鎖識別子核酸分子を、Ｂと表示されるプラス鎖一本鎖型に変換するステップと、ｄｓＢにおける二本鎖識別子核酸分子を、Ｂ^＊と表示されるマイナス鎖一本鎖型に変換するステップであって、Ｂ^＊がＢの逆相補鎖であるステップと、ｓに対応するｄｓＡにおける識別子核酸分子としてｄｓＰを選択するステップと、ｓに対応するＡにおける識別子核酸分子としてＰを選択するステップと、ｔに対応するｄｓＢにおける識別子核酸分子としてｄｓＱを選択するステップと、ｔに対応するＢ^＊における識別子核酸分子としてＱ^＊を選択するステップとを含む、初期設定ステップを実施するステップを含む。

一部のインプリメンテーションでは、計算はＡＮＤ操作であり、ｄｓＡおよびｄｓＢについての一連のステップは、ＡおよびＢ^＊を組み合わせるステップによってａとｂとの間でＡＮＤ操作を実施するステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を新規核酸分子プールとして選択するステップをさらに含む。一部のインプリメンテーションでは、計算はＯＲ操作であり、ｄｓＡおよびｄｓＢについての一連のステップは、ＰおよびＱ^＊を組み合わせるステップによってｓとｔとの間でＡＮＤ操作を実施するステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を新規核酸分子プールとして選択するステップをさらに含む。

一部のインプリメンテーションでは、完全な相補的核酸分子を選択するステップは、クロマトグラフィー、ゲル電気泳動、一本鎖特異的エンドヌクレアーゼ、一本鎖特異的エキソヌクレアーゼ、またはその組合せを使用するステップを含む。

一部のインプリメンテーションでは、計算はＯＲ操作であり、ｄｓＡおよびｄｓＢについての一連のステップは、ｄｓＡおよびｄｓＢを組み合わせることによってａとｂとの間でＯＲ操作を実施し、新規核酸分子プールを産生するステップを含む。一部のインプリメンテーションでは、計算はＯＲ操作であり、ｄｓＡおよびｄｓＢについての一連のステップは、ｄｓＰおよびｄｓＱを組み合わせることによってｓとｔとの間でＯＲ操作を実施し、新規核酸分子プールを産生するステップをさらに含む。

一部のインプリメンテーションでは、方法は、ＡまたはｄｓＡを更新して、新規核酸分子プールを含むステップをさらに含み、それによってＡまたはｄｓＡは操作の出力を表すことができる。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）複数の識別子核酸分子を形成するステップと、（ｃ）（ｂ）および（ｃ）における識別子核酸分子を異なるビンに区分化するステップであって、各ビンが異なる記号値に対応するステップとを含む方法を提供する。

一部のインプリメンテーションでは、（ｂ）における第１の識別子核酸分子を形成するステップは、（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択するステップと、（２）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積するステップと、（３）（２）におけるＭ個の選択された成分核酸分子を物理的にアセンブルして、第１および第２の末端分子ならびに第１および第２の末端分子の間に位置する第３の分子を有する第１の識別子核酸分子を形成し、したがって第１および第２の層からの成分核酸分子が識別子核酸分子の第１および第２の末端分子に対応し、第３の層における成分核酸分子が識別子核酸分子の第３の分子に対応し、第１の識別子核酸分子におけるＭ個の層の物理的順序を定義するステップによって第１の識別子核酸分子を形成するステップとを含む。一部のインプリメンテーションでは、特定の記号値を有する各記号の記号位置は、その値のために用意したビンに記録され、ビンは（２）におけるコンパートメントである。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）複数の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。

一部のインプリメンテーションでは、上記のステップ（ｃ）は、各々が第１および第２の末端分子、ならびに第１および第２の末端分子の間に位置する第３の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における第１の識別子核酸分子の標的分子と同一であるステップを含む。

一部のインプリメンテーションでは、Ｍ個の選択された成分の個々の成分は複数の部分を含み、各部分は核酸分子を含み、各部分は１つまたは複数の化学的方法によって同じ識別子に連結される。一部のインプリメンテーションでは、前記複数の部分は各々が、異なるデータ記憶操作に関して個別の機能的目的を果たす。一部のインプリメンテーションでは、前記機能的目的は、シークエンシングの容易さおよび核酸ハイブリダイゼーションによるアクセスの容易さを含む。一部のインプリメンテーションでは、第１の識別子核酸分子を形成するステップは、ｄＣａｓ９−デアミナーゼなどの塩基エディターを適用することによって、親識別子における１つまたは複数の塩基をプログラム可能に突然変異させるステップを含む。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）塩基エディターを適用することによって、親識別子における１つまたは複数の塩基をプログラム可能に突然変異させることによって、第１の識別子核酸分子を形成するステップと、（ｃ）各識別子核酸分子がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。一例では、（ｂ）において適用される塩基エディターの１つは、ｄＣａｓ９−デアミナーゼである。

ある態様では、本開示は、１つまたは複数のランダムプロセスから産生されたデジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるＭ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびＭ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。

一部のインプリメンテーションでは、本開示は、適用が、情報の暗号化、エンティティの認証、または無作為化を伴う適用におけるエントロピー源としてのその使用を含む、上記の方法または上記の方法のいずれかの適用を提供する。一部のインプリメンテーションでは、１つまたは複数の分離している識別子ライブラリーからの識別子を使用してエンティティまたは物理的位置を一意に識別する。

ある態様では、本開示は、複数のランダムＤＮＡ種のパーティションにおいてデジタル情報を符号化するための方法を提供する。

ある態様では、本開示は、可能なＤＮＡ種の大きい組合せプールからＤＮＡ種を無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成する方法を提供する。

ある態様では、本開示は、可能なＤＮＡ種の大きい組合せプールからＤＮＡ種のサブセットを無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成および記憶させる方法を提供する。

一部のインプリメンテーションでは、前記ＤＮＡ種のサブセットを増幅して、各々の種の複数のコピーを作製する。一部のインプリメンテーションでは、エラー調査および補正のための核酸分子を前記ＤＮＡ種のサブセットに追加して、頑強な将来の読み出しを可能にする。一部のインプリメンテーションでは、前記ＤＮＡ種のサブセットを一意の分子によってバーコード化し、ＤＮＡ種のバーコード化サブセットのプールにおいて組み合わせる。一部のインプリメンテーションでは、前記ＤＮＡ種のバーコード化サブセットのプール中のＤＮＡ種の特定のサブセットは、ＰＣＲまたは核酸捕捉のための入力核酸プローブによってアクセス可能である。

ある態様では、本開示は、（１）規定のセットからのＤＮＡ種のサブセットで構成されるＤＮＡキーと、（２）キーを承認して、前記アーチファクトを局所でロック解除するためにマッチするキーを検索するか、またはハッシュされたトークンを返却して他のアーチファクトにアクセスするＤＮＡリーダーとを含むシステムによってアーチファクトを保証および認証する方法を提供する。一部のインプリメンテーションでは、方法は、生物学的応用のためにＤＮＡ断片を組合せ的にアセンブルするステップをさらに含む。

ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択するステップ、（２）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、（３）（２）におけるＭ個の選択された成分核酸分子を物理的にアセンブルして、指定成分を含む第１の識別子核酸分子を形成するステップであって、指定成分が、指定成分を含有する識別子のアクセスを可能にするために少なくとも１つの標的分子を含むステップによって第１の識別子核酸分子を形成するステップと、（ｃ）各々が指定成分を有する、複数の追加の識別子核酸分子を物理的にアセンブルするステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、指定成分が、（ｂ）における第１の識別子核酸分子の少なくとも１つの標的分子を含むステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸分子を回収するステップとを含む方法を提供する。
参照による組込み

本明細書で言及される全ての公表文献、特許および特許出願は、個々の公表文献、特許または特許出願各々が参照により組み込まれると具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる公表文献および特許または特許出願が、本明細書に収載される本開示と相反する場合は、本明細書は、一切のそのような相反する物質に取って代わるおよび／または優先するように意図されている。

本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本発明の原理を利用する例示的な実施形態が記載されている以下の詳細な説明、および付属図（本明細書では「図（Ｆｉｇｕｒｅ）」および「図（ＦＩＧ．）」とも）を参照することにより、本発明の特徴および利点のよりよい理解が得られるであろう。

図１は、核酸配列に記憶されたデジタル情報を符号化し、書き込み、アクセスし、問い合わせ、読み取り、復号するためのプロセスの概要を模式的に例示する図である。

図２Ａおよび２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）を使用して「アドレスにおけるデータ（ｄａｔａａｔａｄｄｒｅｓｓ）」と称されるデジタルデータを符号化する方法の例を模式的に例示する図である。図２Ａは、ランクオブジェクト（またはアドレスオブジェクト）とバイト値オブジェクト（またはデータオブジェクト）を組み合わせて識別子を創出することを例示する。図２Ｂは、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるアドレスにおけるデータ法の実施形態を例示する。

図３Ａおよび３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）を使用してデジタル情報を符号化する方法の例を模式的に例示する図である。図３Ａは、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを例示する。図３Ｂは、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実施形態を例示する。

図４は、所与のサイズの情報が記憶されるように構築することができる（等高線）、可能な識別子の組合せ空間（Ｃ、ｘ軸）と識別子の平均数（ｋ、ｙ軸）の間の関係の対数空間での等高線プロットである。

図５は、情報を核酸配列（例えば、デオキシリボ核酸）に書き込むための方法の概要を模式的に例示する図である。

図６Ａおよび６Ｂは、区別可能な成分（例えば、核酸配列）を組合せによりアセンブルすることによって識別子（例えば、核酸分子）を構築するための「産物スキーム」と称される方法の例を例示する図である。図６Ａは、産物スキームを使用して構築された識別子のアーキテクチャを例示する。図６Ｂは、産物スキームを使用して構築することができる識別子の組合せ空間の例を例示する。

図７は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、オーバーラップ伸長ポリメラーゼ連鎖反応の使用を模式的に例示する図である。

図８は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、付着末端ライゲーションの使用を模式的に例示する図である。

図９は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、リコンビナーゼアセンブリの使用を模式的に例示する図である。

図１０Ａおよび１０Ｂは、鋳型により導かれるライゲーションを実証する図である。図１０Ａは、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、鋳型により導かれるライゲーションの使用を模式的に例示する。図１０Ｂは、各々が１つのプールされた鋳型により導かれるライゲーション反応において６種の核酸配列（例えば、成分）から組合せによりアセンブルされた２５６種の区別可能な核酸配列のコピー数（存在量）のヒストグラムである。図１０Ａおよび１０Ｂは、鋳型により導かれるライゲーションを実証する図である。図１０Ａは、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、鋳型により導かれるライゲーションの使用を模式的に例示する。図１０Ｂは、各々が１つのプールされた鋳型により導かれるライゲーション反応において６種の核酸配列（例えば、成分）から組合せによりアセンブルされた２５６種の区別可能な核酸配列のコピー数（存在量）のヒストグラムである。

図１１Ａ〜１１Ｇは、並び替えられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「並び替えスキーム」と称される方法の例を模式的に例示する図である。図１１Ａは、並び替えスキームを使用して構築された識別子のアーキテクチャを例示する。図１１Ｂは、並び替えスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１１Ｃは、鋳型により導かれるライゲーションを用いた並び替えスキームのインプリメンテーションの例を示す。図１１Ｄは、並び替えられ、繰り返された成分を有する識別子を構築するために図１１Ｃのインプリメンテーションをどのように改変することができるかの例を示す。図１１Ｅは、図１１Ｄのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれ得るかを示す。図１１Ｆは、並び替えられ、繰り返された成分を有する識別子を構築するために鋳型により導かれるライゲーションおよびサイズ選択をどのように使用するかの別の例を示す。図１１Ｇは、サイズ選択により特定の識別子を望ましくない副産物から切り離すことが失敗し得る場合の例を示す。同上。同上。同上。同上。同上。

図１２Ａ〜１２Ｄは、より多数、Ｍ個の可能な成分のうちの任意の数、Ｋ個のアセンブルされた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「ＭｃｈｏｏｓｅＫ」スキームと称される方法の例を模式的に例示する図である。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子のアーキテクチャを例示する。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１２Ｃは、鋳型により導かれるライゲーションを使用したＭｃｈｏｏｓｅＫスキームのインプリメンテーションの例を示す。図１２Ｄは、図１２Ｃのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。図１２Ａ〜１２Ｄは、より多数、Ｍ個の可能な成分のうちの任意の数、Ｋ個のアセンブルされた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「ＭｃｈｏｏｓｅＫ」スキームと称される方法の例を模式的に例示する図である。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子のアーキテクチャを例示する。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１２Ｃは、鋳型により導かれるライゲーションを使用したＭｃｈｏｏｓｅＫスキームのインプリメンテーションの例を示す。図１２Ｄは、図１２Ｃのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。図１２Ａ〜１２Ｄは、より多数、Ｍ個の可能な成分のうちの任意の数、Ｋ個のアセンブルされた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「ＭｃｈｏｏｓｅＫ」スキームと称される方法の例を模式的に例示する図である。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子のアーキテクチャを例示する。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１２Ｃは、鋳型により導かれるライゲーションを使用したＭｃｈｏｏｓｅＫスキームのインプリメンテーションの例を示す。図１２Ｄは、図１２Ｃのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。

図１３Ａおよび１３Ｂは、パーティションされた成分を有する識別子を構築するための「パーティションスキーム」と称される方法の例を模式的に例示する図である。図１３Ａは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１３Ｂは、鋳型により導かれるライゲーションを使用したパーティションスキームのインプリメンテーションの例を示す。図１３Ａおよび１３Ｂは、パーティションされた成分を有する識別子を構築するための「パーティションスキーム」と称される方法の例を模式的に例示する図である。図１３Ａは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１３Ｂは、鋳型により導かれるライゲーションを使用したパーティションスキームのインプリメンテーションの例を示す。

図１４Ａおよび１４Ｂは、いくつかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列」（またはＵＳＳ）スキームと称される方法の例を模式的に例示する図である。図１４Ａは、ＵＳＳスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１４Ｂは、鋳型により導かれるライゲーションを使用したＵＳＳスキームのインプリメンテーションの例を示す。図１４Ａおよび１４Ｂは、いくつかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列」（またはＵＳＳ）スキームと称される方法の例を模式的に例示する図である。図１４Ａは、ＵＳＳスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１４Ｂは、鋳型により導かれるライゲーションを使用したＵＳＳスキームのインプリメンテーションの例を示す。

図１５Ａおよび１５Ｂは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の例を模式的に例示する図である。図１５Ａは、成分削除スキームを使用して構築することができる識別子の組合せ空間の例を示す。図１５Ｂは、二本鎖標的化切断および修復を使用した成分削除スキームのインプリメンテーションの例を示す。図１５Ａおよび１５Ｂは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の例を模式的に例示する図である。図１５Ａは、成分削除スキームを使用して構築することができる識別子の組合せ空間の例を示す。図１５Ｂは、二本鎖標的化切断および修復を使用した成分削除スキームのインプリメンテーションの例を示す。

図１６は、リコンビナーゼを親識別子に適用することによってさらなる識別子を構築することができる、リコンビナーゼ認識部位を有する親識別子を模式的に例示する図である。

図１７Ａ〜１７Ｃは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ａ〜１７Ｃは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ａ〜１７Ｃは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。

図１８Ａおよび１８Ｂは、核酸分子に符号化されたデータの符号化、書き込み、および読み取りの例を示す図である。図１８Ａは、５，８５６ビットのデータの符号化、書き込み、および読み取りの例を示す。図１８ｂは、６２，８２４ビットのデータの符号化、書き込み、および読み取りの例を示す。

図１９は、本明細書に提示される方法をインプリメントするようにプログラミングされたまたは他のやり方で構成されたコンピュータシステムを示す図である。

図２０は、二本鎖成分の単一の親セット由来の任意の２つの選択された二本鎖成分のアセンブリのスキームの例を示す図である。

図２１は、２つのオリゴ、ＸおよびＹで構成される可能な付着末端成分構造を示す図である。

図２２は、複数の機能的部分を有する成分からの識別子の構築の例を示す図である。

図２３Ａ〜２３Ｂは、ＰＣＲベースのランダムアクセスに対する識別子ランクの影響の例を示す図である。

図２４Ａ〜２４Ｂは、不均一な成分分布を有する識別子のアーキテクチャの、ＰＣＲベースのランダムアクセスに対する影響の例を示す図である。

図２５は、識別子のアーキテクチャの層の増加の、ＰＣＲベースのランダムアクセスに対する影響の例を示す図である。

図２６は、アルファベットの９つの記号に対するマルチビン位置符号化スキームの例を示す図である。

図２７は、９種の可能な４ビット列のメッセージのいずれかを符号化することが可能になる、識別子２つの識別子ライブラリーおよびビン３つのビンセットを用いたマルチビン識別子分布符号化スキームの例を示す図である。

図２８は、６４種の可能な６ビット列のメッセージのいずれかを符号化することが可能になる、識別子２つのライブラリーおよびビン３つのビンセットを用いた識別子の再使用を用いたマルチビン識別子分布符号化スキームの例を示す図である。

図２９は、整数パーティションを用いたＤＮＡへの情報の符号化の例を示す図である。

図３０は、ソースビットストリームを作成し、ライターによって解釈される構築されたプログラム明細に変換するためのアルゴリズムモジュールを含む符号化パイプラインの例を示す図である。

図３１は、識別子ライブラリーをシリアライズされたフォーマットで表すためのデータ構造の一実施形態の例を示す図である。

図３２は、識別子プールに対する定義された操作を使用した計算のために調製された２つのソースビットストリームおよびユニバーサル識別子ライブラリーの例を示す図である。

図３３は、識別子ライブラリーをどのようにしてｉｎｖｉｔｒｏにおける計算のためのプラットフォームとして使用するかを例示する、識別子のプールに対して実施された論理操作の３つの例の入力およびその結果を示す。

図３４Ａ〜３４Ｇは、画像ファイルを多分解能で記憶し、読み取ることの例を示す図である。

図３５は、ランダムビット列を創出するために使用することができるエントロピーを生成するための方法の例を示す図である。

図３６Ａ〜３６Ｃは、エントロピー（ランダムビット列）を生成し、記憶するための方法の例を示す図である。

図３７Ａ〜３７Ｂは、入力を使用してランダムビット列を構成し、それにアクセスするための方法の例を示す図である。

図３８は、物理的ＤＮＡキーを使用してアーチファクトへのアクセスを保証および認証するための方法の例を示す図である。

本発明の様々な実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実施形態の様々な代替案が利用される可能性があることは理解されるはずである。

用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「０」または「１」の値を有し得る。

用語「区別可能な」または「一意の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または一意の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または一意の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または一意の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。

用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、１つまたは複数の他の成分と連結またはアセンブルされることもある。

用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、１つの層内の成分が別の層内の成分と異なるような、１セットの区別可能な成分を含むことがある。１つまたは複数の層からの成分は、１つまたは複数の識別子を生成するようにアセンブルされることもある。

用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実施形態では、識別子は、１つまたは複数の連結された成分を含み得る。

用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。

用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。

用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の集合体を一般に指す。一部の実施形態では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。１つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する一意のバーコードを含むこともある。

用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはこれらのバリアントを一般に指す。核酸は、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）、またはそのバリアントから選択される１つまたは複数のサブユニットを含み得る。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵ、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、Ａ、Ｃ、Ｇ、ＴもしくはＵであることもあり、あるいはより多くの相補的Ａ、Ｃ、Ｇ、ＴもしくはＵのうちの１つに特異的であり得る、またはプリン（すなわち、ＡもしくはＧ、またはそのバリアント）もしくはピリミジン（すなわち、Ｃ、ＴもしくはＵ、またはそのバリアント）と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。

用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド（ＤＮＡ）もしくはリボヌクレオチド（ＲＮＡ）のどちらかかまたはその類似体である、様々な長さを有し得る、多量体型のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、したがってデジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、１つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および／または改変ヌクレオチドを含むこともある。

「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびチミン（Ｔ）という、またはポリヌクレオチドがＲＮＡの場合はアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびウラシル（Ｕ）という、４つのヌクレオチド塩基の特異的配列で、概して構成されている。

改変ヌクレオチドの例としては、ジアミノプリン、５−フルオロウラシル、５−ブロモウラシル、５−クロロウラシル、５−ヨードウラシル、ヒポキサンチン、キサンチン、４−アセチルシトシン、５−（カルボキシヒドロキシメチル）ウラシル、５−カルボキシメチルアミノメチル−２−チオウリジン、５−カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ−Ｄ−ガラクトシルキューオシン、イノシン、Ｎ６−イソペンテニルアデニン、１−メチルグアニン、１−メチルイノシン、２，２−ジメチルグアニン、２−メチルアデニン、２−メチルグアニン、３−メチルシトシン、５−メチルシトシン、Ｎ６−アデニン、７−メチルグアニン、５−メチルアミノメチルウラシル、５−メトキシアミノメチル−２−チオウラシル、ベータ−Ｄ−マンノシルキューオシン、５’−メトキシカルボキシメチルウラシル、５−メトキシウラシル、２−メチルチオ−Ｄ４６−イソペンテニルアデニン、ウラシル−５−オキシ酢酸（ｖ）、ワイブトキソシン、シュードウラシル、キューオシン、２−チオシトシン、５−メチル−２−チオウラシル、２−チオウラシル、４−チオウラシル、５−メチルウラシル、ウラシル−５−オキシ酢酸メチルエステル、ウラシル−５−オキシ酢酸（ｖ）、５−メチル−２−チオウラシル、３−（３−アミノ−３−Ｎ−２−カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ、２，６−ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が（例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である１つもしくは複数の原子が、および／または相補的ヌクレオチドと水素結合を形成することが通常はできない１つもしくは複数の原子が）修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、Ｎ−ヒドロキシコハク酸エステル（ＮＨＳ）などのアミン反応性部分の共有結合を可能にするためにアミノアリル−ｄＵＴＰ（ａａ−ｄＵＴＰ）およびアミノヘキシルアクリルアミド（aminohexhylacrylamide）−ｄＣＴＰ（ａｈａ−ｄＣＴＰ）などのアミン修飾基を含有することもある。

用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応（ＰＣＲ）などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、ＤＮＡ試料の複製中に、複製を触媒する酵素が、ＤＮＡ試料に結合したプライマーの３’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、ＰＣＲに関するより多くの情報については、化学方法セクションＤを参照されたい。

用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ−Ｔａｑポリメラーゼ、ＬＡ−Ｔａｗポリメラーゼ、ＳｓｏポリメラーゼＰｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’→５’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。ＰＣＲと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がＰＣＲにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションＤを参照されたい。

本明細書で使用される場合、用語「種」は一般的に、同じ配列の１つまたは複数のＤＮＡ分子を指す。「種」を複数の意味で使用する場合、複数の種におけるあらゆる種が区別可能な配列を有すると仮定され得るが、これは時に「種」の代わりに「区別可能な種」と書くことによって明白となり得る。

２進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。２進コードは、例えば、ビットと呼ばれる２つの２進記号、通常は０および１、を有する２進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非２進記号の配列を含み得る非２進コードの形で表すことができる。符号化された各記号を、一意のビット列（または「バイト」）に再び割り当てることができ、一意のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、２つの記号のうちの１つ（例えば、０または１）であり得る。Ｎビットの列を含むことができるバイトは、合計２^Ｎの一意のバイト値を有することができる。例えば、８ビットを含むバイトは、合計２^８または２５６の可能な一意のバイト値を生じさせることができ、２５６バイトの各々は、バイトで符号化することができる２５６の可能な区別可能な記号、文字または命令のうちの１つに対応し得る。生データ（例えば、テキストファイルおよびコンピュータ命令）を、バイト列またはバイトストリームとして表すことができる。ｚｉｐファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。

本開示の方法およびシステムを使用して、１ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、２ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。

デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。

新規方法は、塩基毎またはデノボ核酸合成（例えば、ホスホロアミダイト合成）に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報（例えば、２進コード）を符号化することができる。しかるが故に、新規戦略は、情報記憶の第１の要求のために区別可能な核酸配列（または成分）の第１のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列（または成分）を再利用することができる。これらの手法は、ＤＮＡへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、ＤＮＡベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホロアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、のインプリメンテーションと異なり、成分からの識別子構築を使用してＤＮＡに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してＤＮＡへのデジタル情報の書き込み速度を上昇させることができる。
情報を核酸配列に符号化するおよび書き込む方法

ある態様では、本開示は、情報を核酸配列に符号化する方法を提供する。核酸配列に情報を符号化する方法は、（ａ）情報を記号列に変換するステップと、（ｂ）記号列を複数の識別子にマッピングするステップと、（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における１つの記号は、識別子の非存在に対応し得る。例えば、「０」および「１」の２進記号（例えば、ビット）列における「０」の出現各々が、識別子の非存在に対応し得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、（ｃ）核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化され、核酸分子の各々の配列に符号化されないことがある。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成するステップと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択するステップ、（２）Ｍ個の選択された成分核酸配列をコンパートメントに蓄積するステップ、（３）（２）におけるＭ個の選択された成分核酸配列を物理的にアセンブルして、第１および第２の末端配列ならびに第１および第２の末端配列の間に位置する第３の配列を有する第１の識別子核酸配列を形成し、したがって第１および第２の層からの成分核酸配列が識別子核酸配列の第１および第２の末端配列に対応し、第３の層における成分核酸配列が識別子核酸配列の第３の配列に対応し、第１の識別子核酸配列におけるＭ個の層の物理的順序を定義するステップによって第１の識別子核酸配列を形成するステップと、（ｃ）各々が（１）第１および第２の末端配列、ならびに第１および第２の末端配列の間に位置する第３の配列を有し、（２）それぞれの記号位置に対応する、複数の追加の識別子核酸配列を形成するステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップとを含む方法を提供する。

別の態様では、本発明は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるＭ個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第１の識別子核酸配列を形成するステップと、（ｃ）各々が、第１および第２の末端配列、ならびに第１および第２の末端配列の間に位置する第３の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップであって、イメージデータを核酸配列に記憶させるステップが、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にするステップとを含む方法を提供する。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるＭ個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第１の識別子核酸配列を形成するステップと、（ｃ）各々が、第１および第２の末端配列ならびに第１および第２の末端配列の間に位置する第３の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップとを含む方法を提供する。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）記号列を、固定された長さ以下のサイズの１つまたは複数のブロックに分割するステップと、（ｃ）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるＭ個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第１の識別子核酸配列を形成するステップと、（ｄ）各々が第１および第２の末端配列、ならびに第１および第２の末端配列の間に位置する第３の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｅ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップとを含む方法を提供する。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるＭ個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第１の識別子核酸配列を形成するステップと、（ｃ）各々が第１および第２の末端配列、ならびに第１および第２の末端配列の間に位置する第３の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップと、（ｅ）（ｄ）における識別子核酸配列を使用して記号列についてＡＮＤ、ＯＲ、ＮＯＴ、またはＮＡＮＤを含むブール論理操作を伴う計算を実施して、新規核酸配列プールを産生するステップとを含む方法を提供する。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択するステップ、（２）Ｍ個の選択された成分核酸配列をコンパートメントに蓄積するステップによって、第１の識別子核酸配列を形成するステップと、（ｃ）各々が第１および第２の末端配列、ならびに第１および第２の末端配列の間に位置する第３の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列、および第３の配列のうちの少なくとも１つが（ｂ）における第１の識別子核酸配列の標的配列と同一であるステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップとを含む方法を提供する。

別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、（ａ）デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、（ｂ）（１）Ｍ個の異なる層に分けられた区別可能な成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択するステップ、（２）Ｍ個の選択された成分核酸配列をコンパートメントに蓄積するステップ、（３）（２）におけるＭ個の選択された成分核酸配列を物理的にアセンブルして、指定成分を含む第１の識別子核酸配列を形成するステップであって、指定成分が、指定成分を含有する識別子のアクセスを可能にするために少なくとも１つの標的配列を含むステップによって第１の識別子核酸配列を形成するステップと、（ｃ）各々が指定成分を有する、複数の追加の識別子核酸配列を物理的にアセンブルするステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸配列を選択することが可能となるように、指定成分が（ｂ）における第１の識別子核酸配列の少なくとも１つの標的配列を含むステップと、（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における識別子核酸配列を回収するステップとを含む方法を提供する。

図１は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、１つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「０」または「１」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト（例えば、識別子）にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子をシークエンシングまたは識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。

図１の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々１ビット（「１」のビット値を有するビット）を区別可能な核酸識別子にマッピングするステップとを含み得る。１のビット値に対応する（かつ０のビット値の識別子を含まない）識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法（例えば、シークエンシング、ハイブリダイゼーション、ＰＣＲなど）を使用して、識別子ライブラリー中のどの識別子が表されるのかを判定することと、「１」のビット値をこれらの識別子に対応するビットにおよび「０」のビット値を他の場所に割り当てること（識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること）、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。

区別可能なＮビットの列の符号化は、可能な識別子として相当数の一意の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しいアイテム（Ｎビットの列）毎に識別子（例えば、核酸分子）のデノボ合成を使用し得る。他の例では、記憶するために情報の新しいアイテム毎に識別子（数がＮに相当するかまたはそれ未満である）を新たに合成する費用を、情報の新しいアイテムの符号化が、事前に合成された（または既成の）識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の１回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、（１）記憶するための情報の新しいアイテム毎の最大Ｎ個の識別子のデノボ合成のコストも、または（２）記憶するために情報の新しいアイテム毎にＮ個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数（Ｎ未満、一部の場合には、Ｎよりもはるかに少ない）を維持し、そしてその後、これらの配列を、記憶するための情報の新しいアイテム毎に最大Ｎ個の識別子を生成するように酵素反応によって改変することにより、削減することができる。

読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、突然変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー（例えば、識別子ライブラリー）を含むＤＮＡ配列の合理的設計に関しては化学的方法セクションＨを参照されたい。

図２Ａおよび２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）中のデジタルデータを符号化する、「アドレス位置のデータ」と呼ばれる、方法の例を模式的に示す。図２Ａは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレス位置のデータ方法は、バイト値を識別する１つのオブジェクトである「バイト値オブジェクト」（または「データオブジェクト」）、および識別子ランク（または元のビットストリーム中のバイトの相対位置）を識別する１つのオブジェクトである「ランクオブジェクト」（または「アドレスオブジェクト」）という、２つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図２Ｂは、各ランクオブジェクトが、１セットの成分から組合せ的に構築され、各バイト値オブジェクトが、１セットの成分から組合せ的に構築され得る、アドレス位置のデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合（例えば、図２Ａ）よりも多くの情報を識別子に書き込むことを可能にする。

図３Ａおよび３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）中のデジタル情報を符号化する方法の別の例を模式的に示す。図３Ａは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク（またはアドレス）における識別子の存在により「１」のビット値が指定され、特定のランク（またはアドレス）における識別子の非存在により「０」のビット値が指定される。このタイプの符号化は、単にランク（元のビットストリーム中のビットの相対位置）を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「１」または「０」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「１」のビット値をそれらの対応するランクに割り当てること、および「０」のビット値を他の場所に割り当てることを含み得る。図３Ｂは、各識別子を１セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合（例えば、図３Ａ）よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、５つの区別可能な成分を含み得る。５つの区別可能な成分を、５成分のうちの２成分を各々が含む１０の区別可能な識別子を生成するように、アセンブルすることができる。１０の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク（またはアドレス）を各々が有し得る。識別子ライブラリーは、これらの１０の可能な識別子のうちの、ビット値「１」の位置に対応するサブセットを含み、これらの１０の可能な識別子のうちの、長さ１０のビットストリーム内のビット値「０」の位置に対応するサブセットを含まないことがある。

図４は、可能な識別子の組合せ空間（Ｃ、ｘ軸）と、図３Ａおよび３Ｂに示されている符号化方法を使用してビットの所与の元のサイズの情報（Ｄ、等高線）を記憶するように物理的に構築される識別子の平均数（ｋ、ｙ軸）との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズＤの一次情報が、数個、つまりｋ個のビットが「１」のビット値を有するＣビットの列（Ｃは、Ｄより大きくなり得る）に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「１」である位置については識別子が構築され、ビット値が「０」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズＣを有し、サイズＤのビット列を符号化するために使用される識別子の数は、Ｄ＝ｌｏｇ_２（Ｃｃｈｏｏｓｅｋ）（式中、Ｃｃｈｏｏｓｅｋは、Ｃ個の可能性からｋ個の順不同結果を選ぶ方法の数についての数式であり得る）となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与のアイテムのサイズ（ビットで）を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。

図５は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに投入物を蓄積することにより、反応を始動することができる。投入物は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去（例えば、削除）することができる。１つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を不鮮明に、もしくは隠蔽するのに役立つこともある。

識別子ランク（例えば、核酸インデックス）は、識別子の順序付けを決定するため方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレス位置のデータ符号化方法では、識別子ランク（識別子のランクオブジェクトにより符号化された）を使用して、ビットストリーム内のバイトの位置（識別子のバイト値オブジェクトにより符号化された）を決定することができる。代替方法では、存在する識別子の識別子ランク（全識別子自体により符号化された）を使用して、ビットストリーム内の「１」のビット値の位置を決定することができる。

キーは、区別可能なバイトを試料中の識別子（例えば、核酸分子）の一意のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する一意の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ１または０のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、シークエンシング、ハイブリダイゼーションまたはＰＣＲを含む任意の数の分子生物学技術を含むことができる。一部の実施形態では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、一意の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム（例えば、各ビット列、バイト（単数）、バイト（複数）、またはバイトストリーム）に復号することができる。

識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の被定義群（例えば、組合せ空間）からの１セットの核酸分子（例えば、識別子）を使うことにより、情報を符号化することができる。分子の被定義群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列（例えば、成分）のアセンブリであることもある。個々の識別子各々は、固定された順序で全ての層から１つの成分を連結させることにより構築することができる。例えば、Ｍ個の層があり、各層がｎ個の成分を有する場合には、最大Ｃ＝ｎ^Ｍ個の一意の識別子を構築することができ、最大２^Ｃ個の異なる情報アイテムまたはＣ個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、１×１０^６個の区別可能な識別子、またはサイズＣ＝１×１０^６の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。ｎ＝１×１０^３の成分を各々が含有するＭ＝２の既成の層からアセンブリを作成することができる。あるいは、ｎ＝１×１０^２の成分を各々が含有するＭ＝３の層からアセンブリを作成することができる。一部のインプリメンテーションでは、アセンブリは、Ｍ＝２、Ｍ＝３、Ｍ＝４、Ｍ＝５個またはそれより多くの層で作製され得る。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用するほうが有利であり得る。

一例では、ｘおよびｙ個の成分（例えば、核酸配列）それぞれを各々が有する２セットの一意の核酸配列または層、ＸおよびＹで、始めることができる。Ｘからの各核酸配列をＹからの各核酸配列にアセンブルすることができる。これらの２セットの中に維持される核酸配列の総数は、ｘとｙの和であり得るが、生成され得る核酸分子の総数およびしたがって可能な識別子は、ｘとｙの積であり得る。Ｘからの配列がＹの配列に任意の順序でアセンブルされてもよいのであれば、よりいっそう多くの核酸配列（例えば、識別子）を生成することができる。例えば、生成される核酸配列（例えば、識別子）の数は、アセンブリ順序がプログラム可能である場合、ｘとｙの積の２倍になり得る。生成され得る全ての可能な核酸配列のこのセットをＸＹと呼ぶことができる。ＸＹ中の一意の核酸配列のアセンブルされた単位の順序を、区別可能な５’および３’末端を有する核酸を使用して制御することができ、配列の区別可能な５’および３’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応（ＰＣＲ）、およびシークエンシングを行うことができる。このような手法は、Ｎ個の区別可能なビットを符号化するために使用される核酸配列（例えば、成分）の総数を、それらのアセンブリ産物の組合せおよび順序で情報を符号化することにより、低減させることができる。例えば、１００ビットの情報を符号化するために、１０の区別可能な核酸分子（例えば、成分）の２つの層を固定された順序でアセンブルして、１０＊１０または１００の区別可能な核酸分子（例えば、識別子）を生成してもよく、または５つの区別可能な核酸分子（例えば、成分）の１つの層と１０の区別可能な核酸分子（例えば、成分）のもう１つの層とを任意の順序でアセンブルして、１００の区別可能な核酸分子（例えば、識別子）を生成してもよい。

各層内の核酸配列（例えば、成分）は、一意の（または区別可能な）配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に４つの可能なヌクレオチドが存在する。したがって、３塩基バーコードは、４^３＝６４の核酸配列を一意に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学またはシークエンシングを複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解突然変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。ＤＮＡ配列の合理的設計に関しては化学的方法セクションＨを参照されたい。

核酸配列（例えば、成分）の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Ｘからのあらゆる成分が、層Ｙからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第１の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Ｙからのあらゆる成分が、一方の末端で層Ｘのあらゆる成分に結合することができ、かつ反対側の末端で層Ｚのあらゆる成分に結合することができる。

図６Ａおよび６Ｂは、固定された順序で各層から区別可能な成分（例えば、核酸配列）を組合せ的にアセンブルすることにより識別子（例えば、核酸分子）を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図６Ａは、積スキームを使用して構築された識別子の構成を示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。Ｎ個の成分を各々が有するＭ個の層の場合、Ｎ^Ｍ個の可能な識別子がある。図６Ｂは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、３つの区別可能な成分を各々が含む３つの層から、組合せ空間を生成することができる。これらの成分を、各層からの１つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリ方法のための全組合せ空間は、２７の可能な識別子を含むことができる。

図７〜１０は、積スキーム（図６を参照されたい）を実行するための化学的方法を示す。図７〜１０に描かれている方法を、２つまたはそれより多くの区別可能な成分を固定された順序でアセンブルするための任意の他の方法と共に使用して、例えば、識別子ライブラリー中の任意の１つまたは複数の識別子を生成することができる。本明細書で開示される方法またはシステムの最中にいつでも、図７〜１０に記載のインプリメンテーション方法のいずれかを使用して識別子を構築することができる。一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子（情報を符号化する）を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの１つまたは複数のステップが行われた後である可能性がある時点で（すなわち、情報が書き込まれている最中に）、識別子を構築することができる。

酵素反応を使用して、異なる層またはセットからの成分をアセンブルすることができる。各層の成分（例えば、核酸配列）は、隣接する層の成分のための特異的ハイブリダイゼーションまたは結合領域を有するため、アセンブリをワンポット反応で行うことができる。例えば、層Ｘからの核酸配列（例えば、成分）Ｘ１、層Ｙからの核酸配列Ｙ１、および層Ｚからの核酸配列Ｚ１は、アセンブルされた核酸分子（例えば、識別子）Ｘ１Ｙ１Ｚ１を形成することができる。加えて、各層からの複数の核酸配列を含めることにより、複数の核酸分子（例えば、識別子）を１反応でアセンブルすることができる。例えば、前の例のワンポット反応にＹ１とＹ２の両方を含めることにより、Ｘ１Ｙ１Ｚ１およびＸ１Ｙ２Ｚ１という２つのアセンブルされた産物（例えば、識別子）を生じさせることができる。この反応多重化を使用して、物理的に構築される複数の識別子の書き込み時間を加速することができる。ＤＮＡ配列の合理的設計についての詳細については、これはアセンブリ効率に関係するので、化学的方法セクションＨを参照されたい。核酸配列のアセンブリを約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間もしくは１時間未満であるまたは約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間もしくは１時間に等しい期間で、行うことができる。符号化されたデータの正確度は、少なくとも約９０％、９５％、９６％、９７％、９８％、９９％もしくはそれより高いこともあり、または約９０％、９５％、９６％、９７％、９８％、９９％もしくはそれより高い％に等しいこともある。

識別子を、図７に示されているように、オーバーラップ伸長ポリメラーゼ連鎖反応（ＯＥＰＣＲ）を使用して積スキームに従って構築することができる。各層の各成分は、隣接する層からの成分の配列末端の共通ハイブリダイゼーション領域と相同および／または相補的であり得る共通ハイブリダイゼーション領域を配列末端に有する、二本鎖または一本鎖（図に描かれている通り）核酸配列を含むことができる。個々の識別子は、成分Ｘ_１−Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分（例えば、一意の配列）と、Ｙ_１−Ｙ_Ａを含む層Ｙ（または層２）からの第２の成分（例えば、一意の配列）と、Ｚ_１−Ｚ_Ｂを含む層Ｚ（または層３）からの第３の成分（例えば、一意の配列）とを連結させることにより、構築することができる。層Ｘからの成分は、層Ｙからの成分の３’末端と相補性を共有する３’末端を有し得る。したがって、層Ｘからの一本鎖成分とＹからの一本鎖成分とを３’末端で互いにアニールすることができ、ＰＣＲを使用して伸長して二本鎖核酸分子を生成することができる。生成された二本鎖核酸分子を融解して、層Ｚからの成分の３’末端と相補性を共有する３’末端を生成することができる。層Ｚからの成分を、生成された核酸分子とアニールすることができ、伸長して、層Ｘ、ＹおよびＺからの単一成分を固定された順序で含む一意の識別子を生成することができる。ＯＥＰＣＲについては化学的方法セクションＡを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することができる。２つの最外層の各々について１つである２つのプローブでの逐次的核酸捕捉を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

識別子を、図８に示されているように、付着末端ライゲーションを使用して積スキームに従ってアセンブルすることができる。一本鎖３’突出を有する二本鎖成分（例えば、二本鎖ＤＮＡ（ｄｓＤＮＡ））を各々が含む３つの層を使用して、区別可能な識別子をアセンブルすることができる。例えば、成分Ｘ_１−Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分と、Ｙ_１−Ｙ_Ｂを含む層Ｙ（または層２）からの第２の成分と、Ｚ_１−Ｚ_Ｃを含む層Ｚ（または層３）からの第３の成分とを含む識別子。層Ｘからの成分を層Ｙからの成分と組み合わせるために、層Ｘの成分は、図８にａと表示されている共通３’突出を含むことができ、層Ｙの成分は、共通の相補的３’突出、ａ＊を含むことができる。層Ｙからの成分を層Ｚからの成分と組み合わせるために、層Ｙの要素は、図８にｂと表示されている共通３’突出を含むことができ、層Ｚの要素は、共通の相補的３’突出、ｂ＊を含むことができる。層Ｘ成分の３’突出は、層Ｙ成分の３’末端と相補的であることができ、層Ｙ成分の他方の３’突出は、層Ｚ成分の３’末端と相補的であることができ、このことにより、これらの成分のハイブリダイゼーションおよびライゲーションが可能になる。しかるが故に、層Ｘからの成分は、層Ｘまたは層Ｚからの他の成分とハイブリダイズすることができず、同様に層Ｙからの成分は、層Ｙからの他の要素とハイブリダイズすることができない。さらに、層Ｙからの単一の成分は、層Ｘの単一の成分および層Ｚの単一の成分とライゲーションすることができ、このことにより、完全な識別子が確実に形成される。付着末端ライゲーションについては化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つの最外層の各々について１つである２つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

付着末端ライゲーションのための付着末端は、各層の成分を制限エンドヌクレアーゼで処理することにより生成することができる（制限酵素反応についてのより多くの情報については化学的方法セクションＣを参照されたい）。一部の実施形態では、複数の層の成分を、成分の１つの「親」セットから生成することができる。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位（例えば、ＢａｍＨＩおよびＢｇｌＩＩの制限部位）を有し得る実施形態。任意の２つの成分をアセンブリに選択し、一方または他方の相補的制限酵素（例えば、ＢｇｌＩＩまたはＢａｍＨＩ）で個別に消化することができ、その結果、相補的付着末端が得られ、これらを互いにライゲーションすることができ、その結果、ＳＣＡＲが不活性になる。産物核酸配列は、各末端に相補的制限部位（例えば、５’末端にＢａｍＨＩ、および３’末端にＢｇｌＩＩ）を含むこともあり、さらに、そのような核酸配列を同じプロセスに従って親セットからの別の成分にライゲーションすることができる。このプロセスは、無限に循環し得る（図２０）。親がＮ個の成分を含む場合には、各サイクルは、Ｎ個の成分の追加の層を積スキームに加えることに相当し得る。

セットＸ（例えば、ｄｓＤＮＡのセット１）からの要素とセットＹ（例えば、ｄｓＤＮＡのセット２）からの要素とを含む核酸の配列を構築するためにライゲーションを使用する方法は、二本鎖配列の２つまたはそれより多くのプール（例えば、ｄｓＤＮＡのセット１およびｄｓＤＮＡのセット２）を得るステップまたは構築するステップであって、第１のセット（例えば、ｄｓＤＮＡのセット１）が、付着末端（例えば、ａ）を含み、第２のセット（例えば、ｄｓＤＮＡのセット２）が、第１のセットの付着末端と相補的である付着末端（例えば、ａ＊）を含む、ステップを含み得る。第１のセット（例えば、ｄｓＤＮＡのセット１）からの任意のＤＮＡと第２のセット（例えば、ｄｓＤＮＡのセット２）からのＤＮＡの任意のサブセットとを組み合わせ、アセンブルし、次いで、互いにライゲーションして、第１のセットからの要素と第２のセットからの要素とを有する単一の二本鎖ＤＮＡを形成することができる。

識別子を、図９に示されているように、部位特異的組換えを使用して積スキーム従ってアセンブルすることができる。３つの異なる層からの成分をアセンブルすることにより、識別子を構築することができる。層Ｘ（または層１）の成分は、分子の一方の側にａｔｔＢ_ｘリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Ｙ（または層２）からの成分は、一方の側にａｔｔＰ_ｘリコンビナーゼ部位および他方の側にａｔｔＢ_ｙリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Ｚ（または層３）の成分は、分子の一方の側にａｔｔＰ_ｙリコンビナーゼ部位を含むことができる。ペアの中のａｔｔＢおよびａｔｔＰ部位は、それらの下付文字により示されているように、それらの対応するリコンビナーゼ酵素の存在下で組換えが可能である。層Ｘからの１つの成分が層Ｙからの１つの成分と会合し、層Ｙからの１つの成分が層Ｚからの１つの成分と会合するように、各層の１つの成分を組み合わせることができる。１つまたは複数のリコンビナーゼ酵素の適用は、順序付けられた成分を含む二本鎖識別子を生成するように成分を組み換えることができる。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる）、または最外層に隣接するプライマーを用いるＰＣＲを実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。一般に、ａｔｔＢとａｔｔＰの複数の直交ペアを使用することができ、各ペアを使用して追加の層からの成分をアセンブルすることができる。大きいセリンのリコンビナーゼファミリーについては、ａｔｔＢとａｔｔＰの最大６つの直交ペアをリコンビナーゼ毎に生成することができ、複数の直交リコンビナーゼを同時に実行することもできる。例えば、ＢｘｂＩおよびＰｈｉＣ３１などの２つの大きいセリンリコンビナーゼの各々から６つの直交ペアである、ａｔｔＢとａｔｔＰの１２の直交ペアを使用することにより、１３層をアセンブルすることができる。ａｔｔＢとａｔｔＰのペアの直交性により、１つのペアからのａｔｔＢ部位が別のペアのａｔｔＰ部位と反応しないことが保証される。これにより、異なる層からの成分を固定された順序でアセンブルすることが可能になる。リコンビナーゼ媒介組換え反応は、実行されるリコンビナーゼ系に依存して可逆的であることもあり、または不可逆的であることもある。例えば、大きいセリンリコンビナーゼファミリーは、いずれの高エネルギー補因子も必要とすることなく不可逆的組換え反応を触媒し、これに対してチロシンリコンビナーゼファミリーは、可逆的反応を触媒する。

識別子を、図１０Ａに示されているように、鋳型により導かれるライゲーション（ＴＤＬ）を使用して積スキームに従って構築することができる。鋳型により導かれるライゲーションは、識別子を形成するための成分の順序付けられたライゲーションを容易にするために、「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用する。鋳型は、隣接する層からの成分に同時にハイブリダイズし、それらを互いに（５’末端に対して３’末端）隣接した状態で保持し、その間にリガーゼがそれらをライゲーションする。図１０Ａからの例では、一本鎖成分の３つの層またはセットが組み合わせられる。配列ａ＊と相補的である共通配列ａをそれらの３’末端に共有する成分の第１の層（例えば、層Ｘまたは層１）；配列ｂ＊およびｃ＊と相補的である共通配列ｂおよびｃをそれらの５’および３’末端にそれぞれ共有する成分の第２の層（例えば、層Ｙまたは層２）；配列ｄ＊と相補的であり得る共通配列ｄをそれらの５’末端に共有する成分の第３の層（例えば、層Ｚまたは層３）；および２つの鋳型のセット、または第１のステープルが配列ａ＊ｂ＊（５’→３’）を含み、第２のステープルが配列ｃ＊ｄ＊（’５→３’）を含む、２つの「ステープル」のセット。この例では、各層からの１つまたは複数の成分を選択し、ステープルとの反応に混入することができ、これらのステープルは、識別子を形成するための各層からの１つの成分の被定義順序でのライゲーションを相補的アニーリングにより容易にすることができる。ＴＤＬについては化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つの最外層の各々について１つである２つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

図１０Ｂは、６層ＴＤＬで各々アセンブルされた２５６の区別可能な核酸配列についてのコピー数（存在量）のヒストグラムを示す。端層（最初の層および最後の層）各々は、１つの成分を有し、内層（残りの４つの４層）の各々は、４つの成分を有した。各端層成分は、１０塩基ハイブリダイゼーション領域を含む２８塩基であった。各内層成分は、５’末端の１０塩基共通ハイブリダイゼーション領域と、１０塩基可変（バーコード）領域と、３’末端の１０塩基共通ハイブリダイゼーション領域とを含む、３０塩基であった。３本の鋳型鎖の各々は、長さ２０塩基であった。２５６の区別可能な配列全てを、１つの反応が成分および鋳型、Ｔ４ポリヌクレオチドキナーゼ（成分をリン酸化するために）、ならびにＴ４リガーゼ、ＡＴＰ、および他の適切な反応試薬の全てを含有する多重方式で、アセンブルした。反応を３７度で３０分間、次いで室温で１時間インキュベートした。シークエンシングアダプターをＰＣＲでの反応産物に添加し、産物をＩｌｌｕｍｉｎａＭｉＳｅｑ装置でシークエンシングした。合計１９２９１０のアセンブルされた配列読み取りデータのうちの区別可能なアセンブルされた配列各々についての相対コピー数が示されている。この方法の他の実施形態は、二本鎖成分を使用することがあり、その場合、これらの成分は、ステープルにアニールすることができる一本鎖バージョンを形成するために最初に融解される。この方法（すなわち、ＴＤＬ）の他の実施形態または派生型を使用して、積スキームで達成され得るものより複雑な識別子の組合せ空間を構築することができる。

ゴールデンゲートアセンブリ、ギブソンアセンブリおよびリガーゼサイクリング反応アセンブリを含む、様々な他の化学的インプリメンテーションを使用して、積スキームに従って、識別子を構築することができる。

図１１Ａおよび１１Ｂは、成分（例えば、核酸配列）を並べ替えて識別子（例えば、核酸分子）を構築するための、「順列スキーム」と呼ばれる方法の例を模式的に示す。図１１Ａは、順列スキームを使用して構築された識別子の構成を示す。識別子を、プログラム可能な順序で各層からの単一成分を組み合わせることにより構築することができる。図１１Ｂは、順列スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、１つの区別可能な成分を各々が含む３つの層から、サイズ６の組合せ空間を生成することができる。成分を任意の順序で連結させることができる。一般に、各々がＮ個の成分を有するＭ個の層を用いて、順列スキームは、合計Ｎ^ＭＭ！個の識別子の組合せ空間を可能にする。

図１１Ｃは、鋳型により導かれるライゲーション（ＴＤＬ、化学的方法セクションＢを参照されたい）を用いる順列スキームのインプリメンテーションの例を示す。複数の層からの成分は、端足場と呼ばれる、固定された左末端成分と固定された右末端成分の間でアセンブルされる。これらの端足場は、組合せ空間内の全ての識別子について同じであり、したがって、これらの端足場をインプリメンテーションのための反応マスターミックスの一部として添加することができる。鋳型またはステープルが、任意の２層または足場間の任意の可能な接合部のために存在し、したがって、異なる層からの成分が反応中に識別子に組み込まれる順序は、反応に選択される鋳型に依存する。Ｍ個の層について層の任意の可能な順列を可能にするために、可能な接合部（足場との接合部を含む）毎にＭ^２＋２Ｍ個の区別可能な選択可能なステープルが存在し得る。これらの鋳型のうちのＭ個（灰色の陰付き）は、層とそれら自体の間の接合部を形成し、ここに記載されるような順列アセンブリに関しては含まれないことがある。しかし、それらを含めることで、図１１Ｄ〜Ｇに示されているような反復成分を含む識別子を用いてより大きい組合せ空間を可能にすることができる。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つの最外層の各々について１つである２つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

図１１Ｄ〜Ｇは、反復している成分を有する識別子についてのある特定のインスタンスを含むように順列スキームを拡大することができる方法の例を示す。図１１Ｄは、並べ替えられているおよび反復している成分を有する識別子を構築するために使用することができる図１１Ｃからのインプリメンテーションの方法の例を示す。例えば、識別子は、２つの区別可能な成分からアセンブルされた合計３つの成分を含み得る。この例では、層からの成分は、識別子中に複数回存在し得る。同じ成分の隣接した連結は、隣接する相補的ハイブリダイゼーション領域を有するステープル、例えば、図中のａ＊ｂ＊（５’→３’）ステープルを、同じ成分の３’末端と５’末端の両方に使用することにより、達成することができる。一般に、Ｍ個の層の場合、Ｍ個のそのようなステープルが存在する。このインプリメンテーションでの反復している成分の組込みは、図１１Ｅで実証されるように、端足場間でアセンブルされる１を超える長さ（すなわち、１、２、３、４またはそれより多くの成分を含む）の核酸配列を生成することができる。図１１Ｅは、図１１Ｄからのインプリメンテーションの例が、識別子に加えて、端足場間でアセンブルされる非標的核酸配列をもたらし得る方法を示す。適切な識別子をＰＣＲで非標的核酸配列から単離することができない。なぜなら、それらは、端に同じプライマー結合部位を共有するからである。しかし、この例では、アセンブルされる核酸配列各々を、一意の長さを有するように設計することができるので（例えば、全ての成分が同じ長さを有する場合）、ＤＮＡサイズ選択（例えば、ゲル抽出を用いる）を実行して、標的識別子（例えば、上からの２番目の配列）を非標的配列から単離することができる。サイズ選択については化学的方法セクションＥを参照されたい。図１１Ｆは、反復している成分を有する識別子の構築が、区別可能な長さだが等しい端配列を有する複数の核酸配列を同じ反応中に生成し得る、別の例を示す。この方法では、１つの層中の成分と他の層中の成分を交互パターンでアセンブルする鋳型を使用することができる。図１１Ｅに示されている方法と同様に、サイズ選択を使用して設計長の識別子を選択することができる。図１１Ｇは、反復している成分を有する識別子の構築が、等しい端配列および一部の核酸配列（例えば、上から３番目と４番目、および上から６番目と７番目）については等しい長さを有する、複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、ＰＣＲおよびＤＮＡサイズ排除を実行した場合であっても一方を構築することができず、他方の構築もないような、個々の識別子である両方から、除外され得る。

図１２Ａ〜１２Ｄは、より多数、Ｍ個、の可能な成分のうちの任意の数、Ｋ個、のアセンブルされた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための、「ＭｃｈｏｏｓｅＫスキーム」と呼ばれる方法の例を模式的に示す。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子の構成を示す。この方法を使用して、識別子は、全ての層の任意のサブセットにおける各層からの１つの成分をアセンブルすることにより構築される（例えば、Ｍ個の可能な層のうちのｋ個の層から成分を選択する）。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を示す。このアセンブリスキームでは、組合せ空間は、Ｍ個の層、層毎にＮ個の成分、および成分数Ｋの識別子長の場合、Ｎ^Ｋ個のＭｃｈｏｏｓｅＫの可能な識別子を含むことがある。一例では、各々が１つの成分を含む５つの層がある場合には、２つの成分を各々含む最大１０の区別可能な識別子をアセンブルすることができる。

ＭｃｈｏｏｓｅＫスキームは、図１２Ｃに示されているように、鋳型により導かれるライゲーション（化学的方法セクションＢを参照されたい）を使用して実行することができる。順列スキームについてのＴＤＬインプリメンテーション（図１１Ｃ）と同様に、この例での成分は、反応マスターミックスに含まれることもあり、含まれないこともある、端足場間でアセンブルされる。Ｍ個の層、例えば、左端足場がランク１であり得、右端足場がランクＭ＋１であり得る場合、２〜Ｍの事前に定義されたランクを有するＭ＝４層に、成分を分割することができる。鋳型は、より低いランク〜より高いランクをそれぞれ有する任意の２成分の３’→５’ライゲーションのための核酸配列を含む。（（Ｍ＋１）^２＋Ｍ＋１）／２個のそのような鋳型がある。区別可能な層からの任意のＫ個の成分の個々の識別子は、対応するＫ＋１個のステープルが端足場とＫ個の成分をそれらのランク順に接合するために使用されるライゲーション反応でそれらの選択された成分を組み合わせることにより、構築することができる。このような反応設定は、端足場間で標的識別子に対応する核酸配列を生じさせることができる。あるいは、全ての鋳型を含む反応ミックスを選ばれた成分と組み合わせて標的識別子をアセンブルすることができる。この代替方法は、図１２Ｄに示されているように、区別可能な長さだが同じ端配列を有する（全ての成分長が等しい場合）様々な核酸配列を生成することができる。標的識別子（一番下）を、副産物核酸配列からサイズにより単離することができる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

図１３Ａおよび１３Ｂは、区分された成分を有する識別子を構築するための、「パーティションスキーム」と呼ばれる方法の例を模式的に示す。図１３Ａは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。異なる層の任意の２つの成分間に任意のパーティション（空間的分類成分）を必要に応じて配置して各層からの１つの成分を固定された順序でアセンブルすることにより、個々の識別子を構築することができる。例えば、１セットの成分を、１つのパーティション成分と、１つの成分を各々が含有する４つの層とに構成することができる。各層からの成分を固定された順序で組み合わせることができ、単一パーティション成分を層間の様々な位置にアセンブルすることができる。この組合せ空間における識別子は、８つの可能な識別子の組合せ空間を作成するために、パーティション成分を含まないこと、第１の層からの成分と第２の層からの成分の間にパーティションを含むこと、第２の層からの成分と第３の層からの成分の間にパーティションを含むことなどがある。一般に、Ｎ個の成分を各々が有するＭ個の層とｐ個のパーティション成分とを用いて、Ｎ^Ｋ（ｐ＋１）^Ｍ−１個の可能な識別子を構築することができる。この方法は、様々な長さの識別子を生成することができる。

図１３Ｂは、鋳型により導かれるライゲーション（化学的方法セクションＢを参照されたい）を使用するパーティションスキームのインプリメンテーションの例を示す。鋳型は、Ｍ個の層の各々から１つの成分を固定された順序で互いにライゲーションするための核酸配列を含む。パーティション成分毎に、鋳型の追加のペアが存在し、これらにより、任意の２つの隣接する層からの成分間におけるパーティション成分のライゲーションが可能になる。例えば、ペアのうちの一方の鋳型（例えば、配列ｇ＊ｂ＊（５’→３’）を有する）が、層１（配列ｂを有する）の３’末端がパーティション成分（配列ｇを有する）の５’末端にライゲーションするのを可能にするような、およびペアのうちのもう一方の鋳型（例えば、配列ｃ＊ｈ＊（５’→３’）を有する）が、パーティション成分（配列ｈを有する）の３’末端が層２（配列ｃを有する）の５’末端にライゲーションするのを可能にするような、鋳型のペア。隣接する層の任意の２つの成分の間にパーティションを挿入するために、これらの層を互いにライゲーションするための標準鋳型を反応に含めなくてもよく、その位置でパーティションをライゲーションするための鋳型のペアを選択してもよい。現行の例では、層１と層２の間のパーティション成分の標的化は、鋳型ｃ＊ｂ＊（５’→３’）ではなく鋳型ｃ＊ｈ＊（５’→３’）と鋳型ｇ＊ｂ＊（５’→３’）のペアを反応のための選択に使用することができる。成分を、反応ミックスに（最初の層およびＭ番目の層にそれぞれライゲーションするためのそれらの対応する鋳型と共に）含めることができる端足場間で、アセンブルすることができる。一般に、Ｍ個の層およびｐ個のパーティション成分の場合、合計約Ｍ−１＋２＊ｐ＊（Ｍ−１）個の選択可能な鋳型をこの方法に使用することができる。パーティションスキームのこのインプリメンテーションは、区別可能な長さだが同じ端配列を有する様々な核酸配列を反応で生成することができる。標的識別子を、副産物核酸配列からＤＮＡサイズ選択により単離することができる。具体的には、ちょうど１つの核酸配列が、ちょうどＭ個の層成分を有することができる。層成分が、パーティション成分と比較して十分大きく設計されている場合、識別子内の成分の特定の区分化にかかわらず識別子を選択することができる（かつどの非標的副産物も選択されることがない）普遍的サイズ選択領域を定義することが可能であり得、それによって、複数の反応から複数の区分化された識別子を同じサイズ選択ステップで単離することが可能になる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

図１４Ａおよび１４Ｂは、いくつかの可能な成分からの成分の任意の列で構成されている識別子を構築するための、「無制約列スキーム」または「ＵＳＳ」と呼ばれる方法の例を模式的に示す。図１４Ａは、無制約列スキームを使用して構築することができる３成分（または４足場）長識別子の組合せ空間の例を示す。無制約列スキームは、１つまたは複数の層から各々取られた１つまたは複数の区別可能な成分を有する長さＫ成分の個々の識別子を構築し、この場合、各々の区別可能な成分が、識別子内のＫ成分位置のいずれかに出現し得る（これにより反復が可能になる）。例えば、１つの成分を各々が含む２つの層の場合、可能な３成分長識別子が８つある。一般に、１つの成分を各々が有するＭ個の層に関しては、長さＫの成分の可能な識別子がＭ^Ｋ個ある。図１４Ｂは、鋳型により導かれるライゲーション（化学的方法セクションＢを参照されたい）を使用する無制約列スキームのインプリメンテーションの例を示す。この方法では、Ｋ＋１個の一本鎖状の順序付けられた足場ＤＮＡ成分（２個の端足場およびＫ−１個の内部足場を含む）が反応ミックス中に存在する。個々の識別子は、隣接する足場のあらゆるペアの間でライゲーションした単一の成分を含む。例えば、足場Ａと足場Ｂ間でライゲーションした成分、足場Ｃと足場Ｄ間でライゲーションした成分、およびＫ個全ての隣接する足場接合部が成分により占有されるまでのそのようなもの。反応では、異なる層から選択された成分が、それらを適切な足場上にアセンブルするように方向付けるステープルの選択されたペアと共に、足場に導入される。例えば、ステープルａ＊Ｌ＊（５’→３’）とステープルＡ＊ｂ＊（５’→３’）のペアは、５’末端領域「ａ」と３’末端領域「ｂ」とを有する層１成分を、Ｌ足場とＡ足場の間でライゲーションするように方向付ける。一般に、Ｍ個の層およびＫ＋１個の足場で、２＊Ｍ＊Ｋ個の選択可能なステープルを使用して長さＫの任意のＵＳＳ識別子を構築することができる。成分を足場に５’末端で接続するステープルと同じ成分を足場に３’末端で接続するステープルは分離しているため、核酸副産物は、標的識別子と等しい端足場との、しかしＫ個未満の成分（Ｋ＋１個未満の足場）との、またはＫ個より多い成分（Ｋ＋１個より多い足場）との、反応で形成し得る。標的識別子は、ちょうどＫ個の成分（Ｋ＋１個の足場）を用いて形成することができ、したがって、全ての成分が等しい長さになるように設計され、全ての足場が等しい長さになるように設計された場合、ＤＮＡサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては化学的方法セクションＥを参照されたい。１層当たり１つの成分が存在し得る無制約列スキームについてのある特定の実施形態では、その成分は、（１）識別バーコード、（２）足場への５’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域、および（３）足場への３’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域という、３つの役割の全てを満たす単一の区別可能な核酸配列を、専ら含み得る。

図１４Ｂに示されている内部足場を、それらが、ある成分への足場のステープル媒介５’ライゲーションと別の（必ずしも明確に異ならない）成分への足場のステープル媒介３’ライゲーションとの両方に同じハイブリダイゼーション配列を使用するように、設計することができる。したがって、図１４Ｂにおいて描かれている１足場、２ステープルのスタック式ハイブリダイゼーション事象は、足場とステープルの各々との間で起こる、したがって、５’成分ライゲーションと３’成分ライゲーションの両方を可能にする、統計学的前進・後退ハイブリダイゼーション事象を表す。無制約列スキームの他の実施形態では、２つの連結されたハイブリダイゼーション領域−ステープル媒介３’ライゲーションのための区別可能な３’ハイブリダイゼーション領域およびステープル媒介５’ライゲーションのための区別可能な５’ハイブリダイゼーション領域−を伴う足場を設計することができる。

図１５Ａおよび１５Ｂは、親識別子からの核酸配列（または成分）を削除することにより識別子を構築するための、「成分削除スキーム」と呼ばれる方法の例を模式的に示す。図１５Ａは、成分削除スキームを使用して構築することができる可能な識別子の組合せ空間の例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０もしくはそれを超える数より多い、または約２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０もしくはそれを超える数に等しい数の、成分を含み得る。個々の識別子は、Ｎ個の可能な成分から任意の数の成分を選択的に削除して、サイズ２^Ｎの「完全」組合せ空間をもたらすことにより、またはＮ個の可能な成分から固定数Ｋの成分を削除して、かくてサイズＮｃｈｏｏｓｅＫの「ＮｃｈｏｏｓｅＫ」組合せ空間をもたらすことにより、構築することができる。３個の成分を有する親識別子を用いる一例では、完全組合せ空間は８であり得、３ｃｈｏｏｓｅ２組合せ空間は３であり得る。

図１５Ｂは、二本鎖標的切断および修復（ＤＳＴＣＲ）を使用する成分削除スキームのインプリメンテーションの例を示す。親配列は、ヌクレアーゼ特異的標的部位（長さ４塩基またはそれ未満の塩基数であり得る）が隣接している成分を含む一本鎖ＤＮＡ基質であることがあり、この場合、親は、標的部位に対応する１つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベーションされ得る。個々の成分は、親の成分ＤＮＡ（および隣接ヌクレアーゼ部位）に結合する相補的一本鎖ＤＮＡ（または切断鋳型）での削除の標的にされ得、その結果、ヌクレアーゼにより両端が切断され得る、親上の安定した二本鎖配列が形成される。別の一本鎖ＤＮＡ（または修復鋳型）は、親の結果として生じる分離した末端（これらの間に成分配列が存在した）とハイブリダイズし、それらをライゲーションのために、直接的にせよ、親のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、置換配列により架橋させてにせよ、寄せ集める。本発明者らは、この方法を「二本鎖標的切断」（ＤＳＴＣ）と呼ぶ。サイズ選択を使用して、ある特定の数の成分が削除された識別子を選択することができる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

あるいは、または加えて、親識別子は、どの２つの成分にも同じ配列が隣接しないようにスペーサー配列により隔てられている成分を含む、二本鎖または一本鎖核酸基質であることもある。親識別子は、Ｃａｓ９ヌクレアーゼと共にインキュベートされ得る。個々の成分は、成分の端に結合してその隣接部位でのＣａｓ９媒介切断を可能にするガイドリボ核酸（切断鋳型）での削除の標的にされ得る。一本鎖核酸（修復鋳型）は、親識別子の結果として生じる、分離した末端（例えば、これらの末端間に成分配列が存在した）にハイブリダイズすることができ、かくて、それらをライゲーションのために寄せ集める。ライゲーションを直接行ってもよく、または親のライゲーションされた配列が、Ｃａｓ９による標的にされ得るスペーサー配列をもはや含有しないように、置換配列で末端を架橋させることによって行ってもよい。本発明者らは、この方法を「配列特異的な標的切断および修復」または「ＳＳＴＣＲ」と呼ぶ。

識別子を、ＤＳＴＣＲの派生型を使用して親識別子に成分を挿入することにより構築することができる。親識別子は、区別可能な核酸配列内に各々が埋め込まれているヌクレアーゼ特異的標的部位（これらは長さが４塩基またはそれ未満の塩基数であり得る）を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する１つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子の個々の標的部位は、親識別子の標的部位および区別可能な周囲核酸配列に結合する相補的一本鎖核酸（切断鋳型）での成分挿入の標的にされ得、その結果、二本鎖部位が形成される。二本鎖部位をヌクレアーゼにより切断することもできる。別の一本鎖核酸（または修復鋳型）は、親識別子の結果として生じる分離した末端にハイブリダイズし、それらをライゲーションのために、親のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、成分配列により架橋させて、寄せ集める。あるいは、ＳＳＴＣＲの派生型を使用して、親識別子に成分を挿入することができる。親識別子は、二本鎖核酸または一本鎖核酸であり得、親は、Ｃａｓ９ヌクレアーゼと共にインキュベートされ得る。親識別子の区別可能な部位は、ガイドＲＮＡ（切断鋳型）での切断の標的にされ得る。一本鎖核酸（または修復鋳型）は、親識別子の分離した端にハイブリダイズし、それらをライゲーションのために、親識別子のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、成分配列により架橋させて、寄せ集める。サイズ選択を使用して、ある特定の数の成分が挿入された識別子を選択することができる。

図１６は、リコンビナーゼ認識部位を有する親識別子を模式的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識され得る。リコンビナーゼの所与のセットについての全ての認識部位は、それらの間の核酸が、リコンビナーゼが適用されると切除され得るように、配列される。図１６に示されている核酸鎖は、それに適用されるリコンビナーゼのサブセットに依存して２^５＝３２の異なる配列を採用することができる。一部の実施形態では、図１６に描かれているように、ＤＮＡのセグメントを切除、シフト、反転および転置するためにリコンビナーゼを使用して一意の分子を生成して、異なる核酸分子を作出することができる。一般に、Ｎ個のリコンビナーゼを用いて、２^Ｎ個の可能な識別子を親から構築することができる。一部の実施形態では、異なるリコンビナーゼからの認識部位の複数の直交ペアを、１つのリコンビナーゼの適用が、下流でリコンビナーゼが適用された場合に起こる組換え事象のタイプに影響を与えるように、オーバーラップ方式で親識別子上に配列することができる（全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in livingcells, Science 353 (6297): aad8559 (2016)を参照されたい）。このようなシステムは、Ｎ個のリコンビナーゼの順序づけ、Ｎ！毎に異なる識別子を構築することが可能であり得る。リコンビナーゼは、チロシンファミリーのリコンビナーゼ、例えば、ＦｌｐおよびＣｒｅであってもよく、または大きいセリンリコンビナーゼファミリーのリコンビナーゼ、例えば、ＰｈｉＣ３１、ＢｘｂＩ、ＴＰ９０１もしくはＡ１１８であってもよい。大きいセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、それらが不可逆的組換えを容易にし、したがって、他のリコンビナーゼより効率的に識別子を生成することができるため、有利であり得る。

一部の例では、非常に多数のリコンビナーゼを区別可能な順序で適用することにより多くの区別可能な核酸配列になるように、単一核酸配列をプログラムすることができる。リコンビナーゼの数であるＭが、大きいセリンリコンビナーゼファミリーについて７未満であり得るかまたは７であり得る場合、異なるサブセットの中のＭ個のリコンビナーゼを異なる順序で適用することにより、おおよそ約ｅ^１Ｍ！個の区別可能な核酸配列を生成することができる。リコンビナーゼの数であるＭが、７を超え得る場合、生成され得る配列の数は、３．９^Ｍほどである；例えば、全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in livingcells, Science 353 (6297): aad8559 (2016)を参照されたい。１つの共通配列から異なるＤＮＡ配列を生成するためのさらなる方法は、ＣＲＩＳＰＲ−Ｃａｓ、ＴＡＬＥＮ、およびジンクフィンガーヌクレアーゼなどの、標的核酸編集酵素を含み得る。リコンビナーゼ、標的編集酵素などにより生成される配列を、前の方法、例えば、本願の図のいずれかおよび開示において開示される方法のいずれかと併せて、使用することができる。

符号化すべき情報のビットストリームが、任意の単一核酸分子により符号化され得るものより大きい場合には、情報を分割し、核酸配列バーコードでインデックス化することができる。さらに、Ｎ個の核酸分子のセットからのサイズｋの核酸分子の任意のサブセットを選択して、ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。バーコードをサイズｋのサブセット内の核酸分子上にアセンブルして、かつてないほど長いビットストリームを符号化することができる。例えば、Ｍ個のバーコードを使用して、Ｍ＊ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。あるセット内の利用可能な核酸分子の数Ｎ、および利用可能なバーコードの数Ｍを前提として、サイズｋ＝ｋ_０のサブセットを、１つの情報を符号化するためのプール内の分子の総数を最小限にするように選択することができる。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、６個のビットを含むビットストリームを、各成分が２個のビットを含む３つの成分に分割することができる。２ビット成分各々にバーコードを付けて情報カセットを形成し、一緒に群化またはプールして、情報カセットのハイパープールを形成することができる。

バーコードは、符号化すべきデジタル情報の量が、１つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された一意の核酸配列を有するタグを含めることにより、図３で開示される手法を階層化することによって、より長いビット列および／または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分（単数または複数）を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する一意の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、１つまたは複数の一意の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報（例えば、ビット値およびビット位置情報）を一意の配列が符号化しているのかを示すことができる。

バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば１０ビットの配列を、各バイトが５ビットを含む２セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子５個の１セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る誰かは、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識（例えば、第１の５ビットを提供するために、バーコード１を、核酸プール内の配列に結合させることができ、および第２の５ビットを提供するために、バーコード２を、核酸プール内の配列に結合させることができる）を用いて各識別子にバーコード付けまたはタグ付けし、そしてその後、それら２つのバイトに対応する識別子を組み合わせて１つのプール（例えば、「ハイパープール」または１つもしくは複数の識別子ライブラリー）にすることができる。１つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得。識別子ライブラリー中の各識別子にバーコードを付加させる方法は、ＰＣＲ、ギブソン、ライゲーション、または所与のバーコード（例えば、バーコード１）が所与の核酸試料プールに（例えば、バーコード１が核酸試料プール１に、およびバーコード２が核酸試料プール２に）結合できるようにする任意の他の手法を使用することを含み得る。シークエンシング法を用いてハイパープールからの試料を読み取ることができ、バーコードまたはタグを使用してシークエンシング情報を解析することができる。識別子ライブラリーおよびバーコードをＭ個のバーコードとＮ個の可能な識別子のセット（組合せ空間）で使用する方法は、ＭとＮの積に相当する長さを有するビットストリームを符号化することができる。

一部の実施形態では、識別子ライブラリーをウェルのアレイに記憶させることができる。ウェルのアレイは、ｎ個の行とｑ個の列を有すると定義することができ、各ウェルは、ハイパープール内の２つまたはそれより多くの識別子ライブラリーを含むことができる。各ウェル内の符号化された情報は、ウェルの各々に収容されている情報よりｎ×ｑサイズ大きい１つの大きい連続した情報アイテムを構成し得る。ウェルのアレイ内の１つもしくは複数のウェルから分割量を取り、シークエンシング、ハイブリダイゼーションまたはＰＣＲを使用して符号化を読み取ることができる。

核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する一意の核酸分子（例えば、識別子）、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある（例えば、ビット値に対応しない）。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的起源に由来することもあり、合成的に生成されることもある。生物学的起源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、特に、合成的に符号化された情報（例えば、識別子の組合せ空間）が天然遺伝情報（例えば、断片化されたゲノム）と似ているように作成された場合、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的起源に由来し、補足核酸は、生物学的起源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、１つまたは複数の生物に由来し、補足核酸は、単一の、異なる生物に由来する。補足核酸配列は、１つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。

補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および／または一次情報の意図された受信者を決定および／または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への１つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された１つもしくは複数のバーコードまたはタグに記憶されることもある。

識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の１塩基以内、２塩基以内、３塩基以内、４塩基以内、５塩基以内、６塩基以内、７塩基以内、８塩基以内、９塩基以内、１０塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満より低いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％より高いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００，％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％に等しいこともある。より高い濃度は、不鮮明にまたはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い（例えば、１×１０^８％高い）。
核酸配列に記憶されたデータをコピーするおよびそのようなデータにアクセスする方法

別の態様では、本開示は、核酸配列に符号化された情報をコピーする方法を提供する。核酸配列に符号化された情報をコピーする方法は、（ａ）識別子ライブラリーを用意するステップと、（ｂ）識別子ライブラリーの１つまたは複数のコピーを構築するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、（ａ）識別子ライブラリーを用意するステップと、（ｂ）識別子ライブラリーから識別子ライブラリー中に存在する識別子の一部またはサブセットを抽出するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

情報を本明細書の他の箇所に記載されているように１つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。識別子ライブラリー中のまたは１つもしくは複数の識別子ライブラリー中の個々の識別子のコピーを生成することにより、記憶されたデータをコピーすることができる。識別子の一部がコピーされることもあり、またはライブラリー全体がコピーされることもある。識別子ライブラリー中の識別子を増幅することにより、コピーを行うことができる。１つまたは複数の識別子ライブラリーが組み合わせられるとき、単一の識別子ライブラリーがコピーされることもあり、または複数の識別子ライブラリーがコピーされることもある。識別子ライブラリーが補足核酸配列を含む場合、補足核酸配列は、コピーされることもあり、またはコピーされないこともある。

１つまたは複数の共通プライマー結合部位を含むように、識別子ライブラリー中の識別子を構築することができる。１つまたは複数の結合部位は、各識別子の端に位置することもあり、または各識別子の全体にわたって織り交ぜられていることもある。プライマー結合部位は、識別子ライブラリー特異的プライマーペアまたはユニバーサルプライマーペアが識別子に結合することおよび識別子を増幅することを可能にし得る。識別子ライブラリー中の全ての識別子、または１つもしくは複数の識別子ライブラリー中の全ての識別子を、複数のＰＣＲサイクルにより複数回複製することができる。従来のＰＣＲを使用して識別子をコピーすることができ、識別子を各ＰＣＲサイクルに伴って指数関数的に複製することができる。識別子のコピーの数を、各ＰＣＲサイクルに伴って指数関数的に増加させることができる。線形ＰＣＲを使用して識別子をコピーすることができ、識別子を各ＰＣＲサイクルに伴って直線的に複製することができる。識別子のコピーの数を、各ＰＣＲサイクルに伴って直線的に増加させることができる。識別子をＰＣＲ増幅の前に環状ベクターにライゲーションすることができる。環状ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのＰＣＲプライマーは、ベクターからプライミングするように設計することができ、したがって、バーコードが付いている端部は、識別子に伴って増幅産物に含まれる。増幅中に、識別子間の組換えの結果として、各々の端に無相関のバーコードを含むコピーされた識別子が生じ得る。無相関のバーコードは、識別子の読み取り時に検出可能であり得る。無相関のバーコードを含有する識別子を偽陽性とみなすことができ、情報復号プロセス中は無視することができる。化学的方法セクションＤを参照されたい。

情報の各ビットを一意の核酸分子に割り当てることにより、情報を符号化することができる。例えば、２つの核酸配列を各々が有する３つの試料セット（Ｘ、ＹおよびＺ）は、８個の一意の核酸分子にアセンブルし、下記の８個のデータビットを復号することができる：
Ｎ１＝Ｘ１Ｙ１Ｚ１
Ｎ２＝Ｘ１Ｙ１Ｚ２
Ｎ３＝Ｘ１Ｙ２Ｚ１
Ｎ４＝Ｘ１Ｙ２Ｚ２
Ｎ５＝Ｘ２Ｙ１Ｚ１
Ｎ６＝Ｘ２Ｙ１Ｚ２
Ｎ７＝Ｘ２Ｙ２Ｚ１
Ｎ８＝Ｘ２Ｙ２Ｚ２
したがって、列の中の各ビットを対応する核酸分子に割り当てることができる（例えば、Ｎ１は、第１のビットを指定することができ、Ｎ２は、第２のビットを指定することができ、Ｎ３は、第３のビットを指定することができる、など）。ビット列全体を核酸分子の組合せに割り当てることができ、この場合、「１」のビット値に対応する核酸が、組合せまたはプールに含まれる。例えば、ＵＴＦ−８符号化では、文字「Ｋ」を８ビット列コード０１００１０１１によって表すことができ、この８ビット列コードを４つの核酸分子の存在によって符号化することができる（例えば、上の例ではＸ１Ｙ１Ｚ２、Ｘ２Ｙ１Ｚ１、Ｘ２Ｙ２Ｚ１、およびＸ２Ｙ２Ｚ２）。

情報にシークエンシングまたはハイブリダイゼーションアッセイによってアクセスすることができる。例えば、プライマーまたはプローブを、核酸配列の共通領域またはバーコード化領域に結合するように設計することができる。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物のシークエンシングにより、またはハイブリダイゼーションアッセイにより、読み取ることができる。文字「Ｋ」を符号化する上の例では、データの前半が目的のものである場合、Ｘ１核酸配列のバーコード領域に特異的なプライマー、およびＺセットの共通領域に結合するプライマーを使用して、核酸分子を増幅することができる。これにより、０１００を符号化することができる配列Ｙ１Ｚ２を復帰させることができる。Ｙ１核酸配列のバーコード領域に結合するプライマーおよびＺセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することにより、そのデータの部分列にもアクセスすることができる。これにより、部分列０１を符号化するＺ２核酸配列を復帰させることができる。あるいは、シークエンシングを用いずに特定の核酸配列の存在または非存在についてチェックすることにより、データにアクセスすることもできる。例えば、Ｙ２バーコードに特異的なプライマーを用いる増幅は、Ｙ１バーコードではなくＹ２バーコードについての増幅産物を生成することができる。Ｙ２増幅産物の存在は、「１」のビット値を知らせることができる。あるいは、Ｙ２増幅産物の非存在は、「０」のビット値を知らせることができる。

ＰＣＲベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール（例えば、識別子ライブラリー）からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションＤを参照されたい。試料がハイパープールを含む例では、識別子の一方の端にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の端にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット（例えば、特定のバーコードに関連する全ての核酸）にアクセスすること、およびそのようなサブセットを取得することができる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。

核酸分子（例えば、識別子）に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。本明細書で使用される場合、「アクセス」および「クエリ」は互換的に使用することができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的識別子を選択的に捕捉することにより行うこともできる。標的識別子は、より長い情報アイテムの中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図１７Ａ〜１７Ｃは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。ＰＣＲベースのアクセスの場合、識別子のプール（例えば、識別子ライブラリー）は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。１つまたは複数のプライマーが、識別子の端の共通または可変領域に結合し得る。プライマーが結合している識別子を、ＰＣＲにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、１つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。

核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数のプローブと相補性を共有し得る。１つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、固相基板、例えば膜、ウェル、カラム、またはビーズ上で捕捉され得る。ビーズを固相基板として使用する場合、親和性タグはビーズに結合して、ビーズ、少なくとも１つのプローブ、および少なくとも１つの識別子を含む複合体を形成し得る。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。カラムを使用する場合、親和性タグはカラムに結合し得る。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的識別子をカラムに選択的に標的化することができ、その一方で、標的識別子は、カラムを流過することができる。固相基板に結合した識別子は、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応もしくは脱離反応化学、または酵素的切断などの条件に対する暴露によって、固相基板から除去され得る。ある特定の実施形態では、アクセスされる識別子は、切断可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化識別子に共有結合するための切断可能なリンカーを提供してもよい。リンカー部分は、６原子またはそれより多くの長さのリンカーであり得る。一部の実施形態では、切断可能リンカーは、ＴＯＰＳ（合成あたり２個のオリゴヌクレオチドの）リンカー、アミノリンカー、化学的切断可能リンカー、または光切断可能リンカーであり得る。標的識別子へのアクセスは、１つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または１つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。核酸捕捉に関しては化学的方法セクションＦを参照されたい。

分解ベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、１つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの１つとハイブリダイズすることができる。プローブのセットは、ＲＮＡを含むことがあり、ＲＮＡは、Ｃａｓ９酵素を誘導することができる。Ｃａｓ９酵素を１つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Ｃａｓ９酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばＳ１ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー（例えば、アガロースゲル電気泳動）などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を（例えば、ＰＣＲを使用して）選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。

図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、２つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「ＯＲ」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスＰＣＲ反応において２つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、１つのフォワードプライマーが左末端の識別子のセットに結合し、１つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら２セットの交差点の「ＡＮＤ」増幅を、フォワードプライマーとリバースプライマーをＰＣＲ反応においてプライマーペアとして一緒に使用することにより、果たすことができる。

図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「Ｐ１」が、成分「Ｃ１」を有する全ての識別子を捕捉し、別の親和性プローブ「Ｐ２」が、成分「Ｃ２」を有する全ての識別子を捕捉する場合には、Ｐ１およびＰ２を同時に使用することによりＣ１またはＣ２を有する全ての識別子のセットを捕捉することができる（「ＯＲ」操作に対応する）。同じ成分およびプローブを用いる別の例では、Ｐ１およびＰ２を逐次的に使用することによりＣ１およびＣ２を有する全ての識別子のセットを捕捉することができる（「ＡＮＤ」操作に対応する）。
核酸配列に記憶された情報を読み取る方法

別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、（ａ）識別子ライブラリーを用意するステップと、（ｂ）識別子ライブラリー中に存在する識別子を識別するステップと、（ｃ）識別子ライブラリー中に存在する識別子から記号列を生成するステップと、（ｄ）記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

情報を本明細書の他の箇所に記載されているように１つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。

識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、２進列中の第１の記号値（例えば、第１のビット値）を示すことができ、識別子ライブラリー中の識別子の非存在は、２進列中の第２の記号値（例えば、第２のビット値）を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に関するビット値を偏らせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「１」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「０」のビット値を示すことができる。

１つの情報についての記号（例えば、ビット値）の生成は、記号（例えば、ビット）をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために存在する識別子をシークエンシングすることまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、シークエンシングプラットフォームを使用して行うことができる。シークエンシングプラットフォームの例は、「ＭＥＴＨＯＤＯＦＮＵＣＬＥＩＣＡＣＩＤＡＭＰＬＩＦＩＣＡＴＩＯＮ」と題する、２０１４年８月２１日に出願された米国特許出願第１４／４６５，６８５号であって、２０１４年１２月１８日に米国特許出願公開第２０１４−０３７１１００号Ａ１として公開された出願；「ＭＥＴＨＯＤＯＦＮＵＣＬＥＩＣＡＣＩＤＡＭＰＬＩＦＩＣＡＴＩＯＮ」と題する、２０１３年５月２日に出願された米国特許出願第１３／８８６，２３４号であって、２０１３年９月５日に米国特許出願公開第２０１３−０２３１２５４号Ａ１として公開された出願；および「ＭＥＴＨＯＤＳＡＮＤＡＰＰＡＲＡＴＵＳＥＳＦＯＲＡＮＡＬＹＺＩＮＧＰＯＬＹＮＵＣＬＥＯＴＩＤＥＳＥＱＵＥＮＣＥＳ」と題する、２００９年３月９日に出願された米国特許出願第１２／４００，５９３号であって、２００９年１０月８日に公開された米国特許出願公開第２００９−０２５３１４１号Ａ１として公開された出願に記載されており、その各々の全体が、参照により本明細書に組み込まれる。

一例では、核酸符号化データの復号は、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどの、核酸鎖の塩基毎のシークエンシングにより果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示すシークエンシング技術を利用することにより果たすことができる。シークエンシングは、可逆的ターミネーターの使用を利用することもある。シークエンシングは、天然または非天然（例えば、操作された）ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ、サンガーシークエンシング、ハイスループットシークエンシング、１塩基合成反応、単一分子シークエンシング、ライゲーションによるシークエンシング、ＲＮＡ−Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、次世代シークエンシング、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、クローナルシングルマイクロアレイ（Ｓｏｌｅｘａ）、ショットガンシークエンシング、マクサム（Maxim）・ギルバートシークエンシング、または大規模並列シークエンシングを含むがこれらに限定されない、様々なシークエンシング手法を使用することができる。

様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。

識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。

より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で３つの核酸分子（例えば、識別子）にマッピングされ得る「１１１」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「０００」部分列に再符号化することができる。「０００」の代替入力部分列を「１１１」に再符号化することもできる。この再符号化方法は、データセット中の「１」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「１１１」を「００」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「１」の数を低減させることができる。

検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する（例えば、高める）ことができる。例えば、検出を容易にするために設計される核酸配列（例えば、識別子）は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、ｄＮａＭ、３−メトキシ−２−ナフチル基を含有する人工ヌクレオシド、およびｄ５ＳＩＣＳ、６−メチルイソキノリン−１−チオン−２−イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を考慮して設計されることもある。ＤＮＡ設計に関しては化学的方法セクションＨを参照されたい。

操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。

シークエンシングプラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。シークエンシングプラットフォームを一本鎖または二本鎖核酸分子のシークエンシング専用にすることができる。シークエンシングプラットフォームは、個々の塩基を読み取ること（例えば、塩基毎のシークエンシング）により、または核酸分子（例えば、識別子）に組み込まれた全核酸配列（例えば、成分）の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。シークエンシングプラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。シークエンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果としてシークエンシング時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、一意の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その一意の光学的、電気化学的または化学的シグナルの存在または非存在は、「０」または「１」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。

符号化および復号エラーを最小限にするまたは検出するために、一意のコードを適用することができる。符号化および復号エラーは、偽陰性（無作為試料抽出に含まれない核酸分子または識別子）によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実施形態では、チェックサム配列をＲ識別子の連続セット毎に含めることができ、この場合のＲは、サイズが１、２、５、１０、５０、１００、２００、５００もしくは１０００に等しいまたはそれより大きいこともあり、または１０００、５００、２００、１００、５０、１０、５もしくは２未満であることもある。Ｒの値が小さいほど、エラー検出は良好である。一部の実施形態では、チェックサムは、補足核酸配列であり得る。例えば、７個の核酸配列（例えば、成分）を含むセットを、積スキームで識別子を構築するための核酸配列（層Ｘ中の成分Ｘ１〜Ｘ３、および層Ｙ中のＹ１〜Ｙ３）と補足チェックサムのための核酸配列（Ｘ４〜Ｘ７およびＹ４〜Ｙ７）という、２つの群に分けることができる。チェックサム配列Ｘ４〜Ｘ７は、層Ｘの０、１、２または３個の配列が層Ｙの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Ｙ４〜Ｙ７は、層Ｙの０、１、２または３個の配列が層Ｘの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３｝を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる：｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３、Ｘ１Ｙ６、Ｘ２Ｙ７、Ｘ３Ｙ４、Ｘ６Ｙ１、Ｘ５Ｙ２、Ｘ６Ｙ３｝。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるＸ１Ｙ１の非存在、ならびにＸ１Ｙ６およびＸ６Ｙ１の存在は、Ｘ１Ｙ１核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、ＰＣＲまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および／または単離することができる。一部の実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。

データ符号化および復号のノイズを、回文として識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分の回文ペアを使用することにより、低減させることができる。次いで、異なる層からの成分のペアを回文様式（例えば、成分ＸおよびＹについてＸＹではなくＹＸＹ）で互いにアセンブルすることができる。この回文方法を、より多くの数の層（例えば、ＸＹＺではなくＺＹＸＹＺ）に拡大することができ、この回文方法により、識別子間の誤った交差反応の検出が可能になり得る。

識別子への過剰（例えば、大過剰）な補足核酸配列の付加は、シークエンシングによる符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。あるいは、または加えて、特異的プライマーを使用するシークエンシング（例えば、１塩基合成反応）により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。
バイナリ配列データを符号化するためのシステム

デジタル情報を核酸（例えば、ＤＮＡ）に符号化するためのシステムは、ファイルおよびデータ（例えば、生データ、圧縮されたｚｉｐファイル、整数データ、および他の形態のデータ）をバイトに変換し、バイトを核酸、一般にはＤＮＡのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。

ある態様では、本開示は、核酸を使用してバイナリ配列データを符号化するためのシステムを提供する。核酸を使用してバイナリ配列データを符号化するためのシステムは、デバイスおよび１つまたは複数のコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリーが構築されるように構成することができる。（ｉ）情報を記号列に翻訳するため、（ｉｉ）記号列を複数の識別子にマッピングするため、および（ｉｉｉ）少なくとも複数の識別子のサブセットを含む識別子ライブラリーを構築するために、１つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、１つまたは複数の成分に含み得る。１つまたは複数の成分の個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸を使用してバイナリ配列データを読み取るためのシステムを提供する。核酸を使用してバイナリ配列データを読み取るためのシステムは、データベースおよび１つまたは複数のコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリーを記憶し得る。（ｉ）識別子ライブラリー中の識別子を識別するため、（ｉｉ）（ｉ）で識別された識別子から複数の記号を生成するため、および（ｉｉｉ）複数の記号から情報をコンパイルするために、１つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。識別子ライブラリーは、複数の識別子のサブセットを含み得る。複数の識別子の各個の識別子は、記号列内の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

デジタルデータを符号化するためのシステムを使用する方法の非限定的な実施形態は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス（または識別子のランク）を使用してバイト内のビットの位置をマッピングし、ビット値１またはビット値０のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、１つまたは複数のビットにマッピングされる核酸の配列（例えば、識別子）を含む核酸試料または核酸プールについてシークエンシングし、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。

核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合された単位であってもよく、上述の操作の１つまたは複数が実行されるように構成された複数の単位であってもよい。情報を核酸分子（例えば、識別子）に符号化し、書き込むためのシステムは、デバイスおよび１つまたは複数のコンピュータプロセッサを含み得る。１つまたは複数のコンピュータプロセッサは、情報が記号列（例えば、ビットの列）に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を２つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。１つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。

デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの１つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、１つまたは複数の一意の成分を含み得る。１つの層内の成分は、別の層の成分と重複しない一意のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分間、および鋳型をデバイスの１つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリ反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、１つまたは複数のその後の反応が行われて、識別子の１つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。１つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体（例えば、試薬、成分間、鋳型）を転送することができる。

識別子ライブラリーをデバイスに保管することができるまたは別々のデータベースに移すことができる。データベースは、１つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件（例えば、識別子の分解を低減するための条件）をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる（凍結乾燥に関するより多くの情報に関しては化学的方法セクションＧを参照されたい）。あるいは、識別子を、酸素の非存在下（例えば、嫌気的記憶条件）で記憶させることができる。データベースは、紫外線光防護、温度の低下（例えば、冷蔵または凍結）、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸（ＥＤＴＡ）および／または核酸分子の安定性を維持するために緩衝剤を含み得る。

データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、一定分量の識別子ライブラリーをデバイスから抽出し、その一定分量を試薬および構成物と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、１つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の１つよりも多くのプールを同時にコピーすることができる。

コピーされた識別子をコピーデバイスからアクセスデバイスに移すことができる。アクセスデバイスは、コピーデバイスと同じデバイスであってよい。アクセスデバイスは、別々の領域、セクション、またはパーティションを含み得る。アクセスデバイスは、親和性タグと結合した識別子を分離するための１つまたは複数のカラム、ビーズレザバー、または磁気領域を有し得る（核酸捕捉に関しては化学的方法セクションＦを参照されたい）。その代わりに、またはそれに加えて、アクセスデバイスは、１つまたは複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る（核酸サイズ選択に関するより多くの情報については化学的方法セクションＥを参照されたい）。コピーおよび抽出は、デバイスの同じ領域で実施されてもよく、デバイスの異なる領域で実施されてもよい（核酸増幅に関しては化学的方法セクションＤを参照されたい）。

アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。シークエンシングプラットフォームは、核酸配列に符号化された情報の復号および読み取り専用に設計されたものであってよい。シークエンシングプラットフォームは、一本鎖または二本鎖核酸分子のシークエンシング専用のものであってよい。シークエンシングプラットフォームは、個々の塩基を読み取ることによって（例えば、塩基毎のシークエンシング）、または核酸分子（例えば、識別子）内に組み入れられた核酸配列全体（例えば、成分）の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、シークエンシングプラットフォームは、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによってインプリメントされる様々な解析技法を使用して実施することができる。

核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報（例えば、病歴および記録）を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき（例えば、着用できるデバイス中に）、体内に保管することもできる（例えば、皮下カプセル中に）。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診断記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診断記録の保管により、診断記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診断記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。
コンピュータシステム

本開示は、本開示の方法をインプリメントするようにプログラミングされたコンピュータシステムを提供する。図１９は、デジタル情報を核酸配列に符号化し、かつ／または核酸配列から導き出された情報を読み取る（例えば、復号する）ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム１９０１を示す。コンピュータシステム１９０１は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。

コンピュータシステム１９０１は、中央処理装置（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも）１９０５を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム１９０１はまた、メモリまたはメモリ位置１９１０（例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ）、電子記憶装置１９１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース１９２０（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリ、データストレージおよび／または電子ディスプレイアダプターなどの周辺機器１９２５も含む。メモリ１９１０、記憶装置１９１５、インターフェース１９２０および周辺機器１９２５は、ＣＰＵ１９０５と、マザーボードなどの通信バス（実線）を通じて通信する。記憶装置１９１５は、データを保管するためのデータストレージユニット（またはデータリポジトリ）であってよい。コンピュータシステム１９０１は、通信インターフェース１９２０を利用してコンピュータネットワーク（「ネットワーク」）１９３０と作動可能にカップリングすることができる。ネットワーク１９３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク１９３０は、一部の場合では、電気通信および／またはデータネットワークであり得る。ネットワーク１９３０は、１つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク１９３０は、一部の場合ではコンピュータシステム１９０１を利用して、ピアツーピアネットワークをインプリメントすることができ、それにより、コンピュータシステム１９０１とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。

ＣＰＵ１９０５は、プログラムまたはソフトウェアで具体化することができる一連の機械可読指示を実行することができるものである。指示は、メモリ１９１０などのメモリ位置に記憶させることができるものである。指示をＣＰＵ１９０５に方向付けることができ、その後、それにより、ＣＰＵ１９０５を、本開示の方法をインプリメントするようにプログラムするまたは他のやり方で構成することができる。ＣＰＵ１９０５により実施される操作の例は、フェッチ、復号、実行、および書き戻しを含み得る。

ＣＰＵ１９０５は、集積回路などの回路の一部であってよい。システム１９０１の１つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶装置１９１５は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置１９１５は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム１９０１は、一部の場合では、例えばコンピュータシステム１９０１とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム１９０１に対して外付けである、１つまたは複数の追加的なデータストレージユニットを含み得る。

コンピュータシステム１９０１は、１つまたは複数の遠隔コンピュータシステムとネットワーク１９３０を通じて通信することができるものである。例えば、コンピュータシステム１９０１は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび／もしくは機構（例えば、シークエンサーまたは核酸配列中の窒素塩基の順序を化学的に決定するための他のシステム）と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ使用可能デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム１９０１にネットワーク１９３０を介してアクセスすることができる。

本明細書に記載の方法は、例えば、メモリ１９１０または電子記憶装置１９１５など、コンピュータシステム１９０１の電子ストレージ場所に記憶された機械（例えば、コンピュータプロセッサ）により実行可能なコードによってインプリメントすることができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ１９０５によって実行することができる。一部の場合では、コードを記憶装置１９１５から取得し、プロセッサ１９０５による即時アクセスのためにメモリ１９１０に記憶させることができる。一部の状況では、電子記憶装置１９１５を除外し、機械により実行可能な指示をメモリ１９１０に記憶させることができる。

コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプリコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプリコンパイル様式でまたは同時コンパイル様式で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。

コンピュータシステム１９０１などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械（またはプロセッサ）実行可能なコードおよび／または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ）またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを１つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータから適用サーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電気波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに指示をもたらすことに関与するあらゆる媒体を指す。

したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ（複数可）中のストレージデバイスなど、例えば、図に示されているデータベースなどをインプリメントするために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル；コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波（ＲＦ）および赤外（ＩＲ）データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤもしくはＤＶＤ−ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、空孔のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）−ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは指示、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために１つまたは複数の指示の１つまたは複数の配列をプロセッサに運ぶことに関与し得る。

コンピュータシステム１９０１は、例えば、クロマトグラフ、配列、ならびに、ＤＮＡ記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたｚｉｐファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース（ＵＩ）１９４０を含む電子ディスプレイ１９３５を含み得るまたはそれと通信し得る。ＵＩの例としては、限定することなく、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブに基づくユーザインタフェースが挙げられる。
本開示の方法およびシステムは、１つまたは複数のアルゴリズムを介してインプリメントすることができる。アルゴリズムは、中央処理装置１９０５により実行されるとソフトウェアを介してインプリメントすることができる。デジタル情報を符号化する前に、デジタル情報を生データまたはｚｉｐファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、ＤＮＡインデックスおよび生データまたはｚｉｐファイルに圧縮もしくは復元されたデータを用いて使用することができる。
化学的方法セクション
Ａ．オーバーラップ伸長ＰＣＲ（ＯＥＰＣＲ）アセンブリ

ＯＥＰＣＲでは、ポリメラーゼおよびｄＮＴＰ（ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰまたはそのバリアントもしくは類似体を含むデオキシヌクレオチド三リン酸）を含む反応で成分をアセンブルする。成分は、一本鎖核酸であっても二本鎖核酸であってもよい。互いに隣接するアセンブルされる成分は、相補的な３’末端、相補的な５’末端、または１つの成分の５’末端と隣接する成分の３’末端の間の相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と称され、ＯＥＰＣＲ中の成分間のハイブリダイズした接合部の形成を容易にすることを目的とするものであり、ここで、１つの入力成分（またはその相補物）の３’末端がその意図された隣接成分（またはその相補物）の３’末端とハイブリダイズする。次いで、アセンブルされた二本鎖産物をポリメラーゼ伸長によって形成することができる。次いで、この産物を、その後のハイブリダイゼーションおよび伸長を通じてより多くの成分とアセンブルすることができる。図７は、３つの核酸をアセンブルするためのＯＥＰＣＲの概略図例を例示する。

一部の実施形態では、ＯＥＰＣＲは、３つの温度：融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびに成分内または成分間での二次構造またはハイブリダイゼーションの形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏９５度を超える。一部の実施形態では、融解温度は、少なくとも摂氏９６度、９７度、９８度、９９度、１００度、１０１度、１０２度、１０３度、１０４度、または１０５度であり得る。他の実施形態では、融解温度は、最大で摂氏９５度、９４度、９３度、９２度、９１度、または９０度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善され得るが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも１秒間、２秒間、３秒間、４秒間、５秒間、またはそれよりも長く、例えば、３０秒間、１分間、２分間、または３分間にわたって適用することができる。

アニーリング温度は、意図された隣接成分（またはそれらの相補物）の相補的な３’末端間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、意図されたハイブリダイズした核酸形成の算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏１０度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏２５度、３０度、５０度、５５度、６０度、６５度、または７０度であり得る。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含有量が高いハイブリダイゼーション領域ほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたＯＥＰＣＲ反応用の成分を設計することが可能であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、または３０秒間にわたって、またはそれよりも長く適用することができる。

伸長温度は、１つまたは複数のポリメラーゼ酵素によって触媒される、ハイブリダイズした３’末端の核酸鎖延長を開始させ、またそれを容易にすることを目的とするものである。一部の実施形態では、伸長温度を、ポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏３０度、４０度、５０度、６０度、または７０度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、４０秒間、５０秒間、または６０秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の１キロベース当たり約１５〜４５秒間であり得る。

ＯＥＰＣＲの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、２ステップ温度サイクルを３ステップ温度サイクルの代わりに使用することができる。複合アニーリングおよび伸長温度の例としては、摂氏６０度、６５度、または７２度が挙げられる。

一部の実施形態では、ＯＥＰＣＲを１つの温度サイクルで実施することができる。そのような実施形態には、ただ２つの成分の意図されたアセンブリが伴い得る。他の実施形態では、ＯＥＰＣＲを複数の温度サイクルで実施することができる。ＯＥＰＣＲにおけるいかなる所与の核酸も、１つのサイクルでは最大で１つの他の核酸としかアセンブルできない。これは、アセンブリ（または伸長または延長）を核酸の３’末端でしか行わず、また、各核酸は３’末端を１つしか有さないからである。したがって、複数の成分のアセンブリには複数の温度サイクルが必要になり得る。例えば、４種の成分のアセンブルには、３つの温度サイクルが伴い得る。６種の成分のアセンブルには５つの温度サイクルが伴い得る。１０種の成分のアセンブルには９つの温度サイクルが伴い得る。一部の実施形態では、最低限必要なものよりも多くの温度サイクルを使用することによりアセンブリ効率を上昇させることができる。例えば、２種の成分をアセンブルするために４つの温度サイクルを使用することにより、１つの温度サイクルのみを使用するよりも多くの産物をもたらすことができる。これは、成分のハイブリダイゼーションおよび延長が、各サイクルにおいて成分の総数のうちごく一部で起こる統計学的事象だからである。したがって、アセンブルされた成分の総画分は、サイクルの増加と共に増加させることができる。

温度サイクリングの考慮事項に加えて、ＯＥＰＣＲにおける核酸配列の設計がそれらの互いとのアセンブリの効率に影響を及ぼす可能性がある。長いハイブリダイゼーション領域を有する核酸は、所与のアニーリング温度で、短いハイブリダイゼーション領域を有する核酸と比較してより効率的にハイブリダイズし得る。これは、より長いハイブリダイズ産物はより多数の安定な塩基対を含有し、したがって、全体的なハイブリダイズ産物がより短いハイブリダイズ産物よりも安定であり得るからである。ハイブリダイゼーション領域は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、またはそれよりも多くの塩基の長さを有し得る。

高グアニンまたはシトシン含有量のハイブリダイゼーション領域は、所与の温度で、低グアニンまたはシトシン含有量のハイブリダイゼーション領域よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりも安定な塩基対を形成するからである。ハイブリダイゼーション領域は、０％から１００％の間の任意のグアニンまたはシトシン含有量（ＧＣ含量としても公知）を有し得る。

ハイブリダイゼーション領域の長さおよびＧＣ含量に加えて、ＯＥＰＣＲの効率に影響を及ぼし得る核酸配列設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とのハイブリダイゼーション産物を形成するその能力が妨げられる恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸についての可能な二次構造の型およびそれらの安定性（例えば、融解温度）は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、効率的なＯＥＰＣＲのための適当な長さおよびＧＣ含量の基準を満たす核酸配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、ｔａｂｕ検索のようなメタ−ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。

同様に、ホモ二量体（同じ配列の核酸分子とハイブリダイズする核酸分子）および望ましくないヘテロ二量体（それらの意図されたアセンブリパートナーに加えて他の核酸配列とハイブリダイズする核酸配列）の形成により、ＯＥＰＣＲが妨げられる恐れがある。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、核酸設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して予測し、説明することができる。

より長い核酸配列またはより高いＧＣ含量により、ＯＥＰＣＲでの望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短い核酸配列またはより低いＧＣ含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いハイブリダイゼーション領域または高いＧＣ含量を使用する設計戦略が打ち消され得る。そのように、一部の実施形態では、高いＧＣ含量の長いハイブリダイゼーション領域ではなく低いＧＣ含量の短い非ハイブリダイゼーション領域を使用することによってＯＥＰＣＲを最適化することができる。核酸の全体的な長さは、少なくとも１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。一部の実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域の最適な長さおよび最適なＧＣ含量が存在し得る。

ＯＥＰＣＲ反応におけるより多数の区別可能な核酸は、予測されるアセンブリ効率に干渉し得る。これは、より多数の区別可能な核酸配列により、望ましくない分子間相互作用、特にヘテロ二量体の形態のより高い確率が生じ得るからである。したがって、多数の成分をアセンブルするＯＥＰＣＲの一部の実施形態では、効率的なアセンブリのための核酸配列の制約はよりストリンジェントになり得る。

予測される最終的なアセンブルされた産物を増幅するためのプライマーをＯＥＰＣＲ反応に含めることができる。次いで、ＯＥＰＣＲ反応を、単に構成する成分間でより多くのアセンブリを創出することによってだけでなく、完全なアセンブルされた産物を従来のＰＣＲの様式で指数関数的に増幅することによっても（化学的方法セクションＤを参照されたい）アセンブルされた産物の収率を改善するために、より多くの温度サイクルを用いて実施することができる。

アセンブリ効率を改善するために添加剤をＯＥＰＣＲ反応に含めることができる。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはこれらの組合せの添加。添加剤含有量（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のポリメラーゼをＯＥＰＣＲのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ−Ｔａｑポリメラーゼ、ＬＡ−Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼのような一部のポリメラーゼは、核酸延長の間のより高い忠実度に寄与し得る３’から５’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間にリーディング配列を動かし得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Ｔａｑのような一部のポリメラーゼは、アデニン塩基を核酸配列の３’末端に組み入れる。このプロセスはＡ尾部付加と称され、また、アデニン塩基の付加により、意図された隣接成分間の設計された３’相補性が破壊され得るので、このプロセスはＯＥＰＣＲに対して阻害性であり得る。

ＯＥＰＣＲは、ポリメラーゼサイクリングアセンブリ（またはＰＣＡ）とも称され得る。
Ｂ．ライゲーションアセンブリ

ライゲーションアセンブリでは、別々の核酸を、１つまたは複数のリガーゼ酵素および追加的な補因子を含む反応でアセンブルする。補因子は、アデノシン三リン酸（ＡＴＰ）、ジチオスレイトール（ＤＴＴ）、またはマグネシウムイオン（Ｍｇ２＋）を含み得る。ライゲーションの間、１つの核酸鎖の３’末端を別の核酸鎖の５’末端と共有結合により連結し、したがって、アセンブルされた核酸を形成する。ライゲーション反応の成分は、平滑末端化された二本鎖ＤＮＡ（ｄｓＤＮＡ）、一本鎖ＤＮＡ（ｓｓＤＮＡ）、または部分的にハイブリダイズした一本鎖ＤＮＡであり得る。核酸の末端を１つにまとめる戦略は、リガーゼ酵素の実行可能な基質の頻度を増大させるものであり、したがって、リガーゼ反応の効率を改善するために使用することができる。平滑末端化されたｄｓＤＮＡ分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を１つにまとめるためのより上首尾の戦略は、それらがアセンブルすることが意図されている成分の突出との相補性を有する５’または３’一本鎖突出のいずれかを有する核酸成分を使用することであり得る。後者の例では、塩基−塩基ハイブリダイゼーションに起因してより安定な核酸２重鎖が形成され得る。

二本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端の他方の鎖は、「くぼみ」と称することができる。まとめると、くぼみと突出は、「粘着末端」としても公知の「付着末端」を形成する。付着末端は、３’突出と５’くぼみ、または５’突出と３’くぼみのいずれであってもよい。２つの意図された隣接成分間の付着末端は、相補性を有し、したがって、両方の付着末端の突出がハイブリダイズし、したがって、各突出末端が他の成分のくぼみの始めと直接隣接するように設計することができる。これにより、リガーゼの作用によって「シール」する（リン酸ジエステル結合を通じて共有結合により連結する）ことができる「ニック」（二本鎖ＤＮＡ切断）が形成される。３つの核酸をアセンブルするための付着末端ライゲーションの概略図例については図８を参照されたい。一方の鎖または他方の鎖、または両方の鎖のいずれのニックもシールすることができる。熱力学的に、付着末端を形成する分子の上の鎖および下の鎖は、会合した状態と解離した状態を移動し得、したがって、付着末端は、一過性の形成であり得る。しかし、２種の成分間の付着末端２重鎖の一方の鎖に沿ったニックがシールされると、逆の鎖のメンバーが解離したとしても共有結合性の連結が残存する。次いで、連結した鎖が、逆の鎖の意図された隣接メンバーが結合することができる鋳型になり、シールすることができるニックが再度形成される。

付着末端は、ｄｓＤＮＡを１つまたは複数のエンドヌクレアーゼで消化することによって創出することができる。エンドヌクレアーゼ（制限酵素と称することができる）は、ｄｓＤＮＡ分子のいずれかの末端または両末端の特異的な部位（制限部位と称することができる）を標的とし、ねじれ型切断を創出し得（時には消化と称される）、したがって、付着末端が残される。制限酵素消化に関しては化学的方法セクションＣを参照されたい。消化により、パリンドローム突出（それ自体の逆相補物である配列を有する突出）が残される。その場合、同じエンドヌクレアーゼで消化される２種の成分は、リガーゼを用いてそれに沿ってアセンブルすることができる相補的な付着末端を形成し得る。消化およびライゲーションは、エンドヌクレアーゼおよびリガーゼが適合する場合には同じ反応において共に行うことができる。反応は、摂氏４度、１０度、１６度、２５度、または３７度などの均一温度で行うことができる。または、反応は、複数の温度間、例えば、摂氏１６度と摂氏３７度の間のサイクルであってよい。複数の温度間でサイクルさせることにより、サイクルの異なる部分の間に消化およびライゲーションを各々それらのそれぞれの最適な温度で進行させることが可能になる。

消化およびライゲーションを別々の反応で実施することが有益な場合がある。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーション産物がエンドヌクレアーゼの新しい制限部位を形成する場合。これらの例では、制限酵素消化、次いでライゲーションを別々に実施することがより良好であり得、また、おそらく、制限酵素をライゲーションの前に除去することがさらに有益であり得る。核酸を酵素からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着、洗浄、および溶出によって分離することができる。複数のエンドヌクレアーゼを同じ反応において使用することができるが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするために注意を払うべきである。２種のエンドヌクレアーゼを使用し、一方のエンドヌクレアーゼによりｄｓＤＮＡ成分の両末端に直交性の（非相補的な）付着末端を創出することができる。

エンドヌクレアーゼ消化により、付着末端にリン酸化された５’末端が残される。リガーゼは、リン酸化された５’末端に対してのみ機能することができ、リン酸化されていない５’末端に対しては機能することができない。そのように、消化とライゲーションの間に中間の５’リン酸化ステップのいかなる必要もない場合がある。付着末端にパリンドローム突出を有する消化されたｄｓＤＮＡ成分はそれ自体とライゲーションする可能性がある。自己ライゲーションを防止するために、ライゲーション前に前記ｄｓＤＮＡ成分を脱リン酸化することが有益であり得る。

複数のエンドヌクレアーゼが異なる制限部位を標的とし得るが、適合する突出（互いに逆相補物である突出）が残される。２種のそのようなエンドヌクレアーゼを用いて創出された付着末端のライゲーション産物では、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含有しないアセンブルされた産物がもたらされ得る。そのようなエンドヌクレアーゼにより、ただ２つのエンドヌクレアーゼを使用し、反復的な消化−ライゲーションサイクルを実施することによってプログラム可能に複数の成分をアセンブルすることができるバイオブリックアセンブリなどのアセンブリ方法の基礎が形成される。図２０は、エンドヌクレアーゼＢａｍＨＩおよびＢｇｌＩＩを適合する突出と共に使用した消化−ライゲーションサイクルの例を例示する。

一部の実施形態では、付着末端を創出するために使用されるエンドヌクレアーゼは、ＩＩＳ型制限酵素であり得る。これらの酵素は、固定数の塩基をこれらの酵素の制限部位から特定の方向に切り出し、したがって、これらの酵素によって生成される突出の配列をカスタマイズすることができる。突出配列はパリンドロームである必要はない。同じＩＩＳ型制限酵素を使用して、複数の異なる付着末端を同じ反応においてまたは複数の反応において創出することができる。さらに、１つまたは複数のＩＩＳ型制限酵素を使用して、適合する突出を有する成分を同じ反応でまたは複数の反応で創出することができる。ＩＩＳ型制限酵素によって生成される２つの付着末端間のライゲーション部位は、それにより新しい制限部位が形成されないように設計することができる。さらに、ＩＩＳ型制限酵素部位を、ｄｓＤＮＡにおいて、制限酵素が付着末端を有する成分を生成する際にそれ自体の制限部位を切断するように位置させることができる。したがって、ＩＩＳ型制限酵素により生成した複数の成分間のライゲーション産物は、いかなる制限部位も含有しない場合がある。

ＩＩＳ型制限酵素を反応においてリガーゼと混合して、成分の消化とライゲーションを一緒に実施することができる。反応の温度を２つまたはそれよりも多くの値の間でサイクルさせて、最適な消化およびライゲーションを促進することができる。例えば、消化を摂氏３７度で最適に実施することができ、ライゲーションを摂氏１６度で最適に実施することができる。より一般的には、反応を少なくとも摂氏０度、５度、１０度、１５度、２０度、２５度、３０度、３５度、４０度、４５度、５０度、５５度、６０度、または６５度またはそれよりも高い温度値の間をサイクルさせることができる。複合させた消化およびライゲーション反応を使用して、少なくとも２種、３種、４種、５種、６種、７種、８種、９種、１０種、１１種、１２種、１３種、１４種、１５種、１６種、１７種、１８種、１９種、または２０種の成分間、またはそれよりも多くをアセンブルすることができる。ＩＩＳ型制限酵素を活用して付着末端を創出するアセンブリ反応の例としては、ＧｏｌｄｅｎＧａｔｅＡｓｓｅｍｂｌｙ（ＧｏｌｄｅｎＧａｔｅクローニングとしても公知）またはモジュラークローニング（ＭｏＣｌｏとしても公知）が挙げられる。

ライゲーションの一部の実施形態では、エキソヌクレアーゼを使用して、付着末端を有する成分を創出することができる。３’エキソヌクレアーゼを使用して、ｄｓＤＮＡから３’末端をチューバックし（ｃｈｅｗｂａｃｋ）、したがって、５’突出を創出する。同様に、５’エキソヌクレアーゼを使用して、ｄｓＤＮＡから５’末端をチューバックし、したがって、３’突出を創出する。異なるエキソヌクレアーゼは異なる性質を有し得る。例えば、エキソヌクレアーゼは、ｓｓＤＮＡに作用するかどうかに関わりなく、リン酸化された５’末端に作用するのかリン酸化されていない５’末端に作用するのかに関わりなく、ニックで開始することができるかどうかに関わりなく、またはそれらの活性を５’くぼみ、３’くぼみ、５’突出、もしくは３’突出において開始することができるかどうかに関わりなく、それらのヌクレアーゼ活性の方向が異なり得る（５’から３’へまたは３’から５’へ）。異なる型のエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、ＲｅｃＪ_ｆ、エキソヌクレアーゼＩＩＩ、エキソヌクレアーゼＩ、エキソヌクレアーゼＴ、エキソヌクレアーゼＶ、エキソヌクレアーゼＶＩＩＩ、エキソヌクレアーゼＶＩＩ、ヌクレアーゼＢＡＬ＿３１、Ｔ５エキソヌクレアーゼ、およびＴ７エキソヌクレアーゼが挙げられる。

エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分をアセンブルすることができる。反応は、固定温度で行うこともでき、各々がリガーゼまたはエキソヌクレアーゼそれぞれに理想的な複数の温度の間をサイクルさせることもできる。ポリメラーゼをアセンブリ反応にリガーゼおよび５’から３’へのエキソヌクレアーゼと一緒に含めることができる。そのような反応における成分は、互いに隣接してアセンブルすることが意図された成分がそれらの端部に相同な配列を共有するように設計することができる。例えば、成分Ｙとアセンブルされる成分Ｘは、５’−ｚ−３’形態の３’端部配列を有し得、成分Ｙは、５’−ｚ−３’形態の５’端部配列を有し得、ここで、ｚは、任意の核酸配列である。本発明者らは、そのような形態の相同な端部配列を、「ギブソンオーバーラップ」と称する。５’エキソヌクレアーゼによりギブソンオーバーラップを有するｄｓＤＮＡ成分の５’末端がチューバックされると、互いとハイブリダイズする適合する３’突出が創出される。次いで、ハイブリダイズした３’末端がポリメラーゼの作用によって鋳型成分の末端までまたは一方の成分の伸長した３’突出が隣接成分の５’くぼみを満たす点まで伸長し、それにより、リガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と称される。ギブソンアセンブリは、Ｔ５エキソヌクレアーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、およびＴａｑリガーゼを使用し、反応を摂氏５０度でインキュベートすることによって実施することができる。前記例では、好熱性リガーゼであるＴａｑを使用することにより、反応における３つの型の酵素全てに適した温度である摂氏５０度で反応を進行させることが可能になる。

「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼが関与する任意のアセンブリ反応を指す。ギブソンアセンブリを使用して、少なくとも２種、３種、４種、５種、６種、７種、８種、９種、１０種、またはそれより多くの成分をアセンブルすることができる。ギブソンアセンブリは、一段階の等温性反応として行うこともでき、１つまたは複数の温度でのインキュベーションを伴う多段階反応として行うこともできる。例えば、ギブソンアセンブリは、少なくとも３０度、４０度、５０度、６０度、または７０度、またはそれよりも低い温度で行うことができる。ギブソンアセンブリのインキュベーション時間は、少なくとも１分間、５分間、１０分間、２０分間、４０分間、または８０分間であり得る。

ギブソンアセンブリ反応は、意図された隣接成分間の意図された隣接成分ギブソンオーバーラップがある特定の長さであり、ヘアピン、ホモ二量体、または望ましくないヘテロ二量体などの望ましくないハイブリダイゼーション事象を回避する配列などの配列特色を有する場合に、最適に行うことができる。一般に、少なくとも２０塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、長さ少なくとも１塩基、２塩基、３塩基、５塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、１００塩基、またはそれよりも多くの塩基であり得る。ギブソンオーバーラップのＧＣ含量は、０％から１００％の間のいずれかであり得る。

ギブソンアセンブリは、一般に、５’エキソヌクレアーゼを用いて説明されるが、この反応は、３’エキソヌクレアーゼを用いて行うこともできる。３’エキソヌクレアーゼによりｄｓＤＮＡ成分の３’末端がチューバックされると、ポリメラーゼにより、３’末端が伸長することによって作用が打ち消される。この動的プロセスを、２種の成分（ギブソンオーバーラップを共有する）の５’突出（エキソヌクレアーゼによって創出される）がハイブリダイズし、ポリメラーゼにより一方の成分の３’末端がその隣接成分の５’末端に行くのに十分に伸長し、したがって、リガーゼによってシールすることができるニックが残されるまで続けることができる。

ライゲーションの一部の実施形態では、付着末端を有する成分は、酵素的なものとは対照的に、完全な相補性を共有しない２つの一本鎖核酸またはオリゴを一緒に混合することによって合成的に創出することができる。例えば、２つのオリゴ、オリゴＸおよびオリゴＹを、オリゴのいずれか一方または両方の全体を構成する塩基のより大きな列の亜列を形成する相補的な塩基の連続した列に沿ってのみ完全にハイブリダイズするように設計することができる。この相補的な塩基の列は、「インデックス領域」と称される。インデックス領域がオリゴＸの全体およびオリゴＹの５’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴＹ由来の３’突出を有する他方に付着末端を有する成分を形成する（図２１Ａ）。インデックス領域がオリゴＸの全体およびオリゴＹの３’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴＹ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｂ）。インデックス領域がオリゴＸの全体を占有し、オリゴＹのいずれの末端も占有しない場合（インデックス領域がオリゴＹの中央に埋め込まれていることを意味する）、オリゴは、一緒になって、オリゴＹ由来の３’突出を有する一方およびオリゴＹ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｃ）。インデックス領域がオリゴＸの５’末端のみおよびオリゴＹの５’末端のみを占有する場合、オリゴは、一緒になって、オリゴＹ由来の３’突出を有する一方およびオリゴＸ由来の３’突出を有する他方に付着末端を有する成分を形成する（図２１Ｄ）。インデックス領域がオリゴＸの３’末端のみおよびオリゴＹの３’末端のみを占有する場合、オリゴは、一緒になって、オリゴＹ由来の５’突出を有する一方およびオリゴＸ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｅ）。上述の例では、突出の配列は、インデックス領域の外側のオリゴ配列によって定義される。これらの突出配列は、ライゲーションのために成分がハイブリダイズする領域であるので、ハイブリダイゼーション領域と称することができる。

付着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域（複数可）は、成分の適当なアセンブリが容易になるように設計することができる。長い突出を有する成分は、所与のアニーリング温度で、短い突出を有する成分と比較してより効率的に互いとハイブリダイズすることができる。突出は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１５塩基、２０塩基、３０塩基、またはそれよりも多くの塩基の長さを有し得る。

高グアニンまたはシトシン含有量を含有する突出を有する成分は、それらの相補的な成分と、所与の温度で、低グアニンまたはシトシン含有量を含有する突出を有する成分よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりもより安定な塩基対を形成するからである。突出は、０％から１００％の間のいずれかのグアニンまたはシトシン含有量（ＧＣ含量としても公知）を有し得る。

突出配列と同様に、オリゴのＧＣ含量およびインデックス領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖および下の鎖が安定に結合していれば付着末端成分がより効率的にアセンブルすることができるからである。したがって、より高いＧＣ含量、より長い配列、およびより高い融解温度を促進する他の特色を有するインデックス領域を設計することができる。しかし、インデックス領域および突出配列（複数可）の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とアセンブルされた産物を形成するその能力が妨げられる恐れがある。これは、インデックス領域内、突出配列内、またはその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型およびそれらの安定性（例えば、融解温度）は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さおよびＧＣ含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、ｔａｂｕ検索のようなメタ−ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。

同様に、ホモ二量体（同じ配列のオリゴとハイブリダイズするオリゴ）および望ましくないヘテロ二量体（それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ）の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、予測し、オリゴ設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して説明することができる。

より長いオリゴ配列またはより高いＧＣ含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短いオリゴまたはより低いＧＣ含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴまたは高いＧＣ含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さおよび最適なＧＣ含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なＧＣ含量は、０％から１００％の間のいずれかであり得る。

付着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル（または鋳型または架橋）鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション（ＳＳＬ）、鋳型により導かれるライゲーション（ＴＤＬ）、または架橋鎖ライゲーションと称することができる。３つの核酸をアセンブルするためのＴＤＬの概略図例については図１０Ａを参照されたい。ＴＤＬでは、２つの一本鎖核酸を鋳型上に隣接的にハイブリダイズさせ、したがって、リガーゼによってシールすることができるニックを形成する。付着末端ライゲーションと同じ核酸設計考慮事項がＴＤＬにも当てはまる。鋳型とそれらの意図された相補的な核酸配列の間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導くことができる。したがって、鋳型の両側でのハイブリダイゼーション安定性（または融解温度）を改善する配列特色により、ライゲーション効率を改善することができる。これらの特色は、より長い配列の長さおよびより高いＧＣ含量を含み得る。鋳型を含めたＴＤＬにおける核酸の長さは、少なくとも５塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。鋳型を含めた核酸のＧＣ含量は、０％から１００％の間のいずれかであり得る。

ＴＤＬでは、付着末端ライゲーションと同様に、配列空間検索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分および鋳型配列を設計するために注意を払うことができる。ＴＤＬにおける成分は、二本鎖の代わりに一本鎖であり得るので、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある（付着末端ライゲーションと比較）。

ＴＤＬは、平滑末端化されたｄｓＤＮＡ成分を用いて実施することもできる。そのような反応では、ステープル鎖が２つの一本鎖核酸を適当に架橋するためには、まずステープルが、完全な一本鎖相補物を置き換えるまたは部分的に置き換えることが必要な可能性がある。ｄｓＤＮＡ成分を用いたＴＤＬ反応を容易にするために、ｄｓＤＮＡを最初に高温でインキュベートすることで融解させることができる。次いで、反応を冷却し、したがって、ステープル鎖がそれらの適当な核酸相補物にアニーリングすることを可能にすることができる。このプロセスは、ｄｓＤＮＡ成分と比較して比較的高い濃度の鋳型を使用することによってさらにいっそう効率的なものにすることができ、したがって、結合に関して鋳型が適当な全長ｓｓＤＮＡ相補物に打ち勝つことが可能になる。２つのｓｓＤＮＡ鎖がそれらの鋳型およびリガーゼによってアセンブルされたら、次いで、そのアセンブルされた核酸が逆の全長ｓｓＤＮＡ相補物の鋳型になり得る。したがって、ＴＤＬを用いた平滑末端化されたｄｓＤＮＡのライゲーションを、融解（より高い温度でのインキュベーション）およびアニーリング（より低い温度でのインキュベーション）の複数のラウンドを通じて改善することができる。このプロセスは、リガーゼサイクリング反応、またはＬＣＲと称することができる。適当な融解温度およびアニーリング温度は核酸配列に依存する。融解温度およびアニーリング温度は、少なくとも摂氏４度、１０度、２０度、２０度、３０度、４０度、５０度、６０度、７０度、８０度、９０度、または１００度であり得る。温度サイクルの数は、少なくとも１回、５回、１０回、１５回、２０回、１５回、３０回、またはそれよりも多くであり得る。

全てのライゲーションを固定温度反応または多重温度反応で実施することができる。ライゲーション温度は、少なくとも摂氏０度、４度、１０度、２０度、２０度、３０度、４０度、５０度、または６０度またはそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合うまたはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって、成分が一時的に隣り合うまたはハイブリダイズする頻度を増大させることができる。しかし、温度の上昇により、塩基対間の水素結合の破壊、したがって、これらの隣り合ったまたはハイブリダイズした成分２重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、アセンブルされる核酸の数、それらの核酸の配列、リガーゼの型、ならびに反応添加剤などの他の因子に依存し得る。例えば、４塩基の相補的な突出を有する２つの付着末端成分は、摂氏４度でＴ４リガーゼを用いると、摂氏２５度でＴ４リガーゼを用いるよりも速くアセンブルすることができる。しかし、２５塩基の相補的な突出を有する２つの付着末端成分は、摂氏２５度でＴ４リガーゼを用いると、摂氏４度でＴ４リガーゼを用いるよりも速くアセンブルすることができ、また、おそらく、４塩基の突出をいずれの温度でライゲーションするよりも速くアセンブルすることができる。ライゲーションの一部の実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。

ライゲーションを使用して、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれよりも多くの核酸をアセンブルすることができる。ライゲーションインキュベーション時間は、最大で３０秒間、１分間、２分間、５分間、１０分間、２０分間、３０分間、１時間、またはそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善することができる。

ライゲーションには５’リン酸化末端を有する核酸が必要な場合がある。５’リン酸化末端を有さない核酸成分は、Ｔ４ポリヌクレオチドキナーゼ（またはＴ４ＰＮＫ）などのポリヌクレオチドキナーゼとの反応でリン酸化することができる。ＡＴＰ、マグネシウムイオン、またはＤＴＴなどの他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏３７度で３０分間行うことができる。ポリヌクレオチドキナーゼ反応温度は、少なくとも摂氏４度、１０度、２０度、２０度、３０度、４０度、５０度、または６０度であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、またはそれよりも長い時間であり得る。あるいは、核酸成分は、改変された５’リン酸化を用いて合成的に（酵素的なものとは対照的に）設計し、製造することができる。それらの５’末端にアセンブルされる核酸のみにリン酸化が必要になり得る。例えば、ＴＤＬにおける鋳型は、アセンブルされるものではないので、リン酸化されていなくてよい。

ライゲーション効率を改善するために、添加剤をライゲーション反応に含めることができる。例えば、ジメチルスルホキシド（ＤＭＳＯ）、ポリエチレングリコール（ＰＥＧ）、１，２−プロパンジオール（１，２−Ｐｒｄ）、グリセロール、Ｔｗｅｅｎ−２０またはこれらの組合せの添加。ＰＥＧ６０００が特に有効なライゲーション増強剤であり得る。ＰＥＧ６０００は、クラウディング剤として作用することによってライゲーション効率を上昇させ得る。例えば、ＰＥＧ６０００は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分をより近づけ得る。添加剤含有量（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のリガーゼをライゲーションのために使用することができる。リガーゼは、天然に存在するものであっても合成されたものであってもよい。リガーゼの例としては、Ｔ４ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、９^ｏＮ（商標）ＤＮＡリガーゼ、Ｅ．ｃｏｌｉＤＮＡリガーゼ、およびＳｐｌｉｎｔＲＤＮＡリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定かつ最適に機能し得る。例えば、ＴａｑＤＮＡリガーゼは熱安定性であり、Ｔ４ＤＮＡリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる性質を有する。例えば、Ｔ４ＤＮＡリガーゼは平滑末端化されたｄｓＤＮＡをライゲーションすることができるが、Ｔ７ＤＮＡリガーゼは平滑末端化されたｄｓＤＮＡをライゲーションすることができない。

ライゲーションを使用して、シークエンシングアダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、シークエンシングアダプターを非対称にライゲーションすることができる。例えば、フォワードシークエンシングアダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバースシークエンシングアダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる（例えば、Ａ尾部など）。

ライゲーションは、熱失活（例えば、摂氏６５度で少なくとも２０分間のインキュベーション）、変性剤の添加、またはＥＤＴＡなどのキレート剤の添加によって阻害され得る。
Ｃ．制限酵素消化

制限酵素消化は、制限エンドヌクレアーゼ（または制限酵素）が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を切断する（または消化する）反応である。Ｉ型、ＩＩ型、ＩＩＩ型、またはＩＶ型制限酵素を制限酵素消化のために使用することができる。ＩＩ型制限酵素が核酸消化のための最も効率的な制限酵素であり得る。ＩＩ型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を切断することができる。前記制限酵素（およびそれらの制限部位）の例としては、ＡａｔＩＩ（ＧＡＣＧＴＣ）、ＡｆｅＩ（ＡＧＣＧＣＴ）、ＡｐａＩ（ＧＧＧＣＣＣ）、ＤｐｎＩ（ＧＡＴＣ）、ＥｃｏＲＩ（ＧＡＡＴＴＣ）、ＮｇｅＩ（ＧＣＴＡＧＣ）、およびさらに多くが挙げられる。ＤｐｎＩおよびＡｆｅＩなどのいくつかの制限酵素は、それらの制限部位を中央で切断することができ、したがって、平滑末端化されたｄｓＤＮＡ産物が残される。ＥｃｏＲＩおよびＡａｔＩＩなどの他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって、付着末端（またはねじれ型の末端）を有するｄｓＤＮＡ産物が残される。いくつかの制限酵素は、不連続の制限部位を標的とし得る。例えば、制限酵素ＡｌｗＮＩは、制限部位ＣＡＧＮＮＮＣＴＧを認識し、ここで、Ｎは、Ａ、Ｔ、Ｃ、またはＧのいずれかである。制限部位は、長さ少なくとも２塩基、４塩基、６塩基、８塩基、１０塩基、またはそれよりも多くの塩基であり得る。

いくつかのＩＩ型制限酵素は、それらの制限部位の外側の核酸を切断する。この酵素は、ＩＩＳ型またはＩＩＧ型制限酵素に下位分類することができる。前記酵素は、パリンドロームでない制限部位を認識することができる。前記制限酵素の例としては、ＧＡＡＡＣを認識し、２塩基（同じ鎖）および６塩基（逆の鎖）さらに下流にねじれ型切断を創出するＢｂｓＩが挙げられる。別の例としては、ＧＧＴＣＴＣを認識し、１塩基（同じ鎖）および５塩基（逆の鎖）さらに下流にねじれ型切断を創出するＢｓａＩが挙げられる。前記制限酵素をゴールデンゲートアセンブリまたはモジュラークローニング（ＭｏＣｌｏ）のために使用することができる。ＢｃｇＩ（ＩＩＧ型制限酵素）などのいくつかの制限酵素は、その認識部位の両末端にねじれ型切断を創出し得る。制限酵素は、それらの認識部位から少なくとも１塩基、５塩基、１０塩基、１５塩基、２０塩基、またはそれよりも遠く離れた核酸を切断し得る。前記制限酵素は、それらの認識部位の外側でねじれ型切断を創出し得るので、得られる核酸突出の配列を任意に設計することができる。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内にねじれ型切断を創出する制限酵素とは対照的である。制限酵素消化によって創出される核酸突出は、長さ少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、またはそれよりも多くの塩基であり得る。制限酵素により核酸を切断する場合、得られる５’末端はリン酸を含有する。

１つまたは複数の核酸配列を制限酵素消化反応に含めることができる。同様に、１つまたは複数の制限酵素を一緒に制限酵素消化反応に使用することができる。制限酵素消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、ＢＳＡ、Ｓ−アデノシル−Ｌ−メチオニン（ＳＡＭ）、またはこれらの組合せを含めた添加剤および補助因子を含有し得る。制限酵素消化反応は、摂氏３７度で１時間インキュベートすることができる。制限酵素消化反応は、少なくとも摂氏０度、１０度、２０度、３０度、４０度、５０度、または６０度の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限酵素消化反応は、最大で１分間、１０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長くインキュベートすることができる。より長いインキュベーション時間により、消化の増大をもたらすことができる。
Ｄ．核酸増幅

核酸増幅は、ポリメラーゼ連鎖反応、またはＰＣＲを用いて実行することができる。ＰＣＲでは、核酸の出発プール（鋳型プールまたは鋳型と称される）をポリメラーゼ、プライマー（短い核酸プローブ）、ヌクレオチド三リン酸（例えば、ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰ、およびその類似体またはバリアントなど）、ならびにベタイン、ＤＭＳＯ、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列を含む各識別子核酸配列に結合し、標的配列を含むそれらの識別子核酸配列のみを選択することができる。一般には、ＰＣＲ反応には２種のプライマーが存在し、一方は標的鋳型の上の鎖のプライマー結合性部位に相補であり、他方は第１の結合性部位よりも下流の、標的鋳型の下の鎖のプライマー結合性部位に相補的である。これらのプライマーがそれらの標的に結合する５’から３’への配向は、それらの間の核酸配列を首尾よく複製し、指数関数的に増幅するために、互いに向かい合っていなければならない。「ＰＣＲ」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。

一部の実施形態では、ＰＣＲは、３つの温度：融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびにハイブリダイゼーション産物および二次構造の形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏９５度を超える。一部の実施形態では、融解温度は、少なくとも摂氏９６度、９７度、９８度、９９度、１００度、１０１度、１０２度、１０３度、１０４度、または１０５度であり得る。他の実施形態では、融解温度は、最大で摂氏９５度、９４度、９３度、９２度、９１度、または９０度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも１秒間、２秒間、３秒間、４秒間、５秒間、またはそれよりも長く、例えば、３０秒間、１分間、２分間、または３分間にわたって適用することができる。複雑なまたは長い鋳型を用いたＰＣＲにはより長い最初の融解温度ステップが推奨される場合がある。

アニーリング温度は、プライマーとそれらの標的鋳型の間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏１０度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏２５度、３０度、５０度、５５度、６０度、６５度、または７０度であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含有量が高いプライマーほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、または３０秒間にわたって、またはそれよりも長く適用することができる。アニーリングを確実にすることを補助するために、プライマー濃度を高くするまたは量を飽和させることができる。プライマー濃度は、５００ナノモル（ｎＭ）であり得る。プライマー濃度は、最大で１ｎＭ、１０ｎＭ、１００ｎＭ、１０００ｎＭ、またはそれよりも高い濃度であり得る。

伸長温度は、１つまたは複数のポリメラーゼ酵素によって触媒されるプライマーの３’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。一部の実施形態では、伸長温度をポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏３０度、４０度、５０度、６０度、または７０度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、４０秒間、５０秒間、または６０秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の１キロベース当たりおよそ１５〜４５秒間であり得る。

ＰＣＲの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、２ステップ温度サイクルを３ステップ温度サイクルの代わりに使用することができる。複合アニーリングおよび伸長温度の例としては、摂氏６０度、６５度、または７２度が挙げられる。

一部の実施形態では、ＰＣＲを１つの温度サイクルで実施することができる。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、ＰＣＲを複数の温度サイクルで実施することができる。ＰＣＲが効率的であれば、各サイクルで標的核酸分子の数が２倍になり、それにより、元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。ＰＣＲの効率は変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、１００％より多いまたは少ない可能性がある。各ＰＣＲサイクルで突然変異したおよび組み換えられた核酸などの望ましくないアーチファクトが導入される可能性がある。この潜在的な害を縮小するために、忠実度が高く処理能力が高いポリメラーゼを使用することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。ＰＣＲは、最大で１、５、１０、１５、２０、２５、３０、３５、４０、４５、またはそれよりも多くのサイクルを伴い得る。

一部の実施形態では、複数の区別可能な標的核酸配列を１つのＰＣＲで一緒に増幅することができる。各標的配列が共通のプライマー結合性部位を有する場合、全ての核酸配列を、同じプライマーセットを用いて増幅することができる。あるいは、ＰＣＲは、各々が区別可能な核酸を標的とすることが意図された複数のプライマーを含み得る。前記ＰＣＲは多重ＰＣＲと称することができる。ＰＣＲは、最大で１種、２種、３種、４種、５種、６種、７種、８種、９種、１０種、またはそれよりも多くの区別可能なプライマーを伴い得る。複数の区別可能な核酸標的を有するＰＣＲでは、各ＰＣＲサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだまたは非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ（例えば、高忠実度および配列頑強性を有する）および最適なＰＣＲ条件を使用することができる。アニーリングおよび伸長の温度および時間などの因子を最適化することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。

ＰＣＲの一部の実施形態では、鋳型中のその標的化プライマー結合性部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を突然変異させることができる。ＰＣＲの一部の実施形態では、５’末端に余分の配列（突出として公知）を有するプライマーを使用して、その標的化された核酸に配列を付着させることができる。例えば、５’末端にシークエンシングアダプターを含有するプライマーを使用して、シークエンシングのための核酸ライブラリーを調製および／または増幅することができる。ある特定のシークエンシング技術のための十分な富化のために、シークエンシングアダプターを標的とするプライマーを使用して核酸ライブラリーを増幅することができる。

一部の実施形態では、プライマーが鋳型の一方の鎖のみ（両方の鎖ではなく）標的とする場合、線形ＰＣＲ（または非対称ＰＣＲ）を使用する。線形ＰＣＲでは、各サイクルから複製される核酸はプライマーと相補的なものではなく、したがって、プライマーはその核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって、線形（指数関数的なものとは対照的な）増幅になる。線形ＰＣＲからの増幅は従来の（指数関数的な）ＰＣＲほど高速でない可能性があるが、最大収率はより大きい可能性がある。理論的に、線形ＰＣＲにおけるプライマー濃度は、従来のＰＣＲではそうなるような、サイクルの増加および収率の上昇での制限因子にはならない。指数関数的増幅後線形増幅ＰＣＲ（Ｌｉｎｅａｒ−Ａｆｔｅｒ−Ｔｈｅ−Ｅｘｐｏｎｅｎｔｉａｌ−ＰＣＲ）（またはＬＡＴＥ−ＰＣＲ）は、特に高収率を可能にし得る線形ＰＣＲの改変バージョン。

核酸増幅の一部の実施形態では、融解、アニーリング、および伸長のプロセスを単一の温度で行うことができる。そのようなＰＣＲは、等温性ＰＣＲと称することができる。等温性ＰＣＲでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるまたは置き換えるために温度に依存しない方法を活用することができる。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法、およびニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で摂氏２０度、３０度、４０度、５０度、６０度、または７０度またはそれよりも高い温度で行うことができる。

一部の実施形態では、ＰＣＲは、試料中の核酸の量を数量化するための蛍光プローブまたは色素をさらに含み得る。例えば、色素を二本鎖核酸に挿入することができる。前記色素の例は、ＳＹＢＲＧｒｅｅｎである。蛍光プローブは、蛍光単位が付着した核酸配列であってもよい。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後伸長ポリメラーゼ単位から改変されると放出され得る。前記プローブの例としては、ＴａｑＭａｎプローブが挙げられる。そのようなプローブをＰＣＲおよび光学的測定ツール（励起および検出のための）と併せて使用して、試料中の核酸濃度を数量化することができる。このプロセスは、定量的ＰＣＲ（ｑＰＣＲ）またはリアルタイムＰＣＲ（ｒｔＰＣＲ）と称することができる。

一部の実施形態では、ＰＣＲを複数の鋳型分子のプールに対してではなく単一の分子鋳型に対して（単一分子ＰＣＲと称することができるプロセスで）実施することができる。例えば、エマルジョン−ＰＣＲ（ｅＰＣＲ）を使用して、単一の核酸分子を油エマルジョン中の水滴の中に封入することができる。水滴はＰＣＲ試薬も含み得、水滴を、ＰＣＲのための必要な温度サイクリングが可能な温度調節された環境で保持することができる。このように、複数の自蔵式ＰＣＲ反応を同時にハイスループットで行うことができる。界面活性物質を用いて油エマルジョンの安定性を改善することができる。マイクロ流体チャネルを通じて圧力を用いて液滴の動きを制御することができる。マイクロ流体デバイスは、液滴を創出するため、液滴を分割するため、液滴を同化させるため、材料を液滴中に注射するため、ならびに液滴をインキュベートするために使用することができる。油エマルジョン中の水滴のサイズは、少なくとも１ピコリットル（ｐＬ）、１０ｐＬ、１００ｐＬ、１ナノリットル（ｎＬ）、１０ｎＬ、１００ｎＬ、またはそれよりも大きいサイズであり得る。

一部の実施形態では、単一分子ＰＣＲを固相基板上で実施することができる。例としては、Ｉｌｌｕｍｉｎａ固相増幅法またはその変形が挙げられる。鋳型プールを固相基板に暴露させ、ここで、固相基板は、鋳型をある特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより、単一分子を基板上でハイスループット様式で増幅することができる。

ハイスループット単一分子ＰＣＲは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがＰＣＲ反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子ＰＣＲでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子ＰＣＲは、シークエンシングのための核酸を調製するために特に有用であり得る。単一分子ＰＣＲは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルＰＣＲ（またはｄＰＣＲ）では、区別可能な単一分子ＰＣＲ増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。

ＰＣＲの一部の実施形態では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プライマー結合性部位に対するプライマーは、プール中の全ての核酸に隣接している。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実施形態では、ＰＣＲを使用して、例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによって、標的化された核酸のサブセットをプールから選択的に増幅することができる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの端部に共通のプライマー結合性部位を共有する（サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。一部の実施形態では、ＰＣＲを核酸アセンブリ反応（例えば、ライゲーションまたはＯＥＰＣＲなど）と組み合わせて、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸を部分的にアセンブルされたまたはミスアセンブルされた（または意図されたものではないもしくは望ましくない）副産物から選択的に増幅することができる。例えば、アセンブリは、核酸を各端部配列上のプライマー結合性部位と、完全にアセンブルされた核酸産物のみが増幅のための必須の２つのプライマー結合性部位を含有するようにアセンブルすることを伴い得る。前記例では、部分的にアセンブルされた産物は、プライマー結合性部位を有する端部配列のいずれも含有しないまたはその一方のみを含有する可能性があり、したがって、増幅されないはずである。同様に、ミスアセンブルされた（または意図されたものではないもしくは望ましくない）産物は、端部配列のいずれも含有しないもしくはその一方のみを含有する、または両方の端部配列を含有するが誤った配向であるもしくは誤った量の塩基によって分離されている。したがって、前記ミスアセンブルされた産物は、増幅されないかまたは増幅されて誤った長さの産物が創出されるはずである。後者の場合、誤った長さの増幅されたミスアセンブルされた産物を、正しい長さの増幅された完全にアセンブルされた産物から、アガロースゲルでのＤＮＡ電気泳動、その後のゲル抽出などの核酸サイズ選択方法によって分離することができる（化学的方法セクションＥを参照されたい）。

核酸増幅の効率を改善するために、ＰＣＲに添加剤を含めることができる。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはこれらの組合せの添加。添加剤含有量（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のポリメラーゼをＰＣＲのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ−Ｔａｑポリメラーゼ、ＬＡ−Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼのような一部のポリメラーゼは、核酸伸長の間、より高い忠実度に寄与し得る３’から５’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは伸長の間リーディング配列を動かし得、一方、他のポリメラーゼは、それらを分解し得るまたは伸長を停止し得る。Ｔａｑのような一部のポリメラーゼは、アデニン塩基を核酸配列の３’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度および処理能力を有し得、増幅された核酸収率のために最小の突然変異を有することが重要である場合、および区別可能な核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシークエンシング調製などのＰＣＲ適用により適切であり得る。
Ｅ．サイズ選択

サイズ選択技法を使用して特定のサイズの核酸を試料から選択することができる。一部の実施形態では、サイズ選択を、ゲル電気泳動またはクロマトグラフィーを使用して実施することができる。核酸の液体試料を固定相またはゲル（またはマトリックス）の一方の電極にロードすることができる。ゲルの負極が、核酸試料がロードされる電極になり、ゲルの陽極が逆の電極になるようにゲルにわたって電圧の差異をかけることができる。核酸は負に荷電したリン酸骨格を有するので、ゲルを渡って陽極に移動することができる。核酸のサイズにより、核酸がゲルを通る相対的な移動スピードが決定され得る。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解される。電圧の差異は、１００Ｖまたは１２０Ｖであり得る。電圧の差異は、最大で５０Ｖ、１００Ｖ、１５０Ｖ、２００Ｖ、２５０Ｖ、またはそれよりも大きい差異であり得る。電圧の差異が大きいほど核酸移動のスピードおよびサイズ分解能が大きくなり得る。しかし、電圧の差異が大きいと、核酸またはゲルの損傷も生じ得る。より大きなサイズの核酸を分解するために、より大きな電圧の差異が推奨される場合がある。典型的な移動時間は１５分間から６０分間の間であり得る。移動時間は、最大で１０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きなサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、２００塩基の核酸を２５０塩基の核酸から分解するためには、１２０Ｖという電圧の差異および３０分という移動時間が十分であり得る。

ゲル、またはマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、一般には、ＴＡＥ（トリス−酢酸−ＥＤＴＡ）またはＴＢＥ（トリス−ホウ酸−ＥＤＴＡ）などの伝導性緩衝剤中に分散したアガロースまたはポリアクリルアミドなどのポリマー物質を含む。ゲル中の物質（例えば、アガロースまたはアクリルアミド）の含有量（体積当たりの重み）は、最大で５％、１％、２％、３％、５％、１０％、１５％、２０％、２５％、またはそれよりも多くであり得る。含有量が高いほど移動スピードが低下し得る。より小さな核酸を分解するために、より高い含有量が好ましい場合がある。二本鎖ＤＮＡ（ｄｓＤＮＡ）を分解するためにはアガロースゲルがより良好であり得る。一本鎖ＤＮＡ（ｓｓＤＮＡ）を分解するためにはポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型およびサイズ、添加剤（例えば、色素、染料、変性溶液、またはローディング緩衝剤）の適合性ならびに先行する下流の適用（例えば、ゲル抽出、次いでライゲーション、ＰＣＲ、またはシークエンシング）に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるホウ酸（酵素阻害剤）持ち越し汚染により下流の酵素反応が阻害される可能性があるので、ＴＡＥはＴＢＥほど良好な伝導体ではないが、同様にゲル抽出に関してはより良好であり得る。

ゲルは、ＳＤＳ（ドデシル硫酸ナトリウム）または尿素などの変性溶液をさらに含み得る。ＳＤＳは、例えば、タンパク質を変性させるためまたは核酸を潜在的に結合したタンパク質から分離するために使用することができる。尿素は、ＤＮＡの二次構造を変性させるために使用することができる。例えば、尿素により、ｄｓＤＮＡをｓｓＤＮＡに変換することができる、または尿素により、フォールディングされたｓｓＤＮＡ（例えば、ヘアピン）をフォールディングされていないｓｓＤＮＡに変換することができる。ｓｓＤＮＡを正確に分解するために尿素−ポリアクリルアミドゲル（ＴＢＥをさらに含む）を使用することができる。

試料をゲルに異なるフォーマットで組み入れることができる。一部の実施形態では、ゲルは、試料を手動でロードすることができるウェルを含有し得る。１つのゲルが複数の核酸試料を流すための複数のウェルを有し得る。他の実施形態では、ゲルを、核酸試料（複数可）を自動的にロードするマイクロ流体チャネルに付着させることができる。各ゲルはいくつかのマイクロ流体チャネルの下流にあってもよく、ゲル自体が別々のマイクロ流体チャネルを占有していてもよい。ゲルの寸法が核酸検出（または可視化）の感度に影響を及ぼし得る。例えば、薄いゲルまたはマイクロ流体チャネルの内側にあるゲル（例えば、バイオアナライザまたはテープステーション中のものなど）により、核酸検出の感度を改善することができる。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。

核酸サイズ参照のためにゲルにラダーをロードすることができる。ラダーは、核酸試料を比較することができる種々のサイズのマーカーを含有し得る。異なるラダーは異なるサイズ範囲および分解能を有し得る。例えば、５０塩基のラダーは、５０塩基、１００塩基、１５０塩基、２００塩基、２５０塩基、３００塩基、３５０塩基、４００塩基、４５０塩基、５００塩基、５５０塩基、および６００塩基のところにマーカーを有し得る。前記ラダーは、５０塩基から６００塩基のサイズ範囲内の核酸を検出し、選択するために有用であり得る。ラダーは、試料中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。

核酸試料およびラダーをローディング緩衝剤と混合して、ゲル電気泳動（またはクロマトグラフィー）プロセスを容易にすることができる。ローディング緩衝剤は、核酸の移動の追跡を補助するための色素およびマーカーを含有し得る。ローディング緩衝剤は、核酸試料が試料ロードウェル（ランニング緩衝剤中に浸されていてもよい）の底部に沈むことを確実にするために、ランニング緩衝剤（例えば、ＴＡＥまたはＴＢＥ）よりも密度の高い試薬（例えば、グリセロールなど）をさらに含み得る。ローディング緩衝剤は、ＳＤＳまたは尿素などの変性剤をさらに含み得る。ローディング緩衝剤は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝剤は、核酸をヌクレアーゼから保護するためのＥＤＴＡを含有し得る。

一部の実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用することができる染料を含み得る。染料は、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方に特異的なものであってよい。異なる染料を異なるゲル物質に適合させることができる。いくつかの染料は、可視化のために光源光（または電磁波）からの励起を必要とする。光源光は、ＵＶ（紫外線）または青色光であり得る。一部の実施形態では、染料をゲルに電気泳動前に添加することができる。他の実施形態では、染料をゲルに電気泳動後に添加することができる。染料の例としては、臭化エチジウム（ＥｔＢｒ）、ＳＹＢＲＳａｆｅ、ＳＹＢＲＧｏｌｄ、銀染色、またはメチレンブルーが挙げられる。ある特定のサイズのｄｓＤＮＡを可視化するための信頼できる方法は、例えば、アガロースＴＡＥゲルをＳＹＢＲＳａｆｅまたはＥｔＢｒ染色と一緒に使用することである。ある特定のサイズのｓｓＤＮＡを可視化するための信頼できる方法は、例えば、尿素−ポリアクリルアミドＴＢＥゲルをメチレンブルーまたは銀染色と一緒に使用することである。

一部の実施形態では、ゲルを通る核酸の移動を、電気泳動に加えて他の方法によって駆動することができる。例えば、重力、遠心分離、真空、または圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解することができる。

刃または剃刀を使用してある特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出すことができる。切り出しがある特定のバンドで的確に行われること、および、切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が首尾よく排除されることを確実にするために、適当な光学的検出技法およびＤＮＡラダーを使用することができる。ゲルバンドを緩衝剤と一緒にインキュベートしてゲルバンドを溶解させ、したがって、核酸を緩衝液中に放出させることができる。加熱または物理的撹拌により、溶解のスピードを上げることができる。あるいは、ゲルバンドを、緩衝剤中で、ゲル溶解を必要とせずにＤＮＡの緩衝液中への拡散を可能にするために十分に長くインキュベートすることができる。次いで、緩衝剤を残りの固相ゲルから、例えば、吸引または遠心分離によって分離することができる。次いで、核酸を溶液からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着などの標準の精製または緩衝剤交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。

ゲル切り出しの代替として、ある特定のサイズの核酸を、ゲルから流出させることによってゲルから分離することができる。移動している核酸は、ゲルに埋め込まれたかまたはゲルの最後にあるたらい（またはウェル）を通過し得る。移動プロセスについて時間を計るまたは光学的にモニタリングし、したがって、ある特定のサイズの核酸群がたらいに入ったら、試料をたらいから収集することができる。収集は、例えば吸引によって行うことができる。次いで、核酸を、収集された溶液からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着などの標準の精製または緩衝剤交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。

核酸サイズ選択のための他の方法としては、質量分光測定または膜に基づく濾過を挙げることができる。膜に基づく濾過の一部の実施形態では、核酸を、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方のいずれかに優先的に結合し得る膜（例えば、シリカ膜）を通過させる。膜は、少なくともある特定のサイズの核酸を優先的に捕捉するように設計することができる。例えば、膜を、２０塩基未満、３０塩基未満、４０塩基未満、５０塩基未満、７０塩基未満、９０塩基未満、またはそれよりも多くの塩基未満の核酸を濾過して取り除くように設計することができる。前記膜に基づくサイズ選択技法は、ゲル電気泳動またはクロマトグラフィーほどストリンジェントでない可能性がある。
Ｆ．核酸捕捉

親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにすることができる。インキュベーション温度は、プローブの融解温度を摂氏５度下回る温度まで、１０度下回る温度まで、１５度下回る温度まで、２０度下回る温度まで、２５度下回る温度まで、またはそれよりも大きく下回るまであってよい。ハイブリダイズした標的を、親和性タグに特異的に結合する固相基板に捕捉することができる。固相基板は、膜、ウェル、カラム、またはビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸を全て標的から除去することができる。洗浄は、洗浄の間の標的配列の安定な固定化を容易にするためにプローブの融解温度を下回る温度で行うことができる。洗浄温度は、プローブの融解温度を摂氏５度下回る温度まで、１０度下回る温度まで、１５度下回る温度まで、２０度下回る温度まで、２５度下回る温度まで、またはそれよりも大きく下回る温度までであってよい。最終的な溶出ステップにより、核酸標的を固相基板から、ならびに親和性タグ付きプローブから回収することができる。溶出ステップは、核酸標的の溶出緩衝剤中への放出を容易にするためにプローブの融解温度を上回る温度で行うことができる。溶出温度は、プローブの融解温度を摂氏５度上回る温度まで、１０度上回る温度まで、１５度上回る温度まで、２０度上回る温度まで、２５度上回る温度まで、またはそれよりも大きく上回る温度までであってよい。

ある特定の実施形態では、固相基板に結合したオリゴヌクレオチドは、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応または脱離反応化学、または酵素的切断などの条件に対する暴露によって、固相基板から除去され得る。ある特定の実施形態では、オリゴヌクレオチドは、切断可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化オリゴヌクレオチドに共有結合するための切断可能なリンカーを提供してもよい。一部の実施形態では、リンカー部分は、６原子またはそれより多くの長さのリンカーであり得る。一部の実施形態では、切断可能リンカーは、ＴＯＰＳ（合成あたり２個のオリゴヌクレオチドの）リンカー、アミノリンカー、または光切断可能リンカーであり得る。

一部の実施形態では、ビオチンを、固相基板上のストレプトアビジンによって固定化される親和性タグとして使用することができる。ビオチン化オリゴヌクレオチドを、核酸捕捉プローブとして使用するために設計し、製造することができる。オリゴヌクレオチドの５’末端または３’末端をビオチン化することができる。オリゴヌクレオチドの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン基板でのより強力な捕捉をもたらすことができる。オリゴの３’末端のビオチンにより、ＰＣＲの間にオリゴが伸長するのを遮断することができる。ビオチンタグは、標準のビオチンのバリアントであってよい。例えば、ビオチンバリアントは、ビオチン−ＴＥＧ（トリエチレングリコール）、二重ビオチン、ＰＣビオチン、デスチオビオチン−ＴＥＧ、およびビオチンアジ化物／アジドであり得る。二重ビオチンにより、ビオチン−ストレプトアビジン親和性を増大させることができる。ビオチン−ＴＥＧは、ＴＥＧリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えば、その標的とのハイブリダイゼーションに干渉するのを防止することができる。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。

ビオチン化核酸プローブは、その標的にいかによくハイブリダイズすることができるかを考慮して設計することができる。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズし得る。より長い核酸プローブ、ならびにＧＣ含量がより高いプローブは、融解温度が上昇するので、より強力にハイブリダイズし得る。核酸プローブは、少なくとも５塩基、１０塩基、１５塩基、２０塩基、３０塩基、４０塩基、５０塩基、または１００塩基、またはそれよりも多くの塩基の長さを有し得る。核酸プローブは、０％から１００％の間のいずれかのＧＣ含量を有し得る。プローブの融解温度がストレプトアビジン基板の温度許容度を超えないことを確実にするために注意を払うことができる。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体、およびヘテロ二量体などの阻害性二次構造が回避されるように設計することができる。プローブ融解温度とオフターゲットの結合の間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さおよびＧＣ含量が存在し得る。合成核酸ライブラリーは、その核酸が効率的なプローブ結合性部位を含むように設計することができる。

固相ストレプトアビジン基板は磁気ビーズであってよい。磁気ビーズを、磁気ストリップまたはプレートを使用して固定化することができる。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップまたはプレートを容器から取り出して磁気ビーズを容器壁から溶液中に放出させることができる。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径１マイクロメートル（μｍ）から３マイクロメートル（μｍ）の間のいずれかであってよい。ビーズは、最大で１マイクロメートル、２マイクロメートル、３マイクロメートル、４マイクロメートル、５マイクロメートル、１０マイクロメートル、１５マイクロメートル、２０マイクロメートル、または２０マイクロメートルを超える直径を有し得る。ビーズ表面は疎水性であっても親水性であってもよい。ビーズを遮断性タンパク質、例えば、ＢＳＡでコーティングすることができる。使用前に、ビーズが核酸に非特異的に結合するのを防止するために、ビーズを洗浄するまたは遮断性溶液などの添加剤で前処理することができる。

ビオチン化プローブを磁性ストレプトアビジンビーズとカップリングした後に核酸試料プールと一緒にインキュベートすることができる。このプロセスは、直接捕捉と称することができる。あるいは、ビオチン化プローブを核酸試料プールと一緒にインキュベートした後に磁性ストレプトアビジンビーズを添加することができる。このプロセスは、間接的な捕捉と称することができる。間接的な捕捉方法により、標的の収率を改善することができる。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくすることができる。

核酸プローブと核酸試料の最適なインキュベーションは、プローブの融解温度を摂氏１〜１０度またはそれよりも大きく下回る温度で行うことができる。インキュベーション温度は、最大で摂氏５度、１０度、２０度、３０度、４０度、５０度、６０度、７０度、８０度、またはそれよりも高い温度であり得る。推奨されるインキュベーション時間は１時間であり得る。インキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。インキュベーション時間が長いほど良好な捕捉効率を導くことができる。ビオチン−ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに１０分間のインキュベーションを行うことができる。この追加的な時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオンなどの添加剤を伴う緩衝液中で行うことができる。

核酸プールが一本鎖核酸である場合（二本鎖とは対照的に）、プローブとその標的のハイブリダイゼーションを改善することができる。ｓｓＤＮＡプールをｄｓＤＮＡプールから調製することには、一般にプール中の全ての核酸配列の端部に結合する１つのプライマーを用いて線形ＰＣＲを実施することが必要になり得る。核酸プールが合成により創出またはアセンブルされたものである場合、この共通のプライマー結合性部位を合成設計に含めることができる。線形ＰＣＲの産物はｓｓＤＮＡになる。核酸捕捉のためのより多くの出発ｓｓＤＮＡ鋳型をより多くの線形ＰＣＲのサイクルで生成することができる。ＰＣＲに関しては化学的方法セクションＤを参照されたい。

核酸プローブがそれらの標的とハイブリダイズし、磁性ストレプトアビジンビーズとカップリングした後、ビーズを磁石によって固定化し、いくつかのラウンドの洗浄を行うことができる。非標的核酸を除去するためには３〜５回の洗浄で十分であり得るが、それよりも多いまたは少ないラウンドの洗浄を使用することができる。増やした洗浄各々により、標的化されていない核酸をさらに減少させることができるが、標的核酸の収率も低下し得る。洗浄ステップの間の標的核酸とプローブの適当なハイブリダイゼーションを容易にするために、低インキュベーション温度を使用することができる。摂氏６０度、５０度、４０度、３０度、２０度、１０度、または５度またはそれよりも低いという低さの温度を使用することができる。洗浄緩衝剤は、ナトリウムイオンを伴うトリス緩衝液を含み得る。

ハイブリダイズした標的の磁気ビーズ−カップリングしたプローブからの最適な溶出を、プローブの融解温度と等しいまたはそれよりも高い温度で行うことができる。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で摂氏３０度、４０度、５０度、６０度、７０度、８０度、または９０度、またはそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で１分間、２分間、５分間、１０分間、３０分間、６０分間またはそれよりも長い時間であり得る。典型的なインキュベーション時間はおよそ５分間であり得るが、より長いインキュベーション時間により、収率を改善することができる。溶出緩衝剤は、ＥＤＴＡなどの添加剤を伴う水またはトリス緩衝液であってよい。

区別可能な部位のセットのうちの少なくとも１つ、または複数を含有する標的配列の核酸捕捉を、それらの部位の各々に対して複数の区別可能なプローブを用いて１つの反応で実施することができる。区別可能な部位のセットのあらゆるメンバーを含有する標的配列の核酸捕捉を、その特定の部位に対するプローブを使用して区別可能な部位各々に対して１つの反応である一連の捕捉反応で実施することができる。一連の捕捉反応後の標的の収率は低い可能性があるが、捕捉された標的をその後ＰＣＲで増幅することができる。核酸ライブラリーが合成により設計されたものである場合、標的は、ＰＣＲのために共通のプライマー結合性部位を有するように設計することができる。

一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリ反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた（または意図されたものではないもしくは望ましくない）副産物を濾過して取り除くために使用することができる。例えば、アセンブリには、各端部配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の２つの捕捉反応を通るのに必要な必須の２つのプローブ結合性部位を含有するようにアセンブルする。前記例では、部分的にアセンブルされた産物は、プローブ部位のいずれも含有しないまたは一方のみを含有する可能性があり、したがって、最終的に捕捉されないはずである。同様に、ミスアセンブルされた（または意図されたものではないもしくは望ましくない）産物は、端部配列のいずれも含有しないまたはその一方のみを含有する可能性がある。したがって、前記ミスアセンブルされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合性部位を含めることができる。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全にアセンブルされた産物（各成分を含有する）のみをアセンブリ反応のあらゆる副産物から単離することができる。その後のＰＣＲにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善することができる。

一部の実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによって。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する（サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。
Ｇ．凍結乾燥

凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物（例えば、活性酵素）を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。
Ｈ．ＤＮＡ設計

合成ライブラリー（例えば、識別子ライブラリー）を構築するための核酸の配列（例えば、成分）は、合成、シークエンシング、およびアセンブリの複雑化が回避されるように設計することができる。さらに、当該配列は、合成ライブラリーの構築費用が低減するように、かつ、合成ライブラリーを保管することができる寿命が改善されるように設計することができる。

核酸は、合成するのが難しい場合がある長いホモポリマーの列（または繰り返された塩基配列）が回避されるように設計することができる。核酸は、２を超える、３を超える、４を超える、５を超える、６を超える、７を超えるまたはそれよりも長いホモポリマーの長さが回避されるように設計することができる。さらに、核酸は、それらの合成プロセスを阻害する可能性があるヘアピンループなどの二次構造の形成が回避されるように設計することができる。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリーを構築するための核酸は、短く設計することができる。核酸が長いほど合成が難しく、費用がかかる可能性がある。核酸が長いほど、合成の間の突然変異の機会も増大する。核酸（例えば、成分）は、最大で５塩基、１０塩基、１５塩基、２０塩基、２５塩基、３０塩基、４０塩基、５０塩基、６０塩基またはそれよりも多くの塩基であり得る。

アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計することができる。ＯＥＰＣＲおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するより多くの情報についてはそれぞれ、化学的方法セクションＡおよびＢを参照されたい。効率的なアセンブリ反応には、一般には、隣接成分間のハイブリダイゼーションが伴う。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計することができる。ロックド核酸（ＬＮＡ）などの核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化することができる。これらの修飾核酸を、例えば、ステープル鎖ライゲーションにおけるステープルとして、または付着鎖ライゲーションにおける付着末端として使用することができる。合成核酸ライブラリー（または識別子ライブラリー）を構築するために使用することができる他の修飾塩基としては、２，６−ジアミノプリン、５−ブロモｄＵ、デオキシウリジン、反転ｄＴ、反転ジデオキシ−Ｔ、ジデオキシ−Ｃ、５−メチルｄＣ、デオキシイノシン、ＳｕｐｅｒＴ、ＳｕｐｅｒＧ、または５−ニトロインドールが挙げられる。核酸は、１つまたは複数の同じまたは異なる修飾塩基を含有し得る。前記修飾塩基のいくつかは、より高い融解温度を有し、したがって、アセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体（例えば、５−メチルｄＣおよび２，６−ジアミノプリン）である。前記修飾塩基のいくつかは、全ての天然の塩基に結合することができ、したがって、望ましい結合性部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基（例えば、５−ニトロインドール）である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマーおよびプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするので、プライマー（例えば、ＰＣＲ用）およびプローブ（例えば、核酸捕捉用）に有用であり得る。それぞれ核酸増幅（またはＰＣＲ）および核酸捕捉についてのさらなる核酸設計考慮事項に関しては化学的方法セクションＤおよびＦを参照されたい。

核酸は、シークエンシングが容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびＧＣ含量が高すぎるまたは低すぎる配列などの典型的なシークエンシング複雑化が回避されるように設計することができる。ある特定のシークエンサーまたはシークエンシング方法は、エラープローンであり得る。合成ライブラリー（例えば、識別子ライブラリー）を構成する核酸配列（または成分）は、互いからのある特定のハミング距離で設計することができる。このように、シークエンシングにおいて塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸（または成分）にマッピングし戻すことができる。核酸配列は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１１塩基、１２塩基、１３塩基、１４塩基、１５塩基またはそれよりも多くの塩基の突然変異というハミング距離で設計することができる。ハミング距離の代替距離メトリクスを使用して、設計される核酸間の最小の必要距離を規定することもできる。

いくつかのシークエンシング方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記シークエンシング計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーとアセンブルすることが伴う。しかし、合成核酸ライブラリー（例えば、識別子ライブラリー）が特定の計器または方法でシークエンシングされることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー（例えば、識別子ライブラリー）を含む核酸（例えば、成分）中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上にシークエンシングアダプターをアセンブルすることができる。

核酸は、ＤＮＡ損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、ＵＶＢ（紫外線−Ｂ）光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシークエンシングおよびＰＣＲが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがＵＶＢに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン（すなわち、ＴＴ）が回避されるように設計することが有益であり得る。

化学的方法セクションに含有される情報は全て、本明細書に記載の技術、方法、プロトコール、システム、およびプロセスを支持し、可能にするものとする。
アジド−アルキン修飾を有する成分から識別子をアセンブルする方法

２つまたはそれより多くの核酸成分を、化学および／または生物学的ライゲーション方法のいずれかを使用して共にライゲーションして識別子を創出することができる。一部の実施形態では、「クリックケミストリー」などの化学的ライゲーション法は、酵素的ライゲーションなどの生物学的方法と比較して利点を有し得る。

クリックケミストリーまたは銅触媒アジド−アルキン付加環化（ＣｕＡＡＣ）は、ヒュスゲン１，３−双極子付加環化反応の変形である。反応において、アルキンおよびアジド基が反応してトリアゾールホスホジエステル模倣体を形成する。現行の方法は、この反応の特異性、速度、および収率を増加させるためにＣｕ（Ｉ）イオンを使用する。反応は一部のアルキンでは速くなり得て、およそ１分という反応完了時間が報告されている。反応時間は、３０秒、６０秒、９０秒、１２０秒、１５０秒、または１８０秒またはそれより長い時間であり得る。反応はまた、頑強であり得て、広いｐＨ範囲に対して抵抗性を示す。

クリックケミストリーを使用する化学的ライゲーションは、鋳型（またはステープルもしくはスプリント）オリゴヌクレオチドの助けを借りて２つの一本鎖核酸成分の間で起こり得る。あるいは、化学的ライゲーションはまた、相補的突出（または付着末端）が共通に存在する場合、二本鎖核酸成分の間でも起こり得る。クリックケミストリーによる化学的ライゲーションを使用して、上記で記載された産物スキーム（図６）、順列スキーム（図１１）、ＭｃｈｏｏｓｅＫスキーム（図１２）、パーティションスキーム（図１３）、または無制約列スキーム（図１４）に従って識別子を構築してもよい。

クリックケミストリーを使用する成分のライゲーションは、１つの成分が少なくとも１つのアルキン基を有することおよび別の成分が少なくとも１つのアジド基を有することを必要とする。１つの成分の３’末端が他方の５’末端にライゲーションするように、隣接する成分上に相補的修飾が位置する限り、いずれの修飾が１つの核酸成分の５’または３’末端に位置してもよい。

いくつかの異なるタイプのアルキン−アジド結合をクリックケミストリーにおいて使用することができる。ＰＣＲなどの分子生物学の方法と適合性であるアルキン−アジド結合は、識別子を生成するために特に十分に適切であり得る。識別子の特定のプールが１つまたは複数のアルキン−アジド結合を含む場合、識別子は、ＰＣＲを使用してその天然型（塩基間にホスホジエステル結合を有する）にコピーされ得る。
多重部分成分から識別子をアセンブルする方法

識別子を含む成分を、異なる機能を有する２つまたはそれより多くの部分に分割してもよい。例えば、各成分は２つの部分：データアクセスのために核酸プローブにハイブリダイズすることが意図される１つの長い部分、およびシークエンシングの読み出しのために意図される別のより短い部分を有し得る。２つの部分は、分離していてもよく、各端で識別子にアセンブルされると意図することができ、したがって最終の識別子産物は２つの機能的に異なる領域を有する。１つの側の１つの領域は、化学的アクセスのために意図され、他方の側の１つの領域はシークエンシングのために意図される。

図２２は、各層からの成分が産物スキームに従って集合する、識別子の付着末端ライゲーションアセンブリについてのこの考え方の例としての概略図を示す。第１の層は、連結した２部成分によって識別子アセンブリプロセスの核となり、次の層は、両端から識別子上でアセンブルする分離した２部成分を含む。付着末端の上の記号はその配列を表す。異なる記号を有する付着末端は直交性である。記号の隣の星印は、逆相補鎖を表す。例えば、「ａ」および「ａ^＊」は、互いの逆相補鎖であり、したがってライゲーションの間にハイブリダイズして産物を形成する。
塩基エディターによって識別子を構築する方法

塩基エディターを使用して、親識別子内の特定の座に位置する塩基をプログラム可能に突然変異させて、新規識別子を構築することができる。一実施形態では、塩基エディターは、シトシン（Ｃ）をウラシル（Ｕ）に変換するシチジンデアミナーゼに融合したｄＣａｓ９タンパク質であり得る。親識別子は、ガイドＲＮＡ（ｇＲＮＡ）が結合するいくつかの直交標的を有するように設計することができる。標的座は、その座で結合したｄＣａｓ９−デアミナーゼの活性範囲内で１つまたは複数のシトシンを含有し得る。活性範囲は、座内の１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、またはそれより多くの塩基であり得る。次に、親識別子とｄＣａｓ９−デアミナーゼおよび特定の座に関するｇＲＮＡのサブセットとのインキュベーションは、それらの標的座の各々で１つまたは複数のシトシンからウラシルへの突然変異をもたらし得る。さらに、ＤＮＡポリメラーゼは、ウラシルをチミンとして認識し、そのため突然変異した識別子についてＰＣＲを実施するステップも同様に相補的変異（グアニンからアデニン）をもたらし得る。Ｎ直交標的座を有する親識別子を、ｄＣａｓ９−デアミナーゼおよび異なるサブセットのＮｇＲＮＡ（各々が親における区別可能な座を標的とする）を適用することによって２^Ｎ個の区別可能な娘識別子配列にプログラム可能に変換することができる。したがって、このスキームにおいて構築された可能な識別子の組合せ空間は、Ｎ個のｇＲＮＡ入力についてＮビットの情報を記憶し得る。

一部の実施形態では、親配列の任意の所定の標的座は、増加した変異効率を促進するために上および下の鎖の両方において標的化シトシンを含有し得る。その上、各座は効率的なｇＲＮＡ標的化が起こるためにはＰＡＭ部位に隣接しなければならない。しかし、ＰＡＭ配列は、異なる操作されたＣａｓ９バリアントの使用に応じて変化し得る。

ｄＣａｓ９−デアミナーゼ融合体は、２つの融合タンパク質の間にリンカー配列を含み得る。最適なリンカーの長さは、効率的な標的化変異に関して１６アミノ酸の長さであり得る。リンカーの長さは、少なくとも０アミノ酸、１アミノ酸、５アミノ酸、１０アミノ酸、１５アミノ酸、２０アミノ酸、２５アミノ酸、またはそれより多くのアミノ酸の長さであり得る。複数のシチジンデアミナーゼの１つを使用してもよい。シチジンデアミナーゼの例には、ＡＰＯＢＥＣ１、ＡＩＤ、ＣＤＡ１、またはＡＰＯＢＥＣ３Ｇが挙げられる。ｄＣａｓ９の代わりに活性なＣａｓ９ニッカーゼを使用してもよいが、同様に識別子構築反応においてＤＮＡ修復酵素を含むことが必要であり得る。

塩基エディターによって識別子を構築する別の実施形態では、ｄＣａｓ９に融合したアデニンデアミナーゼ（ｄＣａｓ９に融合したシチジンデアミナーゼとは対照的に、またはそれに加えて）を使用して、ｇＲＮＡによってアクセス可能な親識別子の被定義座でアデニンをイノシンに突然変異させてもよい。イノシンは、ＤＮＡポリメラーゼによってグアニンとして解釈される。したがって、塩基編集座でのＰＣＲにより、反対鎖上で相補的なチミンのシトシンへの突然変異がもたらされ得る。
ＤＮＡに記憶させた情報を削除する方法

核酸を使用して記憶させたデータを信頼可能に削除（または消去）できることは、セキュリティー、プライバシー、または規制上の理由から有益であり得る。データの消去は、核酸内の共有結合の切断、シークエンシングされる能力を破壊するための核酸の非可逆的修飾、それらを非可逆的な方法で封入もしくは吸着させること、または核酸の元のコレクションを読み取り不能もしくは読み取り不可にするより多くの核酸もしくは他の材料の付加を伴い得る。これらの方法は、選択的または非選択的な方法で実施することができる。選択プロセスは、削除プロセスとは異なりうる。例えば、識別子ライブラリーから開始して、配列特異的プローブを使用して、削除のための識別子のサブセットをプルダウンすることができる。別の例として、サイズまたは質量対電荷比による選択した識別子の精製を、他の選択的または非選択的削除方法と共に行うことができる。

ライブラリーから核酸を削除する選択的方法は、削除のための核酸サブセットをプルダウンするための配列特異的プローブの使用、１つまたは複数の標的配列を含有する選択した核酸を切断するためのＣＲＩＳＰＲに基づく方法の使用、およびサイズまたは質量対電荷比により核酸を選択するための精製技術の使用を含む。

ライブラリーからの情報符号化核酸を削除するための非選択的方法は、超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のＤＮＡ修飾剤による処置、放射線照射（例えば、紫外光による）、燃焼、およびＤＮアーゼＩなどの非特異的ヌクレアーゼ消化（ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏ）を含む。他の方法を使用して核酸をアクセスまたはシークエンシングから不鮮明に、隠す、または物理的に保護することができる。方法は、元の核酸を不鮮明にするためにカプセル化、希釈、ランダム核酸の付加、ならびに核酸の下流のシークエンシングを防止する他の作用剤の付加を含み得る。一実施形態では、核酸に記憶されたデータは、エラープローンポリメラーゼ、例えば校正機能が欠如したポリメラーゼによる増幅によって不鮮明にすることができる。

値の被定義期間で核酸に記憶させたデータに関して、データを指定された時点で自動的に削除する方法を使用することは有益であり得る。例えば、データは、必須の法定期間後に削除されるようにスケジュールすることができる。別の例として、データはそれが転送され、時間通りにその目的地に達していない場合にも削除されるようにスケジュールすることができる。一実施形態では、スケジュールされた核酸の削除は、被定義速度でまたは指定された時点で直ちに作用する分解剤の使用を伴い得る。別の実施形態では、スケジュールされた核酸の削除は、経時的に分解する核酸カプセルまたは保護ケーシングの使用を伴い得る。別の実施形態では、核酸は異なる分解速度を促進するために異なる温度または異なる環境で保持することができる。例えば、分解速度を増加させるために高温、または高湿度で保持することができる。別の実施形態では、核酸は、より急速な分解のためにより不安定型に変換することができる。例えば、ＤＮＡをより不安定なＲＮＡに変換することができる。

核酸の削除の確認は、シークエンシング、ＰＣＲ、または定量的ＰＣＲによって達成することができる。
効率的なランダムアクセスのために識別子を設計し、ランク付けする方法

本明細書に記載のシステムおよび方法により、符号化され、記憶された情報からビットの任意の分布を効率的にランダムアクセス検索することが可能になる。データが、ライブラリー中の標的化された識別子のサブセットを増幅するために縁層（または末端配列）に使用される成分特異的プライマーを用いて記憶されている場合、符号化された情報の画分を効率的に検索することができる。効率的なアクセスは、記憶されたデータから情報の選択された部分を検索するために必要なＰＣＲステップの数の減少を含み得る。例えば、本明細書に記載の方法を使用して記憶されたデータのセットにおいて、Ｌ／２未満の逐次的なＰＣＲステップで識別子にアクセスすることができ、ここで、Ｌは識別子を含む層の数である。識別子のアーキテクチャおよび識別子ランク付けシステムは、識別子プールのランダムアクセス特性に影響を及ぼす。識別子のランクは、それが表すビットの部分に対応する。識別子ランクは、各層に現れる可能性がある可能な成分の各々の順序から辞書学的に決定することができ、これを戦略的に定義することができる。例えば、識別子の縁にある層に識別子の中央にある層よりも高い優先順位を割り当てることができ、したがって、ランダムアクセス（例えば、識別子の縁層に結合するＰＣＲプライマーを用いる）により、連続するまたは関連するひと続きの符号化されたビットに対応する連続するランク付けを有する識別子が返される。「優先順位」がより高いことは、アクセスの深さがより低いことと似通っている−例えば、優先順位が高い要素は、優先順位が低い要素よりもアクセスが容易である。

識別子のアーキテクチャおよび識別子ランク付けシステムにより、識別子プール由来の特定の識別子のサブセットにランダムアクセスすることが可能になる。一部のインプリメンテーションでは、識別子プール中の各識別子核酸配列は、記号列内での記号値および記号位置に対応する。さらに、プール中の識別子核酸配列の存在または非存在は、記号列内の対応するそれぞれの記号位置の記号値を表し得る。

ある特定のインプリメンテーションでは、連続する記号位置を有する記号により、類似のデジタル情報が符号化される。本明細書で使用される場合、類似のデジタル情報は、同じ構造のデータ（すなわち、イメージデータまたはバイナリコードの列）を含み得る。類似のデジタル情報は、情報内に含有されるデータも指し得る。例えば、特定の強度の赤色を用いて符号化された全てのイメージデータの位置を連続する記号位置と一緒に群分けすることができる。あるいは、連続する記号位置を有する記号により、類似のデジタル情報が符号化されない場合もある。例えば、連続する記号位置は、ｘ座標、ｙ座標、または強度の値もしくは強度の値の範囲などの、データ（すなわち、イメージデータ）内の種々の特色に対応し得る。図２３は、３つの層、Ａ、Ｂ、およびＣの産物スキームによって産生される識別子の例を示す図であり、ここで、各層は、２つの成分、１および２を有する。３つの層、Ａ、Ｂ、およびＣの各々からの成分をその順序でアセンブルする。各識別子のランクは、各層に特定の順序を割り当て、次いで、各層内の各成分に特定の順序を割り当て、次いで、識別子に順序を辞書学的に割り当てることによって決定することができる。図２３Ａは、層の辞書学的順序を物理的識別子で順序付けられたものと同様に定義することから得られたランクを実証する。そのような識別子プールを、識別子の縁（例えば、成分Ａ１および成分Ｃ１）に結合するプライマーを使用したＰＣＲ反応を用いて問い合わせた場合、アクセスされた識別子は連続していないランクを有し、１つのＰＣＲ反応で連続するビットの列にランダムにアクセスすることが不可能になる。本明細書に記載のある特定のインプリメンテーションでは、識別子の縁（例えば、成分Ａ１および成分Ｃ１）は、「末端配列」または「末端分子」と称される。しかし、連続するひと続き内のビットにより関連する情報が符号化されることも多いので、多くの場合、連続するひと続きのビット（連続してランク付けされた識別子によって表される）にランダムにアクセスすることが理想的になる。プローブを使用して連続するひと続きのビット内のビットの各々にアクセスして、複数の識別子核酸配列内の各識別子核酸配列の標的末端配列にハイブリダイズさせて、それぞれの連続する記号位置を有する記号に対応する識別子核酸配列を選択することができる。図２３Ｂは、識別子の縁（または末端配列）に結合するプライマーを使用した１つのＰＣＲ反応で連続するひと続きのビットを問い合わせることを可能にするために、層Ａ、ＢおよびＣの辞書学的順序をどのように変化させることができるかを実証する。この戦略は、層の物理的順序付けと同じ層の辞書学的順序付けを使用するものではない。その代わりに、この戦略は、識別子の縁（または末端配列）にある層に優先順位がより高い辞書学的順序を割り当て、識別子の中央にある層に優先順位がより低い順序を割り当てるものである。

組合せ空間の基礎をなすパーティションスキーム内の成分の分布は、ＰＣＲ反応でアクセスすることができる記号の数に影響を及ぼし得る。図２４は、３つの層、Ａ、Ｂ、およびＣの産物スキームによって産生される識別子の例を示す図であり、ここで、成分は層にわたって不均一に分布している。具体的には、２つの層は２つの成分、１および２を有し、１つの層は３つの成分１、２、および３を有する。上述の識別子ランク付け原理によると、物理的順序付けがＡ、Ｂ、次いでＣであるにもかかわらず、層の辞書学的順序はＡ、Ｃ、次いでＢである。したがって、これは、識別子の縁層（または末端配列）に結合するＰＣＲプライマーを用いたランダムアクセスにより、連続するランク（連続するひと続きのビットに対応する）を有する識別子が返されるものである。具体的には、ある特定の識別子核酸配列の第１のおよび第２の末端配列が、連続するひと続きのビットに対応する複数の識別子核酸配列間で共有される。図２４Ａは、識別子の中央層（複数可）により多くの成分が位置する場合、ＰＣＲクエリ（各々が縁成分（または末端配列）に結合するプライマーを用いる）により、アクセスされた識別子のより大きなプールをもたらすことができることを実証する。対応して、一度により多くのビットにアクセスすることができる。図２４Ｂは、識別子の縁層（複数可）（または末端配列（複数可））により多くの成分が位置する場合、等価のＰＣＲクエリにより、アクセスされた識別子のより小さなプールをもたらすことができることを実証する。対応して、より高い分解能でビットにアクセスすることができる。

識別子を構築するための産物スキームにおける層の数も、ＰＣＲクエリごとにアクセスすることができる記号の数に影響を及ぼし得る。図２５は、５つの層、Ａ、Ｂ、Ｃ、Ｄ、およびＥの産物スキームによって産生される識別子の例を示す図であり、ここで、各層は、２つの成分、１および２を有する。上述の識別子ランク付け原理を進めると、層の辞書学的順序は、最高の優先順位が最も外側の層（ＡおよびＥ）に割り当てられ、次に高い優先順位が外側から２番目の層（ＢおよびＤ）に割り当てられ、最低の優先順位が中央層（層Ｃ）に割り当てられる。本明細書で使用される場合、優先順位はデータアクセスの深さ（またはレベル）を指し、優先順位が高いことは、深さが浅いことに対応し、優先順位が低いことは深さが深いことに対応する。例えば、大量の本からの本（すなわち、層ＡおよびＥ）へのアクセスは最高の優先順位とみなされ、本の中の章へのアクセスは次に高い優先順位（すなわち、層ＢおよびＤ）とみなされ、本の章中の段落へのアクセスは最低の優先順位（すなわち、層Ｃ）とみなされる。より多くの層がある場合、層の辞書学的順序付けをこのように続け、その結果、より少ないＰＣＲクエリを使用して連続するまたは関連するひと続きのビットを検索することができる。最も外側の層中の成分（Ａ１およびＥ１）に関連する全ての識別子を１つのＰＣＲ反応で問い合わせることができる。次いで、外側から２番目の層中の成分（Ｂ１およびＤ１）に結合するプライマーを使用した追加的なＰＣＲ反応を用いて、さらに高い分解能（すなわちより低い優先順位またはより深い）のクエリを実施することができる。識別子のアーキテクチャにより多くの層がある場合、逐次的なＰＣＲ反応をこのように続けて、分解能がより高くなるクエリを実現することができる。しかし、２つの逐次的なＰＣＲ反応を使用して４つの成分、Ａ１、Ｂ１、Ｄ１、およびＥ１に関連する全ての識別子を問い合わせることの代替として、ＰＣＲプライマーを、Ａ１−Ｂ１まとめて、およびＥ１−Ｄ１まとめてには結合するが、成分自体ではいずれにも結合せず、したがって、得られたＰＣＲクエリが、Ａ１およびＥ１の後にＢ１およびＤ１が逐次的にＰＣＲクエリされた場合と同じ識別子にアクセスするように設計することが可能である（特に、成分が十分に短い配列を有するように設計されている場合）。
ＤＮＡおよび複数のビンを用いて情報を符号化する方法

「マルチビンスキーム」を使用し、ＤＮＡ識別子を用いて情報を符号化することができる。そのようなスキームの１つのインプリメンテーションでは、ｂビンが存在し、各々が分離した識別子のセットを保持する。各ビンには一意の［ｌｏｇ_２ｂ］ビット記号がラベルされ、これは本明細書ではラベルまたはビンラベルと称され得る。ｌビットのビットストリームは

「ワード」に分割され、ここで、各ワードは長さ［ｌｏｇ_２ｂ］ビットを有する。任意のワードｗがビンラベルであり得る。

具体的には、マルチビンスキームは「マルチビン位置符号化スキーム」であってよい。このマルチビンスキームでは、ビットストリーム中の各ワードｗの位置を表すために一意の識別子を構築し、ラベルｗを有する一意のビンに入れる。スキームのこのマルチビンインプリメンテーションでは、

識別子を創出してｌビットの情報を符号化し、ちょうど１つのビン中に存在するちょうど１つの識別子によって各ビットを符号化する。これを「マルチビン位置符号化スキーム」と称する。

上記のマルチビン位置符号化スキームは以下の例によって説明することができる。３５個のビンを考え、各ビンに句読を含む英語アルファベットの区別可能な記号をラベルする。英語テキストの段落の符号化は以下のように実現される。各記号ｘについて、段落中のｘの全ての出現を識別する。それらの整数アドレスを、テキスト中の各文字に昇順で番号付けすることによって得る。いくつかの特定の記号ｘのアドレスに対応する全ての識別子を創出し、ｘでラベルされた単一のビン中に回収する。したがって、テキスト中のｘが出現する全ての位置を、ｘでラベルされたビン中の識別子によって表す。

図２６は、マルチビン位置符号化スキームの例を例示し、ここで、記号ストリーム中の各記号型の位置を、その記号型用に確保されたビン中に記録する。この図は、「ＡＢＥＡＣＨＣＡＦＥ」という例示的な句が１とラベルされることを示す。本実施例では、９つの記号型「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」、および「＿」（スペースを表す）で構成される９文字のアルファベットを仮定する。このアルファベット中の各記号に、それぞれの記号に対応する区別可能なビンを割り当て、その記号で名付けた。例として、空のビン「Ｄ」はラベル７によって示される。例えば、ビン「Ｆ」のラベルはラベル６によって示される。符号化される句をアルファベットから記号に分け、ラベル３によって示される通り、識別子ライブラリーに１対１の対応でマッピングする。記号が出現するごとに、対応する識別子のその記号用に確保されたビンへの追加が引き起こされる。例えば、符号化される句（「ＡＢＥＡＣＨＣＡＦＥ」、強調を加えた）中に記号「Ａ」が３回出現するので、ビンＡは３つの識別子（ラベル４）を有する。さらに、ビン「Ａ」中の３つの識別子は、その記号が出現する位置を指し示す。マッピングされる句（「ＡＢＥＡＣＨＣＡＦＥ」）には文字「Ｂ」および「Ｇ」は出現しないので、ビン「Ｄ」および「Ｇ」は空である。

マルチビンスキームの別のインプリメンテーションでは、ｌビットのビットストリームを、１、２、．．．、ｂとラベルされたｂビンへの識別子の分布で暗黙的に符号化する。このスキームでは、長さｌビットの全てのビットストリームのセットとｂビン中へのｄ識別子の全ての分布のセットの間にマッピングを設計する。ｄ識別子のｂビンへの分布は、０≦ｂ_ｉ＜ｂになるような整数ラベル（ｂ_１、ｂ_２、．．．、ｂ_ｄ）のベクトルであり、負でない整数ｂ_ｉは各々が、ｉ番目の識別子に割り当てられた一意のビンのラベルである。割り当てられたビンラベルの各々をｂ種の可能なラベルから自由に選択することができ、ｂ^ｄ種の可能な分布が存在する。

図２７は、情報を符号化するための識別子分布の使用に基づくマルチビンスキームの例を図解する。図２７は、識別子２つの識別子ライブラリー（１とラベルされる）および３つの名付けられたビン（０、１、２）のビン集合体を用いた例を示す。ビンの各行（各行が３つの名付けられたビン０、１、２を含む）は、３つのビンにパーティションされた２つの識別子の分布の例を示す。表（６とラベルされる）は、各分布にマッピングされた、固定されているが任意のものであるビットストリームを示す。例えば、３つのビンの第４の行（５とラベルされる）は、１と名付けられたビンには２つの識別子が入っているが、ビン０および２は空である分布を示す。この分布は、ビットストリーム００１１に任意にマッピングされる。同様に、３つのビンの第２の行は、０と名付けられたビンと１と名付けられたビンに２つの識別子が入っているが、第３のビンが空のままである分布を示す。この分布は、ビットストリーム０００１（３とラベルされる）にマッピングされる。次の行は、１と名付けられたビンが空のままである分布を示す。これは、ビットストリーム００１０に対応する。あらゆるそのようなビットストリームを考慮して、その対応する分布を構築し、保存する。このように、このマルチビン識別子分布スキームを使用し、十分な数のビンおよび識別子を使用して、あらゆるビットストリームを符号化することができる。

マルチビンスキームの別の実施形態では、識別子が１つよりも多くのビンに存在し得る。このスキームでは、ｌビットのビットストリームを、ビン１、２、．．．、ｂとラベルされる識別子の分布に暗黙的に符号化する。このスキームでは、各ビンが識別子のサブセットを含有する。したがって、このスキームでは、長さｌビットの全てのビットストリームのセットと全ての識別子サブセットのセットの全てのｂサブセットの間にマッピングを設計する。ｂサブセットは、ｂ要素を含有するセットを意味する。例えば、組合せ空間内に合計ｄ個の識別子が存在する場合、全ての識別子サブセットのセットが２^ｄセットを含有し、これをＤで示す。このスキームでは、長さｌの全てのビットストリームとｂセットを含有するＤの任意のサブセットの間のマッピングを使用し、長さがｌｏｇ_２２^ｄｂを超えないビットストリームを符号化することができる。別の実施形態では、各ビンが区別可能なサブセットを含有する：この場合、このスキームにより、長さが

を超えないビットストリームを符号化することができる。

図２８は、識別子が１つよりも多くのビン中に現れ得る場合の、情報を符号化するための識別子分布の使用に基づくマルチビンスキームの例を図解する。このスキームを、再使用を伴う識別子分布と称する。図２８は、識別子２つの識別子ライブラリー（８および９とラベルされる）ならびに３つのビン（ビン０、１、２）を伴う例を示す。２つの識別子および３つのビンを使用して、６ビット（ｂ_０ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５、ここで、各ｂ_ｘはビットストリーム中の単一のビットに対応し、ｘはビットストリーム中のそれぞれのビットの位置を示す）を符号化する。図の上部は、それぞれビットｂ_０ｂ_１（４とラベルされる）、ｂ_２ｂ_３、およびｂ_４ｂ_５に対応する可能な識別子のサブセットを示す。任意の識別子のサブセットを任意のビンに含めることができる。したがって、３つのビンの各ビンは４つの選択肢：識別子なし、単一の識別子（８とラベルされる）、他の識別子（９とラベルされる）、または両方の識別子（８および９）を含み得る。この実施例は３つのビンを伴うので、各サブセットが各行に３回示される（ラベル２）。３つのビンは各々がちょうど１つのサブセットを含み得るが、全てのサブセットで三重になることが許容される。これは、サブセットをつなぐ線（ラベル３）によって例示される：左から右への各道は、３つのビンに含められるサブセットの集合体に対応する。表（７とラベルされる）に示されている通り、識別子の各分布を特定のビットストリームにマッピングする。一実施形態では、各ビンについてサブセットを００、０１、１０、および１１と名付けることによってビットストリームを推定することができる。したがって、例えば、ラベル５によって示される分布は、３つのビンの各々に空の識別子のサブセットが含まれるように選択されるので、ビットストリーム００００００に対応し、このサブセットは００と名付けられる。同様に、ラベル６によって示される分布は、ビン０にサブセット０１が含まれ、ビン１にサブセット０１が含まれ、ビン２にサブセット１０が含まれるように選択されるので、ビットストリーム０１０１１０に対応する。この図は、６４種の可能な分布のうちのさらなる数例を示す（図中の破線の項目によって暗示される）。

マルチビン符号化スキームは、そのようなスキームを用いて符号化されたデータの復号には全てのビンにアクセスし、それを復号する必要があり得るので、データの安全な保存記録における適用を有し得る。例えば、マルチビンスキームではビットストリームが複数のビン中の区別可能な識別子の分布にマッピングされ、それにより、一般にビンの適当なサブセットからのソースビットストリームの任意の有意な部分列を復号することが不可能になるので、マルチビンにより符号化された識別子ライブラリーをソースビットストリームにマッピングし戻すためには各ビンに存在する識別子セットを得ることが必要であり得る。

別の実施形態では、マルチビンスキームを使用し、複数の直交性の識別子ライブラリーを使用してソースビットストリームを符号化することができる。得られたマルチビンライブラリーを、いくつかの最小濃度のビンの任意のサブセットからの復号が可能になるように組み合わせることができる。例えば、各々５つの直交性のライブラリーおよび３つのビンを使用してソースビットストリームを符号化することができる。次いで、得られた１５のビンを、３つのビンの任意のサブセットからのビットストリームの復号が可能になるように組み合わせることができる。実際には、ビンは、基板上の管、ウェル、またはスポットなどの物理的位置であり得る。

一部の実施形態では、ビンは、基板上の管、ウェル、またはスポットなどの物理的位置であり得る。他の実施形態では、ビンは、特定のバーコード配列のような、集合体内の全ての識別子に共有される、より抽象化された結び付きであり得る。
ＤＮＡおよび整数パーティションを用いて情報を符号化する方法

用語「整数パーティション」法を、ＤＮＡのランダム配列のパーティション中に情報を記憶する符号化戦略を指すために使用する。図２９は、５つのステップによって概説される整数パーティション法の実施形態を図解する。ＤＮＡが灰色または黒色の棒および記号で構成される列として示されている。示されているＤＮＡの各々が区別可能な種を表す。「種」は、配列が同じ１つまたは複数のＤＮＡ分子と定義される。「種」が複数の意味で使用される場合には、複数の種の中のすべての種が区別可能な配列を有すると仮定することができるが、これは時には「種」の代わりに「区別可能な種」と記すことで指定される。

方法実施形態のステップ１は、各々が「カウント」と称される非常に多数の種のプールから開始される。カウントは、縁に共通の配列（黒色および薄い灰色の棒）、次いで中央に区別可能な配列（Ｎ・・・Ｎ）を有するように設計することができる。縮重オリゴヌクレオチド合成戦略を使用して、このカウントの出発プールを迅速かつ安価な様式で製造することができる。ステップ２では、カウントをビン（ステップ２に示されている四角形）中にパーティションする。どのカウントをどのビンにパーティションするかは問題ではなく、各ビンにパーティションされるカウントの数だけが大事である。したがって、パーティションは、単一のカウントを出発プールからランダムに試料抽出し、次いで、そのカウントを特定のビン（例えば、ステップ２に示されている５つのビンのうちの１つ）に割り当てることによって行うことができる。単一のカウントをプールから小さな液滴中に試料抽出することができる。ビンは、反応容器である。例えば、ビンは、マイクロ流体チャネル内のチャンバまたは基板上の位置であり得る。カウントを、マイクロ流体デバイスを通じてチャンバに、または印刷を通じて基板上の位置に割り当てることができる。各ビンがバーコードと称される区別可能なＤＮＡ種を含有する。バーコードは、縁に共通の配列（薄い灰色および濃い灰色の棒）を有し、中央に各ビンを識別する区別可能な配列（Ｂ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、・・・）を有するように設計することができる。ステップ３では、バーコードの共通の縁配列をカウントの共通の縁配列とアセンブルする。例えば、バーコードの共通の縁配列は、付着末端ライゲーションまたはギブソンアセンブリによってアセンブルするように構成することができる。ステップ４では、各ビンからアセンブルされたＤＮＡ分子をステップ５に示される保管用の最終的なプールにコンソリデートする。最終的なプール中の種は、カウントが各ビンにどのようにパーティションされたかに関する情報の全てを含有する。この情報をシークエンシングによって回収することができる。所与の例では、シークエンシングデータは、９つのカウントが５つのビンにパーティションされ、したがって、第１のビン（Ｂ０）が２つのカウントを有し、第２のビン（Ｂ１）が３つのカウントを有し、第３のビン（Ｂ２）が１つのカウントを有し、第４のビン（Ｂ３）が１つのカウントを有し、第５のビン（Ｂ４）が２つのカウントを有することを意味し得る。これは、整数「９」を順序和「２＋３＋１＋１＋２」に数学的に書き換えることと等価であり、これは、「合成」として公知である。この方法のパラメータを常に合計９つのカウントと５つのビンを有するように固定した場合、本実施例で記録される特定の組成は、１３ｃｈｏｏｓｅ４の可能な合成の可能性があるので、ｌｏｇ２（１３ｃｈｏｏｓｅ４）ビットの情報を含有する。このプロセスの任意の時点で、記憶される情報に干渉することなく各種の複数のコピーが存在してよいまたは創出することができる（例えばＰＣＲを用いて）。これにより、分解から保護するため、およびシークエンシングを促進するために最終的なプールを増幅することが可能になる。一般に、整数パーティションシステムがｎ個のパーティションされたカウントおよびｋ個のビンという固定されたパラメータ値を有する場合、方法をインプリメントして、ｌｏｇ_２［（ｎ＋ｋ−１）ｃｈｏｏｓｅ（ｋ−１）］ビットの情報を記憶することができる。数学的には、この情報によりシステムの「弱い合成」の数が測定されると言える。しかし、これは、各ビンのバーコード配列が分かっている場合のみである。各ビンのバーコード配列が分かっていない場合（例えば、バーコード自体がランダム配列である場合）でも、なお方法をインプリメントして、

を記憶することができ、ここで、Ｐｊ（ｎ）は、ちょうどｊ部分に入るパーティションの数ｎである。
ＤＮＡへの情報の符号化のためのデータパイプライン設計の方法

ＤＮＡに書き込まれる入力ビットストリームを、「コーデック」と省略される計算符号化−復号パイプラインによって処理する。図３０は、例示的なコーデックの符号化部分の高レベルブロック図を示す。ソースビットストリームおよびそれをＤＮＡに書き込む要求を受信したら、コーデックはソースビットストリームをブロックサイズとして公知の固定された長さを超えないサイズの１つまたは複数のブロックに分割する。コーデックは、ソースビットストリーム（すなわち、記号列）、処理の必要条件、およびビットストリームの内容（すなわち、デジタル情報）の意図された適用に基づいて適切なブロックサイズを決定する。例えば、１００Ｇビットビットストリームを、各々の長さが１Ｇビットである１００個のブロックもしくは各々の長さが１００Ｍビットである１０００個のブロックに分割することができる、またはいくつかの他のやり方で分割することができる。

コーデックでは、１つまたは複数のハッシュアルゴリズムを使用して、各ブロックのハッシュを計算することができる。ハッシュアルゴリズムにより、ハッシュおよび他のメタデータ、例えば、ブロック長およびブロックアドレスをブロックに付け加えることができる。

コーデックでは、１つまたは複数のエラー検出および補正アルゴリズムを各ブロックに適用し、１つまたは複数のエラー保護バイトを計算することができる。次いで、コーデックにより元のブロックとエラー保護情報を組み合わせて、エラー保護されたブロックを得ることができる。例えば、コーデックでは、コンボリューション符号化をブロック内のビットに適用し、リード・ソロモンまたは抹消符号化をブロック内のバイトのチャンクに適用し、リード・ソロモンまたは抹消エラー保護バイトをブロックの各チャンクに付け加えることができる。コーデックによりエラー保護メタデータを各ブロックに付け加えることができる。

エラー保護情報の計算では、コーデックにより、特定の代数フィールドサイズを選択して、エラー保護算出を行うことができる。フィールドサイズによりソースワード長が規定され得、これは、任意のビット数、例えば、４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、６４、または１２８ビットなどであり得る。ソースワードは、ソースビットストリームを含む連続するビットの列（固定された長さのもの）である。コーデックにより、特定のフィールドサイズおよびワード長を計算の複雑さおよびエラー保護の検討に基づいて選択することができる。例えば、８ビットのワード長は計算的に効率的であるが、１６ビットのワード長ではより良好なエラー保護をもたらすことができる。コーデックでは、探索アルゴリズムを使用して、１つまたは複数のオブジェクト関数に基づいて最適なパラメータ値のセットを識別することができる。例えば、コーデックでは、ライターハードウェアシステム内の独立した反応コンパートメントの数、またはパラメータ値の特定の構成の下でビットストリームを符号化するために必要な一意の識別子の数、またはいくつかの他の関数、または関数のいくつかの組合せを費用関数として使用することができる。

コーデックでは、別の符号化ステップをエラー保護されたブロックにさらに適用して、書き取りまたは読み取り性能を改善することができる。コーデックにより、エラー保護されたブロック内の各ワードを新しいコードワードにマッピングすることができる。コーデックでは、探索アルゴリズムを使用して、特定の特性のセットを有するコードワードのセットを生成することができる。例えば、コーデックにより、長さが変数である、または「１」ビット値という同じ固定された数を有するコードワード、または互いからの指定されたハミング距離を有するコードワード、またはそのような特色のいくつかの組合せを生成することができる。コーデックでは、最良のコードワード長、重量、ハミング距離、またはコードワードの他の特色の決定において、ソースワード長、ライターハードウェアスピード、および利用可能な成分の総数を含めたパラメータのセットを使用することができる。コーデックは、これらのコードワードを用いたエラー検出または補正情報の別の層を含み得る。例えば、コーデックにより、ちょうどｋ「１」ビット値を有する長さｎのコードワードを生成することができ、ここで、ビットのうちの２つは、高ビットまたは低ビットとして公知であり、パリティビットとして機能し、高ビットはパリティビットが１の場合に設定され、そうでなければ低ビットが設定される。そのようなエラー保護ビットの１つまたは複数の対により、コードワードの種々の部分を保護することができる。

コーデックにより、特定のコードワードのセットを選択して、符号化または復号の間の最適化された化学的条件を確実にすることができる。例えば、コーデックにより、固定された重みのコードワードを生成して、固定された同一数の識別子がライターシステム内の各反応コンパートメントに、各コンパートメント中に、かつコンパートメントにわたっておよそ等濃度でアセンブルされることを確実にすることができる。コーデックにより、各反応コンパートメントに同じ数の識別子がアセンブルされ、整数のコードワードが符号化されるようにコードワード長およびパーティションスキームを選択することができる。

コーデックは、識別子の複数のセットを使用し、ソースビットストリーム中のビットの一部または全部が符号化されるように選択することができる。識別子は、直交性の識別子ライブラリーに由来するものであってもよく、同じ識別子ライブラリーに属するものであってもよい。識別子により、ソースビットストリームまたはソースビットストリーム由来のビットの組合せを符号化することができる。コーデックでは、ビットの組合せを符号化する識別子の複数のセットを使用することで、全てのビットを確実に復号するために必要な試料のサイズを縮小することができる。コーデックにより、各ソースブロックについて１つまたは複数の出力ブロックを生じさせることができる。出力ブロックは、一覧または木を含めたいくつかの他の型のデータ構造としてアセンブルされる識別子のセットとして記述することができる。コーデックにより、デバイスに指定された識別子をアセンブルするよう命令する１つまたは複数のコマンドファイルを生成することができる。例えば、コーデックにより、液体取扱いロボットまたはインク含有成分を用いるインクジェットプリンターを制御するコマンドファイルを生成することができる。コーデックは、デバイスと通信し、デバイスからの情報に基づいてブロックファイルを最適化することができる。例えば、デバイスからアセンブリエラー率を報告することができ、コーデックはエラー保護性能がより高い新しいブロックファイルを生成することができる。コーデックはブロックファイルまたはコマンドをファイルとしてまたはネットワークを介して伝達することができる。コーデックの計算プロセスは、１つまたは複数のコンピュータを介して実行することができる。
情報ライターへの指示を指定する方法

識別子ライブラリーを「ライター」として構築する任意のシステムに言及する。例えば、ライターの一部の実施形態では、印刷に基づく方法を使用して、識別子の構築のために成分をコロケートすることができる。印刷に基づく方法は、各々が１つまたは複数の核酸分子を基板上に印刷することができる１つまたは複数の印字ヘッドの使用を伴い得る。

アセンブルされる識別子ライブラリーを指定し、指定ファイルのセットを介してライターに伝達する。ブロックデータファイルにより、ライターによって生成される識別子のセットを指定する。ブロックデータファイルを、データ圧縮アルゴリズムを使用して圧縮することができる。ブロックを含む識別子を、これだけに限定されないが、木、トライ、一覧、またはビットマップなどのシリアライズされたデータ構造の形態で指定することができる。

例えば、産物スキームを使用して生成される識別子ライブラリーを、成分ライブラリーパーティションスキーム（成分が識別子のアーキテクチャ内の層に分割される様式）を含有するブロックメタデータファイル、および各層に使用される可能な成分の名称の一覧を用いて指定することができる。ブロックデータファイルは、トライの根から葉への各道が識別子を表し、道に沿った各ノードによりその識別子のその層において使用される成分名が指定される、シリアライズされたトライデータ構造として構成された生成される識別子を含有し得る。ブロックデータファイルは、このトライを、根から開始し、各ノードの左側の子ノードを見に行った後、ノード自体を見に行き、次いで、右側の子ノードを見に行く順序で横断することによってシリアライズすることを含み得る。

図３１は、識別子ライブラリーを表すためのデータ構造およびシリアライゼーションの実施形態を図解する。いくつかのビットストリームを符号化する識別子ライブラリーが示されている（ラベル１１）。木の根からあらゆる葉までの各道は単一の識別子を表し、識別子中の成分が道に沿って遭遇するノードの名称によって指定される。ラベル６は、成分名および区切り記号を主に含むデータ構造のシリアライズされた表示を示す。シリアライズされた形態は構築者特異的パーティションスキームの指定で始まる（ラベル５）。この場合、産物構築にはそれぞれの層の各々に３つ、２つ、３つ、および５つの成分を含有する４つの層を使用する。シリアライゼーションにおける残りの項目は、１とラベルされるもののように、データ構造の外の道を図示する。シリアライゼーションにおいて４とラベルされるセグメントは、木の根から始まり、第１の層のノード０、次いで第２の層のノード０、第３の層のノード０、および最後の層の葉０まで下る道を図示する。パーティションスキームは４つの層を有するので、この段階で完全な識別子を出力することができるとアルゴリズムにより推定される。より一般的には、シリアライゼーションのこのセグメント（７とラベルされる）は、最終的な層の代替成分の全てを指定する。特定の層の識別子ライブラリーに含まれる代替の全てが列挙されたら、区切り記号（本実施例ではピリオド）をシリアライゼーションに含めてこの状態に印をつける。これが、木の道に示されているようにアルゴリズムが層を上がる引き金となる（３とラベルされる）。シリアライゼーションにおける成分識別子の次のセグメント（１６とラベルされる）は次の識別子のセットを記述する。このように、識別子ライブラリー全体を平らなシリアルファイルで簡潔に表すことができる。
識別子を用いた計算方法

化学操作を使用して識別子ライブラリーにおいて符号化されたデータに対して計算を実施することが可能であり得る。そのような操作はアーカイブ全体の任意のサブセット、またはアーカイブ全体に対して並行化された様式で実施することができるので、これを行うことが有利であり得る。さらに、計算は、ｉｎｖｉｔｒｏにおいて、データの復号を伴わずに実施することができ、したがって、機密を保証しながら計算することが可能になる。一部のインプリメンテーションでは、ＡＮＤ、ＯＲ、ＮＯＴ、ＮＡＮＤおよびさらに他のものなどのブール論理操作を伴う計算を、各ビット位を表す識別子を使用して符号化されたビットストリームに対して実施し、ここで、識別子の存在によりビット値「１」が符号化され、識別子の非存在によりビット値「０」が符号化される。

一部のインプリメンテーションでは、全ての識別子を一本鎖核酸分子として構築する（または最初に二本鎖核酸分子として構築し、次いで一本鎖形態に分離させる）。任意の一本鎖識別子ｘについて、識別子はｘの逆相補物としてｘ^＊によって示される。一本鎖識別子Ｓの任意のセットについて、Ｓ中の各識別子の逆相補物のセットをＳ^＊と示す。ライブラリー中の全ての可能な一本鎖識別子をＵにより示し、その逆相補物のセットをＵ^＊により示す。これらのセットをユニバースおよびユニバース^＊と称する。Ｕ_ｓおよびＵ_ｓ ^＊は、ユニバースおよびユニバース^＊セットの第２の対を示し、したがって、これらのセット中の各識別子には、化学的方法によって標的とするまたは選択することができる検索領域として公知の追加的な核酸配列が補われる。

所与の識別子ライブラリーに対する計算を、ハイブリダイゼーションおよび切断を伴う一連の化学操作によってインプリメントすることができる。これらの操作の要約を以下に記載する。各操作は、入力として識別子のプールを取り、操作を実施し、出力として識別子のプールを返す。

手始めの例として、下記の表に示す通り、第１のライブラリーＬ１および第２のライブラリーＬ２は、各々が８ビットを含有する。２つのライブラリー間のビットごとの「ＯＲ」操作および２つのライブラリー間のビットごとの「ＡＮＤ」操作の結果も示されている。化学的ステップによって実施されるこれらの操作（および追加的な操作）の詳細を以下でさらに詳細に記載する。

各ライブラリーの各ビットを、記号位置を含む識別子として符号化する。記号位置について識別子の非存在により０が示され、記号位置について識別子の存在により１が示される。本実施例では、ライブラリー中の識別子は二本鎖である。

２つのライブラリーＬ１およびＬ２に対してＯＲ操作を実施するために、２つのライブラリープールを組み合わせる。両方のライブラリーについての識別子をＯＲ操作のために二本鎖状態のまま残すことができる。ＯＲ操作ではＬ１またはＬ２のいずれかに１が存在するかどうかが示されるので、２つのプールの組合せは十分に決定されたＯＲ操作出力である（上のＯＲの列に記載の通り）。最大で、同じ記号位置に２倍多くの識別子コピーが存在し（元のライブラリーと比較して）、これにより、なおその記号位置（すなわち、記号位置ｂ５）における１の存在が示される。一部のインプリメンテーションでは、二本鎖識別子を変性させて２つの一本鎖を生成することができる（すなわち、各二本鎖識別子についてセンスまたは「プラス」鎖１つとアンチセンスまたは「マイナス」鎖１つ）。得られた２つの相補的な一本鎖を「プラス」鎖および「マイナス」鎖と称する。一部のインプリメンテーションでは、ライブラリーの下位区分を選択することができ、ＯＲ操作を実施することができ、ＯＲ操作の結果で既存のライブラリーの一方または両方における既存のビット値を置き換えることができる。

２つのライブラリーＬ１およびＬ２に対してＡＮＤ操作を実施するために、まず二本鎖識別子を変性させて２つの一本鎖（すなわち、各二本鎖識別子についてセンス鎖１つとアンチセンス鎖１つ）を生成する。再度、得られた２つの相補的な一本鎖を「プラス」鎖および「マイナス」鎖と称する。プラス鎖およびマイナス鎖を別々のプールに分離する。実際には、プラス鎖またはマイナス鎖のいずれかに対してアフィニティータグ付きプローブを使用することによってこれを実現することができる（核酸捕捉に関しては化学的方法セクションＦを参照されたい）。識別子を、この目的のために共通のプローブ標的を含有するように設計することができる。次いで、第１のライブラリー由来の二本鎖識別子のプラス鎖（例えば、センス鎖）および第２のライブラリー由来の二本鎖識別子のマイナス鎖（例えば、アンチセンス鎖）を一緒にプールし、相補的な一本鎖がハイブリダイズすることを可能にする。両方のライブラリー（例えば、上記の表に示されているＬ１およびＬ２）に既存の識別子が存在すると仮定すると、得られた組み合わされたプールでは、一本鎖のＤＮＡとハイブリダイゼーションを起こした後の二本鎖のＤＮＡの組合せを有することになる。完全に二本鎖の識別子は、その識別子が第１のライブラリーＬ１および第２のライブラリーＬ２のどちらにも存在したことを示す。完全に二本鎖の識別子をプールから選択して、ＡＮＤ操作出力を創出することができる。例えば、Ｓ１ヌクレアーゼまたはリョクトウヌクレアーゼなどの一本鎖特異的ヌクレアーゼを使用して、一本鎖識別子（および部分的に一本鎖）を小さな単位に切断することで一本鎖識別子を選択的に取り除くことができる。完全に二本鎖の識別子は切断から保護され、次いで、化学的方法セクションＦに記載の核酸捕捉技法または化学的方法セクションＥに記載のサイズ選択技法などの技法を使用して単離することができる。例えば、核酸プールを、完全に相補的な二本鎖ＤＮＡだけがある特定の長さで流れるようにクロマトグラフィーゲルに流すことができる。組合されたプール出力が上記の表のＡＮＤ列に示されている。これらのＡＮＤ操作およびＯＲ操作を実施するために必要なステップの詳細およびさらなる例を以下に記載する。

本明細書に記載のランダムアクセス方法を使用して、ライブラリーの一部を抽出することができる。例えば、ライブラリーの下位区分をランダムアクセスによって抽出することができる。論理操作（例えば、ＯＲまたはＡＮＤ）を下位区分に適用することができる。一部のインプリメンテーションでは、得られた識別子のセットでライブラリー内の下位区分の元の値を置き換えることができる。

ｓｉｎｇｌｅ（Ｘ）という操作は、識別子のプール（二本鎖および／または一本鎖）を取り、一本鎖核酸識別子のみを返すものである（全ての二本鎖識別子を取り除く）。ｄｏｕｂｌｅ（Ｘ）という操作は、識別子のプール（二本鎖および／または一本鎖）を取り、二本鎖識別子のみを返すものである（全ての一本鎖識別子を取り除く）。ｍａｋｅ−ｓｉｎｇｌｅ（Ｘ）およびｍａｋｅ−ｓｉｎｇｌｅ^＊（Ｘ）という操作は、全ての二本鎖核酸識別子をそれらの一本鎖形態に変換するものである（アスタリスクが付いているバージョンではマイナス鎖を返し、アスタリスクが付いていないバージョンではプラス鎖を返す）。ｇｅｔ（Ｘ，ｑ）という操作は、クエリｑにマッチする全ての識別子のプールを返すものである。ｑ＝「全て」の場合、クエリは全ての識別子にマッチし、動作する。ｄｅｌｅｔｅ（Ｘ，ｑ）という操作は、クエリｑを満たす全ての識別子（二本鎖または一本鎖）を削除するものである。クエリは、以前に記載されている通り、ランダムアクセスによってインプリメントすることができる。ｃｏｍｂｉｎｅ（Ｐ，Ｑ）という操作は、ＰまたはＱ中の全ての識別子を含有するプールを返すものである。ａｓｓｉｇｎ（Ｘ，Ｙ）という操作は、Ｙの結果を変数名Ｘに割り当てるものと定義する。簡潔にするために、この操作を以下の形態でも示す：Ｘ＝Ｙ。割り当て操作は、いかなる「コンタミネーション」問題も伴わずに変数を再使用することが可能になる理想的な条件下で実行されるものと仮定する。

その後、どちらも長さｌのビットストリームａおよびｂがそれぞれ二本鎖識別子ライブラリーｄｓＡおよびｄｓＢに書き込まれたと仮定し、いくつかのサブビットストリームｓ＝ａ_ｉ・・・ａ_ｊおよびｔ＝ｂ_ｉ・・・ｂ_ｊに対する計算に関心を払い、計算の結果はサブビットストリームｓに記憶される。すなわち、最初にｉｎｉｔｉａｌｉｚｅ（ｄｓＡ，ｄｓＢ，ｓ，ｔ）操作によって示される以下の操作が指定された順序で実行されたと仮定する：

図３２は、識別子ライブラリーを用いた計算の設定の例を図解する。この図は、抽象木データ構造（４とラベルされる）として描かれた識別子の組合せ空間の例を図解する。本実施例では、木の各レベルで２つの成分間の選択を行う（ラベル２によって示される）。木の根からの各道は一意の識別子に対応し（ラベル３の例によって例示される通り）、その順序（またはランク）を決定するものである。ラベル４は、一本鎖ユニバーサル識別子ライブラリーを示す。ラベル５は、例えば「ａ」と称される特定のビットストリームを符号化する一本鎖識別子ライブラリーを示す。ラベル７は、７ビットを含む「ｓ」と称される「ａ」のサブビットストリームを示す。同様に、ラベル１０は、同じ長さのビットストリーム「ｂ」のサブビットストリーム「ｔ」を示す。ｉｎｉｔｉａｌｉｚｅ（ｄｓＡ，ｄｓＢ，ｓ，ｔ）を計算するための初期化手順に記載されている通り、計算されるサブビットストリームはプールＰおよびＱ（それぞれ６および９とラベルされる）において入手可能であり、計算の準備ができている。

ａｎｄ（ｓ，ｔ）という操作は、ビットストリームｓおよびｔの中のビットのビットごとの論理積と定義され、以下の順の操作を使用してインプリメントすることができる。

ｎｏｔ（ｓ）という操作は、ビットストリームｓ中のビットのビットごとの論理否定と定義され、以下の順の操作を使用してインプリメントすることができる：

ｏｒ（ｓ，ｔ）という操作は、ビットストリームｓおよびｔの中のビットのビットごとの論理和と定義され、以下の順の操作を使用してインプリメントすることができる：

一部のインプリメンテーションでは、ｏｒ（ｓ，ｔ）操作は、ｄｓＡとｄｓＢをプール中で組み合わせ、その結果、Ｏ（ｏｒ（ｓ，ｔ）操作の出力）と称される識別子の組合せをもたらすことを含み得る。

ｎａｎｄ（ｓ，ｔ）という操作は、ビットストリームｓおよびｔの中のビットの連言のビットごとの論理否定と定義され、以下の順の操作を使用してインプリメントすることができる。

一実施形態では、ｓｉｎｇｌｅ（Ｘ）という操作は、まず、Ｘ由来の一本鎖識別子がユニバーサル識別子とハイブリダイズするようにＸをＵ_ｓまたはＵ_ｓ ^＊と組み合わせることを伴い得る。さらに、Ｕ_ｓおよびＵ_ｓ ^＊中のユニバーサル識別子は特別な検索領域を有するので、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化様式でアクセスすることができる。

一実施形態では、ｄｏｕｂｌｅ（Ｘ）という操作は、Ｘ中の識別子をＳ１ヌクレアーゼなどの一本鎖特異的ヌクレアーゼで処理し、次いで、得られたＤＮＡのプールをゲルに流して、切断されなかった識別子（したがって完全に二本鎖の識別子）のみを単離することを伴い得る。

図３３は、識別子ライブラリーによって符号化されたビットストリーム「ｓ」および「ｔ」に対して論理操作をどのように実施することができるかの例を図解する。この図では、ユニバーサルライブラリー（１４とラベルされる）を使用し、したがって、これは計算されるプールと相補的である。ＡＮＤ／ＮＡＮＤとラベルされた列は、ビットストリーム「ｓ」および「ｔ」（それぞれ５および７とラベルされる）の連言をどのように計算することができるかを示す。プールが正しいユニバーサルライブラリー（ＵまたはＵ^＊）を使用して再フォーマットされていると仮定する。２つのプールを組み合わせると、相補的な一本鎖識別子がハイブリダイズし、示されている通り２重の識別子を形成する（例えばラベル９）。得られたプール（１０とラベルされる）中の二本鎖識別子の集合体によりＡＮＤ計算が符号化される：二本鎖産物を分離することにより、ａｎｄ（ｓ，ｔ）を表す識別子ライブラリーがもたらされる。あるいは、一本鎖産物を分離することにより、ｎａｎｄ（ｓ，ｔ）を表す識別子ライブラリーがもたらされる。ＯＲとラベルされた列は、ビットストリーム「ｓ」および「ｔ」の選言をどのように計算することができるかを示す。「ｓ」および「ｔ」を表す識別子を含有するプールを組み合わせた場合、得られるライブラリーはｏｒ（ｓ，ｔ）を表すものになる。ＮＯＴとラベルされた列は、ビットストリーム「ｓ」の否定をどのように計算することができるかを示す。ここでは、ビットストリーム「ｓ」を表す一本鎖識別子ライブラリーを相補的なユニバーサル識別子ライブラリーと組み合わせる（１５とラベルされる）。結果として（１９とラベルされる）、形成された全ての二本鎖産物（例えば１８とラベルされる）が「ｓ」中の「１」ビットを表し、棄却することができる。残りの一本鎖産物（例えば、１７とラベルされる）は、「ｓ」中の「０」ビットを表し、したがってｎｏｔ（ｓ）における「１」ビットに対応する。これらの一本鎖産物はｎｏｔ（ｓ）を表す識別子ライブラリーをもたらすものであり、さらなる計算に使用することができる。
イメージデータの符号化および読み取りの方法

識別子ライブラリーは、その中の符号化されたビットストリームの内容に関しては断定的なものではないが、大きなサイズおよび自然的な長期にわたる社会的価値に起因して、イメージデータをアーカイブすることにおいて特に有用であり得る。したがって、識別子ライブラリーは、イメージデータを、そのようなデータのために特別に設計された符号化スキームおよびフォーマットを用いて符号化するために有用であり得る。「イメージデータ」は、いくつかの次元のベクトルの集合体として暗黙的にまたは明確に存在し、局所性を有するデータを指す：示されたベクトルはそれらの中で距離の概念を有し、すぐ近くにあるベクトルは問い合わせ、動作、または解釈を一緒に受ける。例えば、写真イメージでは、各ピクセルは、ピクセルの位置およびその色の値を記述するベクトルであり、近くのピクセルは、一般には、写真において１つまたは複数のオブジェクトの領域を形成し、したがって、単位として解釈および動作を受ける可能性が高い。

１つのインプリメンテーションでは、イメージ符号化スキームを用いてイメージを識別子ライブラリーにマッピングし、ここで、元の多次元イメージからのベクトルを空間充填曲線などの数学関数によって定義される直線的順序付けで順序付ける。示されたベクトルの一部または全部の次元に沿って可能な値を成分ライブラリー中の特定の成分にマッピングすることができ、識別子構築のためにベクトルの一部または全部の次元を産物スキーム内の層にマッピングすることができる。これをネイティブイメージ符号化と称する。例えば、識別子構築のために幅ｘピクセルおよび高さｙピクセルのグレースケールイメージを産物スキームにマッピングすることができ、第１の層の成分はピクセルのｘ座標を表し、第２の層の成分はピクセルのｙ座標を表し、第３の層の成分はピクセルのグレースケール強度を表す。例えば、ＲＧＢカラーイメージを、赤色チャネル、青色チャネル、および緑色チャネルのそれぞれに対する３つの直交性の識別子ライブラリーを用いて同様に表すことができる。別の実施形態では、色相、彩度、明度などの他の代替カラーモデルも同様に表すことができる。別の実施形態では、ピクセルの位置を指定する座標を、第３の層の成分が、各々が強度の値を指定する代わりに、各々が強度の値を指定するビット列中のビット位を表し、各成分を有する識別子の存在または非存在により、それぞれ「１」または「０」の値が指定される以外は上記の通り表すことができる。例えば、前者の実施形態では、第３の層は２５６成分を含み得、特定のピクセルにおける各成分により、２５６の可能な強度の値のうちの１つが指定され、後者の実施形態では、第３の層は８成分を含み得、特定のピクセルにおけるこれらの成分の各サブセットにより、２５６の可能な強度の値のうちの１つが指定される。

一部のインプリメンテーションでは、一部または全部の成分が値の範囲に関連付けられる。例えば、カラー値層（第３の層）の成分を、そのカラーチャネルにおけるカラー値の間隔を表すものと定義することができる。例えば、赤色チャネル識別子の第３の層の各成分を、特定の赤のカラー値にマッピングする代わりに赤のカラー値の±１０点の範囲にマッピングすることができる。

一部のインプリメンテーションでは、上で定義されたようにイメージを符号化する場合、ＰＣＲまたはハイブリダイゼーション捕捉などの以前に記載されているランダムアクセススキームを使用してイメージにおける任意のデカルトセクション（近傍ピクセル）をカラー値に関して問い合わせることができる。さらに、符号化スキームが、第３の層の各成分により強度の値が指定されるものである場合、ランダムアクセススキームを使用して任意のカラー値を関連するピクセル座標に関して問い合わせることができる。

一部のインプリメンテーションでは、ネイティブイメージ符号化を用いて符号化されたイメージを複数の分解能で復号することができる。例えば、およそ３ｘｙ識別子を使用したＲＧＢカラーモデルを用いて符号化した幅ｘピクセルおよび高さｙピクセルのイメージを、識別子の半分の均一にランダムなサブセットを試料抽出することによって元の分解能の半分で復号することができる。試料抽出された識別子から元のイメージの内容を画像加工および内挿技法を使用して低分解能で再構築することができる。イメージの復号にはより小さな試料が使用されるので、復号の費用および時間が低減する。

一部のインプリメンテーションでは、複数のイメージの低分解能での復号および画像加工を使用して、アーカイブ中の目的のイメージまたはイメージのセクションを識別することができる。この後、これらのイメージまたはイメージのセクションの高分解能での復号を行うことができる。この特色のセットは、例えば、特定の視覚的特色が求められるサーベイランスイメージの大きなアーカイブの分析において有用であり得る。別の適用では、ビデオアーカイブを静止イメージフレームの大きなアーカイブとして処理することができる。本出願では、ランダムアクセスおよび低分解能での復号により、目的のフレームを識別することができる。次いで、周囲のフレームをより高い分解能で復号して、目的のビデオセグメントを再構築することができる。このように、大きなイメージまたはビデオアーカイブを高密度で何世紀にもわたって記憶させ、それでもなお低費用で並行して問い合わせることができる。

イメージデータの記憶および多分解能読み取りの例を以下に記載する。圧縮されていない画像ファイルを識別子に、各識別子または各連続する識別子の群がイメージのピクセルを表すように符号化することができる。例えば、イメージがビットマップとして記憶されており、各ビットが２色（例えば白色または黒色）のうちの１色を有することができるピクセルである場合、ビットマップ中の各ビットを識別子によって表すことができ、その識別子の存在または非存在により、それぞれ一方の色または他方の色を表すことができる。イメージを読み取り戻すために、識別子ライブラリーをランダムに試料抽出することができる（標準の次世代シーケンシング技術を用いて予想されるものと同様に）。イメージを読み取り戻す分解能は、読み出しのサンプルサイズを定義することによって指定することができる。したがって、低分解能バージョンのイメージを高分解能バージョンよりも安い価格で読み取り戻すことができる。これは、イメージを読み取り戻すオブジェクトが細密なイメージの詳細を必要とするものでない場合に有用であり得る。あるいは、低分解能バージョンのイメージまたはいくつかのイメージを検査して、より高い分解能での問い合わせ（アクセス）の位置を決定することができる。

この多分解能制御読み取り戻しの原理をさらに実証するために、ビットマップとして記憶されたイヌのイメージの例（図３４）を検討する。図３４Ａの元のイメージは、１４７６８００ピクセル（１３００×１１３６ピクセル）であり、各々がビット（白色または黒色）として記憶されている。各ビットが識別子であり、黒色ピクセルの識別子のみを構築することによってイメージを符号化すると何が起こるかをシミュレートする。これには１３１８２０個の識別子が必要である。図３４Ｂは、識別子の総数１０倍（サンプルサイズ１３１８２００）のシミュレートされた試料抽出から得られたイメージを実証する。これは元のイメージと同様の細部を有する。図３４Ｃは、識別子の総数と等価数（サンプルサイズ１３１８２０）のシミュレートされた試料抽出から得られたイメージを実証する。図３４Ｄは、識別子の総数の１０分の１の識別子（サンプルサイズ１３１８２）のシミュレートされた試料抽出から得られたイメージを実証する。黒色ピクセルは非常にまばらなので、イメージを可視化することは難しい。各濃いピクセルのサイズを増幅して、元のイメージの再創出を補助することができる。図３４Ｅは、各黒色ピクセルを２５ピクセルまで増幅した以外は同じであるイメージを示す。この分解能では、元のイメージのいくらかの細部、例えば毛の一画が喪失する可能性がある。しかし、より粗い細部、例えば眼および鼻はなお目に見える。図３４Ｆは、識別子の総数の１００分の１の識別子（サンプルサイズ１３１８）のシミュレートされた試料抽出から得られたイメージを実証する。黒色ピクセルは非常にまばらなので、イメージを可視化することが難しい。再度、各濃いピクセルのサイズを増幅して元のイメージの再創出を補助することができる。図３４Ｇは、各黒色ピクセルを２５ピクセルに増幅した以外は同じであるイメージを示す。元のイメージの多くの細部が失われている可能性があるが、イメージはそれでもイヌの形状ならびにそのカラーパターンに関するいくらかの細部を示す。

イメージの各ピクセルが２色よりも多くの可能なカラーを有する場合であっても、等価の多分解能読み取り戻しを実施することができる。例えば、各ピクセルが２色の代わりに２５６色の可能なカラーを有する場合、各ピクセルを８つの識別子のサブセットによって表すことができる。各ピクセルが、各々２５６の可能な強度の３つのカラーチャネル、例えばＲＧＢを有する場合、イメージを各チャネルに対応する３つの直交性の識別子ライブラリーに記憶させることができる。
ＤＮＡを用いたデータの無作為化、暗号法、および認証の方法

ＤＮＡを使用してランダムビットストリームを生成し、記憶させる能力には、暗号法およびコンビナトリアルアルゴリズムにおける計算への適用があり得る。多くの暗号化アルゴリズム、例えば、ＤａｔａＥｎｃｒｙｐｔｉｏｎＳｔａｎｄａｒｄ（ＤＥＳ）では、セキュリティーを保証するためにランダムビットの使用が必要である。他の暗号化アルゴリズム、例えば、ＡｄｖａｎｃｅｄＥｎｃｒｙｐｔｉｏｎＳｔａｎｄａｒｄ（ＡＥＳ）では、暗号化キーの使用が必要である。一般には、ランダムビットまたはキーにおける系統的なパターンまたは偏りはいずれも暗号化されたメッセージ攻撃および破壊に活用され得るので、これらのランダムビットおよびキーはランダム性の安全なソースを使用して生成される。さらに、暗号化のために使用されるキーは、一般には、解読のためにアーカイブされていることが必要である。暗号化方法のセキュリティーの強さは、アルゴリズムに使用されるキーの長さに依存する：一般に、キーが長いほど暗号化が強力になる。ワンタイムパッドのような方法は、最も安全な暗号化方法の１つであるが、それらには非常に長いキーが必要であることに起因して、適用は限られる。

本文書に記載の方法を使用して、数十、数百、数千、数万、またはそれより多くのビット長のランダムなキーの非常に大きな集合体を生成し、アーカイブすることができる。一実施形態では、各核酸分子が以下の設計：ｋ＜ｎ塩基の可変領域を伴うｎ塩基の長さを有することを満たす核酸ライブラリーを生成することができる。可変領域内の塩基は、ライブラリーの構築中にランダムに選択することが許容される。例えば、ｎは１００であり得、ｋは８０であり得る；したがって、異なる分子１０^５０種のサイズであるライブラリーを潜在的に生成することができる。分子１０００種のサイズであるそのようなライブラリーのランダムな試料を、例えば、シークエンシングして、暗号化のために使用することができる最大１０００ビットのランダムなキーを得ることができる。

別の実施形態では、上記の核酸キー（キーを表す核酸分子）を識別子に付着させ、それにより、キーセットの順序付けられた集合体を得ることができる。順序付けられたキーセットを使用して、暗号化に関して種々の関係者によってキーが使用される順序を同期させることができる。例えば、産物スキームを使用してコンビナトリアルケミストリーで識別子ライブラリーを構築して、１０^１２種の一意の識別子を得ることができる。マイクロ流体法を使用し、核酸キーを用いて各識別子をコロケートし、アセンブルして、一意の識別子およびランダムキーを含む核酸試料を形成することができる。識別子ライブラリー中の識別子は順序付けられているので、ここでキーも任意の指定された順序で順序付け、アクセスし、シークエンシングすることができる。

一部のインプリメンテーションでは、識別子に付着したキーを使用して、入力識別子を一連のランダムビットにマッピングするランダム関数のインスタンスを生成することができる。そのようなランダム関数は、ハッシュなどの、その値の計算は容易であるが所与の値から逆を行うのは難しい関数を必要とする適用において有用であり得る。そのような適用では、各々が一意の識別子にアセンブルされたキーのライブラリーをランダム関数として使用する。値をハッシュする場合、その値を識別子にマッピングする。次に、ハイブリダイゼーション捕捉またはＰＣＲなどのランダムアクセス法を使用してキーライブラリーから識別子にアクセスする。識別子をランダム塩基の配列を含むキーに付着させる。このキーをシークエンシングし、一連のビットに変換し、ランダム関数の出力として使用する。

核酸分子ライブラリーは、安価かつ迅速にコピーすることができること、および小さな体積で内密に輸送できることから、上記の通り生成される核酸キーセットは、多数の暗号化キーを地理的に離れている複数の関係者に定期的に安全かつ内密に配布しなければならない状況において有用であり得る。さらに、キーは、非常に長期間にわたって確実にアーカイブすることができ、それにより、暗号化されたアーカイブデータを安全に保管することが可能になる。

図３５〜３８は、ランダムなまたは暗号化された、ＤＮＡに記憶されたデータを創出し、記憶し、アクセスし、使用するための方法の実施形態を図解する。ＤＮＡが灰色および黒色の棒および記号を含む列として示されている。示されているＤＮＡの各々が区別可能な種を表す。「種」は、配列が同じ１つまたは複数のＤＮＡ分子と定義される。「種」が複数の意味で使用される場合には、複数の種の中のすべての種が区別可能な配列を有すると仮定することができるが、これは時には「種」の代わりに「区別可能な種」と記すことで指定される。

図３５は、ＤＮＡの大きな組合せ空間およびシークエンサーを使用したエントロピー（またはランダムデータ）発生装置の例を示す図である。方法は、シードと称されるＤＮＡ種のランダムプールから開始される。シードは、理想的には、ＤＮＡの定義された組合せセットのあらゆる種、例えば、５０塩基を有する全てのＤＮＡ種（４^５０種のメンバーを有する）の均一な分布を含有すべきである。しかし、完全な組合せ空間はあらゆるメンバーがシード中に表されるには大きすぎる可能性があり、したがって、シードが組合せ空間全体の代わりに組合せ空間のランダムサブセットを含有することが許容される。シード種は、縁に共通の配列（黒色および薄い灰色の棒）、次いで中央に区別可能な配列（Ｎ・・・Ｎ）を有するように設計することができる。この出発シードを迅速かつ安価な様式で製造するために、縮重オリゴヌクレオチド合成戦略を使用することができる。共通の縁配列により、ＰＣＲまたはある特定の読み出しとの適合性の（またはシークエンシング）方法を用いてシードを増幅することを可能にすることができる。縮重オリゴヌクレオチド合成の代替として、組合せＤＮＡアセンブリ（１つの反応に多重化される）もシードを急速かつ安価に生成するために使用することができる。シークエンサーにより、シードから種がランダムに試料抽出され、したがって、ランダムな順序で行われる。任意の所与の時点でのシークエンサーによる種の読み取りには不確実性が存在するので、このシステムは、エントロピー発生装置と分類することができ、ランダムな数またはランダムなストリームのデータを、例えば、暗号化キーとして生成するために使用することができる。

図３６Ａは、ランダムに生成されたデータをＤＮＡに記憶させるための方法の例示的な概略図を図解する。この方法は、（１）大きなシードと称されるＤＮＡ種のランダムプールから開始される。シードは、理想的には、ＤＮＡの定義された組合せセットのあらゆる種、例えば、５０塩基を有する全てのＤＮＡ種（４^５０種のメンバーを有する）の均一な分布を含有すべきである。しかし、完全な組合せ空間はあらゆるメンバーがシード中に表されるには大きすぎる可能性があり、したがって、シードが組合せ空間のランダムサブセットを含有することが許容される。シードは、それ自体を縮重オリゴヌクレオチド合成または組合せＤＮＡアセンブリから生成することができる。（２）シード中の種のランダムサブセットを取ることによってランダムデータ（またはエントロピー）を生成する。例えば、これは、シード溶液の比例する分数の体積を取ることによって実現することができる。例えば、シード溶液がマイクロリットル（μＬ）当たり推定１００万種からなる場合、シード溶液（よく混合されたものであると仮定する）から１ナノリットル（ｎＬ）の一定分量を取ることにより、およそ１０００種のランダムサブセットを選択することができる。あるいは、シード溶液の一定分量をナノポア膜に流し、膜を通過した種のみを回収することによってサブセットを選択することができる。膜を通過する種の数の計数は、ナノポアにわたる電圧の差異を測定することによって実現することができる。このプロセスを望ましい数のシグネチャーが検出されるまで（例えば、１００、１０００、１００００、またはそれよりも多くの種のシグネチャー）続けることができる。別の代替方法として、単一の種を小さな液滴中に単離することができる（例えば、油エマルションを用いる）。単一の種を伴う小さな液滴を蛍光シグネチャーによって検出し、一連のマイクロ流体チャネルによって選別して回収チャンバに入れることができる。（３）識別子として選択された種の各々を、さらに、選択された種の完全なサブセットも「ランダム識別子ライブラリー」またはＲＩＬと称することができる。ＲＩＬ中の情報を安定化し、それを分解から保護するために、種の末端上の共通の配列に結合するＰＣＲプライマーを用いてＲＩＬを増幅することができる。ＲＩＬ中の識別子（およびしたがって、その中に記憶されたデータ）を決定するために、ＲＩＬをシークエンシングすることができる。真の識別子を、試料中の、定義されたノイズ閾値を超えて富化されている種によって定義することができる。（４）ＲＩＬ中に含有されるデータが決定されたら、追加のエラー調査およびエラー補正種をＲＩＬに加えることができる。例えば、いくつの識別子が予想されるかに関する情報を含有する「整数ＤＮＡ」（例えば、チェックサムまたはパリティチェック）をＲＩＬに加えることができる。整数ＤＮＡにより、情報の全てを回収するためにＲＩＬをどのくらい深くシークエンシングするかを知ることが可能になり得る。

ＲＩＬに一意のＤＮＡタグをバーコード付けすることができる。次いで、いくつかのバーコード付けされたＲＩＬを一緒にプールすることができ、したがって、任意の所与のＲＩＬに、その一意のＤＮＡタグに対するハイブリダイゼーションアッセイ（またはＰＣＲ）を用いて個別にアクセスすることができる。一意のＤＮＡタグは、コンビナトリアルケミストリーでアセンブルすることもでき、合成し、次いでそれらの対応するＲＩＬにアセンブルすることもできる。図３６Ｂは、各々が１００個のランダム塩基を含有する４種を含むＲＩＬの例を示す。可能な種の組合せ空間は、４^１００であり、したがって、ＲＩＬは、ｌｏｇ_２（４^１００ｃｈｏｏｓｅ４）≒７２５ビットの情報を含有し得る。図３６Ｃも、各々が１００個のランダム塩基を含有する４種を含むＲＩＬの例を示す。情報を、４^１００の組合せ空間から選択された４種の特定の順序付けられていない組合せで記憶すること（図３６Ｂのように）の代替として、各種の最後の９０個のランダム塩基を、ｌｏｇ_２（４^９０）＝１８０ビットの情報を記憶するために確保することができ、一方、最初の１０個のランダム塩基を、４種の各々に記憶される情報間の相対的な順序を確立するために確保することができる。相対的な順序は、４塩基の定義された順序付けに基づく１０塩基の列の辞書学的順序付けによって定義することができる（英語の単語をアルファベットの文字の順に従って順序付ける方法と同様に）。情報をＲＩＬに割り当てるためのこの方法は、図３６Ｂに記載されている方法よりも、バイナリ列にマッピングするための計算が高速であり得る。

前の図（図３６）では、複数のＲＩＬにバーコード付けし、それらを一緒にプールするための戦略を考察している。そうすることで、入力−出力マッピングが創出され、ここで、入力はバーコードハイブリダイゼーションプローブ（個々のＲＩＬにアクセスするためのもの）に対応し、出力はランダムデータ列（標的化されたＲＩＬによって符号化されるもの）に対応する。この方法では、組み合わせられたプールからの検索のために所定のバーコードをランダムデータにアセンブルするが、図３７Ａは、バーコード（データにアクセスするためのもの）をランダムデータ自体と一緒にランダムに生成する、核酸プローブとランダムデータ列の間の入力−出力マッピングを創出するための異なる方法を実証する。例えば、バーコードは、１つまたは複数の種の両縁に現れ得るＤＮＡの短い配列の対であり得る。この実施形態では、可能なバーコードの組合せ空間は、プール中の全ての可能な種の総数と比較して小さいものであり得、したがって、各バーコードは、偶然に、１つまたは複数の種に関連付けられる。例えば、バーコードが、種のランダムなＤＮＡ配列の各縁の３塩基（共通の配列が隣接する）である場合、４^６＝４０９６種の可能なバーコードが存在し、したがって、それらにアクセスするために構築することができるプライマー対が４^６＝４０９６種存在する（１２ビット入力に対応する）。ＤＮＡのプールを、およそ４００Ｋの種を有するように選択した場合、各バーコードは、平均でおよそ１００種に関連付けられる。この実施形態では、ＲＩＬは、各バーコードに関連付けられる種のサブセットによって定義される。先行する例の後、各種が、バーコード付けに使用された塩基（または配列）に加えて２５個のランダム塩基（またはランダム配列）を含む場合、１００種のＲＩＬに関連付けられるバーコードは、最大ｌｏｇ_２（４^２５ｃｈｏｏｓｅ１００）≒４４７５ビットの情報を含有し得る。

図３７Ｂは、アクセスし、バーコード付けされたＲＩＬのプールから記憶されたランダムデータを読み取るためのスキームのインプリメンテーションを実証する。シークエンサー（またはリーダー）は、出力を返す前に配列データを操作する関数をさらに含み得る。例えば、ハッシュ関数により、出力データ列を使用して逆の化学的クエリを実施し、その入力を見つけることを難しくすることができる。この関数は、例えば、入力が認証のために使用されるキーまたは証明である場合に有用であり得る。

問い合わせ可能な（またはアクセス可能な）データのランダム列を生成し、記憶する方法は、暗号化キー（ランダムデータ列から生成される）を生成し、アーカイブするために特に有用であり得る。各入力を使用して、異なる暗号化キーにアクセスすることができる。例えば、各入力は、非公開の保存記録データベースにおける特定の使用者、時間範囲、および／またはプロジェクトに対応し得る。非公開の保存記録データベース中の暗号化されたデータ（潜在的に非常に大きな量のデータに達する）を保存記録サービスプロバイダーによって従来の媒体に記憶させることができる一方で、暗号化キーは所有者がＤＮＡに記憶させることができる。さらに、特定の入力のための化学的アクセスプロトコールを実施するために必要な潜在的な待ち時間および高度化により、ハッキングに対する暗号化方法のセキュリティー関門を高めることができる。

図３８は、アーチファクトへのアクセスを保証および認証するためのシステムの例を図解する。このシステムでは、可能な種の大きなプールから得られたＤＮＡの種の特定の組合せを含む物理的なキーが必要である。「識別子キー」とも称される種の標的組合せを、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング、もしくは印刷デバイスによって自動的に、またはピペッティングによって手動で生成することができる。ロックが内蔵されているリーダーまたはシークエンサーにより、マッチする識別子キーが確証され、アーチファクトへのアクセスが可能になる。あるいは、リーダーは、アーチファクトへのアクセスを直接ロック解除する代わりに、アーチファクトへのアクセスに使用することができるトークンを返す証明トークンシステムとして挙動し得る。トークンは、例えば、リーダーの組み込みハッシュ関数によって生成することができる。
ＤＮＡを用いて実体を追跡し、オブジェクトにタグ付けする方法

溶媒中に溶解させた識別子ライブラリーを、物理的オブジェクト中にまたはそれらの上に噴霧する、拡散させる、分配する、または注射して、それらに情報をタグ付けすることができる。例えば、一意の識別子ライブラリーを使用して、オブジェクトの一種の区別可能なインスタンスをタグ付けすることができる。オブジェクト上の識別子ライブラリータグは、一意のバーコードとしての機能を果たし得る、または、製品番号、製造もしくは出荷日、製造場所、もしくはオブジェクトの履歴、例えば、以前の所有者の取り扱い一覧に関する任意の他の情報などのより高度な情報を含有し得る。識別子を使用してオブジェクトをタグ付けすることの主要な利点は、識別子が検出不可能であり、耐久性があり、また、膨大な数のオブジェクトインスタンスを個別にタグ付けすることに十分に適することである。

別の実施形態では、１つまたは複数の物理的位置に識別子ライブラリー由来の一意の識別子をタグ付けすることができる。例えば、物理的な場所Ａ、Ｂ、およびＣに識別子ライブラリーを遍在的にタグ付けすることができる。場所Ａを訪問するまたは場所Ａに接触する実体、例えば、伝達手段、人、または任意の他のオブジェクトは、意図的にまたは非意図的に識別子ライブラリーの試料を受け取る。後に実体にアクセスした際、試料を実体から集め、化学的に処理し、復号して、実体が訪問した場所を識別することができる。実体は、１つよりも多くの場所を訪問することができ、１つより多くの試料を受け取ることができる。類似のプロセスを使用して、識別子ライブラリーが離れている場合に実体が訪問した場所の一部または全部を識別することができる。そのようなスキームには、実体を内密に追跡することへの適用があり得る。このスキームを使用するいくつかの利点は、識別子が、特に探さなければ検出不可能であること、生物学的に不活性になるように設計することができること、および膨大な数の場所または実体に一意にタグ付けするために使用することができることである。

別の実施形態では、識別子ライブラリーにより、実体にタグ付けすることができる。実体は、注射された識別子の試料を訪問した場所に残すことができる。これらの試料を集め、処理し、復号して、どの実体が場所を訪問した可能性があるかを識別することができる。
組合せＤＮＡアセンブリの方法およびシステムの適用

成分を大きな定義された識別子のセットに組合せアセンブリするための本明細書に記載の方法およびシステムをこれまでに情報技術（例えば、データ記憶、計算、および暗号法）に関するものとして記載した。しかし、これらのシステムおよび方法は、より一般的には、ハイスループット組合せＤＮＡアセンブリの任意の適用のために使用することができる。

一実施形態では、アミノ酸の鎖を符号化する組合せＤＮＡのライブラリーを創出することができる。それらのアミノ酸の鎖は、ペプチドまたはタンパク質のいずれかを表し得る。アセンブリのためのＤＮＡ断片は、コドン配列を含み得る。断片がそれに沿ってアセンブルされる接合部は、コンビナトリアルライブラリーの全てのメンバーに共通する機能的にまたは構造的に不活性なコドンであり得る。あるいは、断片がそれにそってアセンブルされる接合部は、後にプロセシングされたペプチド鎖に翻訳されるメッセンジャーＲＮＡから最終的に除去されるイントロンであり得る。ある特定の断片は、コドンではなく、コドンの各組合せ列で一意にタグ付けされた（他のアセンブルされたバーコードと組み合わせて）バーコード配列であり得る。アセンブルされた産物（バーコード＋コドンの列）を一緒にプールし、ｉｎｖｉｔｒｏ発現アッセイのために液滴の中に封入することができる、または、一緒にプールし、ｉｎｖｉｖｏ発現アッセイのために細胞に導入してそれを形質転換することができる。アッセイは、蛍光出力を有し得、したがって、液滴／細胞を蛍光強度によって選別してビンの中に入れ、その後、それらのＤＮＡバーコードを、各コドン列を特定の出力と相関付けるためにシークエンシングすることができる。

別の実施形態では、ＲＮＡを符号化する組合せＤＮＡのライブラリーを創出することができる。例えば、アセンブルされたＤＮＡは、マイクロＲＮＡまたはＣＲＩＳＰＲｇＲＮＡの組合せを表し得る。プールされたｉｎｖｉｔｒｏまたはｉｎｖｉｖｏのいずれかにおけるＲＮＡ発現アッセイを、液滴または細胞のいずれかを用い、また、どの液滴または細胞がどのＲＮＡ配列を含有するかに関する追跡を維持するためにバーコードを用いて上記の通り実施することができる。しかし、出力自体がＲＮＡシークエンシングデータである場合には、一部のプールされたアッセイを液滴または細胞の外で行うことができる。そのようなプールされたアッセイの例としては、ＲＮＡアプタマースクリーニングおよび試験（例えば、ＳＥＬＥＸ）が挙げられる。

別の実施形態では、代謝経路内の遺伝子を符号化する組合せＤＮＡのライブラリーを創出することができる。各ＤＮＡ断片は、遺伝子発現構築物を含有し得る。断片がそれに沿ってアセンブルされる接合部は、遺伝子間にある不活性なＤＮＡ配列を表し得る。プールされたｉｎｖｉｔｒｏまたはｉｎｖｉｖｏのいずれかにおける遺伝子経路発現アッセイを、液滴または細胞のいずれかを用いて、また、どの液滴または細胞がどの遺伝子経路を含有するかに関する追跡を維持するためのバーコードを用いて上記の通り実施することができる。

別の実施形態では、異なる遺伝子調節エレメントの組合せを有する組合せＤＮＡのライブラリーを創出することができる。遺伝子調節エレメントの例としては、５’非翻訳領域（ＵＴＲ）、リボソーム結合性部位（ＲＢＳ）、イントロン、エクソン、プロモーター、ターミネーター、および転写因子（ＴＦ）結合性部位が挙げられる。プールされたｉｎｖｉｔｒｏまたはｉｎｖｉｖｏのいずれかにおける遺伝子発現アッセイを、液滴または細胞のいずれかを用い、また、どの液滴または細胞がどの遺伝子調節構築物を含有するかに関する追跡を維持するためのバーコードを用いて上記の通り実施することができる。

別の実施形態では、組合せＤＮＡアプタマーのライブラリーを創出することができる。ＤＮＡアプタマーのリガンドに結合する能力を試験するためにアッセイを実施することができる。

（実施例１）
ＤＮＡ分子における単一のポエムの符号化、書き込みおよび読み取り。
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長ＰＣＲを用いてインプリメントされる産生スキームを使用して識別子を構築するために、データを、ピペットを用いて手動で符号化して、９６種の成分の層２つからのＤＮＡ成分と混合する。第１の層、Ｘは、９６種の総ＤＮＡ成分を含む。第２の層、Ｙも９６種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの６１ビットの連続した（隣接する分離した）列の全てが正確に１７のビット値１で９６ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを９６×９６表にハッシュして、参照マップを形成する。

図１８Ａの中央のパネルは、ポエムが複数の識別子に符号化された９６×９６表の２次元の参照マップを示す。黒い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データを、９６種の成分の層２つを使用して識別子に符号化する。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にする。識別子ライブラリーのシークエンシングを行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１８Ａの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位１７の最も豊富な（Ｘ，Ｙ）アセンブリとして取る（均一の重み符号化により、９６ビットの連続した列各々が正確に１７の「１」値、したがって、１７の対応する識別子を有し得ることが保証される）。
（実施例２）
６２８２４ビットのテキストファイルの符号化。

符号化されるデータは、総計６２８２４ビットになる３つのポエムのテキストファイルである。オーバーラップ伸長ＰＣＲを用いてインプリメントされる産生スキームを使用して識別子を構築するために、データを、ＬａｂｃｙｔｅＥｃｈｏ（登録商標）リキッドハンドラーを使用して３８４種の成分の層２つからのＤＮＡ成分を混合して符号化する。第１の層、Ｘは３８４種の総ＤＮＡ成分を含む。第２の層、Ｙも３８４種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、重み（ビット値「１」の数）が減少し、チェックサムが含まれるように再符号化する。チェックサムを、１９２ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ１０，１００であり、これは、構築される識別子の数に対応する。次いで、データを３８４×３８４表にハッシュして参照マップを形成することができる。

図１８Ｂの中央のパネルは、テキストファイルが複数の識別子に符号化された３８４×３８４表の２次元の参照マップを示す。各座標（Ｘ，Ｙ）は、Ｘ＋（Ｙ−１）＊１９２位のデータのビットに対応する。黒い点はビット値「１」に対応し、白い点はビット値「０」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック（例えば、データを復号するための辞書）である。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にすることができる。識別子ライブラリーのシークエンシングを行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１８Ｂの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Ｓの最も豊富な（Ｘ，Ｙ）アセンブリとして取り、ここで、各行のＳはチェックサム値であり得る。

一般に、本明細書に記載されている主題の態様および機能的操作は、デジタル電子回路網において、または本明細書に開示されている構造およびそれらの構造的等価物、もしくはそれらの１つまたは複数の組合せを含めたコンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいてインプリメントすることができる。本明細書に記載されている主題の態様は、１つまたは複数のコンピュータプログラム製品、すなわち、データ処理装置による実行、またはデータ処理装置の操作を制御するためのコンピュータ可読媒体に符号化されたコンピュータプログラム指示の１つまたは複数のモジュールとしてインプリメントすることができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝播シグナルに影響を及ぼす組成物、またはそれらの１つもしくは複数の組合せであり得る。用語「データ処理装置」は、例として、プログラム可能プロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含めた、データ処理用の全ての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を創出するためのコード、例えば、プロセッサファームウェア、プロトコールスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つもしくは複数の組合せを構成するコードを含み得る。伝播されたシグナルは、人工的に生成されたシグナル、例えば、適切なレシーバー器具への伝達のための情報を符号化するために生成された、機械により生成された電気シグナル、光学シグナル、または電磁気シグナルである。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知）は、コンパイラ型言語またはインタープリタ型言語を含めた任意の形態のプログラミング言語で書かれたものであってよく、独立型プログラムとしてまたはモジュール、成分、サブルーチン、もしくは計算環境における使用に適した他の単位としてを含めた任意の形態で配布することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得る。プログラムは、他のプログラムまたはデータを保持するファイルの一部に記憶されたもの（例えば、マークアップ言語文書に記憶された１つまたは複数のスクリプト）、問題のプログラム専用の単一のファイルに記憶されたもの、または複数の連携ファイル（例えば、１つまたは複数のモジュール、サブプログラム、またはコードの一部が記憶されたファイル）に記憶されたものであり得る。コンピュータプログラムは、１つのコンピュータでまたは１つの場所に位置するもしくは複数の場所に分布し、通信ネットワークによって相互接続された複数のコンピュータで実行されるように配布することができる。

本明細書に記載されているプロセスおよび論理の流れは、１つまたは複数のコンピュータプログラムを実行して、入力データを操作し、出力を生成することによって機能を果たす１つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理の流れは、特殊用途の論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実施することもでき、装置を、特殊用途の論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）としてインプリメントすることもできる。

コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用マイクロプロセッサおよび特殊用途マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが挙げられる。一般に、プロセッサは、リードオンリーメモリーまたはランダムアクセスメモリーまたはその両方から指示およびデータを受信する。コンピュータの必須要素は、指示を実施するためのプロセッサならびに指示およびデータを記憶させるための１つまたは複数のメモリデバイスである。一般に、コンピュータは、データを受信するため、またはデータを転送するため、またはその両方のために、データ記憶用の１つまたは複数の大容量ストレージデバイス、例えば、磁気、磁気光ディスク、または光ディスクも含む、またはそれらと動作可能にカップリングされる。しかし、コンピュータはそのようなデバイスを有する必要はない。

本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実施形態に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。本明細書において引用された全ての参考文献は、その全体が参照により組み込まれ、本出願の一部をなす。

Claims

デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）
（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記Ｍ個の層の各々からの１つの成分核酸分子を選択すること、
（２）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積すること、
（３）（２）における前記Ｍ個の選択された成分核酸分子を物理的にアセンブルして、第１および第２の末端分子ならびに前記第１および第２の末端分子の間に位置する第３の分子を有する第１の識別子核酸分子を形成し、したがって第１および第２の層からの前記成分核酸分子が前記識別子核酸分子の前記第１および第２の末端分子に対応し、第３の層における成分核酸分子が前記識別子核酸分子の前記第３の分子に対応し、前記第１の識別子核酸分子における前記Ｍ個の層の物理的順序を定義すること
によって前記第１の識別子核酸分子を形成するステップと、
（ｃ）各々が（１）第１および第２の末端分子、ならびに前記第１および第２の末端分子の間に位置する第３の分子を有し、（２）それぞれの記号位置に対応する、複数の追加の識別子核酸分子を形成するステップであって、プローブが、前記記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の前記第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における前記第１の識別子核酸分子の標的分子と同一であるステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記少なくとも１つの追加の識別子核酸分子の前記第１および第２の末端分子の少なくとも１つが、（ｂ）における前記第１の識別子核酸分子の標的分子と同一である、請求項１に記載の方法。
前記Ｍ個の選択された成分核酸分子を物理的にアセンブルするステップが、前記成分核酸分子のライゲーションを含む、請求項１または２に記載の方法。
（ｂ）および（ｃ）における前記識別子核酸分子の形成のための付着末端ライゲーションを可能にするために、各層からの前記成分核酸分子が、別の層からの成分核酸分子の少なくとも１つの付着末端と相補的である少なくとも１つの付着末端を含む、請求項１〜３のいずれか一項に記載の方法。
（ｃ）における前記少なくとも１つの追加の識別子核酸分子の前記第１の分子が、（ｂ）における前記識別子核酸分子の前記第１の末端分子と同一であり、（ｃ）における前記少なくとも１つの追加の識別子核酸分子の前記第２の末端分子が、（ｂ）における前記識別子核酸分子の前記第２の末端分子と同一である、請求項１〜４のいずれかに記載の方法。
前記プローブを使用して、前記第１の識別子核酸分子における少なくとも一部の識別子核酸分子および前記複数の追加の識別子核酸分子の前記標的分子にハイブリダイズさせて、連続する記号位置を有するそれぞれの記号に対応する識別子核酸分子を選択するステップをさらに含む、請求項１〜５のいずれかに記載の方法。
単一のＰＣＲ反応を適用して、連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を増幅するステップをさらに含む、請求項１〜６のいずれかに記載の方法。
連続する記号位置を有するそれぞれの記号に対応する前記少なくとも２つの識別子核酸分子を、前記識別子核酸分子の前記第３の分子における特異的成分核酸分子を標的とする別のＰＣＲ反応によってさらに増幅することが可能である、請求項７に記載の方法。
各層における前記成分核酸分子が、第１および第２の末端領域と共に構造化され、前記Ｍ個の層のある層からの各成分核酸分子の前記第１の末端領域が、前記Ｍ個の層の別の層からの任意の成分核酸分子の前記第２の末端領域に結合するように構造化される、請求項１〜８のいずれかに記載の方法。
Ｍが、３より大きいかまたは３に等しい、請求項１〜９のいずれかに記載の方法。
前記記号列内の各記号位置が、対応する異なる識別子核酸分子を有する、請求項１〜１０のいずれかに記載の方法。
（ｂ）および（ｃ）における前記識別子核酸分子が、前記Ｍ個の層の各々からの１つの成分核酸分子を各々が含む、可能な識別子核酸分子の組合せ空間のサブセットを表す、請求項１〜１１のいずれかに記載の方法。
（ｄ）における前記プール中の識別子核酸分子の存在または非存在が、前記記号列内の前記対応するそれぞれの記号位置の前記記号値を表す、請求項１２に記載の方法。
連続する記号位置を有する前記記号が類似のデジタル情報を符号化する、請求項１〜１３のいずれかに記載の方法。
前記Ｍ個の層の各々における成分核酸分子の数の分布が非均一である、請求項１〜１４のいずれかに記載の方法。
前記第３の層が前記第１の層または前記第２の層のいずれかより多い成分核酸分子を含む場合、（ｄ）における前記プールにアクセスするために使用されるＰＣＲクエリが、前記第３の層が前記第１の層または前記第２の層のいずれかより少ない成分核酸分子を含む場合より大きいアクセスされた識別子核酸分子プールをもたらす、請求項１５に記載の方法。
前記第３の層が前記第１の層または前記第２の層のいずれかより少ない成分核酸分子を含む場合、（ｄ）におけるプールにアクセスするために使用されるＰＣＲクエリが、前記第３の層が前記第１の層または前記第２の層のいずれかより多い成分核酸分子を含む場合よりアクセスされた識別子核酸分子の小さいプールをもたらし、前記アクセスされた識別子核酸分子のより小さいプールが、前記記号列における前記記号に対するアクセスのより高い分解能に対応する、請求項１６に記載の方法。
前記第１の層が最高の優先順位を有し、前記第２の層が第２の高い優先順位を有し、残りのＭ−２個の層が前記第１および第２の末端分子の間の対応する成分核酸分子を有する、請求項１〜１７のいずれかに記載の方法。
（ｄ）における前記プールを、１つのＰＣＲ反応において前記第１および第２の末端分子で特定の成分核酸分子を有する前記プール中の全ての識別子核酸分子にアクセスするために使用することができる、請求項１８に記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有し、前記デジタル情報がベクトルの集合体によって表されるイメージデータを含むステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルするステップによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記Ｍ個の層の少なくとも一部が、前記イメージデータの異なる特色に対応する、請求項２０に記載の方法。
前記異なる特色が、ｘ座標、ｙ座標、および強度の値または強度の値の範囲を含む、請求項２１に記載の方法。
前記イメージデータを核酸分子に記憶させるステップが、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にする、請求項２０〜２２のいずれかに記載の方法。
前記イメージデータを核酸分子に記憶させるステップが、前記イメージデータを、前記イメージデータの元の分解能の分率で復号することを可能にする、請求項２０〜２３のいずれかに記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有し、前記デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々が（１）第１および第２の末端分子、ならびに前記第１および第２の末端分子の間に位置する第３の分子を有し、（２）それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、前記記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、少なくとも１つの追加の識別子核酸分子の前記第１の末端分子、第２の末端分子、および第３の分子のうちの少なくとも１つが（ｂ）における前記第１の識別子核酸分子の標的分子と同一であるステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記イメージデータを核酸分子に記憶させるステップが、前記イメージデータを、前記イメージデータの元の分解能の分率で復号することを可能にし、前記分率で前記イメージデータを復号することを使用して、目的のフレームを識別するために監視イメージのアーカイブまたはビデオアーカイブにおいて特定の視覚的特色に関して検索する、請求項２５に記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと、
（ｅ）前記プール中の回収された少なくとも一部のデータを削除するステップと
を含む方法。
（ｄ）における前記プールからの選択識別子核酸分子を引き下げるために配列特異的プローブを使用して、データを選択的に削除するステップをさらに含む、請求項２８に記載の方法。
前記選択識別子核酸分子がＣＲＩＳＰＲに基づく方法を使用して選択的に削除される、請求項２９に記載の方法。
（ｄ）におけるプール中の前記識別子核酸分子を不鮮明にして、データを非選択的に削除するステップをさらに含む、請求項２８〜３０のいずれかに記載の方法。
超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のＤＮＡ修飾剤による処理、放射線照射、燃焼、および非特異的ヌクレアーゼ消化を使用して、（ｄ）における前記プールからの前記識別子核酸分子を分解して、データを非選択的に削除するステップをさらに含む、請求項２８〜３１のいずれかに記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）前記記号列を、固定された長さ以下のサイズの１つまたは複数のブロックに分割するステップと、
（ｃ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｄ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｅ）粉末、液体、または固体形態を有するプール中の（ｃ）および（ｄ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記記号列に基づいて各ブロックのサイズを決定するステップ、必要条件を処理するステップ、または前記デジタル情報の意図される適用をさらに含む、請求項３３に記載の方法。
各ブロックのハッシュを計算するステップをさらに含む、請求項３３〜３４のいずれかに記載の方法。
１つまたは複数のエラー検出補正を各ブロックに適用するステップおよび１つまたは複数のエラー保護バイトを計算するステップをさらに含む、請求項３３〜３５のいずれかに記載の方法。
１つまたは複数のブロックを、符号化または復号の際の化学条件を最適化するコードワードのセットにマッピングするステップをさらに含む、請求項３３〜３６のいずれかに記載の方法。
固定された数の識別子核酸分子がライターシステムにおける各反応コンパートメントにおいて、各反応コンパートメント内および反応コンパートメントを超えてほぼ等しい濃度でアセンブルされるように、コードワードのセットが固定された重みを有する、請求項３７に記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと、
（ｅ）（ｄ）における前記識別子核酸分子を使用して前記記号列についてＡＮＤ、ＯＲ、ＮＯＴ、またはＮＡＮＤを含むブール論理操作を伴う計算を実施して、新規核酸分子プールを産生するステップと
を含む方法。
前記計算が、前記識別子核酸分子のいずれも復号することなく、（ｄ）における識別子核酸分子の前記プールについて実施され、前記記号列における前記記号のいずれかを得る、請求項３９に記載の方法。
前記計算を実施するステップが、ハイブリダイゼーションおよび切断を含む一連の化学操作を含む、請求項３９〜４０のいずれかに記載の方法。
（ａ）における前記記号列がａと表示されてサブビットストリームｓを含み、（ｄ）における前記プール中の前記複数の識別子核酸分子が二本鎖でありｄｓＡと表示され、前記方法が、ｄｓＢと表示されてサブビットストリームｔを含むｂと表示される別の記号列を表す別の複数の識別子核酸分子の別のプールを得るステップをさらに含み、前記計算がｄｓＡおよびｄｓＢについて一連のステップを実施することによってサブビットストリームｓおよびｔについて実施される、請求項３９〜４１のいずれかに記載の方法。
ｄｓＡおよびｄｓＢについての前記一連のステップが、
（１）ｄｓＡにおける前記二本鎖識別子核酸分子を、Ａと表示されるプラス鎖一本鎖型に変換するステップと、
（２）ｄｓＡにおける前記二本鎖識別子核酸分子を、Ａ^＊と表示されるマイナス鎖一本鎖型に変換するステップであって、Ａ^＊がＡの逆相補鎖であるステップと、
（３）ｄｓＢにおける前記二本鎖識別子核酸分子を、Ｂと表示されるプラス鎖一本鎖型に変換するステップと、
（４）ｄｓＢにおける前記二本鎖識別子核酸分子を、Ｂ^＊と表示されるマイナス鎖一本鎖型に変換するステップであって、Ｂ^＊がＢの逆相補鎖であるステップと、
（５）ｓに対応するｄｓＡにおける識別子核酸分子としてｄｓＰを選択するステップと、
（６）ｓに対応するＡにおける識別子核酸分子としてＰを選択するステップと、
（７）ｔに対応するｄｓＢにおける識別子核酸分子としてｄｓＱを選択するステップと、
（８）ｔに対応するＢ^＊における識別子核酸分子としてＱ^＊を選択するステップと
を含む初期設定ステップを実施するステップを含む、請求項４２に記載の方法。
（９）ＡまたはｄｓＡを更新して、ｓに対応する識別子核酸分子を削除するステップと、
（１０）Ｂ^＊またはｄｓＢを更新して、ｔに対応する識別子核酸分子を削除するステップと
をさらに含む、請求項４３に記載の方法。
前記計算がＡＮＤ操作であり、ｄｓＡおよびｄｓＢについての前記一連のステップが、
（１）ＡおよびＢ^＊を組み合わせるステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を核酸分子の新規プールとして選択するステップによって、ａとｂとの間で前記ＡＮＤ操作を実施するステップ、または
（２）ＰおよびＱ^＊を組み合わせるステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的核酸分子を核酸分子の新規プールとして選択するステップによってｓとｔとの間で前記ＡＮＤ操作を実施するステップ
をさらに含む、請求項４２〜４４のいずれかに記載の方法。
前記完全な相補的核酸分子を選択するステップが、クロマトグラフィー、ゲル電気泳動、一本鎖特異的エンドヌクレアーゼ、一本鎖特異的エキソヌクレアーゼ、またはその組合せを使用するステップを含む、請求項４５に記載の方法。
前記計算がＯＲ操作であり、ｄｓＡおよびｄｓＢについての前記一連のステップが、
（ａ）ｄｓＡおよびｄｓＢを組み合わせることによってａとｂとの間で前記ＯＲ操作を実施し、前記新規核酸分子プールを産生するステップ、または
（ｂ）ｄｓＰおよびｄｓＱを組み合わせることによってｓとｔとの間で前記ＯＲ操作を実施し、前記新規核酸分子プールを産生するステップ
をさらに含む、請求項４２〜４４のいずれかに記載の方法。
ＡまたはｄｓＡを更新して、前記新規核酸分子プールを含むステップをさらに含む、請求項４４〜４７のいずれかに記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）複数の識別子核酸分子を形成するステップと、
（ｄ）（ｂ）および（ｃ）における前記識別子核酸分子を異なるビンに区分化するステップであって、各ビンが異なる記号値に対応するステップと
を含む方法。
第１のタイプの記号のビンが、前記第１のタイプの記号を有する記号位置に対応する識別子核酸分子を含有する、請求項４９に記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分がＭ個の異なる層に分けられた区別可能な成分のセットから選択される、こと、および前記Ｍ個の選択された成分を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記Ｍ個の選択された成分の個々の成分が複数の部分を含み、各部分が核酸分子を含み、各部分が、１つまたは複数の化学的方法によって同じ識別子に連結される、請求項５１に記載の方法。
前記複数の部分が各々、異なるデータ記憶操作のために個別の機能的目的を果たす、請求項５２に記載の方法。
前記機能的目的が、シークエンシングの容易さおよび核酸ハイブリダイゼーションによるアクセスの容易さを含む、請求項５３に記載の方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）塩基エディターを適用することによって、親識別子における１つまたは複数の塩基をプログラム可能に突然変異させることによって、第１の識別子核酸分子を形成するステップと、
（ｃ）各識別子核酸分子がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
前記塩基エディターがｄＣａｓ９−デアミナーゼを含む、請求項５５に記載の方法。
１つまたは複数のランダムプロセスから産生されたデジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）Ｍ個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記Ｍ個の選択された成分核酸分子がＭ個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記Ｍ個の選択された成分核酸分子を物理的にアセンブルすることによって第１の識別子核酸分子を形成するステップと、
（ｃ）各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。
適用が、情報の暗号化、エンティティの認証、または無作為化を伴う適用におけるエントロピー源としてのその使用を含む、請求項５７に記載の方法の適用。
１つまたは複数の分離している識別子ライブラリーからの識別子核酸分子を使用してエンティティまたは物理的位置を一意に識別する、請求項５１または５７に記載の方法の適用。
複数のランダムＤＮＡ種のパーティションにおいてデジタル情報を符号化するための方法。
可能なＤＮＡ種の大きい組合せプールからＤＮＡ種を無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成する方法。
可能なＤＮＡ種の大きい組合せプールからＤＮＡ種のサブセットを無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成および記憶させる方法。
前記ＤＮＡ種のサブセットが増幅されて、各々の種の複数のコピーを作製する、請求項６２に記載の方法。
エラー調査および補正のための核酸分子を前記ＤＮＡ種のサブセットに追加して頑強な将来の読み出しを可能にする、請求項６２〜６３のいずれかに記載の方法。
前記ＤＮＡ種のサブセットを、一意の分子によってバーコード化し、ＤＮＡ種のバーコード化サブセットのプールにおいて組み合わせる、請求項６２に記載の方法。
前記ＤＮＡ種のバーコード化サブセットのプール中のＤＮＡ種の特定のサブセットが、ＰＣＲまたは核酸捕捉のための入力核酸プローブによってアクセス可能である、請求項６５に記載の方法。
（１）規定のセットからのＤＮＡ種のサブセットで構成されるＤＮＡキー、および（２）キーを承認して、アーチファクトを局所でロック解除するためにマッチするキーを検索するか、または他のアーチファクトにアクセスするためにハッシュされたトークンを返却するＤＮＡリーダー
を含むシステムによってアーチファクトを保証および認証する方法。
デジタル情報を核酸分子に記憶させる方法であって、
（ａ）前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
（ｂ）
（１）Ｍ個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記Ｍ個の層の各々からの１つの成分核酸分子を選択するステップ、
（２）前記Ｍ個の選択された成分核酸分子をコンパートメントに蓄積するステップ、
（３）（２）における前記Ｍ個の選択された成分核酸分子を物理的にアセンブルして、指定成分を含む第１の識別子核酸分子を形成するステップであって、前記指定成分が、前記指定成分を含有する前記第１の識別子核酸分子のアクセスを可能にするために少なくとも１つの標的分子を含むステップ
によって前記第１の識別子核酸分子を形成するステップと、
（ｃ）各々が前記指定成分を有する、複数の追加の識別子核酸分子を物理的にアセンブルするステップであって、プローブが、前記記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも２つの識別子核酸分子を選択することが可能となるように、前記指定成分が、（ｂ）における前記第１の識別子核酸分子の前記少なくとも１つの標的分子を含むステップと、
（ｄ）粉末、液体、または固体形態を有するプール中の（ｂ）および（ｃ）における前記識別子核酸分子を回収するステップと
を含む方法。