JP2024514430A

JP2024514430A - 固定小数点数表現及び計算回路

Info

Publication number: JP2024514430A
Application number: JP2023557329A
Authority: JP
Inventors: ピー．バティア，スワップニル; ノースワージー，マイケル; カンバラ，トレイシー
Original assignee: カタログテクノロジーズ，インコーポレイテッド
Priority date: 2021-03-24
Filing date: 2022-03-18
Publication date: 2024-04-02
Also published as: AU2022245140A1; KR20230160898A; WO2022203958A1; EP4315336A1; CA3214604A1

Abstract

【課題】本開示は、種々の方法でデジタル情報を核酸分子に格納するためのシステム及び方法を提供する。【解決手段】デジタル情報は、記号列として受信され得、記号列中の各記号は、記号値及び記号列内の記号位置を有する。第１の識別子核酸分子は、Ｍ個の選択された成分核酸分子を区画内に配置することであって、Ｍ個の選択された成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、配置することと、Ｍ個の選択された成分核酸分子を物理的に組み立てることと、によって形成され得る。それぞれの記号位置にそれぞれ対応する複数の識別子核酸分子が形成され得る。識別子核酸分子は、粉体、液体又は固体形態を有するプールにおいて形成され得る。【選択図】図４０

Description

関連出願の相互参照
[0001] 本願は、２０２１年３月２４日付けで出願された「FIXED POINT NUMBER REPRESENTATION AND COMPUTATION CIRCUITS」という名称の米国仮特許出願第６３／１６５，５０７号に対する優先権及びその利益を主張するものである。

背景
[0002] 核酸デジタルデータ格納は、情報を符号化して長期間にわたって格納するための安定した手法であり、データは、磁気テープ又はハードドライブ格納システムよりも高密度で格納される。さらに、低温乾燥条件で格納されている核酸分子に格納されたデジタルデータは、６０，０００年以上という長期にわたり検索することができる。

[0003] 核酸分子に格納されたデジタルデータにアクセスするために、核酸分子はシーケンシングされ得る。したがって、核酸デジタルデータ格納は、頻繁にはアクセスされないが、大量の情報を長期にわたって格納又はアーカイブし得るデータの格納に理想的な方法であり得る。

[0004] 現行の方法は、配列中の塩基間関係がデジタル情報（例えば、２進コード）に直接翻訳されるように、デジタル情報（例えば、２進コード）を塩基毎に核酸配列に符号化することに依存する。塩基毎の核酸デノボ合成のコストが高いことがあるため、デジタル的に符号化された情報のビットストリーム又はバイトに読み込むことができる塩基毎の配列に格納されたデジタルデータのシーケンシングは、エラーを受けやすく、符号化にコストがかかる恐れがある。核酸デジタルデータ格納を実行する新しい方法の機会は、コストがより低く、商業的な実施がより容易である、データを符号化し、検索する手法を提供し得る。

概要
[0005] 本開示は、種々の方法でデジタル情報を核酸分子に格納して、デジタル情報の検索及びアクセスの効率を改善するためのシステム及び方法を提供する。例えば、成分核酸分子（例えば、成分）が選択されて互いに連結されて、識別子核酸分子（例えば、識別子）を形成し、各識別子核酸分子は、特定の記号（例えば、ビット又は一連のビット）又は記号列（例えば、ビットストリーム）中のその記号の位置（例えば、ランク又はアドレス）に対応する。それらの成分は、デジタルデータを表すための効率的な方式を提供するように構造的に編成され得る。例えば、成分の構造は、複数の成分分子が同じ区画に配置又は分注された後、成分分子を自己組織化又は他の方法で所定の順序でそれら自体をソートさせ得る。

[0006] 一態様において、本開示は、情報を核酸配列に書き込む方法を提供する。本方法は、第１の固定小数点数を取得することを含む。本方法は、成分核酸配列の順序付きサブセットをそれぞれ含む識別子核酸配列の組合せ空間を規定する成分核酸配列のライブラリを取得することを含む。本方法は、組合せ空間中の識別子核酸配列の第１のサブセットを、第１のサブセット中の識別子核酸配列の数に対応するコードワードサイズを有する第１のコードワードとして識別することを含む。本方法は、第１のサブセットの別個の識別子核酸配列を有する１つ又は複数の識別子核酸分子の第１のセットを形成することであって、第１のセットにおいて表される別個の識別子核酸配列の数の、コードワードサイズに対する比率は、第１の固定小数点数を近似する、形成することを含む。

[0007] 幾つかの実装形態では、成分核酸配列のライブラリは、複数の層を含み、各層は、成分核酸配列のサブセットを含む。各識別子核酸配列は、各層からの１つの成分核酸配列を含み得る。

[0008] 幾つかの実装形態では、第１の固定小数点数は、値ｘを有し、コードワードサイズは、ｗであり、かつ、ｋ個の識別子核酸分子は、比率がｋ／ｗであり、かつ、ｘにおよそ等しいように第１のセットにおいて形成される。幾つかの実装形態では、ｋ／ｗは、ｘのプラス又はマイナス２０％以内である。幾つかの実装形態では、コードワードサイズは、少なくとも８である。幾つかの実装形態では、コードワードサイズは、少なくとも２５６である。幾つかの実装形態では、コードワードサイズは、少なくとも５１２である。幾つかの実装形態では、コードワードサイズは、少なくとも１０２４である。

[0009] 幾つかの実装形態では、本方法は、第２の固定小数点数を取得することと、組合せ空間中の識別子核酸配列の第２のサブセットを、第１のコードワードのコードワードサイズを有し、かつ、第２のサブセット中の識別子核酸配列の数に対応する第２のコードワードとして識別することと、第２のサブセットの別個の識別子核酸配列を有する１つ又は複数の識別子核酸分子の第２のセットを形成することとを含む。第２のセット中の別個の識別子核酸配列の数の、コードワードサイズに対する比率は、第２の固定小数点数を近似することができる。

[0010] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、合算プールを取得することと、プールされたセットを希釈して、スケーリングされた合算プールを取得することとにより、第１の固定小数点数及び第２の固定小数点数を合計することを含む。

[0011] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、因子プールを取得することと、化学的ＡＮＤ演算を識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することとにより、第１の固定小数点数及び第２の固定小数点数を乗算することを含む。

[0012] 幾つかの実装形態では、化学的ＡＮＤ演算は、識別子核酸分子を１本鎖識別子核酸分子に変換することと、相補的識別子核酸分子をハイブリダイズすることと、完全にハイブリダイズされた２本鎖核酸分子を選択して、積プールを取得することとを含む。

[0013] 幾つかの実装形態では、選択することは、１本鎖核酸分子を選択的に分解する酵素又は配列ミスマッチを有する２本鎖核酸分子を選択的に分解する酵素の少なくとも１つを使用することを含む。

[0014] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、因子プールを取得することと、化学的ＯＲ演算を識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、本方法は、第１のセット及び第２のセットを混合することを含む。

[0015] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、因子プールを取得することと、化学的ＮＩＭＰＬＹ演算を識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的ＮＩＭＰＬＹ演算は、識別子核酸分子を１本鎖識別子核酸分子に変換することであって、第２のセットの１本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、第２のセットの１本鎖識別子核酸分子のモル過剰を提供することと、相補的識別子核酸分子をハイブリダイズすることと、アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた２本鎖核酸分子を選択して、積プールを取得することとを含む。

[0016] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、因子プールを取得することと、化学的ＮＯＴ演算を識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的ＮＯＴ演算は、識別子核酸分子を１本鎖識別子核酸分子に変換することであって、第１のセットの１本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、第１のセットの１本鎖識別子核酸分子のモル過剰を提供することと、相補的識別子核酸分子をハイブリダイズすることと、アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた２本鎖核酸分子を選択して、積プールを取得することとを含む。

[0017] 幾つかの実装形態では、本方法は、第１のセット及び第２のセットをプールして、因子プールを取得することと、化学的ＸＯＲ演算を識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的ＸＯＲ演算は、２つのＮＩＭＰＬＹ演算を実行し、それに続いてＯＲ演算を実行することを含む。

参照による援用
[0018] 本明細書で触れられる全ての公開特許、特許及び特許出願は、個々の各公開特許、特許又は特許出願が特に個々に参照により援用されると示されているかのような程度と同程度まで参照により本明細書に援用される。参照により援用される公開特許及び特許又は特許出願が、本明細書に含まれる開示と矛盾する限り、本明細書が任意のそのような矛盾する事項に取って代わり、及び／又はそれに優先することが意図される。

図面の簡単な説明
[0019] 本発明の新規の特徴が特に添付の特許請求の範囲に記載される。本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明及び添付図面（本発明ではまた「図（Figure）」及び「図（ＦＩＧ．）」）を参照することにより、本発明の特徴及び利点をよりよい理解が得られであろう。

[0020]核酸配列に格納されたデジタル情報の符号化、書込み、アクセス、クエリ、読取り及び復号化を行うプロセスの全体像を概略的に示す。 [0021]オブジェクト又は識別子（例えば、核酸分子）を使用して、「データアットアドレス」と呼ばれるデジタルデータを符号化する一例の方法を概略的に示し、識別子を作成するためのバイト値オブジェクト（又はデータオブジェクト）とランクオブジェクト（又はアドレスオブジェクト）を組み合わせることを示す。 [0021]オブジェクト又は識別子（例えば、核酸分子）を使用して、「データアットアドレス」と呼ばれるデジタルデータを符号化する一例の方法を概略的に示し、ランクオブジェクト及びバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるデータアットアドレス方法の一実施形態を示す。 [0022]オブジェクト又は識別子（例えば、核酸配列）を使用してデジタル情報を符号化する一例の方法を概略的に示す図であり、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを示す。 [0022]オブジェクト又は識別子（例えば、核酸配列）を使用してデジタル情報を符号化する一例の方法を概略的に示す図であり、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実施形態を示す。 [0023]所与のサイズ（等高線）の情報を格納するように構築し得る可能な識別子の組合せ空間（Ｃ、ｘ軸）と識別子の平均数（ｋ、ｙ軸）との間の関係の対数空間における等高線図を示す。 [0024]核酸配列（例えば、デオキシリボ核酸）に情報を書き込む方法の全体像を概略的に示す。 [0025]別個の成分（例えば、核酸配列）を組合せにより組み立てることにより、識別子（例えば、核酸分子）を構築するための「産物方式」と呼ばれる一例の方法を示し、産物方式を使用して構築された識別子のアーキテクチャを示す。 [0025]別個の成分（例えば、核酸配列）を組合せにより組み立てることにより、識別子（例えば、核酸分子）を構築するための「産物方式」と呼ばれる一例の方法を示し、産物方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0026]成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するためのオーバーラップ伸長ポリメラーゼ連鎖反応の使用を概略的に示す。 [0027]成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための粘着末端ライゲーションの使用を概略的に示す。 [0028]成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するためのリコンビナーゼアセンブリの使用を概略的に示す。 [0029]鋳型指向ライゲーションを実証し、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための鋳型指向ライゲーションの使用を概略的に示す。 [0029]鋳型指向ライゲーションを実証し、１つのプールされた鋳型指向ライゲーション反応において６つの核酸配列（例えば、成分）から組合せにより各々組み立てられた２５６個の別個の核酸配列のコピー数（存在度）のヒストグラムを示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列方式を使用して構築された識別子のアーキテクチャを示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを用いる順列方式の一実装形態例を示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列され、繰り返される成分を有する識別子を構築するために、図１１Ｃからの実装形態をどのように変更し得るかの一例を示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、図１１Ｄからの実装形態例が、核酸サイズ選択を用いて除去し得る不要な副産物にどのように繋がり得るかを示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーション及びサイズ選択をどのように使用して、順列され、繰り返される成分を有する識別子を構築するかの別の例を示す。 [0030]順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、サイズ選択が、不要な副産物から特定の識別子を分離するのに失敗し得る一例を示す。 [0031]大きい数Ｍ個の可能な成分から、任意の数Ｋ個の組み立てられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。 [0031]大きい数Ｍ個の可能な成分から、任意の数Ｋ個の組み立てられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、MchooseK方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0031]大きい数Ｍ個の可能な成分から、任意の数Ｋ個の組み立てられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを使用したMchooseK方式の一実装形態例を示す。 [0031]大きい数Ｍ個の可能な成分から、任意の数Ｋ個の組み立てられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、図１２Ｃからの実装形態例が、核酸サイズ選択を用いて除去し得る不要な副産物にどのように繋がり得るかを示す。 [0032]区画化された成分を有する識別子を構築するための「区画方式」と呼ばれる一例の方法を概略的に示し、区画方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0032]区画化された成分を有する識別子を構築するための「区画方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを使用した区画方式の一実装形態例を示す。 [0033]幾つかの可能な成分から任意の成分列で構成された識別子を構築するための「非制約列」（又はＵＳＳ）方式と呼ばれる一例の方法を示す概略的に示し、ＵＳＳ方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0033]幾つかの可能な成分から任意の成分列で構成された識別子を構築するための「非制約列」（又はＵＳＳ）方式と呼ばれる一例の方法を示す概略的に示し、鋳型指向ライゲーションを使用したＵＳＳ方式の一実装形態例を示す。 [0034]親識別子から成分を除去することにより識別子を構築するための「成分削除」と呼ばれる一例の方法を概略的に示し、成分削除方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0034]親識別子から成分を除去することにより識別子を構築するための「成分削除」と呼ばれる一例の方法を概略的に示し、２本鎖標的開裂及び修復を使用した成分削除方式の一実装形態例を示す。 [0035]リコンビナーゼを親識別子に適用することによりさらなる識別子を構築し得るリコンビナーゼ認識部位を有する親識別子を概略的に示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、ポリメラーゼ連鎖反応、アフィニティタグ付きプローブ及び減成標的プローブを使用して、指定された成分を含む識別子にアクセスする方法例を示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、ポリメラーゼ連鎖反応を使用して「ＯＲ」又は「ＡＮＤ」演算を実行して、複数の指定された成分を含む識別子にアクセスする方法例を示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、アフィニティタグを使用して「ＯＲ」又は「ＡＮＤ」演算を実行し、複数の指定された成分を含む識別子にアクセスする方法例を示す。 [0037]核酸分子にコードされたデータの符号化、書込み及び読取りの例を示し、５，８５６ビットのデータの符号化、書込み及び読取りの一例を示す。 [0037]核酸分子にコードされたデータの符号化、書込み及び読取りの例を示し、６２，８２４ビットのデータの符号化、書込み及び読取りの一例を示す。 [0038]本明細書に提供される方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステムを示す。 [0039]２本鎖成分の単一の親セットからの任意の２つの選択された２本鎖成分を組み当てる方式の一例を示す。 [0040]２つのオリゴＸ及びＹから作られた可能な粘着末端成分構造を示す。 [0041]複数の機能部を有する成分から識別子を構築する一例を示す。 [0042]ＰＣＲベースのランダムアクセスに対する識別子ランクの影響の一例を示す。 [0042]ＰＣＲベースのランダムアクセスに対する識別子ランクの影響の一例を示す。 [0043]ＰＣＲベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの影響の一例を示す。 [0043]ＰＣＲベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの影響の一例を示す。 [0044]ＰＣＲベースのランダムアクセスに対する識別子アーキテクチャ中の層を増やすことの影響の一例を示す。 [0045]９つの記号のアルファベットにわたるマルチビン位置符号化方式の一例を示す。 [0046]４ビット列の可能な９つのメッセージのいずれも符号化することができる２つの識別子の識別子ライブラリ及び３つのビンのビンセットを有するマルチビン識別子分布符号化方式の一例を示す。 [0047]６ビット列の可能な６４のメッセージのいずれも符号化することができる２つの識別子の識別子ライブラリ及び３つのビンのビンセットを再使用するマルチビン識別子分布符号化方式の一例を示す。 [0048]整数区画化を用いる、ＤＮＡに情報を符号化する一例を示す。 [0049]ソースビットストリームを準備し、ライタにより解釈されるビルドプログラム仕様に変換するためのアルゴリズムモジュールを含む符号化パイプラインの一例を示す。 [0050]直列化形式で識別子ライブラリを表すためのデータ構造の一実施形態の一事例を示す。 [0051]２つのソースビットストリームと、識別子プールで定義された演算を使用する計算に向けて準備された汎用識別子ライブラリとの一例を示す。 [0052]識別子ライブラリがインビトロ計算としてどのように使用され得るかを示す、識別子のプールに対して実行された論理演算の３つの例への入力及び結果を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0054]ランダムビット列の作成に使用し得るエントロピーを生成する方法の一例を示す。 [0055]エントロピー（ランダムビット列）を生成し、格納する方法の一例を示す。 [0055]エントロピー（ランダムビット列）を生成し、格納する方法の一例を示す。 [0055]エントロピー（ランダムビット列）を生成し、格納する方法の一例を示す。 [0056]入力を使用してランダムビット列を編成し、ランダムビット列にアクセスする方法の一例を示す。 [0056]入力を使用してランダムビット列を編成し、ランダムビット列にアクセスする方法の一例を示す。 [0057]物理的なＤＮＡ鍵を使用してアーチファクトへのアクセスをセキュア化し、認証する方法の一例を示す。 [0058]産物方式を使用してデータをＦＰＮ形式のＤＮＡに符号化する方法の一例の全体像及びそのようなデータに対する演算の例を概略的に示す。 [0059]ｄｓＤＮＡのヌクレアーゼ保護を使用したＡＮＤゲートのメカニズムの一例の全体像を概略的に示す。 [0060]ｄｓＤＮＡを使用したＯＲゲートのメカニズムの一例の全体像を概略的に示す。 [0060]ｓｓＤＮＡを使用したＯＲゲートのメカニズムの一例の全体像を概略的に示す。 [0061]アフィニティタグを使用したＮＩＭＰＬＹゲートのメカニズムの一例の全体像を概略的に示し、提供されるのは、ビオチンタグを有するＢのモル過剰であり、Ｂと一致するＡ中のあらゆる識別子は、ハイブリダイズされ、Ｂにより除去され、Ａから生き残った識別子は、Ａ－ＮＩＭＰＬＹ－Ｂリターン積の一部である。 [0061]ヌクレアーゼを使用したＮＩＭＰＬＹゲートのメカニズムの一例の全体像を概略的に示す。 [0062]アフィニティタグを使用したＮＯＴゲートのメカニズムの一例の全体像を概略的に示し、提供されるのは、ビオチンタグを有するＡのモル過剰であり、Ａと一致するＢ中のあらゆる識別子は、ハイブリダイズされ、Ａにより除去され、Ｂから生き残った識別子は、ＮＯＴ-Ａリターン積の一部である。 [0062]アフィニティタグを使用したＮＯＴゲートのメカニズムの一例の全体像を概略的に示し、提供されるのはＡのモル過剰であり、Ａと一致するＢ中のあらゆる識別子は、ハイブリダイズされ、Ａにより除去され、Ｂから生き残った識別子は、ＮＯＴ-Aリターン積の一部である。 [0063]アフィニティタグを使用したＸＯＲゲートのメカニズムの一例の全体像を概略的に示し、ビオチンタグを有するＢのモル過剰が提供され、Ｂと一致するＡ中のあらゆる識別子は、ハイブリダイズされ、Ｂにより除去され、Ａから生き残った識別子は、Ａ－ＮＩＭＰＬＹ－Ｂリターン積の一部である。 [0063]アフィニティタグを使用したＸＯＲゲートのメカニズムの一例の全体像を概略的に示し、ビオチンタグを有するＡのモル過剰が提供され、Ａと一致するＢ中のあらゆる識別子は、ハイブリダイズされ、Ａにより除去され、Ｂから生き残った識別子は、Ｂ－ＮＩＭＰＬＹ－Ａリターン積の一部である。 [0063]アフィニティタグを使用したＸＯＲゲートのメカニズムの一例の全体像を概略的に示し、最後のＸＯＲステップを示す。

[0064] 本発明の種々の実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者に明らかであろう。本発明から逸脱することなく、非常に多くの変形形態、変更形態及び置換形態が当業者に想到されるであろう。本明細書に記載の本発明の実施形態の種々の代替案が利用可能であることが理解されるはずである。

[0065] 用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を概して指す。デジタル情報は、記号列に分割又は変換され得る。一例では、記号は、ビットであり得、ビットは、「０」又は「１」の値を有し得る。

[0066] 用語「別個の」又は「一意の」は、本明細書で使用される場合、群内の他の物体と区別することができる物体を概して指す。例えば、別個の又は一意の核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であり得る。別個の又は一意の核酸分子は、いかなる他の核酸分子とも同じ配列を有さない。別個の又は一意の核酸配列又は分子は、別の核酸配列又は分子と類似領域を共有し得る。

[0067] 用語「成分」は、本明細書で使用される場合、核酸配列を概して指す。成分は、別個の配列であり得る。成分は、他の核酸配列又は分子を生成するように１つ又は複数の他の成分と連結されるか又は組み立てられ得る。

[0068] 用語「層」は、本明細書で使用される場合、成分の群又はプールを概して指す。各層は、１つの層内の成分が別の層内の成分と異なるような別個の成分のセットを含み得る。１つ又は複数の層からの成分は、１つ又は複数の識別子を生成するように組み立てられ得る。

[0069] 用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置及び値を表す核酸分子又は核酸配列を概して指す。より一般的には、識別子は、記号列中の記号を表すか、又は記号列中の記号に対応する任意のオブジェクトを指し得る。幾つかの実施形態では、識別子は、１つ又は複数の連結された成分を含み得る。

[0070] 用語「組合せ空間」は、本明細書で使用される場合、成分等のオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な別個の識別子のセットを概して指す。成分を組み立てるか又は連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数及び識別子を生成するために使用される特定のアセンブリ方法に依存し得る。

[0071] 用語「識別子ランク」は、本明細書で使用される場合、セット内の識別子の順序を規定する関係を概して指す。

[0072] 用語「識別子ライブラリ」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の集合を概して指す。幾つかの実施形態では、識別子ライブラリ中の所与の識別子の非存在は、特定の位置における記号値を示し得る。１つ又は複数の識別子ライブラリは、識別子のプール、群又はセット内で組み合わされ得る。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含み得る。

[0073] 用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）又はそれらのバリアントを概して指す。核酸は、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）及びウラシル（Ｕ）又はそれらのバリアントから選択される１つ又は複数のサブユニットを含み得る。ヌクレオチドは、Ａ、Ｃ、Ｇ、Ｔ、Ｕ又はそれらのバリアントを含み得る。ヌクレオチドは、成長中の核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、Ａ、Ｃ、Ｇ、Ｔ、Ｕ或いは１つ若しくは複数の相補的なＡ、Ｃ、Ｇ、Ｔ若しくはＵに特異的であるか、又はプリンに相補的（即ちＡ若しくはＧ又はそれらのバリアント）であるか、又はピリミジンに相補的（即ちＣ、Ｔ若しくはＵ又はそれらのバリアント）であり得る任意の他のサブユニットであり得る。幾つかの例では、核酸は、１本鎖又は２本鎖であり得、場合により、核酸は、環状である。

[0074] 用語「核酸分子」又は「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド（ＤＮＡ）若しくはリボヌクレオチド（ＲＮＡ）のいずれか又はその類似体である、種々の長さを有し得るポリマー形態のヌクレオチド又はポリヌクレオチドを概して指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指し得、代替的に、この用語は、物理的なポリヌクレオチド自体に適用され得る。このアルファベット表現は、中央演算処理装置を有するコンピュータ内のデータベースに入力され、核酸配列又は核酸分子を記号又はビットにマッピングし、デジタル情報を符号化するために使用され得る。核酸配列又はオリゴヌクレオチドは、１つ又は複数の非標準ヌクレオチド、ヌクレオチド類似体及び／又は修飾ヌクレオチドも含み得る。

[0075] 「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を概して指し、典型的にはアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）及びチミン（Ｔ）又はポリヌクレオチドがＲＮＡの場合にはアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）及びウラシル（Ｕ）の４つのヌクレオチド塩基の特異的配列で構成される。

[0076] 修飾ヌクレオチドの例としては、限定されないが、ジアミノプリン、５－フルオロウラシル、５－ブロモウラシル、５－クロロウラシル、５－ヨードウラシル、ヒポキサンチン、キサンチン、４－アセチルシトシン、５－（カルボキシヒドロキシメチル）ウラシル、５－カルボキシメチルアミノメチル－２－チオウリジン、５－カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ－Ｄ－ガラクトシルキューオシン、イノシン、Ｎ６－イソペンテニルアデニン、１－メチルグアニン、１－メチルイノシン、２，２－ジメチルグアニン、２－メチルアデニン、２－メチルグアニン、３－メチルシトシン、５－メチルシトシン、Ｎ６－アデニン、７－メチルグアニン、５－メチルアミノメチルウラシル、５－メトキシアミノメチル－２－チオウラシル、ベータ－Ｄ－マンノシルキューオシン、５’－メトキシカルボキシメチルウラシル、５－メトキシウラシル、２－メチルチオ－Ｄ４６－イソペンテニルアデニン、ウラシル－５－オキシ酢酸（ｖ）、ワイブトキソシン、シュードウラシル、キューオシン、２－チオシトシン、５－メチル－２－チオウラシル、２－チオウラシル、４－チオウラシル、５－メチルウラシル、ウラシル－５－オキシ酢酸メチルエステル、ウラシル－５－オキシ酢酸（ｖ）、５－メチル－２－チオウラシル、３－（３－アミノ－３－Ｎ－２－カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ、２，６－ジアミノプリン等が挙げられる。核酸分子は、塩基部分（例えば、通常、相補的ヌクレオチドと水素結合を形成するために利用可能である１つ若しくは複数の原子及び／又は通常、相補的ヌクレオチドと水素結合を形成することができない１つ若しくは複数の原子）が修飾されているか、糖部分が修飾されているか、又はリン酸骨格が修飾されていることもある。核酸分子は、Ｎ－ヒドロキシスクシンイミドエステル（ＮＨＳ）等のアミン反応性部分の共有結合を可能にするために、アミノアリル－ｄＵＴＰ（ａａ－ｄＵＴＰ）及びアミノヘキシルアクリルアミド－ｄＣＴＰ（ａｈａ－ｄＣＴＰ）等のアミン修飾基も含み得る。

[0077] 用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応（ＰＣＲ）等の核酸合成のための出発点として役立つ核酸鎖を概して指す。一例では、ＤＮＡ試料の複製中、複製を触媒する酵素は、ＤＮＡ試料に結合したプライマーの３’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、ＰＣＲの詳細な情報については、化学的方法セクションＤを参照されたい。

[0078] 用語「ポリメラーゼ」又は「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を概して指す。ポリメラーゼの例としては、限定されないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在するか又は合成され得る。ポリメラーゼの例は、Φ２９ポリメラーゼ又はその誘導体である。幾つかの場合、転写酵素又はリガーゼ（即ち結合の形成を触媒する酵素）は、新たな核酸配列を構築するために、ポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌（E. coli）ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、ＳｓｏポリメラーゼＰｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ並びにこれらのバリアント、修飾産物及び誘導体が挙げられる。ＰＣＲと併用することができるさらなるポリメラーゼについて及びポリメラーゼ特性がＰＣＲにどのような影響を与え得るかに関する詳細については、化学的方法セクションＤを参照されたい。

[0079] 用語「種」は、本明細書で使用される場合、同じ配列の１つ又は複数のＤＮＡ分子を概して指す。「種」が複数の意味で使用される場合、複数の種の中のあらゆる種は、別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことにより明示される。

[0080] 用語「約」及び「およそ」は、前記用語に続く値の±２０％以内を意味すると理解されたい。

[0081] ２進コードの形態でのコンピュータデータ等のデジタル情報は、記号の配列又は記号列を含み得る。２進コードは、例えば、典型的には０及び１である、ビットと呼ばれる２つの２進記号を有する２進法を使用して、テキスト又はコンピュータプロセッサ命令を符号化するか又は表し得る。デジタル情報は、非２進記号の配列を含み得る非２進コードの形式で表され得る。符号化された各記号は、一意のビット列（又は「バイト」）に再び割り当てることができ、一意のビット列又はバイトは、バイト列又はバイトストリームに配置することができる。所与のビットについてのビット値は、２つの記号の１つ（例えば、０又は１）であり得る。Ｎビットの列を含み得るバイトは、合計２^Ｎの一意のバイト値を有することができる。例えば、８ビットを含むバイトは、合計２^８又は２５６の可能な一意のバイト値を生じさせることができ、２５６バイトの各々は、バイトで符号化することができる２５６の可能な別個の記号、文字又は命令の１つに対応し得る。生データ（例えば、テキストファイル及びコンピュータ命令）は、バイト列又はバイトストリームとして表すことができる。zipファイル又は生データを含む圧縮データファイルは、バイトストリームで記憶することもでき、これらのファイルを圧縮形式でバイトストリームとして記憶し、その後、コンピュータにより読み取られる前に生データに復元することができる。

[0082] 本開示の方法及びシステムは、各々が元情報の１つ又は複数のビットを表し得る複数の識別子にコンピュータデータ又は情報を符号化するために使用され得る。幾つかの例では、本開示の方法及びシステムは、各々が元情報の２ビットを表す識別子を使用してデータ又は情報を符号化する。

[0083] デジタル情報を核酸に符号化する従来の方法は、核酸の塩基毎の合成に依存し、コスト及び時間がかかり得る。代替の方法は、デジタル情報を符号化するために塩基毎の核酸合成への依拠を減らすことにより、デジタル情報格納の商業的実現可能性を改善し、新しいあらゆる情報格納要求に対して別個の核酸配列のデノボ合成をなくし得る。

[0084] 新しい方法は、塩基毎又はデノボ核酸合成（例えば、ホスホラミダイト合成）に依存する代わりに、成分の組合せ配置を含む複数の識別子又は核酸配列にデジタル情報（例えば、２進コード）を符号化することができる。したがって、新しい戦略は、情報格納の第１の要求に対して別個の核酸配列（又は成分）の第１のセットを生産し得、その後、同じ核酸配列（又は成分）を続く情報格納要求に再使用することができる。これらの手法は、ＤＮＡへの情報符号化及び書込みプロセスにおける核酸配列のデノボ合成の役割を減らすことにより、ＤＮＡベースの情報格納のコストを大幅に下げることができる。さらに、各伸長核酸への各塩基の循環送達を使用し得るホスホラミダイト化学又は鋳型なしポリメラーゼベースの核酸伸長等の塩基毎の合成の実装形態と異なり、成分からの識別子構築を使用する、情報をＤＮＡに書き込む新しい方法は、必ずしも循環核酸伸長を使用するわけではない高度に並列化可能なプロセスである。したがって、新しい方法は、古い方法と比較してデジタル情報をＤＮＡに書き込む速度が上がり得る。

情報を核酸配列に符号化し書き込む方法
[0085] 一態様において、本開示は、情報を核酸配列に符号化する方法を提供する。情報を核酸配列に符号化する方法は、（ａ）情報を記号列に翻訳することと、（ｂ）記号列を複数の識別子にマッピングすることと、（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含み得る。複数の識別子のうちの個々の識別子は、１つ又は複数の成分を含み得る。１つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、別個の識別子に対応し得る。個々の識別子は、記号列中の個々の位置における個々の記号に対応し得る。さらに、記号列中の各位置における１つの記号は、識別子の不在に対応し得る。例えば、「０」及び「１」の２進記号（例えば、ビット）の列において、「０」の各発生は、識別子の不在に対応し得る。

[0086] 別の態様において、本開示は、核酸ベースのコンピュータデータ格納の方法を提供する。核酸ベースのコンピュータデータ格納の方法は、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成することと、（ｃ）核酸配列を有する核酸分子を格納することとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化され得、各核酸分子の配列に符号化されない。

[0087] 別の態様において、本開示は、情報を核酸配列に書き込み、格納する方法を提供する。方法は、（ａ）情報を表す仮想識別子ライブラリを受信又は符号化することと、（ｂ）識別子ライブラリを物理的に構築することと、（ｃ）識別子ライブラリの１つ又は複数の物理的コピーを１つ又は複数の別個の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、１つ又は複数の成分を含み得る。１つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。

[0088] 別の態様において、本開示は、核酸ベースのコンピュータデータ格納を提供する。核酸ベースのコンピュータデータ格納の方法は、（ａ）コンピュータデータを受信することと、（ｂ）コンピュータデータを符号化した少なくとも１つの核酸配列を含む核酸分子を合成することと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を格納することとを含み得る。核酸分子を合成することは、塩基毎の核酸合成を含まなくてよい。

[0089] 別の態様において、本開示は、情報を核酸配列に書き込み、格納する方法を提供する。情報を核酸配列に書き込み、格納する方法は、（ａ）情報を表す仮想識別子ライブラリを受信又は符号化することと、（ｂ）識別子ライブラリを物理的に構築することと、（ｃ）識別子ライブラリの１つ又は複数の物理的コピーを１つ又は複数の別個の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、１つ又は複数の成分を含み得る。１つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。

[0090] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）第１の識別子核酸配列を形成することであって、（１）Ｍ個の異なる層に分けられる別個の成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択し、（２）Ｍ個の選択された成分核酸配列を区画に配置し、（３）Ｍ個の選択された成分核酸配列を（２）に物理的に組み付けて、第１及び第２の層からの成分核酸配列が識別子核酸配列の第１及び第２の末端配列に対応し、第３の層中の成分核酸配列が識別子核酸配列の第３の配列に対応して、第１の識別子核酸配列におけるＭ個の層の物理的順序を規定するように、第１及び第２の末端配列を有し、第１の末端配列と第２の末端配列との間に位置する第３の配列を有する第１の識別子核酸配列を形成することにより、形成することと、（ｃ）複数の追加の識別子核酸配列を形成することであって、各々が（１）第１及び第２の末端配列を有し、第１の末端配列と第２の末端配列との間に位置する第３の配列を有し、（２）各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列は、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することとを含む。

[0091] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、（ｂ）Ｍ個の選択された成分核酸配列を区画に配置することにより、第１の識別子核酸配列を形成することであって、Ｍ個の選択される成分核酸配列は、Ｍ個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、（ｃ）複数の識別子核酸配列を形成することであって、各識別子核酸配列は、第１及び第２の末端配列と、第１の末端配列と第２の末端配列との間に位置する第３の配列とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列の少なくとも１つは、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することであって、画像データを核酸配列に格納することにより、ランダムアクセス方式を使用して色値について任意の近傍ピクセルに問い合わせることができる、収集することとを含む。

[0092] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸配列を区画に配置することにより、第１の識別子核酸配列を形成することであって、Ｍ個の選択される成分核酸配列は、Ｍ個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、（ｃ）複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第１及び第２の末端配列と、第１の末端配列と第２の末端配列との間に位置する第３の配列とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列の少なくとも１つは、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することとを含む。

[0093] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）固定長以下のサイズの１つ又は複数のブロックに記号列を分割することと、（ｃ）Ｍ個の選択された成分核酸配列を区画に配置することにより、第１の識別子核酸配列を形成することであって、Ｍ個の選択される成分核酸配列は、Ｍ個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、（ｄ）複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第１及び第２の末端配列と、第１の末端配列と第２の末端配列との間に位置する第３の配列とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列の少なくとも１つは、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することとを含む。

[0094] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸配列を区画に配置することにより、第１の識別子核酸配列を形成することであって、Ｍ個の選択される成分核酸配列は、Ｍ個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、（ｃ）複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第１及び第２の末端配列と、第１の末端配列と第２の末端配列との間に位置する第３の配列とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列の少なくとも１つは、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することと、（ｅ）（ｄ）における識別子核酸配列を使用して、記号列に対して、ＡＮＤ、ＯＲ、ＮＯＴ又はＮＡＮＤを含むブール論理演算が関わる計算を実行して、核酸分子の新しいプールを生成することとを含む。

[0095] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）第１の識別子核酸配列を形成することであって、（１）Ｍ個の異なる層に分けられる別個の成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択し、（２）Ｍ個の選択された成分核酸配列を区画に配置することにより、形成することと、（ｃ）複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第１及び第２の末端配列と、第１の末端配列と第２の末端配列との間に位置する第３の配列とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸配列の第１の末端配列、第２の末端配列及び第３の配列の少なくとも１つは、（ｂ）における第１の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することとを含む。

[0096] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）第１の識別子核酸配列を形成することであって、（１）Ｍ個の異なる層に分けられる別個の成分核酸配列のセットから、Ｍ個の層の各々からの１つの成分核酸配列を選択し、（２）Ｍ個の選択された成分核酸配列を区画に配置し、（３）（２）にけるＭ個の選択された成分核酸配列を物理的に組み付けて、指定された成分を含む第１の識別子核酸配列を形成することにより、形成し、指定された成分は、少なくとも１つの標的配列を含み、指定された成分を含む識別子のアクセスを可能にする、形成することと、（ｃ）複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、それぞれ指定された成分を有し、指定された成分は、（ｂ）における第１の識別子核酸配列の少なくとも１つの標的配列を含み、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにする、組み立てることと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸配列を収集することとを含む。

[0097] 図１は、核酸配列への情報の符号化、核酸配列への情報の書込み、核酸配列に書き込まれた情報の読取り及び読み取った情報の復号化の全体プロセスを示す。デジタル情報又はデータは、１つ又は複数の記号列に翻訳され得る。一例では、記号は、ビットであり、各ビットは、「０」又は「１」のいずれかの値を有し得る。各記号は、その記号を表すオブジェクト（例えば、識別子）にマッピング又は符号化され得る。各記号は、別個の識別子によって表され得る。別個の識別子は、成分で構成された核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報は、情報に対応する識別子ライブラリを生成することにより核酸配列に書き込まれ得る。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成され得る。デジタル情報のあらゆる部分に一度にアクセスし得る。一例では、識別子のサブセットは、識別子ライブラリからアクセスされる。識別子のサブセットは、識別子をシーケンシング及び識別することにより読み取ることができる。デジタルデータを復号化するために、識別された識別子に、対応する記号を関連付け得る。

[0098] 図１の手法を使用した情報の符号化及び読取りの方法は、例えば、ビットストリームを受け取ることと、識別子ランク又は核酸索引を使用して、ビットストリーム中の各１ビット（「１」のビット値を有するビット）を別個の核酸識別子にマッピングすることとを含み得る。１のビット値に対応する識別子のコピーを含む核酸分子サンプルプール又は識別子ライブラリを構築する（ビット値０の場合には識別子を除外する）。サンプルの読取りは、分子生物学的方法（例えば、シーケンシング、ハイブリダイゼーション、ＰＣＲ等）を使用して、いずれの識別子が識別子ライブラリ内で表されているかを特定し、それらの識別子に対応するビットにビット値「１」を割り当て、識別子ライブラリ内で表されていない識別子に対応するビットにビット値「０」を割り当て（ここでも、各識別子が対応する元のビットストリーム中のビットを識別するために、識別子ランクを参照する）、それにより情報を復号化して元の符号化ビットストリームにすることを含み得る。

[0099] Ｎ個の別個のビットの列を符号化することは、等しい数の一意の核酸配列を可能な識別子として使用することができる。情報を符号化するこの手法は、格納すべき情報の新しい各項目（Ｎビットの列）に対して、識別子（例えば、核酸分子）のデノボ合成を使用し得る。他の事例では、情報の新しい項目の符号化が、予め合成（又は予め作製）された識別子を機械的に選択し、一緒に混合して識別子ライブラリを形成することを含み得るように、デノボ合成を１回行い、可能な全ての識別子を続けて維持することにより、格納すべき情報の新しい各項目に対して識別子（数がＮ以下である）を新しく合成するコストを下げることができる。他の事例では、幾つか（Ｎ未満及び幾つかの場合にはＮよりもはるかに小さい数）の核酸配列を合成して維持し、次いで酵素反応を通してこれらの配列を修飾して、格納すべき新しい各項目にＮ個までの識別子を生成することにより、（１）格納すべき情報の新しい各項目にＮ個までの識別子をデノボ合成するコスト、（２）格納すべき情報の新しい各項目にＮ個の可能な識別子を維持し、そこから選択するコストの両方又はそれらの任意の組合せを削減し得る。

[00100] 識別子は、読取り、書込み、アクセス、コピー及び削除演算を容易にするように合理的に設計及び選択され得る。識別子は、書込みエラー、変異、分解及び読取りエラーを最小にするように設計及び選択され得る。合成核酸ライブラリ（識別子ライブラリ等）を含むＤＮＡ配列の合理的な設計については、化学的方法セクションＨを参照されたい。

[00101] 図２Ａ及び図２Ｂは、デジタルデータをオブジェクト又は識別子（例えば、核酸分子）に符号化する「データアットアドレス」と呼ばれる方法の一例を概略的に示す。図２Ａは、ビットストリームを識別子ライブラリに符号化することを示し、個々の識別子は、識別子ランクを指定する単一の成分を、バイト値を指定する単一の成分に連結するか又は組み付けることにより構築される。一般に、データアットアドレス方法は、２つのオブジェクトを含むことにより情報をモジュール式に符号化する識別子を使用し、１つのオブジェクトは、バイト値を識別する「バイト値オブジェクト」（又は「データオブジェクト」）であり、１つのオブジェクトは、識別子ランク（又は元のビットストリーム内のバイトの相対位置）を識別する「ランクオブジェクト」（又は「アドレスオブジェクト」）である。図２Ｂは、データアットアドレス方法の一例を示し、各ランクオブジェクトは、成分のセットから組合せにより構築され得、各バイト値オブジェクトは、成分のセットから組合せにより構築され得る。ランクオブジェクト及びバイト値オブジェクトのそのような組合せ構造により、オブジェクトが単一の成分のみから作られた場合（例えば、図２Ａ）より多くの情報を識別子に書き込むことが可能になる。

[00102] 図３Ａ及び図３Ｂは、デジタル情報をオブジェクト又は識別子（例えば、核酸配列）に符号化する方法の別の例を概略的に示す。図３Ａは、ビットストリームを識別子ライブラリに符号化することを示し、識別子は、識別子ランクを指定する単一の成分から構築される。特定のランク（又はアドレス）における識別子の存在は、ビット値「１」を指定し、特定のランク（又はアドレス）における識別子の不在は、ビット値「０」を指定する。このタイプの符号化は、ランク（元のビットストリーム内のビットの相対位置）のみを符号化する識別子を使用し、識別子ライブラリ内のそれらの識別子の有無を使用して、それぞれビット値「１」又は「０」を符号化し得る。情報の読取り及び復号化は、識別子ライブラリ内に存在する識別子を識別することと、それらの識別子の対応するランクにビット値「１」を割り当てることと、識別子ライブラリ内に存在しない識別子の場合にはビット値「０」を割り当てることとを含み得る。図３Ｂは、各識別子が、可能な各組合せ構築がランクを指定するように、成分のセットから組合せにより構築され得る符号化方法の一例を示す。そのような組合せ構造により、識別子が単一の成分のみから作られる場合（例えば、図３Ａ）よりも多くの情報を識別子に書き込むことが可能になる。例えば、成分セットは、５つの別個の成分を含み得る。５つの別個の成分は、組み立てられて、各々が５つの成分のうちの２つを含む１０個の別個の識別子を生成し得る。１０個の別個の識別子は、ビットストリーム中のビットの位置に対応するランク（又はアドレス）をそれぞれ有し得る。識別子ライブラリは、長さ１０のビットストリーム内において、ビット値「１」の位置に対応するそれらの可能な１０個の識別子のサブセットを含み得、ビット値「０」の位置に対応するそれらの可能な１０個の識別子のサブセットを除外し得る。

[00103] 図４は、図３Ａ及び図３Ｂに示す符号化方法を使用してビット単位の所与の元のサイズの情報（Ｄ、等高線）を格納するように物理的に構築される可能な識別子の組合せ空間（Ｃ、ｘ軸）と識別子の平均数（ｋ、ｙ軸）との間の関係の対数空間における等高線図を示す。このプロットは、サイズＤの元情報がＣビットの列に再符号化され（Ｃは、Ｄより大きい値であり得る）、ｋ個のビットがビット値「１」を有すると仮定している。さらに、プロットは、情報から核酸への符号化が、再符号化されたビット列に対して実行され、ビット値が「１」である位置の識別子が構築され、ビット値が「０」である位置の識別子が構築されないと仮定している。仮定に従い、可能な識別子の組合せ空間は、再符号化されたビット列内のあらゆる位置を識別するためにサイズＣを有し、サイズＤのビット列を符号化するために使用される識別子の数は、Ｄ＝log₂（Cchoosek）であるようなものであり、Cchoosekは、Ｃ個の可能性からｋ個の順序付けられていない結果を選択する方法の数についての数式であり得る。したがって、可能な識別子の組合せ空間が情報の所与の項目のサイズ（ビット単位）を超えて増大するにつれて、所与の情報を格納するために使用し得る物理的に構築された識別子の数が減少する。

[00104] 図５は、核酸配列に情報を書き込む全体的な方法を示す。情報は、書き込まれる前に記号列に翻訳され、複数の識別子に符号化され得る。情報の書込みは、可能な識別子を生成するように反応を準備することを含み得る。反応は、入力を区画に配置することにより準備され得る。入力は、核酸、成分、鋳型、酵素又は化学試薬を含み得る。区画は、ウェル、チューブ、表面上の位置、マイクロ流体デバイス内のチャンバ又は乳剤内の液滴であり得る。複数の反応は、複数の区画で準備され得る。反応は、プログラムされた温度のインキュベーション又は循環を通して識別子の生成に進み得る。反応は、選択的又は普遍的に除去（例えば、削除）され得る。反応は、識別子を１つのプール内に集めるように選択的又は普遍的に中断、統合及び精製することもできる。複数の識別子ライブラリからの識別子は、同じプールに集められ得る。個々の識別子は、その識別子が属する識別子ライブラリを識別するために、バーコード又はタグを含み得る。代わりに又は加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸又は識別子は、識別子ライブラリと共に識別子プールに含まれ得る。補足の核酸又は識別子は、符号化された情報のメタデータを含み得るか、又は符号化された情報を不明瞭にするか若しくは隠すように機能し得る。

[00105] 識別子ランク（例えば、核酸索引）は、識別子の順序付けを決める方法又は鍵を含み得る。方法は、全ての識別子及びそれらの対応するランクを有するルックアップテーブルを含み得る。方法は、識別子を構成する全ての成分のランクと、それらの成分の組合せを含むあらゆる識別子の順序付けを決めるための関数とを有するルックアップテーブルも含み得る。そのような方法は、辞書的順序付けと呼ぶことができ、辞書内の単語がアルファベット順に順序付けられる様式に類似し得る。データアットアドレス符号化方法では、識別子ランク（識別子のランクオブジェクトにより符号化される）を使用して、ビットストリーム内のバイト（識別子のバイト値オブジェクトにより符号化される）の位置を決定し得る。代替の方法では、現在の識別子の識別子ランク（識別子全体自体により符号化される）を使用して、ビットストリーム内のビット値「１」の位置を決めることができる。

[00106] 鍵は、サンプル内の識別子（例えば、核酸分子）の一意のサブセットに別個のバイトを割り当て得る。例えば、簡単な形態では、鍵は、ビットの位置を指定する一意の核酸配列にバイト内の各ビットを割り当て得、次いでサンプル内のその核酸配列の有無がそれぞれビット値１又は０を指定し得る。符号化された情報を核酸サンプルから読み取ることは、シーケンシング、ハイブリダイゼーション又はＰＣＲを含む任意の数の分子生物学的技法を含み得る。幾つかの実装形態では、符号化されたデータセットを読み取ることは、各核酸サンプルからデータセットの一部分を再構築すること又は符号化されたデータセット全体を再構築することを含み得る。配列が読み取られ得るとき、核酸索引を一意の核酸配列の有無と共に使用することができ、核酸サンプルを復号化してビットストリームにすることができる（例えば、各ビット列、１バイト、複数のバイト又はバイト列）。

[00107] 識別子は、成分核酸配列を組合せにより組み立てることにより構築され得る。例えば、規定された分子のグループ（例えば、組合せ空間）から核酸分子（例えば、識別子）のセットをとることにより、情報を符号化し得る。規定された分子のグループの可能な各識別子は、層に分け得る予め作製された成分のセットからの核酸配列（例えば、成分）のアセンブリであり得る。個々の各識別子は、あらゆる層からの１つの成分を固定の順序で連結することにより構築され得る。例えば、Ｍ個の層が存在し、各層がｎ個の成分を有し得る場合、最大Ｃ＝ｎ^Ｍ個の一意の識別子を構築し得、情報の最大２^Ｃ個の異なる項目又はＣビットを符号化し、格納し得る。例えば、１メガビットの情報の格納は、１×１０^６個の別個の識別子又はサイズＣ＝１×１０^６の組合せ空間を使用し得る。この例では、識別子は、異なる方法で編成された多様な成分から組み立てられ得る。アセンブリは、Ｍ＝２個の予め作製された層から作られ得、各層は、ｎ＝１×１０^３個の成分を含む。代替として、アセンブリは、Ｍ＝３個の層から作られ得、各層は、ｎ＝１×１０^２個の成分を含む。幾つかの実施形態では、アセンブリは、Ｍ＝２、Ｍ＝３、Ｍ＝４、Ｍ＝５又はそれよりも多い層から作られ得る。この例が示すように、より多数の層を使用して同量の情報を符号化することで成分の総数をより小さくすることができ得る。全体でより少数の成分を使用することは、書込みコストの点から有利であり得る。

[00108] 一例では、２セットの一意の核酸配列又は層Ｘ及びＹで開始することができ、各核酸配列又は層は、それぞれｘ及びｙ成分（例えば、核酸配列）を有する。Ｘからの各核酸配列は、Ｙからの各核酸配列に組み付けることができる。２つのセット内で維持される核酸配列の総数は、ｘとｙとの和であり得るが、生成することができる核酸分子、したがって可能な識別子の総数は、ｘとｙとの積であり得る。Ｘからの配列をＹの配列に任意の順序で組み付けることができる場合、さらに多くの核酸配列（例えば、識別子）を生成することができる。例えば、組立て順序がプログラム可能である場合、生成される核酸配列（例えば、識別子）の数は、ｘとｙとの積の２倍であり得る。生成することができる可能な全ての核酸配列のこのセットは、ＸＹと呼ぶことができる。ＸＹ内の一意の核酸配列の組み立てられたユニットの順序は、別個の５’及び３’末端を有する核酸を使用して制御することができ、配列の別個の５’及び３’末端に対して制限消化、ライゲーション、ポリメラーゼ連鎖反応（ＰＣＲ）及びシーケンシングを行い得る。そのような手法は、情報を組立て積の組合せ及び順序に符号化することにより、Ｎ個の別個のビットの符号化に使用される核酸配列（例えば、成分）の総数を低減することができる。例えば、１００ビットの情報を符号化するために、１０個の別個の核酸分子（例えば、成分）の２つの層を固定の順序で組み立てて、１０^＊１０、即ち１００個の別個の核酸分子（例えば、識別子）を生成し得るか、又は５個の別個の核酸分子（例えば、成分）の１つの層と、１０個の別個の核酸分子（例えば、成分）の別の層とを任意の順序で組み立てて、１００個の別個の核酸分子（例えば、識別子）を生成し得る。

[00109] 各層内の核酸配列（例えば、成分）は、中央の一意（又は別個）の配列又はバーコード、一方の末端における共通のハイブリダイゼーション領域及び他方の末端における別の共通のハイブリダイゼーション領域を含み得る。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含み得る。例えば、典型的には、バーコード内の各塩基位置に対して４つの可能なヌクレオチドが存在する。したがって、３つの塩基バーコードが４^３＝６４個の核酸配列を一意に識別し得る。バーコードは、ランダムに生成されるように設計され得る。代替として、バーコードは、識別子又はシーケンシングの構造の化学的性質に複雑さを生じさせる可能性のある配列を回避するように設計され得る。さらに、バーコードは、各バーコードが他のバーコードから最小のハミング距離を有し得るように設計され得、それにより塩基分解能の変異又は読取りエラーがバーコードの適切な識別に干渉し得る尤度を減少させ得る。ＤＮＡ配列の合理的な設計については、化学的方法セクションＨを参照されたい。

[00110] 核酸配列（例えば、成分）の一方の末端におけるハイブリダイゼーション領域は、各層内で異なり得るが、層内の各メンバで同じであり得る。隣接する層は、それらの成分に相補的なハイブリダイゼーション領域を有するものであり、互いに相互作用することが可能である。例えば、層Ｘからのあらゆる成分は、相補的なハイブリダイゼーション領域を有し得るため、層Ｙからのあらゆる成分に付着することが可能であり得る。反対の末端のハイブリダイゼーション領域は、第１の末端のハイブリダイゼーション領域と同じ目的を果たし得る。例えば、層Ｙからのあらゆる成分は、一方の末端で層Ｘのあらゆる成分に付着し得、反対の末端で層Ｚのあらゆる成分に付着し得る。

[00111] 図６Ａ及び図６Ｂは、各層からの別個の成分（例えば、核酸配列）を固定の順序で組合せにより組み立てることにより、識別子（例えば、核酸分子）を構築するための「産物方式」（product scheme）と呼ばれる方法の一例を示す。図６Ａは、産物方式を使用して構築された識別子のアーキテクチャを示す。識別子は、各層からの単一の成分を固定の順序で組み合わせることにより構築され得る。それぞれＮ個の成分を有するＭ個の層の場合、Ｎ^Ｍ個の可能な識別子が存在する。図６Ｂは、産物方式を使用して構築し得る識別子の組合せ空間の一例を示す。一例では、組合せ空間は、３つの層から生成することができ、各層は、３つの別個の成分を含む。成分は、各層からの１つの成分を固定の順序で組み合わせ得るように組み合わされ得る。この組立て方法での組合せ空間全体は、２７個の可能な識別子を含み得る。

[00112] 図７～図１０は、産物方式（図６を参照されたい）を実施するための化学的方法を示す。図７～図１０に示す方法は、２つ以上の別個の成分を固定の順序で組み立てる任意の他の方法と共に、例えば識別子ライブラリ内にいずれか１つ又は複数の識別子を生成するために使用され得る。識別子は、本明細書に開示される方法又はシステム中の任意の時点において、図７～図１０に記載の実施方法のいずれかを使用して構築され得る。幾つかの事例では、可能な識別子の組合せ空間の全て又は一部分は、デジタル情報が符号化されるか又は書き込まれる前に構築され得、その場合、書込みプロセスは、既に存在するセットから識別子（情報を符号化する）を機械的に選択し、プールすることを含み得る。他の事例では、識別子は、データ符号化又は書込みプロセスの１つ又は複数のステップが行われた可能性がある後（即ち情報が書き込まれているとき）に構築され得る。

[00113] 酵素反応は、異なる層又はセットから成分を組み立てるために使用され得る。各層の成分（例えば、核酸配列）は、隣接する層の成分に対する特異的ハイブリダイゼーション又は付着領域を有するため、アセンブリは、ワンポット反応で行われ得る。例えば、層Ｘからの核酸配列（例えば、成分）Ｘ１、層Ｙからの核酸配列Ｙ１及び層Ｚからの核酸配列Ｚ１は、組み立てられた核酸分子（例えば、識別子）Ｘ１Ｙ１Ｚ１を形成し得る。加えて、複数の核酸分子（例えば、識別子）は、各層からの複数の核酸配列を含むことにより、１つの反応において組み立てられ得る。例えば、前の例のワンポット反応においてＹ１とＹ２との両方を含むことにより、２つの組み立てられた産物（例えば、識別子）、即ちＸ１Ｙ１Ｚ１及びＸ１Ｙ２Ｚ１が生じ得る。この反応多重化は、物理的に構築される複数の識別子に対する書込み時間を加速させるために使用され得る。組立て効率に関するＤＮＡ配列の合理的な設計の詳細については、化学的方法セクションＨを参照されたい。核酸配列のアセンブリは、約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間又は１時間以下の時間期間内に実行され得る。符号化されたデータの精度は、少なくとも約９０％、９５％、９６％、９７％、９８％、９９％又はそれ以上であり得る。

[00114] 識別子は、図７に示されるように、オーバーラップ伸長ポリメラーゼ連鎖反応（ＯＥＰＣＲ）を使用して産物方式により構築され得る。各層内の各成分は、隣接する層からの成分の配列末端上の共通ハイブリダイゼーション領域と相同及び／又は相補的であり得る共通ハイブリダイゼーション領域を配列末端上に有する二本鎖又は一方鎖（図に描かれるように）核酸配列を含み得る。個々の識別子は、成分Ｘ_１～Ｘ_Ａを含む層Ｘ（又は層１）からの１つの成分（例えば、一意の配列）と、Ｙ_１～Ｙ_Ａを含む層Ｙ（又は層２）からの第２の成分（例えば、一意の配列）と、Ｚ_１～Ｚ_Ｂを含む層Ｚ（又は層３）からの第３の成分（例えば、一意の配列）とを連結することにより構築され得る。層Ｘからの成分は、層Ｙからの成分上の３’末端との相補性を共有する３’末端を有し得る。したがって、層Ｘ及びＹからの一本鎖成分は、３’末端において一緒にアニーリングされ得、二本鎖核酸分子を生成するためにＰＣＲを使用して延長され得る。生成された二本鎖核酸分子は、層Ｚからの成分の３’末端との相補性を共有する３’末端を生成するように融解され得る。層Ｚからの成分は、生成された核酸分子と共にアニーリングされ得、固定順序で層Ｘ、Ｙ及びＺからの単一の成分を含む一意の識別子を生成するように延長され得る。ＯＥＰＣＲについては、化学的方法セクションＡを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いた）又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応（ＰＣＲ）は、反応中に形成され得る他の副産物から、完全に組み立てられた識別子産物を単離するために実施することもできる。反応中に形成され得る他の副産物から、完全に組み立てられた識別子産物を単離するために、２つの最外層の各々に１つずつ、合計２つのプローブを用いた逐次核酸捕捉を実施し得る（化学的方法セクションＦを参照されたい）。

[00115] 識別子は、図８に示されるように、粘着末端ライゲーションを使用する産物方式により組み立てられ得る。一本鎖３’突出を有する二本鎖成分（例えば、二本鎖ＤＮＡ（ｄｓＤＮＡ））をそれぞれ含む３つの層は、別個の識別子を組み立てるために使用可能である。例えば、成分Ｘ_１～Ｘ_Ａを含む層Ｘ（又は層１）からの１つの成分と、Ｙ_１～Ｙ_Ｂを含む層Ｙ（又は層２）からの第２の成分と、Ｚ_１～Ｚ_Ｃを含む層Ｚ（又は層３）からの第３の成分とを含む識別子である。層Ｘからの成分を層Ｙからの成分と組み合わせるために、層Ｘ内の成分は、図８でａとラベルされる共通の３’突出を含み得、層Ｙ内の成分は、共通の相補的３’突出、即ちａ^＊を含み得る。層Ｙからの成分を層Ｚからの成分と組み合わせるために、層Ｙ内の要素は、図８でｂとラベルされる共通の３’突出を含み得、層Ｚ内の要素は、共通の相補的３’突出、即ちｂ^＊を含み得る。層Ｘ成分内の３’突出は、層Ｙ成分内の３’末端と相補的であり得、層Ｙ成分内の他の３’突出は、層Ｚ成分内の３’末端と相補的であり得、成分がハイブリダイゼーション及びライゲーションすることを可能にする。したがって、層Ｘからの成分は、層Ｘ又は層Ｚからの他の成分とハイブリダイゼーションすることができず、同様に、層Ｙからの成分は、層Ｙからの他の要素とハイブリダイゼーションすることができない。さらに、層Ｙからの単一の成分は、層Ｘの単一の成分及び層Ｚの単一の成分にライゲーションし、完全な識別子の形成を保証することができる。粘着末端ライゲーションについては、化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いた、化学的方法セクションＥを参照されたい）又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）は、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。反応中に形成され得る他の副産物から識別子産物を単離するために、２つの最外層の各々に１つずつ、合計２つのプローブを用いた逐次核酸捕捉を実施し得る（化学的方法セクションＦを参照されたい）。

[00116] 粘着末端ライゲーションのための粘着末端は、制限エンドヌクレアーゼで各層の成分を処理することにより生成され得る（制限酵素反応の詳細な情報については、化学的方法セクションＣを参照されたい）。幾つかの実施形態では、複数の層の成分は、成分の１つの「親」セットから生成され得る。例えば、二本鎖成分の単一の親セットが各末端上に相補的な制限部位（例えば、BamHI及びBglIIのための制限部位）を有し得る一実施形態である。任意の２つの成分が組立てに選択され、１つ又は他の相補的制限酵素（例えば、BglII又はBamHI）を用いて個々に消化され、不活性瘢痕となる、一緒にライゲーションすることができる相補的粘着末端になり得る。産物核酸配列は、各末端上に相補的制限部位を含み得（例えば、５’末端上のBamHI及び３’末端上のBglII）、同じプロセスに従う親セットからの別の成分にさらにライゲーションすることができる。このプロセスは、無限に循環され得る（図２０）。親がＮ個の成分を含む場合、各サイクルは、Ｎ個の成分の余剰層を産物方式に追加することに等しい。

[00117] ライゲーションを使用して、セットＸ（例えば、ｄｓＤＮＡのセット１）からの要素と、セットＹ（例えば、ｄｓＤＮＡのセット２）からの要素とを含む核酸の配列を構築する方法は、二本鎖配列の２つ以上のプール（例えば、ｄｓＤＮＡのセット１及びｄｓＤＮＡのセット２）を取得又は構築するステップであって、第１のセット（例えば、ｄｓＤＮＡのセット１）は、粘着末端（例えば、ａ）を含み、第２のセット（例えば、ｄｓＤＮＡのセット２）は、第１のセットの粘着末端に相補的である粘着末端（例えば、ａ^＊）を含む、ステップを含み得る。第１のセット（例えば、ｄｓＤＮＡのセット１）からの任意のＤＮＡ及び第２のセット（例えば、ｄｓＤＮＡのセット２）からのＤＮＡの任意のサブセットは、組み合わされ、組み立てられて、次いで一緒にライゲーションされ、第１のセットからの要素と第２のセットからの要素とを有する単一の二本鎖ＤＮＡを形成することができる。

[00118] 識別子は、図９に示されるように、部位特異的組換えを使用する産物方式により組み立てられ得る。識別子は、３つの異なる層から成分を組み立てることにより構築され得る。層Ｘ（又は層１）内の成分は、分子の一方の側にａｔｔＢ_ｘリコンビナーゼ部位を有する二本鎖分子を含み得、層Ｙ（又は層２）からの成分は、一方の側にａｔｔＰ_ｘリコンビナーゼ部位を、他方の側にａｔｔＢ_ｙリコンビナーゼ部位を有する二本鎖分子を含み得、層Ｚ（又は層３）内の成分は、分子の一方の側にａｔｔＰ_ｙリコンビナーゼ部位を含み得る。下付き文字により示される、ペア内のａｔｔＢ部位及びａｔｔＰ部位は、対応するリコンビナーゼ酵素の存在下で組み換えることが可能である。各層からの１つの成分は、層Ｘからの１つの成分が層Ｙからの１つの成分と関連し、層Ｙからの１つの成分が層Ｚからの１つの成分と関連するように組み合わされ得る。１つ又は複数のリコンビナーゼ酵素の適用は、成分を組み換えて、順序付き成分を含む二本鎖識別子を生成し得る。ＤＮＡサイズ選択（例えば、ゲル抽出を用いた）又は最外層と隣接するプライマーとのＰＣＲは、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。一般に、複数の直交性ａｔｔＢ及びａｔｔＰペアが使用され得、各ペアは、余剰層からの成分を組み立てるために使用され得る。リコンビナーゼの大型セリンファミリの場合、１リコンビナーゼ当たり最大６つの直交性ａｔｔＢ及びａｔｔＰペアが生成され得、複数の直交性リコンビナーゼも同様に実施され得る。例えば、１３の層は、１２の直交するａｔｔＢ及びａｔｔＰペア、即ちＢｘｂＩ及びＰｈｉＣ３１等の２つの大型セリンリコンビナーゼの各々からの６つの直交するペアを使用することにより組み立てられ得る。ａｔｔＢ及びａｔｔＰペアの直交性は、１つのペアからのａｔｔＢ部位が別のペアからのａｔｔＰ部位と反応しないことを保証する。これにより、異なる層からの成分が固定順序で組み立てられることが可能になる。リコンビナーゼ媒介性組換え反応は、実施されるリコンビナーゼ系に応じて可逆的又は非可逆的であり得る。例えば、大型セリンリコンビナーゼファミリは、高エネルギー補因子を必要とすることなく非可逆的な組換え反応を触媒するが、チロシンリコンビナーゼファミリは、可逆的な反応を触媒する。

[00119] 識別子は、図１０Ａに示されるように、鋳型指向ライゲーション（ＴＤＬ）を使用する産物方式により構築され得る。鋳型指向ライゲーションは、「鋳型」又は「ステープル」と呼ばれる一本鎖状の核酸配列を利用して、識別子を形成するために成分の順序付きライゲーションを容易にする。鋳型は、隣接する層からの成分に同時にハイブリダイゼーションし、リガーゼがそれらをライゲーションする間、それらを互いに隣接して（５’末端に対する３’末端）保持する。図１０Ａからの例では、一本鎖成分の３つの層又はセットが組み合わされる。配列ａ^＊に相補的である、３’末端上の共通配列ａを共有する成分の第１の層（例えば、層Ｘ又は層１）、配列ｂ^＊及びｃ^＊に相補的である、それぞれ５’末端及び３’末端上の共通配列ｂ及びｃを共有する成分の第２の層（例えば、層Ｙ又は層２）、配列ｄ^＊に相補的であり得る、５’末端上の共通配列ｄを共有する成分の第３の層（例えば、層Ｚ又は層３）並びに配列ａ^＊ｂ^＊（５’から３’）を含む第１のステープルと配列ｃ^＊ｄ^＊（‘５から３’）を含む第２のステープルとを有する２つの鋳型又は「ステープル」のセットである。この例では、各層からの１つ又は複数の成分が選択され、ステープルとの反応に混合され得、それは、相補的アニーリングにより、識別子を形成するために、規定された順序での各層からの１つの成分のライゲーションを容易にし得る。ＴＤＬについては、化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いた、化学的方法セクションＥを参照されたい）又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）は、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。反応中に形成され得る他の副産物から識別子産物を単離するために、２つの最外層の各々に１つずつ、合計２つのプローブを用いた逐次核酸捕捉を実施し得る（化学的方法セクションＦを参照されたい）。

[00120] 図１０Ｂは、各々が６層ＴＤＬと組み立てられた２５６個の別個の核酸配列のコピー数（存在度）のヒストグラムを示す。縁部層（第１の層及び最後の層）は、それぞれ１つの成分を有し、内部層（残りの４つの層）の各々は、４つの成分を有する。各縁部層成分は、１０塩基ハイブリダイゼーション領域を含む２８の塩基であった。各内部層成分は、５’末端上の１０塩基共通ハイブリダイゼーション領域と、１０塩基可変（バーコード）領域と、３’末端上の１０塩基共通ハイブリダイゼーション領域とを含む３０塩基であった。３つの鋳型鎖の各々は、長さが２０塩基であった。全２５６個の別個の配列は、多重方式で組み立てられ、１つの反応は、成分及び鋳型、Ｔ４ポリヌクレオチドキナーゼ（成分をリン酸化するための）並びにＴ４リガーゼ、ＡＴＰ及び他の適切な反応試薬の全てを含んだ。反応は、３７度で３０分間、次いで室温で１時間インキュベートされた。シーケンシングアダプタがＰＣＲとの反応産物に追加され、この産物は、Illumina MiSeq機器を用いてシーケンシングされた。１９２９１０の全組み立てられた配列読取りからの各別個の組み立てられた配列の相対的コピー数が図示されている。この方法の他の実施形態は、二本鎖成分を使用し得、その成分は、最初に、ステープルにアニーリングすることができる一本鎖バージョンを形成するように融解される。この方法（即ちＴＤＬ）の他の実施形態又は派生物は、産物方式において達成され得るものよりも複雑な識別子の組合せ空間を構築するために使用され得る。

[00121] 識別子は、ゴールデンゲートアセンブリ、ギブソンアセンブリ又はリガーゼ循環反応アセンブリを含む種々の他の化学的実装形態を使用して産物方式に従って構築され得る。

[00122] 図１１Ａ及び図１１Ｂは、順列された成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための、「順列方式」（permutation scheme）と呼ばれる方法の一例を概略的に示す。図１１Ａは、順列方式を使用して構築された識別子のアーキテクチャを示す。識別子は、各層からの単一の成分をプログラム可能な順序で組み合わせることにより構築され得る。図１１Ｂは、順列方式を使用して構築し得る識別子の組合せ空間の一例を示す。一例では、サイズ６の組合せ空間は、各々が１つの別個の成分を含む３つの層から生成され得る。成分は、任意の順序で連結され得る。一般に、各々がＮ個の成分を有するＭ個の層を用いる場合、順列方式は、総じてＮ^ＭＭ！個の識別子の組合せ空間を可能にする。

[00123] 図１１Ｃは、鋳型指向ライゲーション（ＴＤＬ、化学的方法セクションＢを参照されたい）を用いる順列方式の一実装形態例を示す。複数の層からの成分は、末端足場と呼ばれる固定された左末端成分と右末端成分との間に組み立てられる。これらの末端足場は、組合せ空間内の全ての識別子で同じであり、したがって実装形態の反応マスタミックスの一環として追加され得る。異なる層からの成分が反応において識別子内に組み込まれる順序が、反応に選択される鋳型に依存するように、任意の２つの層又は足場間の任意の可能な接合部に鋳型又はステープルが存在する。Ｍ個の層の場合、層の任意の可能な順列を可能にするために、可能なあらゆる接合部（足場との接合部を含む）に選択可能なＭ^２＋２Ｍ個の別個のステープルが存在し得る。それらの鋳型のうちのＭ個（グレーの陰影付き）は、層とそれら自体との間の接合部を形成し、本明細書に記載の順列アセンブリの目的のために除外され得る。しかしながら、それらの包含により、図１１Ｄ～図１１Ｇに示す反復成分を含む識別子を有するより大きい識別子空間が可能になり得る。ＤＮＡサイズ選択（例えば、ゲル抽出、化学的方法セクションＥを参照されたい）又は最外層隣接プライマーを用いたポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実施して、識別子産物を反応で形成され得る他の副産物から単離し得る。２つの最外層の各々に１つずつ、２つのプローブを有する逐次核酸捕捉を実施して、反応で形成され得る他の副産物から識別子産物を単離し得る（化学的方法セクションＦを参照されたい）。

[00124] 図１１Ｄ～図１１Ｇは、反復成分を有する識別子の特定の事例を含むように順列方式をどのように拡張し得るかの方法例を示す。図１１Ｄは、図１１Ｃからの実装形態をどのように使用して、順列成分及び反復成分を有する識別子を構築し得るかの一例を示す。例えば、識別子は、２つの別個の成分から組み立てられた総じて３つの成分を含み得る。この例では、１つの層からの１つの成分が識別子において複数回存在し得る。同じ成分の隣接連結は、図中のａ^＊ｂ^＊（５’から３’）ステープル等の同じ成分の３’末端及び５’末端の両方の隣接する相補的なハイブリダイゼーション領域を有するステープルを使用することにより達成され得る。一般に、Ｍ個の層の場合、Ｍ個のそのようなステープルが存在する。この実装形態を用いた反復成分の組み込みは、図１１Ｅに示すように、末端足場間に組み立てられた、１を超える長さ（即ち１個、２個、３個、４個又はそれを超える成分を含む）の核酸配列を生成し得る。図１１Ｅは、図１１Ｄからの実装形態例が、末端足場間に組み立てられる、識別子以外の非標的核酸配列にどのように繋がり得るかを示す。適切な識別子は、末端で同じプライマー結合部位を共有するため、ＰＣＲを用いて非標核酸配列から単離することができない。しかしながら、この例では、ＤＮＡサイズ選択（例えば、ゲル抽出を用いた）を実施して、標的識別子（例えば、上から２番目の配列）を非標的配列から単離し得、なぜなら、組み立てられた各核酸配列は、一意の長さを有するように設計することができる（例えば、全成分が同じ長さを有する場合）ためである。サイズ選択については、化学的方法セクションＥを参照されたい。図１１Ｆは、反復成分を有する識別子の構築が、等しい末端配列を有するが、異なる長さを有する複数の核酸配列を同じ反応で生成し得る別の例を示す。この方法では、ある層における成分を別の層における成分と交互パターンに組み立てる鋳型を使用し得る。図１１Ｅに示す方法と同様に、サイズ選択を使用して、設計された長さの識別子を選択し得る。図１１Ｇは、反復成分を有する識別子の構築が、等しい末端配列を有すると共に、幾つかの核酸配列（例えば、上から３番目及び４番目並びに上から６番目及び７番目）で等しい長さを有する複数の核酸配列を生成し得る一例を示す。この例では、等しい長さを共有する核酸配列は、ＰＣＲ及びＤＮＡサイズ選択が実施される場合でも、他方も構築せずに一方を構築することが可能ではないことがあるため、両方とも個々の識別子であることから除外することができる。

[00125] 図１２Ａ～図１２Ｄは、より大きい数Ｍ個の可能な成分の中から任意の数Ｋ個の組み立てられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための、「MchooseK方式」と呼ばれる方法の一例を概略的に示す。図１２Ａは、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。この方法を使用する場合、識別子は、全層の任意のサブセット内の各層から１つの成分を組み立てる（例えば、Ｍ個の可能な層からのｋ個の層からの成分を選択する）ことにより構築される。図１２Ｂは、MchooseK方式を使用して構築し得る識別子の組合せ空間の一例を示す。この組立て方式では、組合せ空間は、Ｍ個の層、１層当たりＮ個の成分及び識別子長がＫ個の成分である場合、Ｎ^ＫMchooseK個の可能な識別子を含み得る。一例では、各々が１つの成分を含む５個の層がある場合、各々が２個の成分を含む別個の識別子を最大１０個組み立てることができる。

[00126] MchooseK方式は、図１２Ｃに示すように、鋳型指向ライゲーション（化学的方法セクションＢを参照されたい）を使用して実施され得る。順列方式でのＴＤＬ実施（図１１Ｃ）と同様に、この例において、成分は、反応マスタミックスに含まれても又は含まれなくてもよい末端足場間に組み立てられる。成分は、Ｍ個の層、例えば予め規定されたランク２からＭを有するＭ＝４個の層に分けることができ、左末端足場は、ランク１であり得、右末端足場は、ランクＭ＋１であり得る。鋳型は、低ランクから高ランクをそれぞれ有する任意の２つの成分の３’から５’ライゲーションのための核酸配列を含む。（（Ｍ＋１）^２＋Ｍ＋１）／２個のそのような鋳型がある。別個の層からの任意のＫ個の成分の個々の識別子は、Ｋ個の成分を共にそれらのランクの順序で末端足場と一緒にするために使用される対応するＫ＋１個のステープルを用いて、ライゲーション反応でそれらの選択された成分を組み合わせることにより構築され得る。そのような反応の準備は、末端足場間の標的識別子に対応する核酸配列をもたらし得る。代替的に、全鋳型を含む反応ミックスを選択された成分と組み合わせて標的識別子を組み立て得る。この代替の方法は、図１２Ｄに示すように、同じ末端配列を有するが、別個の長さ（全成分長が等しい場合）を有する種々の核酸配列を生成し得る。標的識別子（下部）は、サイズにより副産物核酸配列から単離され得る。核酸サイズ選択については、化学的方法セクションＥを参照されたい。

[00127] 図１３Ａ及び図１３Ｂは、区画化された成分を有する識別子を構築するための、「区画方式」（partition scheme）と呼ばれる方法の一例を概略的に示す。図１３Ａは、区画方式を使用して構築し得る識別子の組合せ空間の一例を示す。個々の識別子は、異なる層の任意の２つの成分間に任意の区画（特別に成分として分類される）が任意選択的に配置された状態で、各層からの１つの成分を固定の順序で組み立てることにより構築され得る。例えば、成分のセットは、１つの区画成分と、各々が１つの成分を含む４個の層とに編成され得る。各層からの１つの成分を固定の順序で組み合わせ得、単一の区画成分を層間の種々の場所に組み立て得る。この組合せ空間内の識別子は、区画成分なし、第１及び第２の層からの成分間の区画成分、第２の層及び第３の層からの成分間の区画等を含み、８個の可能な識別子の組合せ空間を作り出す。一般に、各々がＮ個の成分を有するＭ個の層及びｐ個の区画成分を用いる場合、構築し得るＮ^Ｋ（ｐ＋１）^Ｍ－１個の可能な識別子が存在する。この方法は、種々の長さの識別子を生成し得る。

[00128] 図１３Ｂは、鋳型指向ライゲーション（化学的方法セクションＢを参照されたい）を使用した区画方式の一実装形態例を示す。鋳型は、Ｍ個の層の各々からの１つの成分を一緒に固定の順序でライゲーションするための核酸配列を含む。各区画成分において、区画成分が任意の２つの隣接層からの成分間にライゲーションできるようにする追加の鋳型対が存在する。例えば、一対のうちの一方の鋳型（例えば、配列ｇ^＊ｂ^＊（５’から３’）を有する）は、層１（配列ｂを有する）の３’末端を区画成分（配列ｇを有する）の５’末端にライゲーションできるようにし、一対のうちの第２の鋳型（配列ｃ^＊ｈ^＊（５’から３’）を有する）は、区画成分（配列ｈを有する）の３’末端を層２（配列ｃを有する）の５’末端にライゲーションできるようにするような一対の鋳型である。隣接する層の任意の２つの成分間に区画を挿入するために、それらの層を一緒にライゲーションするための標準鋳型は、反応において除外され得、その位置における区画をライゲーションするために鋳型対は、反応において選択され得る。本例では、層１と層２との間の区画成分の標的化は、鋳型ｃ^＊ｂ^＊（５’から３’）ではなく、鋳型ｃ^＊ｈ^＊（５’から３’）及びｇ^＊ｂ^＊（５’から３’）の対を使用して反応に向けて選択され得る。成分は、反応ミックスに含まれ得る（第１及び第Ｍの層にそれぞれライゲーションするための対応する鋳型と共に）末端足場間に組み立て得る。一般に、Ｍ個の層及びｐ個の区画成分の場合、総じてＭ－１＋２^＊ｐ^＊（Ｍ－１）個前後の選択可能な鋳型を使用し得る。区画方式のこの実装形態は、同じ末端配列を有するが、別個の長さを有する種々の核酸配列を反応で生成し得る。標的識別子は、ＤＮＡサイズ選択により副産物核酸配列から単離され得る。具体的には、厳密にＭ個の層成分を有する厳密に１つの核酸配列産物が存在し得る。層成分が区画成分と比べて十分に大きく設計される場合、普遍的なサイズ選択領域を画定することが可能であり得、それにより特定の識別子内の成分の特定の区画化を問わず、識別子を選択する（及び非標的副産物を選択しない）ことができ、それにより複数の反応からの複数の区画化された識別子を同じサイズ選択ステップで単離することが可能である。核酸サイズ選択については、化学的方法セクションＥを参照されたい。

[00129] 図１４Ａ及び図１４Ｂは、幾つかの可能な成分から任意の成分列で構成された識別子を構築するための、「非制約列方式」（unconstrained string）又は「ＵＳＳ」と呼ばれる方法の一例を概略的に示す。図１４Ａは、非制約列方式を使用して構築し得る３成分（又は４足場）長の識別子の組合せ空間の一例を示す。非制約列方式は、各々が１つ又は複数の層からとられた１つ又は複数の別個の成分を用いて成分Ｋ個分の長さの個々の識別子を構築し、別個の各成分は、識別子内のＫ個の成分位置のいずれかに出現することができる（反復が許容される）。例えば、各々が１つの成分を含む２個の層の場合、８個の可能な３成分長識別子が存在する。一般に、各々が１つの成分を含むＭ個の層を用いる場合、成分Ｋ個の分の長さのＭ^Ｋ個の可能な識別子が存在する。図１４Ｂは、鋳型指向ライゲーション（化学的方法セクションＢを参照されたい）を使用した非制約列方式の一実装形態例を示す。この方法では、Ｋ＋１個の１本鎖の順序付き足場ＤＮＡ成分（２つの末端足場及びＫ－１個の内部足場を含む）が反応ミックスに存在する。個々の識別子は、隣接する足場のあらゆる対間にライゲーションされた単一の成分を含む。例えば、足場Ａ及びＢ間にライゲーションされた成分であり、足場Ｃ及びＤ間にライゲーションされた成分及びＫ個の全ての隣接する足場接合部が成分で占められるようになるまで以下同様である。反応において、異なる層から選択された成分は、適切な足場に組み立てられるように誘導する選択されたステープル対と共に足場に導入される。例えば、ステープル対ａ^＊Ｌ^＊（５’から３’）及びＡ^＊ｂ^＊（５’から３’）は、５’末端領域「ａ」及び３’末端領域「ｂ」を有する層１成分をＬ足場とＡ足場との間にライゲーションするように誘導する。一般に、Ｍ個の層及びＫ＋１個の足場がある場合、長さＫの任意のＵＳＳ識別子を構築するために２^＊Ｍ^＊Ｋ個の選択可能なステープルを使用し得る。５’末端上の足場に成分を接続するステープルは、同じ成分を３’末端上の足場に接続するステープルから分離されているため、標的識別子と等しい末端足場を有するが、Ｋ個未満の成分（Ｋ未満＋１個の足場）又はＫ個よりも多数の成分（Ｋ超＋１個の足場）を有する核酸副産物が反応で形成される可能性がある。標的識別子は、厳密にＫ個の成分を形成し得（Ｋ＋１個の足場）、したがって全成分が同じ長さであるように設計され、全足場が同じ長さであるように設計される場合、ＤＮＡサイズ選択のような技法を通して選択可能であり得る。核酸サイズ選択については、化学的方法セクションＥを参照されたい。１層につき１つの成分が存在し得る非制約列方式の特定の実施形態では、その成分は、（１）識別バーコード、（２）足場への５’末端のステープル仲介ライゲーションのハイブリダイゼーション領域、及び（３）足場への３’末端のステープル仲介ライゲーションのハイブリダイゼーション領域の３つ全ての役割を果たす単一の別個の核酸配列のみを含み得る。

[00130] 図１４Ｂに示す内部足場は、成分への足場のステープル仲介５’ライゲーション及び別の（必ずしも別個であるわけではない）成分への足場のステープル仲介３’ライゲーションの両方に同じハイブリダイゼーション配列を使用するように設計され得る。したがって、図１４Ｂに示す１足場２ステープル積層ハイブリダイゼーションイベントは、足場とステープルの各々との間で生じる統計学的な前後ハイブリダイゼーションイベントを表し、したがって５’成分ライゲーション及び３’成分ライゲーションの両方を可能にする。非制約列方式の他の実施形態では、足場に２つの連結されたハイブリダイゼーション領域－ステープル仲介３’ライゲーションに別個の３’ハイブリダイゼーション領域及びステープル仲介５’ライゲーションに別個の５’ハイブリダイゼーション領域－を設計し得る。

[00131] 図１５Ａ及び図１５Ｂは、親識別子から核酸配列（又は成分）を削除することにより識別子を構築するための、「成分削除方式」（component deletion）と呼ばれる方法の一例を概略的に示す。図１５Ａは、成分削除方式を使用して構築し得る可能な識別子の組合せ空間の一例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約２個以上、３個以上、４個以上、５個以上、６個以上、７個以上、８個以上、９個以上、１０個以上、２０個以上、３０個以上、４０個以上、５０個以上又はそれよりも多くの成分を含み得る。個々の識別子は、Ｎ個の可能な成分から任意の数の成分を選択的に削除し、サイズ２^Ｎの「完全」組合せ空間にすることにより又はＮ個の可能な成分から一定数Ｋ個の成分を削除し、それによりサイズNchooseKの「NchooseK」組合せ空間にすることにより構築され得る。３個の成分を有する親識別を用いる一例では、完全組合せ空間は、８であり得、3choose2組合せ空間は、３であり得る。

[00132] 図１５Ｂは、２本鎖標的開裂及び修復（Double Stranded Targeted Cleavage）（ＤＳＴＣＲ）を使用した成分削除方式の一実装形態例を示す。親配列は、ヌクレアーゼ特異的標的部位（塩基４個以下の長さであり得る）に隣接する成分を含む１本鎖ＤＮＡ基質であり得、親は、標的部位に対応する１つ又は複数の２本鎖特異的ヌクレアーゼを用いてインキュベートすることができる。個々の成分は、親の成分ＤＮＡ（及び隣接するヌクレアーゼ部位）に結合する相補的な１本鎖ＤＮＡ（又は開裂鋳型）を用いて削除に向けて標的化することができ、したがってヌクレアーゼにより両方の末端で開裂し得る安定した２本鎖配列を親に形成し得る。別の１本鎖ＤＮＡ（又は修復鋳型）は、親の結果として生成された分離された末端（それらの間に成分配列が存在していた）にハイブリダイズし、親上のライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように、直接又は置換配列により架橋されて、ライゲーションに向けてそれらを一緒にする。この方法を「２本鎖標的開裂」（ＤＳＴＣ）と呼ぶ。サイズ選択を使用して、特定の数の成分が削除された識別子を選択し得る。核酸サイズ選択については、化学的方法セクションＥを参照されたい。

[00133] 代わりに又は加えて、親識別子は、２つの成分が同じ配列に隣接しないようにスペーサ配列で隔てられた成分を含む２本鎖又は１本鎖核酸基質であり得る。親識別子は、Ｃａｓ９ヌクレアーゼを用いてインキュベートされ得る。個々の成分は、成分の末端に結合し、その隣接部位でのＣａｓ９仲介開裂を可能にするガイドリボ核酸（開裂鋳型）を用いて削除の標的とされ得る。その結果生成された親識別子の分離末端（例えば、成分配列があった末端間）に１本鎖核酸（修復鋳型）をハイブリダイズし、それによりライゲーションに向けてそれらを一緒にし得る。ライゲーションは、直接又は親上のライゲーションされた配列が、Ｃａｓ９により標的とすることができるスペーサ配列をもはや含まないように置換配列を用いて末端を架橋することにより行うことができる。この方法を「配列特異的標的開裂及び修復」（Sequence Specific Targeted Cleavage and Repair）又は「ＳＳＴＣＲ」と呼ぶ。

[00134] 識別子は、ＤＳＴＣＲの派生物を使用して成分を親識別子に挿入することにより構築され得る。親識別子は、各々が別個の核酸配列内に組み込まれたヌクレアーゼ特異的標的部位（塩基４個分以下の長さであり得る）を含む１本鎖核酸基質であり得る。親識別子は、標的部位に対応する１つ又は複数の２本鎖特異的ヌクレアーゼを用いてインキュベートされ得る。親識別子上の個々の標的部位は、標的部位と親識別子上の別個の周囲核酸配列とを結合し、したがって２本鎖部位を形成する相補的な１本鎖核酸（開裂鋳型）を用いて成分挿入の標的とされ得る。２本鎖部位は、ヌクレアーゼにより開裂され得る。その結果として生成された親識別子の分離末端に別の１本鎖核酸（修復鋳型）をハイブリダイズして、ライゲーションに向けて一緒にそれらを一緒にし、親上のライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように成分配列により架橋し得る。代替的に、ＳＳＴＣＲの派生物を使用して、成分を親識別子に挿入し得る。親識別子は、２本鎖又は１本鎖核酸であり得、親は、Ｃａｓ９ヌクレアーゼを用いてインキュベートされ得る。親識別子上の別個の部位は、ガイドＲＮＡ（開裂鋳型）を用いた開裂の標的にされ得る。１本鎖核酸（修復鋳型）を親識別子の分離末端にハイブリダイズして、ライゲーションに向けてそれらを一緒にし、親識別子にライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように成分配列により架橋し得る。サイズ選択を使用して、特定の数の成分挿入を有する識別子を選択し得る。

[00135] 図１６は、リコンビナーゼ認識部位を有する親識別子を概略的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識することができる。リコンビナーゼの所与のセットの全ての認識部位は、リコンビナーゼが適用された場合、それらの間の核酸を切除し得るように配置される。図１６に示す核酸鎖は、適用されるリコンビナーゼのサブセットに応じて２^５＝３２個の異なる配列を採用することができる。幾つかの実施形態では、図１６に示すように、リコンビナーゼを使用してＤＮＡのセグメントを切除、シフト、反転及び転置し、異なる核酸分子を作成して、一意の分子を生成することができる。一般に、Ｎ個のリコンビナーゼを用いる場合、親から２^Ｎ個の可能な識別子を構築することができる。幾つかの実施形態では、１つのリコンビナーゼの適用が、下流リコンビナーゼが適用されるときに生じる組換えイベントのタイプに影響を及ぼすように、異なるリコンビナーゼからの認識部位の複数の直交対を重複して親識別子上に配置し得る（Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたく、これは、全体的に参照により本明細書に援用される）。そのようなシステムは、Ｎ個のリコンビナーゼのあらゆる順序付けＮ！に対して異なる識別子を構築することが可能であり得る。リコンビナーゼは、Ｆｌｐ及びＣｒｅ等のチロシンファミリ又はＰｈｉＣ３１、ＢｘｂＩ、ＴＰ９０１若しくはＡ１１８等の大型セリンリコンビナーゼファミリのものであり得る。大型セリンリコンビナーゼファミリからのリコンビナーゼの使用は、不可逆的組換えを促進し、したがって他のリコンビナーゼよりも効率的に識別子を生成し得るために有利であり得る。

[00136] 幾つかの事例では、多くのリコンビナーゼを別個の順序で適用することにより、多くの別個の核酸配列になるように単一の核酸配列をプログラムすることができる。リコンビナーゼ数Ｍが大型セリンリコンビナーゼファミリで７以下であり得る場合、Ｍ個のリコンビナーゼを異なるサブセット及び順序で適用することにより、およそ約ｅ^１Ｍ！個の別個の核酸配列を生成し得る。リコンビナーゼ数Ｍが７よりも大きい値であり得る場合、生成することができる配列数は、およそ３．９^Ｍである。例えば、Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたく、これは、全体的に参照により本明細書に援用される。１つの共通配列から異なる複数のＤＮＡ配列を生成する追加の方法は、ＣＲＩＳＰＲ－Ｃａｓ、ＴＡＬＥＮＳ及びジンクフィンガーヌクレアーゼ等の標的核酸編集酵素を含み得る。リコンビナーゼ、標的編集酵素等により生成された配列は、先の方法のいずれとも、例えば本願における図及び開示のいずれで開示される方法とも併用することができる。

[00137] 符号化すべき情報のビットストリームが、任意の単一の核酸分子により符号化することができるよりも大きい場合、情報を分割し、核酸配列バーコードで索引付けることができる。さらに、log₂（Nchoosek）ビットの情報を生成するために、Ｎ個の核酸分子のセットからのサイズｋの核酸分子の任意のサブセットを選択することができる。バーコードは、サイズｋのサブセット内の核酸分子に組み付けて、さらに長いビットストリームを符号化することができる。例えば、Ｍ個のバーコードを使用して、M^*log₂（Nchoosek）ビットの情報を生成し得る。セット内の利用可能な核酸分子数Ｎ及び利用可能なバーコード数Ｍを所与として、情報を符号化するためのプール内の分子の総数を最小化するために、サイズｋ＝ｋ_０のサブセットを選択し得る。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、６ビットを含むビットストリームは、各々が２ビットを含む３個の成分に分割することができる。各２ビット成分にバーコードを付して情報カセットを形成することができ、一緒にグループ化又はプールして、情報カセットのハイパープールを形成することができる。

[00138] バーコードは、符号化すべきデジタル情報量が、１つのプールのみに入れることができる量を超える場合、情報の索引付けを促進することができる。より長いビット列及び／又は複数のバイトを含む情報は、例えば、核酸索引を使用して符号化された一意の核酸配列を有するタグを含むことにより、図３に開示する手法を層化することにより符号化することができる。情報カセット又は識別子ライブラリは、所与の配列が対応するビットストリームの１つ又は複数の成分を示すバーコード又はタグに加えて、場所及びビット値情報を提供する一意の核酸配列を含む窒素塩基又は核酸配列を含み得る。情報カセットは、１つ又は複数の一意の核酸配列及びバーコード又はタグを含み得る。情報カセット上のバーコード又はタグは、情報カセット及び情報カセットに含まれる任意の配列の参照を提供することができる。例えば、情報カセット上のタグ又はバーコードは、一意の配列が情報（例えば、ビット値及びビット位置情報）を符号化するのがビットストリームのいずれの部分又はビットストリームのいずれのビット成分であるかを示すことができる。

[00139] バーコードを使用して、可能な識別子の組合せ空間のサイズよりもビット単位で多くの情報をプールに符号化することができる。例えば、１０ビットの配列は、バイトの２セットに分けることができ、各バイトは、５ビットを含む。各バイトは、５個の可能な別個の識別子のセットにマッピングすることができる。最初に、各バイトに生成される識別子は、同じであり得るが、別個のプールに保持することができ、そうでなければ、情報を読み取っている人は、特定の核酸配列が属するバイトを見分けることができない可能性がある。しかしながら、各識別子に、符号化された情報が適用されるバイトに対応するラベルをバーコード付け又はタグ付けすることができ（例えば、最初の５ビットを提供する核酸プール内の配列にバーコード１を取り付け得、次の５ビットを提供する核酸プール内の配列にバーコード１を取り付け得る）、次いでこれらの２つのバイトに対応する識別子を組み合わせて１つのプール（例えば、「ハイパープール」又は１つ若しくは複数の識別子ライブラリ）に入れることができる。１つ又は複数の組み合わされた識別子ライブラリのうちの各識別子ライブラリは、所与の識別子ライブラリに属するものとして所与の識別子を識別する別個のバーコードを含み得る。バーコードを識別子ライブラリ内の各ライブラリに追加する方法は、ＰＣＲ、ギブソン、ライゲーション又は所与のバーコード（例えば、バーコード１）が所与の核酸サンプルプールに取り付けられる（例えば、バーコード１を核酸サンプルプール１に取り付け、バーコード２を核酸サンプルプール２に取り付ける）ようにする任意の他の手法を使用することを含み得る。ハイパープールからのサンプルは、シーケンシング法を用いて読み取ることができ、シーケンシング情報はバーコード又はタグを使用して解析することができる。Ｍ個のバーコード及びＮ個の可能な識別子（組合せ空間）のセットを有する識別子ライブラリ及びバーコードを使用する方法は、ＭとＮとの積に等しい長さを有するビットストリームを符号化することができる。

[00140] 幾つかの実施形態では、識別子ライブラリは、ウェルのアレイに格納され得る。ウェルのアレイは、ｎ列及びｑ行を有するものとして規定され得、各ウェルは、２つ以上の識別子ライブライをハイパープール内に含み得る。各ウェルで符号化される情報は、各ウェルに含まれる情報よりも大きいサイズｎ×ｑの情報の１つの大きい連続項目を構成し得る。ウェルのアレイ内のウェルの１つ又は複数からアリコートをとることができ、シーケンシング、ハイブリダイゼーション又はＰＣＲを使用して符号化を読み取ることができる。

[00141] 核酸サンプルプール、ハイパープール、識別子ライブラリ、識別子ライブラリのグループ又は核酸サンプルプール若しくはハイパープールを含むウェルは、情報のビットに対応する一意の核酸分子（例えば、識別子）と、複数の補足の核酸配列とを含み得る。補足の核酸配列は、符号化されたデータに対応しない（例えば、ビット値に対応しない）場合がある。補足の核酸サンプルは、サンプルプールに格納された情報をマスキング又は暗号化し得る。補足の核酸配列は、生物学的ソースから導出され得るか又は合成して生成され得る。生物学的ソースから導出された補足の核酸配列は、ランダムに断片化された核酸配列又は合理的に断片化された配列を含み得る。特に合成的に符号化された情報（例えば、識別子の組合せ空間）が天然遺伝情報（例えば、断片化されたゲノム）に類似するように作られる場合、生物学的に導出された補足の核酸は、天然遺伝情報を合成的に符号化された情報と共に提供することにより、サンプルプール内のデータ含有核酸を隠すか又は不明瞭化し得る。一例では、識別子は、生物学的ソースから導出され、補足の核酸は、生物学的ソースから導出される。サンプルプールは、識別子及び補足の核酸配列の複数のセットを含み得る。識別子及び補足の核酸配列の各セットは、異なる有機体から導出され得る。一例では、識別子は、１つ又は複数の有機体から導出され、補足の核酸配列は、単一の異なる有機体から導出される。補足の核酸配列は、１つ又は複数の有機体から導出され得、識別子は、補足の核酸の導出元である有機体と異なる単一の有機体から導出され得る。識別子及び補足の核酸配列の両方は、複数の異なる有機体から導出され得る。鍵を使用して、識別子を補足の核酸配列から区別し得る。

[00142] 補足の核酸配列は、書き込まれたデータについてのメタデータを格納し得る。メタデータは、元情報のソース及び／又は元情報の意図される受信者を特定及び／又は認証するための追加情報を含み得る。メタデータは、元情報の形式、元情報の符号化及び書込みに使用される機器及び方法並びに元情報を識別子に書き込む日時についての追加情報を含み得る。メタデータは、元情報の形式、元情報の符号化及び書込みに使用される機器及び方法並びに元情報を核酸配列に書き込む日時についての追加情報を含み得る。メタデータは、情報を核酸配列に書き込んだ後に元情報に対して行われた改変についての追加情報を含み得る。メタデータは、元情報へのアノテーション又は外部情報への１つ若しくは複数の参照を含み得る。代わりに又は加えて、メタデータは、識別子に取り付けられた１つ又は複数のバーコード又はタグに格納され得る。

[00143] 識別子プール内の識別子は、互いに同じ、同様の又は異なる長さを有し得る。補足の核酸配列は、識別子の長さよりも短い、略等しい又はより長い長さを有し得る。補足の核酸配列は、識別子の平均長さの１塩基以内、２塩基以内、３塩基以内、４塩基以内、５塩基以内、６塩基以内、７塩基以内、８塩基以内、９塩基以内、１０塩基以内又はより多くの塩基以内の平均長さを有し得る。一例では、補足の核酸配列は、識別子と同じ又は略同じ長さである。補足の核酸配列の濃度は、識別子ライブラリ内の識別子の濃度よりも低い、略同じ又は高い値であり得る。補足の核酸の濃度は、識別の濃度の約１％以下、約１０％以下、約２０％以下、約４０％以下、約６０％以下、約８０％以下、約１００、％以下、約１２５％以下、約１５０％以下、約１７５％以下、約２００％以下、約１０００％以下、約１×１０^４％以下、約１×１０^５％以下、約１×１０^６％以下、約１×１０^７％以下、約１×１０^８％以下であり得る。補足の核酸の濃度は、識別子の濃度の約１％以上、約１０％以上、約２０％以上、約４０％以上、約６０％以上、約８０％以上、約１００、％以上、約１２５％以上、約１５０％以上、約１７５％以上、約２００％以上、約１０００％以上、約１×１０^４％以上、約１×１０^５％以上、約１×１０^６％以上、約１×１０^７％以上、約１×１０^８％以上であり得る。濃度が高いほど、データを不明瞭化するか又は隠すのに有利であり得る。一例では、補足の核酸配列の濃度は、識別子プール内の識別子の濃度よりもはるかに大きい（例えば、１×１０^８％大きい）。

核酸配列に格納されたデータのコピー及びアクセスを行う方法
[00144] 別の態様において、本開示は、核酸配列に符号化された情報をコピーする方法を提供する。核酸配列に符号化された情報をコピーする方法は、（ａ）識別子ライブラリを提供することと、（ｂ）識別子ライブラリの１つ又は複数のコピーを構築することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子の個々の各識別子は、記号列中の個々の記号に対応し得る。識別子は、１つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。

[00145] 別の態様において、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、（ａ）識別子ライブラリを提供することと、（ｂ）識別子ライブラリから、識別子ライブラリに存在する識別子の一部分又はサブセットを抽出することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別の個々の各識別子は、記号列中の個々の記号に対応し得る。識別子は、１つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。

[00146] 情報は、本明細書の他の箇所に記載のように、１つ又は複数の識別子ライブラリに書き込まれ得る。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築され得る。格納されたデータは、ある識別子ライブラリ内又は１つ若しくは複数の識別子ライブラリ内の個々の識別子のコピーを生成することによりコピーされ得る。識別子の一部分又はライブラリ全体をコピーし得る。コピーは、識別子ライブラリ内の識別子を増幅することにより実行され得る。１つ又は複数の識別子ライブラリが組み合わされる場合、単一の識別子ライブラリ又は複数の識別子ライブラリをコピーし得る。識別子ライブラリが補足の核酸配列を含む場合、補足の核酸配列は、コピーされても又はされなくてもよい。

[00147] 識別子ライブラリ内の識別子は、１つ又は複数の共通プライマー結合部位を含むように構築され得る。１つ又は複数の結合部位は、各識別子の末端にあり得るか又は各識別子全体に織り交ぜられ得る。プライマー結合部位は、識別子ライブラリ特異的プライマー対又は普遍的プライマー対が識別子に結合し、増幅できるようにされ得る。ある識別子ライブラリ内の全ての識別子又は１つ若しくは複数の識別子ライブラリ内の全ての識別子は、複数のＰＣＲサイクルにより複数回複製され得る。従来のＰＣＲを使用して識別子をコピーし得、識別子は、各ＰＣＲサイクルで指数的に複製され得る。識別子のコピー数は、各ＰＣＲサイクルに伴って指数的に増大し得る。線形ＰＣＲを使用して識別子をコピーし得、識別子は、各ＰＣＲサイクルで線形に複製され得る。識別子のコピー数は、各ＰＣＲサイクルに伴って線形に増大し得る。識別子は、ＰＣＲ増幅前に循環ベクターにライゲーションされ得る。循環ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのＰＣＲプライマーは、バーコードが付された末端が識別子と共に増幅産物内に含まれるようにベクターをプライミングするように設計され得る。増幅中、識別子間の組換えにより、各末端に非相関バーコードを含む識別子がコピーされることになり得る。非相関バーコードは、識別子読取り時に検出可能であり得る。非相関バーコードを含む識別子は、偽陽性とみなすことができ、情報復号化プロセス中に無視され得る。化学的方法セクションＤを参照されたい。

[00148] 情報は、情報の各ビットを一意の核酸分子に割り当てることにより符号化され得る。例えば、各々が２つの核酸配列を含む３つのサンプルセット（Ｘ、Ｙ及びＺ）は、組み立てて８つの一意の核酸分子にし得、８ビットのデータを復号化し得る。
Ｎ１＝Ｘ１Ｙ１Ｚ１
Ｎ２＝Ｘ１Ｙ１Ｚ２
Ｎ３＝Ｘ１Ｙ２Ｚ１
Ｎ４＝Ｘ１Ｙ２Ｚ２
Ｎ５＝Ｘ２Ｙ１Ｚ１
Ｎ６＝Ｘ２Ｙ１Ｚ２
Ｎ７＝Ｘ２Ｙ２Ｚ１
Ｎ８＝Ｘ２Ｙ２Ｚ２
次いで、列中の各ビットを対応する核酸分子に割り当て得る（例えば、Ｎ１は、１番目のビットを指定し得、Ｎ２は、２番目のビットを指定し得、Ｎ３は、３番目のビットを指定し得る等である）。ビット列全体は、核酸分子の組合せに割り当てられ得、ビット値「１」に対応する核酸分子は、組合せ又はプールに含まれる。例えば、ＵＴＦ－８コーディングでは、文字「Ｋ」は、８ビット列コード０１００１０１１によって表され得、これは、４つの核酸分子（例えば、上記例におけるＸ１Ｙ１Ｚ２、Ｘ２Ｙ１Ｚ１、Ｘ２Ｙ２Ｚ１及びＸ２Ｙ２Ｚ２）の存在により符号化され得る。

[00149] 情報には、シーケンシング又はハイブリダイゼーションアッセイを通してアクセスし得る。例えば、プライマー又はプローブは、核酸配列の共通領域又はバーコード付き領域に結合するように設計され得る。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物は、増幅産物をシーケンシングするか又はハイブリダイゼーションアッセイにより読み取られ得る。文字「Ｋ」を符号化する上記例では、データの最初の半分に関心がある場合、Ｘ１核酸配列のバーコード領域に特異的なプライマー及びＺセットの共通領域に結合するプライマーを使用して核酸分子を増幅し得る。これは、配列Ｙ１Ｚ２を返し得、配列Ｙ１Ｚ２は、０１００を符号化し得る。そのデータの部分列にも、Ｙ１核酸配列のバーコード領域に結合するプライマー及びＺセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することによりアクセスし得る。これは、Ｚ２核酸配列を返し得、Ｚ２核酸配列は、部分列０１を符号化する。代替的に、データには、シーケンシングなしで特定の核酸配列の有無をチェックすることによりアクセスし得る。例えば、Ｙ２バーコードに特異的なプライマーを用いた増幅は、Ｙ２バーコードの増幅産物を生成し得るが、Ｙ１バーコードの増幅産物を生成しない。Ｙ２増幅産物の存在は、ビット値「１」を伝達し得る。代替的に、Ｙ２増幅産物の不在は、ビット値「０」を伝達し得る。

[00150] ＰＣＲベースの方法は、識別子又は核酸サンプルプールからのデータにアクセスし、及び識別子又は核酸サンプルプールからのデータをコピーするために使用することができる。プール又はハイパープール内で識別子に隣接する共通プライマー結合部位を使用して、情報を含む核酸を容易にコピーすることができる。代替的に、サンプルプール又はハイパープール（例えば、識別子ライブラリ）からのデータを容易にコピーするために、等温増幅等の他の核酸増幅手法を使用することも可能である。核酸増幅については、化学的方法セクションＤを参照されたい。サンプルがハイパープールを含む場合、順方向においての一方の末端における特定のバーコードを識別子に結合するプライマーを、逆方向において識別子の反対の末端上の共通配列に結合する別のプライマーと共に使用することにより、情報の特定のサブセット（例えば、特定のバーコードに関連する全ての核酸）にアクセスし、検索することができる。種々の読取り方法を使用して、符号化された核酸から情報を引き出すことができる。例えば、マイクロアレイ（又は任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量化ＰＣＲ（ｑＰＣＲ）及び種々のシーケンシングプラットフォームをさらに使用して、符号化された配列、したがってデジタル符号化されたデータを読み取ることができる。

[00151] 核酸分子（例えば、識別子）に格納された情報へのアクセスは、非標的識別子の部分を識別子ライブラリ若しくは識別子のプールから選択的に除去するか、又は例えば複数の識別子ライブラリのプールからある識別子ライブラリの全ての識別子を選択的に除去することにより実行され得る。本明細書で使用する場合、「アクセス」及び「問い合わせ」（クエリ）は、同義で使用することができる。データへのアクセスは、識別子ライブラリ又は識別子のプールから標的識別子を選択的に捕捉することにより実行することもできる。標的識別子は、情報のより大きい項目内の関心のあるデータに対応し得る。識別子のプールは、補足の核酸分子を含み得る。補足の核酸分子は、符号化された情報についてのメタデータを含み得るか、又は情報に対応する識別子の暗号化若しくはマスキングに使用され得る。補足の核酸分子は、標的識別子にアクセスしている間に抽出されても又はされなくてもよい。図１７Ａ～図１７Ｃは、より多数の識別子からの幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の部分にアクセスする方法例の全体像を概略的に示す。図１７Ａは、ポリメラーゼ連鎖反応、アフィニティタグ付きプローブ及び分解標的プローブを使用して、指定された成分を含む識別子にアクセスする方法例を示す。ＰＣＲベースのアクセスの場合、識別子のプール（例えば、識別子ライブラリ）は、各末端に共通配列、各末端に可変配列又は各末端に共通配列若しくは可変配列の一方を有する識別子を含み得る。共通配列又は可変配列は、プライマー結合部位であり得る。１つ又は複数のプライマーは、識別子末端の共通又は可変領域に結合し得る。結合されたプライマーを有する識別子は、ＰＣＲにより増幅され得る。増幅される識別子は、増幅されない識別子よりもかなり多い。読取り中、増幅された識別子を識別し得る。識別子ライブラリからの識別子は、そのライブラリに特有の配列を両方の末端の一方又は両方に含み得、したがって２つ以上の識別子ライブラリのプール又はグループから単一のライブラリに選択的にアクセスできるようにする。

[00152] アフィニティタグベースのアクセス、即ち核酸捕捉と呼ぶことができるプロセスの場合、プール内の識別子を構成する成分は、１つ又は複数のプローブと相補性を共有し得る。１つ又は複数のプローブは、アクセスすべき識別子に結合又はハイブリダイズされ得る。プローブは、アフィニティタグを含み得る。アフィニティタグは、膜、ウェル、カラム又はビーズ等の固相物質上に捕捉され得る。固相物質としてビーズを使用する場合、アフィニティタグは、ビーズと結合し得、ビーズ、少なくとも１つのプローブ及び少なくとも１つの識別子を含む複合体を生成し得る。ビーズは、磁性であり、磁石と一緒であり得、アクセスすべき識別子を収集及び分離し得る。識別子は、読取り前に変性条件下でビーズから取り外され得る。代わりに又は加えて、ビーズは、非標的識別子を収集し、洗浄されて別個の容器に入り読み取ることができるプールの残りの部分から非標的識別子を隔離し得る。カラムを使用する場合、アフィニティタグは、カラムに結合し得る。アクセスすべき識別子は、捕捉のためにカラムに結合し得る。カラムに結合した識別子は、続けて、読取り前にカラムから溶離又は変性され得る。代替的に、非標的識別子は、カラムに選択的に標的化され得る一方、標的識別子は、カラムを通して流れ得る。固相物質に結合した識別子は、例えば、酸、塩基、酸化、還元、熱、光、金属鉄触媒、変位若しくは脱離の化学的作用又は酵素開裂等の条件に曝されることにより固相物質から取り外され得る。特定の実施形態では、アクセスすべき識別子は、開裂連鎖部分を通して固体担体に付着し得る。例えば、固相物質は、標的識別子への共有結合付着のための開裂連鎖を提供するように官能化され得る。リンカー部分は、原子６個分以上の長さであり得る。幾つかの実施形態では、開裂可能リンカーは、ＴＯＰＳ（１合成当たり２オリゴヌクレオチド）リンカー、アミノリンカー、化学的開裂可能リンカー又は光開裂可能リンカーであり得る。標的識別子へのアクセスは、１つ若しくは複数のプローブを識別子のプールに同時に適用すること又は１つ若しくは複数のプローブを識別のプールに逐次適用することを含み得る。核酸捕捉については、化学的方法セクションＦを参照されたい。

[00153] 分解ベースのアクセスの場合、プール内の識別子を構成する成分は、１つ又は複数の分解標的プローブと相補性を共有し得る。プローブは、識別子上の別個の成分に結合又はハイブリダイズされ得る。プローブは、エンドヌクレアーゼ等の分解酵素の標的であり得る。一例では、１つ又は複数の識別子ライブラリを組み合わせ得る。プローブのセットを識別子ライブラリの１つとハイブリダイズし得る。プローブのセットは、ＲＮＡを含み得、ＲＮＡは、Ｃａｓ９酵素を誘導し得る。Ｃａｓ９酵素は、１つ又は複数の識別子ライブラリに導入し得る。プローブとハイブリダイズされた識別子は、Ｃａｓ９酵素により分解され得る。アクセスすべき識別子は、分解酵素により分解されなくてもよい。別の例では、識別子は、１本鎖であり得、識別子ライブラリは、アクセスされない識別子を選択的に分解させる、Ｓ１ヌクレアーゼ等の１本鎖特異的エンドヌクレアーゼと組み合わされ得る。アクセスすべき識別子は、識別子の相補的なセットとハイブリダイズされて、それらを１本鎖特異的エンドヌクレアーゼによる分解から保護し得る。アクセスすべき識別子は、サイズ選択クロマトグラフィ（例えば、アガロースゲル、電気泳動）等のサイズ選択により分解産物から単離され得る。代わりに又は加えて、分解されない識別子は、分解産物が増幅されないように選択的に増幅され得る（例えば、ＰＣＲを使用して）。非分解識別子は、非分解識別子の各末端にハイブリダイズされ、したがって分解又は開裂した識別子の各末端にハイブリダイズしないプライマーを使用して増幅され得る。

[00154] 図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」又は「ＡＮＤ」演算を実行し、複数の成分を含む識別子にアクセスする方法例を示す。一例では、２つの順方向プライマーが左末端上の識別子の別個のセットに結合する場合、識別子のそれらのセットの和集合の「ＯＲ」増幅は、右末端上の全ての識別子に結合する逆方向プライマーと共に、２つの順方向プライマーを乗算ＰＣＲ反応で一緒に使用することにより達成され得る。別の例では、１つの順方向プライマーが左末端上の識別子のセットに結合し、１つの逆方向プライマーが右末端上の識別子のセットに結合する場合、識別子のそれらの２つのセットの共通部分の「ＡＮＤ」演算は、順方向プライマー及び逆方向プライマーを一緒にプライマー対としてＰＣＲ反応で使用することにより達成され得る。

[00155] 図１７Ｃは、アフィニティタグを使用して「ＯＲ」又は「ＡＮＤ」演算を実行して、複数の成分を含む識別子にアクセスする方法例を示す。一例では、親和性プローブ「Ｐ１」が、成分「Ｃ１」を有する全ての識別子を捕捉し、別の親和性プローブ「Ｐ２」が、成分「Ｃ２」を有する全ての識別子を捕捉する場合、Ｃ１又はＣ２を有する全ての識別子のセットは、Ｐ１及びＰ２を同時に使用する（「ＯＲ」演算に対応する）ことにより捕捉することができる。同じ成分及びプローブを用いる別の例では、Ｃ１及びＣ２を有する全ての識別子のセットは、Ｐ１及びＰ２を逐次使用する（「ＡＮＤ」演算に対応する）ことにより捕捉することができる。

核酸配列に格納された情報を読み取る方法
[00156] 別の態様において、本開示は、核酸配列に格納された情報を読み取る方法を提供する。核酸配列に格納された情報を読み取る方法は、（ａ）識別子ライブラリを提供することと、（ｂ）識別子ライブラリに存在する識別子を識別することと、（ｃ）識別子ライブラリに存在する識別子から記号列を生成することと、（ｄ）記号列から情報をコンパイルすることとを含み得る。識別子ライブラリは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の各識別子は、記号列内の個々の記号に対応し得る。識別子は、１つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。

[00157] 情報は、本明細書の他の箇所に記載のように、１つ又は複数の識別子ライブラリに書き込むことができる。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築され得る。格納されたデータは、本明細書の他の箇所に記載の任意の方法を使用してコピー及びアクセスされ得る。

[00158] 識別子は、符号化された記号の場所、符号化された記号の値又は符号化された記号の場所及び値の両方に関連する情報を含み得る。識別子は、符号化された記号の場所に関連する情報を含み得、識別子ライブラリ内のその識別子の有無は、記号の値を示し得る。識別子ライブラリ内の識別子の存在は、２進列内の第１の記号値（例えば、第１のビット値）を示し得、識別子ライブラリ内の識別子の不在は、２進列内の第２の記号値（例えば、第２のビット値）を示し得る。２進系では、ビット値を識別子ライブラリ内の識別子の有無に基づかせることで、組み立てる識別子の数を低減し得、したがって書込み時間を短縮し得る。一例では、識別子の存在は、マッピングされた場所におけるビット値「１」を示し得、識別子の不在は、マッピングされた場所におけるビット値「０」を示し得る。

[00159] 情報の記号（例えば、ビット値）を生成することは、記号（例えば、ビット）をマッピング又は符号化し得る識別子の有無を識別することを含み得る。識別子の有無を判断することは、現在の識別子をシーケンシングすること又はハイブリダイゼーションアレイを使用して識別子の存在を検出することを含み得る。一例では、符号化された配列の復号化及び読取りは、シーケンシングプラットフォームを使用して実行され得る。シーケンシングプラットフォームの例は、２０１４年１２月１８日付けで米国特許出願公開第２０１４－０３７１１００Ａ１号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」という名称の、２０１４年８月２１日付けで出願された米国特許出願第１４／４６５，６８５号；２０１３年９月５日付けで米国特許出願公開第２０１３－０２３１２５４Ａ１号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」という名称の、２０１３年５月２日付けで出願された米国特許出願第１３／８８６，２３４号；及び２００９年１０月８日付けで米国特許出願公開第２００９－０２５３１４１Ａ１号として公開された、「METHODS AND APPARATUSES FOR ANALYZING POLYNUCLEOTIDE SEQUENCES」という名称の、２００９年３月９日付けで出願された米国特許出願第１２／４００，５９３号に記載されており、これらの各々は、全体的に参照により本明細書に援用される。

[00160] 一例では、核酸符号化されたデータを復号化することは、Illumina（登録商標）シーケンシング等の核酸鎖の塩基毎のシーケンシング又は毛細管電気泳動による断片解析等の特定の核酸配列の有無を示すシーケンシング技法を利用することにより達成され得る。シーケンシングは、可逆的ターミネータの使用により採用され得る。シーケンシングは、天然又は非天然（例えば、工学的に操作された）ヌクレオチド又はヌクレオチド類似体の使用を採用し得る。代わりに又は加えて、核酸配列を復号化することは、限定されないが、光信号、電子化学信号又は化学信号を生成する任意の方法を含め、多様な解析的技法を使用して実行され得る。限定されないが、ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ、サンガーシーケンシング、高スループットシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ライゲーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Illuimna）、次世代シーケンシング、デジタル遺伝子発現（Helicos）、クローナルシングルマイクロアレイ（Solexa）、ショットガンシーケンシング、マキサム－ギルバートシーケンシング又は大規模並列シーケンシングを含め、多様なシーケンシング手法が使用可能である。

[00161] 種々の読取り方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ（又は任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）及び種々のシーケンシングプラットフォームをさらに使用して、符号化された配列及び伸長によりデジタル符号化されたデータを読み取ることができる。

[00162] 識別子ライブラリは、情報についてのメタデータを提供する補足核酸配列、情報を暗号化若しくはマスクする補足核酸配列又はメタデータの提供及び情報のマスクの両方を行う補足核酸配列をさらに含み得る。補足核酸を識別子の識別と同時に識別し得る。代替的に、識別子を識別する前又は識別した後に補足核酸を識別し得る。一例では、補足核酸配列は、符号化された情報の読取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子索引又は鍵を使用して、補足核酸分子と識別子とを差別化し得る。

[00163] より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化及び復号化効率を高め得る。例えば、符号化方法で３つの核酸分子（例えば、識別子）にマッピングされ得る「１１１」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「０００」部分列に再符号化し得る。「０００」の代替入力部分列を「１１１」に再符号化することもできる。この再符号化方法は、データセット中の「１」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させ得る。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させ得る。符号化及び復号化効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「１１１」を「００」に再符号化し得、これは、データセットのサイズを縮小し、データセット中の「１」の数を低減させ得る。

[00164] 検出を容易にするように識別子を特異的に設計することにより、核酸符号化データを復号化する速度及び効率を制御する（例えば、高める）ことができる。例えば、検出を容易にするように設計される核酸配列（例えば、識別子）は、それらの光学的、電気化学的、化学的又は物理学的特性に基づいて呼び出すこと及び検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。工学的に操作された核酸配列は、一本鎖状又は二本鎖状のいずれでもあり得る。工学的に操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成又は非天然ヌクレオチドを含み得る。工学的に操作された核酸配列は、全て天然ヌクレオチドを含み得るか、全て合成若しくは非天然ヌクレオチドを含み得るか、又は天然ヌクレオチドと、合成ヌクレオチドと、非天然ヌクレオチドとの組合せを含み得る。合成ヌクレオチドとしては、ヌクレオチド類似体、例えばペプチド核酸、ロックド核酸、グリコール核酸及びトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、ｄＮａＭ、３－メトキシ－２－ナフチル基を含む人工ヌクレオシド及びｄ５ＳＩＣＳ、６－メチルイソキノリン－１－チオン－２－イル基を含む人工ヌクレオシドを挙げることができる。工学的に操作された核酸配列は、増強された光学的特性等、単一の増強された特性のために設計され得るか、又は設計される核酸配列は、増強された光学的及び電気化学的特性若しくは増強された光学的及び化学的特性等、複数の増強された特性を伴って設計され得る。ＤＮＡ設計については、化学的方法セクションＨを参照されたい。

[00165] 工学的に操作された核酸配列は、核酸配列の光学的、電気化学的、化学的又は物理的特性を向上させない反応性天然、合成及び非天然ヌクレオチドを含み得る。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含み得るか又は複数の化学的部分を含み得る。化学的部分の例としては、蛍光部分、化学発光部分、酸性又は塩基性部分、疎水性又は親水性部分及び核酸配列の酸化状態又は反応性を変更する部分が挙げられるが、これらに限定されない。

[00166] シーケンシングプラットフォームは、核酸配列に符号化された情報の復号化及び読取りのために特異的に設計され得る。シーケンシングプラットフォームは、一本鎖又は二本鎖核酸分子のシーケンシング専用であり得る。シーケンシングプラットフォームは、個々の塩基を読み取ること（例えば、塩基毎のシーケンシング）又は核酸分子（例えば、識別子）に組み込まれた全核酸配列（例えば、成分）の存在若しくは非存在を検出することにより、核酸符号化データを復号化し得る。シーケンシングプラットフォームは、無差別な試薬の使用、読取り長の延長の使用及び検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含み得る。シーケンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読取り効率を高めることができ、その結果としてシーケンシング時間を短縮することができる。読取り長の延長の使用は、符号化された核酸のより長い配列を読取り毎に復号化することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の有無により核酸配列の有無の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列は、固有の光学的、電気化学的又は化学的シグナルを生成する化学的部分においてタグ付けされ得る。その一意の光学的、電気化学的又は化学的シグナルの有無は、「０」又は「１」ビット値を示し得る。核酸配列は、単一の化学的部分を含み得るか又は複数の化学的部分を含み得る。データを符号化するための核酸配列の使用前に化学的部分を核酸配列に付加させ得る。代わりに又は加えて、データの符号化後であるが、データを復号化する前に化学的部分を核酸配列に付加させ得る。化学的部分タグを核酸配列に直接付加させ得るか、又は核酸配列が合成又は非天然ヌクレオチドアンカーを含み得、そのアンカーに化学的部分タグを付加させ得る。

[00167] 符号化及び復号化エラーを最小限にするか又は検出するために、一意のコードを適用し得る。符号化及び復号化エラーは、偽陰性（無作為サンプリングに含まれない核酸分子又は識別子）により起こり得る。誤り検出コードの一例は、識別子ライブラリに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリの読取り中、チェックサムは、識別子のその連続セットからの取得期待数を示し得、識別子は、その期待数が満たされるまで読取りのためのサンプリングを継続し得る。一幾つかの実施形態では、チェックサム配列をＲ識別子の連続セット毎に含め得、ここで、Ｒは、サイズが１、２、５、１０、５０、１００、２００、５００若しくは１０００以上であり得るか、又は１０００、５００、２００、１００、５０、１０、５若しくは２未満であり得る。Ｒの値が小さいほど、誤り検出が良好である。幾つかの実施形態では、チェックサムは、補足核酸配列であり得る。例えば、７個の核酸配列（例えば、成分）を含むセットを、産物方式で識別子を構築するための核酸配列（層Ｘ中の成分Ｘ１～Ｘ３及び層Ｙ中のＹ１～Ｙ３）と補足チェックサムのための核酸配列（Ｘ４～Ｘ７及びＹ４～Ｙ７）との２つの群に分けることができる。チェックサム配列Ｘ４～Ｘ７は、層Ｘの０、１、２又は３個の配列が層Ｙの各メンバと組み立てられるか否かを示すことができる。代替的に、チェックサム配列Ｙ４～Ｙ７は、層Ｙの０、１、２又は３個の配列が層Ｘの各メンバと組み立てられるか否かを示し得る。この例では、識別子｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３｝を有する元の識別子ライブラリを、以下のプールになるようにチェックサムを含むように補足し得る：｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３、Ｘ１Ｙ６、Ｘ２Ｙ７、Ｘ３Ｙ４、Ｘ６Ｙ１、Ｘ５Ｙ２、Ｘ６Ｙ３｝。チェックサム配列をエラー補正に使用し得る。例えば、上記データセットにおけるＸ１Ｙ１の非存在並びにＸ１Ｙ６及びＸ６Ｙ１の存在は、Ｘ１Ｙ１核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリのサンプリング又は識別子ライブラリのアクセスされる部分から欠けているか否かを示し得る。欠けているチェックサム配列の場合、ＰＣＲ又はアフィニティタグ付きプローブハイブリダイゼーション等のアクセス方法は、それを増幅及び／又は単離し得る。幾つかの実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化し得、その結果、それらは、識別子によって表される。

[00168] データ符号化及び復号化のノイズは、パリンドロームとして識別子を構築することにより、例えば産物方式において単一成分ではなく成分のパリンドローム対を使用することにより低減され得る。次いで、異なる層からの成分の対をパリンドローム様式（例えば、成分Ｘ及びＹについてＸＹではなくＹＸＹ）で互いに組み立て得る。このパリンドローム方法は、より多くの数の層（例えば、ＸＹＺではなくＺＹＸＹＺ）に拡大され得、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。

[00169] 識別子への過剰（例えば、大過剰）な補足核酸配列の付加は、シーケンシングによる符号化された識別子の収集を妨げる恐れがある。情報の復号化前に識別子は補足核酸配列により濃縮され得る。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子は濃縮され得る。代わりに又は加えて、特異的プライマーを使用するシーケンシング（例えば、合成によるシーケンシング）により、サンプルプールを濃縮することなく情報を復号化し得る。両方の復号化方法において、復号化鍵がないか又は識別子の組成について何らかのことが分かっていなければ、情報を濃縮又は復号化することは、困難であり得る。アフィニティタグベースのプローブの使用等の代替アクセス方法を利用することもできる。

２進配列データを符号化するシステム
[00170] デジタル情報を核酸（例えば、ＤＮＡ）に符号化するシステムは、ファイル及びデータ（例えば、生データ、圧縮されたzipファイル、整数データ及び他の形態のデータ）をバイトに変換し、バイトを核酸、典型的にはＤＮＡのセグメント、配列又はこれらの組合せに符号化するシステム、方法及びデバイスを含み得る。

[00171] 一態様において、本開示は、核酸を使用して２進配列データを符号化するシステムを提供する。核酸を使用して２進配列データを符号化するシステムは、デバイスと、１つ又は複数のコンピュータプロセッサとを含み得る。デバイスは、識別子ライブラリを構築するように構成され得る。１つ又は複数のコンピュータプロセッサは、個々に又は集合的に、（ｉ）情報を記号列に翻訳することと、（ｉｉ）記号列を複数の識別子にマッピングすることと、（ｉｉｉ）複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを行うようにプログラムされ得る。複数の識別子のうちの個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、１つ又は複数の成分を含み得る。１つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。

[00172] 別の態様において、本開示は、核酸を使用して２進配列データを読み取るシステムを提供する。核酸を使用して２進配列データを読み取るシステムは、データベースと、１つ又は複数のコンピュータプロセッサとを含み得る。データベースは、情報を符号化した識別子ライブラリを格納し得る。１つ又は複数のコンピュータプロセッサは、個々に又は集合的に、（ｉ）識別子ライブラリ内の識別子を識別することと、（ｉｉ）（ｉ）において識別された識別子から複数の記号を生成することと、（ｉｉｉ）複数の記号から情報をコンパイルすることとを行うようにプログラムされ得る。識別子ライブラリは、複数の識別子のサブセットを含み得る。複数の識別子の個々の各識別子は、記号列内の個々の記号に対応し得る。識別子は、１つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。

[00173] システムを使用してデジタルデータを符号化する方法の非限定的な実施形態は、バイトストリームの形態でデジタル情報を受信するステップを含む。バイトストリームを個々のバイトに解析し、核酸索引（又は識別子ランク）を使用してバイト内のビットの場所をマッピングし、ビット値１又はビット値０のいずれかに対応する配列を識別子に符号化する。デジタルデータを検索するステップは、１つ又は複数のビットにマッピングされる核酸の配列（例えば、識別子）を含む核酸サンプル又は核酸プールをシーケンシングすることと、識別子ランクを参照して、識別子が核酸プールに存在するか否かを確認することと、各配列の場所及びビット値情報を復号化して、デジタル情報の配列を含むバイトにすることとを含み得る。

[00174] 符号化され核酸分子に書き込まれた情報を符号化、書込み、コピー、アクセス、読取り及び復号化するシステムは、単一の一体ユニットであり得るか、又は上記演算の１つ若しくは複数を実行するように構成された複数のユニットであり得る。情報を符号化し核酸分子（例えば、識別子）に書き込むシステムは、デバイスと、１つ又は複数のコンピュータプロセッサとを含み得る。１つ又は複数のコンピュータプロセッサは、情報を解析して記号列（例えば、ビット列）にするようにプログラムされ得る。コンピュータプロセッサは、識別子ランクを生成し得る。コンピュータプロセッサは、記号を２つ以上のカテゴリに分類され得る。１つのカテゴリは、識別子ライブラリ内の対応する識別子の存在によって表される記号を含み得、別のカテゴリは、識別子ライブラリ内の対応する識別子の不在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリ内の識別子の存在に対して表される記号に対応する識別子を組み立てるようにデバイスに指示し得る。

[00175] デバイスは、複数の領域、セクション又は区画を含み得る。識別子を組み立てるための試薬及び成分は、デバイスの１つ又は複数の領域、セクション又は区画に格納され得る。層をデバイスのセクションの別個の領域に格納し得る。層は、１つ又は複数の一意の成分を含み得る。１つの層内の成分は、別の層内の成分から一意に区別され得る。領域又はセクションは、容器を含み得、区画は、ウェルを含み得る。各層は、別々の容器又は区画に格納され得る。各試薬又は核酸配列は、別々の容器又は区画に格納され得る。代わりに又は加えて、複数の試薬を組み合わせて、識別子を構築するためのマスタミックスを形成し得る。デバイスは、あるセクションで組み合わされるべき試薬、成分及び鋳型をデバイスの別のセクションから移送し得る。デバイスは、アセンブリ反応を完了するための条件を提供し得る。例えば、デバイスは、加熱、攪拌及び反応進行の検出を提供し得る。構築された識別子は、バーコード、共通配列、可変配列又はタグを識別子の１つ又は複数の末端に付加する１つ又は複数の続く反応を経るように向けられ得る。次いで、識別子は、識別子ライブラリを生成する領域又は区画に向けられ得る。１つ又は複数の識別子ライブラリは、デバイスの各領域、セクション又は個々の区画に格納され得る。デバイスは、圧力、真空又は吸引を使用して流体（例えば、試薬、成分、鋳型）を移送し得る。

[00176] 識別子ライブラリは、デバイスに格納され得るか又は別々のデータベースに移され得る。データベースは、１つ又は複数の識別子ライブラリを含み得る。データベースは、識別子ライブラリの長期格納条件（例えば、識別子の分解を低減するための条件）を提供し得る。識別子ライブラリは、粉体、液体又は固体形態で格納し得る。識別子の水溶液は、より安定した格納のために凍結乾燥され得る（凍結乾燥についての詳細な情報については、化学的方法セクションＧを参照されたい）。代替的に、識別子は、酸素の不在下で格納され得る（例えば、嫌気性格納条件）。データベースは、紫外線光保護、低温（例えば、冷蔵又は冷凍）及び分解させる化学物質及び酵素からの保護を提供し得る。データベースへの移送前に、識別子ライブラリは、凍結乾燥又は凍結され得る。識別子ライブラリは、ヌクレアーゼを不活性化するエチレンジアミン四酢酸（ＥＤＴＡ）及び／又は核酸分子の安定性を維持するための緩衝液を含み得る。

[00177] データベースは、情報を識別子に書き込み、情報をコピーし、情報にアクセスするか、又は情報を読み取るデバイスに結合され得るか、そのデバイスを含み得るか、又はそのデバイスとは別々であり得る。識別子ライブラリの一部分は、コピー、アクセス又は読取り前にデータベースから除去され得る。情報をデータベースからコピーするデバイスは、情報を書き込むものと同じ又は異なるデバイスであり得る。情報をコピーするデバイスは、デバイスから識別子ライブラリのアリコートを抽出し、そのアリコートを試薬及び構成物質と組み合わせて、識別子ライブラリの一部分又は全体を増幅し得る。デバイスは、増幅反応の温度、圧力及び攪拌を制御し得る。デバイスは、複数の区画を含み得、１つ又は複数の増幅反応は、識別子ライブラリを含む区画で行われ得る。デバイスは、一度に２つ以上の識別子プールをコピーし得る。

[00178] コピーされた識別子は、コピーデバイスからアクセスデバイスに移送され得る。アクセスデバイスは、コピーデバイスと同じデバイスであり得る。アクセスデバイスは、別々の領域、セクション又は区画を含み得る。アクセスデバイスは、アフィニティタグに結合された識別子を単離するための１つ又は複数のカラム、ビーズ貯槽又は磁性領域を有し得る（核酸捕捉については、化学的方法セクションＦを参照されたい）。代わりに又は加えて、アクセスデバイスは、１つ又は複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動又は核酸分子をサイズ選択する任意の他の方法を含み得る（核酸サイズ選択の詳細な情報については、化学的方法セクションＥを参照されたい）。コピー及び抽出は、デバイスの同じ領域で実行され得るか、又はデバイスの異なる領域で実行され得る（核酸増幅については、化学的方法セクションＤを参照されたい）。

[00179] アクセスされたデータは、同じデバイスで読み出され得るか、又はアクセスされたデータは、別のデバイスに移送され得る。読取りデバイスは、識別子を検出し、識別する検出ユニットを含み得る。検出ユニットは、シーケンサ、ハイブリダイゼーションアレイ又は識別子の有無を識別するための他のユニットの一部であり得る。シーケンシングプラットフォームは、核酸配列に符号化された情報を復号化し、読み取るように特に設計され得る。シーケンシングプラットフォームは、１本鎖又は２本鎖核酸分子のシーケンシングに特化し得る。シーケンシングプラットフォームは、個々の塩基を読み取る（例えば、塩基毎のシーケンシング）ことにより又は核酸分子（例えば、識別子）内に組み込まれた核酸配列（例えば、成分）全体の有無を検出することにより、核酸符号化されたデータを復号化し得る。代替的に、シーケンシングプラットフォームは、Illumina（登録商標）シーケンシング又は毛細管電気泳動による断片化解析等のシステムであり得る。代わりに又は加えて、核酸配列の復号化は、限定されないが、光信号、電子化学信号又は化学信号を生成する任意の方法を含め、デバイスにより実施される多様な解析技法を使用して実行され得る。

[00180] 核酸分子への情報格納には、限定されないが、長期情報格納、機密情報格納及び医療情報の格納を含め、種々の用途があり得る。一例では、人の医療情報（例えば、病歴及び医療記録）を核酸分子に格納し、その人に渡すことができる。情報は、身体外（例えば、ウェアラブルデバイスに）又は身体内（例えば、皮下カプセル）に格納され得る。患者が診療所又は病院に運ばれた場合、サンプルをデバイス又はカプセルからとり得、核酸シーケンサを使用して情報を復号化し得る。核酸分子への医療記録の個人的な格納は、コンピュータ及びクラウドベースの格納システムに対する代替を提供し得る。核酸分子への医療記録の個人的な格納は、医療記録がハッキングされる事例又は医療記録ハッキングの蔓延を低減し得る。医療記録のカプセルベースの格納に使用される核酸分子は、ヒトのゲノム配列から導出され得る。ヒトのゲノム配列の使用は、カプセルの故障又は漏出の場合、核酸配列の免疫原性を低減し得る。

コンピュータシステム
[00181] 本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図１９は、デジタル情報を核酸配列に符号化及び／又は核酸配列から導出された情報を読み取る（例えば復号化する）ようにプログラム又は他の方法で構成されたコンピュータシステム１９０１を示す。コンピュータシステム１９０１は、例えば、符号化されたビットストリーム又はバイトストリームからの所与のビット又はバイトのビット値及びビット場所情報等、本開示の符号化手順及び復号化手順の種々の態様を調整することができる。

[00182] コンピュータシステム１９０１は、シングルコア若しくはマルチコアプロセッサであり得る１つの中央演算処理装置（ＣＰＵ、本明細書ではまた「プロセッサ」及び「コンピュータプロセッサ」）又は並列処理のための複数のプロセッサを含む。コンピュータシステム１９０１は、メモリ又はメモリロケーション１９１０（例えば、ランダムアクセスメモリ、読取り専用メモリ、フラッシュメモリ）、電子格納ユニット１９１５（例えば、ハードディスク）、１つ又は複数の他のシステムと通信するための通信インタフェース１９２０（例えば、ネットワークアダプタ）及びキャッシュ、他のメモリ、データストレージ及び／又は電子ディスプレイアダプタ等の周辺機器１９２５も含む。メモリ１９１０、ストレージユニット１９１５、インタフェース１９２０及び周辺機器１９２５は、マザーボード等の通信バス（実線）を通してＣＰＵ１９０５と通信する。ストレージユニット１９１５は、データを格納するためのデータ格納ユニット（又はデータリポジトリ）であり得る。コンピュータシステム１９０１は、通信インタフェース１９２０を用いてコンピュータネットワーク（「ネットワーク」）１９３０に動作可能に結合することができる。ネットワーク１９３０は、インターネット、インターネット及び／又はエクストラネット又はインターネットと通信するイントラネット及び／又はエクストラネットであり得る。幾つかの事例では、ネットワーク１９３０は、電気通信ネットワーク及び／又はデータネットワークである。ネットワーク１９３０は、クラウド計算等の分散計算を可能にすることができる１つ又は複数のコンピュータサーバを含み得る。幾つかの事例では、ネットワーク１９３０は、コンピュータシステム１９０１を用いてピアツーピアネットワークを実施することができ、ピアツーピアネットワークは、コンピュータシステム１９０１に結合されたデバイスがクライアント又はサーバとして挙動できるようにし得る。

[00183] ＣＰＵ１９０５は、プログラム又はソフトウェアで具現化することができる機械可読命令シーケンスを実行することができる。命令は、メモリ１９１０等のメモリロケーションに格納され得る。命令は、ＣＰＵ１９０５に向けることができ、続けて本開示の方法を実施するようにＣＰＵ１９０５をプログラム又は他の方法で構成することができる。ＣＰＵ１９０５により実行される動作の例には、フェッチ、復号化、実行及びライトバックがあり得る。

[00184] ＣＰＵ１９０５は、集積回路等の回路の一部であり得る。システム１９０１の１つ又は複数の他の構成要素は、回路に含まれ得る。幾つかの事例では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

[00185] ストレージユニット１９１５は、ドライバ、ライブラリ及び保存されたプログラム等のファイルを格納することができる。ストレージユニット１９１５は、ユーザデータ、例えばユーザの好み及びユーザプログラムを格納することができる。コンピュータシステム１９０１は、幾つかの事例では、イントラネット又はインターネットを通してコンピュータシステム１９０１と通信するリモートサーバに配置される等、コンピュータシステム１９０１の外部にある１つ又は複数の追加のデータストレージユニットを含み得る。

[00186] コンピュータシステム１９０１は、ネットワーク１９３０を通して１つ又は複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム１９０１は、ユーザのリモートコンピュータシステム及び／又は核酸配列（例えば、核酸配列中の窒素塩基の順序を化学的に特定するための配列又は他のシステム）において符号化又は復号化されたデータを解析する過程でユーザにより使用され得る機械により使用され得る機械と通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレート又はタブレットＰＣ（例えば、Apple（登録商標）iPad（登録商標）、Samsung（登録商標）Galaxy Tab）、電話、スマートフォン（例えば、Apple（登録商標）iPhone（登録商標）、Android対応デバイス、Blackberry（登録商標））又は個人情報端末がある。ユーザは、ネットワーク１９３０を介してコンピュータシステム１９０１にアクセスすることができる。

[00187] 本明細書に記載の方法は、例えば、メモリ１９１０又は電子ストレージユニット１９１５等のコンピュータシステム１９０１の電子格納場所に格納された機械（例えば、コンピュータプロセッサ）実行可能コードにより実施することができる。機械実行可能又は機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ１９０５により実行することができる。幾つかの事例では、コードは、ストレージユニット１９１５から検索され、プロセッサ１９０５による容易なアクセスためのメモリ１９１０に格納することができる。幾つかの状況では、電子ストレージユニット１９１５が除外され得、機械実行可能命令は、メモリ１９１０に格納される。

[00188] コードは、プレコンパイルされ、コードを実行するように適合されたプロセッサを有する機械と併用されるように構成され得るか又は実行時中にコンパイルされ得る。コードは、プレコンパイル様式又は実行時コンパイル様式でコードを実行できるようにするように選択することができるプログラミング言語で供給することができる。

[00189] コンピュータシステム１９０１等の本明細書で提供されるシステム及び方法の態様は、プログラミングで具現化することができる。本技術の種々の態様は、ある種の機械可読媒体で搬送又は具現化される典型的には機械（又はプロセッサ）実行可能コード及び／又は関連データの形態の「製品」又は「製造品」として考えることができる。機械実行可能コードは、メモリ（例えば、読取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）又はハードディスク等の電子ストレージユニットに格納することができる。「格納」タイプの媒体は、コンピュータ、プロセッサ等のあらゆる有形メモリ又ソフトウェアプログラミングに非一時的格納を随時提供し得る種々の半導体メモリ、テープドライブ、ディスクドライブ等の関連モジュールを含み得る。ソフトウェアの全て又は一部分は、ときにインターネット又は種々の他の電気通信ネットワークを通して通信し得る。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにソフトウェアをロードできるようにし得る。したがって、ソフトウェア要素を運び得る別のタイプの媒体には、有線及び光学陸線ネットワークを通して及び種々のエアリンクを経由してローカルデバイス間で物理的インタフェースにわたって使用される等の光波、電波及び電磁波がある。有線又は無線リンク、光リンク等のそのような波動を運ぶ物理的要素もソフトウェアを運ぶ媒体としてみなすことができる。本明細書で使用される場合、非一時的有形「格納」媒体に制限されない限り、コンピュータ又は機械「可読媒体」等の用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。

[00190] したがって、コンピュータ実行可能コード等の機械可読媒体は、限定されないが、有形格納媒体、搬送波媒体又は物理的伝送媒体を含め、多くの形態をとり得る。不揮発性格納媒体は、例えば、図面に示されているデータベース等の実施に使用され得る等の任意のコンピュータ等における記憶装置のいずれか等の光ディスク又は磁気ディスクを含む。揮発性格納媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、コンピュータシステム内のバスを含むワイヤを含め、同軸ケーブル、銅線及び光ファイバを含む。搬送波伝送媒体は、無線周波（ＲＦ）及び赤外線（ＩＲ）データ通信中に生成されるもの等の電気信号、電磁信号、音波又は光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤ若しくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的格納媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ及びＥＰＲＯＭ、フラッシュＥＰＲＯＭ、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を輸送する搬送波、そのような搬送波を輸送するケーブル若しくはリンク又はコンピュータがプログラミングコード及び／又はデータを読み取り得る任意の他の媒体がある。コンピュータ可読媒体のこれらの形態の多くは、１つ又は複数の命令の１つ又は複数のシーケンスを実行のためにプロセッサに搬送することに関わり得る。

[00191] コンピュータシステム１９０１は、例えば、ＤＮＡ格納データに符号化又は復号化されるべき核酸、生データ、ファイル及び圧縮若しくは圧縮解除されたzipファイルを符号化又は復号化している機械又はコンピュータシステムにより符号化又は読み出される、例えば配列及びビット、バイト又はビットストリームを含む配列出力データを提供するための、ユーザインタフェース（ＵＩ）１９４０を含む電子表示１９３５を含み得るか又はそれと通信し得る。ＵＩの例には、限定ではなく、グラフィカルユーザインタフェース（ＧＵＩ）及びウェブベースのユーザインタフェースがある。本開示の方法及びシステムは、１つ又は複数のアルゴリズムにより実施することができる。アルゴリズムは、中央演算処理装置１９０５により実行されるとき、ソフトウェアにより実施することができる。アルゴリズムは、デジタル情報を符号化する前に、生データ又はzipファイル圧縮データからデジタル情報をコーディングするカスタマイズされた方法を決定するために、例えばＤＮＡ索引及び生データ又はzipファイルの圧縮又は解凍されたデータと併用することができる。

化学的方法セクション
Ａ．オーバーラップ伸長ＰＣＲ（ＯＥＰＣＲ）アセンブリ
[00192] ＯＥＰＣＲでは、成分は、ポリメラーゼ及びｄＮＴＰ（ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰ又はそれらのバリアント若しくは類似体を含むデオキシヌクレオチド三リン酸）を含む反応で組み立てられる。成分は、１本鎖又は２本鎖核酸であり得る。互いに隣接して組み立てられるべき成分は、相補的な３’末端、相補的な５’末端又はある成分の５’末端と、隣接する成分の３’末端との間に相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と呼ばれ、ＯＥＰＣＲ中、成分間にハイブリダイズされた接合部が形成されることを促進することを目的とし、１つの入力成分（又はその相補体）の３’末端は、意図される隣接する成分（又はその相補体）の３’末端にハイブリダイズされる。次いで、ポリメラーゼ伸長により、組み立てられた２本鎖産物を形成することができる。次いで、続くハイブリダイゼーション及び伸長を通して、この産物をより多くの成分に組み付け得る。図７は、３つの核酸を組み立てるためのＯＥＰＣＲの一例の概略図を示す。

[00193] 幾つかの実施形態では、ＯＥＰＣＲは、３つの温度間循環を含み得る：融解温度、アニーリング温度及び伸長温度。融解温度は、２本鎖核酸を１本鎖核酸に変えると共に、成分内又は成分間の二次構造又はハイブリダイゼーションの形成を除去することを意図する。典型的には、融解温度は、高く、例えば９５℃を超える。幾つかの実施形態では、融解温度は、少なくとも９６℃、９７℃、９８℃、９９℃、１００℃、１０１℃、１０２℃、１０３℃、１０４℃又は１０５℃であり得る。他の実施形態では、融解温度は、最大で９５℃、９４℃、９３℃、９２℃、９１℃又は９０℃であり得る。融解温度が高いほど、核酸及びそれらの二次構造の解離を改善し得るが、核酸又はポリメラーゼの分解等の副作用も生じさせ得る。融解温度は、少なくとも１秒、２秒、３秒、４秒、５秒又はそれよりも長く、例えば３０秒、１分、２分若しくは３分にわたって反応に適用され得る。

[00194] アニーリング温度は、意図される隣接成分（又はそれらの相補体）の相補的な３’末端間のハイブリダイゼーションの形成を促進することを意図する。幾つかの実施形態では、アニーリング温度は、意図されるハイブリダイズされた核酸形成の計算された融解温度に一致し得る。他の実施形態では、アニーリング温度は、前記融解温度の１０℃以上以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも２５℃、３０℃、５０℃、５５℃、６０℃、６５℃又は７０℃であり得る。融解温度は、成分間の意図されるハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど、高い融解温度を有し、グアニン又はシトシンヌクレオチドの含有率が高いハイブリダイゼーション領域ほど、高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に組み立てることを意図するＯＥＰＣＲ反応に向けて成分を設計することが可能であり得る。アニーリング温度は、少なくとも１秒、５秒、１０秒、１５秒、２０秒、２５秒、３０秒又はそれを超える時間にわたって反応に適用され得る。

[00195] 伸長温度は、１つ又は複数のポリメラーゼ酵素により触媒されたハイブリダイズされた３’末端の核酸鎖伸長を開始し、促進することを意図する。幾つかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性又は忠実性の点で最適に機能する温度に設定され得る。幾つかの実施形態では、伸長温度は、少なくとも３０℃、４０℃、５０℃、６０℃、７０℃又はそれを超える温度であり得る。アニーリング温度は、少なくとも１秒、５秒、１０秒、１５秒、２０秒、２５秒、３０秒、４０秒、５０秒、６０秒又はそれよりも長い時間にわたって反応に適用され得る。推奨される伸長時間は、予期される伸長１キロベース当たり１５～４５秒前後であり得る。

[00196] ＯＥＰＣＲの幾つかの実施形態では、アニーリング温度及び伸長温度は、同じであり得る。したがって、３ステップ温度サイクルの代わりに２ステップ温度サイクルを使用することができる。アニーリング温度及び伸長温度の例には、６０℃、６５℃又は７２℃がある。

[00197] 幾つかの実施形態では、ＯＥＰＣＲは、１つの温度サイクルを用いて実行され得る。そのような実施形態は、２つのみの成分の意図される組立てを含み得る。他の実施形態では、ＯＥＰＣＲは、複数の温度サイクルを用いて実行され得る。ＯＥＰＣＲにおける任意の所与の核酸は、１つのサイクルで最大で１つの他の核酸に組み付けられ得る。これは、組立て（又は伸長若しくは延長）が核酸の３’末端のみで行われ、各核酸が１つのみの３’末端を有するためである。したがって、複数の成分を組み立てるには、複数の温度サイクルが必要であり得る。例えば、４個の成分を組み立てることは、３つの温度サイクルを含み得る。６個の成分を組み立てることは、５つの温度サイクルを含み得る。１０個の成分を組み立てることは、９つの温度サイクルを含み得る。幾つかの実施形態では、必要最低限よりも多くの温度サイクルを使用して、組立て効率を上げることができる。例えば、４つの温度サイクルを使用して２個の成分を組み立てることにより、１つのみの温度サイクルを使用するよりも産物収率を高くし得る。これは、成分のハイブリダイゼーション及び延長が、各サイクルにおける成分の総数の関数として生じる統計学的事象であるためである。したがって、組み立てられる成分の総割合は、サイクル数の増大に伴って増大し得る。

[00198] 温度循環考慮事項に加えて、ＯＥＰＣＲにおける核酸配列の設計も互いへの組み付け効率に影響し得る。ハイブリダイゼーション領域が長い核酸は、ハイブリダイゼーション領域が短い核酸と比べて、所与のアニーリング温度でより効率的にハイブリダイズされ得る。これは、ハイブリダイズされた産物が長いほど、ハイブリダイズされた産物が短い場合よりも多数の安定した塩基対を含み、したがってハイブリダイズされた産物全体でより安定するためである。ハイブリダイゼーション領域は、少なくとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個又はそれよりも多くの塩基分の長さを有し得る。

[00199] グアニン又はシトシン含有率が高いハイブリダイゼーション領域ほど、所与の温度において、グアニン又はシトシン含有率が低いハイブリダイゼーション領域よりも効率的にハイブリダイズされ得る。これは、アデニンがチミンと塩基対を形成するよりも、グアニンがシトシンとより安全した塩基対を形成するためである。ハイブリダイゼーション領域は、０％～１００％の任意の値のグアニン又はシトシン含有率（ＧＣ含有率としても知られている）を有し得る。

[00200] ハイブリダイゼーション領域長及びＧＣ含有率に加えて、ＯＥＰＣＲの効率に影響し得る核酸配列設計のはるかに多くの態様が存在する。例えば、成分内の望ましくない二次構造の形成は、意図される隣接成分とハイブリダイゼーション産物を形成する能力に干渉する恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸に対して生じる可能性のある二次構造のタイプ及びそれらの安定性（例えば、融解温度）は、配列に基づいて予測され得る。設計空間探索アルゴリズムを使用して、潜在的に阻害性二次構造を有する配列を回避しながら、効率的なＯＥＰＣＲに適切な長さ及びＧＣ含有率基準を満たす核酸配列を特定し得る。設計空間探索アルゴリズムは、遺伝アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分枝限定探索アルゴリズム、ダイナミックプログラミングベースのアルゴリズム、制約付き組合せ最適化、勾配降下ベースのアルゴリズム、ランダム探索アルゴリズム又はそれらの組合せを含み得る。

[00201] 同様に、ホモ二量体（同じ配列の核酸分子とハイブリダイズする核酸分子）及び不要なヘテロ二量体（意図される組立て相手以外の核酸配列とハイブリダイズする核酸配列）の形成もＯＥＰＣＲと干渉する恐れがある。核酸内の二次構造と同様に、計算方法及び設計空間探索アルゴリズムを使用して、核酸設計中にホモ二量体及びヘテロ二量体の形成を予測し、考慮に入れることもできる。

[00202] 核酸配列が長いほど又はＧＣ含有率が高いほど、ＯＥＰＣＲに伴って形成される不要な二次構造、ホモ二量体及びヘテロ二量体が増え得る。したがって、幾つかの実施形態では、より短い核酸配列又はより低いＧＣ含有率の使用は、より高い組立て効率に繋がり得る。これらの設計原理は、より効率的な組立てに向けて長いハイブリダイゼーション領域又は高いＧＣ含有率を使用する設計戦略に対抗し得る。したがって、幾つかの実施形態では、ＯＥＰＣＲは、高いＧＣ含有率を有する長いハイブリダイゼーション領域を使用するが、低いＧＣ含有率を有する短い非ハイブリダイゼーション領域を使用することにより最適化され得る。核酸の全長は、塩基少なくとも１０個、２０個、３０個、４０個、５０個、６０個、７０個、８０個、９０個、１００個又はそれよりも多くの個数分であり得る。幾つかの実施形態では、組立て効率が最適化される、核酸のハイブリダイゼーション領域の最適な長さ及び最適なＧＣ含有率が存在し得る。

[00203] ＯＥＰＣＲ反応における別個の核酸の数が多いほど、予期される組立て効率に干渉する恐れがある。これは、別個の核酸配列の数が多いほど、特にヘテロ二量体の形態の望ましくない分子相互作用の確率が高くなり得るためである。したがって、多数の成分を組み立てるＯＥＰＣＲの幾つかの実施形態では、効率的な組立てのために核酸配列制約がより厳しくなり得る。

[00204] 期待される最終的に組み立てられた産物を増幅するためのプライマーをＯＥＰＣＲ反応に含め得る。その場合、ＯＥＰＣＲ反応は、より多くの温度サイクルを用いて実行されて、構成成分間により多くのアセンブリを作り出すのみならず、完全に組み立てられたサンプルを従来のＰＣＲの様式で指数的に増幅することによりも、組み立てられる産物の収率を改善し得る（化学的方法セクションＤを参照されたい）。

[00205] 添加剤をＯＥＰＣＲ反応に含めて、組立て効率を改善し得る。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）又はそれらの組合せの添加である。添加剤含有率（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％又はそれを超え得る。

[00206] 種々のポリメラーゼがＯＥＰＣＲに使用可能である。ポリメラーゼは、天然に発生するもの又は合成されたものであり得る。ポリメラーゼの一例は、Φ２９ポリメラーゼ又はその誘導体である。幾つかの事例では、新しい核酸配列を構築するために、転写酵素又はリガーゼ（即ち結合の形成を触媒する酵素）がポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例には、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌（E. coli）ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ｐｈｉ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Phusionポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’エキソヌクレアーゼ活性を有するKlenow断片ポリメラーゼ並びにそれらのバリアント、修飾産物及び誘導体がある。異なるポリメラーゼは、異なる温度で安定し、最適に機能し得る。さらに、異なるポリメラーゼは、異なる性質を有する。例えば、Phusionポリメラーゼ等の幾つかのポリメラーゼは、核酸延長中、より高い忠実性に寄与し得る３’から５’エキソヌクレアーゼ活性を示し得る。ポリメラーゼによっては、延長中、先導配列を変位させるものもあれば、先導配列を分解又は延長を停止させるものもある。ポリメラーゼによっては、Ｔａｑのように、核酸配列の３’末端にアデニン塩基を組み込むものがある。このプロセスは、Ａテーリングと呼ばれ、アデニン塩基の付加は、意図される隣接成分間に設計される３’相補性を妨害する恐れがあるため、ＯＥＰＣＲを阻害する恐れがある。

[00207] ＯＥＰＣＲは、ポリメラーゼサイクルアセンブリ（又はＰＣＡ）と呼ぶこともできる。

Ｂ．ライゲーションアセンブリ
[00208] ライゲーションアセンブリでは、１つ又は複数のリガーゼ酵素及び追加の補因子を含む反応において、別々の核酸が組み立てられる。補因子は、アデノシン三リン酸（ＡＴＰ）、ジチオスレイトール（ＤＴＴ）又はマグネシウムイオン（Ｍｇ^２＋）を含み得る。ライゲーション中、１本の核酸鎖の３’末端は、別の核酸鎖の５’末端に共有結合され、したがって組み立てられた核酸を形成する。ライゲーション反応における成分は、平滑末端２本鎖ＤＮＡ（ｄｓＤＮＡ）、１本鎖ＤＮＡ（ｓｓＤＮＡ）又は部分的にハイブリダイズされた１本鎖ＤＮＡであり得る。核酸の末端を一緒にする戦略は、リガーゼ酵素に対して物質が生き残る頻度を上げ、したがってリガーゼ反応の効率改善に使用され得る。平滑末端ｄｓＤＮＡ分子は、リガーゼ酵素が作用し得る疎水性積層を形成する傾向があるが、核酸を一緒にするためのより成功率の高い戦略は、組み付けが意図される成分の突出と相補性を有する５’又は３’１本鎖突出、を有する核酸成分を使用することであり得る。後者の場合、塩基／塩基ハイブリダイゼーションに起因して、より安定した核酸二本鎖を形成し得る。

[00209] ２本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端上の他方の鎖は、「窪み」（cavity）と呼ぶことができる。窪み及び突出は、一緒に、「付着末端」としても知られる「粘着末端」を形成する。粘着末端は、３’突出及び５’窪みであり得るか、又は５’突出及び３’窪みであり得る。２つの意図される隣接成分間の粘着末端は、各突出末端が他方の成分上の窪みの冒頭に直に隣接するように両方の粘着末端の突出がハイブリダイズするように、相補性を有するように設計され得る。これは、リガーゼの作用により「封止」（sealed）（ホスホジエステル結合を通して共有結合）し得る「ニック」（nick）（２本鎖ＤＮＡ切断）を形成する。３個の核酸を組み立てるための粘着末端ライゲーションの概略の一例については、図８を参照されたい。一方若しくは他方の鎖上のニックのいずれか又は両方は、封止され得る。熱力学的に、粘着末端を形成する分子の上鎖及び下鎖は、連結状態と解離状態との間で移行し得、したがって、粘着末端は、過渡的な形成であり得る。しかしながら、２つの成分間の粘着末端２本鎖の一方の鎖に沿ったニックが封止されると、その共有結合は、逆鎖のメンバが解離した場合でも残る。その場合、結合鎖は、逆鎖の意図される隣接メンバが結合し、封止し得るニックを再び形成することができる鋳型になり得る。

[00210] 粘着末端は、１つ又は複数のエンドヌクレアーゼを用いてｄｓＤＮＡを消化することにより作成され得る。エンドヌクレアーゼ（制限酵素と呼ばれ得る）は、ｄｓＤＮＡ分子の片方又は両方の末端上の特定の部位（制限部位と呼ばれ得る）を標的とし得、互い違いの開裂を作成し（消化と呼ばれ得る）、したがって粘着末端を残し得る。制限消化については、化学的方法セクションＣを参照されたい。消化は、パリンドローム突出（それ自体の逆相補鎖である配列を有する突出）を残し得る。その場合、同じエンドヌクレアーゼを用いて消化された２つの成分は、リガーゼを用いてそれらを組み立て得る相補的粘着末端を形成し得る。エンドヌクレアーゼ及びリガーゼが適合する場合、消化及びライゲーションは、同じ反応で一緒に行うことができる。反応は、４℃、１０℃、１６℃、２５℃又は３７℃等の均一な温度で生じ得る。又は、反応は、１６℃～３７℃等の複数の温度間で循環し得る。複数の温度間の循環により、サイクルの異なる部分中、消化及びライゲーションをそれぞれの最適温度で各々進めることが可能になり得る。

[00211] 消化及びライゲーションを別々の反応で実行することが有益であり得る。例えば、所望のリガーゼ及び所望のエンドヌクレアーゼが異なる条件で最適に機能する場合である。又は、例えば、ライゲーションされた産物がエンドヌクレアーゼの新しい制限部位を形成する場合である。これらの場合、制限消化を実行してから、次いでライゲーションを別々に実行する方がよいことがあり、おそらくライゲーション前に制限酵素を除去することがさらに有益であり得る。核酸は、フェノール－クロロホルム抽出、エタノール沈殿、磁性ビーズ捕捉及び／又はシリカ膜吸着、洗浄及び溶出を通して酵素から単離され得る。同じ反応で複数のエンドヌクレアーゼが使用可能であるが、複数のエンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを保証することに注意を払うべきである。２つのエンドヌクレアーゼを使用する場合、直交（非相補性）粘着末端をｄｓＤＮＡ成分の両方の末端に作成し得る。

[00212] エンドヌクレアーゼ消化は、リン酸化された５’末端を有する粘着末端を残すことになる。リガーゼは、リン酸化された５’末端でのみ機能し得、リン酸化されていない５’末端では機能しない。したがって、消化とライゲーションとの間に中間５’リン酸化ステップのいかなる必要性もなくてよい。パリンドローム突出を粘着末端に有する消化されたｄｓＤＮＡ成分は、それ自体にライゲーションし得る。自己ライゲーションを回避するために、ライゲーション前に前記ｄｓＤＮＡ成分を脱リン酸化することが有益であり得る。

[00213] 複数のエンドヌクレアーゼは、異なる制限部位を標的とし得るが、適合性の突出（互いの逆相補鎖である突出）を残し得る。２つのそのようなエンドヌクレアーゼを用いて作成された粘着末端のライゲーションの産物は、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含まない、組み立てられた産物を生成し得る。そのようなエンドヌクレアーゼは、消化－ライゲーション反復サイクルを実行することにより、２つのみのエンドヌクレアーゼを使用して複数の成分をプログラム可能に組み立て得る、バイオブリックアセンブリ等の組立て方法の土台をなす。図２０は、適合性突出を有するエンドヌクレアーゼBamHI及びBglIIを使用した消化－ライゲーションサイクルの一例を示す。

[00214] 幾つかの実施形態では、粘着末端の作成に使用されるエンドヌクレアーゼは、ＩＩＳ型制限酵素であり得る。これらの酵素は、固定数の塩基を制限部位から特定の方向に離して開裂させ、したがって、それらが生成する突出の配列は、カスタマイズすることが可能である。突出配列は、パリンドロームである必要はない。同じＩＩＳ型制限酵素を同じ反応又は複数の反応で使用して、複数の異なる粘着末端を作成し得る。さらに、１つ又は複数のＩＩＳ型制限酵素を同じ反応又は複数の反応で使用して、適合性突出を有する成分を作成し得る。ＩＩＳ型制限酵素により生成された２つの粘着末端間のライゲーション部位は、新しい制限部位を形成しないように設計され得る。加えて、ＩＩＳ型制限酵素部位は、粘着末端を有する成分を生成するとき、制限酵素がそれ自体の制限部位を開裂するようにｄｓＤＮＡに配置され得る。したがって、ＩＩＳ型制限酵素から生成された複数の成分間のライゲーション産物は、いかなる制限部位も含まない。

[00215] ＩＩＳ型制限酵素は、反応においてリガーゼと一緒に混合されて、成分の消化及びライゲーションを一緒に実行し得る。反応の温度は、２つ以上の値間で循環して、最適な消化及びライゲーションを促進し得る。例えば、消化は、３７℃で最適に実行され得、ライゲーションは、１６℃で最適に実行され得る。より一般には、反応は、少なくとも０℃、５℃、１０℃、１５℃、２０℃、２５℃、３０℃、３５℃、４０℃、４５℃、５０℃、５５℃、６０℃、６５℃又はそれを超える値の温度値間を循環し得る。消化及びライゲーション組合せ反応は、少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個又はそれを超える個数の成分を組み立てるために使用され得る。ＩＩＳ型制限酵素を利用して粘着末端を作成するアセンブリ反応の例には、ゴールデンゲートアセンブリ（ゴールデンゲートクローニングとしても知られている）又はモジュラークローニング（MoCloとしても知られている）がある。

[00216] ライゲーションの幾つかの実施形態では、エキソヌクレアーゼを使用して、粘着末端を有する成分を作成し得る。３’エキソヌクレアーゼを使用してｄｓＤＮＡから３’末端を噛み返し（chew back）得、それにより５’突出を作成し得る。同様に、５’エキソヌクレアーゼを使用してｄｓＤＮＡから５’末端を噛み返し得、それにより３’突出を作成し得る。異なるエキソヌクレアーゼは、異なる性質を有し得る。例えば、エキソヌクレアーゼは、ヌクレアーゼ活性の方向において（５’から３’に又は３’から５’に）、ｓｓＤＮＡに対して作用するか否か、リン酸化された５’末端に対して作用するか若しくはリン酸化されていない５’末端に対して作用するか、ニックで開始可能であるか否か又は活性を５’窪み、３’窪み、５’突出若しくは３’突出で開始可能であるか否かが異なり得る。異なるタイプのエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、ＲｅｃＪ_ｆ、エキソヌクレアーゼＩＩＩ、エキソヌクレアーゼＩ、エキソヌクレアーゼＴ、エキソヌクレアーゼＶ、エキソヌクレアーゼＶＩＩＩ、エキソヌクレアーゼＶＩＩ、ヌクレアーゼＢＡＬ＿３１、Ｔ５エキソヌクレアーゼ及びＴ７エキソヌクレアーゼが挙げられる。

[00217] エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分を組み立て得る。反応は、固定温度で行われ得、各々がリガーゼ又はエキソヌクレアーゼのそれぞれに理想的な複数の温度間を循環され得る。ポリメラーゼをアセンブリ反応にリガーゼ及び５’→３’エキソヌクレアーゼと一緒に含め得る。そのような反応における成分は、互いに隣接して組み立てることが意図された成分がそれらの縁部に相同な配列を共有するように設計され得る。例えば、成分Ｙと組み立てられる成分Ｘは、５’－ｚ－３’形態の３’縁配列を有し得、成分Ｙは、５’－ｚ－３’形態の５’縁配列を有し得、ここで、ｚは、任意の核酸配列である。そのような形態の相同な縁配列は、「ギブソンオーバーラップ」と呼ばれ得る。５’エキソヌクレアーゼによりギブソンオーバーラップを有するｄｓＤＮＡ成分の５’末端が噛み返されると、互いにハイブリダイズする適合する３’突出が作成される。次いで、ハイブリダイズした３’末端がポリメラーゼの作用により鋳型成分の末端まで又は一方の成分の伸長した３’突出が隣接成分の５’窪みを満たす点まで伸長し、それによりリガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ及びエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と呼ばれる。ギブソンアセンブリは、Ｔ５エキソヌクレアーゼ、Phusionポリメラーゼ及びＴａｑリガーゼを使用し、反応を５０℃でインキュベートすることにより実施され得る。前記例では、好熱性リガーゼであるＴａｑを使用することにより、反応における３つの型の酵素全てに適した温度である５０℃で反応を進行させることが可能になる。

[00218] 「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ及びエキソヌクレアーゼが関与する任意の組立て反応を指し得る。ギブソンアセンブリは、少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個又はそれを超える数の成分を組み立てるために使用され得る。ギブソンアセンブリは、１ステップの等温反応として又は１つ若しくは複数の温度インキュベーションを用いたマルチステップ反応として行うことができる。例えば、ギブソンアセンブリは、少なくとも３０度、４０度、５０度、６０度、７０度又はこれらの温度を下回る温度で行われ得る。ギブソンアセンブリのインキュベーション時間は、少なくとも１分、５分、１０分、２０分、４０分又は８０分であり得る。

[00219] ギブソンアセンブリ反応は、意図される隣接成分間のギブソンオーバーラップが特定の長さであり、ヘアピン、ホモ二量体又は不要なヘテロ二量体等の望ましくないハイブリダイゼーション事象を回避する配列等の配列特徴を有する場合、最適に行うことができる。一般に、少なくとも塩基２０個分の長さのギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、少なくとも塩基１個、２個、３個、５個、１０個、２０個、３０個、４０個、５０個、６０個、１００個又はそれを超える個数分の長さであり得る。ギブソンオーバーラップのＧＣ含有率は、０％～１００％の任意の値であり得る。

[00220] ギブソンアセンブリについて一般に５’エキソヌクレアーゼを用いて説明するが、反応は、３’エキソヌクレアーゼを用いて行うことも可能である。３’エキソヌクレアーゼは、ｄｓＤＮＡ成分の３’末端を噛み返すため、ポリメラーゼは、３’末端を伸長することにより作用を相殺する。この動的プロセスは、２つの成分（ギブソンオーバーラップを共有する）の５’突出（エキソヌクレアーゼにより作成される）がハイブリダイズし、ポリメラーゼが、隣接成分の５’末端に遭遇するのに十分に遠くまで一方の成分の３’末端を伸長するまで続けられ得、それによりリガーゼによって封止し得るニックを残す。

[00221] ライゲーションの幾つかの実施形態では、粘着末端を有する成分は、完全相補性を共有しない２つの１本鎖核酸又はオリゴを一緒に混合することにより、酵素による作成とは対照的に合成により作成され得る。例えば、２つのオリゴ：オリゴＸ及びオリゴＹは、オリゴのいずれか一方又は両方の全体を構成する塩基のより大きい列の部分列を形成する相補塩基の連続列に沿ってのみ完全ハイブリダイズするように設計され得る。塩基のこの相補列は、「索引領域」と呼ばれる。索引領域がオリゴＸの全体及びオリゴＹの５’末端のみを占める場合、それらのオリゴは、一緒に、片側に平滑末端を有し、逆側にオリゴＹからの３’突出との粘着末端を有する成分を形成する（図２１Ａ）。索引領域がオリゴＸの全体及びオリゴＹの３’末端のみを占める場合、それらのオリゴは、一緒に、片側に平滑末端を有し、逆側にオリゴＹからの５’突出との粘着末端を有する成分を形成する（図２１Ｂ）。索引領域がオリゴＸの全体を占めオリゴＹの末端を占めないない場合（索引領域がオリゴＹの中間内に組み込まれることを黙示する場合）、それらのオリゴは、一緒に、片側にオリゴＹからの３’突出との粘着末端を有し、逆側にオリゴＹからの５’突出との粘着末端を有する成分を形成する（図２１Ｃ）。索引領域がオリゴＸの５’末端のみ及びオリゴＹの５’末端のみを占める場合、それらのオリゴは、一緒に、片側にオリゴＹからの３’突出との粘着末端を有し、逆側にオリゴＸからの３’突出との粘着末端を有する成分を形成する（図２１Ｄ）。索引領域がオリゴＸの３’末端のみ及びオリゴＹの３’末端のみを占める場合、これらのオリゴは、一緒に、片側にオリゴＹからの５’突出との粘着末端を有し、逆側にオリゴＸからの５’突出との粘着末端を有する成分を形成する（図２１Ｅ）。上記例では、突出の配列は、索引領域外のオリゴ配列により規定される。これらの突出配列は、それに沿ってライゲーションに向けて成分がハイブリダイズする領域であるため、ハイブリダイゼーション領域と呼ぶことができる。

[00222] 粘着末端ライゲーションにおけるオリゴの索引領域及びハイブリダイゼーション領域は、成分の適切な組立てを促進するように設計され得る。突出が長い成分は、突出が短い成分と比べて、所与のアニーリング温度で互いにより効率的にハイブリダイズされ得る。突出は、塩基少なくとも１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１５個、２０個、３０個又はそれを超える個数分の長さを有し得る。

[00223] 高いグアニン又はシトシン含有率を含む突出を有する成分は、低いグアニン又はシトシン含有率を含む突出を有する成分よりも、所与の温度で相補的成分に効率的にハイブリダイズされ得る。これは、アデニンがチミンと塩基対を形成するよりも、グアニンがシトシンと安定した塩基対を形成するためである。突出は、０％～１００％の任意の値のグアニン又はシトシン含有率（ＧＣ含有率としても知られている）を有し得る。

[00224] 突出配列と同様に、オリゴのＧＣ含量及び索引領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖及び下の鎖が安定に結合していれば粘着末端成分がより効率的に組み立てることができるためである。したがって、より高いＧＣ含量、より長い配列及びより高い融解温度を促進する他の特徴を有する索引領域を設計し得る。しかしながら、索引領域及び突出配列の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分と組み立てられた産物を形成するその能力が妨げられる恐れがある。これは、索引領域内、突出配列内又はその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型及びそれらの安定性（例えば、融解温度）は、配列に基づいて予測され得る。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さ及びＧＣ含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避し得る。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、タブー検索のようなメタ－ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム又はこれらの組合せを含み得る。

[00225] 同様に、ホモ二量体（同じ配列のオリゴとハイブリダイズするオリゴ）及び望ましくないヘテロ二量体（それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ）の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体及びヘテロ二量体の形成は、予測し、オリゴ設計中にコンピュータによる計算方法及び設計空間検索アルゴリズムを使用して説明することができる。

[00226] より長いオリゴ配列又はより高いＧＣ含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体及びヘテロ二量体の形成の増加が生じ得る。したがって、幾つかの実施形態では、より短いオリゴ又はより低いＧＣ含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴ又は高いＧＣ含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さ及び最適なＧＣ含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基若しくは１００塩基又はそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なＧＣ含量は、０％～１００％のいずれかであり得る。

[00227] 粘着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル（又は鋳型又は架橋）鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション（ＳＳＬ）、鋳型により導かれるライゲーション（ＴＤＬ）又は架橋鎖ライゲーションと呼ぶことができる。３つの核酸を組み立てるためのＴＤＬの概略の一例については、図１０Ａを参照されたい。ＴＤＬでは、２つの一本鎖核酸を鋳型上に隣接的にハイブリダイズさせ、したがってリガーゼによりシールすることができるニックを形成する。粘着末端ライゲーションと同じ核酸設計考慮事項がＴＤＬにも当てはまる。鋳型と、それらの意図された相補的な核酸配列との間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導き得る。したがって、鋳型の両側でのハイブリダイゼーション安定性（又は融解温度）を改善する配列特徴により、ライゲーション効率を改善し得る。これらの特徴は、より長い配列の長さ及びより高いＧＣ含量を含み得る。鋳型を含めたＴＤＬにおける核酸の長さは、少なくとも５塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基若しくは１００塩基又はそれよりも多くの塩基であり得る。鋳型を含めた核酸のＧＣ含量は、０％～１００％であり得る。

[00228] ＴＤＬでは、粘着末端ライゲーションと同様に、配列空間探索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分及び鋳型配列を設計するために注意を払うことができる。ＴＤＬにおける成分は、二本鎖の代わりに一本鎖であり得るため、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある（粘着末端ライゲーションと比較して）。

[00229] ＴＤＬは、平滑末端化されたｄｓＤＮＡ成分を用いて実行され得る。そのような反応では、ステープル鎖が２つの一本鎖核酸を適当に架橋するために、最初にステープルが完全な一本鎖相補鎖を置き換えるか又は部分的に置き換えることが必要であり得る。ｄｓＤＮＡ成分を用いたＴＤＬ反応を容易にするために、ｄｓＤＮＡを最初に高温でインキュベートすることで融解させ得る。次いで、反応を冷却し、したがってステープル鎖がそれらの適当な核酸相補鎖にアニーリングすることを可能にし得る。このプロセスは、ｄｓＤＮＡ成分と比較して比較的高い濃度の鋳型を使用することにより、さらに一層効率的なものにすることができ、したがって結合に関して鋳型が適当な全長ｓｓＤＮＡ相補鎖に打ち勝つことが可能になる。２つのｓｓＤＮＡ鎖がそれらの鋳型及びリガーゼにより組み立てられると、次いでその組み立てられた核酸が逆の全長ｓｓＤＮＡ相補鎖の鋳型になり得る。したがって、ＴＤＬを用いた平滑末端化されたｄｓＤＮＡのライゲーションを、融解（より高い温度でのインキュベーション）及びアニーリング（より低い温度でのインキュベーション）の複数のラウンドを通して改善し得る。このプロセスは、リガーゼサイクリング反応又はＬＣＲと呼ぶことができる。適当な融解温度及びアニーリング温度は、核酸配列に依存する。融解温度及びアニーリング温度は、少なくとも４℃、１０℃、２０℃、２０℃、３０℃、４０℃、５０℃、６０℃、７０℃、８０℃、９０℃又は１００℃であり得る。温度サイクルの数は、少なくとも１回、５回、１０回、１５回、２０回、１５回、３０回又はそれを超え得る。

[00230] 全てのライゲーションは、固定温度反応又は多重温度反応で実行され得る。ライゲーション温度は、少なくとも０℃、４℃、１０℃、２０℃、２０℃、３０℃、４０℃、５０℃若しくは６０℃又はそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合う又はハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって成分が一時的に隣り合う又はハイブリダイズする頻度を増大させ得る。しかしながら、温度の上昇により、塩基対結合の破壊、したがってこれらの隣り合った又はハイブリダイズした成分２重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、組み立てられる核酸の数、それらの核酸の配列、リガーゼの型並びに反応添加剤等の他の因子に依存し得る。例えば、４塩基の相補的な突出を有する２つの粘着末端成分は、４℃でＴ４リガーゼを用いると、２５℃でＴ４リガーゼを用いるよりも速く組み立てることができる。しかしながら、２５塩基の相補的な突出を有する２つの粘着末端成分は、２５℃でＴ４リガーゼを用いると、４℃でＴ４リガーゼを用いるよりも速く組み立てることができ、またおそらく４塩基の突出をいずれの温度でライゲーションするよりも速く組み立てることができる。ライゲーションの幾つかの実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。

[00231] ライゲーションを使用して、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０又はそれよりも多くの核酸を組み立て得る。ライゲーションインキュベーション時間は、最大で３０秒間、１分間、２分間、５分間、１０分間、２０分間、３０分間、１時間又はそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善し得る。

[00232] ライゲーションには、５’リン酸化末端を有する核酸が必要な場合がある。５’リン酸化末端を有さない核酸成分は、Ｔ４ポリヌクレオチドキナーゼ（又はＴ４ＰＮＫ）等のポリヌクレオチドキナーゼとの反応でリン酸化され得る。ＡＴＰ、マグネシウムイオン又はＤＴＴ等の他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、３７℃で３０分間行われ得る。ポリヌクレオチドキナーゼ反応温度は、少なくとも４℃、１０℃、２０℃、２０℃、３０℃、４０℃、５０℃又は６０℃であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間又はそれよりも長い時間であり得る。代替的に、核酸成分は、修飾された５’リン酸化を用いて合成的に（酵素的なものとは対照的に）設計され、製造され得る。それらの５’末端に組み立てられる核酸のみにリン酸化が必要になり得る。例えば、ＴＤＬにおける鋳型は、組み立てられるものではないため、リン酸化されていなくてよい。

[00233] ライゲーション効率を改善するために、添加剤をライゲーション反応に含め得る。例えば、ジメチルスルホキシド（ＤＭＳＯ）、ポリエチレングリコール（ＰＥＧ）、１，２－プロパンジオール（１，２－Ｐｒｄ）、グリセロール、Tween-20又はこれらの組合せの添加である。PEG6000が特に有効なライゲーション増強剤であり得る。PEG6000は、クラウディング剤として作用することによりライゲーション効率を上昇させ得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分とをより近づけ得る。添加剤含有量（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％又はそれを超え得る。

[00234] 種々のリガーゼがライゲーションに使用可能である。リガーゼは、天然に存在するもの又は合成されたものであり得る。リガーゼの例としては、Ｔ４ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、9^oN（商標）ＤＮＡリガーゼ、大腸菌（E. coli）ＤＮＡリガーゼ及びSplintR ＤＮＡリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定に及び最適に機能し得る。例えば、ＴａｑＤＮＡリガーゼは、熱安定性であり、Ｔ４ＤＮＡリガーゼは、熱安定性ではない。さらに、異なるリガーゼは、異なる性質を有する。例えば、Ｔ４ＤＮＡリガーゼは、平滑末端化されたｄｓＤＮＡをライゲーションすることができるが、Ｔ７ＤＮＡリガーゼは、平滑末端化されたｄｓＤＮＡをライゲーションすることができない。

[00235] ライゲーションを使用して、シーケンシングアダプタを核酸のライブラリに付着させ得る。例えば、ライゲーションは、核酸ライブラリの各メンバの末端の共通の粘着末端又はステープルを用いて実行され得る。核酸の一方の末端の粘着末端又はステープルが他方の末端のものと区別可能な場合、シーケンシングアダプタを非対称にライゲーションすることができる。例えば、フォワードシーケンシングアダプタを核酸ライブラリのメンバの一方の末端にライゲーションすることができ、リバースシーケンシングアダプタを核酸ライブラリのメンバの他方の末端にライゲーションし得る。代替的に、平滑末端化されたライゲーションを使用して、アダプタを、平滑末端化された二本鎖核酸のライブラリに付着させ得る。フォークアダプタを使用して、各末端で均等な平滑末端又は粘着末端のいずれかを有する核酸ライブラリにアダプタを非対称に付着させ得る（例えば、Ａ尾部等）。

[00236] ライゲーションは、熱失活（例えば、６５℃で少なくとも２０分間のインキュベーション）、変性剤の添加又はＥＤＴＡ等のキレート剤の添加により阻害され得る。

Ｃ．制限消化
[00237] 制限消化は、制限エンドヌクレアーゼ（又は制限酵素）が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を開裂する（又は消化する）反応である。Ｉ型、ＩＩ型、ＩＩＩ型又はＩＶ型制限酵素を制限消化のために使用し得る。ＩＩ型制限酵素は、核酸消化のための最も効率的な制限酵素であり得る。ＩＩ型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を開裂し得る。前記制限酵素（及びそれらの制限部位）の例としては、AatII（ＧＡＣＧＴＣ）、AfeI（ＡＧＣＧＣＴ）、ApaI（ＧＧＧＣＣＣ）、DpnI（ＧＡＴＣ）、EcoRI（ＧＡＡＴＴＣ）、NgeI（ＧＣＴＡＧＣ）及びさらに多くが挙げられる。DpnI及びAfeI等の幾つかの制限酵素は、それらの制限部位を中央で切断し得、したがって平滑末端化されたｄｓＤＮＡ産物が残される。EcoRI及びAatII等の他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって粘着末端（又はねじれ型の末端）を有するｄｓＤＮＡ産物が残される。幾つかの制限酵素は、不連続の制限部位を標的とし得る。例えば、制限酵素AlwNIは、制限部位ＣＡＧＮＮＮＣＴＧを認識し、ここで、Ｎは、Ａ、Ｔ、Ｃ又はＧのいずれかであり得る。制限部位は、長さ少なくとも２塩基、４塩基、６塩基、８塩基、１０塩基又はそれよりも多くの塩基であり得る。

[00238] 幾つかのＩＩ型制限酵素は、それらの制限部位の外側の核酸を開裂する。この酵素は、ＩＩＳ型又はＩＩＧ型制限酵素に下位分類され得る。前記酵素は、パリンドロームでない制限部位を認識し得る。前記制限酵素の例としては、ＧＡＡＡＣを認識し、２塩基（同じ鎖）及び６塩基（逆の鎖）だけさらに下流にねじれ型開裂を作成するBbsIが挙げられる。別の例としては、ＧＧＴＣＴＣを認識し、１塩基（同じ鎖）及び５塩基（逆の鎖）だけさらに下流にねじれ型開裂を作成するBsaIが挙げられる。前記制限酵素は、ゴールデンゲートアセンブリ又はモジュラークローニング（MoClo）に使用され得る。BcgI（ＩＩＧ型制限酵素）等の幾つかの制限酵素は、その認識部位の両方の末端にねじれ型開裂を作成し得る。制限酵素は、それらの認識部位から少なくとも１塩基、５塩基、１０塩基、１５塩基、２０塩基又はそれよりも遠く離れた核酸を開裂し得る。前記制限酵素は、それらの認識部位の外側でねじれ型開裂を作成し得るため、得られる核酸突出の配列を任意に設計し得る。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内にねじれ型開裂を作成する制限酵素とは対照的である。制限消化により作成される核酸突出は、長さ少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基又はそれよりも多くの塩基であり得る。制限酵素により核酸を開裂する場合、得られる５’末端は、リン酸を含む。

[00239] １つ又は複数の核酸配列を制限消化反応に含め得る。同様に、１つ又は複数の制限酵素を一緒に制限消化反応に使用し得る。制限消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、ＢＳＡ、Ｓ－アデノシル－Ｌ－メチオニン（ＳＡＭ）又はこれらの組合せを含めた添加剤及び補助因子を含み得る。制限消化反応は、３７℃で１時間インキュベートされ得る。制限消化反応は、少なくとも０℃、１０℃、２０℃、３０℃、４０℃、５０℃又は６０℃の温度でインキュベートされ得る。最適な消化温度は、酵素に依存し得る。制限消化反応は、最大で１分間、１０分間、３０分間、６０分間、９０分間、１２０分間又はそれよりも長くインキュベートされ得る。より長いインキュベーション時間により、消化の増大をもたらし得る。

Ｄ．核酸増幅
[00240] 核酸増幅は、ポリメラーゼ連鎖反応又はＰＣＲを用いて実行され得る。ＰＣＲでは、核酸の出発プール（鋳型プール又は鋳型と呼ばれる）は、ポリメラーゼ、プライマー（短い核酸プローブ）、ヌクレオチド三リン酸（例えば、ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰ及びその類似体又はバリアント等）並びにベタイン、ＤＭＳＯ及びマグネシウムイオン等の追加的な補助因子及び添加剤と組み合わされ得る。鋳型は、一本鎖核酸又は二本鎖核酸であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。典型的には、ＰＣＲ反応には２種のプライマーが存在し、一方は、標的鋳型の上の鎖のプライマー結合部位に相補であり、他方は、第１の結合部位よりも下流の、標的鋳型の下の鎖のプライマー結合部位に相補的である。これらのプライマーがそれらの標的に結合する５’から３’への配向は、それらの間の核酸配列を問題なく複製し、指数関数的に増幅するために互いに向かい合っていなければならない。「ＰＣＲ」とは、典型的には、特に前記形態の反応を指し得るが、より一般的にはあらゆる核酸増幅反応を指すためにも使用され得る。

[00241] 幾つかの実施形態では、ＰＣＲは、３つの温度：融解温度、アニーリング温度及び伸長温度間を循環させることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変え、ハイブリダイゼーション産物及び二次構造の形成を除去することを目的とするものである。典型的には、融解温度は、高く、例えば９５℃を超える。幾つかの実施形態では、融解温度は、少なくとも９６℃、９７℃、９８℃、９９℃、１００℃、１０１℃、１０２℃、１０３℃、１０４℃又は１０５℃であり得る。他の実施形態では、融解温℃は、最大で９５℃、９４℃、９３℃、９２℃、９１℃又は９０℃であり得る。融解温度が高いほど、核酸及びそれらの二次構造の解離が改善されるが、核酸又はポリメラーゼの分解等の副作用も引き起こされる恐れがある。融解温度は、少なくとも１秒間、２秒間、３秒間、４秒間、５秒間又はそれよりも長く、例えば３０秒間、１分間、２分間又は３分間にわたって反応に適用され得る。複雑な又は長い鋳型を用いたＰＣＲには、より長い最初の融解温度ステップが推奨される場合がある。

[00242] アニーリング温度は、プライマーとそれらの標的鋳型との間のハイブリダイゼーションの形成を容易にすることを目的とするものである。幾つかの実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から１０℃又はそれよりも高い温度以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも２５℃、３０℃、５０℃、５５℃、６０℃、６５℃又は７０℃であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど、融解温度が高くなり得、グアニン又はシトシンヌクレオチドのパーセント含有量が高いプライマーほど、融解温度が高くなり得る。したがって、特定のアニーリング温度で最適に組み立てるように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間若しくは３０秒間にわたって又はそれよりも長く反応に適用され得る。アニーリングを確実にすることを補助するために、プライマー濃度を高くするか又は量を飽和させ得る。プライマー濃度は、５００ナノモル（ｎＭ）であり得る。プライマー濃度は、最大で１ｎＭ、１０ｎＭ、１００ｎＭ、１０００ｎＭ又はそれよりも高い濃度であり得る。

[00243] 伸長温度は、１つ又は複数のポリメラーゼ酵素により触媒されるプライマーの３’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。幾つかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、延長速度、延長安定性又は忠実度に関して最適に機能する温度に設定され得る。幾つかの実施形態では、伸長温度は、少なくとも３０℃、４０℃、５０℃、６０℃若しくは７０℃又はそれよりも高い温度であり得る。アニーリング温度は、少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、４０秒間、５０秒間若しくは６０秒間にわたって又はそれよりも長く反応に適用され得る。推奨される伸長時間は、予測される延長の１キロベース当たりおよそ１５～４５秒間であり得る。

[00244] ＰＣＲの幾つかの実施形態では、アニーリング温度及び伸長温度は、同じであり得る。したがって、２ステップ温度サイクルを３ステップ温度サイクルの代わりに使用し得る。複合アニーリング及び伸長温度の例としては、６０℃、６５℃又は７２℃が挙げられる。

[00245] 幾つかの実施形態では、ＰＣＲは、１つの温度サイクルで実行され得る。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、ＰＣＲは、複数の温度サイクルで実行され得る。ＰＣＲが効率的であれば、各サイクルで標的核酸分子の数が２倍になり、それにより元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。ＰＣＲの効率は、変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、１００％より多い又は少ないことがある。各ＰＣＲサイクルで変異した及び組み換えられた核酸等の望ましくないアーチファクトが導入される恐れがある。この潜在的な害を縮小するために、忠実度が高く、処理能力が高いポリメラーゼを使用し得る。さらに、限られた数のＰＣＲサイクルを使用し得る。ＰＣＲは、最大で１、５、１０、１５、２０、２５、３０、３５、４０、４５又はそれよりも多くのサイクルを伴い得る。

[00246] 幾つかの実施形態では、複数の別個の標的核酸配列は、１つのＰＣＲで一緒に増幅され得る。各標的配列が共通のプライマー結合部位を有する場合、全ての核酸配列は、同じプライマーセットを用いて増幅され得る。代替的に、ＰＣＲは、各々が別個の核酸を標的とすることが意図された複数のプライマーを含み得る。前記ＰＣＲは、多重ＰＣＲと呼ぶことができる。ＰＣＲは、最大で１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個又はそれよりも多くの別個のプライマーを伴い得る。複数の別個の核酸標的を有するＰＣＲでは、各ＰＣＲサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだ又は非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ（例えば、高忠実度及び配列頑強性を有する）及び最適なＰＣＲ条件を使用し得る。アニーリング及び伸長の温度及び時間等の因子を最適化し得る。さらに、限られた数のＰＣＲサイクルを使用し得る。

[00247] ＰＣＲの幾つかの実施形態では、鋳型中のその標的化プライマー結合部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を変異させ得る。ＰＣＲの幾つかの実施形態では、５’末端に余分の配列（突出として知られている）を有するプライマーを使用して、その標的化された核酸に配列を付着させ得る。例えば、５’末端にシーケンシングアダプタを含有するプライマーを使用して、シーケンシングのための核酸ライブラリを調製及び／又は増幅し得る。特定のシーケンシング技術のための十分な富化のために、シーケンシングアダプタを標的とするプライマーを使用して核酸ライブラリを増幅し得る。

[00248] 幾つかの実施形態では、プライマーが鋳型の一方の鎖のみ（両方の鎖ではなく）標的とする場合、線形ＰＣＲ（又は非対称ＰＣＲ）が使用される。線形ＰＣＲでは、各サイクルから複製される核酸は、プライマーと相補的なものではなく、したがって、プライマーは、その核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって線形（指数関数的なものとは対照的な）増幅になる。線形ＰＣＲからの増幅は、従来の（指数関数的な）ＰＣＲほど高速でない可能性があるが、最大収率は、より大きい可能性がある。理論的に、線形ＰＣＲにおけるプライマー濃度は、従来のＰＣＲでそうなるようなサイクルの増加及び収率の上昇での制限因子にはならない。指数関数的増幅後線形増幅ＰＣＲ（又はＬＡＴＥ－ＰＣＲ）は、特に高収率を可能にし得る線形ＰＣＲの改変バージョンである。

[00249] 核酸増幅の幾つかの実施形態では、融解、アニーリング及び伸長のプロセスは、単一の温度で行われ得る。そのようなＰＣＲは、等温性ＰＣＲと呼ぶことができる。等温性ＰＣＲでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるか又は置き換えるために温度に依存しない方法を活用し得る。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法及びニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で２０℃、３０℃、４０℃、５０℃、６０℃若しくは７０℃又はそれよりも高い温度で行われ得る。

[00250] 幾つかの実施形態では、ＰＣＲは、サンプル中の核酸の量を数量化するために蛍光プローブ又は色素をさらに含み得る。例えば、色素は、二本鎖核酸に挿入され得る。前記色素の例は、SYBR Greenである。蛍光プローブは、蛍光単位が付着した核酸配列であり得る。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後、伸長ポリメラーゼ単位から修飾されると放出され得る。前記プローブの例としては、TaqManプローブが挙げられる。そのようなプローブをＰＣＲ及び光学的測定ツール（励起及び検出のための）と併せて使用して、試料中の核酸濃度を数量化し得る。このプロセスは、定量的ＰＣＲ（ｑＰＣＲ）又はリアルタイムＰＣＲ（ｒｔＰＣＲ）と呼ぶことができる。

[00251] 幾つかの実施形態では、ＰＣＲは、複数の鋳型分子のプールに対してではなく、単一の分子鋳型に対して（単一分子ＰＣＲと呼ぶことができるプロセスで）実行され得る。例えば、エマルジョン－ＰＣＲ（ｅＰＣＲ）を使用して、単一の核酸分子を油エマルジョン中の水滴中に封入し得る。水滴は、ＰＣＲ試薬も含み得、水滴を、ＰＣＲのための必要な温度サイクリングが可能な温度調節された環境で保持し得る。このように、複数の自蔵式ＰＣＲ反応を同時に高スループットで行い得る。界面活性物質を用いて油エマルジョンの安定性を改善し得る。マイクロ流体チャネルを通して圧力を用いて液滴の動きを制御し得る。マイクロ流体デバイスは、液滴を作成し、液滴を分割し、液滴を同化させ、材料を液滴中に注入し、及び液滴をインキュベートするために使用され得る。油エマルジョン中の水滴のサイズは、少なくとも１ピコリットル（ｐＬ）、１０ｐＬ、１００ｐＬ、１ナノリットル（ｎＬ）、１０ｎＬ、１００ｎＬ又はそれよりも大きいサイズであり得る。

[00252] 幾つかの実施形態では、単一分子ＰＣＲは、固相基板上で実行され得る。例としては、Illumina固相増幅法又はその変形形態が挙げられる。鋳型プールを固相基板に暴露させ、固相基板は、鋳型を特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより単一分子を基板上において高スループットで増幅し得る。

[00253] 高スループット単一分子ＰＣＲは、互いに妨げる可能性がある別個の核酸のプールを増幅するために有用であり得る。例えば、複数の別個の核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがＰＣＲ反応中に起こり、その結果、新しい組み換えられた核酸がもたらされ得る。単一分子ＰＣＲでは、別個の核酸配列が互いに区画化され、したがって相互作用することができないため、この潜在的な増幅エラーが防止される。単一分子ＰＣＲは、シーケンシングのための核酸を調製するために特に有用であり得る。単一分子ＰＣＲは、鋳型プール中の幾つかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルＰＣＲ（又はｄＰＣＲ）では、別個の単一分子ＰＣＲ増幅シグナルの頻度を使用して、サンプル中の出発核酸分子の数を推定する。

[00254] ＰＣＲの幾つかの実施形態では、全ての核酸に共通するプライマー結合部位に対するプライマーを使用し、核酸の群を非差別的に増幅し得る。例えば、プライマー結合部位に対するプライマーは、プール中の全ての核酸に隣接している。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリを作成又は組み立て得る。しかしながら、幾つかの実施形態では、ＰＣＲを使用し得、それにより、例えばプライマーを、前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合部位と使用することにより、標的化された核酸のサブセットをプールから選択的に増幅し得る。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に増幅するために、目的の潜在的サブライブラリに属する核酸の全てがそれらの端部に共通のプライマー結合部位を共有する（サブライブラリ中では共通するが、他のサブライブラリとは別個）ように作成されるか又は組み立てられ得る。幾つかの実施形態では、ＰＣＲを核酸アセンブリ反応（例えば、ライゲーション又はＯＥＰＣＲ等）と組み合わせて、完全に組み立てられた又は潜在的に完全に組み立てられた核酸を、部分的に組み立てられた又は誤って組み立てられた（又は意図されたものではない若しくは望ましくない）副産物から選択的に増幅し得る。例えば、アセンブリは、核酸を各縁配列上のプライマー結合部位と、完全に組み立てられた核酸産物のみが増幅のための必須の２つのプライマー結合部位を含むように組み立てることを伴い得る。前記例では、部分的に組み立てられた産物は、プライマー結合部位を有する縁配列のいずれも含まない又はその一方のみを含む可能性があり、したがって増幅されないはずである。同様に、誤って組み立てられた（又は意図されたものではない若しくは望ましくない）産物は、縁配列のいずれも含まないか若しくはその一方のみを含むか又は両方の縁配列を含むが、誤った配向である若しくは誤った量の塩基により分離されている。したがって、前記誤って組み立てられた産物は、増幅されないか又は増幅されて誤った長さの産物が作成されるはずである。後者の場合、誤った長さの増幅された誤って組み立てられた産物は、正しい長さの増幅された完全に組み立てられた産物から、アガロースゲルでのＤＮＡ電気泳動、その後のゲル抽出等の核酸サイズ選択方法（化学的方法セクションＥを参照されたい）により分離され得る。

[00255] 核酸増幅の効率を改善するために、ＰＣＲに添加剤を含め得る。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）又はこれらの組合せの添加である。添加剤含有量（体積当たりの重み）は、少なくとも０％、１％、５％、１０％、２０％又はそれを超え得る。

[00256] 種々のポリメラーゼがＰＣＲに使用可能である。ポリメラーゼは、天然に存在するもの又は合成されたものであり得る。ポリメラーゼの例は、Φ２９ポリメラーゼ又はその誘導体である。幾つかの場合、新しい核酸配列を構築するために、転写酵素又はリガーゼ（即ち結合の形成を触媒する酵素）がポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌（E. coli）ＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、白金Ｔａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Phusionポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ並びにそのバリアント、修飾産物及び誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定に及び最適に機能し得る。さらに、異なるポリメラーゼは、異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸伸長中、より高い忠実度に寄与し得る３’から５’へのエキソヌクレアーゼ活性を示し得る。ポリメラーゼによっては、伸長中にリーディング配列を動かし得るものもあれば、それらを分解し得るか又は伸長を停止し得るものもある。Ｔａｑのような一部のポリメラーゼは、アデニン塩基を核酸配列の３’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度及び処理能力を有し得、増幅された核酸収率のために最小の変異を有することが重要である場合及び別個の核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシーケンシング調製等のＰＣＲ適用により適切であり得る。

Ｅ．サイズ選択
[00257] サイズ選択技法を使用して特定のサイズの核酸をサンプルから選択し得る。幾つかの実施形態では、サイズ選択は、ゲル電気泳動又はクロマトグラフィを使用して実行され得る。核酸の液体サンプルは、固定相又はゲル（又はマトリックス）の一方の電極にロードされ得る。ゲルの負極は、核酸サンプルがロードされる電極になり、ゲルの陽極が逆の電極になるようにゲルにわたって電圧差をかけ得る。核酸は、負に荷電したリン酸骨格を有するため、ゲルにわたって陽極に移動することができる。核酸のサイズにより、核酸がゲルを通る相対的な移動速度が決まる。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解されることになる。電圧差は、１００Ｖ又は１２０Ｖであり得る。電圧の差異は、最大で５０Ｖ、１００Ｖ、１５０Ｖ、２００Ｖ、２５０Ｖ又はそれよりも大きい差異であり得る。電圧の差異が大きいほど、核酸移動の速度及びサイズ分解能が大きくなり得る。しかしながら、電圧差が大きいと、核酸又はゲルの損傷も生じ得る。より大きいサイズの核酸を分解するために、より大きい電圧の差異が推奨される場合がある。典型的な移動時間は、１５分間～６０分間であり得る。移動時間は、最大で１０分間、３０分間、６０分間、９０分間、１２０分間又はそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きいサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、２００塩基の核酸を２５０塩基の核酸から分解するために、１２０Ｖの電圧の差異及び３０分の移動時間で十分であり得る。

[00258] ゲル又はマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、典型的には、ＴＡＥ（トリス－酢酸－ＥＤＴＡ）又はＴＢＥ（トリス－ホウ酸－ＥＤＴＡ）等の伝導性緩衝剤中に分散したアガロース又はポリアクリルアミド等のポリマー物質を含む。ゲル中の物質（例えば、アガロース又はアクリルアミド）の含有量（体積当たりの重み）は、最大で５％、１％、２％、３％、５％、１０％、１５％、２０％、２５％又はそれを超え得る。含有量が高いほど、移動速度が低下し得る。より小さい核酸を分解するために、より高い含有量が好ましい場合がある。二本鎖ＤＮＡ（ｄｓＤＮＡ）を分解するためにアガロースゲルがより良好であり得る。一本鎖ＤＮＡ（ｓｓＤＮＡ）を分解するためにポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型及びサイズ、添加剤（例えば、色素、染料、変性溶液又はローディング緩衝剤）の適合性並びに先行する下流の適用（例えば、ゲル抽出、次いでライゲーション、ＰＣＲ又はシーケンシング）に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるホウ酸（酵素阻害剤）持ち越し汚染により下流の酵素反応が阻害される可能性があるため、ＴＡＥは、ＴＢＥほど良好な伝導体ではないが、同様にゲル抽出に関してより良好であり得る。

[00259] ゲルは、ＳＤＳ（ドデシル硫酸ナトリウム）又は尿素等の変性溶液をさらに含み得る。ＳＤＳは、例えば、タンパク質を変性させるか、又は核酸を潜在的に結合したタンパク質から単離するために使用され得る。尿素は、ＤＮＡの二次構造を変性させるために使用され得る。例えば、尿素により、ｄｓＤＮＡをｓｓＤＮＡに変換し得るか、又は尿素により、フォールディングされたｓｓＤＮＡ（例えば、ヘアピン）を、フォールディングされていないｓｓＤＮＡに変換し得る。ｓｓＤＮＡを正確に分解するために尿素－ポリアクリルアミドゲル（ＴＢＥをさらに含む）を使用し得る。

[00260] サンプルは、ゲルに異なる形式で組み入れることができる。幾つかの実施形態では、ゲルは、サンプルを手動でロードし得るウェルを含み得る。１つのゲルは、複数の核酸サンプルを流すための複数のウェルを有し得る。他の実施形態では、ゲルは、核酸サンプルを自動的にロードするマイクロ流体チャネルに付着され得る。各ゲルは、幾つかのマイクロ流体チャネルの下流にあり得、ゲル自体が別々のマイクロ流体チャネルを占有し得る。ゲルの寸法が核酸検出（又は可視化）の感度に影響を及ぼし得る。例えば、薄いゲル又はマイクロ流体チャネルの内側にあるゲル（例えば、バイオアナライザ又はテープステーション中のもの等）により、核酸検出の感度を改善し得る。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。

[00261] 核酸サイズ参照のためにゲルにラダーをロードし得る。ラダーは、核酸サンプルを比較し得る種々のサイズのマーカーを含み得る。異なるラダーは異なるサイズ範囲及び分解能を有し得る。例えば、５０塩基のラダーは、５０塩基、１００塩基、１５０塩基、２００塩基、２５０塩基、３００塩基、３５０塩基、４００塩基、４５０塩基、５００塩基、５５０塩基及び６００塩基のところにマーカーを有し得る。前記ラダーは、５０塩基から６００塩基のサイズ範囲内の核酸を検出し、選択するのに有用であり得る。ラダーは、サンプル中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。

[00262] 核酸サンプル及びラダーは、ローディング緩衝剤と混合されて、ゲル電気泳動（又はクロマトグラフィ）プロセスを容易にし得る。ローディング緩衝剤は、核酸の移動の追跡を補助するための色素及びマーカーを含み得る。ローディング緩衝剤は、核酸サンプルがサンプルロードウェル（ランニング緩衝剤中に浸され得る）の底部に沈むことを確実にするために、ランニング緩衝剤（例えば、ＴＡＥ又はＴＢＥ）よりも密度の高い試薬（例えば、グリセロール等）をさらに含み得る。ローディング緩衝剤は、ＳＤＳ又は尿素等の変性剤をさらに含み得る。ローディング緩衝剤は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝剤は、核酸をヌクレアーゼから保護するためのＥＤＴＡを含み得る。

[00263] 幾つかの実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用し得る染料を含み得る。染料は、ｄｓＤＮＡ、ｓｓＤＮＡ又はその両方に特異的なものであり得る。異なる染料を異なるゲル物質に適合させ得る。幾つかの染料は、可視化のために光源光（又は電磁波）からの励起を必要とし得る。光源光は、ＵＶ（紫外線）又は青色光であり得る。幾つかの実施形態では、染料をゲルに電気泳動前に添加し得る。他の実施形態では、染料をゲルに電気泳動後に添加し得る。染料の例としては、臭化エチジウム（ＥｔＢｒ）、SYBR Safe、SYBR Gold、銀染色又はメチレンブルーが挙げられる。特定のサイズのｄｓＤＮＡを可視化するための信頼できる方法は、例えば、アガロースＴＡＥゲルをSYBR Safe又はＥｔＢｒ染色と一緒に使用することであり得る。特定のサイズのｓｓＤＮＡを可視化するための信頼できる方法は、例えば、尿素－ポリアクリルアミドＴＢＥゲルをメチレンブルー又は銀染色と一緒に使用することであり得る。

[00264] 幾つかの実施形態では、ゲルを通る核酸の移動は、電気泳動に加えて他の方法により駆動され得る。例えば、重力、遠心分離、真空又は圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解し得る。

[00265] 刃又は剃刀を使用して特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出し得る。切り出しが特定のバンドで的確に行われること及び切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が問題なく排除されることを確実にするために、適当な光学的検出技法及びＤＮＡラダーを使用し得る。ゲルバンドを緩衝剤と一緒にインキュベートしてゲルバンドを融解させ、したがって核酸を緩衝液中に放出させ得る。加熱又は物理的撹拌により、融解の速度を上げ得る。代替的に、ゲルバンドを、緩衝剤中において、ゲル融解を必要とせずにＤＮＡの緩衝液中への拡散を可能にするために十分に長くインキュベートし得る。次いで、緩衝剤を残りの固相ゲルから例えば吸引又は遠心分離により分離し得る。次いで、核酸を、フェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉及び／又はシリカ膜吸着等の標準の精製又は緩衝剤交換技法、洗浄並びに溶出を使用して溶液から精製し得る。このステップで核酸を濃縮することもできる。

[00266] ゲル切り出しの代替として、特定のサイズの核酸をゲルから流出させることによりゲルから単離し得る。移動している核酸は、ゲルに埋め込まれたか又はゲルの最後にあるたらい（又はウェル）を通過し得る。移動プロセスについて時間を計るか又は光学的にモニタリングし、それにより特定のサイズの核酸群がたらいに入ったとき、サンプルがたらいから収集される。収集は、例えば、吸引により行われ得る。次いで、核酸は、収集された溶液からフェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉及び／又はシリカ膜吸着等の標準の精製又は緩衝剤交換技法、洗浄並びに溶出を使用して精製され得る。このステップで核酸を濃縮することもできる。

[00267] 核酸サイズ選択のための他の方法としては、質量分光測定又は膜に基づく濾過を挙げることができる。膜に基づく濾過の幾つかの実施形態では、核酸は、ｄｓＤＮＡ、ｓｓＤＮＡ又はその両方に優先的に結合し得る膜（例えば、シリカ膜）を通過される。膜は、少なくとも特定のサイズの核酸を優先的に捕捉するように設計され得る。例えば、膜を、２０塩基未満、３０塩基未満、４０塩基未満、５０塩基未満、７０塩基未満、９０塩基未満又はそれよりも多くの塩基未満の核酸を濾過して取り除くように設計し得る。前記膜に基づくサイズ選択技法は、ゲル電気泳動又はクロマトグラフィほどストリンジェントでないことがある。

Ｆ．核酸捕捉
[00268] アフィニティタグ付き核酸は、核酸捕捉のための配列特異的なプローブとして使用され得る。プローブは、核酸のプール内の標的配列と相補的になるように設計され得る。続けて、プローブは、核酸プールと一緒にインキュベートされ、その標的とハイブリダイズされ得る。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにし得る。インキュベーション温度は、プローブの融解温度を５℃下回る温度まで、１０度下回る温度まで、１５度下回る温度まで、２０度下回る温度まで、２５度下回る温度まで又はそれを大きく下回るまでであり得る。ハイブリダイズされた標的は、アフィニティタグに特異的に結合する固相基板に捕捉され得る。固相基板は、膜、ウェル、カラム又はビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸は、全て標的から除去され得る。洗浄は、洗浄中の標的配列の安定な固定化を容易にするために、プローブの融解温度を下回る温度で行われ得る。洗浄温度は、プローブの融解温度を５℃下回る温度まで、１０℃下回る温度まで、１５℃下回る温度まで、２０℃下回る温度まで、２５℃下回る温度まで、又はそれを大きく下回る温度までであり得る。最終的な溶出ステップにより、核酸標的を固相基板及びアフィニティタグ付きプローブから収集し得る。溶出ステップは、核酸標的の溶出緩衝剤中への放出を容易にするためにプローブの融解温度を上回る温度で行われ得る。溶出温度は、プローブの融解温度を５℃上回る温度まで、１０℃上回る温度まで、１５℃上回る温度まで、２０℃上回る温度まで、２５℃上回る温度まで又はそれを大きく上回る温度までであり得る。

[00269] 特定の実施形態では、固相基板に結合したオリゴヌクレオチドは、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応若しくは脱離反応化学又は酵素的開裂等の条件に対する暴露により固相基板から除去され得る。特定の実施形態では、オリゴヌクレオチドは、開裂可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化オリゴヌクレオチドに共有結合するための開裂可能なリンカーを提供し得る。幾つかの実施形態では、リンカー部分は、６原子以上の長さのリンカーであり得る。幾つかの実施形態では、開裂可能リンカーは、ＴＯＰＳ（１合成当たり２個のオリゴヌクレオチドの）リンカー、アミノリンカー又は光開裂可能リンカーであり得る。

[00270] 幾つかの実施形態では、ビオチンは、固相基板上のストレプトアビジンにより固定化されるアフィニティタグとして使用され得る。ビオチン化オリゴヌクレオチドは、核酸捕捉プローブとして使用するように設計され、製造され得る。オリゴヌクレオチドの５’末端又は３’末端をビオチン化することができる。オリゴヌクレオチドの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン基板でのより強力な捕捉をもたらし得る。オリゴの３’末端のビオチンにより、ＰＣＲ中にオリゴが伸長することを遮断し得る。ビオチンタグは、標準のビオチンのバリアントであり得る。例えば、ビオチンバリアントは、ビオチン－ＴＥＧ（トリエチレングリコール）、二重ビオチン、ＰＣビオチン、デスチオビオチン－ＴＥＧ及びビオチンアジ化物／アジドであり得る。二重ビオチンは、ビオチン－ストレプトアビジン親和性を増大させ得る。ビオチン－ＴＥＧは、ＴＥＧリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えばその標的とのハイブリダイゼーションに干渉することを防止し得る。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。

[00271] ビオチン化核酸プローブは、その標的にどのように良好にハイブリダイズすることができるかを考慮して設計され得る。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズされ得る。より長い核酸プローブ及びＧＣ含量がより高いプローブは、融解温度が上昇するため、より強力にハイブリダイズされ得る。核酸プローブは、少なくとも５塩基、１０塩基、１５塩基、２０塩基、３０塩基、４０塩基、５０塩基若しくは１００塩基又はそれよりも多くの塩基の長さを有し得る。核酸プローブは、０％～１００％のいずれかのＧＣ含量を有し得る。プローブの融解温度がストレプトアビジン基板の温度許容度を超えないことを確実にするために注意を払い得る。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体及びヘテロ二量体等の阻害性二次構造が回避されるように設計され得る。プローブ融解温度とオフターゲットの結合との間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さ及びＧＣ含量が存在し得る。合成核酸ライブラリは、その核酸が効率的なプローブ結合部位を含むように設計され得る。

[00272] 固相ストレプトアビジン基板は、磁気ビーズであり得る。磁気ビーズは、磁気ストリップ又はプレートを使用して固定化され得る。磁気ストリップ又はプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップ又はプレートを容器から取り出して、磁気ビーズを容器壁から溶液中に放出させ得る。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径１マイクロメートル（μｍ）～３マイクロメートル（μｍ）のいずれかであり得る。ビーズは、最大で１マイクロメートル、２マイクロメートル、３マイクロメートル、４マイクロメートル、５マイクロメートル、１０マイクロメートル、１５マイクロメートル、２０マイクロメートル又はそれを超える直径を有し得る。ビーズ表面は、疎水性又は親水性であり得る。ビーズは、遮断性タンパク質、例えばＢＳＡでコーティングされ得る。使用前に、ビーズが核酸に非特異的に結合することを防止するために、ビーズを洗浄するか又は遮断性溶液等の添加剤で前処理し得る。

[00273] ビオチン化プローブは、磁性ストレプトアビジンビーズとカップリングした後、核酸サンプルプールと一緒にインキュベートされ得る。このプロセスは、直接捕捉と呼ぶことができる。代替的に、ビオチン化プローブを核酸サンプルプールと一緒にインキュベートした後、磁性ストレプトアビジンビーズを添加し得る。このプロセスは、間接的な捕捉と呼ぶことができる。間接的な捕捉方法により、標的の収率を改善し得る。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくし得る。

[00274] 核酸プローブと核酸サンプルとの最適なインキュベーションは、プローブの融解温度を１～１０℃又はそれを大きく下回る温度で行われ得る。インキュベーション温度は、最大で５℃、１０℃、２０℃、３０℃、４０℃、５０℃、６０℃、７０℃、８０℃又はそれよりも高い温度であり得る。推奨されるインキュベーション時間は、１時間であり得る。インキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間又はそれよりも長い時間であり得る。インキュベーション時間が長いほど、良好な捕捉効率を導くことができる。ビオチン－ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに１０分間のインキュベーションを行い得る。この追加的な時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間又はそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオン等の添加剤を伴う緩衝液中で行われ得る。

[00275] 核酸プールが一本鎖核酸である場合（二本鎖とは対照的に）、プローブとその標的とのハイブリダイゼーションを改善し得る。ｓｓＤＮＡプールをｄｓＤＮＡプールから調製するには、一般にプール中の全ての核酸配列の端部に結合する１つのプライマーを用いて線形ＰＣＲを実施することが必要になり得る。核酸プールが合成により作成又は組み立てられたものである場合、この共通のプライマー結合部位を合成設計に含め得る。線形ＰＣＲの産物は、ｓｓＤＮＡになる。核酸捕捉のためのより多くの出発ｓｓＤＮＡ鋳型をより多くの線形ＰＣＲのサイクルで生成し得る。ＰＣＲについては、化学的方法セクションＤを参照されたい。

[00276] 核酸プローブがそれらの標的とハイブリダイズされ、磁性ストレプトアビジンビーズとカップリングされた後、ビーズを磁石により固定化し、幾つかのラウンドの洗浄を行い得る。非標的核酸を除去するために３～５回の洗浄で十分であり得るが、それよりも多い又は少ないラウンドの洗浄を使用し得る。増やした洗浄の各々により、標的化されていない核酸をさらに減少させ得るが、標的核酸の収率も低下し得る。洗浄ステップ中の標的核酸とプローブとの適当なハイブリダイゼーションを容易にするために、低いインキュベーション温度を使用し得る。６０℃、５０℃、４０℃、３０℃、２０℃、１０℃若しくは５℃又はそれよりも低い低温を使用し得る。洗浄緩衝剤は、ナトリウムイオンを伴うトリス緩衝液を含み得る。

[00277] ハイブリダイズした標的の磁気ビーズカップリングプローブからの最適な溶出は、プローブの融解温度以上の温度で行われ得る。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で３０℃、４０℃、５０℃、６０℃、７０℃、８０℃若しくは９０℃又はそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で１分間、２分間、５分間、１０分間、３０分間、６０分間又はそれよりも長い時間であり得る。典型的なインキュベーション時間は、およそ５分間であり得るが、より長いインキュベーション時間により収率を改善し得る。溶出緩衝剤は、ＥＤＴＡ等の添加剤を伴う水又はトリス緩衝液であり得る。

[00278] 別個の部位のセットの少なくとも１つ又は複数を含有する標的配列の核酸捕捉は、それらの部位の各々に対して複数の別個のプローブを用いて１つの反応で実行され得る。別個の部位のセットのあらゆるメンバを含む標的配列の核酸捕捉は、その特定の部位に対するプローブを使用して別個の各部位に対して１つの反応である一連の捕捉反応で実行され得る。一連の捕捉反応後の標的の収率は、低い可能性があるが、その後、捕捉された標的をＰＣＲで増幅し得る。核酸ライブラリが合成により設計されたものである場合、標的は、ＰＣＲのために共通のプライマー結合部位を有するように設計され得る。

[00279] 一般的な核酸捕捉のために、共通のプローブ結合部位を有する合成核酸ライブラリを作成又は組み立て得る。これらの共通部位は、完全に組み立てられた又は潜在的に完全に組み立てられた核酸をアセンブリ反応から選択的に捕捉し、それにより部分的に組み立てられた又は誤って組み立てられた（又は意図されたものではない若しくは望ましくない）副産物を濾過して取り除くために使用され得る。例えば、アセンブリは、完全に組み立てられた核酸産物のみが、各プローブを使用した一連の２つの捕捉反応を通過するのに必要な必須の２つのプローブ結合部位を含むように、各縁配列にプローブ結合部位を有する核酸を組み立てることを含み得る。前記例では、部分的に組み立てられた産物は、プローブ部位のいずれも含有しないか又は一方のみを含み得、したがって最終的に捕捉されないはずである。同様に、誤って組み立てられた（又は意図されたものではない若しくは望ましくない）産物も、縁配列のいずれも含まない又はその一方のみを含み得る。したがって、前記誤って組み立てられた産物は、最終的に捕捉されない。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合部位を含め得る。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全に組み立てられた産物（各成分を含む）のみをアセンブリ反応のあらゆる副産物から単離し得る。その後のＰＣＲにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善し得る。

[00280] 幾つかの実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉し得る。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合部位を有するプローブを使用することによるものである。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に捕捉するために、目的の潜在的なサブライブラリに属する核酸の全てが共通のプローブ結合部位を共有する（サブライブラリ内で共通であるが、他のサブライブラリとは別個）ように作成又は組み立てることができる。

Ｇ．凍結乾燥
[00281] 凍結乾燥は、脱水プロセスである。核酸及び酵素の両方を凍結乾燥し得る。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物（例えば、活性酵素）を維持するために、化学的安定剤等の添加剤を使用し得る。スクロース及びトレハロース等の二糖を化学的安定剤として使用し得る。

Ｈ．ＤＮＡ設計
[00282] 合成ライブラリ（例えば、識別子ライブラリ）を構築するための核酸の配列（例えば、成分）は、合成、シーケンシング及びアセンブリの複雑化が回避されるように設計され得る。さらに、配列は、合成ライブラリの構築費用が低減され、及び合成ライブラリを保管することができる寿命が改善されるように設計され得る。

[00283] 核酸は、合成するのが難しい場合がある長いホモポリマーの列（又は反復塩基配列）が回避されるように設計され得る。核酸は、２を超える、３を超える、４を超える、５を超える、６を超える、７を超える又はそれよりも長いホモポリマーの長さが回避されるように設計され得る。さらに、核酸は、それらの合成プロセスを阻害する恐れがあるヘアピンループ等の二次構造の形成が回避されるように設計され得る。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成し得る。合成ライブラリを構築するための核酸は、短く設計され得る。核酸が長いほど、合成が難しく、費用がかかる恐れがある。核酸が長いほど、合成間の変異の機会も増大する。核酸（例えば、成分）は、最大で５塩基、１０塩基、１５塩基、２０塩基、２５塩基、３０塩基、４０塩基、５０塩基、６０塩基又はそれよりも多くの塩基であり得る。

[00284] アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計され得る。ＯＥＰＣＲ及びライゲーションベースのアセンブリ反応の核酸配列考慮事項の詳細な情報については、化学的方法セクションＡ及びＢをそれぞれ参照されたい。効率的なアセンブリ反応は、典型的には、隣接成分間のハイブリダイゼーションを含む。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に、潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計され得る。ロックド核酸（ＬＮＡ）等の核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化し得る。これらの修飾核酸は、例えば、ステープル鎖ライゲーションにおけるステープルとして又は粘着鎖ライゲーションにおける粘着末端として使用され得る。合成核酸ライブラリ（又は識別子ライブラリ）を構築するために使用することができる他の修飾塩基としては、２，６－ジアミノプリン、５－ブロモｄＵ、デオキシウリジン、反転ｄＴ、反転ジデオキシ－Ｔ、ジデオキシ－Ｃ、５－メチルｄＣ、デオキシイノシン、Super T、Super G又は５－ニトロインドールが挙げられる。核酸は、１つ又は複数の同じ又は異なる修飾塩基を含み得る。前記修飾塩基の幾つかは、より高い融解温度を有し、したがってアセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体（例えば、５－メチルｄＣ及び２，６－ジアミノプリン）である。前記修飾塩基の幾つかは、全ての天然の塩基に結合することができ、したがって望ましい結合部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基（例えば、５－ニトロインドール）である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマー及びプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするため、プライマー（例えば、ＰＣＲ用）及びプローブ（例えば、核酸捕捉用）に有用であり得る。核酸増幅（又はＰＣＲ）及び核酸捕捉に関する詳細な核酸設計考慮事項については、化学的方法セクションＤ及びＦをそれぞれ参照されたい。

[00285] 核酸は、シーケンシングが容易になるように設計され得る。例えば、核酸は、二次構造、一続きのホモポリマー、反復配列及びＧＣ含有率が高すぎる又は低すぎる配列等の典型的なシーケンシング複雑化が回避されるように設計され得る。特定のシークエンサ又はシーケンシング方法は、エラープローンであり得る。合成ライブラリ（例えば、識別子ライブラリ）を構成する核酸配列（又は成分）は、互いからの特定のハミング距離で設計され得る。このように、シーケンシングにおいて塩基分解能エラーが高い率で生じる場合でも、エラーを含む配列の一続きをなおそれらの最も可能性がある核酸（又は成分）にマッピングして戻すことができる。核酸配列は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１１塩基、１２塩基、１３塩基、１４塩基、１５塩基又はそれよりも多くの塩基の変異のハミング距離で設計され得る。ハミング距離の代替距離メトリックを使用して、設計される核酸間の最小の必要距離を規定することもできる。

[00286] 幾つかのシーケンシング方法及び計器では、アダプタ配列又はプライマー結合部位等の特定の配列を含有させるために入力核酸が必要になり得る。これらの配列は、「方法特異的配列」と呼ぶことができる。前記シーケンシング計器及び方法の典型的な予備的ワークフローは、方法特異的配列を核酸ライブラリと組み立てることを含み得る。しかしながら、合成核酸ライブラリ（例えば、識別子ライブラリ）が特定の計器又は方法でシーケンシングされることが事前に分かっている場合、これらの方法特異的配列は、ライブラリ（例えば、識別子ライブラリ）を含む核酸（例えば、成分）中に設計され得る。例えば、合成核酸ライブラリのメンバ自体が個々の核酸成分から組み立てられるのと同じ反応ステップで合成核酸ライブラリのメンバ上にシーケンシングアダプタを組み立て得る。

[00287] 核酸は、ＤＮＡ損傷を容易にし得る配列が回避されるように設計され得る。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避し得る。別の例として、ＵＶＢ（紫外線－Ｂ）光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシーケンシング及びＰＣＲが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリがＵＶＢに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン（即ちＴＴ）が回避されるように設計することが有益であり得る。

[00288] 化学的方法セクション内に含まれる全ての情報は、本明細書に記載の技術、方法、プロトコル、システム及びプロセスをサポートし、可能にすることを目的とする。

アジド－アルキン修飾を用いて成分から識別子を組み立てる方法
[00289] 化学的及び／又は生物学的ライゲーション方法を使用して２つ以上の核酸成分を一緒にライゲーションし、識別子を作成し得る。幾つかの実施形態では、「クリックケミストリ」等の化学的ライゲーション方法対酵素ライゲーション等の生物学的方法に伴う利点が存在し得る。

[00290] クリックケミストリ又は銅触媒アジド－アルキン付加環化（ＣｕＡＡＣ）は、ヒュスゲン１，３－双極子付加環化反応の変形形態である。反応において、アルキン基及びアジド基は、反応してトリアゾールホスホジエステル模倣体を形成する。現行の方法は、Ｃｕ（Ｉ）イオンを使用してこの反応の特異性、速度及び収率を増加させる。反応は、一部のアルキンで速くなり得、およそ１分の反応完了時間が報告されている。反応時間は、３０秒、６０秒、９０秒、１２０秒、１５０秒、１８０秒又はそれより長い時間であり得る。反応は、ロバストでもあり得、広いｐＨ範囲に対して耐性を示す。

[00291] クリックケミストリを使用する化学的ライゲーションは、鋳型（又はステープル若しくはスプリント）オリゴヌクレオチドを用いて２つの１本鎖核酸成分間で起こり得る。代替的に、化学的ライゲーションは、共通する相補的突出（又は粘着末端）が存在する場合、２本鎖核酸成分間でも起こり得る。クリックケミストリによる化学的ライゲーションを使用して、上述した産物方式（図６）、順列方式（図１１）、MchooseK方式（図１２）、区画方式（図１３）又は非制約列方式（図１４）に従って識別子を構築し得る。

[00292] クリックケミストリを使用した成分のライゲーションでは、ある成分が少なくとも１つのアルキン基を有し、別の成分が少なくとも１つのアジド基を有する必要がある。ある成分の３’末端が別の成分の５’末端にライゲーションするように隣接する成分上に相補的修飾が位置する限り、いずれの修飾がある核酸成分の５’末端にあるか又は３’末端にあるかは、重要ではない。

[00293] 幾つかの異なるタイプのアルキン－アジド結合をクリックケミストリで使用し得る。ＰＣＲ等の分子生物学的方法に適合するアルキン－アジド結合は、識別子の生成に特に適し得る。識別子の特定のプールが１つ又は複数のアルキン－アジド結合を含む場合、識別子は、ＰＣＲを使用して、それらの自然形態（塩基間にホスホジエステル結合を有する）にコピーされ得る。

多要素成分から識別子を組み立てる方法
[00294] 識別子を含む成分は、異なる機能を有する２つ以上の部分に分割され得る。例えば、各成分は、２つの部分を有し得る：データアクセスのために核酸プローブにハイブリダイズすることが意図される１つの長い部分及びシーケンシングの読取りが意図される別の短い部分。２つの部分は、分離され得、最終的な識別子産物が２つの機能的に異なる領域を有するように、各縁部で識別子に組み付けられることが意図される。片側の１つの領域は、化学的アクセスのためのものであり、逆側の１つの領域は、シーケンシングのためのものである。

[00295] 図２２は、各層からの成分が産物方式に従って一緒になる、識別子の粘着末端ライゲーションアセンブリでのこの概念の一例の概略図を与える。第１の層は、連結した２部成分により識別子アセンブリプロセスの核となり、後続層は、両縁部から識別子に組み付けられる分離した２部成分を含む。粘着末端の上の記号は、それらの配列を表す。異なる記号を有する粘着末端は、直交する。記号の隣の星印は、逆相補鎖を表す。例えば、「ａ」及び「ａ^＊」は、互いの逆相補鎖であり、したがってライゲーション中にハイブリダイズして産物を形成することになる。

塩基エディタを用いて識別子を構築する方法
[00296] 塩基エディタを使用して、親識別子内の特定の座に位置する塩基をプログラム可能に変異させ、新しい識別子を構築し得る。一実施形態では、塩基エディタは、シトシン（Ｃ）をウラシル（Ｕ）に変換するシチジンデアミナーゼに融合したｄＣａｓ９タンパク質であり得る。親識別子は、ガイドＲＮＡ（ｇＲＮＡ）が結合する幾つかの直交標的を有するように設計され得る。標的座は、その座で結合したｄＣａｓ９－デアミナーゼの活性範囲内に１つ又は複数のシトシンを含有し得る。活性範囲は、座内の１塩基、２塩基、３塩基、４塩基、５塩基、６塩基又はそれより多くの塩基であり得る。続けて、親識別子をｄＣａｓ９－デアミナーゼ及び特定の座に関するｇＲＮＡのサブセットと共にインキュベートすると、それらの標的座の各々で１つ又は複数のシトシンからウラシルへの変異が生じ得る。さらに、ＤＮＡポリメラーゼは、ウラシルをチミンとして認識し、したがって変異した識別子に対してＰＣＲを実行することにより、相補的変異（グアニンからアデニンへ）が同様に生じ得る。Ｎ個の直交標的座を有する親識別子は、ｄＣａｓ９－デアミナーゼ及びＮ個のｇＲＮＡ（各々が親における別個の座を標的とする）の異なるサブセットを適用することにより、２^Ｎ個の別個の娘識別子配列にプログラム可能に変換され得る。したがって、この方式で構築される可能な識別子の組合せ空間は、Ｎ個のｇＲＮＡ入力に対してＮビットの情報を格納し得る。

[00297] 幾つかの実施形態では、親配列の任意の所与の標的座は、変異効率の増大を促進するために上鎖及び下鎖の両方に標的化シトシンを含有し得る。その上、効率的なｇＲＮＡ標的化を生じさせるために、各座は、ＰＡＭ部位に隣接しなければならない。しかしながら、ＰＡＭ配列は、工学的に操作された異なるＣａｓ９バリアントの使用に応じて様々であり得る。

[00298] ｄＣａｓ９－デアミナーゼ融合体は、２つの融合タンパク質間にリンカー配列を含み得る。最適なリンカー長は、効率的な標的化変異でアミノ酸１６個分の長さであり得る。リンカー長は、少なくともアミノ酸０個、１個、５個、１０個、１５個、２０個、２５個又はそれより多くのアミノ酸個数分の長さであり得る。複数のシチジンデアミナーゼの１つを使用し得る。シチジンデアミナーゼの例には、APOBEC1、AID、CDA1又はAPOBEC3Gがある。ｄＣａｓ９の代わりに活性なＣａｓ９ニッカーゼを使用し得るが、その場合、識別子構築反応にＤＮＡ修復酵素を含むことが同様に必要であり得る。

[00299] 塩基エディタを用いて識別子を構築する別の実施形態では、ｄＣａｓ９に融合したアデニンデアミナーゼ（ｄＣａｓ９に融合したシチジンデアミナーゼとは対照的に又はそれに加えて）を使用して、ｇＲＮＡによりアクセス可能な親識別子の被定義座でアデニンをイノシンに変異させ得る。イノシンは、ＤＮＡポリメラーゼによりグアニンとして解釈される。したがって、塩基編集座のＰＣＲにより、逆鎖上で相補的なチミンからシトシンへの変異が生じ得る。

ＤＮＡに格納した情報を削除する方法
[00300] 核酸を使用して格納したデータを確実に削除（又は消去）できることは、セキュリティ、プライバシー及び規制上の理由から有益であり得る。データの消去は、核酸内の共有結合の切断、シーケンシングされる能力を破壊するような核酸の非可逆的修飾、それらを非可逆的に封入若しくは吸着させること又はより多くの核酸若しくは他の材料を付加して、核酸の元の集合を読取り不能若しくは読取り不可にすることを伴い得る。これらの方法は、選択的に実行され得るか又は非選択的に実行され得る。選択プロセスは、削除プロセスと別であり得る。例えば、識別子ライブラリから開始して、配列特異的プローブを使用して、削除する識別子のサブセットをプルダウンし得る。別の例として、サイズ又は質量対電荷比による選択した識別子の精製を他の選択的又は非選択的削除方法と併せて行い得る。

[00301] ライブラリから核酸を削除する選択的方法は、削除する核酸のサブセットをプルダウンするための配列特異的プローブの使用、１つ又は複数の標的配列を含有する選択した核酸を開裂させるためのＣＲＩＳＰＲに基づく方法の使用及びサイズ又は質量対電荷比により核酸を選択するための精製技術の使用を含む。

[00302] ライブラリからの情報符号化核酸を削除するための非選択的方法は、超音波処理、オートクレーブ処理、漂白、塩基、酸、臭化エチジウム又は他のＤＮＡ修飾剤を用いた処理、照射（例えば、紫外光を用いた）、燃焼及びＤＮアーゼＩ等の非特異的ヌクレアーゼ消化（インビトロ又はインビボ）を含む。他の方法を使用して、核酸をアクセス又はシーケンシングから不明瞭化するか、隠すか又は物理的に保護し得る。方法は、封入、希釈、元の核酸を不明瞭化するためのランダム核酸の付加及び核酸の下流のシーケンシングを防止する他の作用剤の付加を含み得る。一実施形態では、核酸に格納されたデータは、エラープローンポリメラーゼ、例えば校正機能が欠如したポリメラーゼによる増幅を用いて不明瞭化され得る。

[00303] 値の定義された期間と共に核酸に格納されたデータの場合、指定された時点でデータを自動的に削除する方法を使用することが有益であり得る。例えば、データは、必須の法定期間後に削除されるようにスケジュールされ得る。別の例として、データは、転送中であり、時間通りにその宛先に到達しない場合、削除されるようにスケジュールされ得る。一実施形態では、スケジュールされた核酸の削除は、定義された速度又は指定された時点で直ちに作用する分解剤の使用を伴い得る。別の実施形態では、スケジュールされた核酸の削除は、経時的に分解する核酸カプセル又は保護ケーシングの使用を伴い得る。別の実施形態では、核酸は、異なる分解速度を促進するために異なる温度又は異なる環境で保持され得る。例えば、分解速度を速めるために、高温又は高湿度におけるものである。別の実施形態では、核酸は、より急速な分解のためにより不安定な形態に変換され得る。例えば、ＤＮＡをより不安定なＲＮＡに変換し得る。

[00304] 核酸削除の確認は、シーケンシング、ＰＣＲ又は定量的ＰＣＲを用いて達成され得る。

効率的なランダムアクセスに向けて識別子を設計し、ランク付けする方法
[00305] 本明細書に記載のシステム及び方法は、符号化され、格納された情報から任意の分布のビットを効率的にランダムアクセス検索できるようにする。データが、ライブラリ中の識別子の標的化されたサブセットを増幅するためにエッジ層（又は末端配列）に使用される成分特異的プライマーと共に格納されている場合、符号化された情報のある割合を効率的に検索し得る。効率的なアクセスは、格納されたデータから情報の選択された部分を検索するために必要なＰＣＲステップ数の減少を含み得る。例えば、本明細書に記載の方法を使用して格納されたデータのセットにおいて、Ｌ／２未満の逐次的なＰＣＲステップで識別子にアクセスし得、ここで、Ｌは、識別子を含む層の数である。識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールのランダムアクセス性質に影響を及ぼす。識別子のランクは、それが表すビットの位置に対応する。識別子ランクは、各層に現れ得る可能な各成分の順序から辞書学的に決定され得、戦略的に定義され得る。例えば、識別子の縁部にある層には、識別子の中央にある層よりも高い優先順位を割り当てることができ、したがってランダムアクセス（例えば、識別子のエッジ層に結合するＰＣＲプライマーを用いる）により、連続する又は関連するひと続きの符号化されたビットに対応する連続ランクを有する識別子が返される。「優先順位」が高いことは、アクセスの深さが深いことと類似している－例えば、優先順位が高い要素は、優先順位が低い要素よりもアクセスが容易である。

[00306] 識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールからの特定の識別子のサブセットにランダムアクセスできるようにする。幾つかの実装形態では、識別子プール内の各識別子核酸配列は、記号列内での記号値及び記号位置に対応する。さらに、プール内の識別子核酸配列の有無は、記号列内の対応する各記号位置の記号値を表し得る。

[00307] 特定の実装形態では、連続記号位置を有する記号は、同様のデジタル情報を符号化する。本明細書で使用される場合、同様のデジタル情報は、同じ構造のデータ（即ち画像データ又は２進コード列）を含み得る。同様のデジタル情報は、情報内に含有されるデータを指すこともできる。例えば、特定の強度の赤色を用いて符号化された全ての画像データの位置は、連続記号位置に一緒にグループ化され得る。代替的に、連続記号位置を有する記号は、同様のデジタル情報を符号化しなくてもよい。例えば、連続記号位置は、ｘ座標、ｙ座標又は強度値若しくは強度値範囲等のデータ（即ち画像データ）内の種々の特徴に対応し得る。図２３は、３層Ａ、Ｂ及びＣの産物方式により生成される識別子の一例を示し、各層は、２つの成分１及び２を有する。３層Ａ、Ｂ及びＣの各々からの成分は、その順序で組み立てられる。各識別子のランクは、各層に特定の順序を割り当て、次いで各層内の各成分に特定の順序を割り当て、次いで識別子に順序を辞書学的に割り当てることにより決定され得る。図２３Ａは、層の辞書学的順序を物理的識別子で順序付けられたものと同様に定義することから得られたランクを示す。そのような識別子プールに、識別子の縁部（例えば、成分Ａ１及び成分Ｃ１）に結合するプライマーを使用したＰＣＲ反応を用いて問い合わせた場合、アクセスされた識別子は、非連続ランクを有し、１つのＰＣＲ反応で連続するビット列にランダムにアクセスすることが不可能になる。本明細書に記載の特定の実装形態では、識別子の縁部（例えば、成分Ａ１及び成分Ｃ１）は、「末端配列」又は「末端分子」と呼ばれる。しかしながら、連続するひと続き内のビットは、関連する情報を符号化することが多いため、多くの場合、連続するひと続きのビット（連続してランク付けされた識別子によって表される）にランダムにアクセスすることが理想的である。プローブを使用して連続するひと続きのビット内の各ビットにアクセスして、複数の識別子核酸配列内の各識別子核酸配列の標的末端配列にハイブリダイズさせて、連続記号位置を有する各記号に対応する識別子核酸配列を選択し得る。図２３Ｂは、識別子の縁部（又は末端配列）に結合するプライマーを使用した１つのＰＣＲ反応で連続するひと続きのビットを問い合わせることを可能にするために、層Ａ、Ｂ及びＣの辞書学的順序をどのように変え得るかを示す。この戦略は、層の物理的順序付けと同じ層の辞書学的順序付けを使用するものではない。代わりに、この戦略は、識別子の縁部（又は末端配列）にある層に優先順位がより高い辞書学的順序を割り当て、識別子の中央にある層に優先順位がより低い順序を割り当てるものである。

[00308] 組合せ空間の基礎をなす区画方式における成分の分布は、ＰＣＲ反応でアクセスし得る記号数に影響を及ぼし得る。図２４は、３つの層Ａ、Ｂ及びＣの産物方式により生成される識別子の一例を示し、成分は、層にわたって不均一に分布している。具体的には、２つの層は、２つの成分１及び２を有し、１つの層は、３つの成分１、２及び３を有する。上述の識別子ランク付け原理によれば、物理的順序付けがＡ、Ｂ、次いでＣであるにもかかわらず、層の辞書学的順序は、Ａ、Ｃ、次いでＢである。これは、識別子のエッジ層（又は末端配列）に結合するＰＣＲプライマーを用いたランダムアクセスが、連続するランク（連続するひと続きのビットに対応する）を有する識別子を返すようなものである。具体的には、特定の識別子核酸配列の第１の及び第２の末端配列は、連続するひと続きのビットに対応する複数の識別子核酸配列間で共有される。図２４Ａは、識別子の中央層により多くの成分が位置する場合、ＰＣＲクエリ（各々が縁部成分（又は末端配列）に結合するプライマーを用いる）によりアクセスされる識別子のプールがより大きくなり得ることを示す。それに対応して、一度にアクセスすることができるビット数が大きくなり得る。図２４Ｂは、識別子のエッジ層（又は末端配列）により多くの成分が位置する場合、均等なＰＣＲクエリによりアクセスされる識別子のプールがより小さくなり得ることを示す。それに対応して、より高分解能でビットにアクセスすることができる。

[00309] 識別子を構築するための産物方式における層の数も、ＰＣＲクエリ毎にアクセスすることができる記号数に影響を及ぼし得る。図２５は、５つの層Ａ、Ｂ、Ｃ、Ｄ及びＥの産物方式により生成される識別子の一例を示し、各層は、２つの成分１及び２を有する。上記識別子ランク付け原理を進めると、層の辞書学的順序は、最高の優先順位を最外層（Ａ及びＥ）に割り当て、次に高い優先順位を外側から２番目の層（Ｂ及びＤ）に割り当て、最低の優先順位を中央層（層Ｃ）に割り当てる。本明細書で使用される場合、優先順位は、データアクセスの深さ（又はレベル）を指し、優先順位が高いことは、深さが浅いことに対応し、優先順位が低いことは、深さが深いことに対応する。例えば、大量の本からの１冊の本（即ち層Ａ及びＥ）へのアクセスは、最高優先順位とみなされ、その本内の１章へのアクセスは、次に高い優先順位（即ち層Ｂ及びＤ）とみなされ、その本のその章内の１段落へのアクセスは、最低の優先順位（即ち層Ｃ）とみなされる。より多くの層がある場合、層の辞書学的順序付けは、このように続き、その結果、より少ないＰＣＲクエリを使用して連続する又は関連するひと続きのビットを検索することができる。最外層中の成分（Ａ１及びＥ１）に関連する全ての識別子は、１つのＰＣＲ反応で問い合わせ得る。次いで、外側から２番目の層中の成分（Ｂ１及びＤ１）に結合するプライマーを使用した追加のＰＣＲ反応を用いて、さらに高い分解能（即ちより低い優先順位又はより深い）のクエリを実行し得る。識別子のアーキテクチャにより多くの層がある場合、逐次的なＰＣＲ反応は、このように続き、一層分解能が高いクエリを達成し得る。しかしながら、２つの逐次的なＰＣＲ反応を使用して、４つの成分Ａ１、Ｂ１、Ｄ１及びＥ１に関連する全ての識別子を問い合わせることの代替としてのものである。Ａ１－Ｂ１を一緒に及びＥ１－Ｄ１を一緒に結合するが、成分自体ではいずれにも結合せず、したがって、その結果として、ＰＣＲクエリが、Ａ１及びＥ１後にＢ１及びＤ１が逐次的にＰＣＲクエリされる場合と同じ識別子にアクセスするように、ＰＣＲプライマーを設計することが可能である（特に成分が十分に短い配列を有するように設計されている場合）。

ＤＮＡ及び複数のビンを用いて情報を符号化する方法
[00310] 情報は、「マルチビン方式」を使用してＤＮＡ識別子を用いて符号化され得る。そのような方式の一実装形態では、ｂ個のビンが存在し、各ビンは、識別子の分離したセットを保持する。各ビンは、一意の［log₂b］ビット記号を用いてラベルされ、これは、本明細書ではラベル又はビンラベルと呼ばれ得る。ｌビットのビットストリームは、
「ワード」に分割され、各ワードは、長さ［log₂b］ビットを有する。任意のワードｗがビンラベルであり得る。

[00311] 具体的には、マルチビン方式は、「マルチビン位置符号化方式」であり得る。このマルチビン方式では、ビットストリーム中の各ワードｗの位置を表すために一意の識別子を構築し、ラベルｗを有する一意のビンに入れる。このマルチビン実装形態では、ｌビットの情報を符号化するために、
個の識別子を作成し、厳密に１つのビンに存在する厳密に１つの識別子により各ビットを符号化する。これを「マルチビン位置符号化方式」と呼ぶ。

[00312] 上記マルチビン位置符号化方式は、以下の例により説明することができる。３５個のビンを考え、各ビンに、句読を含む英語アルファベットの別個の記号をラベルする。英語テキストの段落の符号化は、以下のように達成される。各記号ｘについて、段落内のｘの全ての出現が識別される。テキスト中の各文字に昇順で番号付けすることにより、それらの整数アドレスを取得する。幾つかの特定の記号ｘのアドレスに対応する全ての識別子が作成され、ｘでラベルされた単一のビンに集める。したがって、テキスト中のｘが出現する全ての位置は、ｘでラベルされたビン中の識別子によって表される。

[00313] 図２６は、マルチビン位置符号化方式の一例を示し、記号ストリーム中の各記号型の位置は、その記号型に確保されたビンに記録される。この図は、「
」という句の一例が１とラベルされることを示す。この例では、９つの記号型「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」及び「＿」（スペースを表す）で構成される９文字のアルファベットを仮定する。このアルファベット中の各記号は、各記号に対応する別個のビンを割り当てられ、その記号で名付けられる。例えば、空のビン「Ｄ」は、ラベル７により示される。例えば、ビン「Ｆ」のラベルは、ラベル６により示される。符号化される句をアルファベットから記号に分け、ラベル３により示されるように、識別子ライブラリに１対１の対応でマッピングする。記号が出現する都度、対応する識別子のその記号に確保されたビンへの追加がトリガーされる。例えば、符号化される句（「
」強調付加）中に記号「Ａ」が３回出現するため、ビンＡは、３つの識別子（ラベル４）を有する。さらに、ビン「Ａ」中の３つの識別子は、その記号が出現する位置を指し示す。マッピングされる句（「
」）には文字「Ｄ」及び「Ｇ」が出現しないため、ビン「Ｄ」及び「Ｇ」は、空である。

[00314] マルチビン方式の別の実装形態では、ｌビットのビットストリームは、１、２、．．．、ｂとラベルされたｂビンへの識別子の分布に暗黙的に符号化される。この方式では、長さｌビットの全てのビットストリームのセットと、ｂ個のビン中へのｄ個の識別子の全ての分布のセットとの間にマッピングが設計される。ｄ個の識別子のｂ個のビンへの分布は、０≦ｂ_ｉ＜ｂであるような整数ラベル（ｂ_１、ｂ_２、．．．、ｂ_ｄ）のベクトルであり、負でない各整数ｂ_ｉは、ｉ番目の識別子に割り当てられた一意のビンのラベルである。割り当てられた各ビンラベルは、ｂ個の可能なラベルから自由に選択することができるため、ｂ^ｄ個の可能な分布が存在する。

[00315] 図２７は、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。図２７は、識別子２つの識別子ライブラリ（１とラベルされる）及び３つの名付けられたビン（０、１、２）のビンの集合を用いた一例を示す。ビンの各行（各行が３つの名付きビン０、１、２を含む）は、３つのビンに区画された２つの識別子の分布の一例を示す。表（６とラベルされる）は、各分布にマッピングされた、任意だが固定されているビットストリームを示す。例えば、３つのビンの４行目（５とラベルされる）は、２つの識別子が１と名付けられたビンに入っている一方、ビン０及びビン２は、空である分布を示す。この分布は、ビットストリーム００１１に任意にマッピングされる。同様に、３つのビンの２行目は、２つの識別子が０と名付けられたビン及び１と名付けられたビンに入っている一方、３番目のビンは、空のままである分布を示す。この分布は、ビットストリーム０００１（３とラベルされる）にマッピングされる。次の行は、１と名付けられたビンが空のままである分布を示す。これは、ビットストリーム００１０に対応する。あらゆるそのようなビットストリームを所与として、その対応する分布が構築され保存される。このように、このマルチビン識別子分布方式を使用し、十分な数のビン及び識別子を使用して、あらゆるビットストリームを符号化し得る。

[00316] マルチビン方式の別の実施形態では、識別子は、２つ以上のビンに存在し得る。この方式では、ｌビットのビットストリームは、１、２、．．．、ｂとラベルされたビンへの識別子の分布に暗黙的に符号化される。この方式では、各ビンは、識別子のサブセットを含む。したがって、この方式では、長さｌビットの全てのビットストリームのセットと、全ての識別子サブセットのセットの全てのｂサブセットのセットとの間にマッピングが設計される。ｂサブセットとは、ｂ個の要素を含むセットを意味する。例えば、組合せ空間内に合計ｄ個の識別子が存在する場合、全ての識別子サブセットのセットは、２^ｄ個のセットを含み、これをＤで示す。この方式では、長さｌの全てのビットストリームと、ｂ個のセットを含むＤの任意のサブセットとの間のマッピングを使用し、長さがlog₂ ２^ｄｂを超えないビットストリームを符号化することができる。別の実施形態では、各ビンは別個のサブセットを含む。この場合、この方式により、長さが
を超えないビットストリームを符号化することができる。

[00317] 図２８は、識別子が２つ以上のビンに現れ得る場合、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。この方式を、再使用を伴う識別子分布と呼ぶ。図２８は、識別子２つの識別子ライブラリ（８及び９とラベルされる）並びに３つのビン（ビン０、１、２）を伴う一例を示す。２つの識別子及び３つのビンを使用して、６ビット（ｂ_０ｂ_１ｂ_２ｂ_３ｂ_４ｂ_５、ここで、各ｂ_ｘは、ビットストリーム中の単一のビットに対応し、ｘは、ビットストリーム中の各ビットの位置を示す）を符号化する。図の上部は、それぞれビットｂ_０ｂ_１（４とラベルされる）、ｂ_２ｂ_３及びｂ_４ｂ_５に対応する可能な識別子のサブセットを示す。識別子の任意のサブセットが任意のビンに含まれ得る。したがって、３つのビンの各ビンは、４つの選択肢を含み得る：識別子なし、単一の識別子（８とラベルされる）、他方の識別子（９とラベルされる）又は両方の識別子（８及び９）。この例は、３つのビンを伴うため、各サブセットは、各行に３回示される（ラベル２）。３つのビンの各々は、厳密に１つのサブセットを含み得るが、全てのサブセットで三重になることが許容される。これは、サブセットを繋ぐ線（ラベル３）で示されている。左から右への各パスは、３つのビンに含められるサブセットの集合に対応する。表（７とラベルされる）に示されるように、識別子の各分布は、特定のビットストリームにマッピングされる。一実施形態では、各ビンのサブセットを００、０１、１０及び１１と名付けることにより、ビットストリームを推測し得る。したがって、例えば、ラベル５により示される分布は、３つのビンの各々に空の識別子のサブセットが含まれるように選択されるため、ビットストリーム００００００に対応し、このサブセットは、００と名付けられる。同様に、ラベル６により示される分布は、ビン０にサブセット０１が含まれ、ビン１にサブセット０１が含まれ、ビン２にサブセット１０が含まれるように選択されるため、ビットストリーム０１０１１０に対応する。この図は、６４個の可能な分布のさらなる数例を示す（図中の破線の項目により暗に示される）。

[00318] マルチビン符号化方式は、そのような方式を用いて符号化されたデータを復号化するには、全てのビンにアクセスして復号化する必要があり得るため、データの安全なアーカイブに用途を有し得る。例えば、マルチビンにより符号化された識別子ライブラリをソースビットストリームにマッピングして戻すために、各ビンに存在する識別子セットを取得することが必要であり得、なぜなら、マルチビン方式では、ビットストリームが複数のビンにおける別個の識別子の分布にマッピングされ、それにより一般にビンの適切なサブセットからソースビットストリームの任意の有意な部分列を復号化することが不可能になるためである。

[00319] 別の実施形態では、マルチビン方式を使用し、複数の直交性識別子ライブラリを使用してソースビットストリームを符号化し得る。得られたマルチビンライブラリは、幾つかの最小濃度のビンの任意のサブセットからの復号化を可能にするように組み合わされ得る。例えば、ソースビットストリームは、それぞれ５つの直交性ライブラリ及び３つのビンを使用して符号化され得る。次いで、得られた１５個のビンは、３つのビンの任意のサブセットからのビットストリームの復号化を可能にするように組み合わされ得る。実際には、ビンは、基板上の管、ウェル又はスポット等の物理的位置であり得る。

[00320] 幾つかの実施形態では、ビンは、基板上の管、ウェル又はスポット等の物理的位置であり得る。他の実施形態では、ビンは、特定のバーコード配列等、集合内の全ての識別子に共有されるより抽象化された結び付きであり得る。

ＤＮＡ及び整数区画化を用いて情報を符号化する方法
[00321] 用語「整数区画」法は、ＤＮＡのランダム配列の区画に情報を格納する符号化戦略を指すために使用される。図２９は、５つのステップにより概説される整数区画法の一実施形態を示す。ＤＮＡは、灰色又は黒色の棒及び記号を含む列として示されている。示されている各ＤＮＡは、別個の種を表す。「種」は、同じ配列の１つ又は複数のＤＮＡ分子と定義される。「種」が複数の意味で使用される場合、複数の種のうちのあらゆる種が別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことで明確にされ得る。

[00322] 方法実施形態のステップ１において、各々が「カウント」と呼ばれる非常に多数の種のプールから開始される。カウントは、縁部に共通の配列（黒色及び薄い灰色の棒）、次いで中央に別個の配列（Ｎ．．．Ｎ）を有するように設計され得る。縮重オリゴヌクレオチド合成戦略を使用して、このカウントの出発プールを迅速及び安価に製造することができる。ステップ２において、カウントをビン（ステップ２に示されている矩形）に区画化する。いずれのカウントがいずれのビンに区画化されるかは、重要ではなく、重要であるのは、各ビンに区画化されるカウントの数のみである。したがって、区画化は、単一のカウントを出発プールからランダムにサンプリングし、次いでそのカウントを特定のビン（例えば、ステップ２に示されている５つのビンの１つ）に割り当てることにより行われ得る。単一のカウントは、プールから小さい液滴でサンプリングされ得る。ビンは、反応容器である。例えば、ビンは、マイクロ流体チャネル内のチャンバ又は基板上の位置であり得る。カウントは、マイクロ流体デバイスを通してチャンバに又はプリントを通して基板上の位置に割り当て得る。各ビンは、バーコードと呼ばれる別個のＤＮＡ種を含む。バーコードは、縁部に共通の配列（薄い灰色及び濃い灰色の棒）を有し、中央に各ビンを識別する別個の配列（Ｂ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、．．．）を有するように設計され得る。ステップ３において、バーコードの共通の縁配列をカウントの共通の縁配列に組み付ける。例えば、バーコードの共通の縁配列は、粘着末端ライゲーション又はギブソンアセンブリにより組み立てるように構成され得る。ステップ４において、各ビンから組み立てられたＤＮＡ分子を、ステップ５に示される格納のための最終的なプールに統合する。最終的なプール内の種は、カウントが各ビンにどのように区画化されたかに関する情報の全てを含む。この情報は、シーケンシングにより復元され得る。所与の例では、シーケンシングデータは、第１のビン（Ｂ０）が２つのカウントを有し、第２のビン（Ｂ１）が３つのカウントを有し、第３のビン（Ｂ２）が１つのカウントを有し、第４のビン（Ｂ３）が１つのカウントを有し、第５のビン（Ｂ４）が２つのカウントを有するように、９つのカウントが５つのビンに区画化されたことを黙示し得る。これは、整数「９」を順序和「２＋３＋１＋１＋２」として数学的に書き換えることと均等であり、これは、「合成」（composition）として知られている。この方法のパラメータが常に合計９つのカウント及び５つのビンを有するように固定される場合、この例で記録される特定の合成は、13choose4の可能な合成の可能性があるため、log2（13choose4）ビットの情報を含む。このプロセスの任意の時点において、格納されている情報に干渉することなく各種の複数のコピーが存在し得るか又は作成され得る（例えば、ＰＣＲを用いて）。これにより、分解から保護するため及びシーケンシングを促進するために、最終的なプールを増幅することが可能になる。一般に、整数区画システムがｎ個の区画化されたカウント及びｋ個のビンの固定されたパラメータ値を有する場合、方法を実施して、log₂［（ｎ＋ｋ－１）choose（ｋ－１）］ビットの情報を格納し得る。数学的には、この情報がシステムの「弱合成」（weak compositions）数を測定すると言える。しかしながら、これは、各ビンのバーコード配列が分かっている場合のみである。各ビンのバーコード配列が分かっていない場合（例えば、バーコード自体がランダム配列である場合）でも、方法をなお実施して、
を格納し得、ここで、Ｐｊ（ｎ）は、厳密にｊ部分に入る区画数ｎである。

ＤＮＡに情報を符号化するためのデータパイプライン設計の方法
[00323] ＤＮＡに書き込まれる入力ビットストリームは、「コーデック」と省略される計算符号化－復号化パイプラインにより処理される。図３０は、コーデックの符号化部分の一例の高レベルブロック図を示す。ソースビットストリーム及びそれをＤＮＡに書き込む要求を受信すると、コーデックは、ソースビットストリームを、ブロックサイズとして知られる固定長を超えないサイズの１つ又は複数のブロックに分割する。コーデックは、ソースビットストリーム（即ち記号列）、処理要件及びビットストリームの内容（即ちデジタル情報）の意図される用途に基づいて適切なブロックサイズを決定する。例えば、１００Ｇビットのビットストリームは、各々の長さが１Ｇビットである１００個のブロック若しくは各々の長さが１００Ｍビットである１０００個のブロックに分割し得るか、又は何らかの他の方法で分割し得る。

[00324] コーデックは、１つ又は複数のハッシュアルゴリズムを使用して各ブロックのハッシュを計算し得る。ハッシュアルゴリズムは、ハッシュ及び他のメタデータ、例えばブロック長及びブロックアドレスをブロックに付加し得る。

[00325] コーデックは、１つ又は複数の誤り検出及び修正アルゴリズムを各ブロックに適用し、１つ又は複数の誤り保護バイトを計算し得る。次いで、コーデックは、元のブロックを誤り保護情報と組み合わせて、誤り保護されたブロックを取得し得る。例えば、コーデックは、畳込み符号化をブロック内のビットに適用し、リードソロモン又は抹消符号化をブロック内のバイトのチャンクに適用し、リードソロモン又は抹消誤り保護バイトをブロックの各チャンクに付加し得る。コーデックは、誤り保護メタデータを各ブロックに付加し得る。

[00326] 誤り保護情報の計算において、コーデックは、特定の代数フィールドサイズを選択して、誤り保護算出を行い得る。フィールドサイズによりソースワード長が決まり得、これは、任意のビット数、例えば４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、６４又は１２８ビット等であり得る。ソースワードは、ソースビットストリームを含むビットの連続列（固定長）である。コーデックは、特定のフィールドサイズ及びワード長を計算の複雑さ及び誤り保護考慮事項に基づいて選択され得る。例えば、８ビットのワード長は、計算上効率的であり得るが、１６ビットのワード長でより良好な誤り保護を提供し得る。コーデックは、探索アルゴリズムを使用して、１つ又は複数の目的関数に基づいてパラメータ値の最適なセットを識別し得る。例えば、コーデックは、ライタハードウェアシステム内の独立した反応区画の数、パラメータ値の特定の構成下でビットストリームを符号化するために必要な一意の識別子の数、何らかの他の関数又は関数の何らかの組合せを費用関数として使用し得る。

[00327] コーデックは、誤り保護されたブロックに別の符号化ステップをさらに適用して、書込み又は読取り性能を改善し得る。コーデックは、誤り保護されたブロック内の各ワードを新しいコードワードにマッピングし得る。コーデックは、探索アルゴリズムを使用して、性質の特定のセットを有するコードワードのセットを生成し得る。例えば、コーデックは、可変長のコードワード、同じ固定数の「１」ビット値を有するコードワード、互いから指定されたハミング距離を有するコードワード又はそのような特徴の何らかの組合せのコードワードを生成し得る。コーデックは、最良のコードワード長、重み、ハミング距離又はコードワードの他の特徴の決定において、ソースワード長、ライタハードウェア速度及び利用可能な成分の総数を含むパラメータのセットを使用し得る。コーデックは、これらのコードワードを用いた誤り検出又は修正情報の別の層を含み得る。例えば、コーデックは、厳密にｋ個の「１」ビット値を有する長さｎのコードワードを生成し得、それらのビットの２つは、ハイビット又はロービットとして知られており、パリティビットとして機能する。ハイビットは、パリティビットが１の場合に設定され、そうでなければロービットが設定される。そのような誤り保護ビットの１つ又は複数の対は、コードワードの種々の部分を保護し得る。

[00328] コーデックは、コードワードの特定のセットを選択して、符号化中又は復号化中、最適化された化学的条件を保証し得る。例えば、コーデックは、固定された重みのコードワードを生成して、固定された同一数の識別子がライタシステム内の各反応区画において、各区画内で及び複数の区画にわたりおよそ等濃度で組み立てられることを保証し得る。コーデックは、各反応区画において同数の識別子が組み立てられ、整数のコードワードが符号化されるようにコードワード長及び区画方式を選択し得る。

[00329] コーデックは、識別子の複数のセットを使用して、ソースビットストリーム内のビットの一部又は全部を符号化するように選択され得る。識別子は、直交性の識別子ライブラリに由来するものであり得、同じ識別子ライブラリに属するものであり得る。識別子は、ソースビットストリーム又はソースビットストリームからのビットの組合せを符号化し得る。ビットの組合せを符号化する識別子の複数のセットを使用することで、コーデックは、全てのビットを確実に復号化するために必要なサンプルのサイズを縮小することが可能であり得る。コーデックは、各ソースブロックに１つ又は複数の出力ブロックを生成し得る。出力ブロックは、リストとして又はツリーを含む何らかの他のタイプのデータ構造として組み立てられるべき識別子のセットを記述し得る。コーデックは、指定された識別子を組み立てるようにデバイスに命令する１つ又は複数のコマンドファイルを生成し得る。例えば、コーデックは、液体ハンドリングロボット又はインク含有成分を用いるインクジェットプリンタを制御するコマンドファイルを生成し得る。コーデックは、デバイスと通信し、デバイスからの情報に基づいてブロックファイルを最適化し得る。例えば、デバイスは、アセンブリエラー率を報告し得、コーデックは、誤り保護性能がより高い新しいブロックファイルを生成し得る。コーデックは、ブロックファイル又はコマンドをファイルとして又はネットワークを介して送信し得る。コーデックは、１つ又は複数のコンピュータを介して計算プロセスを実行し得る。

情報ライタへの指示を指定する方法
[00330] 本明細書では、識別子ライブラリを構築する任意のシステムを「ライタ」と呼ぶ。例えば、ライタの幾つかの実施形態は、プリントに基づく方法を使用して、識別子の構築のために成分を並置し得る。プリントに基づく方法は、各々が１つ又は複数の核酸分子を基板にプリントすることが可能な１つ又は複数のプリントヘッドの使用を伴い得る。

[00331] 組み立てる識別子ライブラリが指定され、指定ファイルのセットを介してライタに送信される。ブロックデータファイルは、ライタにより生成される識別子のセットを指定する。ブロックデータファイルは、データ圧縮アルゴリズムを使用して圧縮され得る。ブロックを含む識別子は、限定されないが、ツリー、トライ、リスト又はビットマップ等の直列化されたデータ構造の形態で指定され得る。

[00332] 例えば、産物方式を使用して生成される識別子ライブラリは、成分ライブラリ区画方式（成分が識別子のアーキテクチャ内の層に分割される様式）を含むブロックメタデータファイル及び各層で使用される可能な成分の名称のリストを用いて指定され得る。ブロックデータファイルは、直列化されたトライデータ構造として編成された、生成される識別子を含み得、直列化されたトライデータ構造では、トライのルートからリーフへの各パスは、識別子を表し、パスに沿った各ノードは、その識別子のその層において使用すべき成分名を指定する。ブロックデータファイルは、ルートから開始し、各ノードの左側の子ノードに行った後、ノード自体に行き、次いで右側の子ノードに行く順序でトラバースすることにより、このトライを直列化することを含み得る。

[00333] 図３１は、識別子ライブラリを表すデータ構造及び直列化の一実施形態を示す。あるビットストリームを符号化する識別子ライブラリが示されている（ラベル１１）。ツリーのルートから任意のリーフまでの各パスは、単一の識別子を表し、識別子内の成分は、パスに沿って遭遇するノードの名称により指定される。ラベル６は、成分名及び区切り記号を主に含むデータ構造の直列化された表現を示す。直列化された形態は、構築者固有区画方式の指定（ラベル５）から始まる。この場合、各層に３つ、２つ、３つ及び５つの成分を含む４つの層を有する産物コンストラクトが使用される。直列化における残りの項目は、１と記されるもののように、データ構造外のパスを概述する。直列化において４とラベルされるセグメントは、ツリーのルートから始まり、第１の層のノード０、次いで第２の層のノード０、第３の層のノード０及び最後の層のリーフ０まで下るパスを概述する。区画方式は、４つの層を有するため、この段階で完全な識別子を出力し得るとアルゴリズムが推測する。より一般的には、直列化のこのセグメント（７とラベルされる）は、最終的な層の代替成分の全てを指定する。特定の層の識別子ライブラリに含まれるべき代替の全てが列挙された場合、区切り記号（この例ではピリオド）が直列化に含められてこの状態を記す。これは、ツリーのパスに示されているように、アルゴリズムが層を上がる引き金となる（３とラベルされる）。直列化における成分識別子の次のセグメント（１６とラベルされる）は、識別子の次のセットを記述する。このようにして、識別子ライブラリ全体を平らなシリアルファイルで簡潔に表し得る。

識別子を用いた計算方法
[00334] 化学的演算を使用して、識別子ライブラリに符号化されたデータに対して計算を実行することが可能であり得る。そのような演算は、アーカイブ全体の任意のサブセット又はアーカイブ全体に対して並行化して実行され得るため、これを行うことが有利であり得る。さらに、計算は、データを復号化せずにインビトロで実行され得、したがってセキュリティを保証しながら計算することが可能になる。幾つかの実装形態では、ＡＮＤ、ＯＲ、ＮＯＴ及びＮＡＮＤ等のブール論理演算を含む計算は、各ビット位置を表す識別子を使用して符号化されたビットストリームに対して実行され、識別子の存在によりビット値「１」が符号化され、識別子の非存在によりビット値「０」が符号化される。

[00335] 幾つかの実装形態では、全ての識別子は、１本鎖核酸分子として構築される（又は最初に２本鎖核酸分子として構築され、次いで１本鎖形態に単離される）。任意の１本鎖識別子ｘについて、識別子は、ｘの逆相補鎖としてｘ^＊により示される。１本鎖識別子の任意のセットＳについて、Ｓ内の各識別子の逆相補鎖のセットをＳ^＊と示す。ライブラリ内の可能な全ての１本鎖識別子をＵで示し、その逆相補鎖のセットをＵ^＊で示す。これらのセットをユニバース及びユニバース^＊と呼ぶ。Ｕ_ｓ及びＵ_ｓ ^＊により、ユニバース及びユニバース^＊セットの第２の対を示し、それにより、これらのセット中の各識別子は、化学的方法により標的とするか又は選択することができる探索領域として知られている追加の核酸配列で増補される。

[00336] 所与の識別子ライブラリに対する計算は、ハイブリダイゼーション及び開裂を含む一連の化学的演算により実施され得る。これらの演算の要約を以下に記載する。各演算は、入力として識別子のプールをとり、演算を実行し、出力として識別子のプールを返す。

[00337] 初歩的な例として、下記の表に示すように、第１のライブラリＬ１及び第２のライブラリＬ２は、それぞれ８ビットを含む。２つのライブラリ間のビット毎の「ＯＲ」演算及び２つのライブラリ間のビット毎の「ＡＮＤ」演算の結果も示されている。化学的ステップにより実行されるこれらの演算（及び追加の演算）の詳細についてさらに詳細に後述する。

各ライブラリの各ビットは、記号位置を含む識別子として符号化される。記号位置での識別子の不在は、０を示し、記号位置での識別子の存在は、１を示す。この例では、ライブラリ内の識別子は、２本鎖である。

[00338] ２つのライブラリＬ１及びＬ２に対してＯＲ演算を実行するために２つのライブラリプールを組み合わせる。両方のライブラリの識別子は、ＯＲ演算に向けて２本鎖状態のまま残され得る。ＯＲ演算は、Ｌ１又はＬ２のいずれかに１が存在するか否かを示すため、２つのプールの組合せは、完全に決定されたＯＲ演算出力である（上のＯＲ列に記載のように）。最大で同じ記号位置に２倍の識別子コピーが存在することになり（元のライブラリと比較して）、これは、依然としてその記号位置（即ち記号位置ｂ５）における１の存在を示す。幾つかの実装形態では、２本鎖識別子を変性させて２つの１本鎖を生成し得る（即ち各２本鎖識別子でセンス又は「ポジティブ」鎖１つ及びアンチセンス又は「ネガティブ」鎖１つ）。得られた２つの相補的な１本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と呼ぶ。幾つかの実装形態では、ライブラリのサブセクションを選択し得、ＯＲ演算を実行し得、ＯＲ演算の結果で既存のライブラリの一方又は両方内の既存のビット値を置換し得る。

[00339] ２つのライブラリＬ１及びＬ２に対してＡＮＤ演算を実行するために、まず２本鎖識別子を変性させて２つの１本鎖（即ち各二本鎖識別子でセンス鎖１つ及びアンチセンス鎖１つ）を生成する。ここでも、得られた２つの相補的な１本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と呼ぶ。ポジティブ鎖及びネガティブ鎖を別々のプールに分離する。実際には、これは、ポジティブ鎖又はネガティブ鎖のいずれかに対してアフィニティタグ付きプローブを使用することにより達成され得る（核酸捕捉については、化学的方法セクションＦを参照されたい）。識別子は、この目的のために共通のプローブ標的を含むように設計され得る。次いで、第１のライブラリからの２本鎖識別子のポジティブ鎖（例えば、センス鎖）及び第２のライブラリからの２本鎖識別子のネガティブ鎖（例えば、アンチセンス鎖）を一緒にプールし、相補的な１本鎖がハイブリダイズできるようにする。両方のライブラリ（例えば、上記の表に示されているＬ１及びＬ２）に既存の識別子が存在すると仮定すると、得られた組み合わされたプールは、ＤＮＡの１本鎖と、ハイブリダイゼーションの実行が可能になった後のＤＮＡの２本鎖との組合せを有することになる。完全に２本鎖の識別子は、その識別子が第１のライブラリＬ１及び第２のライブラリＬ２の両方に存在したことを示す。完全に二本鎖の識別子をプールから選択して、ＡＮＤ演算出力を生成し得る。例えば、Ｓ１ヌクレアーゼ又はマングビーンヌクレアーゼ等の一本鎖特異的ヌクレアーゼを使用して、一本鎖識別子（及び部分的に一本鎖の識別子）を小さい単位に開裂することで一本鎖識別子を選択的に除去し得る。完全に二本鎖の識別子は、開裂から保護され、次いで化学的方法セクションＦに記載の核酸捕捉技法又は化学的方法セクションＥに記載のサイズ選択技法等の技法を使用して単離され得る。例えば、核酸プールは、完全に相補的な二本鎖ＤＮＡのみが特定の長さで流れるように、クロマトグラフィーゲルに流れ得る。組み合されたプール出力は、上記表のＡＮＤ列に示されている。これらのＡＮＤ演算及びＯＲ演算を実行するために必要なステップの詳細及びさらなる例を以下に記載する。

[00340] 本明細書に記載のランダムアクセス方法を使用して、ライブラリの一部分を抽出し得る。例えば、ライブラリのサブセクションをランダムアクセスにより抽出し得る。論理演算（例えば、ＯＲ又はＡＮＤ）をサブセクションに適用し得る。幾つかの実装形態では、得られた識別子のセットでライブラリ内のサブセクションの元の値を置換し得る。

[00341] 演算single（Ｘ）は、識別子のプール（二本鎖及び／又は一本鎖）をとり、一本鎖核酸識別子のみを返す（全ての二本鎖識別子を除去する）。演算double（Ｘ）は、識別子のプール（二本鎖及び／又は一本鎖）をとり、二本鎖識別子のみを返す（全ての一本鎖識別子を除去する）。演算make-single（Ｘ）及びmake-single^*（Ｘ）は、全ての二本鎖核酸識別子をそれらの一本鎖形態に変換する（アスタリスクが付いているバージョンではネガティブ鎖を返し、アスタリスクが付いていないバージョンではポジティブ鎖を返す）。演算get（Ｘ，ｑ）は、クエリｑにマッチする全ての識別子のプールを返す。ｑ＝「全て」の場合、クエリは、全ての識別子にマッチし、全ての識別子に対して動作する。演算delete（Ｘ，ｑ）は、クエリｑを満たす全ての識別子（二本鎖又は一本鎖）を削除する。クエリは、上述したように、ランダムアクセスにより実施され得る。演算combine（Ｐ，Ｑ）は、Ｐ又はＱ中の全ての識別子を含むプールを返す。本明細書では、演算assign（Ｘ，Ｙ）は、Ｙの結果を変数名Ｘに割り当てるものと定義する。簡潔にするために、この演算を以下の形態でも示す：Ｘ＝Ｙ。割り当て演算は、いかなる「汚染」問題も伴わずに変数を再使用できるようにする理想的な条件下で実行されるものと仮定する。

[00342] 以下では、いずれも長さｌのビットストリームａ及びｂがそれぞれ二本鎖識別子ライブラリｄｓＡ及びｄｓＢに書き込まれたと仮定し、幾つかのサブビットストリームｓ＝ａ_ｉ，．．．，ａ_ｊ及びｔ＝ｂ_ｉ，．．．，ｂ_ｊに対する計算に関心を払い、計算の結果は、サブビットストリームｓに格納される。即ち、最初に、initialize（ｄｓＡ，ｄｓＢ，ｓ，ｔ）演算により示される以下の演算が、指定された順序で実行されたと仮定する。

[00343] 図３２は、識別子ライブラリを用いた計算のセットアップの一例を示す。この図は、抽象木データ構造（４とラベルされる）として描かれた識別子の組合せ空間の一例を示す。この例では、ツリーの各レベルで２成分間の選択を行う（ラベル２により示される）。ツリーのルートからの各パスは、一意の識別子に対応し（ラベル３の例により示されるように）、その順序（又はランク）を決定する。ラベル４は、一本鎖ユニバーサル識別子ライブラリを示す。ラベル５は、例えば、「ａ」と呼ばれる特定のビットストリームを符号化する一本鎖識別子ライブラリを示す。ラベル７は、７ビットを含む「ｓ」と呼ばれる「ａ」のサブビットストリームを示す。同様に、ラベル１０は、同じ長さのビットストリーム「ｂ」のサブビットストリーム「ｔ」を示す。initialize（ｄｓＡ，ｄｓＢ，ｓ，ｔ）を計算するための初期化手順に記載のように、計算されるサブビットストリームは、プールＰ及びＱ（それぞれ６及び９とラベルされる）において入手可能であり、計算可能な状態である。

[00344] 演算ＡＮＤ（ｓ，ｔ）は、ビットストリームｓ及びｔ中のビットのビット毎の論理積と定義され、以下の順の演算を使用して実施され得る。

[00345] 演算ＮＯＴ（ｓ）は、ビットストリームｓ中のビットのビット毎の論理否定と定義され、以下の順の演算を使用して実施され得る。

[00346] 演算ＯＲ（ｓ，ｔ）は、ビットストリームｓ及びｔ中のビットのビット毎の論理和と定義され、以下の順の演算を使用して実施され得る。

幾つかの実装形態では、ＯＲ（ｓ，ｔ）演算は、ｄｓＡとｄｓＢとをプール中で組み合わせ、その結果、Ｏ（ＯＲ（ｓ，ｔ）演算の出力）と呼ばれる識別子の組合せを生成することを含み得る。

[00347] 演算ＮＡＮＤ（ｓ，ｔ）は、ビットストリームｓ及びｔ中のビットの連言のビット毎の論理否定と定義され、以下の順の操作を使用して実施され得る。

[00348] 一実施形態では、演算single（Ｘ）は、まず、Ｘからの一本鎖識別子がユニバーサル識別子とハイブリダイズするようにＸをＵ_ｓ又はＵ_ｓ ^＊と組み合わせることを含み得る。さらに、Ｕ_ｓ及びＵ_ｓ ^＊中のユニバーサル識別子は、特別な探索領域を有するため、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化様式でアクセスされ得る。

[00349] 一実施形態では、演算double（Ｘ）は、Ｘ中の識別子をＳ１ヌクレアーゼ等の一本鎖特異的ヌクレアーゼで処理し、次いで得られたＤＮＡのプールをゲルに流し、開裂されなかった識別子（したがって完全に二本鎖の識別子）のみを単離することを含み得る。

[00350] 図３３は、識別子ライブラリにより符号化されたビットストリーム「ｓ」及び「ｔ」に対して論理演算をどのように実行し得るかの一例を示す。この図では、計算が行われているプールに相補的であるようなユニバーサルライブラリ（１４とラベルされる）を使用する。ＡＮＤ／ＮＡＮＤと記された列は、ビットストリーム「ｓ」及び「ｔ」（それぞれ５及び７とラベルされる）の連言をどのように計算し得るかを示す。プールが正しいユニバーサルライブラリ（Ｕ又はＵ^＊）を使用して再形式化されていると仮定する。２つのプールが組み合わされると、相補的な一本鎖識別子がハイブリダイズし、示されているように、２重の識別子を形成する（例えば、ラベル９）。得られたプール（１０とラベルされる）中の二本鎖識別子の集合は、ＡＮＤ計算の結果を符号化する。二本鎖産物を分離することにより、ＡＮＤ（ｓ，ｔ）を表す識別子ライブラリが与えられる。代替的に、一本鎖産物を分離することにより、ＮＡＮＤ（ｓ，ｔ）を表す識別子ライブラリが与えられる。ＯＲと記された列は、ビットストリーム「ｓ」及び「ｔ」の選言をどのように計算し得るかを示す。「ｓ」及び「ｔ」を表す識別子を含むプールが組み合わされる場合、得られるライブラリは、ＯＲ（ｓ，ｔ）の表現を含む。ＮＯＴと記された列は、ビットストリーム「ｓ」の否定をどのように計算し得るかを示す。ここで、ビットストリーム「ｓ」を表す一本鎖識別子ライブラリは、相補的なユニバーサル識別子ライブラリと組み合わされる（１５とラベルされる）。結果として（１９とラベルされる）、形成された全ての二本鎖産物（例えば、１８とラベルされる）は、「ｓ」中の「１」ビットを表し、破棄され得る。残りの一本鎖産物（例えば、１７とラベルされる）は、「ｓ」中の「０」ビットを表し、したがってＮＯＴ（ｓ）における「１」ビットに対応する。これらの一本鎖産物は、ＮＯＴ（ｓ）を表す識別子ライブラリを与え、さらなる計算に使用され得る。

画像データを符号化し、読み取る方法
[00351] 識別子ライブラリは、識別子内に符号化されたビットストリームの内容に依存しないが、その大きいサイズ及び自然的な長期にわたる社会的価値に起因して、画像データをアーカイブすることにおいて特に有用であり得る。したがって、識別子ライブラリは、画像データのために特別に設計された符号化方式及び形式を用いてそのようなデータを符号化するのに有用であり得る。「画像データ」は、何らかの次元のベクトルの集合として暗黙的に又は明確に提示され、局所性を有するデータを指す。提示されたベクトルは、ベクトル間で距離の概念を有し、すぐ近くにあるベクトル同士は、問い合わせ、演算又は解釈を一緒に受ける。例えば、写真画像では、各ピクセルは、ピクセルの位置及びその色値を記述するベクトルであり、近くのピクセルは、典型的には、写真において１つ又は複数の物体の領域を形成し、したがって一体として解釈及び演算を受ける可能性が高い。

[00352] 一実装形態では、画像は、画像符号化方式を用いて識別子ライブラリにマッピングされ、元の多次元画像からのベクトルは、空間充填曲線等の数学関数により定義される直線的順序付けで順序付けられる。提示されたベクトルの幾つか又は全ての次元に沿った可能な値は、成分ライブラリ中の特定の成分にマッピングすることができ、ベクトルの幾つか又は全ての次元は、識別子構築のために産物方式内の層にマッピングすることができる。本明細書では、これをネイティブ画像符号化と呼ぶ。例えば、識別子構築のために、幅ｘピクセル及び高さｙピクセルのグレースケール画像を産物方式にマッピングし得、第１の層の成分は、ピクセルのｘ座標を表し、第２の層の成分は、ピクセルのｙ座標を表し、第３の層の成分は、ピクセルのグレースケール強度を表す。例えば、ＲＧＢカラー画像は、赤色チャネル、青色チャネル及び緑色チャネルのそれぞれに１つずつ、３つの直交性識別子ライブラリを用いて同様に表され得る。別の実施形態では、色相－彩度－明度等の他の代替カラーモデルも同様に表すことができる。別の実施形態では、ピクセルの位置を指定する座標は、上述したように表すことができるが、第３の層の成分は、強度値を指定する代わりに、強度値を指定するビット列中のビット位置をそれぞれ表し、各成分を有する識別子の有無がそれぞれ「１」又は「０」の値を指定する。例えば、前者の実施形態では、第３の層は、２５６個の成分を含み得、特定のピクセルにおける各成分は、２５６個の可能な強度値の１つを指定し、後者の実施形態では、第３の層は、８個の成分を含み得、特定のピクセルにおけるこれらの成分の各サブセットは、２５６個の可能な強度値の１つを指定する。

[00353] 幾つかの実装形態では、一部又は全部の成分に値の範囲が関連付けられる。例えば、色値層（第３の層）の成分は、そのカラーチャネルにおける色値の間隔を表すものと定義され得る。例えば、赤色チャネル識別子の第３の層の各成分は、特定の赤の色値にマッピングされる代わりに、±１０点の赤の色値範囲にマッピングされ得る。

[00354] 幾つかの実装形態では、上で定義されたように画像が符号化される場合、ＰＣＲ又はハイブリダイゼーション捕捉等の上述したランダムアクセス方式を使用して、画像における任意のデカルトセクション（近傍ピクセル）を色値に関して問い合わせ得る。さらに、符号化方式が、第３の層の各成分により強度値が指定されるようなものである場合、ランダムアクセス方式を使用して任意の色値を関連するピクセル座標に関して問い合わせ得る。

[00355] 幾つかの実装形態では、ネイティブ画像符号化を用いて符号化された画像は、複数の分解能で復号化され得る。例えば、およそ３ｘｙ個の識別子を使用したＲＧＢカラーモデルを用いて符号化された幅ｘピクセル及び高さｙピクセルの画像は、識別子の半分の一様ランダムなサブセットをサンプリングすることにより、元の分解能の半分で復号化され得る。元の画像の内容は、画像処理及び内挿技法を使用して、サンプリングされた識別子からより低い分解能で再構築され得る。画像の復号化には、より小さいサンプルが使用されるため、復号化の費用及び時間が低減する。

[00356] 幾つかの実装形態では、複数の画像の低分解能での復号化及び画像処理を使用して、アーカイブにおける目的の画像又は画像のセクションを識別し得る。この後、これらの画像又は画像のセクションの高分解能での復号化が続き得る。特徴のこのセットは、例えば、特定の視覚的特徴が探し求められている監視画像の大きいアーカイブの解析において有用であり得る。別の適用では、ビデオアーカイブを静止画像フレームの大きいアーカイブとして扱い得る。この適用では、ランダムアクセス及び低分解能での復号化により、目的のフレームを識別し得る。次いで、周囲のフレームをより高い分解能で復号化して、目的のビデオセグメントを再構築し得る。このようにして、大きい画像又はビデオアーカイブを高密度で何世紀にもわたって格納し得、それでもなお低費用で並行して問い合わせることが可能である。

[00357] 以下では、画像データの格納及び多分解能読取りの一例について記載する。圧縮されていない画像ファイルは、各識別子又は識別子の各連続群が画像のピクセルを表すように識別子に符号化され得る。例えば、画像がビットマップとして格納され、各ビットが、２色（例えば、白色又は黒色）のうちの１色を有することができるピクセルである場合、ビットマップ中の各ビットは、識別子によって表され得、その識別子の有無によりそれぞれ一方の色又は他方の色を表し得る。画像を読み取るために、識別子ライブラリをランダムにサンプリングし得る（標準の次世代シーケンシング技術を用いて予期されるものと同様に）。画像のリードバック分解能は、読取りのサンプルサイズを定義することにより指定され得る。したがって、低分解能バージョンの画像は、高分解能バージョンよりも安い価格でリードバックされ得る。これは、画像をリードバックする目的が細密な画像の詳細を必要としない場合に有用であり得る。代替的に、低分解能バージョンの１つの画像又は幾つかの画像を検査して、問い合わせる（アクセスする）位置をより高い分解能で特定し得る。

[00358] この多分解能制御リードバックの原理をさらに実証するために、ビットマップとして格納された犬の画像の例（図３４）を検討する。図３４Ａの元画像は、１４７６８００ピクセル（１３００×１１３６ピクセル）であり、各ピクセルは、ビット（白色又は黒色）として格納されている。各ビットが識別子であり、黒色ピクセルの識別子のみを構築することにより画像を符号化すると、どのようなことが起こるかをシミュレートする。これには、１３１８２０個の識別子が必要である。図３４Ｂは、識別子の総数の１０倍（サンプルサイズ１３１８２００）のシミュレートされたサンプリングから得られた画像を示す。これは、元画像と同様の細部を有する。図３４Ｃは、識別子の総数と均等な数（サンプルサイズ１３１８２０）のシミュレートされたサンプリングから得られた画像を示す。図３４Ｄは、識別子の総数の１０分の１の識別子（サンプルサイズ１３１８２）のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図３４Ｅは、同じ画像を示すが、各黒色ピクセルは、２５ピクセルまで増幅されている。この分解能では、元画像の幾らかの細部、例えば毛の線が喪失する可能性がある。しかし、より粗い細部、例えば眼及び鼻は、依然として目に見える。図３４Ｆは、識別子の総数の１００分の１の識別子（サンプルサイズ１３１８）のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。ここでも、各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図３４Ｇは、同じ画像を示すが、各黒色ピクセルは、２５ピクセルまで増幅されている。元画像の多くの細部が失われている可能性があるが、画像は、それでも犬の形状及びそのカラーパターンについての幾らかの細部を示す。

[00359] 画像の各ピクセルが２色よりも多くの可能な色を有する場合でも、均等な多分解能リードバックを実行し得る。例えば、各ピクセルが２色の代わりに２５６色の可能な色を有する場合、各ピクセルは、８つの識別子のサブセットで表し得る。各ピクセルがそれぞれ２５６の可能な強度の３つのカラーチャネル、例えばＲＧＢを有する場合、画像は、各チャネルに対応する３つの直交性識別子ライブラリに格納され得る。

ＤＮＡを用いたデータの無作為化、暗号化及び認証の方法
[00360] ＤＮＡを使用してランダムビットストリームを生成し、格納する能力は、暗号法及び組み合わせアルアルゴリズムにおける計算に適用され得る。多くの暗号化アルゴリズム、例えばデータ暗号化標準（ＤＥＳ）は、セキュリティを保証するためにランダムビットを使用する必要がある。他の暗号化アルゴリズム、例えば高度暗号化標準（ＡＥＳ）は、暗号鍵の使用を必要とする。典型的には、これらのランダムビット及び鍵は、ランダム性の安全なソースを使用して生成され、なぜなら、ランダムビット又は鍵における系統的なパターン又は偏りは、いずれも暗号化されたメッセージへの攻撃及び破壊に利用され得るためである。さらに、暗号化に使用される鍵は、典型的には、復号化のためにアーカイブされている必要がある。暗号化方法のセキュリティの強さは、アルゴリズムに使用される鍵の長さに依存する。一般に、鍵が長いほど、暗号化が強力になる。ワンタイムパッドのような方法は、最も安全な暗号化方法の１つであるが、それらには非常に長い鍵が必要であることに起因して、適用が限られる。

[00361] 本明細書に記載の方法を使用して、数十、数百、数千、数万又はそれより多くのビット長のランダム鍵の極めて大きい集合を生成し、アーカイブし得る。一実施形態では、各核酸分子が以下の設計を満たす核酸ライブラリを生成し得る：ｋ＜ｎ塩基の可変領域を有するｎ塩基の長さを有する。可変領域内の塩基は、ライブラリの構築中にランダムに選択することが許容される。例えば、ｎは、１００であり得、ｋは、８０であり得；したがって、異なる分子１０^５０個のサイズであるライブラリを潜在的に生成し得る。分子１０００個のサイズであるそのようなライブラリのランダムサンプルは、例えば、シーケンシングされて、暗号化のために使用し得る最大１０００ビットのランダム鍵を取得し得る。

[00362] 別の実施形態では、上述した核酸鍵（鍵を表す核酸分子）を識別子に付着させ、それにより鍵セットの順序付き集合を得ることができる。順序付き鍵セットを使用して、暗号化に関して種々の関係者により鍵が使用される順序を同期させ得る。例えば、産物方式を使用して識別子ライブラリを組み合わせにより構築し、１０^１２個の一意の識別子を得ることができる。マイクロ流体法を使用し、核酸鍵を用いて各識別子を並置し、組み立てて、一意の識別子及びランダム鍵を含む核酸サンプルを形成し得る。識別子ライブラリ中の識別子は、順序付きのため、鍵も任意の指定された順序で順序付け、アクセス及びシーケンシングされ得る。

[00363] 幾つかの実装形態では、識別子に付着した鍵を使用して、入力識別子をランダムビット列にマッピングするランダム関数のインスタンスを生成し得る。そのようなランダム関数は、ハッシュ等、値の計算が容易であるが、所与の値から逆を行うことが難しい関数を必要とする適用において有用であり得る。そのような適用では、各々に一意の識別子が組み立てられた鍵のライブラリをランダム関数として使用する。値をハッシュする場合、その値は、識別子にマッピングされる。次に、ハイブリダイゼーション捕捉又はＰＣＲ等のランダムアクセス法を使用して、鍵ライブラリから識別子にアクセスする。識別子は、ランダム塩基の配列を含む鍵に付着する。この鍵をシーケンシングし、ビット列に変換し、ランダム関数の出力として使用する。

[00364] 核酸分子ライブラリは、安価及び迅速にコピーすることができ、小さい体積で内密に輸送できることから、上述したように生成される核酸鍵セットは、多数の暗号鍵を、地理的に離れている複数の関係者に定期的に安全及び内密に配布しなければならない状況において有用であり得る。さらに、鍵は、非常に長期間にわたって確実にアーカイブすることができ、それにより暗号化されたアーカイブデータを安全に保管することが可能になる。

[00365] 図３５～図３８は、ランダムな又は暗号化された、ＤＮＡに格納されたデータを作成、格納、アクセス及び使用する方法の実施形態を示す。ＤＮＡは、灰色及び黒色の棒並びに記号を含む列として示されている。示されている各ＤＮＡは、別個の種を表す。「種」は、同じ配列の１つ又は複数のＤＮＡ分子と定義される。「種」が複数の意味で使用される場合、複数の種の中のあらゆる種が別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことにより明示される。

[00366] 図３５は、ＤＮＡの大きい組合せ空間及びシーケンサを使用したエントロピー（又はランダムデータ）生成器の一例を示す図である。方法は、シードと呼ばれるＤＮＡ種のランダムプールから開始される。シードは、理想的には、一様な分布のＤＮＡの定義された組合せセットのあらゆる種、例えば５０塩基を有する全てのＤＮＡ種（４^５０種のメンバを有する）を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間全体の代わりに組合せ空間のランダムサブセットを含むことが許容される。シード種は、縁部に共通の配列（黒色及び薄い灰色の棒）、次いで中央に別個の配列（Ｎ．．．Ｎ）を有するように設計され得る。この出発シードを迅速及び安価な様式で製造するために、縮重オリゴヌクレオチド合成戦略を使用し得る。共通の縁配列により、ＰＣＲを用いた又は特定の読取り（又はシーケンシング）方法に適合したシードの増幅が可能になり得る。縮重オリゴヌクレオチド合成の代替として、組合せＤＮＡアセンブリ（１つの反応に多重化される）もシードを急速及び安価に生成するために使用することができる。シーケンサは、シードから種をランダムにサンプリングし、したがってサンプリングをランダムな順序で行う。任意の所与の時点でシーケンサにより読み取られている種には、不確実性が存在するため、システムは、エントロピー生成器として分類され得、乱数又はランダムなストリームのデータを例えば暗号鍵として生成するために使用され得る。

[00367] 図３６Ａは、ランダムに生成されたデータをＤＮＡに格納する方法の一例の概略図を示す。方法は、（１）シードと呼ばれるＤＮＡ種の大きいランダムプールから開始される。シードは、理想的には、一様な分布のＤＮＡの定義された組合せセットのあらゆる種、例えば５０塩基を有する全てのＤＮＡ種（４^５０種のメンバを有する）を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間のランダムサブセットを含むことが許容される。シードは、それ自体、縮重オリゴヌクレオチド合成又は組合せＤＮＡアセンブリから生成され得る。（２）シード中の種のランダムサブセットを取ることにより、ランダムデータ（又はエントロピー）が生成される。例えば、これは、シード溶液の比例する割合の体積を取ることにより実現され得る。例えば、シード溶液が１マイクロリットル（μＬ）当たり推定１００万種からなる場合、シード溶液（よく混合されたものであると仮定する）から１ナノリットル（ｎＬ）の一定分量（aliquot）を取ることにより、およそ１０００種のランダムサブセットを選択し得る。代替的に、シード溶液の一定分量をナノポア膜に流し、膜を通過した種のみを収集することによりサブセットを選択し得る。膜を通過する種の数の計数は、ナノポアにわたる電圧の差異を測定することにより実現され得る。このプロセスは、望ましい数のシグネチャが検出されるまで（例えば、１００、１０００、１００００又はそれよりも多くの種のシグネチャ）続けられ得る。別の代替方法として、単一の種を小さい液滴中に単離し得る（例えば、油エマルジョンを用いる）。単一の種を伴う小さい液滴を蛍光シグネチャにより検出し、一連のマイクロ流体チャネルにより選別して収集チャンバに入れ得る。（３）識別子として選択された各種は、識別子と呼ぶことができ、さらに、選択された種の完全なサブセットは、「ランダム識別子ライブラリ」又はＲＩＬと呼ぶことができる。ＲＩＬ中の情報を安定化して分解から保護するために、種の末端上の共通の配列に結合するＰＣＲプライマーを用いてＲＩＬを増幅し得る。ＲＩＬ中の識別子（したがってその中に格納されたデータ）を特定するために、ＲＩＬは、シーケンシングされ得る。真の識別子は、サンプル中の、定義されたノイズ閾値を超えて富化されている種により定義され得る。（４）ＲＩＬ中に含まれるデータが特定されると、追加の誤り調査及び誤り修正種をＲＩＬに加え得る。例えば、予期される識別子数に関する情報を含む「整数ＤＮＡ」（例えば、チェックサム又はパリティチェック）をＲＩＬに加え得る。整数ＤＮＡにより、情報の全てを収集するためにＲＩＬをどの程度深くシーケンシングするかを知ることが可能になり得る。

[00368] ＲＩＬに一意のＤＮＡタグをバーコード付けし得る。次いで、任意の所与のＲＩＬに、その一意のＤＮＡタグに対するハイブリダイゼーションアッセイ（又はＰＣＲ）を用いて個々にアクセスすることができるように、幾つかのバーコード付けされたＲＩＬを一緒にプールし得る。一意のＤＮＡタグは、組み合わせにより組み立てられ得るか、又は合成されてから、対応するＲＩＬに組み立てられ得る。図３６Ｂは、各々が１００個のランダム塩基を含む４種を含むＲＩＬの一例を示す。可能な種の組合せ空間は、４^１００であり、したがって、ＲＩＬは、log₂（4¹⁰⁰choose4）≒７２５ビットの情報を含み得る。図３６Ｃも、各々が１００個のランダム塩基を含む４種を含むＲＩＬの一例を示す。４^１００個の組合せ空間から選択された４種の特定の順序付けられていない組合せで情報を格納すること（図３６Ｂのように）の代替として、各種の最後の９０個のランダム塩基は、log₂（４^９０）＝１８０ビットの情報を格納するために確保され得る一方、最初の１０個のランダム塩基は、４種の各々に格納される情報間の相対的な順序を確立するために確保され得る。相対的な順序は、４塩基の定義された順序付けに基づく１０塩基の列の辞書学的順序付けにより定義され得る（英語の単語をアルファベットの文字の順に従って順序付ける方法と同様に）。情報をＲＩＬに割り当てるこの方法は、図３６Ｂに記載の方法よりも２進列にマッピングするための計算が高速であり得る。

[00369] 前の図（図３６）では、複数のＲＩＬにバーコード付けし、それらを一緒にプールするための戦略を考察している。そうするにあたり、入力－出力マッピングが作成され、入力は、バーコードハイブリダイゼーションプローブ（個々のＲＩＬにアクセスするためのもの）に対応し、出力は、ランダムデータ列（標的化されたＲＩＬにより符号化されるもの）に対応する。この方法では、組み合わされたプールからの検索のために所定のバーコードをランダムデータに組み立てるが、図３７Ａは、バーコード（データにアクセスするためのもの）がランダムデータ自体と共にランダムに生成される、核酸プローブとランダムデータ列との間の入力－出力マッピングを作成するための異なる方法を示す。例えば、バーコードは、１つ又は複数の種の両縁部に現れ得るＤＮＡの短い配列の対であり得る。この実施形態では、可能なバーコードの組合せ空間は、プール中の可能な全ての種の総数と比較して、各バーコードに偶然に１つ又は複数の種が関連付けられるように小さいものであり得る。例えば、バーコードが種のランダムなＤＮＡ配列の各縁部の３塩基（共通の配列が隣接する）である場合、４^６＝４０９６個の可能なバーコードが存在し、したがって、それらにアクセスするために構築することができるプライマー対は、４^６＝４０９６個存在する（１２ビット入力に対応する）。およそ４００Ｋの種を有するようにＤＮＡのプールを選択した場合、各バーコードは、平均でおよそ１００種に関連付けられる。この実施形態では、ＲＩＬは、各バーコードに関連付けられる種のサブセットにより定義される。先の例に続き、各種が、バーコード付けに使用された塩基（又は配列）に加えて２５個のランダム塩基（又はランダム配列）を含む場合、１００種のＲＩＬに関連付けられるバーコードは、最大log₂（4²⁵choose100）≒４４７５ビットの情報を含み得る。

[00370] 図３７Ｂは、バーコード付きＲＩＬのプールにアクセスし、格納されたランダムデータをそこから読み取る方式の一実装形態を示す。シーケンサ（又はリーダ）は、出力を返す前に配列データを操作する関数をさらに含み得る。例えば、ハッシュ関数により、出力データ列を使用して逆の化学的クエリを実行し、入力を見つけることを難しくすることができる。この関数は、例えば、入力が認証のために使用される鍵又は証明である場合に有用であり得る。

[00371] 問い合わせ可能な（又はアクセス可能な）データのランダム列を生成し、格納する方法は、暗号鍵（ランダムデータ列から生成される）を生成し、アーカイブするために特に有用であり得る。各入力を使用して、異なる暗号鍵にアクセスし得る。例えば、各入力は、非公開のアーカイブデータベースにおける特定の使用者、時間範囲及び／又はプロジェクトに対応し得る。非公開のアーカイブデータベース中の暗号化されたデータ（潜在的に非常に大きい量のデータに達する）をアーカイブサービスプロバイダーにより従来の媒体に格納させることができる一方、暗号鍵は、所有者がＤＮＡに格納させることができる。さらに、特定の入力に対して化学的アクセスプロトコルを実行するために必要な潜在的な待ち時間及び高度性により、ハッキングに対する暗号化方法のセキュリティバリアを高め得る。

[00372] 図３８は、アーチファクトへのアクセスを保証及び認証するためのシステムの一例を示す。このシステムは、可能な種の大きいプールからとられたＤＮＡの種の特定の組合せを含む物理的な鍵を必要とする。「識別子鍵」とも呼ばれる種の標的組合せは、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング若しくはプリントデバイスにより自動的に又はピペッティングにより手動で生成され得る。ロックが内蔵されているリーダ又はシーケンサにより、マッチする識別子鍵が確証され、アーチファクトへのアクセスが可能になる。代替的に、リーダは、アーチファクトへのアクセスを直接ロック解除する代わりに、アーチファクトへのアクセスに使用することができるトークンを返す証明トークンシステムとして挙動し得る。トークンは、例えば、リーダの組み込みハッシュ関数により生成され得る。

ＤＮＡを用いて実体を追跡し、物体にタグ付けする方法
[00373] 溶媒中に融解した識別子ライブラリは、物理的物体中又はそれらの表面上に噴霧、拡散、分注又は注入されて、物体に情報をタグ付けし得る。例えば、一意の識別子ライブラリを使用して、物体の一種の別個のインスタンスにタグ付けし得る。物体上の識別子ライブラリタグは、一意のバーコードとして作用し得るか、又は製品番号、製造若しくは出荷日、製造部位若しくは物体の履歴、例えば以前の所有者の取引リストに関する任意の他の情報等のより高度な情報を含み得る。識別子を使用して物体をタグ付けすることの主な利点は、識別子が検出不可能であり、耐久性があり、膨大な数の物体事例に個々にタグ付けするのに十分に適することである。

[00374] 別の実施形態では、１つ又は複数の物理的位置に識別子ライブラリからの一意の識別子をタグ付けし得る。例えば、物理的部位Ａ、Ｂ及びＣに識別子ライブラリを遍在的にタグ付けし得る。部位Ａを訪問するか又は部位Ａに接触する実体、例えば伝達手段、人又は任意の他の物体は、意図的に又は非意図的に識別子ライブラリのサンプルを受け取り得る。後に実体にアクセスした際、サンプルを実体から集め、化学的に処理し、復号化して、実体が訪問した部位を識別し得る。実体は、２つ以上の部位を訪問し得、２つ以上のサンプルを受け取り得る。同様のプロセスを使用して、識別子ライブラリが分離されている場合、実体が訪問した部位の一部又は全部を識別し得る。そのような方式は、実体を内密に追跡することに適用性があり得る。この方式を使用する幾つかの利点は、識別子が特異的に探さなければ検出不可能であること、生物学的に不活性になるように設計することができること及び膨大な数の部位又は実体に一意にタグ付けするために使用可能であることである。

[00375] 別の実施形態では、識別子ライブラリは、実体にタグ付けされ得る。実体は、注入された識別子のサンプルを訪問した部位に残し得る。これらのサンプルを集め、処理し、復号化して、いずれの実体が部位を訪問した可能性があるかを識別し得る。

組合せＤＮＡアセンブリの方法及びシステムの適用
[00376] 大きい定義された識別子のセットに成分を組合せにより組み合わせる本明細書に記載の方法及びシステムについて、情報技術（例えば、データ格納、計算及び暗号法）に関連するものとしてこれまで説明してきた。しかしながら、これらのシステム及び方法は、より一般的には、高スループット組合せＤＮＡアセンブリの任意の適用に使用し得る。

[00377] 一実施形態では、アミノ酸鎖を符号化する組合せＤＮＡのライブラリを作成し得る。それらのアミノ酸鎖は、ペプチド又はタンパク質のいずれかを表し得る。アセンブリのためのＤＮＡ断片は、コドン配列を含み得る。断片がそれに沿って組み立てられる接合部は、組合せライブラリの全てのメンバに共通する機能的又は構造的に不活性なコドンであり得る。代替的に、断片がそれに沿って組み立てられる接合部は、後にプロセシングされたペプチド鎖に翻訳されるメッセンジャーＲＮＡから最終的に除去されるイントロンであり得る。特定の断片は、コドンではなく、コドンの各組合せ列で一意にタグ付けされた（他の組み立てられたバーコードと組み合わせて）バーコード配列であり得る。組み立てられた産物（バーコード＋コドンの列）を一緒にプールし、インビトロ発現アッセイのために液滴中に封入し得るか、又は一緒にプールし、インビボ発現アッセイのために細胞に導入してそれを形質転換し得る。アッセイは、蛍光出力を有し得、したがって液滴／細胞を蛍光強度により選別してビン内に入れ、その後、それらのＤＮＡバーコードを、各コドン列を特定の出力と相関付けるためにシーケンシングし得る。

[00378] 別の実施形態では、ＲＮＡを符号化する組合せＤＮＡのライブラリを作成し得る。例えば、組み立てられたＤＮＡは、マイクロＲＮＡ又はＣＲＩＳＰＲｇＲＮＡの組合せを表し得る。プールされたインビトロ又はインビボのいずれかにおけるＲＮＡ発現アッセイを、液滴又は細胞のいずれかを用い、またいずれの液滴又は細胞がいずれのＲＮＡ配列を含むかに関する追跡を維持するためにバーコードを用いて上記のように実行し得る。しかしながら、出力自体がＲＮＡシーケンシングデータである場合、一部のプールされたアッセイを液滴又は細胞の外で行い得る。そのようなプールされたアッセイの例としては、ＲＮＡアプタマースクリーニング及び試験（例えば、ＳＥＬＥＸ）が挙げられる。

[00379] 別の実施形態では、代謝経路内の遺伝子を符号化する組合せＤＮＡのライブラリを作成し得る。各ＤＮＡ断片は、遺伝子発現コンストラクトを含み得る。断片がそれに沿って組み立てられる接合部は、遺伝子間にある不活性なＤＮＡ配列を表し得る。液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子経路を含むかに関する追跡を維持するためのバーコードを用いて、プールされたインビトロ又はインビボのいずれかにおける遺伝子経路発現アッセイを上述したように実行し得る。

[00380] 別の実施形態では、異なる遺伝子調節エレメントの組合せを有する組合せＤＮＡのライブラリを作成し得る。遺伝子調節エレメントの例には、５’非翻訳領域（ＵＴＲ）、リボソーム結合部位（ＲＢＳ）、イントロン、エクソン、プロモータ、ターミネータ及び転写因子（ＴＦ）結合部位がある。プールされたインビトロ又はインビボのいずれかにおける遺伝子発現アッセイは、液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子調節コンストラクトを含むかに関する追跡を維持するためのバーコードを用いて、上述したように実行し得る。

[00381] 別の実施形態では、組合せＤＮＡアプタマーのライブラリを作成し得る。リガンドに結合するＤＮＡアプタマーの能力を試験するためにアッセイを実行することができる。

固定小数点数表現
[00382] 本明細書に記載されるのは、化学的計算を実行する技術である。多数の計算モデルが文献に提示されており、そのうちの幾つかは、スケーラブルに化学的に実現可能であり得る。化学的に実現されていない多くのモデルが確率的計算（例えば、引用文献［１、２、３、４］に示されるように）についての文献で見られる。一例のモデルは、ＤＮＡ鎖変位を介して実施される化学反応ネットワークモデルである（例えば、引用文献［５、６、７］を参照されたい）。本明細書に記載の符号化方式にモデルを適合し、ネイティブ並列性を利用することは、このモデルにとって課題であり得る。シューシステム［８］に基づく異なるモデルは、ＰＣＲを使用して実施することができ、部位特異的変異誘発は、小さいプログラムで実証され得る［９］。このモデルは、興味深いが、算術演算が関わる計算に理想的ではなく、なぜなら、各算術演算は、一連の核酸書き換え演算に翻訳されなければならないためである。モデルはまた、本明細書に記載の符号化方式又は産物方式に直ちに適合しない。

[00383] 本明細書に記載されるのは、本明細書に記載の産物方式（例えば、上記段落［0085］～［00121］を参照されたい）を使用して固定小数点数（ＦＰＮ）を表し、ＦＰＮに対して算術演算を効率的に実行するシステム及び方法を含む技術である。一実装形態では、ＦＰＮは、可能な識別子のセットに存在する識別子の割合を使用して表される。この形式で符号化された２つのＦＰＮの乗算は、例えば、ハイブリダイゼーションを介して実施される識別子単位の論理ＡＮＤ演算により実行することができる。２つ以上のＦＰＮの加算は、例えば、プーリング及びサンプリング演算を使用して又は識別子単位のＸＯＲ及びＮＯＴゲートを使用して実行することができる。

[00384] 本明細書に記載されるのは、以下の特徴を含む計算のモデルである：ａ）本技術は、横符号化を用いる産物方式、本明細書に記載の核酸に情報を書き込むか又は符号化する技術と併用される一次符号化方式と適合し、ｂ）本技術の実施により、デジタル信号処理等の用途で頻繁に使用されるアルゴリズムのかなり小型の回路が生成され、ｃ）本技術は、入力データ及び中間データにおけるノイズ及び誤りに適応することができ、ｄ）論理状態の実施に使用される化学的方法のネイティブ並列性を利用し、ｅ）本明細書に記載のように識別子の大きい組合せ空間を利用する。従来の手法は、これらの特徴を提供するいかなる計算モデルも提供していない。

[00385] 本明細書に記載の手法に幾つかの利点が存在する。本明細書に記載のＦＰＮ形式で表される有理数は、一般的な演算に必要とされる計算回路のサイズの縮小に繋がる。例えば、２つのＦＰＮの乗算は、単一のＡＮＤゲートを必要とする一方、位置数システム（ＰＳＮ）表現等の従来のコンパクトな表現は、入力数のサイズと線形の（例えば、比例する）数のゲートを必要とする。このゲート数の低減は、単一の乗算演算で実行すべき化学的ステップ数の低減に繋がり、長く複雑な計算を実現可能及び／又はより効率的にする。ゲート数の低減は、大きいデータセットに対して計算を実行するのに必要なエネルギーの大きい低減にも繋がり得る。本明細書に記載の計算ゲートは、理論上、無限の並列性を提供する。ゲートへのＦＰＮ入力の各セットは、それ自体の別々の化学的論理ゲートにより演算することができる。この並列性の程度は、大きい面積、通信及びエネルギーフットプリントなしでは、従来の電子計算を含む他の計算方式を用いて可能ではない。逆に、核酸（例えば、ＤＮＡ）は、小さい物理的フットプリントを占め、幾らか、大半又は全ての計算は、データをメモリの計算可能な階層に読み取ることなく、インサイチューで実行することができる。幾つかの実装形態では、ＦＰＮにわたる計算は、近似することができるが、ノイズ及び誤りに対してロバストであり得る。本明細書に記載のゲート例は、組み合わされて、任意の多項式関数を実現し得、トレーニング及び推論用途に役立つ点で有用であり得る。

[00386] 識別子を構築し、データを識別子にマッピングし、プローブを使用して識別子の指定されたセットにアクセスし、識別子を読み取る技法は、２０１７年１２月２１日付けで出願された「NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許第１０，６５０，３１２号（ＤＮＡへのデジタル情報符号化を記載している）；米国特許出願公開第２０１９／０３６２８１４号として公開された、２０１９年５月１６日付けで出願された「SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許出願第１６／４６１，７７４号（ＤＮＡベースのデータ格納のための符号化方式を記載している）；２０１９年５月１６日付けで出願された「COMPOSITIONS AND METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許出願第１６／４１４，７５８号；２０１９年８月５日付けで出願された「SYSTEMS AND METHODS FOR STORING AND READING NUCLEIC ACID-BASED DATA WITH ERROR PROTECTION」という名称の米国特許出願第１６／５３２，０７７号（ＤＮＡ符号化のためのデータ構造並びに誤り保護及び修正を記載している）；２０２０年５月１１日付けで出願された「DATA STRUCTURES AND OPERATIONS FOR SEARCHING, COMPUTING, AND INDEXING IN DNA-BASED DATA STORAGE」という名称の米国特許出願第１６／８７２，１２９号（アクセス、ランク及び探索のためのデータ構造及び演算を記載している）に記載されており、これらの各々は、全体的に参照により本明細書に援用される。

[00387] 本明細書に記載されるのは、固定小数点数演算の技術である。幾つかの実装形態では、産物方式を使用してＦＰＮを表すために、長さｗ_ｃを有し、正の整数であるコードワードが識別される。次いで、任意のＦＰＮｘ（ここで、０≦ｘ≦１である）は、ｋ／ｗ_ｃ≒ｘである（例えば、ｘの±３０％以内、ｘの±２５％以内、ｘの±２０％以内、ｘの±１５％以内、ｘの±１０％以内、ｘの±５％以内）ようなｋ、ｋ≦ｗ_ｃの識別子を作成することによって表すことができる。幾つかの実装形態では、負の数及び正の数の両方は、間隔の一部を負のＦＰＮに確保し、間隔の別の分離した部分を正のＦＰＮに確保することによって表すことができる［１］。本明細書、例えば上記段落［0085］～［00121］に記載され、例えば図３９に示されるように、複数のそのようなコードワードを１つ又は複数の組合せ空間に書き込むことができ、それによりＦＰＮの大きいデータセットを符号化することができる。図３９は、この概念を示す。図３９Ａは、成分ライブラリと、産物方式を使用してこのライブラリを用いて作成することができる組合せ空間とを示す。図３９Ｂは、２つの有理数０．５及び０．８７５をＦＰＮ形式で符号化する一例を示す。この例では、コードワード長は、８識別子と規定され、組合せ空間内で２つのＦＰＮを表現できるようにする。数０．５は、この例では、コードワード内の８個の可能な識別子から、ランク１、３、４及び６の４個の識別子を用いて表され、なぜなら、存在する識別子（４）とコードワード内の可能な識別子数（８）との比率が０．５であるためである。０．５のこの表現は、一意ではなく、７０個の可能な表現のいずれも有効である。しかしながら、高精度性能の計算を可能にするには、コードワード内で作成される識別子が、他のコードワードに選択された識別子のランクと相関する可能性が低いランクを有するように選択される表現を実施することができる。幾つかの実装形態では、コードワードにＦＰＮを符号化するために作成される特定の識別子は、一様にランダムに選択される。この方式では、２つのＦＰＮ符号化コードワードの識別子単位のＡＮＤ演算は、識別子が両方の入力コードワードに存在した場合のみ、その識別子が存在する新しいコードワードを表す。識別子がＡＮＤゲートの出力に存在する可能性は、識別子が２つの入力コードワードの各々に存在した確率の積である。（これは、入力ＦＰＮを符号化する識別子が、相関しない独立した様式で選択される場合にのみ当てはまる）。識別子が２つの入力コードワードの各々に存在した確率は、そのコードワードにより符号化されるＦＰＮと均等であり、なぜなら、ＦＰＮは、そのコードワード内で可能な識別子の総数に対する存在する識別子の比率として符号化されるためである。このようにして、２つの入力ＦＰＮのＡＮＤは、入力ＦＰＮの積を表す新しいＦＰＮを生成する。

[00388] 本明細書に記載されるのは、本明細書に記載の符号化及び計算方式を使用して実施することができる計算（論理）ゲートである。１つ又は複数の識別子ライブラリに産物方式を使用して符号化されたデータは、１つ又は複数の論理ゲートを含む１つ又は複数の回路を使用した計算に使用することができる。各ゲートは、入力として１つ又は複数の識別子ライブラリをとり、一連の化学的演算を通して１つ又は複数の出力ライブラリを生成する。図３９Ｃは、２つのＦＰＮ、即ち０．５及び０．３が、識別子１６個のコードワード長さを有する２つのオペランドライブラリで表される一例を示す。２つの入力識別子単位の論理ＡＮＤゲートがライブラリに適用されて、図３９Ｄに示される出力ライブラリを取得する。出力ライブラリは、１６個の可能な識別子のうちの３つを含むため、０．１５の正しい値に近いＦＰＮ３／１６＝０．１８７５を符号化する。スケーリング加算、即ち入力と同じ範囲にスケーリングされた２つのオペランドの和は、多くの適用分野で有用な演算であり、簡単な物理的演算を使用して実施することができる。スケーリング加算の場合、２つの入力ライブラリは、一緒にプールされて和を取得し、次いで希釈されて和をスケーリングする。図３９Ｅは、左側に、０．５及び０．３を符号化したライブラリをプールした結果を示し、右側に、プールされたライブラリからのサンプリングの最終結果を示す。得られた出力ライブラリは、正しい答えである０．４に近いＦＰＮ０．３７５を符号化した６／１６個の識別子を含む。ＦＰＮ表現及び計算の制度は、より大きいコードワード長、例えば２５６、５１２又は１０２４のコードワード長を使用して改善することができる。

[00389] 幾つかの実装形態では、乗算及び加算を超えて、ＦＰＮを用いた計算は、多くの他の演算を必要とし得る。これらは、例えば、例として識別子ライブラリに符号化されたＦＰＮに対する計算に使用することができる核酸論理ゲートを実施する方法例を説明している本明細書の段落［00334］～［00350］に記載されるような論理ゲートのセットを使用して実現され得る。本明細書に記載されているのは、論理ゲートを実施する追加又は代替の方法である。

[00390] 本明細書に記載の技術を使用して実施されるＡＮＤゲートの一例を図４０に示す。一例のＡＮＤゲートは、２つの識別子ライブラリをとり、両方のライブラリに存在する識別子を含み、両入力ライブラリに存在しない識別子を除外した１つの出力識別子ライブラリを生成する。幾つかの実装形態では、このゲートは、入力ライブラリを相補的核酸、例えば１本鎖ＤＮＡ（ｓｓＤＮＡ）形態に変換し、ｓｓＤＮＡライブラリをハイブリダイズして２本鎖（ｄｓＤＮＡ）識別子を作成し、混合物中に存在する完全にマッチするｄｓＤＮＡ核酸を選択することで出力ライブラリを作成することにより実現することができる。ｄｓＤＮＡの選択は、エキソヌクレアーゼＩ、エキソヌクレアーゼＴ、エキソヌクレアーゼＶＩＩ、マングビーンエキソヌクレアーゼ、ヌクレアーゼＰ１、ヌクレアーゼＳ１、ＲｅｃＪＦ、それらのバリアント又は任意の他の適した酵素等のｓｓＤＮＡ特異的ヌクレアーゼの使用を通して達成することができる。ミスマッチ含有ｄｓＤＮＡは、Ｔ７エンドヌクレアーゼＩ、Ｔ４エンドヌクレアーゼＶＩＩ、ＣＥＬＩ、ＣＥＬＩＩ、エンドヌクレアーゼＶ、それらのバリアント又は任意の他の適した酵素等のミスマッチ認識エンドヌクレアーゼを使用して分解させることができる。

[00391] 本明細書に記載の技術を使用して実施されるＯＲゲートの一例を図４１に示す。一例のＯＲゲートは、２つの識別子ライブラリを入力としてとり、入力ライブラリのいずれかに存在する識別子を含む出力ライブラリを生成する。幾つかの実装形態では、このゲートは、プールされた複数の入力ライブラリを混合することにより実現することができる。ライブラリは、両方ともｄｓＤＮＡ（図４１Ａ）、両方ともｓｓＤＮＡ（図４１Ｂ）又はｄｓＤＮＡとｓｓＤＮＡとの混合であり得、いずれの形態でも上流入力から利用可能若しくは好都合であるか又は下流での使用に必要とされる。

[00392] 本明細書に記載の技術を使用して実施されるＮＩＭＰＬＹゲートの一例を図４２に示す。一例のＮＩＭＰＬＹゲートは、ＮＯＴＩＭＰＬＹゲートとしても知られており、２つのライブラリＡ及びＢを入力としてとり、ライブラリＡに存在するが、ライブラリＢに存在しない識別子のみを含むライブラリを出力として生成する。（即ち、ライブラリＡに存在しない識別子をＢが有する場合、それらの識別子は、返される値に存在しない）。

[00393] 幾つかの実装形態（例えば、図４２Ａに示されるように）では、ライブラリＡからの識別子は、１本鎖ＤＮＡとして提供される。単に説明のための例として、ライブラリＡは、特異的に「上鎖」として提供される。ライブラリＢは、アフィニティタグを含む「下鎖」分子の形態であり、ハイブリダイゼーション反応においてモル過剰で提供され、ライブラリＡからのマッチするあらゆる識別子を「おびき寄」せる（ベイトする）。ライブラリＢにも存在するライブラリＡからのあらゆる識別子は、ライブラリＢからのベイトにハイブリダイズすることになる。その後、全てのライブラリＢ識別子（１本鎖分子及びライブラリＡ分子に結合したものの両方を含む）は、存在する全てのライブラリＢ分子に適用されたアフィニティタグに対する特異的捕捉メカニズムの使用により除去することができ、ライブラリＡに存在するが、ライブラリＢに存在しない識別子を残す。

[00394] 幾つかの実装形態（例えば、図４２Ｂに示されるような）では、一例のライブラリＡ及びライブラリＢは、それぞれ上鎖分子及び下鎖分子として提供される。このメカニズムのパート１において、ライブラリＡをライブラリＢのモル過剰にハイブリダイズさせることにより、２本鎖複合体が形成される。次いで、２本鎖特異的ＤＮＡヌクレアーゼを使用し（それにより例えばｄｓＤＮＡを除去し）、１本鎖ＤＮＡのみを残す。このメカニズム例のパート２において、核酸「保護プローブ」が適用され、これは、ライブラリＡへの相補鎖であるが、ライブラリＢに対して相補的ではない。次いで、１本鎖特異的ＤＮＡヌクレアーゼを使用し、保護プローブにより保護されたライブラリＡからの鎖のみを残す。

[00395] 本明細書に記載の技術を使用して実施されるＮＯＴゲートの一例を図４３に示す。一例のＮＯＴゲートは、ライブラリＡを入力としてとり、別のライブラリＢをゲートパラメータとしてとり、Ｂに存在するが、Ａに存在しない識別子を含む出力ライブラリを生成する。

[00396] 幾つかの実装形態（例えば、図４３Ａに示されるような）では、ライブラリＢからの可能な全ての識別子は、１本鎖ＤＮＡとして提供される。単に説明のための例として、ライブラリＢは、特異的に下鎖として提供される。ライブラリＡは、アフィニティタグを含む上鎖分子の形態であり、ハイブリダイゼーション反応においてモル過剰で提供され、ライブラリＢからのマッチするあらゆる識別子を「おびき寄」せる。ライブラリＡにも存在するライブラリＢからのあらゆる識別子は、ライブラリＡからのベイトにハイブリダイズすることになる。その後、全てのライブラリＡ識別子（１本鎖分子及びライブラリＢ分子に結合したものの両方を含む）は、存在する全てのライブラリＡ分子に適用されたアフィニティタグに対する特異的捕捉メカニズムの使用により除去することができ、ライブラリＢに存在するが、ライブラリＡに存在しない識別子を残す。したがって、得られたＤＮＡのプールは、ライブラリＡ内の情報の「ＮＯＴ」ゲート又は逆数の返り値を形成する。

[00397] 幾つかの実装形態（例えば、図４３Ｂに示されるような）では、一例のライブラリＡ及びライブラリＢは、それぞれ上鎖分子及び下鎖分子として提供される。このメカニズムのパート１において、ライブラリＢをライブラリＡのモル過剰にハイブリダイズさせることにより、２本鎖複合体が形成される。次いで、２本鎖特異的ＤＮＡヌクレアーゼを使用して、１本鎖ＤＮＡのみを残す。このメカニズム例のパート２において、「保護プローブ」が適用され、これは、ライブラリＢへの相補鎖であるが、ライブラリＡに対して相補的ではない。次いで、１本鎖特異的ＤＮＡヌクレアーゼを使用し、保護されたライブラリＢからの鎖のみを残す。

[00398] 本明細書に記載の技術を使用して実施されるＸＯＲゲートの一例を図４４に示す。一例のＸＯＲゲートは、２つのライブラリを入力としてとり、入力ライブラリのいずれかに存在するが、ライブラリの両方には存在しない識別子を含む出力ライブラリを生成する。幾つかの実装形態では、ゲートは、例えば、図４２Ｂに示されるように、２つの逆のＮＩＭＰＬＹヌクレアーゼゲートを使用し、その後、例えば図４１Ｂに示されるように、同様であるが、返されるＤＮＡの鎖性を問わないＯＲゲートが続く。幾つかの実装形態（例えば、図４４Ａ～Ｃに示されるような）では、ゲートは、図４２Ｂに示されるような２つの逆のＮＩＭＰＬＹ親和性ゲートを使用し、その後、例えば図４１Ｂに示されるように、同様であるが、返されるＤＮＡの鎖性を問わないＯＲゲートが続く。

[00399] 上述したゲート例は、２本鎖核酸（例えば、ｄｓＤＮＡ）及び／又は１本鎖核酸（例えば、ｓｓＤＮＡ）、例えば特異的な上鎖又は下鎖を利用することができる。これらの形式は、例えば、ｓｓＤＮＡからｄｓＤＮＡに変換することができる。例えば、ｓｓＤＮＡの場合、一方又は他方の鎖に特異的なハイブリダイゼーション、それに続くマッチする鎖のプルダウンを使用することができる。例えば、ｄｓＤＮＡの場合、ｄｓＤＮＡを作成するためのｓｓＤＮＡ又はｄｓＤＮＡである任意の鋳型からのＰＣＲを使用することができる。

[00400] 文献目録
［１］B. R. Gaines,“Stochastic Computing,”Proc. of the Spring Joint Computer Conference, pp. 149-156, 1967.
［２］B. D. Brown and H. C. Card,“Stochastic neural computation I: computational elements,”IEEE Transactions on Computers, vol. 50, no.9, pp. 891-905, 2001.
［３］J. von Neumann,“Probabilistic logics and the synthesis of reliable organisms from unreliable components,”Automata Studies, 1956.
［４］A. Alaghi and J. P. Hayes,“Survey of stochastic computing,”ACM Transactions on Embedded Computing Systems, vol. 12, no. 2S, 2013.
［５］D. Soloveichik, G. Seeling and E. Winfree,“DNA as a universal substrate for chemical kinetics,”Proc. of the National Academy of Sciences, vol. 107, no.12, pp. 5393-5398, 2010.
［６］B. Wang, C. Thachuk, A. D. Ellington, E. Winfree and D. Soloveichik,“Effective design principles for leakless strand displacement systems,”Proc. of the National Academy of Sciences, vol. 115, no. 52, pp. E12182-E12191, 2018.
［７］K. M. Cherry and L. Qian,“Scaling up molecular pattern recognition with DNA-based winner-take-all neural networks,”Nature, vol. 559, pp. 370-376, 2018.
［８］A. Salomaa and G. Rozenberg,“Handbook of formal languages: word, language, grammar,”1997.
［９］A. Currin, K. Korovin, M. Ababi, K. Roper, D. B. Kell, P. J. Day and R. D. King,“Computing exponentially faster: implementing a non-deterministic universal Turing machine using DNA,”J. of the Royal Society, vol. 128 no. 14, 2017.

実施例
実施例１：ＤＮＡ分子内の単一の詩の符号化、書込み及び読取り
[00401] 符号化されるデータは、詩を含むテキストファイルである。データは、オーバーラップ伸長ＰＣＲを用いて実施される産物方式を使用して、９６個の成分の２つの層からのＤＮＡ成分を一緒に混合して識別子を構築するように、ピペットを用いて手動で符号化される。第１の層、即ちＸは、総じて９６個のＤＮＡ成分を含む。第２の層、即ちＹも総じて９６個の成分を含む。ＤＮＡを書き込む前に、データは、２進にマッピングされ、次いで均一重み形式に記録され、均一重み形式では、元データの６１ビットのあらゆる連続する（隣接する分離された）列は、値１の厳密に１７ビットを有する９６ビット列に翻訳される。この均一重み形式は、天然の誤りチェック品質を有し得る。次いで、データは、９６×９６テーブルにハッシュされて、参照マップを形成する。

[00402] 図１８Ａの中央パネルは、詩を複数の識別子に符号化する９６×９６テーブルの２次元参照マップを示す。暗い点は、「１」ビット値に対応し、白い点は、「０」ビット値に対応する。データは、９６個の成分の２つの層を使用して識別子に符号化される。テーブルの各Ｘ値及びＹ値に成分が割り当てられ、Ｘ成分及びＹ成分は、「１」値を有する各（Ｘ，Ｙ）座標にオーバーラップ伸長ＰＣＲを使用して識別子に組み立てられる。データは、識別子ライブラリをシーケンシングすることにより、データをリードバック（例えば、復号化）して、可能な各（Ｘ，Ｙ）組立ての有無を特定した。

[00403] 図１８Ａの右パネルは、シーケンシングにより特定される識別子ライブラリに存在する配列の存在度の２次元ヒートマップを示す。各ピクセルは、対応するＸ成分及びＹ成分を含む分子を表し、そのピクセルにおけるグレースケール強度は、他の分子と比較したその分子の相対的存在度を表す。識別子は、各行の上位１７の最も豊富な（Ｘ，Ｙ）アセンブリとみなされる（均一重み符号化は、９６ビットの各連続した列が厳密に１７個の「１」値、したがって１７個の対応する識別子を有し得ることを保証するため）。

実施例２：６２８２４ビットテキストファイルの符号化
[00404] 符号化されるデータは、合計で６２８２４ビットになる３つの詩のテキストファイルである。データは、オーバーラップ伸長ＰＣＲを用いて実施される産物方式を使用して、３８４個の成分の２つの層からのＤＮＡ成分を一緒に混合して識別子を構築するように、Labcyte Echo（登録商標）液体処理装置を使用して符号化される。第１の層、即ちＸは、総じて３８４個のＤＮＡ成分を含む。第２の層、即ちＹも総じて３８４個の成分を含む。ＤＮＡを書き込む前に、データは、２進にマッピングされ、次いで重み（「１」のビット値の数）を減少させ、チェックサムを含むように記録される。チェックサムは、データの１９２ビットのあらゆる連続した列に対してチェックサムに対応する識別子があるように確立される。再符号化されたデータは、およそ１０，１００の重みを有し、これは、構築されることになる識別子の数に対応する。次いで、データは、３８４×３８４テーブルにハッシュされて、参照マップを形成し得る。

[00405] 図１８Ｂの中央パネルは、テキストファイルを複数の識別子に符号化する３８４×３８４テーブルの２次元参照マップを示す。各座標（Ｘ，Ｙ）は、位置Ｘ＋（Ｙ－１）^＊１９２におけるデータのビットに対応する。黒い点は、「１」のビット値に対応し、白い点は、「０」のビット値に対応する。図の右側の黒い点は、チェックサムであり、図の上部の黒い点のパターンは、コードブック（例えば、データを復号化するための辞書）である。テーブルの各Ｘ値及びＹ値に成分が割り当てられ得、Ｘ成分及びＹ成分は、「１」値を有する各（Ｘ，Ｙ）座標にオーバーラップ伸長ＰＣＲを使用して識別子に組み立てられる。データは、識別子ライブラリをシーケンシングすることにより、データをリードバック（例えば、復号化）して、可能な各（Ｘ，Ｙ）組立ての有無を特定した。

[00406] 図１８Ｂの右パネルは、シーケンシングにより特定される識別子ライブラリに存在する配列の存在度の２次元ヒートマップを示す。各ピクセルは、対応するＸ成分及びＹ成分を含む分子を表し、そのピクセルにおけるグレースケール強度は、他の分子と比較したその分子の相対的存在度を表す。識別子は、各行における上位Ｓ個の最も豊富な（Ｘ，Ｙ）アセンブリとみなされ、各行に対するＳは、チェックサム値であり得る。

[00407] 本明細書に提供されるのは、デジタル情報を核酸分子に格納する方法でもあり、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）第１の識別子核酸分子を形成することであって、（１）Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択し、（２）Ｍ個の選択された成分核酸分子を区画に配置し、（３）Ｍ個の選択された成分核酸分子を（２）に物理的に組み付けて、第１及び第２の層からの成分核酸分子が識別子核酸分子の第１及び第２の末端分子に対応し、第３の層中の成分核酸分子が識別子核酸分子の第３の分子に対応して、第１の識別子核酸分子におけるＭ個の層の物理的順序を規定するように、第１及び第２の末端分子を有し、第１の末端分子と第２の末端分子との間に位置する第３の分子を有する第１の識別子核酸分子を形成することにより、形成することと、（ｃ）複数の追加の識別子核酸分子を形成することであって、各々が（１）第１及び第２の末端分子を有し、第１の末端分子と第２の末端分子との間に位置する第３の分子を有し、（２）各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子は、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。

[00408] 幾つかの実装形態において、識別子核酸分子の集団は、同じ標的分子を共有する一方、同じプール内の他の識別子核酸分子は、異なる標的分子を有し得る。少なくとも１つの追加の識別子核酸分子の第１及び第２の末端分子の少なくとも一方は、（ｂ）における第１の識別子核酸分子の標的分子と同一であり得る。幾つかの実装形態において、Ｍ個の選択された成分核酸分子を物理的に組み立てることは、成分核酸分子のライゲーションを含む。

[00409] 幾つかの実装形態において、各層からの成分核酸分子は、少なくとも１つの粘着末端を含み、少なくとも１つの粘着末端は、別の層からの成分核酸分子の少なくとも１つの粘着末端と相補的であり、それにより（ｂ）及び（ｃ）における識別子核酸分子の形成するための粘着末端ライゲーションを可能にする。例えば、各層（Ａ、Ｂ、Ｃ）内の全ての成分は、互いに同じ粘着末端を有し得、層Ａ内の全ての成分の一方の粘着末端は、層Ｂ内の全ての成分の一方の粘着末端と相補的である。さらに、層Ｂ内の全ての成分の他方の粘着末端は、層Ｃ内の全ての成分の一方の粘着末端と相補的であり得、以下同様である。幾つかの実装形態において、（ｃ）における少なくとも１つの追加の識別子核酸分子の第１の分子は、（ｂ）における識別子核酸分子の第１の末端分子と同一であり、（ｃ）における少なくとも１つの追加の識別子核酸分子の第２の末端分子は、（ｂ）における識別子核酸分子の第２の末端分子と同一である。

[00410] 幾つかの実装形態において、方法は、プローブを使用して、第１の識別子核酸分子及び複数の追加の識別子核酸分子内の少なくとも幾つかの識別子核酸分子の標的分子にハイブリダイズして、連続記号位置を有する各記号に対応する識別子核酸分子を選択することをさらに含む。連続記号位置を有する記号は、互いに隣接し、同様の近傍にあることにより同様の特性を共有し得る。したがって、同じプローブを使用して、互いの近くに位置する識別子核酸分子を選択することが望ましいことがある。幾つかの実装形態において、方法は、単一のＰＣＲ反応を適用して、連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を増幅することをさらに含む。幾つかの実装形態において、連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子は、識別子核酸分子の第３の分子内の特定の成分核酸分子を標的する別のＰＣＲ反応によりさらに増幅させることが可能である。

[00411] 幾つかの実装形態において、各層内の成分核酸分子は、第１及び第２の末端領域を有して構造化され、Ｍ個の層の１つからの各成分核酸分子の第１の末端領域は、Ｍ個の層のうちの別の層からの任意の成分核酸分子の第２の末端領域に結合するような構造である。幾つかの実装形態において、Ｍは、３以上である。幾つかの実装形態において、記号列内の各記号位置は、対応する異なる識別子核酸分子を有する。幾つかの実装形態において、（ｂ）及び（ｃ）における識別子核酸分子は、各々がＭ個の各層からの１つの成分核酸分子を含む可能な識別子核酸分子の組合せ空間のサブセットを表す。

[00412] 幾つかの実装形態において、（ｄ）におけるプール内の識別子核酸分子の有無は、記号列内の対応する各記号位置の記号値を表す。例えば、識別子の存在は、対応する記号位置における記号値が１であることを表し得る一方、不在は、記号値が０であることを表し得るか又は逆も同様である。幾つかの実装形態において、連続記号位置を有する記号は、同様のデジタル情報を符号化する。幾つかの実装形態において、Ｍ個の各層における成分核酸分子の数の分布は、非均一である。例えば、ある層は、別の層よりも多くの成分核酸分子を有し得、それにより識別子核酸分子を作成するために可能な順列の数及び／又は多様性を調整し得る。

[00413] 幾つかの実装形態において、第３の層が第１の層又は第２の層よりも多くの成分核酸分子を含む場合、（ｄ）におけるプールへのアクセスに使用されるＰＣＲクエリの結果としてアクセスされる識別子核酸分子のプールは、第３の層が第１の層又は第２の層のいずれかよりも少ない成分核酸分子を含む場合よりも大きくなる。

[00414] 幾つかの実装形態において、第３の層が第１の層又は第２の層のいずれかよりも少ない成分核酸分子を含む場合、（ｄ）におけるプールへのアクセスに使用されるＰＣＲクエリの結果としてアクセスされる識別子核酸分子のプールは、第３の層が第１の層又は第２の層のいずれかよりも多い成分核酸分子を含む場合よりも小さくなり、アクセスされる識別子仮核酸分子のプールがより小さいことは、記号列内の記号へのアクセス分解能がより高いことに対応する。

[00415] 幾つかの実装形態において、第１の層は、最高優先度を有し、第２の層は、次に高い優先度を有し、残りのＭ－２個の層は、第１の末端分子と第２の末端分子との間に対応する成分核酸分子を有する。幾つかの実装形態において、（ｄ）におけるプールは、１つのＰＣＲ反応において、第１及び第２の末端分子における特定の成分核酸分子を有するプール内の全ての識別子核酸分子にアクセスするために使用することが可能である。

[00416] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、（ｂ）第１の識別子核酸分子を形成することであって、（１）Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択し、（２）Ｍ個の選択された成分核酸分子を区画に配置し、（３）Ｍ個の選択された成分核酸分子を（２）に物理的に組み付けて、第１及び第２の層からの成分核酸分子が識別子核酸分子の第１及び第２の末端分子に対応し、第３の層中の成分核酸分子が識別子核酸分子の第３の分子に対応して、第１の識別子核酸分子におけるＭ個の層の物理的順序を規定するように、第１及び第２の末端分子を有し、第１の末端分子と第２の末端分子との間に位置する第３の分子を有する第１の識別子核酸分子を形成することにより、形成することとを含む。

[00417] 幾つかの実装形態において、方法は、上記ステップ（ａ）と、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成するステップであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられた別個の成分核酸分子のセットから選択される、形成するステップ及びＭ個の選択された成分核酸分子を物理的に組み立てるステップと、（ｃ）複数の識別子核酸分子を形成するステップであって、各識別子核酸分子は、各記号位置に対応する、形成するステップと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集するステップとを含む。

[00418] 幾つかの実装形態において、Ｍ個の層の少なくとも幾つかは、画像データの異なる特徴に対応する。幾つかの実装形態において、異なる特徴は、ｘ座標、ｙ座標及び強度値又は強度値範囲を含む。画像データを核酸分子に格納することにより、本明細書に記載のアクセス方式のいずれか等のランダムアクセス方式を使用して任意の近傍ピクセルに色値について問い合わせることができ得る。幾つかの実装形態において、画像データを核酸分子に格納することにより、画像データの元の分解能のある割合で画像データを復号化することができる。

[00419] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成することと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。画像データを核酸分子に格納することにより、ランダムアクセス方式を使用して任意の近傍ピクセルに色値について問い合わせることができ得る。

[00420] 幾つかの実装形態において、画像データを核酸分子に格納することにより、画像データの元の分解能のある割合で画像データを復号化することができ、画像データを上記割合で復号化することは、関心のあるフレームを識別するために、監視画像のアーカイブ又はビデオアーカイブ内の特定の視覚的特徴を探索するために使用される。

[00421] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法でもあり、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにし、Ｍ個の選択された成分核酸分子を物理的に組み立てて、（ｂ）における識別子核酸分子を形成することは、クリックケミストリを使用することを含む、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。デジタル情報を格納する方法のステップ（ｃ）は、上述したように、第１及び第２の末端分子並びに第３の分子を有する分子の形成を実行することなく、複数の識別子核酸分子を概して形成することを含み得、各識別子核酸分子は、各記号位置に対応する。

[00422] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することと、（ｅ）プールに収集されたデータを削除することとを含む。幾つかの実装形態において、ステップ（ｃ）は、複数の識別子核酸分子を物理的に組み立てることを含み、各識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とを有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸配列を選択できるようにし、Ｍ個の選択された成分核酸分子を物理的に組み立てて、（ｂ）における識別子核酸分子を形成することは、クリックケミストリを使用することを含む。

[00423] 幾つかの実装形態において、方法は、配列特異的プローブを使用して、（ｄ）におけるプールから識別子核酸分子をプルダウン選択して、データを選択的に削除することをさらに含む。幾つかの実装形態において、選択された識別子核酸分子は、ＣＲＩＳＰＲベースの方法を使用して選択的に削除される。幾つかの実装形態において、方法は、プール内の識別子核酸分子にアクセスできないようにするか又は読取りを困難若しくは不可能にすることにより、（ｄ）におけるプール内の識別子核酸分子を不明瞭化して、データを非選択的に削除することをさらに含む。幾つかの実装形態において、方法は、超音波処理、オートクレーブ処理、漂白、塩基、酸、臭化エチジウム又は他のＤＮＡ修飾剤を用いた処理、照射、燃焼及び非特異的ヌクレアーゼ消化を使用して、（ｄ）におけるプールからの識別子核酸分子を分解させてデータを非選択的に削除することをさらに含む。

[00424] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）固定長以下のサイズの１つ又は複数のブロックに記号列を分割することと、（ｃ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｄ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｅ）、液体又は固体形態を有するプールに（ｄ）及び（ｃ）における識別子核酸分子を収集することとを含む。

[00425] 幾つかの実装形態において、上記ステップ（ｄ）における複数の識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とをそれぞれ有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする。

[00426] 幾つかの実装形態において、方法は、記号列、処理要件又はデジタル情報の意図される用途に基づいて各ブロックのサイズを決定することをさらに含む。幾つかの実装形態において、方法は、各ブロックのハッシュを計算することをさらに含む。幾つかの実装形態において、方法は、１つ又は複数の誤り検出及び修正を各ブロックに適用することと、１つ又は複数の誤り保護バイトを計算することとをさらに含む。幾つかの実装形態において、方法は、符号化又は復号化中、化学的条件を最適化するコードワードのセットに１つ又は複数のブロックをマッピングすることをさらに含む。幾つかの実装形態において、コードワードのセットは、固定数の識別子核酸分子が、ライタシステム内の各反応区画において、各反応区画内及び複数の反応区画にわたりおよそ等しい濃度で組み立てられるような固定の重みを有する。

[00427] 一態様において、本開示は、核酸分子に格納されたデジタル情報に対して計算を実行する方法を提供する。重要なことに、その計算は、分子のプールから正確なデジタル情報を読み取る、即ち復号化する必要なく実行され得る。計算は、ＡＮＤ、ＯＲ、ＮＯＴ又はＮＡＮＤ演算等のブール論理ゲートの任意の組合せを含み得る。具体的には、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することと、（ｅ）（ｄ）における識別子核酸分子を使用して、記号列に対するＡＮＤ、ＯＲ、ＮＯＴ又はＮＡＮＤを含むブール論理演算が関与する計算を実行して、核酸分子の新しいプールを生成することとを含む。核酸分子のその新しいプールは、計算の結果又は出力を表し得る。

[00428] 幾つかの実装形態において、上記（ｃ）における識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とをそれぞれ有し、各記号位置に対応し、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする。

[00429] 幾つかの実装形態において、計算は、識別子核酸分子のいずれも復号化することなく、（ｄ）における識別子核酸分子のプールに対して実行されて、記号列内の記号のいずれかを取得する。幾つかの実装形態において、計算を実行することは、ハイブリダイゼーション及び開裂を含む一連の化学的演算を含む。

[00430] 幾つかの実装形態において、（ａ）における記号列は、ａと示され、サブビットストリームｓを含み、（ｄ）における複数の識別子核酸分子は、２本鎖であり、ｄｓＡと示され、方法は、ｄｓＢと示され、サブビットストリームｔを含む、ｂと示される別の記号列を表す別の複数の識別子核酸分子の別のプールを取得することをさらに含み、計算は、ｄｓＡ及びｄｓＢに対して一連のステップを実行することにより、サブビットストリームｓ及びｔに対して実行される。幾つかの実装形態において、ｄｓＡ及びｄｓＢに対する一連のステップは、初期化ステップを実行することを含み、初期化ステップは、ｄｓＡにおける２本鎖識別子核酸分子を、Ａと示される正の１本鎖形態に変換することと、ｄｓＡにおける２本鎖識別子核酸分子を、Ａ^＊と示される負の１本鎖形態に変換することであって、Ａ^＊は、Ａの逆相補鎖である、変換することと、ｄｓＢにおける２本鎖識別子核酸分子を、Ｂと示される正の１本鎖形態に変換することと、ｄｓＢにおける２本鎖識別子核酸分子を、Ｂ^＊と示される負の１本鎖形態に変換することであって、Ｂ^＊は、Ｂの逆相補鎖である、変換することと、ｓに対応するｄｓＡにおける識別子核酸分子としてｄｓＰを選択することと、ｓに対応するＡにおける識別子核酸分子としてＰを選択することと、ｔに対応するｄｓＢにおける識別子核酸分子としてｄｓＱを選択することと、ｔに対応するＢ^＊における識別子核酸分子としてＱ^＊を選択することとを含む。

[00431] 幾つかの実装形態において、演算は、ＡＮＤ演算であり、ｄｓＡ及びｄｓＢに対する一連のステップは、ＡとＢ^＊とを組み合わせることによってａとｂとの間でＡＮＤ演算を実行することと、相補的な核酸分子をハイブリダイズすることと、完全に補完された２本鎖核酸分子を核酸分子の新しいプールとして選択することとをさらに含む。幾つかの実装形態において、計算は、ＯＲ演算であり、ｄｓＡ及びｄｓＢに対する一連のステップは、ＰとＱ^＊とを組み合わせることによってｓとｔとの間でＡＮＤ演算を実行することと、相補的な核酸分子をハイブリダイズすることと、完全に補完された２本鎖核酸分子を核酸分子の新しいプールとして選択することとをさらに含む。

[00432] 幾つかの実装形態において、完全に補完された核酸分子を選択することは、クロマトグラフィ、ゲル電気泳動、１本鎖特異的エンドヌクレアーゼ、１本鎖特異的エキソヌクレアーゼ又はそれらの組合せを使用することを含む。

[00433] 幾つかの実装形態において、計算は、ＯＲ演算であり、ｄｓＡ及びｄｓＢに対する一連のステップは、ｄｓＡとｄｓＢとを組み合わせることによってａとｂとの間でＯＲ演算を実行して、核酸分子の新しいプールを生成することを含む。幾つかの実装形態において、計算は、ＯＲ演算であり、ｄｓＡ及びｄｓＢに対する一連のステップは、ｄｓＰとｄｓＱとを組み合わせることによってｓとｔとの間でＯＲ演算を実行して、核酸分子の新しいプールを生成することを含む。

[00434] 幾つかの実装形態において、方法は、核酸分子の新しいプールを含むようにＡ又はｄｓＡを更新し、それによりＡ又はｄｓＡが演算の出力を表せるようにすることをさらに含む。

[00435] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）（ｂ）及び（ｃ）における識別子核酸分子を別個のビンに区画化することであって、各ビンは、異なる記号値に対応する、区画化することとを含む。

[00436] 幾つかの実装形態において、（ｂ）における第１の識別子核酸分子を形成することは、（１）Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択することと、（２）Ｍ個の選択された成分核酸分子を区画に配置することと、（３）（２）におけるＭ個の選択された成分核酸分子を物理的に組み立てて、第１及び第２の層からの成分核酸分子が識別子核酸分子の第１及び第２の末端分子に対応し、第３の層内の成分核酸分子が識別子核酸分子の第３の分子に対応して、第１の識別子核酸配列におけるＭ個の層の物理的順序を規定するように、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とを有する第１の識別子核酸分子を形成することとを含む。幾つかの実装形態において、特定の記号値を有する各記号の記号位置は、その値に確保されたビンに記録され、ビンは、（２）における区画である。

[00437] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）（ｂ）及び（ｃ）における識別子核酸分子を粉体、液体又は固体形態を有するプールに収集することとを含む。

[00438] 幾つかの実装形態において、上記ステップ（ｃ）は、各記号位置に対応する複数の識別子核酸分子を形成することを含み、各識別子核酸分子は、第１及び第２の末端分子と、第１の末端分子と第２の末端分子との間に位置する第３の分子とを含み、少なくとも１つの追加の識別子核酸分子の第１の末端分子、第２の末端分子及び第３の分子の少なくとも１つは、（ｂ）における第１の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする。

[00439] 幾つかの実装形態において、Ｍ個の選択される成分の個々の成分は、複数の部分を含み、各部分は、核酸分子を含み、各部分は、１つ又は複数の化学的方法によって同じ識別子にリンクされる。幾つかの実装形態において、前記複数の部分は、異なるデータ格納演算に対して別個の機能目的をそれぞれ果たす。幾つかの実装形態において、前記機能目的は、シーケンシングの容易さ及び核酸ハイブリダイゼーションによるアクセスの容易さを含む。幾つかの実装形態において、第１の識別子核酸分子を形成することは、ｄＣａｓ９－デアミナーゼ等の塩基エディタを適用することにより、親識別子内の１つ又は複数の塩基をプログラムによって変異させることを含む。

[00440] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）塩基エディタを適用することで親識別子内の１つ又は複数の塩基をプログラムによって変異させることにより、第１の識別子核酸分子を形成することと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。一例では、（ｂ）において適用される塩基エディタの１つは、ｄＣａｓ９－デアミナーゼである。

[00441] 一態様において、本開示は、１つ又は複数のランダムプロセスから生成されたデジタル情報を核酸分子に格納する方法を提供し、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）Ｍ個の選択された成分核酸分子を区画に配置することにより、第１の識別子核酸分子を形成することであって、Ｍ個の選択される成分核酸分子は、Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びＭ個の選択された成分核酸分子を物理的に組み立てることと、（ｃ）複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。

[00442] 幾つかの実装形態において、本開示は、上記方法又は上記複数の方法のいずれかの適用を提供し、適用は、情報の暗号化、エンティティの認証又は無作為化が関わる用途にけるエントロピー源としての使用を含む。幾つかの実装形態において、１つ又は複数の分離識別子ライブラリからの識別子は、エンティティ又は物理的部位を一意に識別するために使用される。

[00443] 一態様において、本開示は、デジタル情報を幾つかのランダムＤＮＡ種の区画に符号化する方法を提供する。

[00444] 一態様において、本開示は、可能なＤＮＡ種の大きい組合せプールからＤＮＡ種をランダムにサンプリングし、シーケンシングすることにより、ランダムデータを生成する方法を提供する。

[00445] 一態様において、本開示は、可能なＤＮＡ種の大きい組合せプールからＤＮＡ種のサブセットをランダムにサンプリングし、シーケンシングすることにより、ランダムデータを生成し、格納する方法を提供する。

[00446] 幾つかの実装形態において、ＤＮＡ種の前記サブセットは、各種の複数のコピーを作成するように増幅される。幾つかの実装形態において、誤りチェック及び修正のための核酸分子がＤＮＡ種の前記サブセットに追加されて、ロバストな将来の読取りを可能にする。幾つかの実装形態において、ＤＮＡ種の前記サブセットは、一意の分子を用いてバーコードを付与され、ＤＮＡ種の上記サブセットは、ＤＮＡ種のバーコード付きサブセットのプールにおいて組み合わされる。幾つかの実装形態において、ＤＮＡ種のバーコード付きサブセットの前記プール内のＤＮＡ種の特定のサブセットは、ＰＣＲ又は核酸捕捉のための入力核酸プローブを用いてアクセス可能である。

[00447] 一態様において、本開示は、システムを用いてアーチファクトをセキュア化し、認証する方法を提供し、システムは、（１）規定されたセットからのＤＮＡ種のサブセットで構成されたＤＮＡ鍵と、（２）鍵を受け入れ、前記アーチファクトをロック解除するために、一致する鍵をローカルで探索するか、又は他の部位でアーチファクトにアクセスために、ハッシュ化されたトークンを返すＤＮＡリーダとを含む。幾つかの実装形態において、方法は、生物学的用途に向けてＤＮＡ断片を組み合わせにより組み立てることをさらに含む。

[00448] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法でもあり、方法は、（ａ）デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、（ｂ）（１）Ｍ個の異なる層に分けられる別個の成分核酸分子のセットから、Ｍ個の層の各々からの１つの成分核酸分子を選択し、（２）Ｍ個の選択された成分核酸分子を区画に配置し、（３）Ｍ個の選択された成分核酸分子を（２）に物理的に組み付けて、指定された成分を含む第１の識別子核酸分子を形成することにより、第１の識別子核酸分子を形成することであって、指定された成分は、少なくとも１つの標的分子を含み、指定された成分を含む識別子のアクセスを可能にする、形成することと、（ｃ）各々が指定された成分を有する複数の追加の識別子核酸分子を物理的に組み立てることであって、指定された成分は、（ｂ）における第１の識別子核酸分子の少なくとも１つの標的分子を含んで、プローブが、記号列内に連続記号位置を有する各記号に対応する少なくとも２つの識別子核酸分子を選択できるようにする、組み立てることと、（ｄ）粉体、液体又は固体形態を有するプールに（ｂ）及び（ｃ）における識別子核酸分子を収集することとを含む。

[00449] 一般に、本明細書に記載の主題及び関数演算の態様は、本明細書に開示された構造及びそれらの構造的均等物を含め、デジタル電子回路又はコンピュータソフトウェア、ファームウェア若しくはハードウェア或いはそれらの１つ又は複数の組合せで実施することができる。本明細書に記載の主題の態様は、１つ又は複数のコンピュータプログラム製品として、即ちデータ処理装置により実行されるか又はデータ処理装置の動作を制御するためにコンピュータ可読媒体に符号化されたコンピュータプログラム命令の１つ又は複数のモジュールとして実施することができる。コンピュータ可読媒体は、機械可読記憶装置、機械可読記憶基板、メモリデバイス、機械可読伝播信号に影響を及ぼす組成物又はそれらの１つ若しくは複数の組合せであり得る。「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ又は複数のプロセッサ若しくはコンピュータを含む、データを処理するための全ての装置、デバイス及び機械を包含する。装置は、ハードウェアに加えて、対象のコンピュータプログラムの実行環境をもたらすコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム又はそれらの１つ若しくは複数の組合せを構成するコードを含み得る。伝播信号は、人工的に生成された信号、例えば適した受信機装置への送信に向けて情報を符号化するために生成される機械生成の電気、光又は電磁信号である。

[00450] コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト又はコードとしても知られる）は、コンパイル型又はインタプリタ型言語を含め、任意の形態のプログラミング言語で記述することができ、独立プログラム又はモジュール、コンポーネント、サブルーチン若しくは計算環境での使用に適した他のユニットとしてのものを含め、任意の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得る。プログラムは、他のプログラム若しくはデータ（例えば、マークアップ言語文書に格納された１つ若しくは複数のスクリプト）を保持するファイルの一部分、対象のプログラム専用の単一ファイル又は複数の連携ファイル（例えば、１つ若しくは複数のモジュール、サブプログラム若しくはコードの部分を格納した複数のファイル）に格納することができる。コンピュータプログラムは、１つのコンピュータ又は１つの部位に配置されるか若しくは複数の部位にわたって分散し、通信ネットワークにより相互接続された複数のコンピュータで実行されるように展開することができる。

[00451] 本明細書に記載のプロセス及び論理フローは、１つ又は複数のコンピュータプログラムを実行して、入力データに対して動作して出力を生成することにより機能を実行する１つ又は複数のプログラマブルプロセッサにより実行することができる。プロセス及び論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）により実行され得、装置は、そのような専用論理回路として実施され得る。

[00452] コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方並びに任意の種類のデジタルコンピュータの任意の１つ又は複数のプロセッサがある。一般に、プロセッサは、読取り専用メモリ若しくはランダムアクセスメモリ又はそれらの両方から命令及びデータを受信する。コンピュータの基本要素は、命令を実行するプロセッサ並びに命令及びデータを格納する１つ又は複数のメモリデバイスである。一般に、コンピュータは、データを格納する１つ若しくは複数の大容量記憶装置、例えば磁気ディスク、磁気光学ディスク若しくは光ディスクも含むか、又はそのような１つ若しくは複数の大容量記憶装置に動作可能に結合されてデータを受信若しくは転送するか又はその両方を行う。しかしながら、コンピュータは、そのようなデバイスを有する必要があるわけではない。

[00453] 本発明の好ましい実施形態を本明細書に図示し、説明したが、そのような実施形態が単に例として提供されていることが当業者に明らかになるであろう。本発明は、本明細書内に提供される特定の例により限定されることを意図されない。本発明について上述の本明細書を参照して説明したが、本明細書における実施形態の説明及び例示は、限定の意味で解釈されることを意図されない。ここで、本発明から逸脱することなく、当業者であれば多くの変形形態、変更形態及び置換形態を想到するであろう。さらに、本発明の全ての態様は、多様な条件及び変数に依存する本明細書に記載の特定の図、構成又は相対的な部分に限定されないことが理解されるものとする。本発明を実施するにあたり、本明細書に記載の本発明の実施形態への種々の代替形態が採用可能であることを理解されたい。したがって、本発明はそのようなあらゆる代替形態、改変形態、変形形態又は均等物も包含することが企図される。以下の特許請求の範囲は、本発明の範囲を規定し、特許請求の範囲及びその均等物内の方法及び構造がそれらにより包含されることが意図される。本明細書に引用された全ての引用文献は、全体的に参照により援用され、本願の一部をなす。

Claims

情報を核酸配列に書き込む方法であって、
第１の固定小数点数を取得すること、
成分核酸配列の順序付きサブセットをそれぞれ含む識別子核酸配列の組合せ空間を規定する前記成分核酸配列のライブラリを取得すること、
前記組合せ空間中の識別子核酸配列の第１のサブセットを、前記第１のサブセット中の識別子核酸配列の数に対応するコードワードサイズを有する第１のコードワードとして識別すること、
前記第１のサブセットの別個の識別子核酸配列を有する１つ又は複数の識別子核酸分子の第１のセットを形成することであって、前記第１のセットにおいて表される別個の識別子核酸配列の前記数の、前記コードワードサイズに対する比率は、前記第１の固定小数点数を近似する、形成することと、
を含む方法。
成分核酸配列の前記ライブラリは、複数の層を含み、各層は、前記成分核酸配列のサブセットを含み、各識別子核酸配列は、各層からの１つの成分核酸配列を含む、請求項１に記載の方法。
前記第１の固定小数点数は、値ｘを有し、前記コードワードサイズは、ｗであり、ｋ個の識別子核酸分子は、前記比率がｋ／ｗであり、かつ、ｘにおよそ等しいように前記第１のセットにおいて形成される、請求項１又は２に記載の方法。
ｋ／ｗは、ｘのプラス又はマイナス２０％以内である、請求項３に記載の方法。
前記コードワードサイズは、少なくとも８である、請求項１～４のいずれか一項に記載の方法。
前記コードワードサイズは、少なくとも２５６である、請求項５に記載の方法。
前記コードワードサイズは、少なくとも５１２である、請求項６に記載の方法。
前記コードワードサイズは、少なくとも１０２４である、請求項７に記載の方法。
第２の固定小数点数を取得することと、
前記組合せ空間中の識別子核酸配列の第２のサブセットを、前記第１のコードワードの前記コードワードサイズを有し、かつ、前記第２のサブセット中の識別子核酸配列の数に対応する第２のコードワードとして識別することと、
前記第２のサブセットの別個の識別子核酸配列を有する１つ又は複数の識別子核酸分子の第２のセットを形成することであって、前記第２のセット中の別個の識別子核酸配列の前記数の、前記コードワードサイズに対する比率は、前記第２の固定小数点数を近似する、形成することと
をさらに含む、請求項１～８のいずれか一項に記載の方法。
前記第１のセット及び前記第２のセットをプールして、合算プールを取得することと、
前記プールされたセットを希釈して、スケーリングされた合算プールを取得することと、
により、前記第１の固定小数点数及び前記第２の固定小数点数を合計することをさらに含む、請求項９に記載の方法。
前記第１のセット及び前記第２のセットをプールして、因子プールを取得することと、
化学的ＡＮＤ演算を前記識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することと、
により、前記第１の固定小数点数及び前記第２の固定小数点数を乗算することをさらに含む、請求項９に記載の方法。
前記化学的ＡＮＤ演算は、
前記識別子核酸分子を１本鎖識別子核酸分子に変換することと、
相補的識別子核酸分子をハイブリダイズすることと、
完全にハイブリダイズされた２本鎖核酸分子を選択して、前記積プールを取得することと、
を含む、請求項１１に記載の方法。
選択することは、１本鎖核酸分子を選択的に分解する酵素又は配列ミスマッチを有する２本鎖核酸分子を選択的に分解する酵素の少なくとも１つを使用することを含む、請求項１２に記載の方法。
前記第１のセット及び前記第２のセットをプールして、因子プールを取得することと、
化学的ＯＲ演算を前記識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することと、
をさらに含む、請求項９に記載の方法。
前記第１のセット及び前記第２のセットを混合することを含む、請求項１４に記載の方法。
前記第１のセット及び前記第２のセットをプールして、因子プールを取得することと、
化学的ＮＩＭＰＬＹ演算を前記識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することと、
をさらに含む、請求項９に記載の方法。
前記化学的ＮＩＭＰＬＹ演算は、
前記識別子核酸分子を１本鎖識別子核酸分子に変換することであって、前記第２のセットの前記１本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、
前記第２のセットの１本鎖識別子核酸分子のモル過剰を提供することと、
相補的識別子核酸分子をハイブリダイズすることと、
前記アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた２本鎖核酸分子を選択して、前記積プールを取得することと、
を含む、請求項１６に記載の方法。
前記第１のセット及び前記第２のセットをプールして、因子プールを取得することと、
化学的ＮＯＴ演算を前記識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することと、
をさらに含む、請求項９に記載の方法。
前記化学的ＮＯＴ演算は、
前記識別子核酸分子を１本鎖識別子核酸分子に変換することであって、前記第１のセットの前記１本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、
前記第１のセットの１本鎖識別子核酸分子のモル過剰を提供することと、
相補的識別子核酸分子をハイブリダイズすることと、
前記アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた２本鎖核酸分子を選択して、前記積プールを取得することと、
を含む、請求項１８に記載の方法。
前記第１のセット及び前記第２のセットをプールして、因子プールを取得することと、
化学的ＸＯＲ演算を前記識別子核酸分子の第１及び第２のセットに適用して、積プールを取得することと、
をさらに含む、請求項９に記載の方法。
前記化学的ＸＯＲ演算は、２つのＮＩＭＰＬＹ演算を実行し、それに続いてＯＲ演算を実行することを含む、請求項２１に記載の方法。