JP7364604B2

JP7364604B2 - 核酸ベースのデータ記憶のための化学的方法

Info

Publication number: JP7364604B2
Application number: JP2020573090A
Authority: JP
Inventors: デビンリーク，; ミレーナラゾバ，; サラフリッキンジャー，; ナサニエルロケ，; ヒョンジュンパク，; スワプニルピー．バティア，
Original assignee: カタログテクノロジーズ，インコーポレイテッド
Priority date: 2018-03-16
Filing date: 2019-03-15
Publication date: 2023-10-18
Anticipated expiration: 2039-03-15
Also published as: WO2019178551A1; US20240026347A1; EP3766077A1; JP2024012305A; US20210079382A1; US20230026655A1; US11286479B2; JP2021518164A; EP3766077A4; AU2019236289A1; US12006497B2; KR20200132921A; CA3094077A1

Description

相互参照
本願は、全体が参照により本明細書に組み込まれる、２０１８年３月１６日に出願した米国特許仮出願第６２／６４４，３２３号の優先権を主張するものである。

核酸デジタルデータ記憶は、情報を符号化し、長期間にわたって記憶するための安定した手法であり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で保管される核酸分子に記憶されたデジタルデータを、６０，０００年もの年数またはそれより長い年数を経た後に取得することができる。

核酸分子に記憶されたデジタルデータにアクセスするために、核酸分子をシークエンシングすることができる。しかるが故に、核酸デジタルデータ記憶は、長期間にわたって記憶またはアーカイブされる大量の情報を有し得るが稀にしかアクセスされないデータを記憶させるための理想的な方法であり得る。

現行の方法は、配列内の塩基間の関係をデジタル情報（例えば、二進コード）に直接変換するような、塩基毎の核酸配列へのデジタル情報（例えば、二進コード）の符号化に依拠する。デジタル符号化された情報のビットストリームまたはバイトに読み込むことができる、塩基毎の配列に記憶されたデジタルデータのシークエンシングは、エラーを起こしやすい可能性があり、塩基毎のデノボ核酸合成の費用が高価であり得るため符号化費用が嵩み得る。核酸デジタルデータ記憶を実施する新規方法の機会は、あまり費用が嵩まず、商業的インプリメンテーションがより容易である、データの符号化および取得のための手法を提供し得る。

プール内の一意の核酸配列の存在または非存在下でビット値情報を符号化することにより、塩基毎の合成を伴わずに核酸（例えば、デオキシリボ核酸、ＤＮＡ）分子にデジタル情報を符号化する方法およびシステムであって、一意の核酸配列を有するビットストリーム中の各ビット位置を指定すること、およびその位置におけるビット値をプール内の対応する一意の核酸配列の存在または非存在により指定することを含む、方法およびシステム。しかし、より一般的には、核酸配列の一意のサブセットによりバイトストリーム中の一意のバイトを指定すること。組合せゲノム戦略（例えば、複数の核酸配列のアセンブリ、または核酸配列の酵素ベースの編集）を使用して、塩基毎の合成を伴わずに一意の核酸配列を生成する方法も開示される。

ある態様では、本開示は、情報を核酸配列に書き込む方法であって、（ａ）情報を表すために記号列を生成するステップと；（ｂ）複数の成分を構築するステップであって、複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと；（ｃ）複数の成分のうちの個々の成分の少なくとも１つの付着末端を生成するステップと；（ｄ）複数の成分のうちの２つまたはそれより多くの成分を、２つまたはそれより多くの成分のうちの個々の成分の少なくとも１つの付着末端を介して互いに化学的に連結させることによって、複数の識別子を生成するステップであって、複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、複数の識別子のうちの個々の識別子が、記号列中の個々の記号に対応する、ステップと；（ｅ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップとを含む方法を提供する。

一部の実施形態では、記号列の各記号は、１つまたは複数の可能な記号値のうちの１つである。一部の実施形態では、記号列中の各記号は、２つの可能な記号値のうちの１つである。一部の実施形態では、記号列の各位置における１つの記号値を識別子ライブラリー中の区別可能な識別子の非存在により表すことができる。一部の実施形態では、２つの可能な記号値は、０および１のビット値であり、記号列中の０のビット値を有する個々の記号を識別子ライブラリー中の区別可能な識別子の非存在により表すことができ、記号列中の１のビット値を有する個々の記号を識別子ライブラリー中の区別可能な識別子の存在により表すことができるか、またはその逆である。一部の実施形態では、（ｄ）は、２つまたはそれより多くの層からの２つまたはそれより多くの成分を化学的に連結させることを含み、２つまたはそれより多くの層の各層は、成分の区別可能なセットを含む。一部の実施形態では、識別子ライブラリーからの個々の識別子は、２つまたはそれより多くの層の各層からの１つの成分を含む。一部の実施形態では、２つまたはそれより多くの成分は、固定された順序でアセンブルされる。一部の実施形態では、２つまたはそれより多くの成分は、任意の順序でアセンブルされる。一部の実施形態では、２つまたはそれより多くの成分は、２つまたはそれより多くの層のうちの異なる層からの２つの成分間に１つまたは複数の区分化成分を配置してアセンブルされる。一部の実施形態では、個々の識別子は、２つまたはそれより多くの層のサブセットの各層からの１つの成分を含む。一部の実施形態では、個々の識別子は、２つまたはそれより多くの層の各々からの少なくとも１つの成分を含む。一部の実施形態では、（ｃ）は、複数の成分のうちの個々の成分の少なくとも１つの付着末端を生成するためにエンドヌクレアーゼを使用することを含む。一部の実施形態では、少なくとも１つの付着末端は、個々の成分の５’末端にある。一部の実施形態では、少なくとも１つの付着末端は、個々の成分の３’末端にある。一部の実施形態では、（ｃ）は、個々の成分の２つの付着末端を生成することを含む。一部の実施形態では、少なくとも１つの付着末端は、長さ少なくとも１ヌクレオチドである。一部の実施形態では、少なくとも１つの付着末端は、長さ６ヌクレオチドである。一部の実施形態では、少なくとも１つの付着末端は、表４または表５に収載されている配列からなる群より選択される核酸配列を含む。一部の実施形態では、複数の核酸配列は、情報のメタデータを記憶する、または情報を隠蔽する。一部の実施形態では、２つまたはそれより多くの識別子ライブラリーが組み合わせられ、２つまたはそれより多くの識別子ライブラリーの各識別子ライブラリーに、区別可能なバーコードでタグ付けされる。一部の実施形態では、識別子ライブラリー中の個々の識別子各々は、区別可能なバーコードを含み、または識別子ライブラリーのサブセット識別子は、区別可能なバーコードを含む。一部の実施形態では、複数の識別子、または識別子を含む複数の成分は、読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために選択される。一部の実施形態では、化学的に連結させることは、リガーゼを含む試薬を使用して複数の成分のうちの２つまたはそれより多くの成分を互いにライゲーションすることを含む。一部の実施形態では、リガーゼは、Ｔ４リガーゼ、Ｔ７リガーゼ、Ｔ３リガーゼ、またはＥ．ｃｏｌｉリガーゼである。一部の実施形態では、試薬は、添加剤をさらに含む。一部の実施形態では、添加剤は、リガーゼの効率を高める。一部の実施形態では、添加剤は、ポリエチレングリコール（ＰＥＧ）を含む。一部の実施形態では、ＰＥＧは、ＰＥＧ４００、ＰＥＧ６０００、ＰＥＧ８０００、またはこれらの任意の組合せである。一部の実施形態では、ＰＥＧ分子の最終濃度は、単位体積当たり少なくとも約１重量（ｗ／ｖ）％である。一部の実施形態では、ライゲーションの反応時間は、少なくとも１分である。一部の実施形態では、ライゲーションは、摂氏３０度またはそれより高い温度でのライゲーションである。一部の実施形態では、ライゲーションの反応効率は、少なくとも約２０％である。一部の実施形態では、方法は、ＥＤＴＡまたはチオシアン酸グアニジンを含有する緩衝液を使用してリガーゼを不活化するステップをさらに含む。一部の実施形態では、リガーゼの最終濃度は、少なくとも約５ＣＥＵ／μＬである。一部の実施形態では、試薬は、グリセロール分子をさらに含む。一部の実施形態では、（ｄ）における化学的に連結させることは、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）を使用することを含む。一部の実施形態では、個々の成分は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸である。一部の実施形態では、個々の成分は、再水分添加（ｒｅｈｙｄｒａｔｅ）されている。一部の実施形態では、個々の成分は、脱水された成分から再水分添加される。一部の実施形態では、方法は、複数の識別子の少なくともサブセットの個々の識別子各々を脱水することにより識別子ライブラリーを脱水するステップをさらに含む。一部の実施形態では、複数の識別子の少なくともサブセットの個々の識別子各々が脱水される。一部の実施形態では、方法は、複数の識別子の少なくともサブセットの個々の識別子各々を再水分添加するステップをさらに含む。一部の実施形態では、方法は、識別子分解を防止するために識別子ライブラリーに保存添加剤を添加するステップをさらに含む。一部の実施形態では、複数の識別子は、ＰＣＲでコピーされる。一部の実施形態では、ＰＣＲは、少なくとも１０サイクルを有する。一部の実施形態では、複数の識別子は、１マイクロリットル当たり１０ナノグラムの濃度までＰＣＲで増幅される。一部の実施形態では、ＰＣＲは、エマルジョンＰＣＲである。一部の実施形態では、複数の識別子は、線形増幅でコピーされる。一部の実施形態では、ＰＣＲの後、複数の識別子のより多くのコピーを作出するために線形増幅が使用される。一部の実施形態では、複数の識別子のサブセットは、１回または複数回のＰＣＲ反応でアクセスされる。一部の実施形態では、複数の識別子のサブセットは、１つまたは複数の親和性タグ付きプローブでアクセスされる。一部の実施形態では、複数の識別子のサブセットの識別子は、１セットの成分を共通して有する。一部の実施形態では、識別子は、ゲル電気泳動により精製される。一部の実施形態では、識別子は、親和性タグ付きプローブにより精製される。一部の実施形態では、識別子は、ＰＣＲを使用して増幅される。一部の実施形態では、識別子は、チミン－チミンジヌクレオチドまたはシトシン－シトシンジヌクレオチドを回避するように設計される。

別の態様では、本開示は、情報を核酸配列に書き込む方法であって、情報を表すために記号列を生成するステップと；複数の成分を構築するステップであって、複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと；複数の成分のうちの個々の成分の少なくとも１つの付着末端を生成するステップであって、少なくとも１つの付着末端が長さ少なくとも６ヌクレオチドである、ステップと；複数の成分のうちの２つまたはそれより多くの成分を、２つまたはそれより多くの成分のうちの個々の成分の少なくとも１つの付着末端を介して互いに化学的に連結させることによって、複数の識別子を生成するステップであって、複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、複数の識別子のうちの個々の識別子が、記号列中の個々の記号に対応する、ステップと；複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップとを含む方法を提供する。

一部の実施形態では、少なくとも１つの付着末端は、個々の成分の３’末端にある。一部の実施形態では、連結させることは、複数の成分のうちの少なくとも１５またはそれより多くの成分を連結させることを含む。一部の実施形態では、少なくとも１つの付着末端は、表４または表５に収載されている配列からなる群より選択される核酸配列を含む。

別の態様では、情報を核酸配列に書き込む方法であって、（ａ）情報を表すために記号列を生成するステップと；（ｂ）複数の付着末端成分を構築するステップであって、複数の成分のうちの個々の成分各々が、核酸配列および少なくとも１つの付着末端を含む、ステップと、（ｃ）複数の成分のうちの２つまたはそれより多くの成分を、２つまたはそれより多くの成分のうちの個々の成分の少なくとも１つの付着末端を介して互いに化学的に連結させることによって、複数の識別子を生成するステップであって、複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、複数の識別子のうちの個々の識別子が、記号列中の個々の記号に対応する、ステップと；（ｄ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップとを含む方法が、本明細書で提供される。一部の実施形態では、（ｂ）は、２つのオリゴヌクレオチドをアニールして、個々の成分各々が少なくとも１つの付着末端を有するように個々の成分各々を構築することを含む。

ある態様では、本開示は、情報を核酸配列に書き込む方法であって、（ａ）情報を記号列に変換するステップと；（ｂ）記号列を複数の識別子にマッピングするステップであって、複数の識別子のうちの個々の識別子が１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が、核酸配列を含み、複数の識別子のうちの個々の識別子が、記号列の個々の記号に対応する、ステップと；（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含む方法を提供する。

一部の実施形態では、前記記号列中の各記号は、２つの可能な記号値のうちの１つである。一部の実施形態では、前記記号列の各位置における１つの記号値を、識別子ライブラリー中の区別可能な識別子の非存在により表すことができる。一部の実施形態では、前記２つの可能な記号値は、０および１のビット値であり、前記記号列中の０の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができ、前記記号列中の１の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の前記区別可能な識別子の存在により表すことができるか、またはその逆である。一部の実施形態では、記号列の各記号は、１つまたは複数の可能な記号値のうちの１つである。一部の実施形態では、識別子ライブラリー中の個々の識別子の存在は、二進列中の第１の記号値に対応し、個々の識別子の非存在は、二進列中の第２の記号値に対応する。一部の実施形態では、第１の記号値は、１のビット値であり、第２の記号値は、０のビット値である。一部の実施形態では、第１の記号値は、０のビット値であり、第２の記号値は、１のビット値である。

一部の実施形態では、識別子ライブラリー中の個々の識別子を構築することは、１つまたは複数の層からの１つまたは複数の成分をアセンブルすることを含み、１つまたは複数の層の各層は、成分の区別可能なセットを含む。一部の実施形態では、識別子ライブラリーからの個々の識別子は、１つまたは複数の層の各層からの１つの成分を含む。一部の実施形態では、１つまたは複数の成分は、固定された順序でアセンブルされる。一部の実施形態では、１つまたは複数の成分は、無作為な順序でアセンブルされる。一部の実施形態では、１つまたは複数の成分は、１つまたは複数の層のうちの異なる層からの２つの成分間に１つまたは複数の区分化成分を配置してアセンブルされる。一部の実施形態では、個々の識別子は、１つまたは複数の層のサブセットの各層からの１つの成分を含む。一部の実施形態では、個々の識別子は、１つまたは複数の層の各々からの少なくとも１つの成分を含む。一部の実施形態では、１つまたは複数の成分は、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）、ポリメラーゼサイクリングアセンブリ、付着末端ライゲーション、バイオブリックスアセンブリ（ｂｉｏｂｒｉｃｋｓａｓｓｅｍｂｌｙ）、ゴールデンゲートアセンブリ（ｇｏｌｄｅｎｇａｔｅａｓｓｅｍｂｌｙ）、ギブソンアセンブリ（ｇｉｂｓｏｎａｓｓｅｍｂｌｙ）、リコンビナーゼアセンブリ、リガーゼサイクリング反応、または鋳型誘導型ライゲーション（ｔｅｍｐｌａｔｅｄｉｒｅｃｔｅｄｌｉｇａｔｉｏｎ）を使用してアセンブルされる。

一部の実施形態では、識別子ライブラリー中の個々の識別子を構築することは、核酸編集酵素を親識別子に適用することにより、親識別子中の少なくとも１つの成分を削除すること、置換すること、または親識別子に少なくとも１つの成分を挿入することを含む。一部の実施形態では、親識別子は、ヌクレアーゼ特異的標的部位、リコンビナーゼ認識部位または区別可能なスペーサー配列が隣接する、複数の成分を含む。一部の実施形態では、核酸編集酵素は、ＣＲＩＳＰＲ－Ｃａｓ、ＴＡＬＥＮ、ジンクフィンガーヌクレアーゼ、リコンビナーゼ、およびこれらの機能的バリアントからなる群より選択される。

一部の実施形態では、識別子ライブラリーは、複数の核酸配列を含む。一部の実施形態では、複数の核酸配列は、情報のメタデータを記憶する、および／または情報を隠蔽する。一部の実施形態では、メタデータは、情報源、意図された情報受信者、情報の元の形式、情報を符号化するために使用された計装および方法、識別子ライブラリーへの情報の書き込み日時、情報に加えた修正および／または他の情報への参照に対応する、二次情報を含む。

一部の実施形態では、１つまたは複数の識別子ライブラリーが組み合わせられ、１つまたは複数の識別子ライブラリーの各識別子ライブラリーに、区別可能なバーコードでタグ付けされる。一部の実施形態では、識別子ライブラリー中の個々の識別子各々は、区別可能なバーコードを含む。一部の実施形態では、複数の識別子が、読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために選択される。一部の実施形態では、複数の識別子は、書き込みエラー、変異、分解、および読み取りエラーを最小限にするように選択される。

別の態様では、本開示は、核酸配列に符号化された情報をコピーする方法であって、（ａ）記号列を符号化する識別子ライブラリーを提供するステップであって、識別子ライブラリーが、複数の識別子を含み、複数の識別子のうちの個々の識別子が、１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が、核酸配列を含み、複数の識別子のうちの個々の識別子が、記号列の個々の記号に対応する、ステップと；（ｂ）識別子ライブラリーの１つまたは複数のコピーを構築するステップとを含む方法を提供する。

一部の実施形態では、複数の識別子は、１つまたは複数のプライマー結合部位を含む。一部の実施形態では、識別子ライブラリーは、ポリメラーゼ連鎖反応（ＰＣＲ）などの核酸増幅を使用してコピーされる（化学的方法セクションＤを参照されたい）。一部の実施形態では、ＰＣＲは、従来のＰＣＲまたは線形ＰＣＲであり、識別子ライブラリーのコピーの数が各ＰＣＲサイクルに伴ってそれぞれ倍増または線形に増加する。一部の実施形態では、識別子ライブラリー中の個々の識別子は、ＰＣＲの前に環状ベクターにライゲーションされ、環状ベクターは、個々の識別子の各々の末端に相関バーコードを含み、したがって、任意の意図せぬＤＮＡ交差事象がＰＣＲ中に発生した場合に結果として生じる誤形成分子がシークエンシングで検出可能になる。一部の実施形態では、ＰＣＲは、等温ＰＣＲである。一部の実施形態では、ＰＣＲは、ローリングサークル増幅の形態である。一部の実施形態では、ＰＣＲは、エマルジョンＰＣＲ（ｅＰＣＲ）である。

一部の実施形態では、識別子ライブラリーは、複数の核酸配列を含む。一部の実施形態では、複数の核酸配列がコピーされる。一部の実施形態では、コピーの前に１つまたは複数の識別子ライブラリーが組み合わせられ、１つまたは複数の識別子ライブラリーの各ライブラリーは、区別可能なバーコードを含む。

別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法であって、（ａ）記号列を符号化する識別子ライブラリーを提供するステップであって、識別子ライブラリーが、複数の識別子を含み、複数の識別子のうちの個々の識別子が、１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が、核酸配列を含み、複数の識別子のうちの個々の識別子が、記号列の個々の記号に対応する、ステップと；（ｂ）識別子ライブラリーから複数の識別子の標的化されたサブセットを抽出するステップとを含む方法を提供する。

一部の実施形態では、複数のプローブが識別子ライブラリーと組み合わせられる。一部の実施形態では、複数のプローブは、識別子ライブラリーからの複数の識別子の標的化されたサブセットと相補性を共有する。一部の実施形態では、複数のプローブは、識別子ライブラリー中の複数の識別子の標的化されたサブセットをハイブリダイズする。一部の実施形態では、複数のプローブは、１つまたは複数の親和性タグを含み、１つまたは複数の親和性タグは、核酸捕捉と呼ばれることがあるプロセスで、親和性ビーズまたは親和性カラムにより捕捉される（核酸捕捉に関しては化学的方法セクションＦを参照されたい）。

一部の実施形態では、識別子ライブラリーは、複数のプローブの１つまたは複数のサブセットと逐次的に組み合わせられ、識別子ライブラリーの一部は、複数のプローブの１つまたは複数のサブセットに結合する。一部の実施形態では、複数のプローブの１つまたは複数のサブセットに結合する識別子ライブラリーの一部は、識別子ライブラリーへの複数のプローブの別のサブセットの付加の前に除去される。核酸捕捉についてのこれらの実施形態では、捕捉された核酸は、保存されるのではなく識別子プールから除去され得る。

一部の実施形態では、複数の識別子のうちの個々の識別子は、１つまたは複数の共通プライマー結合領域、１つまたは複数の可変プライマー結合領域、またはこれらの任意の組合せを含む。一部の実施形態では、識別子ライブラリーは、１つもしくは複数の共通プライマー結合領域にまたは１つもしくは複数の可変プライマー結合領域に結合するプライマーと組み合わせられる。一部の実施形態では、１つまたは複数の可変プライマー結合領域に結合するプライマーは、識別子ライブラリーの標的化されたサブセットを選択的に増幅するために使用される（化学的方法セクションＤを参照されたい）。

一部の実施形態では、識別子の一部は、識別子ライブラリーから選択的ヌクレアーゼ切断により除去される。一部の実施形態では、識別子ライブラリーは、Ｃａｓ９およびガイドプローブと組み合わせられ、ガイドプローブは、識別子ライブラリーから指定された識別子を除去するようにＣａｓ９を誘導する。一部の実施形態では、個々の識別子は、一本鎖状であり、識別子ライブラリーは、一本鎖特異的エンドヌクレアーゼと組み合わせられる。一部の実施形態では、識別子ライブラリーは、一本鎖特異的エンドヌクレアーゼの付加の前に個々の標的識別子を分解から保護する個々の識別子の相補的セットと混合される。一部の実施形態では、選択的ヌクレアーゼ切断により切断されない個々の識別子は、サイズ選択クロマトグラフィーにより分離される（核酸サイズ選択に関しては化学的方法セクションＥを参照されたい）。一部の実施形態では、選択的ヌクレアーゼ切断により切断されない個々の識別子は増幅され、選択的ヌクレアーゼ切断により切断される個々の識別子は増幅されない（核酸増幅に関しては化学的方法セクションＤを参照されたい）。一部の実施形態では、選択的ヌクレアーゼ切断により切断されない個々の識別子は捕捉され、選択的ヌクレアーゼ切断により切断される個々の識別子は捕捉されない（核酸捕捉に関しては化学的方法セクションＦを参照されたい）。一部の実施形態では、識別子ライブラリーは、複数の核酸配列を含み、複数の核酸配列は、識別子ライブラリー中の複数の識別子の標的化されたサブセットを用いて抽出される。

別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法であって、（ａ）複数の識別子を含む識別子ライブラリーを提供するステップであって、複数の識別子のうちの個々の識別子が、１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が、核酸配列を含む、ステップと；（ｂ）識別子ライブラリー中の複数の識別子を識別するステップと；（ｃ）（ｂ）で識別された複数の識別子から複数の記号を生成するステップであって、複数の記号のうちの個々の記号が、複数の識別子のうちの個々の識別子に対応する、ステップと；（ｄ）複数の記号から情報をコンパイルするステップとを含む方法を提供する。

一部の実施形態では、前記記号列中の各記号は、２つの可能な記号値のうちの１つである。一部の実施形態では、前記記号列の各位置における１つの記号値を、識別子ライブラリー中の区別可能な識別子の非存在により表すことができる。一部の実施形態では、前記２つの可能な記号値は、０および１のビット値であり、前記記号列中の０の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができ、前記記号列中の１の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の前記区別可能な識別子の存在により表すことができるか、またはその逆である。一部の実施形態では、識別子ライブラリー中の個々の識別子の存在は、二進列中の第１の記号値に対応し、識別子ライブラリー中の個々の識別子の非存在は、二進列中の第２の記号値に対応する。一部の実施形態では、第１の記号値は、１のビット値であり、第２の記号値は、０のビット値である。一部の実施形態では、第１の記号値は、０のビット値であり、第２の記号値は、１のビット値である。

一部の実施形態では、複数の識別子を識別するステップは、識別子ライブラリー中の複数の識別子をシークエンシングすることを含む。一部の実施形態では、シークエンシングは、デジタルポリメラーゼ連鎖反応（ＰＣＲ）、定量的ＰＣＲ、マイクロアレイ、合成によるシークエンシング、または大規模並列シークエンシングを含む。一部の実施形態では、識別子ライブラリーは、複数の核酸配列を含む。一部の実施形態では、複数の核酸配列は、情報のメタデータを記憶する、および／または情報を隠蔽する。一部の実施形態では、１つまたは複数の識別子ライブラリーが組み合わせられ、１つまたは複数の識別子ライブラリー中の各識別子ライブラリーは、区別可能なバーコードを含む。一部の実施形態では、バーコードは、情報のメタデータを記憶する。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法であって、（ａ）コンピュータデータを受信するステップと；（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップであって、コンピュータデータが、合成された核酸分子の少なくともサブセットに符号化されるが、核酸分子の各々の配列に符号化されない、ステップと；（ｃ）核酸配列を有する核酸分子を記憶させるステップとを含む方法を提供する。

一部の実施形態では、核酸分子の少なくともサブセットは、一緒に群化される。一部の実施形態では、方法は、核酸分子をシークエンシングして核酸配列を決定し、それによってコンピュータデータを取得するステップをさらに含む。一部の実施形態では、（ｂ）は、約１日未満である期間で行われる。一部の実施形態では、（ｂ）は、少なくとも約９０％の正確度で行われる。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法であって、（ａ）コンピュータデータを受信するステップと；（ｂ）コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成するステップであって、塩基毎の核酸合成の非存在下で核酸分子を合成するステップと；（ｃ）少なくとも１つの核酸配列を含む核酸分子を記憶させるステップとを含む方法を提供する。

一部の実施形態では、方法は、核酸分子をシークエンシングして核酸配列を決定し、それによってコンピュータデータを取得するステップをさらに含む。一部の実施形態では、（ｂ）は、約１日未満である期間で行われる。一部の実施形態では、（ｂ）は、少なくとも約９０％の正確度で行われる。

別の態様では、本開示は、核酸を使用してバイナリ配列データを符号化するシステムを提供し、このシステムは、識別子ライブラリーを構築するように構成されたデバイスであって、識別子ライブラリーが複数の識別子を含み、複数の識別子のうちの個々の識別子が１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が核酸配列である、デバイスと；デバイスに動作可能に結合された１つまたは複数のコンピュータプロセッサであって、（ｉ）情報を記号列に変換するように、（ｉｉ）記号列を複数の識別子にマッピングするように（ここで、複数の識別子のうちの個々の識別子は、記号列の個々の記号に対応する）、および（ｉｉｉ）複数の識別子を含む識別子ライブラリーを構築するように、個別にまたは集合的にプログラムされる１つまたは複数のコンピュータプロセッサとを含む。

一部の実施形態では、デバイスは、複数のパーティションを含み、識別子ライブラリーは、複数のパーティションのうちの１つまたは複数のパーティションの中で生成される。一部の実施形態では、複数のパーティションは、ウェルを含む。一部の実施形態では、識別子ライブラリー中の個々の識別子を構築することは、１つまたは複数の層からの１つまたは複数の成分をアセンブルすることを含み、１つまたは複数の層の各層は、成分の区別可能なセットを含む。一部の実施形態では、１つまたは複数の層の各層は、デバイスの別々の一部に格納され、デバイスは、１つまたは複数の層からの１つまたは複数の成分を組み合わせるように構成される。一部の実施形態では、識別子ライブラリーは、複数の核酸配列を含む。一部の実施形態では、１つまたは複数の識別子ライブラリーは、デバイスの単一エリア内で組み合わせられ、１つまたは複数の識別子ライブラリーの各識別子ライブラリーは、区別可能なバーコードを含む。

別の態様では、本開示は、核酸配列に符号化された情報を読み取るシステムを提供し、このシステムは、複数の識別子を含む識別子ライブラリーを記憶するデータベースであって、複数の識別子のうちの個々の識別子が、１つまたは複数の成分を含み、１つまたは複数の成分のうちの個々の成分が、核酸配列を含む、データベースと；データベースに動作可能に結合された１つまたは複数のコンピュータプロセッサであって、（ｉ）識別子ライブラリー中の複数の識別子を識別するように、（ｉｉ）（ｉ）で識別された複数の識別子から複数の記号を生成するように（ここで、複数の記号のうちの個々の記号は、複数の識別子のうちの個々の識別子に対応する）、および（ｉｉｉ）複数の記号から情報をコンパイルするように、個別にまたは集合的にプログラムされる１つまたは複数のコンピュータプロセッサとを含む。

一部の実施形態では、システムは、複数のパーティションをさらに含む。一部の実施形態では、パーティションは、ウェルである。一部の実施形態では、複数のパーティションのうちの所与のパーティションは、１つまたは複数の識別子ライブラリーを含み、１つまたは複数の識別子ライブラリーの各識別子ライブラリーは、区別可能なバーコードを含む。一部の実施形態では、システムは、識別子ライブラリー中の複数の識別子を識別するように構成された検出ユニットをさらに含む。

本開示のさらなる態様および利点は、本開示の単なる例示的な実施形態が示され説明される以下の詳細な説明から、当業者には容易に明らかになる。分かるであろうが、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明らかな点で変更が可能である。したがって、図面および説明を本質的に例示的と見なすべきであり、制限的と見なすべきではない。

参照による組込み
本明細書で言及される全ての刊行物、特許および特許出願は、個々の刊行物、特許または特許出願各々が参照により組み込まれると具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に収載される本開示と相反する場合は、本明細書は、一切のそのような相反する物質に取って代わるおよび／または優先するように意図されている。

本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本発明の原理を利用する例示的な実施形態が記載されている以下の詳細な説明、および付属図（本明細書では「図（Ｆｉｇｕｒｅ）」および「図（ＦＩＧ．）」とも）を参照することにより、本発明の特徴および利点のよりよい理解が得られるであろう。

図１は、核酸配列に記憶されたデジタル情報を符号化し、書き込み、アクセスし、読み取り、復号するためのプロセスの概要を模式的に例示する図である。

図２Ａおよび図２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）を使用して「アドレスにおけるデータ（ｄａｔａａｔａｄｄｒｅｓｓ）」と称されるデジタルデータを符号化する方法の例を模式的に例示する図である。図２Ａは、ランクオブジェクト（またはアドレスオブジェクト）とバイト値オブジェクト（またはデータオブジェクト）を組み合わせて識別子を創出することを例示する。図２Ｂは、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるアドレスにおけるデータ法の実施形態を例示する。

図３Ａおよび図３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）を使用してデジタル情報を符号化する方法の例を模式的に例示する図である。図３Ａは、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを例示する。図３Ｂは、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実施形態を例示する。

図４は、所与のサイズの情報が記憶されるように構築することができる（等高線）、可能な識別子の組合せ空間（Ｃ、ｘ軸）と識別子の平均数（ｋ、ｙ軸）の間の関係の対数空間での等高線プロットである。

図５は、情報を核酸配列（例えば、デオキシリボ核酸）に書き込むための方法の概要を模式的に例示する図である。

図６Ａおよび図６Ｂは、区別可能な成分（例えば、核酸配列）を組合せによりアセンブルすることによって識別子（例えば、核酸分子）を構築するための「産物スキーム」と称される方法の例を例示する図である。図６Ａは、産物スキームを使用して構築された識別子のアーキテクチャを例示する。図６Ｂは、産物スキームを使用して構築することができる識別子の組合せ空間の例を例示する。

図７は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、オーバーラップ伸長ポリメラーゼ連鎖反応の使用を模式的に例示する図である。

図８は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、付着末端ライゲーションの使用を模式的に例示する図である。

図９は、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、リコンビナーゼアセンブリの使用を模式的に例示する図である。

図１０Ａおよび図１０Ｂは、鋳型誘導型ライゲーションを実証する図である。図１０Ａは、成分（例えば、核酸配列）から識別子（例えば、核酸分子）を構築するための、鋳型誘導型ライゲーションの使用を模式的に例示する。図１０Ｂは、各々が１つのプールされた鋳型誘導型ライゲーション反応において６種の核酸配列（例えば、成分）から組合せによりアセンブルされた２５６種の区別可能な核酸配列のコピー数（存在量）のヒストグラムである。同上。

図１１Ａ、図１１Ｂ、図１１Ｃ、図１１Ｄ、図１１Ｅ、図１１Ｆ、および図１１Ｇは、並び替えられた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための「並び替えスキーム」と称される方法の例を模式的に例示する図である。図１１Ａは、並び替えスキームを使用して構築された識別子のアーキテクチャを例示する。図１１Ｂは、並び替えスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１１Ｃは、鋳型誘導型ライゲーションを用いた並び替えスキームのインプリメンテーションの例を示す。図１１Ｄは、並び替えられ、繰り返された成分を有する識別子を構築するために図１１Ｃのインプリメンテーションをどのように改変することができるかの例を示す。図１１Ｅは、図１１Ｄのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれ得るかを示す。図１１Ｆは、並び替えられ、繰り返された成分を有する識別子を構築するために鋳型誘導型ライゲーションおよびサイズ選択をどのように使用するかの別の例を示す。図１１Ｇは、サイズ選択により特定の識別子を望ましくない副産物から切り離すことが失敗し得る場合の例を示す。同上。同上。同上。同上。同上。

図１２Ａ、図１２Ｂ、図１２Ｃ、および図１２Ｄは、より多数、Ｍ個の可能な成分のうちの任意の数、Ｋ個のアセンブルされた成分（例えば、核酸配列）を用いて識別子（例えば、核酸分子）を構築するための「ＭｃｈｏｏｓｅＫ」スキームと称される方法の例を模式的に例示する図である。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子のアーキテクチャを例示する。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図１２Ｃは、鋳型誘導型ライゲーションを使用したＭｃｈｏｏｓｅＫスキームのインプリメンテーションの例を示す。図１２Ｄは、図１２Ｃのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。同上。同上。

図１３Ａおよび図１３Ｂは、区分された成分を有する識別子を構築するための「パーティションスキーム」と称される方法の例を模式的に例示する図である。図１３Ａは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１３Ｂは、鋳型誘導型ライゲーションを使用したパーティションスキームのインプリメンテーションの例を示す。同上。

図１４Ａおよび図１４Ｂは、いくつかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列（ｕｎｃｏｎｓｔｒａｉｎｅｄｓｔｒｉｎｇ）」（またはＵＳＳ）スキームと称される方法の例を模式的に例示する図である。図１４Ａは、ＵＳＳスキームを使用して構築することができる識別子の組合せ空間の例を示す。図１４Ｂは、鋳型誘導型ライゲーションを使用したＵＳＳスキームのインプリメンテーションの例を示す。同上。

図１５Ａおよび図１５Ｂは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の例を模式的に例示する図である。図１５Ａは、成分削除スキームを使用して構築することができる識別子の組合せ空間の例を示す。図１５Ｂは、二本鎖標的化切断および修復を使用した成分削除スキームのインプリメンテーションの例を示す。同上。

図１６は、リコンビナーゼを親識別子に適用することによってさらなる識別子を構築することができる、リコンビナーゼ認識部位を有する親識別子を模式的に例示する図である。

図１７Ａ、図１７Ｂ、および図１７Ｃは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。同上。同上。

図１８Ａおよび図１８Ｂは、核酸分子に符号化されたデータの符号化、書き込み、および読み取りの例を示す。図１８Ａは、５，８５６ビットのデータの符号化、書き込み、および読み取りの例を示す。図１８ｂは、６２，８２４ビットのデータの符号化、書き込み、および読み取りの例を示す。

図１９は、本明細書に提示される方法を実装するようにプログラミングされたまたは他のやり方で構成されたコンピュータシステムを示す。

図２０は、二本鎖成分の単一の親セット由来の任意の２つの選択された二本鎖成分のアセンブリのスキームの例を示す。

図２１は、２つのオリゴ、ＸおよびＹで構成される可能な付着末端成分構造を示す。

図２２は、１５片の付着末端を有するＤＮＡ成分ライゲーションからのｑＰＣＲ産物の例示的なゲル電気泳動画像を示す。

図２３Ａは、２分間、２．５分間、３分間、および１４４０分間にわたってライゲーションした１５片、６塩基の５’突出ＤＮＡ成分セットのライゲーション効率についての例示的なデータを示す。

図２３Ｂは、２分間、２．５分間、３分間、および１４４０分間にわたってライゲーションした１５片、６塩基の３’ＤＮＡ成分セットのライゲーション効率についての例示的なデータを示す。

図２３Ｃは、ｑＰＣＲ産物の例示的なゲル電気泳動画像を示す。

図２４Ａは、突出の長さによって群分けされたＤＮＡ成分対についてのライゲーション効率を示す例示的なデータを示す。

図２４Ｂは、突出の長さによって群分けされたＤＮＡ成分対についてのライゲーション効率を示す例示的なデータを示す。

図２５Ａは、ＧＣ含量によって群分けされたＤＮＡ成分対についてのライゲーション効率を示す例示的なデータを示す。

図２５Ｂは、ＧＣ含量によって群分けされたＤＮＡ成分対についてのライゲーション効率を示す例示的なデータを示す。

図２６は、種々の温度でＴ４リガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

図２７は、種々の温度でＴ４リガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

図２８Ａは、Ｔ４ＤＮＡリガーゼと比較したＴ７ＤＮＡリガーゼのライゲーション効率についての例示的なデータを示す。

図２８Ｂは、Ｔ４ＤＮＡリガーゼと比較したＴ３ＤＮＡリガーゼのライゲーション効率についての例示的なデータを示す。

図２９は、種々の濃度でのＥ．ｃｏｌｉＤＮＡリガーゼのライゲーション効率についての例示的なデータを示す。

図３０Ａは、種々の温度でＴ７ＤＮＡリガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

図３０Ｂは、種々の温度でＴ３ＤＮＡリガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

図３１Ａは、ＰＥＧ８０００のライゲーション効率に対する影響の例示的なデータを示す。

図３１Ｂは、ＰＥＧ６０００のライゲーション効率に対する影響の例示的なデータを示す。

図３１Ｃは、ＰＥＧ４００のライゲーション効率に対する影響の例示的なデータを示す。

図３２は、ＰＥＧ４００またはＰＥＧ６０００の存在下でライゲーションした、付着末端を有する（１０塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

図３３は、緩衝液ＱＧまたはＥＤＴＡのリガーゼに対する影響に関する例示的なｑＰＣＲデータを示す。

図３４は、Ｑ５、Ｐｈｕｓｉｏｎ、およびＴａｑＤＮＡポリメラーゼを使用した複製の線形性についての例示的なデータを示す。

図３５は、室温で４日間保管した種々のＤＮＡ試料の例示的なゲル画像を示す。

図３６は、室温で乾燥および再水分添加を繰り返したＤＮＡについての例示的なデータを示す。

図３７は、構築された付着末端配列の例示的なスキームを示す。

図３８Ａは、表４に列挙されている突出配列の種々の対のライゲーションからの例示的なデータを示す。

図３８Ｂは、表５に列挙されている突出配列の種々の対のライゲーションからの例示的なデータを示す。

図３９は、表４および表５に列挙されている突出の各セットに由来する１５種の突出の２００万種のサブセットからのペナルティスコアを示す。

図４０は、表７の最終行からの突出を使用した１６種のＤＮＡ成分のライゲーション効率についての例示的なデータを示す。

図４１Ａは、符号化されたメッセージの３４１×３５１参照マップ（コンピュータによる符号化後）を示す。

図４１Ｂは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。

図４２は、図４１Ａ～Ｂに示されている符号化、書き込み、シークエンシング、および復号プロセス全体の２連の試行からの例示的なデータを示す。

図４３Ａは、シークエンシングによって決定された、複製された識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４１Ａ～Ｂからのメッセージを含有する元の識別子ライブラリーの複数のコピーを創出することから得た。

図４３Ｂは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示す。

図４３Ｃは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。

図４４Ａは、シークエンシングによって決定された、アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４１Ａ～Ｂからの元のメッセージを含有する識別子ライブラリーの一部にアクセスすることから得た。

図４４Ｂは、元のライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示す。

図４４Ｃは、元の識別子ライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。

図４５Ａは、シークエンシングによって決定された、２×アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４４Ａ～Ｃからのアクセスされた識別子ライブラリーの副次部分（ｓｕｂ－ｐｏｒｔｉｏｎ）にさらにアクセスすることから得た。

図４５Ｂは、元のライブラリーと２×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示す。

図４５Ｃは、元の識別子ライブラリーと２×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。

図４６Ａは、シークエンシングによって決定された、保管された識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。データは、図４１Ａ～Ｂからのメッセージを表す元の識別子ライブラリーを１００℃で４日間保管した後に得た。

図４６Ｂは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示す。

図４６Ｃは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。

図４７Ａは、７５．１℃で８日間インキュベートしたＤＮＡ試料についての例示的なデータを示す。

図４７Ｂは、８４．４℃で８日間インキュベートしたＤＮＡ試料についての例示的なデータを示す。

図４７Ｃは、９０．２℃で８日間インキュベートしたＤＮＡ試料についての例示的なデータを示す。

図４７Ｄは、９５．０℃で８日間インキュベートしたＤＮＡ試料についての例示的なデータを示す。

図４８は、種々の量（体積／体積パーセント単位で）のグリセロールを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからの例示的なデータを示す。

本発明の様々な実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実施形態の様々な代替案が利用される可能性があることは理解されるはずである。

用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「０」または「１」の値を有し得る。

用語「区別可能な」または「一意の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または一意の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または一意の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または一意の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。

用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、１つまたは複数の他の成分と連結またはアセンブルされることもある。

用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、１つの層内の成分が別の層内の成分と異なるような、１セットの区別可能な成分を含むことがある。１つまたは複数の層からの成分は、１つまたは複数の識別子を生成するようにアセンブルされることもある。

用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実施形態では、識別子は、１つまたは複数の連結された成分を含み得る。

用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。

用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。

用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の収集物を一般に指す。一部の実施形態では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。１つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する一意のバーコードを含むこともある。

用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはこれらのバリアントを一般に指す。核酸は、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）、またはそのバリアントから選択される１つまたは複数のサブユニットを含み得る。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵ、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、Ａ、Ｃ、Ｇ、ＴもしくはＵであることもあり、あるいはより多くの相補的Ａ、Ｃ、Ｇ、ＴもしくはＵのうちの１つに特異的であり得る、またはプリン（すなわち、ＡもしくはＧ、またはそのバリアント）もしくはピリミジン（すなわち、Ｃ、ＴもしくはＵ、またはそのバリアント）と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。

用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド（ＤＮＡ）もしくはリボヌクレオチド（ＲＮＡ）のどちらかかまたはその類似体である、様々な長さを有し得る、ポリマー形態のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、デジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、１つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および／または改変ヌクレオチドを含むこともある。

「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびチミン（Ｔ）という、またはポリヌクレオチドがＲＮＡの場合はアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびウラシル（Ｕ）という、４つのヌクレオチド塩基の特異的配列で、典型的に構成されている。

改変ヌクレオチドの例としては、ジアミノプリン、５－フルオロウラシル、５－ブロモウラシル、５－クロロウラシル、５－ヨードウラシル、ヒポキサンチン、キサンチン、４－アセチルシトシン、５－（カルボキシヒドロキシメチル）ウラシル、５－カルボキシメチルアミノメチル－２－チオウリジン、５－カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ－Ｄ－ガラクトシルキューオシン、イノシン、Ｎ６－イソペンテニルアデニン、１－メチルグアニン、１－メチルイノシン、２，２－ジメチルグアニン、２－メチルアデニン、２－メチルグアニン、３－メチルシトシン、５－メチルシトシン、Ｎ６－アデニン、７－メチルグアニン、５－メチルアミノメチルウラシル、５－メトキシアミノメチル－２－チオウラシル、ベータ－Ｄ－マンノシルキューオシン、５’－メトキシカルボキシメチルウラシル、５－メトキシウラシル、２－メチルチオ－Ｄ４６－イソペンテニルアデニン、ウラシル－５－オキシ酢酸（ｖ）、ワイブトキソシン、シュードウラシル、キューオシン、２－チオシトシン、５－メチル－２－チオウラシル、２－チオウラシル、４－チオウラシル、５－メチルウラシル、ウラシル－５－オキシ酢酸メチルエステル、ウラシル－５－オキシ酢酸（ｖ）、５－メチル－２－チオウラシル、３－（３－アミノ－３－Ｎ－２－カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ、２，６－ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が（例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である１つもしくは複数の原子が、および／または相補的ヌクレオチドと水素結合を形成することが通常はできない１つもしくは複数の原子が）修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、Ｎ－ヒドロキシスクシンイミドエステル（ＮＨＳ）などのアミン反応性部分の共有結合を可能にするためにアミノアリル－ｄＵＴＰ（ａａ－ｄＵＴＰ）およびアミノヘキシルアクリルアミド（ａｍｉｎｏｈｅｘｈｙｌａｃｒｙｌａｍｉｄｅ）－ｄＣＴＰ（ａｈａ－ｄＣＴＰ）などのアミン修飾基を含有することもある。

用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応（ＰＣＲ）などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、ＤＮＡ試料の複製中に、複製を触媒する酵素が、ＤＮＡ試料に結合したプライマーの３’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、ＰＣＲに関するより多くの情報については、化学方法セクションＤを参照されたい。

用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、ＳｓｏポリメラーゼＰｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’→５’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。ＰＣＲと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がＰＣＲにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションＤを参照されたい。

二進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。二進コードは、例えば、ビットと呼ばれる２つの二進記号、通常は０および１、を有する二進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非二進記号の配列を含み得る非二進コードの形で表すことができる。符号化された各記号を、一意のビット列（または「バイト」）に再び割り当てることができ、一意のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、２つの記号のうちの１つ（例えば、０または１）であり得る。Ｎビットの列を含むことができるバイトは、合計２^Ｎの一意のバイト値を有することができる。例えば、８ビットを含むバイトは、合計２^８または２５６の可能な一意のバイト値を生じさせることができ、２５６バイトの各々は、バイトで符号化することができる２５６の可能な区別可能な記号、文字または命令のうちの１つに対応し得る。生データ（例えば、テキストファイルおよびコンピュータ命令）を、バイト列またはバイトストリームとして表すことができる。ｚｉｐファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。

本開示の方法およびシステムを使用して、１ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、２ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。

デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。

新規方法は、塩基毎またはデノボ核酸合成（例えば、ホスホルアミダイト合成）に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報（例えば、二進コード）を符号化することができる。しかるが故に、新規戦略は、情報記憶の第１の要求のために区別可能な核酸配列（または成分）の第１のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列（または成分）を再利用することができる。これらの手法は、ＤＮＡへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、ＤＮＡベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホルアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、のインプリメンテーションと異なり、成分からの識別子構築を使用してＤＮＡに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してＤＮＡへのデジタル情報の書き込み速度を上昇させることができる。

情報を核酸配列に符号化するおよび書き込む方法
ある態様では、本開示は、情報を核酸配列に符号化する方法を提供する。核酸配列に情報を符号化する方法は、（ａ）情報を記号列に変換するステップと、（ｂ）記号列を複数の識別子にマッピングするステップと、（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における１つの記号は、識別子の非存在に対応し得る。例えば、「０」および「１」の二進記号（例えば、ビット）列における「０」の出現各々が、識別子の非存在に対応し得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、（ｃ）核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化されるが、核酸分子の各々の配列に符号化されないことがある。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成するステップと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

図１は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、１つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「０」または「１」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト（例えば、識別子）にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子をシークエンシングまたは識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。

図１の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々１ビット（「１」のビット値を有するビット）を区別可能な核酸識別子にマッピングするステップとを含み得る。１のビット値に対応する（かつ０のビット値の識別子を含まない）識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法（例えば、シークエンシング、ハイブリダイゼーション、ＰＣＲなど）を使用して、識別子ライブラリー中のどの識別子が表されるのかを決定することと、「１」のビット値をこれらの識別子に対応するビットにおよび「０」のビット値を他の場所に割り当てること（識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること）、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。

区別可能なＮビットの列の符号化は、可能な識別子として同じ数の一意の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しい項目（Ｎビットの列）毎に識別子（例えば、核酸分子）のデノボ合成を使用し得る。他の例では、記憶するために情報の新しい項目毎に識別子（数がＮと同じであるかまたはそれ未満である）を新たに合成する費用を、情報の新しい項目の符号化が、事前に合成された（または既成の）識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の１回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、（１）記憶するための情報の新しい項目毎の最大Ｎ個の識別子のデノボ合成のコストも、または（２）記憶するために情報の新しい項目毎にＮ個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数（Ｎ未満、一部の場合には、Ｎよりもはるかに少ない）を維持し、そしてその後、これらの配列を、記憶するための情報の新しい項目毎に最大Ｎ個の識別子を生成するように酵素反応によって改変することにより、削減することができる。

読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー（例えば、識別子ライブラリー）を含むＤＮＡ配列の合理的設計に関しては化学的方法セクションＨを参照されたい。

図２Ａおよび２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）中のデジタルデータを符号化する、「アドレスにおけるデータ」と呼ばれる、方法の例を模式的に示す。図２Ａは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレスにおけるデータ方法は、バイト値を識別する１つのオブジェクトである「バイト値オブジェクト」（または「データオブジェクト」）、および識別子ランク（または元のビットストリーム中のバイトの相対位置）を識別する１つのオブジェクトである「ランクオブジェクト」（または「アドレスオブジェクト」）という、２つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図２Ｂは、各ランクオブジェクトが、１セットの成分から組合せ的に構築され、各バイト値オブジェクトが、１セットの成分から組合せ的に構築され得る、アドレスにおけるデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合（例えば、図２Ａ）よりも多くの情報を識別子に書き込むことを可能にする。

図３Ａおよび３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）中のデジタル情報を符号化する方法の別の例を模式的に示す。図３Ａは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク（またはアドレス）における識別子の存在により「１」のビット値が指定され、特定のランク（またはアドレス）における識別子の非存在により「０」のビット値が指定される。このタイプの符号化は、単にランク（元のビットストリーム中のビットの相対位置）を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「１」または「０」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「１」のビット値をそれらの対応するランクに割り当てること、および「０」のビット値を他の場所に割り当てることを含み得る。図３Ｂは、各識別子を１セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合（例えば、図３Ａ）よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、５つの区別可能な成分を含み得る。５つの区別可能な成分を、５成分のうちの２成分を各々が含む１０の区別可能な識別子を生成するように、アセンブルすることができる。１０の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク（またはアドレス）を各々が有し得る。識別子ライブラリーは、これらの１０の可能な識別子のうちの、ビット値「１」の位置に対応するサブセットを含み、これらの１０の可能な識別子のうちの、長さ１０のビットストリーム内のビット値「０」の位置に対応するサブセットを除外することがある。

図４は、可能な識別子の組合せ空間（Ｃ、ｘ軸）と、図３Ａおよび３Ｂに示されている符号化方法を使用してビットの所与の元のサイズの情報（Ｄ、等高線）を記憶するために物理的に構築される識別子の平均数（ｋ、ｙ軸）との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズＤの一次情報が、数個、つまりｋ個のビットが「１」のビット値を有するＣビットの列（Ｃは、Ｄより大きくなり得る）に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「１」である位置については識別子が構築され、ビット値が「０」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズＣを有し、サイズＤのビット列を符号化するために使用される識別子の数は、Ｄ＝ｌｏｇ_２（Ｃｃｈｏｏｓｅｋ）（式中、Ｃｃｈｏｏｓｅｋは、Ｃ個の可能性からｋ個の順不同結果を選ぶ方法の数についての数式であり得る）となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与の項目のサイズ（ビットで）を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。

図５は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに入力を入れることにより、反応を始動することができる。入力は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去（例えば、削除）することができる。１つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を難読化もしくは隠蔽するのに役立つこともある。

識別子ランク（例えば、核酸インデックス）は、識別子の順序付けを決定するための方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレスにおけるデータ符号化方法では、識別子ランク（識別子のランクオブジェクトにより符号化された）を使用して、ビットストリーム内のバイトの位置（識別子のバイト値オブジェクトにより符号化された）を決定することができる。代替方法では、存在する識別子の識別子ランク（全識別子自体により符号化された）を使用して、ビットストリーム内の「１」のビット値の位置を決定することができる。

キーは、区別可能なバイトを試料中の識別子（例えば、核酸分子）の一意のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する一意の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ１または０のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、シークエンシング、ハイブリダイゼーションまたはＰＣＲを含む任意の数の分子生物学技術を含むことができる。一部の実施形態では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、一意の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム（例えば、各ビット列、バイト（単数）、バイト（複数）、またはバイト列）に復号することができる。

識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の定義された群（例えば、組合せ空間）からの１セットの核酸分子（例えば、識別子）を使うことにより、情報を符号化することができる。分子の定義された群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列（例えば、成分）のアセンブリであることもある。個々の識別子各々は、固定された順序で全ての層から１つの成分を連結させることにより構築することができる。例えば、Ｍ個の層があり、各層がｎ個の成分を有する場合には、最大Ｃ＝ｎ^Ｍ個の一意の識別子を構築することができ、最大２^Ｃ個の異なる情報項目またはＣ個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、１×１０^６個の区別可能な識別子、またはサイズＣ＝１×１０^６の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。ｎ＝１×１０^３の成分を各々が含有するＭ＝２の既成の層からアセンブリを作成することができる。あるいは、ｎ＝１×１０^２の成分を各々が含有するＭ＝３の層からアセンブリを作成することができる。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用することが有利であり得る。

一例では、ｘおよびｙ個の成分（例えば、核酸配列）それぞれを各々が有する２セットの一意の核酸配列または層、ＸおよびＹで、始めることができる。Ｘからの各核酸配列をＹからの各核酸配列にアセンブルすることができる。これらの２セットの中に維持される核酸配列の総数は、ｘとｙの和であり得るが、生成され得る核酸分子の総数およびしたがって可能な識別子は、ｘとｙの積であり得る。Ｘからの配列がＹの配列に任意の順序でアセンブルされてもよいのであれば、よりいっそう多くの核酸配列（例えば、識別子）を生成することができる。例えば、生成される核酸配列（例えば、識別子）の数は、アセンブリ順序がプログラム可能である場合、ｘとｙの積の２倍になり得る。生成され得る全ての可能な核酸配列のこのセットをＸＹと呼ぶことができる。ＸＹ中の一意の核酸配列のアセンブルされた単位の順序を、区別可能な５’および３’末端を有する核酸を使用して制御することができ、配列の区別可能な５’および３’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応（ＰＣＲ）、およびシークエンシングを行うことができる。このような手法は、Ｎ個の区別可能なビットを符号化するために使用される核酸配列（例えば、成分）の総数を、それらのアセンブリ産物の組合せおよび順序で情報を符号化することにより、低減させることができる。例えば、１００ビットの情報を符号化するために、１０の区別可能な核酸分子（例えば、成分）の２つの層を固定された順序でアセンブルして、１０＊１０または１００の区別可能な核酸分子（例えば、識別子）を生成してもよく、または５つの区別可能な核酸分子（例えば、成分）の１つの層と１０の区別可能な核酸分子（例えば、成分）のもう１つの層とを任意の順序でアセンブルして、１００の区別可能な核酸分子（例えば、識別子）を生成してもよい。

各層内の核酸配列（例えば、成分）は、一意の（または区別可能な）配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に４つの可能なヌクレオチドが存在する。したがって、３塩基バーコードは、４^３＝６４の核酸配列を一意に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学またはシークエンシングを複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。ＤＮＡ配列の合理的設計に関しては化学的方法セクションＨを参照されたい。

核酸配列（例えば、成分）の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Ｘからのあらゆる成分が、層Ｙからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第１の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Ｙからのあらゆる成分が、一方の末端で層Ｘのあらゆる成分に結合することができ、かつ反対側の末端で層Ｚのあらゆる成分に結合することができる。

図６Ａおよび６Ｂは、固定された順序で各層から区別可能な成分（例えば、核酸配列）を組合せ的にアセンブルすることにより識別子（例えば、核酸分子）を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図６Ａは、積スキームを使用して構築された識別子のアーキテクチャを示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。Ｎ個の成分を各々が有するＭ個の層の場合、Ｎ^Ｍ個の可能な識別子がある。図６Ｂは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、３つの区別可能な成分を各々が含む３つの層から、組合せ空間を生成することができる。これらの成分を、各層からの１つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリ方法のための全組合せ空間は、２７の可能な識別子を含むことができる。

図７～１０は、積スキーム（図６を参照されたい）を実行するための化学的方法を示す。図７～１０に描かれている方法を、２つまたはそれより多くの区別可能な成分を固定された順序でアセンブルするための任意の他の方法と共に使用して、例えば、識別子ライブラリー中の任意の１つまたは複数の識別子を生成することができる。本明細書で開示される方法またはシステムの最中にいつでも、図７～１０に記載のインプリメンテーション方法のいずれかを使用して識別子を構築することができる。一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子（情報を符号化する）を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの１つまたは複数のステップが行われた後である可能性がある時点で（すなわち、情報が書き込まれている最中に）、識別子を構築することができる。

酵素反応を使用して、異なる層またはセットからの成分をアセンブルすることができる。各層の成分（例えば、核酸配列）は、隣接する層の成分のための特異的ハイブリダイゼーションまたは結合領域を有するため、アセンブリをワンポット反応で行うことができる。例えば、層Ｘからの核酸配列（例えば、成分）Ｘ１、層Ｙからの核酸配列Ｙ１、および層Ｚからの核酸配列Ｚ１は、アセンブルされた核酸分子（例えば、識別子）Ｘ１Ｙ１Ｚ１を形成することができる。加えて、各層からの複数の核酸配列を含めることにより、複数の核酸分子（例えば、識別子）を１反応でアセンブルすることができる。例えば、前の例のワンポット反応にＹ１とＹ２の両方を含めることにより、Ｘ１Ｙ１Ｚ１およびＸ１Ｙ２Ｚ１という２つのアセンブルされた産物（例えば、識別子）を生じさせることができる。この反応多重化を使用して、物理的に構築される複数の識別子の書き込み時間を加速することができる。ＤＮＡ配列の合理的設計についての詳細については、これはアセンブリ効率に関係するので、化学的方法セクションＨを参照されたい。核酸配列のアセンブリを約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間もしくは１時間未満であるまたは約１日、１２時間、１０時間、９時間、８時間、７時間、６時間、５時間、４時間、３時間、２時間もしくは１時間に等しい期間で、行うことができる。符号化されたデータの正確度は、少なくとも約９０％、９５％、９６％、９７％、９８％、９９％もしくはそれより高いこともあり、または約９０％、９５％、９６％、９７％、９８％、９９％もしくはそれより高い％に等しいこともある。

識別子を、図７に示されているように、オーバーラップ伸長ポリメラーゼ連鎖反応（ＯＥＰＣＲ）を使用して積スキームに従って構築することができる。各層の各成分は、隣接する層からの成分の配列末端の共通ハイブリダイゼーション領域と相同および／または相補的であり得る共通ハイブリダイゼーション領域を配列末端に有する、二本鎖または一本鎖（図に描かれている通り）核酸配列を含むことができる。個々の識別子は、成分Ｘ_１－Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分（例えば、一意の配列）と、Ｙ_１－Ｙ_Ａを含む層Ｙ（または層２）からの第２の成分（例えば、一意の配列）と、Ｚ_１－Ｚ_Ｂを含む層Ｚ（または層３）からの第３の成分（例えば、一意の配列）とを連結させることにより、構築することができる。層Ｘからの成分は、層Ｙからの成分の３’末端と相補性を共有する３’末端を有し得る。したがって、層Ｘからの一本鎖成分とＹからの一本鎖成分とを３’末端で互いにアニールすることができ、ＰＣＲを使用して伸長して二本鎖核酸分子を生成することができる。生成された二本鎖核酸分子を融解して、層Ｚからの成分の３’末端と相補性を共有する３’末端を生成することができる。層Ｚからの成分を、生成された核酸分子とアニールすることができ、伸長して、層Ｘ、ＹおよびＺからの単一成分を固定された順序で含む一意の識別子を生成することができる。ＯＥＰＣＲについては化学的方法セクションＡを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することができる。２つのプローブ（一方は、２つの最外層の各々に対するものである）での逐次的核酸捕捉を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

識別子を、図８に示されているように、付着末端ライゲーションを使用して積スキームに従ってアセンブルすることができる。一本鎖３’突出を有する二本鎖成分（例えば、二本鎖ＤＮＡ（ｄｓＤＮＡ））を各々が含む３つの層を使用して、区別可能な識別子をアセンブルすることができる。例えば、成分Ｘ_１－Ｘ_Ａを含む層Ｘ（または層１）からの１つの成分と、Ｙ_１－Ｙ_Ｂを含む層Ｙ（または層２）からの第２の成分と、Ｚ_１－Ｚ_Ｃを含む層Ｚ（または層３）からの第３の成分とを含む識別子。層Ｘからの成分を層Ｙからの成分と組み合わせるために、層Ｘの成分は、図８にａと表示されている共通３’突出を含むことができ、層Ｙの成分は、共通の相補的３’突出、ａ＊を含むことができる。層Ｙからの成分を層Ｚからの成分と組み合わせるために、層Ｙの要素は、図８にｂと表示されている共通３’突出を含むことができ、層Ｚの要素は、共通の相補的３’突出、ｂ＊を含むことができる。層Ｘ成分の３’突出は、層Ｙ成分の３’末端と相補的であることができ、層Ｙ成分の他方の３’突出は、層Ｚ成分の３’末端と相補的であることができ、このことにより、これらの成分のハイブリダイゼーションおよびライゲーションが可能になる。しかるが故に、層Ｘからの成分は、層Ｘまたは層Ｚからの他の成分とハイブリダイズすることができず、同様に層Ｙからの成分は、層Ｙからの他の要素とハイブリダイズすることができない。さらに、層Ｙからの単一の成分は、層Ｘの単一の成分および層Ｚの単一の成分とライゲーションすることができ、このことにより、完全な識別子が確実に形成される。付着末端ライゲーションについては化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つのプローブ（一方は、２つの最外層の各々に対するものである）での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

付着末端ライゲーションのための付着末端は、各層の成分を制限エンドヌクレアーゼで処理することにより生成することができる（制限酵素反応についてのより多くの情報については化学的方法セクションＣを参照されたい）。一部の実施形態では、複数の層の成分を、成分の１つの「親」セットから生成することができる。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位（例えば、ＢａｍＨＩおよびＢｇｌＩＩの制限部位）を有し得る実施形態。任意の２つの成分をアセンブリに選択し、一方または他方の相補的制限酵素（例えば、ＢｇｌＩＩまたはＢａｍＨＩ）で個別に消化することができ、その結果、相補的付着末端が得られ、これらを互いにライゲーションすることができ、その結果、不活性跡（ｉｎｅｒｔｓｃａｒ）をもたらす。産物核酸配列は、各末端に相補的制限部位（例えば、５’末端にＢａｍＨＩ、および３’末端にＢｇｌＩＩ）を含むこともあり、さらに、そのような核酸配列を同じプロセスに従って親セットからの別の成分にライゲーションすることができる。このプロセスは、無限に循環し得る（図２０）。親がＮ個の成分を含む場合には、各サイクルは、Ｎ個の成分の追加の層を積スキームに加えることに相当し得る。

セットＸ（例えば、ｄｓＤＮＡのセット１）からの要素とセットＹ（例えば、ｄｓＤＮＡのセット２）からの要素とを含む核酸の配列を構築するためにライゲーションを使用する方法は、二本鎖配列の２つまたはそれより多くのプール（例えば、ｄｓＤＮＡのセット１およびｄｓＤＮＡのセット２）を得るステップまたは構築するステップであって、第１のセット（例えば、ｄｓＤＮＡのセット１）が、付着末端（例えば、ａ）を含み、第２のセット（例えば、ｄｓＤＮＡのセット２）が、第１のセットの付着末端と相補的である付着末端（例えば、ａ＊）を含む、ステップを含み得る。第１のセット（例えば、ｄｓＤＮＡのセット１）からの任意のＤＮＡと第２のセット（例えば、ｄｓＤＮＡのセット２）からのＤＮＡの任意のサブセットとを組み合わせ、アセンブルし、次いで、互いにライゲーションして、第１のセットからの要素と第２のセットからの要素とを有する単一の二本鎖ＤＮＡを形成することができる。

識別子を、図９に示されているように、部位特異的組換えを使用して積スキームに従ってアセンブルすることができる。３つの異なる層からの成分をアセンブルすることにより、識別子を構築することができる。層Ｘ（または層１）の成分は、分子の一方の側にａｔｔＢ_ｘリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Ｙ（または層２）からの成分は、一方の側にａｔｔＰ_ｘリコンビナーゼ部位および他方の側にａｔｔＢ_ｙリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Ｚ（または層３）の成分は、分子の一方の側にａｔｔＰ_ｙリコンビナーゼ部位を含むことができる。対の中のａｔｔＢおよびａｔｔＰ部位は、それらの下付文字により示されているように、それらの対応するリコンビナーゼ酵素の存在下で組換えが可能である。層Ｘからの１つの成分が層Ｙからの１つの成分と会合し、層Ｙからの１つの成分が層Ｚからの１つの成分と会合するように、各層の１つの成分を組み合わせることができる。１つまたは複数のリコンビナーゼ酵素の適用は、順序付けられた成分を含む二本鎖識別子を生成するように成分を組み換えることができる。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる）、または最外層に隣接するプライマーを用いるＰＣＲを実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。一般に、ａｔｔＢとａｔｔＰの複数の直交対を使用することができ、各対を使用して追加の層からの成分をアセンブルすることができる。大きいセリンのリコンビナーゼファミリーについては、ａｔｔＢとａｔｔＰの最大６つの直交対をリコンビナーゼ毎に生成することができ、複数の直交リコンビナーゼを同様に実行することもできる。例えば、ＢｘｂＩおよびＰｈｉＣ３１などの２つの大きいセリンリコンビナーゼの各々から６つの直交対である、ａｔｔＢとａｔｔＰの１２の直交対を使用することにより、１３層をアセンブルすることができる。ａｔｔＢとａｔｔＰの対の直交性により、１つの対からのａｔｔＢ部位が別の対のａｔｔＰ部位と反応しないことが保証される。これにより、異なる層からの成分を固定された順序でアセンブルすることが可能になる。リコンビナーゼ媒介組換え反応は、実行されるリコンビナーゼ系に依存して可逆的であることもあり、または不可逆的であることもある。例えば、大きいセリンリコンビナーゼファミリーは、いずれの高エネルギー補因子も必要とすることなく不可逆的組換え反応を触媒し、これに対してチロシンリコンビナーゼファミリーは、可逆的反応を触媒する。

識別子を、図１０Ａに示されているように、鋳型誘導型ライゲーション（ＴＤＬ）を使用して積スキームに従って構築することができる。鋳型誘導型ライゲーションは、識別子を形成するための成分の順序付けられたライゲーションを容易にするために、「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用する。鋳型は、隣接する層からの成分に同時にハイブリダイズし、それらを互いに（５’末端に対して３’末端）隣接した状態で保持し、その間にリガーゼがそれらをライゲーションする。図１０Ａからの例では、一本鎖成分の３つの層またはセットが組み合わせられる。配列ａ＊と相補的である共通配列ａをそれらの３’末端に共有する成分の第１の層（例えば、層Ｘまたは層１）；配列ｂ＊およびｃ＊と相補的である共通配列ｂおよびｃをそれらの５’および３’末端にそれぞれ共有する成分の第２の層（例えば、層Ｙまたは層２）；配列ｄ＊と相補的であり得る共通配列ｄをそれらの５’末端に共有する成分の第３の層（例えば、層Ｚまたは層３）；および２つの鋳型のセット、または第１のステープルが配列ａ＊ｂ＊（５’→３’）を含み、第２のステープルが配列ｃ＊ｄ＊（’５→３’）を含む、２つの「ステープル」のセット。この例では、各層からの１つまたは複数の成分を選択し、ステープルとの反応に混合することができ、これらのステープルは、識別子を形成するための各層からの１つの成分の定義された順序でのライゲーションを相補的アニーリングにより容易にすることができる。ＴＤＬについては化学的方法セクションＢを参照されたい。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つのプローブ（一方は、２つの最外層の各々に対するものである）での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

図１０Ｂは、６層ＴＤＬで各々アセンブルされた２５６の区別可能な核酸配列についてのコピー数（存在量）のヒストグラムを示す。縁層（最初の層および最後の層）各々は、１つの成分を有し、内層（残りの４つの４層）の各々は、４つの成分を有した。各縁層成分は、１０塩基ハイブリダイゼーション領域を含む２８塩基であった。各内層成分は、５’末端の１０塩基共通ハイブリダイゼーション領域と、１０塩基可変（バーコード）領域と、３’末端の１０塩基共通ハイブリダイゼーション領域とを含む、３０塩基であった。３本の鋳型鎖の各々は、長さ２０塩基であった。２５６の区別可能な配列全てを、１つの反応が成分および鋳型、Ｔ４ポリヌクレオチドキナーゼ（成分をリン酸化するために）、ならびにＴ４リガーゼ、ＡＴＰ、および他の適切な反応試薬の全てを含有する多重方式で、アセンブルした。反応を３７度で３０分間、次いで室温で１時間インキュベートした。シークエンシングアダプターをＰＣＲでの反応産物に添加し、産物をＩｌｌｕｍｉｎａＭｉＳｅｑ装置でシークエンシングした。合計１９２９１０のアセンブルされた配列読み取りのうちの区別可能なアセンブルされた配列各々についての相対コピー数が示されている。この方法の他の実施形態は、二本鎖成分を使用することがあり、その場合、これらの成分は、ステープルにアニールすることができる一本鎖バージョンを形成するために最初に融解される。この方法（すなわち、ＴＤＬ）の他の実施形態または派生型を使用して、積スキームで達成され得るものより複雑な識別子の組合せ空間を構築することができる。

ゴールデンゲートアセンブリ、ギブソンアセンブリおよびリガーゼサイクリング反応アセンブリを含む、様々な他の化学的インプリメンテーションを使用して、積スキームに従って、識別子を構築することができる。

図１１Ａおよび１１Ｂは、成分（例えば、核酸配列）を並べ替えて識別子（例えば、核酸分子）を構築するための、「並び替えスキーム」と呼ばれる方法の例を模式的に示す。図１１Ａは、並び替えスキームを使用して構築された識別子のアーキテクチャを示す。識別子を、プログラム可能な順序で各層からの単一成分を組み合わせることにより構築することができる。図１１Ｂは、並び替えスキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、１つの区別可能な成分を各々が含む３つの層から、サイズ６の組合せ空間を生成することができる。成分を任意の順序で連結させることができる。一般に、各々がＮ個の成分を有するＭ個の層を用いて、並び替えスキームは、合計Ｎ^ＭＭ！個の識別子の組合せ空間を可能にする。

図１１Ｃは、鋳型誘導型ライゲーション（ＴＤＬ、化学的方法セクションＢを参照されたい）を用いる並び替えスキームのインプリメンテーションの例を示す。複数の層からの成分は、縁足場と呼ばれる、固定された左末端成分と固定された右末端成分の間でアセンブルされる。これらの縁足場は、組合せ空間内の全ての識別子について同じであり、したがって、これらの縁足場をインプリメンテーションのための反応マスターミックスの一部として添加することができる。鋳型またはステープルが、任意の２層または足場間の任意の可能な接合部のために存在し、したがって、異なる層からの成分が反応中に識別子に組み込まれる順序は、反応に選択される鋳型に依存する。Ｍ個の層について層の任意の可能な並び替えを可能にするために、可能な接合部（足場との接合部を含む）毎にＭ^２＋２Ｍ個の区別可能な選択可能なステープルが存在し得る。これらの鋳型のうちのＭ個（灰色の陰付き）は、層とそれら自体の間の接合部を形成し、ここに記載されるような並び替えアセンブリの目的のために排除され得る。しかし、それらを含めることで、図１１Ｄ～Ｇに示されているような反復成分を含む識別子を用いてより大きい組合せ空間を可能にすることができる。ＤＮＡサイズ選択（例えば、ゲル抽出を用いる；化学的方法セクションＥを参照されたい）または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応（ＰＣＲ）（化学的方法セクションＤを参照されたい）を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。２つのプローブ（一方は、２つの最外層の各々に対するものである）での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる（化学的方法セクションＦを参照されたい）。

図１１Ｄ～Ｇは、反復している成分を有する識別子についてのある特定の場合を含むように並び替えスキームを拡大することができる方法の例を示す。図１１Ｄは、並べ替えられているおよび反復している成分を有する識別子を構築するために使用することができる図１１Ｃからのインプリメンテーションの方法の例を示す。例えば、識別子は、２つの区別可能な成分からアセンブルされた合計３つの成分を含み得る。この例では、層からの成分は、識別子中に複数回存在し得る。同じ成分の隣接した連結は、隣接する相補的ハイブリダイゼーション領域を有するステープル、例えば、図中のａ＊ｂ＊（５’→３’）ステープルを、同じ成分の３’末端と５’末端の両方に使用することにより、達成することができる。一般に、Ｍ個の層の場合、Ｍ個のそのようなステープルが存在する。このインプリメンテーションでの反復している成分の組込みは、図１１Ｅで実証されるように、縁足場間でアセンブルされる１を超える長さ（すなわち、１、２、３、４またはそれより多くの成分を含む）の核酸配列を生成することができる。図１１Ｅは、図１１Ｄからのインプリメンテーションの例が、識別子に加えて、縁足場間でアセンブルされる非標的化核酸配列をもたらし得る方法を示す。適切な識別子をＰＣＲで非標的化核酸配列から単離することができない。なぜなら、それらは、縁に同じプライマー結合部位を共有するからである。しかし、この例では、アセンブルされる核酸配列各々を、一意の長さを有するように設計することができるので（例えば、全ての成分が同じ長さを有する場合）、ＤＮＡサイズ選択（例えば、ゲル抽出を用いる）を実行して、標的化された識別子（例えば、上からの２番目の配列）を非標的化配列から単離することができる。サイズ選択については化学的方法セクションＥを参照されたい。図１１Ｆは、反復している成分を有する識別子の構築が、区別可能な長さだが等しい端配列を有する複数の核酸配列を同じ反応中に生成し得る、別の例を示す。この方法では、１つの層中の成分と他の層中の成分を交互パターンでアセンブルする鋳型を使用することができる。図１１Ｅに示されている方法と同様に、サイズ選択を使用して設計長の識別子を選択することができる。図１１Ｇは、反復している成分を有する識別子の構築が、等しい端配列および一部の核酸配列（例えば、上から３番目と４番目、および上から６番目と７番目）については等しい長さを有する、複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、ＰＣＲおよびＤＮＡサイズ排除を実行した場合であっても一方を構築することができず、他方の構築もないような、個々の識別子である両方から、除外され得る。

図１２Ａ～１２Ｄは、より多数、Ｍ個、の可能な成分のうちの任意の数、Ｋ個、のアセンブルされた成分（例えば、核酸配列）を有する識別子（例えば、核酸分子）を構築するための、「ＭｃｈｏｏｓｅＫスキーム」と呼ばれる方法の例を模式的に示す。図１２Ａは、ＭｃｈｏｏｓｅＫスキームを使用して構築された識別子のアーキテクチャを示す。この方法を使用して、識別子は、全ての層の任意のサブセットにおける各層からの１つの成分をアセンブルすることにより構築される（例えば、Ｍ個の可能な層のうちのｋ個の層から成分を選択する）。図１２Ｂは、ＭｃｈｏｏｓｅＫスキームを使用して構築することができる識別子の組合せ空間の例を示す。このアセンブリスキームでは、組合せ空間は、Ｍ個の層、層毎にＮ個の成分、および成分数Ｋの識別子長の場合、Ｎ^Ｋ個のＭｃｈｏｏｓｅＫの可能な識別子を含むことがある。一例では、各々が１つの成分を含む５つの層がある場合には、２つの成分を各々含む最大１０の区別可能な識別子をアセンブルすることができる。

ＭｃｈｏｏｓｅＫスキームは、図１２Ｃに示されているように、鋳型誘導型ライゲーション（化学的方法セクションＢを参照されたい）を使用して実行することができる。並び替えスキームについてのＴＤＬインプリメンテーション（図１１Ｃ）と同様に、この例での成分は、反応マスターミックスに含まれることもあり、含まれないこともある、縁足場間でアセンブルされる。Ｍ個の層、例えば、左縁足場がランク１であり得、右縁足場がランクＭ＋１であり得る場合、２～Ｍの事前に定義されたランクを有するＭ＝４層に、成分を分割することができる。鋳型は、より低いランク～より高いランクをそれぞれ有する任意の２成分の３’→５’ライゲーションのための核酸配列を含む。（（Ｍ＋１）^２＋Ｍ＋１）／２個のそのような鋳型がある。区別可能な層からの任意のＫ個の成分の個々の識別子は、対応するＫ＋１個のステープルが縁足場とＫ個の成分をそれらのランク順に接合するために使用されるライゲーション反応でそれらの選択された成分を組み合わせることにより、構築することができる。このような反応設定は、縁足場間で標的識別子に対応する核酸配列を生じさせることができる。あるいは、全ての鋳型を含む反応ミックスを選ばれた成分と組み合わせて標的識別子をアセンブルすることができる。この代替方法は、図１２Ｄに示されているように、区別可能な長さだが同じ端配列を有する（全ての成分長が等しい場合）様々な核酸配列を生成することができる。標的識別子（一番下）を、副産物核酸配列からサイズにより単離することができる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

図１３Ａおよび１３Ｂは、区分された成分を有する識別子を構築するための、「パーティションスキーム」と呼ばれる方法の例を模式的に示す。図１３Ａは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。異なる層の任意の２つの成分間に任意のパーティション（空間的分類成分）を必要に応じて配置して各層からの１つの成分を固定された順序でアセンブルすることにより、個々の識別子を構築することができる。例えば、１セットの成分を、１つのパーティション成分と、１つの成分を各々が含有する４つの層とに組織化することができる。各層からの成分を固定された順序で組み合わせることができ、単一パーティション成分を層間の様々な位置にアセンブルすることができる。この組合せ空間における識別子は、８つの可能な識別子の組合せ空間を作成するために、パーティション成分を含まないこと、第１の層からの成分と第２の層からの成分の間にパーティションを含むこと、第２の層からの成分と第３の層からの成分の間にパーティションを含むことなどがある。一般に、Ｎ個の成分を各々が有するＭ個の層とｐ個のパーティション成分とを用いて、Ｎ^Ｋ（ｐ＋１）^Ｍ－１個の可能な識別子を構築することができる。この方法は、様々な長さの識別子を生成することができる。

図１３Ｂは、鋳型誘導型ライゲーション（化学的方法セクションＢを参照されたい）を使用するパーティションスキームのインプリメンテーションの例を示す。鋳型は、Ｍ個の層の各々から１つの成分を固定された順序で互いにライゲーションするための核酸配列を含む。パーティション成分毎に、鋳型の追加の対が存在し、これらにより、任意の２つの隣接する層からの成分間におけるパーティション成分のライゲーションが可能になる。例えば、対のうちの一方の鋳型（例えば、配列ｇ＊ｂ＊（５’→３’）を有する）が、層１（配列ｂを有する）の３’末端がパーティション成分（配列ｇを有する）の５’末端にライゲーションするのを可能にするような、および対のうちのもう一方の鋳型（例えば、配列ｃ＊ｈ＊（５’→３’）を有する）が、パーティション成分（配列ｈを有する）の３’末端が層２（配列ｃを有する）の５’末端にライゲーションするのを可能にするような、鋳型の対。隣接する層の任意の２つの成分の間にパーティションを挿入するために、これらの層を互いにライゲーションするための標準鋳型を反応に含めなくてもよく、その位置でパーティションをライゲーションするための鋳型の対を反応において選択してもよい。現行の例では、層１と層２の間のパーティション成分の標的化は、鋳型ｃ＊ｂ＊（５’→３’）ではなく鋳型ｃ＊ｈ＊（５’→３’）と鋳型ｇ＊ｂ＊（５’→３’）の対を反応のための選択に使用することができる。成分を、反応ミックスに（最初の層およびＭ番目の層にそれぞれライゲーションするためのそれらの対応する鋳型と共に）含めることができる縁足場間で、アセンブルすることができる。一般に、Ｍ個の層およびｐ個のパーティション成分の場合、合計約Ｍ－１＋２＊ｐ＊（Ｍ－１）個の選択可能な鋳型をこの方法に使用することができる。パーティションスキームのこのインプリメンテーションは、区別可能な長さだが同じ端配列を有する様々な核酸配列を反応で生成することができる。標的識別子を、副産物核酸配列からＤＮＡサイズ選択により単離することができる。具体的には、ちょうど１つの核酸配列産物が、ちょうどＭ個の層成分を有することができる。層成分が、パーティション成分と比較して十分大きく設計されている場合、識別子内の成分の特定の区分化にかかわらず識別子を選択することができる（かつどの非標的化副産物も選択されることがない）普遍的サイズ選択領域を定義することが可能であり得、それによって、複数の反応から複数の区分された識別子を同じサイズ選択ステップで単離することが可能になる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

図１４Ａおよび１４Ｂは、いくつかの可能な成分からの成分の任意の列で構成されている識別子を構築するための、「無制約列スキーム」または「ＵＳＳ」と呼ばれる方法の例を模式的に示す。図１４Ａは、無制約列スキームを使用して構築することができる３成分（または４足場）長識別子の組合せ空間の例を示す。無制約列スキームは、１つまたは複数の層から各々取られた１つまたは複数の区別可能な成分を有する長さＫ成分の個々の識別子を構築し、この場合、各々の区別可能な成分が、識別子内のＫ成分位置のいずれかに出現し得る（これにより反復が可能になる）。例えば、１つの成分を各々が含む２つの層の場合、可能な３成分長識別子が８つある。一般に、１つの成分を各々が有するＭ個の層に関しては、長さＫの成分の可能な識別子がＭ^Ｋ個ある。図１４Ｂは、鋳型誘導型ライゲーション（化学的方法セクションＢを参照されたい）を使用する無制約列スキームのインプリメンテーションの例を示す。この方法では、Ｋ＋１個の一本鎖状の順序付けられた足場ＤＮＡ成分（２個の縁足場およびＫ－１個の内部足場を含む）が反応ミックス中に存在する。個々の識別子は、隣接する足場のあらゆる対の間でライゲーションした単一の成分を含む。例えば、足場Ａと足場Ｂ間でライゲーションした成分、足場Ｃと足場Ｄ間でライゲーションした成分など（Ｋ個全ての隣接する足場接合部が成分により占有されるまで）。反応では、異なる層から選択された成分が、それらを適切な足場上にアセンブルするように方向付けるステープルの選択された対と共に、足場に導入される。例えば、ステープルａ＊Ｌ＊（５’→３’）とステープルＡ＊ｂ＊（５’→３’）の対は、５’末端領域「ａ」と３’末端領域「ｂ」とを有する層１成分を、Ｌ足場とＡ足場の間でライゲーションするように方向付ける。一般に、Ｍ個の層およびＫ＋１個の足場で、２＊Ｍ＊Ｋ個の選択可能なステープルを使用して長さＫの任意のＵＳＳ識別子を構築することができる。成分を足場に５’末端で接続するステープルと同じ成分を足場に３’末端で接続するステープルは分離しているため、核酸副産物は、標的識別子と等しい縁足場との、しかしＫ個未満の成分（Ｋ＋１個未満の足場）との、またはＫ個より多い成分（Ｋ＋１個より多い足場）との、反応で形成し得る。標的化された識別子は、ちょうどＫ個の成分（Ｋ＋１個の足場）を用いて形成することができ、したがって、全ての成分が等しい長さになるように設計され、全ての足場が等しい長さになるように設計された場合、ＤＮＡサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては化学的方法セクションＥを参照されたい。１層当たり１つの成分が存在し得る無制約列スキームについてのある特定の実施形態では、その成分は、（１）識別バーコード、（２）足場への５’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域、および（３）足場への３’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域という、３つの役割の全てを満たす単一の区別可能な核酸配列を、専ら含み得る。

図１４Ｂに示されている内部足場を、それらが、ある成分への足場のステープル媒介５’ライゲーションと別の（必ずしも明確に異ならない）成分への足場のステープル媒介３’ライゲーションとの両方に同じハイブリダイゼーション配列を使用するように、設計することができる。したがって、図１４Ｂにおいて描かれている１足場、２ステープルのスタック式ハイブリダイゼーション事象は、足場とステープルの各々との間で起こる、したがって、５’成分ライゲーションと３’成分ライゲーションの両方を可能にする、統計学的前進・後退ハイブリダイゼーション事象を表す。無制約列スキームの他の実施形態では、２つの連結されたハイブリダイゼーション領域－ステープル媒介３’ライゲーションのための区別可能な３’ハイブリダイゼーション領域およびステープル媒介５’ライゲーションのための区別可能な５’ハイブリダイゼーション領域－を伴う足場を設計することができる。

図１５Ａおよび１５Ｂは、親識別子からの核酸配列（または成分）を削除することにより識別子を構築するための、「成分削除スキーム」と呼ばれる方法の例を模式的に示す。図１５Ａは、成分削除スキームを使用して構築することができる可能な識別子の組合せ空間の例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０もしくはそれを超える数より多い、または約２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０もしくはそれを超える数に等しい数の、成分を含み得る。個々の識別子は、Ｎ個の可能な成分から任意の数の成分を選択的に削除して、サイズ２^Ｎの「完全」組合せ空間をもたらすことにより、またはＮ個の可能な成分から固定数Ｋの成分を削除して、かくてサイズＮｃｈｏｏｓｅＫの「ＮｃｈｏｏｓｅＫ」組合せ空間をもたらすことにより、構築することができる。３個の成分を有する親識別子を用いる一例では、完全組合せ空間は８であり得、３ｃｈｏｏｓｅ２組合せ空間は３であり得る。

図１５Ｂは、二本鎖標的化切断および修復（ＤＳＴＣＲ）を使用する成分削除スキームのインプリメンテーションの例を示す。親配列は、ヌクレアーゼ特異的標的部位（長さ４塩基またはそれ未満の塩基数であり得る）が隣接している成分を含む一本鎖ＤＮＡ基質であることがあり、この場合、親は、標的部位に対応する１つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベーションされ得る。個々の成分は、親の成分ＤＮＡ（および隣接ヌクレアーゼ部位）に結合する相補的一本鎖ＤＮＡ（または切断鋳型）での削除について標的化され得、その結果、ヌクレアーゼにより両端が切断され得る、親上の安定した二本鎖配列が形成される。別の一本鎖ＤＮＡ（または修復鋳型）は、親の結果として生じる分離した末端（これらの間に成分配列が存在した）とハイブリダイズし、それらをライゲーションのために、直接的にせよ、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、置換配列により架橋させてにせよ、一緒にされる。本発明者らは、この方法を「二本鎖標的化切断」（ＤＳＴＣ）と呼ぶ。サイズ選択を使用して、ある特定の数の成分が削除された識別子を選択することができる。核酸サイズ選択については化学的方法セクションＥを参照されたい。

あるいは、または加えて、親識別子は、どの２つの成分にも同じ配列が隣接しないようにスペーサー配列により隔てられている成分を含む、二本鎖または一本鎖核酸基質であることもある。親識別子は、Ｃａｓ９ヌクレアーゼと共にインキュベートされ得る。個々の成分は、成分の縁に結合してその隣接部位でのＣａｓ９媒介切断を可能にするガイドリボ核酸（切断鋳型）での削除について標的化され得る。一本鎖核酸（修復鋳型）は、親識別子の結果として生じる、分離した末端（例えば、これらの末端間に成分配列が存在した）にハイブリダイズすることができ、かくて、それらをライゲーションのために一緒にされる。ライゲーションを直接行ってもよく、または親のライゲーションされた配列が、Ｃａｓ９によって標的化され得るスペーサー配列をもはや含有しないように、置換配列で末端を架橋させることによって行ってもよい。本発明者らは、この方法を「配列特異的な標的化切断および修復」または「ＳＳＴＣＲ」と呼ぶ。

識別子を、ＤＳＴＣＲの派生型を使用して親識別子に成分を挿入することにより構築することができる。親識別子は、区別可能な核酸配列内に各々が埋め込まれているヌクレアーゼ特異的標的部位（これらは長さが４塩基またはそれ未満の塩基数であり得る）を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する１つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子の個々の標的部位は、親識別子の標的部位および区別可能な周囲核酸配列に結合する相補的一本鎖核酸（切断鋳型）での成分挿入について標的化され得、その結果、二本鎖部位が形成される。二本鎖部位をヌクレアーゼにより切断することもできる。別の一本鎖核酸（または修復鋳型）は、親識別子の結果として生じる分離した末端にハイブリダイズし、それらをライゲーションのために、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて、一緒にされる。あるいは、ＳＳＴＣＲの派生型を使用して、親識別子に成分を挿入することができる。親識別子は、二本鎖核酸または一本鎖核酸であり得、親は、Ｃａｓ９ヌクレアーゼと共にインキュベートされ得る。親識別子の区別可能な部位は、ガイドＲＮＡ（切断鋳型）での切断について標的化され得る。一本鎖核酸（または修復鋳型）は、親識別子の分離した末端にハイブリダイズし、それらをライゲーションのために、親識別子のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて、一緒にされる。サイズ選択を使用して、ある特定の数の成分が挿入された識別子を選択することができる。

図１６は、リコンビナーゼ認識部位を有する親識別子を模式的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識され得る。リコンビナーゼの所与のセットについての全ての認識部位は、それらの間の核酸が、リコンビナーゼが適用されると切除され得るように、配列される。図１６に示されている核酸鎖は、それに適用されるリコンビナーゼのサブセットに依存して２^５＝３２の異なる配列を採用することができる。一部の実施形態では、図１６に描かれているように、ＤＮＡのセグメントを切除、シフト、反転および転置するためにリコンビナーゼを使用して一意の分子を生成して、異なる核酸分子を作出することができる。一般に、Ｎ個のリコンビナーゼを用いて、２^Ｎ個の可能な識別子を親から構築することができる。一部の実施形態では、異なるリコンビナーゼからの認識部位の複数の直交対を、１つのリコンビナーゼの適用が、下流のリコンビナーゼが適用された場合に起こる組換え事象のタイプに影響を与えるように、オーバーラップ方式で親識別子上に配列することができる（全体が参照により本明細書に組み込まれる、Ｒｏｑｕｅｔｅｔａｌ．，Ｓｙｎｔｈｅｔｉｃｒｅｃｏｍｂｉｎａｓｅ－ｂａｓｅｄｓｔａｔｅｍａｃｈｉｎｅｓｉｎｌｉｖｉｎｇｃｅｌｌｓ，Ｓｃｉｅｎｃｅ３５３（６２９７）：ａａｄ８５５９（２０１６）を参照されたい）。このようなシステムは、Ｎ個のリコンビナーゼの順序づけ、Ｎ！毎に異なる識別子を構築することが可能であり得る。リコンビナーゼは、チロシンファミリーのリコンビナーゼ、例えば、ＦｌｐおよびＣｒｅであってもよく、または大きいセリンリコンビナーゼファミリーのリコンビナーゼ、例えば、ＰｈｉＣ３１、ＢｘｂＩ、ＴＰ９０１もしくはＡ１１８であってもよい。大きいセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、それらが不可逆的組換えを容易にし、したがって、他のリコンビナーゼより効率的に識別子を生成することができるため、有利であり得る。

一部の例では、多数のリコンビナーゼを区別可能な順序で適用することにより多くの区別可能な核酸配列になるように、単一核酸配列をプログラムすることができる。リコンビナーゼの数であるＭが、大きいセリンリコンビナーゼファミリーについて７未満であり得るかまたは７であり得る場合、異なるサブセットの中のＭ個のリコンビナーゼを異なる順序で適用することにより、おおよそ約ｅ^１Ｍ！個の区別可能な核酸配列を生成することができる。リコンビナーゼの数であるＭが、７を超え得る場合、生成され得る配列の数は、３．９^Ｍほどである；例えば、全体が参照により本明細書に組み込まれる、Ｒｏｑｕｅｔｅｔａｌ．，Ｓｙｎｔｈｅｔｉｃｒｅｃｏｍｂｉｎａｓｅ－ｂａｓｅｄｓｔａｔｅｍａｃｈｉｎｅｓｉｎｌｉｖｉｎｇｃｅｌｌｓ，Ｓｃｉｅｎｃｅ３５３（６２９７）：ａａｄ８５５９（２０１６）を参照されたい。１つの共通配列から異なるＤＮＡ配列を生成するためのさらなる方法は、ＣＲＩＳＰＲ－Ｃａｓ、ＴＡＬＥＮ、およびジンクフィンガーヌクレアーゼなどの、標的化核酸編集酵素を含み得る。リコンビナーゼ、標的化編集酵素などにより生成される配列を、前の方法、例えば、本願の図のいずれかおよび開示において開示される方法のいずれかと併せて、使用することができる。

符号化すべき情報のビットストリームが、任意の単一核酸分子により符号化され得るものより大きい場合には、情報を分割し、核酸配列バーコードでインデックス化することができる。さらに、Ｎ個の核酸分子のセットからのサイズｋの核酸分子の任意のサブセットを選択して、ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。バーコードをサイズｋのサブセット内の核酸分子上にアセンブルして、さらにより長いビットストリームを符号化することができる。例えば、Ｍ個のバーコードを使用して、Ｍ＊ｌｏｇ_２（Ｎｃｈｏｏｓｅｋ）ビットの情報を生成することができる。あるセット内の利用可能な核酸分子の数Ｎ、および利用可能なバーコードの数Ｍを考慮して、サイズｋ＝ｋ_０のサブセットを、１つの情報を符号化するためのプール内の分子の総数を最小限にするように選択することができる。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、６個のビットを含むビットストリームを、各成分が２個のビットを含む３つの成分に分割することができる。２ビット成分各々をバーコード化して情報カセットを形成し、一緒に群化またはプールして、情報カセットのハイパープールを形成することができる。

バーコードは、符号化すべきデジタル情報の量が、１つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された一意の核酸配列を有するタグを含めることにより、図３で開示される手法を階層化することによって、より長いビット列および／または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分（単数または複数）を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する一意の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、１つまたは複数の一意の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報（例えば、ビット値およびビット位置情報）を一意の配列が符号化しているのかを示すことができる。

バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば１０ビットの配列を、各バイトが５ビットを含む２セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子５個の１セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る者が、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識（例えば、第１の５ビットを提供するために、バーコード１を、核酸プール内の配列に結合させることができ、および第２の５ビットを提供するために、バーコード２を、核酸プール内の配列に結合させることができる）を用いて各識別子をバーコード化またはタグ付けし、そしてその後、それら２つのバイトに対応する識別子を組み合わせて１つのプール（例えば、「ハイパープール」または１つもしくは複数の識別子ライブラリー）にすることができる。１つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得る。識別子ライブラリー中の各識別子にバーコードを付加させる方法は、ＰＣＲ、ギブソン、ライゲーション、または所与のバーコード（例えば、バーコード１）が所与の核酸試料プールに（例えば、バーコード１が核酸試料プール１に、およびバーコード２が核酸試料プール２に）結合できるようにする任意の他の手法を使用することを含み得る。シークエンシング法を用いてハイパープールからの試料を読み取ることができ、バーコードまたはタグを使用してシークエンシング情報を構文解析することができる。識別子ライブラリーおよびバーコードをＭ個のバーコードとＮ個の可能な識別子のセット（組合せ空間）で使用する方法は、ＭとＮの積に相当する長さを有するビットストリームを符号化することができる。

一部の実施形態では、識別子ライブラリーをウェルのアレイに記憶させることができる。ウェルのアレイは、ｎ個の列とｑ個の行を有すると定義することができ、各ウェルは、ハイパープール内の２つまたはそれより多くの識別子ライブラリーを含むことができる。各ウェル内の符号化された情報は、ウェルの各々に収容されている情報よりも大きいｎ×ｑサイズの１つの大きい連続した情報項目を構成し得る。ウェルのアレイ内の１つもしくは複数のウェルからアリコートを取り、シークエンシング、ハイブリダイゼーションまたはＰＣＲを使用して符号化を読み取ることができる。

核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する一意の核酸分子（例えば、識別子）、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある（例えば、ビット値に対応しない）。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的供給源に由来することもあり、合成的に生成されることもある。生物学的供給源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、特に、合成的に符号化された情報（例えば、識別子の組合せ空間）が天然遺伝情報（例えば、断片化されたゲノム）と似ているように作成された場合、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的供給源に由来し、補足核酸は、生物学的供給源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、１つまたは複数の生物に由来し、補足核酸配列は、単一の、異なる生物に由来する。補足核酸配列は、１つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。

補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および／または一次情報の意図された受信者を決定および／または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への１つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された１つもしくは複数のバーコードまたはタグに記憶されることもある。

識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の１塩基以内、２塩基以内、３塩基以内、４塩基以内、５塩基以内、６塩基以内、７塩基以内、８塩基以内、９塩基以内、１０塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満より低いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％より高いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％に等しいこともある。より高い濃度は、難読化またはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い（例えば、１×１０^８％高い）。

核酸配列に記憶されたデータをコピーするおよびそのようなデータにアクセスする方法
別の態様では、本開示は、核酸配列に符号化された情報をコピーする（または複製する）方法を提供する。核酸配列に符号化された情報をコピーする方法は、（ａ）識別子ライブラリーを提供するステップと、（ｂ）識別子ライブラリーの１つまたは複数のコピーを構築するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、（ａ）識別子ライブラリーを提供するステップと、（ｂ）識別子ライブラリーから識別子ライブラリー中に存在する識別子の一部またはサブセットを抽出するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

情報を本明細書の他の箇所に記載されているように１つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。識別子ライブラリー中のまたは１つもしくは複数の識別子ライブラリー中の個々の識別子のコピーを生成することにより、記憶されたデータをコピーすることができる。識別子の一部がコピーされることもあり、またはライブラリー全体がコピーされることもある。識別子ライブラリー中の識別子を増幅することにより、コピーを行うことができる。１つまたは複数の識別子ライブラリーが組み合わせられるとき、単一の識別子ライブラリーがコピーされることもあり、または複数の識別子ライブラリーがコピーされることもある。識別子ライブラリーが補足核酸配列を含む場合、補足核酸配列は、コピーされることもあり、またはコピーされないこともある。

１つまたは複数の共通プライマー結合部位を含むように、識別子ライブラリー中の識別子を構築することができる。１つまたは複数の結合部位は、各識別子の縁に位置することもあり、または各識別子の全体にわたって織り交ぜられていることもある。プライマー結合部位は、識別子ライブラリー特異的プライマー対またはユニバーサルプライマー対が識別子に結合することおよび識別子を増幅することを可能にし得る。識別子ライブラリー中の全ての識別子、または１つもしくは複数の識別子ライブラリー中の全ての識別子を、複数のＰＣＲサイクルにより複数回複製することができる。従来のＰＣＲを使用して識別子をコピーすることができ、識別子を各ＰＣＲサイクルに伴って指数関数的に複製することができる。識別子のコピーの数を、各ＰＣＲサイクルに伴って指数関数的に増加させることができる。線形ＰＣＲを使用して識別子をコピーすることができ、識別子を各ＰＣＲサイクルに伴って線形に複製することができる。識別子のコピーの数を、各ＰＣＲサイクルに伴って線形に増加させることができる。識別子をＰＣＲ増幅の前に環状ベクターにライゲーションすることができる。環状ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのＰＣＲプライマーは、ベクターからプライミングするように設計することができ、したがって、バーコード化された縁は、識別子に伴って増幅産物に含まれる。増幅中に、識別子間の組換えの結果として、各々の縁に無相関のバーコードを含むコピーされた識別子が生じ得る。無相関のバーコードは、識別子の読み取り時に検出可能であり得る。無相関のバーコードを含有する識別子を偽陽性と見なすことができ、情報復号プロセス中は無視することができる。化学的方法セクションＤを参照されたい。

情報の各ビットを一意の核酸分子に割り当てることにより、情報を符号化することができる。例えば、２つの核酸配列を各々が有する３つの試料セット（Ｘ、ＹおよびＺ）は、８個の一意の核酸分子にアセンブルし、下記の８個のデータビットを符号化することができる：
Ｎ１＝Ｘ１Ｙ１Ｚ１
Ｎ２＝Ｘ１Ｙ１Ｚ２
Ｎ３＝Ｘ１Ｙ２Ｚ１
Ｎ４＝Ｘ１Ｙ２Ｚ２
Ｎ５＝Ｘ２Ｙ１Ｚ１
Ｎ６＝Ｘ２Ｙ１Ｚ２
Ｎ７＝Ｘ２Ｙ２Ｚ１
Ｎ８＝Ｘ２Ｙ２Ｚ２
したがって、列の中の各ビットを対応する核酸分子に割り当てることができる（例えば、Ｎ１は、第１のビットを指定することができ、Ｎ２は、第２のビットを指定することができ、Ｎ３は、第３のビットを指定することができる、など）。ビット列全体を核酸分子の組合せに割り当てることができ、この場合、「１」のビット値に対応する核酸分子が、組合せまたはプールに含まれる。例えば、ＵＴＦ－８符号化では、文字「Ｋ」を８ビット列コード０１００１０１１によって表すことができ、この８ビット列コードを４つの核酸分子の存在によって符号化することができる（例えば、上の例ではＸ１Ｙ１Ｚ２、Ｘ２Ｙ１Ｚ１、Ｘ２Ｙ２Ｚ１、およびＸ２Ｙ２Ｚ２）。

情報にシークエンシングまたはハイブリダイゼーションアッセイによってアクセスすることができる。例えば、プライマーまたはプローブを、核酸配列の共通領域またはバーコード化領域に結合するように設計することができる。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物のシークエンシングにより、またはハイブリダイゼーションアッセイにより、読み取ることができる。文字「Ｋ」を符号化する上の例では、データの前半が目的のものである場合、Ｘ１核酸配列のバーコード領域に特異的なプライマー、およびＺセットの共通領域に結合するプライマーを使用して、核酸分子を増幅することができる。これにより、０１００を符号化することができる配列Ｙ１Ｚ２を返すことができる。Ｙ１核酸配列のバーコード領域に結合するプライマーおよびＺセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することにより、そのデータの部分列にもアクセスすることができる。これにより、部分列０１を符号化するＺ２核酸配列を返すことができる。あるいは、シークエンシングを用いずに特定の核酸配列の存在または非存在についてチェックすることにより、データにアクセスすることもできる。例えば、Ｙ２バーコードに特異的なプライマーを用いる増幅は、Ｙ１バーコードではなくＹ２バーコードについての増幅産物を生成することができる。Ｙ２増幅産物の存在は、「１」のビット値を知らせることができる。あるいは、Ｙ２増幅産物の非存在は、「０」のビット値を知らせることができる。

ＰＣＲベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール（例えば、識別子ライブラリー）からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションＤを参照されたい。試料がハイパープールを含む例では、識別子の一方の縁にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の縁にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット（例えば、特定のバーコードに関連する全ての核酸）にアクセスすること、およびそのようなサブセットを取得することができる。このプロセスを複数回反復して、識別子のサブプール（例えば、２つまたはそれより多くの特定のバーコードを有する全ての核酸）からのサブプールにアクセスすることができる。例えば、一方の縁にある特定のバーコードに結合するプライマーを先ず用い、そしてその後、前記縁から除去された特定のバーコード１に結合する特定のプライマーを再び用い、そしてその後、前記縁から除去されたバーコード２に結合する特定のプライマーを再び用いるなどの、ネステッドＰＣＲを使用することによる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。

核酸分子（例えば、識別子）に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的化識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的化された識別子を選択的に捕捉することにより行うこともできる。標的化された識別子は、より長い情報項目の中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的化された識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図１７Ａ～１７Ｃは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図１７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。ＰＣＲベースのアクセスの場合、識別子のプール（例えば、識別子ライブラリー）は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。１つまたは複数のプライマーが、識別子の縁の共通または可変領域に結合し得る。プライマーが結合している識別子を、ＰＣＲにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、１つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。

核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数のプローブと相補性を共有し得る。１つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、ビーズに結合して、ビーズと少なくとも１つのプローブと少なくとも１つの識別子とを含む複合体を生成することができる。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的化識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。親和性タグは、カラムに結合することができる。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的化識別子をカラムに選択的に標的化することができ、その一方で、標的化された識別子は、カラムを通って流れうる。標的化された識別子へのアクセスは、１つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または１つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。核酸捕捉に関しては化学的方法セクションＦを参照されたい。

分解ベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、１つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの１つとハイブリダイズすることができる。プローブのセットは、ＲＮＡを含むことがあり、ＲＮＡは、Ｃａｓ９酵素を誘導することができる。Ｃａｓ９酵素を１つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Ｃａｓ９酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばＳ１ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー（例えば、アガロースゲル電気泳動）などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を（例えば、ＰＣＲを使用して）選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。

図１７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、２つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「ＯＲ」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスＰＣＲ反応において２つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、１つのフォワードプライマーが左末端の識別子のセットに結合し、１つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら２セットの交差点の「ＡＮＤ」増幅を、フォワードプライマーとリバースプライマーをＰＣＲ反応においてプライマー対として一緒に使用することにより、果たすことができる。このプロセスを逐次方式（例えば、ネステッドＰＣＲ）で反復して、任意の数の成分を共通して有する識別子サブプールにアクセスすることができる。

プライマーは、各々の縁から内側へ内側へと繰り返し成分に結合するように設計されているので、識別子ライブラリーに対するＰＣＲベースのアクセスを繰り返すたびに、識別子は短くなり得る。例えば、識別子ライブラリーは、Ａ－Ｂ－Ｃ－Ｄ－Ｅ－Ｆ－Ｇという形の識別子を含むことができ、この場合のＡ、Ｂ、Ｃ、Ｄ、Ｅ、ＦおよびＧは層である。特定の成分に結合するプライマーを用いて、例えば、層ＡおよびＧにおいてそれぞれＡ_１およびＧ_１を用いて増幅すると、識別子ライブラリーの増幅された部分は、Ａ_１－Ｂ－Ｃ－Ｄ－Ｅ－Ｆ－Ｇ_１という形を取ることができる。特定の成分に結合するプライマーを用いて、例えば、層ＢおよびＦにおいてそれぞれＢ_１およびＦ_１を用いてさらに増幅すると、識別子ライブラリーの増幅された部分は、Ｂ_１－Ｃ－Ｄ－Ｅ－Ｆ_１という形を取り、これらのより短い増幅された配列は、成分Ａ_１を層Ａの位置におよびＧ_１を層Ｇの位置にさらに含む完全識別子に対応すると考えることができる。

図１７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「Ｐ１」が、成分「Ｃ１」を有する全ての識別子を捕捉し、別の親和性プローブ「Ｐ２」が、成分「Ｃ２」を有する全ての識別子を捕捉する場合には、Ｐ１およびＰ２を同時に使用することによりＣ１またはＣ２を有する全ての識別子のセットを捕捉することができる（「ＯＲ」操作に対応する）。同じ成分およびプローブを用いる別の例では、Ｐ１およびＰ２を逐次的に使用することによりＣ１およびＣ２を有する全ての識別子のセットを捕捉することができる（「ＡＮＤ」操作に対応する）。

核酸配列に記憶された情報を読み取る方法
別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、（ａ）識別子ライブラリーを提供するステップと、（ｂ）識別子ライブラリー中に存在する識別子を識別するステップと、（ｃ）識別子ライブラリー中に存在する識別子から記号列を生成するステップと、（ｄ）記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

情報を本明細書の他の箇所に記載されているように１つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。

識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、二進列中の第１の記号値（例えば、第１のビット値）を示すことができ、識別子ライブラリー中の識別子の非存在は、二進列中の第２の記号値（例えば、第２のビット値）を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に対してビット値を基づかせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「１」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「０」のビット値を示すことができる。

１つの情報についての記号（例えば、ビット値）の生成は、記号（例えば、ビット）をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために本識別子をシークエンシングすることまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、シークエンシングプラットフォームを使用して行うことができる。シークエンシングプラットフォームの例は、２０１４年８月２１日に出願された米国特許出願第１４／４６５，６８５号、２０１３年５月２日に出願された米国特許出願第１３／８８６，２３４号、および２００９年３月９日に出願された米国特許出願第１２／４００，５９３号に記載されており、これらの各々は、全体が参照により本明細書に組み込まれる。

一例では、核酸符号化データの復号は、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどの、核酸鎖の塩基毎のシークエンシングにより果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示すシークエンシング技術を利用することにより果たすことができる。シークエンシングは、可逆的ターミネーターの使用を利用することもある。シークエンシングは、天然または非天然（例えば、操作された）ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ、サンガーシークエンシング、ハイスループットシークエンシング、合成によるシークエンシング、単一分子シークエンシング、ライゲーションによるシークエンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、次世代シークエンシング、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、クローナルシングルマイクロアレイ（Ｓｏｌｅｘａ）、ショットガンシークエンシング、マクサム（Ｍａｘｉｍ）・ギルバートシークエンシング、または大規模並列シークエンシングを含むがこれらに限定されない、様々なシークエンシング手法を使用することができる。

様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。

識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。

より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で３つの核酸分子（例えば、識別子）にマッピングされ得る「１１１」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「０００」部分列に再符号化することができる。「０００」の代替入力部分列を「１１１」に再符号化することもできる。この再符号化方法は、データセット中の「１」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「１１１」を「００」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「１」の数を低減させることができる。

検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する（例えば、高める）ことができる。例えば、検出を容易にするために設計される核酸配列（例えば、識別子）は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、ｄＮａＭ、３－メトキシ－２－ナフチル基を含有する人工ヌクレオシド、およびｄ５ＳＩＣＳ、６－メチルイソキノリン－１－チオン－２－イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を伴って設計されることもある。ＤＮＡ設計に関しては化学的方法セクションＨを参照されたい。

操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。

シークエンシングプラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。シークエンシングプラットフォームを一本鎖または二本鎖核酸分子のシークエンシング専用にすることができる。シークエンシングプラットフォームは、個々の塩基を読み取ること（例えば、塩基毎のシークエンシング）により、または核酸分子（例えば、識別子）に組み込まれた全核酸配列（例えば、成分）の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。シークエンシングプラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。シークエンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果としてシークエンシング時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、一意の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その一意の光学的、電気化学的または化学的シグナルの存在または非存在は、「０」または「１」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。

符号化および復号エラーを最小限にするまたは検出するために、一意のコードを適用することができる。符号化および復号エラーは、偽陰性（無作為試料抽出に含まれない核酸分子または識別子）によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実施形態では、チェックサム配列をＲ識別子の連続セット毎に含めることができ、この場合のＲは、サイズが１、２、５、１０、５０、１００、２００、５００もしくは１０００に等しいまたはそれより大きいこともあり、または１０００、５００、２００、１００、５０、１０、５もしくは２未満であることもある。Ｒの値が小さいほど、エラー検出は良好である。一部の実施形態では、チェックサムは、補足核酸配列であり得る。例えば、７個の核酸配列（例えば、成分）を含むセットを、積スキームで識別子を構築するための核酸配列（層Ｘ中の成分Ｘ１～Ｘ３、および層Ｙ中のＹ１～Ｙ３）と補足チェックサムのための核酸配列（Ｘ４～Ｘ７およびＹ４～Ｙ７）という、２つの群に分けることができる。チェックサム配列Ｘ４～Ｘ７は、層Ｘの０、１、２または３個の配列が層Ｙの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Ｙ４～Ｙ７は、層Ｙの０、１、２または３個の配列が層Ｘの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３｝を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる：｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３、Ｘ１Ｙ６、Ｘ２Ｙ７、Ｘ３Ｙ４、Ｘ６Ｙ１、Ｘ５Ｙ２、Ｘ６Ｙ３｝。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるＸ１Ｙ１の非存在、ならびにＸ１Ｙ６およびＸ６Ｙ１の存在は、Ｘ１Ｙ１核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、ＰＣＲまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および／または単離することができる。一部の実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。

データ符号化および復号のノイズを、パリンドロームとして識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分のパリンドローム対を使用することにより、低減させることができる。次いで、異なる層からの成分の対をパリンドローム様式（例えば、成分ＸおよびＹについてＸＹではなくＹＸＹ）で互いにアセンブルすることができる。このパリンドローム方法を、より多くの数の層（例えば、ＸＹＺではなくＺＹＸＹＺ）に拡大することができ、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。

識別子への過剰（例えば、大過剰）な補足核酸配列の付加は、シークエンシングによる符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。あるいは、または加えて、特異的プライマーを使用するシークエンシング（例えば、合成によるシークエンシング）により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。
バイナリ配列データを符号化するためのシステム

デジタル情報を核酸（例えば、ＤＮＡ）に符号化するためのシステムは、ファイルおよびデータ（例えば、生データ、圧縮されたｚｉｐファイル、整数データ、および他の形態のデータ）をバイトに変換し、バイトを核酸、一般にはＤＮＡのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。

ある態様では、本開示は、核酸を使用してバイナリ配列データを符号化するためのシステムを提供する。核酸を使用してバイナリ配列データを符号化するためのシステムは、デバイスおよび１つまたは複数のコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリーが構築されるように構成することができる。（ｉ）情報を記号列に翻訳するため、（ｉｉ）記号列を複数の識別子にマッピングするため、および（ｉｉｉ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するために、１つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、１つまたは複数の成分に含み得る。１つまたは複数の成分の個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸を使用してバイナリ配列データを読み取るためのシステムを提供する。核酸を使用してバイナリ配列データを読み取るためのシステムは、データベースおよび１つまたは複数のコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリーを記憶し得る。（ｉ）識別子ライブラリー中の識別子を識別するため、（ｉｉ）（ｉ）で識別された識別子から複数の記号を生成するため、および（ｉｉｉ）複数の記号から情報をコンパイルするために、１つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。識別子ライブラリーは、複数の識別子のサブセットを含み得る。複数の識別子の各個の識別子は、記号列内の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

デジタルデータを符号化するためのシステムを使用する方法の非限定的な実施形態は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス（または識別子のランク）を使用してバイト内のビットの位置をマッピングし、ビット値１またはビット値０のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、１つまたは複数のビットにマッピングされる核酸の配列（例えば、識別子）を含む核酸試料または核酸プールについてシークエンシングし、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。

核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合されたユニットであってもよく、上述の操作の１つまたは複数が実行されるように構成された複数のユニットであってもよい。情報を核酸分子（例えば、識別子）に符号化し、書き込むためのシステムは、デバイスおよび１つまたは複数のコンピュータプロセッサを含み得る。１つまたは複数のコンピュータプロセッサは、情報が記号列（例えば、ビットの列）に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を２つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。１つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。

デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの１つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、１つまたは複数の一意の成分を含み得る。１つの層内の成分は、別の層の成分と重複しない一意のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分、および鋳型をデバイスの１つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリ反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、１つまたは複数のその後の反応が行われて、識別子の１つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。１つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体（例えば、試薬、成分、鋳型）を転送することができる。

識別子ライブラリーをデバイスに保管することができるまたは別々のデータベースに移すことができる。データベースは、１つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件（例えば、識別子の分解を低減するための条件）をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる（凍結乾燥に関するより多くの情報に関しては化学的方法セクションＧを参照されたい）。データベースは、紫外線光防護、温度の低下（例えば、冷蔵または凍結）、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸（ＥＤＴＡ）および／または核酸分子の安定性を維持するために緩衝液を含み得る。

データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、アリコートの識別子ライブラリーをデバイスから抽出し、そのアリコートを試薬および構成成分と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、１つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の１つよりも多くのプールを同時にコピーすることができる。

コピーされた識別子をコピーデバイスからアクセスデバイスに移すことができる。アクセスデバイスは、コピーデバイスと同じデバイスであってよい。アクセスデバイスは、別々の領域、セクション、またはパーティションを含み得る。アクセスデバイスは、親和性タグと結合した識別子を分離するための１つまたは複数のカラム、ビーズレザバー、または磁気領域を有し得る（核酸捕捉に関しては化学的方法セクションＦを参照されたい）。その代わりに、またはそれに加えて、アクセスデバイスは、１つまたは複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る（核酸サイズ選択に関するより多くの情報については化学的方法セクションＥを参照されたい）。コピーおよび抽出は、デバイスの同じ領域で実施されてもよく、デバイスの異なる領域で実施されてもよい（核酸増幅に関しては化学的方法セクションＤを参照されたい）。

アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。シークエンシングプラットフォームは、核酸配列に符号化された情報の復号および読み取りのために特別に設計されたものであってよい。シークエンシングプラットフォームは、一本鎖または二本鎖核酸分子のシークエンシング専用のものであってよい。シークエンシングプラットフォームは、個々の塩基を読み取ることによって（例えば、塩基ごとのシークエンシング）、または核酸分子（例えば、識別子）内に組み入れられた核酸配列全体（例えば、成分）の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、シークエンシングプラットフォームは、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによって実装される様々な解析技法を使用して実施することができる。

核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報（例えば、病歴および診療記録）を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき（例えば、着用できるデバイス中に）、体内に保管することもできる（例えば、皮下カプセル中に）。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診療記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診療記録の保管により、診療記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診療記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。

コンピュータシステム
本開示は、本開示の方法を実装するようにプログラミングされたコンピュータシステムを提供する。図１９は、デジタル情報を核酸配列に符号化し、かつ／または核酸配列から導き出された情報を読み取る（例えば、復号する）ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム１９０１を示す。コンピュータシステム１９０１は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。

コンピュータシステム１９０１は、中央処理装置（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも）１９０５を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム１９０１はまた、メモリまたはメモリ位置１９１０（例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ）、電子記憶装置１９１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース１９２０（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリ、データストレージおよび／または電子ディスプレイアダプターなどの周辺機器１９２５も含む。メモリ１９１０、記憶装置１９１５、インターフェース１９２０および周辺機器１９２５は、ＣＰＵ１９０５と、マザーボードなどの通信バス（実線）を通じて通信する。記憶装置１９１５は、データを保管するためのデータストレージユニット（またはデータリポジトリ）であってよい。コンピュータシステム１９０１は、通信インターフェース１９２０を利用してコンピュータネットワーク（「ネットワーク」）１９３０と作動可能にカップリングすることができる。ネットワーク１９３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク１９３０は、一部の場合では、電気通信および／またはデータネットワークであり得る。ネットワーク１９３０は、１つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク１９３０は、一部の場合ではコンピュータシステム１９０１を利用して、ピアツーピアネットワークを実装することができ、それにより、コンピュータシステム１９０１とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。

ＣＰＵ１９０５は、プログラムまたはソフトウェアで具体化することができる機械可読命令のシークエンスを実行することができるものである。命令は、メモリ１９１０などのメモリ位置に記憶させることができるものである。命令をＣＰＵ１９０５に方向付けることができ、その後、それにより、ＣＰＵ１９０５を、本開示の方法を実装するようにプログラムするまたは他のやり方で構成することができる。ＣＰＵ１９０５により実施される操作の例は、フェッチ、復号、実行、およびライトバック（ｗｒｉｔｅｂａｃｋ）を含み得る。

ＣＰＵ１９０５は、集積回路などの回路の一部であってよい。システム１９０１の１つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶装置１９１５は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置１９１５は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム１９０１は、一部の場合では、例えばコンピュータシステム１９０１とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム１９０１に対して外付けである、１つまたは複数の追加的なデータストレージユニットを含み得る。

コンピュータシステム１９０１は、１つまたは複数の遠隔コンピュータシステムとネットワーク１９３０を通じて通信することができるものである。例えば、コンピュータシステム１９０１は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび／もしくは機構（例えば、シークエンサーまたは核酸配列中の窒素含有塩基の順序を化学的に決定するための他のシステム）と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ使用可能デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム１９０１にネットワーク１９３０を介してアクセスすることができる。

本明細書に記載の方法は、例えば、メモリ１９１０または電子記憶装置１９１５など、コンピュータシステム１９０１の電子ストレージ場所に記憶された機械（例えば、コンピュータプロセッサ）により実行可能なコードによって実装することができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ１９０５によって実行することができる。一部の場合では、コードを記憶装置１９１５から取得し、プロセッサ１９０５による即時アクセスのためにメモリ１９１０に記憶させることができる。一部の状況では、電子記憶装置１９１５を除外し、機械により実行可能な命令をメモリ１９１０に記憶させることができる。

コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプレコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプレコンパイル様式でまたは同時コンパイル様式（ａｓ－ｃｏｍｐｉｌｅｄｆａｓｈｉｏｎ）で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。

コンピュータシステム１９０１などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械（またはプロセッサ）実行可能なコードおよび／または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ）またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを１つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令をもたらすことに関与するあらゆる媒体を指す。

したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ（複数可）中のストレージデバイスなど、例えば、図に示されているデータベースなどを実装するために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル；コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波（ＲＦ）および赤外（ＩＲ）データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために１つまたは複数の命令の１つまたは複数のシークエンスをプロセッサに運ぶことに関与し得る。

コンピュータシステム１９０１は、例えば、クロマトグラフ、配列、ならびに、ＤＮＡ記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたｚｉｐファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース（ＵＩ）１９４０を含む電子ディスプレイ１９３５を含み得るまたはそれと通信し得る。ＵＩの例としては、限定することなく、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブに基づくユーザインタフェースが挙げられる。本開示の方法およびシステムは、１つまたは複数のアルゴリズムを介して実装することができる。アルゴリズムは、中央処理装置１９０５により実行されるとソフトウェアを介して実装することができる。デジタル情報を符号化する前に、デジタル情報を生データまたはｚｉｐファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、ＤＮＡインデックスおよび生データまたはｚｉｐファイルに圧縮もしくは復元されたデータを用いて使用することができる。

化学的方法セクション
Ａ．オーバーラップ伸長ＰＣＲ（ＯＥＰＣＲ）アセンブリ
ＯＥＰＣＲでは、ポリメラーゼおよびｄＮＴＰ（ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰまたはそのバリアントもしくは類似体を含むデオキシヌクレオチド三リン酸）を含む反応で成分をアセンブルする。成分は、一本鎖核酸であっても二本鎖核酸であってもよい。互いに隣接するアセンブルされる成分は、相補的な３’末端、相補的な５’末端、または１つの成分の５’末端と隣接する成分の３’末端の間の相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と称され、ＯＥＰＣＲ中の成分間のハイブリダイズした接合部の形成を容易にすることを目的とするものであり、ここで、１つの入力成分（またはその相補物）の３’末端がその意図された隣接成分（またはその相補物）の３’末端とハイブリダイズする。次いで、アセンブルされた二本鎖産物をポリメラーゼ伸長によって形成する。次いで、この産物を、その後のハイブリダイゼーションおよび伸長を通じてより多くの成分にアセンブルすることができる。図７は、３つの核酸をアセンブルするためのＯＥＰＣＲの概略図例を例示する。

一部の実施形態では、ＯＥＰＣＲは、３つの温度：融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびに成分内または成分間での二次構造またはハイブリダイゼーションの形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏９５度を超える。一部の実施形態では、融解温度は、少なくとも摂氏９６度、９７度、９８度、９９度、１００度、１０１度、１０２度、１０３度、１０４度、または１０５度であり得る。他の実施形態では、融解温度は、最大で摂氏９５度、９４度、９３度、９２度、９１度、または９０度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも１秒間、２秒間、３秒間、４秒間、５秒間、またはそれよりも長く、例えば、３０秒間、１分間、２分間、または３分間にわたって適用することができる。

アニーリング温度は、意図された隣接成分（またはそれらの相補物）の相補的な３’末端間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、意図されたハイブリダイズした核酸形成の算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏１０度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏２５度、３０度、５０度、５５度、６０度、６５度、または７０度であり得る。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含量が高いハイブリダイゼーション領域ほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたＯＥＰＣＲ反応用の成分を設計することが可能であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、または３０秒間にわたって、またはそれよりも長く適用することができる。

伸長温度は、１つまたは複数のポリメラーゼ酵素によって触媒される、ハイブリダイズした３’末端の核酸鎖延長を開始させ、またそれを容易にすることを目的とするものである。一部の実施形態では、伸長温度を、ポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏３０度、４０度、５０度、６０度、または７０度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、４０秒間、５０秒間、または６０秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の１キロベース当たり約１５～４５秒間であり得る。

ＯＥＰＣＲの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、２ステップ温度サイクルを３ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリングおよび伸長温度の例としては、摂氏６０度、６５度、または７２度が挙げられる。

一部の実施形態では、ＯＥＰＣＲを１つの温度サイクルで実施することができる。そのような実施形態には、ただ２つの成分の意図されたアセンブリが伴い得る。他の実施形態では、ＯＥＰＣＲを複数の温度サイクルで実施することができる。ＯＥＰＣＲにおけるいかなる所与の核酸も、１つのサイクルでは最大で１つの他の核酸としかアセンブルできない。これは、アセンブリ（または伸長または延長）を核酸の３’末端でしか行うことができず、また、各核酸は３’末端を１つしか有することができないからである。したがって、複数の成分のアセンブリには複数の温度サイクルが必要になり得る。例えば、４種の成分のアセンブルには、３つの温度サイクルが伴い得る。６種の成分のアセンブルには５つの温度サイクルが伴い得る。１０種の成分のアセンブルには９つの温度サイクルが伴い得る。一部の実施形態では、最低限必要なものよりも多くの温度サイクルを使用することによりアセンブリ効率を上昇させることができる。例えば、２種の成分をアセンブルするために４つの温度サイクルを使用することにより、１つの温度サイクルのみを使用するよりも多くの産物をもたらすことができる。これは、成分のハイブリダイゼーションおよび延長が、各サイクルにおいて成分の総数のうちごく一部で起こる統計学的事象だからである。したがって、アセンブルされた成分の総画分は、サイクルの増加と共に増加させることができる。

温度サイクリングの考慮事項に加えて、ＯＥＰＣＲにおける核酸配列の設計がそれらの互いとのアセンブリの効率に影響を及ぼす可能性がある。長いハイブリダイゼーション領域を有する核酸は、所与のアニーリング温度で、短いハイブリダイゼーション領域を有する核酸と比較してより効率的にハイブリダイズし得る。これは、より長いハイブリダイズした産物はより多数の安定な塩基対を含有し、したがって、全体的なハイブリダイズした産物がより短いハイブリダイズした産物よりも安定であり得るからである。ハイブリダイゼーション領域は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、またはそれよりも多くの塩基の長さを有し得る。

高グアニンまたはシトシン含量のハイブリダイゼーション領域は、所与の温度で、低グアニンまたはシトシン含量のハイブリダイゼーション領域よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりも安定な塩基対を形成するからである。ハイブリダイゼーション領域は、０％から１００％の間の任意のグアニンまたはシトシン含量（ＧＣ含量としても公知）を有し得る。

ハイブリダイゼーション領域の長さおよびＧＣ含量に加えて、ＯＥＰＣＲの効率に影響を及ぼし得る核酸配列設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とのハイブリダイゼーション産物を形成するその能力が妨げられる恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸についての可能な二次構造の型およびそれらの安定性（例えば、融解温度）は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、効率的なＯＥＰＣＲのための適当な長さおよびＧＣ含量の基準を満たす核酸配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、ｔａｂｕ検索のようなメタ－ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。

同様に、ホモ二量体（同じ配列の核酸分子とハイブリダイズする核酸分子）および望ましくないヘテロ二量体（それらの意図されたアセンブリパートナーに加えて他の核酸配列とハイブリダイズする核酸配列）の形成により、ＯＥＰＣＲが妨げられる恐れがある。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、核酸設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して予測し、説明することができる。

より長い核酸配列またはより高いＧＣ含量により、ＯＥＰＣＲでの望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短い核酸配列またはより低いＧＣ含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いハイブリダイゼーション領域または高いＧＣ含量を使用する設計戦略が打ち消され得る。そのように、一部の実施形態では、高いＧＣ含量の長いハイブリダイゼーション領域を使用するが低いＧＣ含量の短い非ハイブリダイゼーション領域を使用することによってＯＥＰＣＲを最適化することができる。核酸の全体的な長さは、少なくとも１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。一部の実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域の最適な長さおよび最適なＧＣ含量が存在し得る。

ＯＥＰＣＲ反応におけるより多数の区別可能な核酸は、予測されるアセンブリ効率に干渉し得る。これは、より多数の区別可能な核酸配列により、望ましくない分子間相互作用、特にヘテロ二量体の形態のより高い確率が生じ得るからである。したがって、多数の成分をアセンブルするＯＥＰＣＲの一部の実施形態では、効率的なアセンブリのための核酸配列の制約はよりストリンジェントになり得る。

予測される最終的なアセンブルされた産物を増幅するためのプライマーをＯＥＰＣＲ反応に含めることができる。次いで、ＯＥＰＣＲ反応を、単に構成する成分間でより多くのアセンブリを創出することによってだけでなく、完全なアセンブルされた産物を従来のＰＣＲの様式で指数関数的に増幅することによっても（化学的方法セクションＤを参照されたい）アセンブルされた産物の収量を改善するために、より多くの温度サイクルを用いて実施することができる。

アセンブリ効率を改善するために添加剤をＯＥＰＣＲ反応に含めることができる。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはこれらの組合せの添加。添加剤含量（重量／体積）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のポリメラーゼをＯＥＰＣＲのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、Ｍｔｈポリメラーゼ、ＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼのような一部のポリメラーゼは、核酸延長の間のより高い忠実度に寄与し得る３’から５’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間にリーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Ｔａｑのような一部のポリメラーゼは、アデニン塩基を核酸配列の３’末端に組み入れる。このプロセスはＡ尾部付加と称され、また、アデニン塩基の付加により、意図された隣接成分間の設計された３’相補性が破壊され得るので、このプロセスはＯＥＰＣＲに対して阻害性であり得る。

ＯＥＰＣＲは、ポリメラーゼサイクリングアセンブリ（またはＰＣＡ）とも称され得る。

Ｂ．ライゲーションアセンブリ
ライゲーションアセンブリでは、別々の核酸を、１つまたは複数のリガーゼ酵素および追加的な補因子を含む反応でアセンブルする。補因子は、アデノシン三リン酸（ＡＴＰ）、ジチオスレイトール（ＤＴＴ）、またはマグネシウムイオン（Ｍｇ２＋）を含み得る。ライゲーションの間、１つの核酸鎖の３’末端を別の核酸鎖の５’末端と共有結合により連結し、したがって、アセンブルされた核酸を形成する。ライゲーション反応の成分は、平滑末端化された二本鎖ＤＮＡ（ｄｓＤＮＡ）、一本鎖ＤＮＡ（ｓｓＤＮＡ）、または部分的にハイブリダイズした一本鎖ＤＮＡであり得る。核酸の末端を１つにまとめる戦略は、リガーゼ酵素の実行可能な基質の頻度を増大させるものであり、したがって、リガーゼ反応の効率を改善するために使用することができる。平滑末端化されたｄｓＤＮＡ分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を１つにまとめるためのより上首尾の戦略は、それらがアセンブルすることが意図されている成分の突出との相補性を有する５’または３’一本鎖突出のいずれかを有する核酸成分を使用することであり得る。後者の例では、塩基－塩基ハイブリダイゼーションに起因してより安定な核酸２重鎖が形成され得る。

二本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端の他方の鎖は、「くぼみ」と称することができる。まとめると、くぼみと突出は、「粘着末端」としても公知の「付着末端」を形成する。付着末端は、３’突出と５’くぼみ、または５’突出と３’くぼみのいずれであってもよい。２つの意図された隣接成分間の付着末端は、相補性を有し、したがって、両方の付着末端の突出がハイブリダイズし、したがって、各突出末端が他の成分のくぼみの始まりと直接隣接するように設計することができる。これにより、リガーゼの作用によって「シール」する（リン酸ジエステル結合を通じて共有結合により連結する）ことができる「ニック」（二本鎖ＤＮＡ切断）が形成される。３つの核酸をアセンブルするための付着末端ライゲーションの概略図例については図８を参照されたい。一方の鎖または他方の鎖、または両方の鎖のいずれのニックもシールすることができる。熱力学的に、付着末端を形成する分子の上の鎖および下の鎖は、会合した状態と解離した状態を移動し得、したがって、付着末端は、一過性の形成であり得る。しかし、２種の成分間の付着末端２重鎖の一方の鎖に沿ったニックがシールされると、逆の鎖のメンバーが解離したとしても共有結合性の連結が残存する。次いで、連結した鎖が、逆の鎖の意図された隣接メンバーが結合することができる鋳型になり、シールすることができるニックが再度形成される。

付着末端は、ｄｓＤＮＡを１つまたは複数のエンドヌクレアーゼで消化することによって創出することができる。エンドヌクレアーゼ（制限酵素と称することができる）は、ｄｓＤＮＡ分子のいずれかの末端または両末端の特異的な部位（制限部位と称することができる）を標的化し、互い違いの切断を創出し得（時には消化と称される）、したがって、付着末端が残される。制限酵素消化に関しては化学的方法セクションＣを参照されたい。消化により、パリンドローム突出（それ自体の逆相補物である配列を有する突出）が残される。その場合、同じエンドヌクレアーゼで消化される２種の成分は、リガーゼを用いてそれに沿ってアセンブルすることができる相補的な付着末端を形成し得る。消化およびライゲーションは、エンドヌクレアーゼおよびリガーゼが適合する場合には同じ反応において共に行うことができる。反応は、摂氏４度、１０度、１６度、２５度、または３７度などの均一温度で行うことができる。または、反応は、複数の温度間、例えば、摂氏１６度と摂氏３７度の間のサイクルであってよい。複数の温度間でサイクルさせることにより、サイクルの異なる部分の間に消化およびライゲーションを各々それらのそれぞれの最適な温度で進行させることが可能になる。

消化およびライゲーションを別々の反応で実施することが有益な場合がある。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーション産物がエンドヌクレアーゼの新しい制限部位を形成する場合。これらの例では、制限酵素消化、次いでライゲーションを別々に実施することがより良好であり得、また、おそらく、制限酵素をライゲーションの前に除去することがさらに有益であり得る。核酸を酵素からフェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着、洗浄、および溶出によって分離することができる。複数のエンドヌクレアーゼを同じ反応において使用することができるが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするために注意を払うべきである。２種のエンドヌクレアーゼを使用し、一方のエンドヌクレアーゼによりｄｓＤＮＡ成分の両末端に直交性の（非相補的な）付着末端を創出することができる。

エンドヌクレアーゼ消化により、付着末端にリン酸化された５’末端が残される。リガーゼは、リン酸化された５’末端に対してのみ機能することができ、リン酸化されていない５’末端に対しては機能することができない。そのように、消化とライゲーションの間に中間の５’リン酸化ステップのいかなる必要もない場合がある。付着末端にパリンドローム突出を有する消化されたｄｓＤＮＡ成分はそれ自体とライゲーションする可能性がある。自己ライゲーションを防止するために、ライゲーション前に前記ｄｓＤＮＡ成分を脱リン酸化することが有益であり得る。

複数のエンドヌクレアーゼが異なる制限部位を標的化し得るが、適合する突出（互いに逆相補物である突出）が残される。２種のそのようなエンドヌクレアーゼを用いて創出された付着末端のライゲーション産物では、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含有しないアセンブルされた産物がもたらされ得る。そのようなエンドヌクレアーゼにより、ただ２つのエンドヌクレアーゼを使用し、反復的な消化－ライゲーションサイクルを実施することによってプログラム可能に複数の成分をアセンブルすることができるバイオブリックアセンブリなどのアセンブリ方法の基礎が形成される。図２０は、エンドヌクレアーゼＢａｍＨＩおよびＢｇｌＩＩを適合する突出と共に使用した消化－ライゲーションサイクルの例を例示する。

一部の実施形態では、付着末端を創出するために使用されるエンドヌクレアーゼは、ＩＩＳ型制限酵素であり得る。これらの酵素は、固定数の塩基をこれらの酵素の制限部位から特定の方向に切り出し、したがって、これらの酵素によって生成される突出の配列をカスタマイズすることができる。突出配列はパリンドロームである必要はない。同じＩＩＳ型制限酵素を使用して、複数の異なる付着末端を同じ反応においてまたは複数の反応において創出することができる。さらに、１つまたは複数のＩＩＳ型制限酵素を使用して、適合する突出を有する成分を同じ反応でまたは複数の反応で創出することができる。ＩＩＳ型制限酵素によって生成される２つの付着末端間のライゲーション部位は、それにより新しい制限部位が形成されないように設計することができる。さらに、ＩＩＳ型制限酵素部位を、ｄｓＤＮＡにおいて、制限酵素が付着末端を有する成分を生成する際にそれ自体の制限部位を切断するように位置させることができる。したがって、ＩＩＳ型制限酵素により生成した複数の成分間のライゲーション産物は、いかなる制限部位も含有しない場合がある。

ＩＩＳ型制限酵素を反応においてリガーゼと混合して、成分の消化とライゲーションを一緒に実施することができる。反応の温度を２つまたはそれよりも多くの値の間でサイクルさせて、最適な消化およびライゲーションを促進することができる。例えば、消化を摂氏３７度で最適に実施することができ、ライゲーションを摂氏１６度で最適に実施することができる。より一般的には、反応を少なくとも摂氏０度、５度、１０度、１５度、２０度、２５度、３０度、３５度、４０度、４５度、５０度、５５度、６０度、または６５度またはそれよりも高い温度値の間をサイクルさせることができる。組み合わせた消化およびライゲーション反応を使用して、少なくとも２種、３種、４種、５種、６種、７種、８種、９種、１０種、１１種、１２種、１３種、１４種、１５種、１６種、１７種、１８種、１９種、または２０種の成分、またはそれよりも多くをアセンブルすることができる。ＩＩＳ型制限酵素を活用して付着末端を創出するアセンブリ反応の例としては、ＧｏｌｄｅｎＧａｔｅＡｓｓｅｍｂｌｙ（ＧｏｌｄｅｎＧａｔｅクローニングとしても公知）またはモジュラークローニング（ＭｏＣｌｏとしても公知）が挙げられる。

ライゲーションの一部の実施形態では、エキソヌクレアーゼを使用して、付着末端を有する成分を創出することができる。３’エキソヌクレアーゼを使用して、ｄｓＤＮＡから３’末端をチューバックし（ｃｈｅｗｂａｃｋ）、したがって、５’突出を創出する。同様に、５’エキソヌクレアーゼを使用して、ｄｓＤＮＡから５’末端をチューバックし、したがって、３’突出を創出する。異なるエキソヌクレアーゼは異なる性質を有し得る。例えば、エキソヌクレアーゼは、ｓｓＤＮＡに作用するかどうかに関わりなく、リン酸化された５’末端に作用するのかリン酸化されていない５’末端に作用するのかに関わりなく、ニックで開始することができるかどうかに関わりなく、またはそれらの活性を５’くぼみ、３’くぼみ、５’突出、もしくは３’突出において開始することができるかどうかに関わりなく、それらのヌクレアーゼ活性の方向が異なり得る（５’から３’へまたは３’から５’へ）。異なる型のエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、ＲｅｃＪ_ｆ、エキソヌクレアーゼＩＩＩ、エキソヌクレアーゼＩ、エキソヌクレアーゼＴ、エキソヌクレアーゼＶ、エキソヌクレアーゼＶＩＩＩ、エキソヌクレアーゼＶＩＩ、ヌクレアーゼＢＡＬ＿３１、Ｔ５エキソヌクレアーゼ、およびＴ７エキソヌクレアーゼが挙げられる。

エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分をアセンブルすることができる。反応は、固定温度で行うこともでき、各々がリガーゼまたはエキソヌクレアーゼそれぞれに理想的な複数の温度の間をサイクルさせることもできる。ポリメラーゼをアセンブリ反応にリガーゼおよび５’→３’エキソヌクレアーゼと一緒に含めることができる。そのような反応における成分は、互いに隣接してアセンブルすることが意図された成分がそれらの縁に相同な配列を共有するように設計することができる。例えば、成分Ｙとアセンブルされる成分Ｘは、５’－ｚ－３’形態の３’縁配列を有し得、成分Ｙは、５’－ｚ－３’形態の５’縁配列を有し得、ここで、ｚは、任意の核酸配列である。そのような形態の相同な縁配列は、「ギブソンオーバーラップ」と称することができる。５’エキソヌクレアーゼによりギブソンオーバーラップを有するｄｓＤＮＡ成分の５’末端がチューバックされると、互いとハイブリダイズする適合する３’突出が創出される。次いで、ハイブリダイズした３’末端がポリメラーゼの作用によって鋳型成分の末端までまたは一方の成分の伸長した３’突出が隣接成分の５’くぼみを満たす点まで伸長し、それにより、リガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と称される。ギブソンアセンブリは、Ｔ５エキソヌクレアーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、およびＴａｑリガーゼを使用し、反応を摂氏５０度でインキュベートすることによって実施することができる。前記例では、好熱性リガーゼであるＴａｑを使用することにより、反応における３つの型の酵素全てに適した温度である摂氏５０度で反応を進行させることが可能になる。

「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼが関与する任意のアセンブリ反応を指す。ギブソンアセンブリを使用して、少なくとも２種、３種、４種、５種、６種、７種、８種、９種、１０種、またはそれより多くの成分をアセンブルすることができる。ギブソンアセンブリは、一段階の等温性反応として行うこともでき、１つまたは複数の温度でのインキュベーションを伴う多段階反応として行うこともできる。例えば、ギブソンアセンブリは、少なくとも３０度、４０度、５０度、６０度、または７０度、またはそれよりも低い温度で行うことができる。ギブソンアセンブリのインキュベーション時間は、少なくとも１分間、５分間、１０分間、２０分間、４０分間、または８０分間であり得る。

ギブソンアセンブリ反応は、意図された隣接成分間のギブソンオーバーラップがある特定の長さであり、ヘアピン、ホモ二量体、または望ましくないヘテロ二量体などの望ましくないハイブリダイゼーション事象を回避する配列などの配列特色を有する場合に、最適に行うことができる。一般に、少なくとも２０塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、長さ少なくとも１塩基、２塩基、３塩基、５塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、１００塩基、またはそれよりも多くの塩基であり得る。ギブソンオーバーラップのＧＣ含量は、０％から１００％の間のいずれかであり得る。

ギブソンアセンブリは、一般に、５’エキソヌクレアーゼを用いて説明されるが、この反応は、３’エキソヌクレアーゼを用いて行うこともできる。３’エキソヌクレアーゼによりｄｓＤＮＡ成分の３’末端がチューバックされると、ポリメラーゼにより、３’末端が伸長することによって作用が打ち消される。この動的プロセスを、２種の成分（ギブソンオーバーラップを共有する）の５’突出（エキソヌクレアーゼによって創出される）がハイブリダイズし、ポリメラーゼにより一方の成分の３’末端がその隣接成分の５’末端に到達するのに十分に伸長し、したがって、リガーゼによってシールすることができるニックが残されるまで続けることができる。

ライゲーションの一部の実施形態では、付着末端を有する成分は、酵素的なものとは対照的に、完全な相補性を共有しない２つの一本鎖核酸またはオリゴを一緒に混合することによって合成的に創出することができる。例えば、２つのオリゴ、オリゴＸおよびオリゴＹを、オリゴのいずれか一方または両方の全体を構成する塩基のより大きな列の部分列を形成する相補的な塩基の連続した列に沿ってのみ完全にハイブリダイズするように設計することができる。この相補的な塩基の列は、「インデックス領域」と称される。インデックス領域がオリゴＸの全体およびオリゴＹの５’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴＹ由来の３’突出を有する他方に付着末端を有する成分を形成する（図２１Ａ）。インデックス領域がオリゴＸの全体およびオリゴＹの３’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴＹ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｂ）。インデックス領域がオリゴＸの全体を占有し、オリゴＹのいずれの末端も占有しない場合（インデックス領域がオリゴＹの中央に埋め込まれていることを意味する）、オリゴは、一緒になって、オリゴＹ由来の３’突出を有する一方およびオリゴＹ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｃ）。インデックス領域がオリゴＸの５’末端のみおよびオリゴＹの５’末端のみを占有する場合、オリゴは、一緒になって、オリゴＹ由来の３’突出を有する一方およびオリゴＸ由来の３’突出を有する他方に付着末端を有する成分を形成する（図２１Ｄ）。インデックス領域がオリゴＸの３’末端のみおよびオリゴＹの３’末端のみを占有する場合、オリゴは、一緒になって、オリゴＹ由来の５’突出を有する一方およびオリゴＸ由来の５’突出を有する他方に付着末端を有する成分を形成する（図２１Ｅ）。上述の例では、突出の配列は、インデックス領域の外側のオリゴ配列によって定義される。これらの突出配列は、ライゲーションのために成分がハイブリダイズする領域であるので、ハイブリダイゼーション領域と称することができる。

付着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域（複数可）は、成分の適当なアセンブリが容易になるように設計することができる。長い突出を有する成分は、所与のアニーリング温度で、短い突出を有する成分と比較してより効率的に互いとハイブリダイズすることができる。突出は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１５塩基、２０塩基、３０塩基、またはそれよりも多くの塩基の長さを有し得る。

高グアニンまたはシトシン含量を含有する突出を有する成分は、それらの相補的な成分と、所与の温度で、低グアニンまたはシトシン含量を含有する突出を有する成分よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりもより安定な塩基対を形成するからである。突出は、０％から１００％の間のいずれかのグアニンまたはシトシン含量（ＧＣ含量としても公知）を有し得る。

突出配列と同様に、オリゴのインデックス領域のＧＣ含量および長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖および下の鎖が安定に結合していれば付着末端成分がより効率的にアセンブルすることができるからである。したがって、より高いＧＣ含量、より長い配列、およびより高い融解温度を促進する他の特色を有するインデックス領域を設計することができる。しかし、インデックス領域および突出配列（複数可）の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とアセンブルされた産物を形成するその能力が妨げられる恐れがある。これは、インデックス領域内、突出配列内、またはその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型およびそれらの安定性（例えば、融解温度）は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さおよびＧＣ含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、ｔａｂｕ検索のようなメタ－ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。

同様に、ホモ二量体（同じ配列のオリゴとハイブリダイズするオリゴ）および望ましくないヘテロ二量体（それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ）の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成を、予測し、オリゴ設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して説明することができる。

より長いオリゴ配列またはより高いＧＣ含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短いオリゴまたはより低いＧＣ含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴまたは高いＧＣ含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さおよび最適なＧＣ含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なＧＣ含量は、０％から１００％の間のいずれかであり得る。

付着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル（または鋳型または架橋）鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション（ＳＳＬ）、鋳型誘導型ライゲーション（ＴＤＬ）、または架橋鎖ライゲーションと称することができる。３つの核酸をアセンブルするためのＴＤＬの概略図例については図１０Ａを参照されたい。ＴＤＬでは、２つの一本鎖核酸を鋳型上に隣接してハイブリダイズさせ、したがって、リガーゼによってシールすることができるニックを形成する。付着末端ライゲーションと同じ核酸設計考慮事項がＴＤＬにも当てはまる。鋳型とそれらの意図された相補的な核酸配列の間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導くことができる。したがって、鋳型の両側でのハイブリダイゼーション安定性（または融解温度）を改善する配列特色により、ライゲーション効率を改善することができる。これらの特色は、より長い配列の長さおよびより高いＧＣ含量を含み得る。鋳型を含めたＴＤＬにおける核酸の長さは、少なくとも５塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基、またはそれよりも多くの塩基であり得る。鋳型を含めた核酸のＧＣ含量は、０％から１００％の間のいずれかであり得る。

ＴＤＬでは、付着末端ライゲーションと同様に、配列空間検索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分および鋳型配列を設計するために注意を払うことができる。ＴＤＬにおける成分は、二本鎖の代わりに一本鎖であり得るので、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある（付着末端ライゲーションと比較）。

ＴＤＬは、平滑末端化されたｄｓＤＮＡ成分を用いて実施することもできる。そのような反応では、ステープル鎖が２つの一本鎖核酸を適当に架橋するためには、まずステープルが、完全な一本鎖相補物を置き換えるまたは部分的に置き換えることが必要な可能性がある。ｄｓＤＮＡ成分を用いたＴＤＬ反応を容易にするために、ｄｓＤＮＡを最初に高温でインキュベートすることで融解させることができる。次いで、反応を冷却し、したがって、ステープル鎖がそれらの適当な核酸相補物にアニーリングすることを可能にすることができる。このプロセスは、ｄｓＤＮＡ成分と比較して比較的高い濃度の鋳型を使用することによってさらにいっそう効率的なものにすることができ、したがって、結合に関して鋳型が適当な全長ｓｓＤＮＡ相補物に打ち勝つことが可能になる。２つのｓｓＤＮＡ鎖がそれらの鋳型およびリガーゼによってアセンブルされたら、次いで、そのアセンブルされた核酸が逆の全長ｓｓＤＮＡ相補物の鋳型になり得る。したがって、ＴＤＬを用いた平滑末端化されたｄｓＤＮＡのライゲーションを、融解（より高い温度でのインキュベーション）およびアニーリング（より低い温度でのインキュベーション）の複数のラウンドを通じて改善することができる。このプロセスは、リガーゼサイクリング反応、またはＬＣＲと称することができる。適当な融解温度およびアニーリング温度は核酸配列に依存する。融解温度およびアニーリング温度は、少なくとも摂氏４度、１０度、２０度、２０度、３０度、４０度、５０度、６０度、７０度、８０度、９０度、または１００度であり得る。温度サイクルの数は、少なくとも１回、５回、１０回、１５回、２０回、１５回、３０回、またはそれよりも多くであり得る。

全てのライゲーションを固定温度反応または多重温度反応で実施することができる。ライゲーション温度は、少なくとも摂氏０度、４度、１０度、２０度、２０度、３０度、４０度、５０度、または６０度またはそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合うまたはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって、成分が一時的に隣り合うまたはハイブリダイズする頻度を増大させることができる。しかし、温度の上昇により、塩基対結合の破壊、したがって、これらの隣り合ったまたはハイブリダイズした成分２重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、アセンブルされる核酸の数、それらの核酸の配列、リガーゼの型、ならびに反応添加剤などの他の因子に依存し得る。例えば、４塩基の相補的な突出を有する２つの付着末端成分は、摂氏４度でＴ４リガーゼを用いると、摂氏２５度でＴ４リガーゼを用いるよりも速くアセンブルすることができる。しかし、２５塩基の相補的な突出を有する２つの付着末端成分は、摂氏２５度でＴ４リガーゼを用いると、摂氏４度でＴ４リガーゼを用いるよりも速くアセンブルすることができ、また、おそらく、４塩基の突出をいずれの温度でライゲーションするよりも速くアセンブルすることができる。ライゲーションの一部の実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。

ライゲーションを使用して、少なくとも２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、またはそれよりも多くの核酸をアセンブルすることができる。ライゲーションインキュベーション時間は、最大で３０秒間、１分間、２分間、５分間、１０分間、２０分間、３０分間、１時間、またはそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善することができる。

ライゲーションには５’リン酸化末端を有する核酸が必要な場合がある。５’リン酸化末端を有さない核酸成分は、Ｔ４ポリヌクレオチドキナーゼ（またはＴ４ＰＮＫ）などのポリヌクレオチドキナーゼとの反応でリン酸化することができる。ＡＴＰ、マグネシウムイオン、またはＤＴＴなどの他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏３７度で３０分間行うことができる。ポリヌクレオチドキナーゼ反応温度は、少なくとも摂氏４度、１０度、２０度、２０度、３０度、４０度、５０度、または６０度であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、またはそれよりも長い時間であり得る。あるいは、核酸成分は、改変された５’リン酸化を用いて合成的に（酵素的なものとは対照的に）設計し、製造することができる。それらの５’末端にアセンブルされる核酸のみにリン酸化が必要になり得る。例えば、ＴＤＬにおける鋳型は、アセンブルされるものではないので、リン酸化されていなくてよい。

ライゲーション効率を改善するために、添加剤をライゲーション反応に含めることができる。例えば、ジメチルスルホキシド（ＤＭＳＯ）、ポリエチレングリコール（ＰＥＧ）、１，２－プロパンジオール（１，２－Ｐｒｄ）、グリセロール、Ｔｗｅｅｎ（登録商標）－２０またはこれらの組合せの添加。ＰＥＧ６０００が特に有効なライゲーション増強剤であり得る。ＰＥＧ６０００は、クラウディング剤として作用することによってライゲーション効率を上昇させ得る。例えば、ＰＥＧ６０００は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分をより近づけ得る。添加剤含量（重量／体積）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のリガーゼをライゲーションのために使用することができる。リガーゼは、天然に存在するものであっても合成されたものであってもよい。リガーゼの例としては、Ｔ４ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、９^ｏＮ（商標）ＤＮＡリガーゼ、Ｅ．ｃｏｌｉＤＮＡリガーゼ、およびＳｐｌｉｎｔＲＤＮＡリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定かつ最適に機能し得る。例えば、ＴａｑＤＮＡリガーゼは熱安定性であり、Ｔ４ＤＮＡリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる性質を有する。例えば、Ｔ４ＤＮＡリガーゼは平滑末端化されたｄｓＤＮＡをライゲーションすることができるが、Ｔ７ＤＮＡリガーゼは平滑末端化されたｄｓＤＮＡをライゲーションすることができない。

ライゲーションを使用して、シークエンシングアダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、シークエンシングアダプターを非対称にライゲーションすることができる。例えば、フォワードシークエンシングアダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバースシークエンシングアダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる（例えば、Ａ尾部など）。

ライゲーションは、熱失活（例えば、摂氏６５度で少なくとも２０分間のインキュベーション）、変性剤の添加、またはＥＤＴＡなどのキレート剤の添加によって阻害され得る。

Ｃ．制限酵素消化
制限酵素消化は、制限エンドヌクレアーゼ（または制限酵素）が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を切断する（または消化する）反応である。Ｉ型、ＩＩ型、ＩＩＩ型、またはＩＶ型制限酵素を制限酵素消化のために使用することができる。ＩＩ型制限酵素が核酸消化のための最も効率的な制限酵素であり得る。ＩＩ型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を切断することができる。前記制限酵素（およびそれらの制限部位）の例としては、ＡａｔＩＩ（ＧＡＣＧＴＣ）、ＡｆｅＩ（ＡＧＣＧＣＴ）、ＡｐａＩ（ＧＧＧＣＣＣ）、ＤｐｎＩ（ＧＡＴＣ）、ＥｃｏＲＩ（ＧＡＡＴＴＣ）、ＮｇｅＩ（ＧＣＴＡＧＣ）、およびさらに多くが挙げられる。ＤｐｎＩおよびＡｆｅＩなどのいくつかの制限酵素は、それらの制限部位を中央で切断することができ、したがって、平滑末端化されたｄｓＤＮＡ産物が残される。ＥｃｏＲＩおよびＡａｔＩＩなどの他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって、付着末端（または互い違いの末端）を有するｄｓＤＮＡ産物が残される。いくつかの制限酵素は、不連続の制限部位を標的化し得る。例えば、制限酵素ＡｌｗＮＩは、制限部位ＣＡＧＮＮＮＣＴＧを認識し、ここで、Ｎは、Ａ、Ｔ、Ｃ、またはＧのいずれかである。制限部位は、長さ少なくとも２塩基、４塩基、６塩基、８塩基、１０塩基、またはそれよりも多くの塩基であり得る。

いくつかのＩＩ型制限酵素は、それらの制限部位の外側の核酸を切断する。この酵素は、ＩＩＳ型またはＩＩＧ型制限酵素に下位分類することができる。前記酵素は、パリンドロームでない制限部位を認識することができる。前記制限酵素の例としては、ＧＡＡＡＣを認識し、２塩基（同じ鎖）および６塩基（逆の鎖）さらに下流に互い違いの切断を創出するＢｂｓＩが挙げられる。別の例としては、ＧＧＴＣＴＣを認識し、１塩基（同じ鎖）および５塩基（逆の鎖）さらに下流に互い違いの切断を創出するＢｓａＩが挙げられる。前記制限酵素をゴールデンゲートアセンブリまたはモジュラークローニング（ＭｏＣｌｏ）のために使用することができる。ＢｃｇＩ（ＩＩＧ型制限酵素）などのいくつかの制限酵素は、その認識部位の両末端に互い違いの切断を創出し得る。制限酵素は、それらの認識部位から少なくとも１塩基、５塩基、１０塩基、１５塩基、２０塩基、またはそれよりも遠く離れた核酸を切断し得る。前記制限酵素は、それらの認識部位の外側で互い違いの切断を創出し得るので、得られる核酸突出の配列を任意に設計することができる。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内に互い違いの切断を創出する制限酵素とは対照的である。制限酵素消化によって創出される核酸突出は、長さ少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、またはそれよりも多くの塩基であり得る。制限酵素により核酸を切断する場合、得られる５’末端はホスフェートを含有する。

１つまたは複数の核酸配列を制限酵素消化反応に含めることができる。同様に、１つまたは複数の制限酵素を一緒に制限酵素消化反応に使用することができる。制限酵素消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、ＢＳＡ、Ｓ－アデノシル－Ｌ－メチオニン（ＳＡＭ）、またはこれらの組合せを含めた添加剤および補助因子を含有し得る。制限酵素消化反応は、摂氏３７度で１時間インキュベートすることができる。制限酵素消化反応は、少なくとも摂氏０度、１０度、２０度、３０度、４０度、５０度、または６０度の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限酵素消化反応は、最大で１分間、１０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長くインキュベートすることができる。より長いインキュベーション時間により、消化の増大をもたらすことができる。

Ｄ．核酸増幅
核酸増幅は、ポリメラーゼ連鎖反応、またはＰＣＲを用いて実行することができる。ＰＣＲでは、核酸の出発プール（鋳型プールまたは鋳型と称される）をポリメラーゼ、プライマー（短い核酸プローブ）、ヌクレオチド三リン酸（例えば、ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰ、およびその類似体またはバリアントなど）、ならびにベタイン、ＤＭＳＯ、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。一般には、ＰＣＲ反応には２種のプライマーが存在し、一方は標的鋳型の上の鎖のプライマー結合性部位に相補的であり、他方は第１の結合性部位よりも下流の、標的鋳型の下の鎖のプライマー結合性部位に相補的である。これらのプライマーがそれらの標的に結合する５’から３’への配向は、それらの間の核酸配列を首尾よく複製し、指数関数的に増幅するために、互いに向かい合っていなければならない。「ＰＣＲ」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。

一部の実施形態では、ＰＣＲは、３つの温度：融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびにハイブリダイゼーション産物および二次構造の形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏９５度を超える。一部の実施形態では、融解温度は、少なくとも摂氏９６度、９７度、９８度、９９度、１００度、１０１度、１０２度、１０３度、１０４度、または１０５度であり得る。他の実施形態では、融解温度は、最大で摂氏９５度、９４度、９３度、９２度、９１度、または９０度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも１秒間、２秒間、３秒間、４秒間、５秒間、またはそれよりも長く、例えば、３０秒間、１分間、２分間、または３分間にわたって適用することができる。複雑なまたは長い鋳型を用いたＰＣＲにはより長い最初の融解温度ステップが推奨される場合がある。

アニーリング温度は、プライマーとそれらの標的鋳型の間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏１０度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏２５度、３０度、５０度、５５度、６０度、６５度、または７０度であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含量が高いプライマーほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、または３０秒間にわたって、またはそれよりも長く適用することができる。アニーリングを確実にすることを補助するために、プライマー濃度を高くするまたは量を飽和させることができる。プライマー濃度は、５００ナノモル濃度（ｎＭ）であり得る。プライマー濃度は、最大で１ｎＭ、１０ｎＭ、１００ｎＭ、１０００ｎＭ、またはそれよりも高い濃度であり得る。

伸長温度は、１つまたは複数のポリメラーゼ酵素によって触媒されるプライマーの３’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。一部の実施形態では、伸長温度をポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏３０度、４０度、５０度、６０度、または７０度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも１秒間、５秒間、１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、４０秒間、５０秒間、または６０秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の１キロベース当たりおよそ１５～４５秒間であり得る。

ＰＣＲの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、２ステップ温度サイクルを３ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリングおよび伸長温度の例としては、摂氏６０度、６５度、または７２度が挙げられる。

一部の実施形態では、ＰＣＲを１つの温度サイクルで実施することができる。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、ＰＣＲを複数の温度サイクルで実施することができる。ＰＣＲが効率的であれば、各サイクルで標的核酸分子の数が２倍になり、それにより、元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。ＰＣＲの効率は変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、１００％より多いまたは少ない可能性がある。各ＰＣＲサイクルで変異したおよび組み換えられた核酸などの望ましくないアーチファクトが導入される可能性がある。この潜在的な害を縮小するために、忠実度が高く処理能力が高いポリメラーゼを使用することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。ＰＣＲは、最大で１、５、１０、１５、２０、２５、３０、３５、４０、４５、またはそれよりも多くのサイクルを伴い得る。

一部の実施形態では、複数の区別可能な標的核酸配列を１つのＰＣＲで一緒に増幅することができる。各標的配列が共通のプライマー結合性部位を有する場合、全ての核酸配列を、同じプライマーセットを用いて増幅することができる。あるいは、ＰＣＲは、各々が区別可能な核酸を標的化することが意図された複数のプライマーを含み得る。前記ＰＣＲは多重ＰＣＲと称することができる。ＰＣＲは、最大で１種、２種、３種、４種、５種、６種、７種、８種、９種、１０種、またはそれよりも多くの区別可能なプライマーを伴い得る。複数の区別可能な核酸標的を有するＰＣＲでは、各ＰＣＲサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだまたは非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ（例えば、高忠実度および配列頑強性を有する）および最適なＰＣＲ条件を使用することができる。アニーリングおよび伸長の温度および時間などの因子を最適化することができる。さらに、限られた数のＰＣＲサイクルを使用することができる。

ＰＣＲの一部の実施形態では、鋳型中のその標的化プライマー結合性部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を変異させることができる。ＰＣＲの一部の実施形態では、５’末端に余分の配列（突出として公知）を有するプライマーを使用して、その標的化された核酸に配列を付着させることができる。例えば、５’末端にシークエンシングアダプターを含有するプライマーを使用して、シークエンシングのための核酸ライブラリーを調製および／または増幅することができる。ある特定のシークエンシング技術のための十分な富化のために、シークエンシングアダプターを標的化するプライマーを使用して核酸ライブラリーを増幅することができる。

一部の実施形態では、プライマーが鋳型の一方の鎖のみ（両方の鎖ではなく）標的化する線形ＰＣＲ（または非対称ＰＣＲ）を使用する。線形ＰＣＲでは、各サイクルから複製される核酸はプライマーと相補的なものではなく、したがって、プライマーはその核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって、線形（指数関数的なものとは対照的な）増幅になる。線形ＰＣＲからの増幅は従来の（指数関数的な）ＰＣＲほど高速でない可能性があるが、最大収量はより大きい可能性がある。理論的に、線形ＰＣＲにおけるプライマー濃度は、従来のＰＣＲではそうなるような、サイクルの増加および収量の上昇での制限因子にはならない。指数関数的増幅後線形増幅ＰＣＲ（Ｌｉｎｅａｒ－Ａｆｔｅｒ－Ｔｈｅ－Ｅｘｐｏｎｅｎｔｉａｌ－ＰＣＲ）（またはＬＡＴＥ－ＰＣＲ）は、特に高収量を可能にし得る線形ＰＣＲの改変バージョンである。

核酸増幅の一部の実施形態では、融解、アニーリング、および伸長のプロセスを単一の温度で行うことができる。そのようなＰＣＲは、等温性ＰＣＲと称することができる。等温性ＰＣＲでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるまたは置き換えるために温度に依存しない方法を活用することができる。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法、およびニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で摂氏２０度、３０度、４０度、５０度、６０度、または７０度またはそれよりも高い温度で行うことができる。

一部の実施形態では、ＰＣＲは、試料中の核酸の量を定量化するための蛍光プローブまたは色素をさらに含み得る。例えば、色素を二本鎖核酸に挿入することができる。前記色素の例は、ＳＹＢＲＧｒｅｅｎである。蛍光プローブは、蛍光単位が付着した核酸配列であってもよい。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後伸長ポリメラーゼ単位から改変されると放出され得る。前記プローブの例としては、ＴａｑＭａｎプローブが挙げられる。そのようなプローブをＰＣＲおよび光学的測定ツール（励起および検出のための）と併せて使用して、試料中の核酸濃度を定量化することができる。このプロセスは、定量的ＰＣＲ（ｑＰＣＲ）またはリアルタイムＰＣＲ（ｒｔＰＣＲ）と称することができる。

一部の実施形態では、ＰＣＲを複数の鋳型分子のプールに対してではなく単一の分子鋳型に対して（単一分子ＰＣＲと称することができるプロセスで）実施することができる。例えば、エマルジョン－ＰＣＲ（ｅＰＣＲ）を使用して、単一の核酸分子を油エマルジョン中の水滴の中に封入することができる。水滴はＰＣＲ試薬も含み得、水滴を、ＰＣＲのための必要な温度サイクリングが可能な温度調節された環境で保持することができる。このように、複数の自己完結型ＰＣＲ反応を同時にハイスループットで行うことができる。界面活性剤を用いて油エマルジョンの安定性を改善することができる。マイクロ流体チャネルを通じて圧力を用いて液滴の動きを制御することができる。マイクロ流体デバイスは、液滴を創出するため、液滴を分割するため、液滴を合体させるため、材料を液滴中に注射するため、ならびに液滴をインキュベートするために使用することができる。油エマルジョン中の水滴のサイズは、少なくとも１ピコリットル（ｐＬ）、１０ｐＬ、１００ｐＬ、１ナノリットル（ｎＬ）、１０ｎＬ、１００ｎＬ、またはそれよりも大きいサイズであり得る。

一部の実施形態では、単一分子ＰＣＲを固相担体上で実施することができる。例としては、Ｉｌｌｕｍｉｎａ固相増幅法またはその変形が挙げられる。鋳型プールを固相担体に暴露させ、ここで、固相担体は、鋳型をある特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより、単一分子を担体上でハイスループット様式で増幅することができる。

ハイスループット単一分子ＰＣＲは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがＰＣＲ反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子ＰＣＲでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子ＰＣＲは、シークエンシングのための核酸を調製するために特に有用であり得る。単一分子ＰＣＲは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルＰＣＲ（またはｄＰＣＲ）では、区別可能な単一分子ＰＣＲ増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。

ＰＣＲの一部の実施形態では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プール中の全ての核酸に隣接するプライマー結合性部位に対するプライマー。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実施形態では、ＰＣＲを使用して、標的化された核酸のサブセットをプールから選択的に増幅することができる。例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの縁に共通のプライマー結合性部位を共有する（サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。一部の実施形態では、ＰＣＲを核酸アセンブリ反応（例えば、ライゲーションまたはＯＥＰＣＲなど）と組み合わせて、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸を部分的にアセンブルされたまたはミスアセンブルされた（または意図されたものではないもしくは望ましくない）副産物から選択的に増幅することができる。例えば、アセンブリは、核酸を各縁配列上のプライマー結合性部位と、完全にアセンブルされた核酸産物のみが増幅のための必須の２つのプライマー結合性部位を含有するようにアセンブルすることを伴い得る。前記例では、部分的にアセンブルされた産物は、プライマー結合性部位を有する縁配列のいずれも含有しないまたはその一方のみを含有する可能性があり、したがって、増幅されないはずである。同様に、ミスアセンブルされた（または意図されたものではないもしくは望ましくない）産物は、縁配列のいずれも含有しないもしくはその一方のみを含有する、または両方の縁配列を含有するが誤った配向であるもしくは誤った量の塩基によって分離されている。したがって、前記ミスアセンブルされた産物は、増幅されないかまたは増幅されて誤った長さの産物が創出されるはずである。後者の場合、誤った長さの増幅されたミスアセンブルされた産物を、正しい長さの増幅された完全にアセンブルされた産物から、アガロースゲルでのＤＮＡ電気泳動、その後のゲル抽出などの核酸サイズ選択方法によって分離することができる（化学的方法セクションＥを参照されたい）。

核酸増幅の効率を改善するために、ＰＣＲに添加剤を含めることができる。例えば、ベタイン、ジメチルスルホキシド（ＤＭＳＯ）、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン（ＢＳＡ）、またはこれらの組合せの添加。添加剤含量（重量／体積）は、少なくとも０％、１％、５％、１０％、２０％、またはそれよりも多くであり得る。

種々のポリメラーゼをＰＣＲのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、Ｐｆｕポリメラーゼ、Ｐｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、Ｓｓｏポリメラーゼ、Ｐｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｐｈｕｓｉｏｎポリメラーゼ、ＫＡＰＡポリメラーゼ、Ｑ５ポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’から５’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Ｐｈｕｓｉｏｎポリメラーゼのような一部のポリメラーゼは、核酸延長の間、より高い忠実度に寄与し得る３’から５’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間リーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Ｔａｑのような一部のポリメラーゼは、アデニン塩基を核酸配列の３’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度および処理能力を有し得、増幅された核酸収量のために最小の変異を有することが重要である場合、および区別可能な核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシークエンシング調製などのＰＣＲ適用により適切であり得る。

Ｅ．サイズ選択
サイズ選択技法を使用して特定のサイズの核酸を試料から選択することができる。一部の実施形態では、サイズ選択を、ゲル電気泳動またはクロマトグラフィーを使用して実施することができる。核酸の液体試料を固定相またはゲル（またはマトリックス）の一方の端子にロードすることができる。ゲルの負端子が、核酸試料がロードされる端子になり、ゲルの正端子が逆の端子になるようにゲルにわたって電圧差をかけることができる。核酸は負に荷電したリン酸骨格を有するので、ゲルを横切って正端子に移動する。核酸のサイズにより、核酸がゲルを通る相対的な移動スピードが決定される。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解される。電圧差は、１００Ｖまたは１２０Ｖであり得る。電圧差は、最大で５０Ｖ、１００Ｖ、１５０Ｖ、２００Ｖ、２５０Ｖ、またはそれよりも大きい差異であり得る。電圧差が大きいほど核酸移動のスピードおよびサイズ分解能が大きくなり得る。しかし、電圧差が大きいと、核酸またはゲルの損傷も生じ得る。より大きなサイズの核酸を分解するために、より大きな電圧差が推奨される場合がある。典型的な移動時間は１５分間から６０分間の間であり得る。移動時間は、最大で１０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きなサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、２００塩基の核酸を２５０塩基の核酸から分解するためには、１２０Ｖという電圧差および３０分という移動時間が十分であり得る。

ゲル、またはマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、一般には、ＴＡＥ（トリス－酢酸－ＥＤＴＡ）またはＴＢＥ（トリス－ホウ酸－ＥＤＴＡ）などの伝導性緩衝液中に分散したアガロースまたはポリアクリルアミドなどのポリマー物質を含む。ゲル中の物質（例えば、アガロースまたはアクリルアミド）の含量（重量／体積）は、最大で５％、１％、２％、３％、５％、１０％、１５％、２０％、２５％、またはそれよりも多くであり得る。含量が高いほど移動スピードが低下し得る。より小さな核酸を分解するために、より高い含量が好ましい場合がある。二本鎖ＤＮＡ（ｄｓＤＮＡ）を分解するためにはアガロースゲルがより良好であり得る。一本鎖ＤＮＡ（ｓｓＤＮＡ）を分解するためにはポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型およびサイズ、添加剤（例えば、色素、染料、変性溶液、またはローディング緩衝液）の適合性ならびに見込まれる下流の適用（例えば、ゲル抽出、次いでライゲーション、ＰＣＲ、またはシークエンシング）に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるボラート（酵素阻害剤）持ち越し汚染により下流の酵素反応が阻害される可能性があるので、ＴＡＥはＴＢＥほど良好な伝導体ではないが、同様にゲル抽出に関してはより良好であり得る。

ゲルは、ＳＤＳ（ドデシル硫酸ナトリウム）または尿素などの変性溶液をさらに含み得る。ＳＤＳは、例えば、タンパク質を変性させるためまたは核酸を潜在的に結合したタンパク質から分離するために使用することができる。尿素は、ＤＮＡの二次構造を変性させるために使用することができる。例えば、尿素により、ｄｓＤＮＡをｓｓＤＮＡに変換することができる、または尿素により、フォールディングされたｓｓＤＮＡ（例えば、ヘアピン）をフォールディングされていないｓｓＤＮＡに変換することができる。ｓｓＤＮＡを正確に分解するために尿素－ポリアクリルアミドゲル（ＴＢＥをさらに含む）を使用することができる。

試料をゲルに異なるフォーマットで組み入れることができる。一部の実施形態では、ゲルは、試料を手動でロードすることができるウェルを含有し得る。１つのゲルが複数の核酸試料を流すための複数のウェルを有し得る。他の実施形態では、ゲルを、核酸試料（複数可）を自動的にロードするマイクロ流体チャネルに付着させることができる。各ゲルはいくつかのマイクロ流体チャネルの下流にあってもよく、ゲル自体が別々のマイクロ流体チャネルを占有していてもよい。ゲルの寸法が核酸検出（または可視化）の感度に影響を及ぼし得る。例えば、薄いゲルまたはマイクロ流体チャネルの内側にあるゲル（例えば、バイオアナライザまたはテープステーション中のものなど）により、核酸検出の感度を改善することができる。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。

核酸サイズ参照のためにゲルにラダーをロードすることができる。ラダーは、核酸試料を比較することができる種々のサイズのマーカーを含有し得る。異なるラダーは異なるサイズ範囲および分解能を有し得る。例えば、５０塩基のラダーは、５０塩基、１００塩基、１５０塩基、２００塩基、２５０塩基、３００塩基、３５０塩基、４００塩基、４５０塩基、５００塩基、５５０塩基、および６００塩基のところにマーカーを有し得る。前記ラダーは、５０塩基から６００塩基のサイズ範囲内の核酸を検出し、選択するために有用であり得る。ラダーは、試料中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。

核酸試料およびラダーをローディング緩衝液と混合して、ゲル電気泳動（またはクロマトグラフィー）プロセスを容易にすることができる。ローディング緩衝液は、核酸の移動の追跡を補助するための色素およびマーカーを含有し得る。ローディング緩衝液は、核酸試料が試料ローディングウェル（ランニング緩衝液中に浸されていてもよい）の底部に沈むことを確実にするために、ランニング緩衝液（例えば、ＴＡＥまたはＴＢＥ）よりも密度の高い試薬（例えば、グリセロールなど）をさらに含み得る。ローディング緩衝液は、ＳＤＳまたは尿素などの変性剤をさらに含み得る。ローディング緩衝液は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝液は、核酸をヌクレアーゼから保護するためのＥＤＴＡを含有し得る。

一部の実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用することができる染料を含み得る。染料は、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方に特異的なものであってよい。異なる染料を異なるゲル物質に適合させることができる。いくつかの染料は、可視化のために光源光（または電磁波）からの励起を必要とする。光源光は、ＵＶ（紫外線）または青色光であり得る。一部の実施形態では、染料をゲルに電気泳動前に添加することができる。他の実施形態では、染料をゲルに電気泳動後に添加することができる。染料の例としては、臭化エチジウム（ＥｔＢｒ）、ＳＹＢＲＳａｆｅ、ＳＹＢＲＧｏｌｄ、銀染色、またはメチレンブルーが挙げられる。ある特定のサイズのｄｓＤＮＡを可視化するための信頼できる方法は、例えば、アガロースＴＡＥゲルをＳＹＢＲＳａｆｅまたはＥｔＢｒ染色と一緒に使用することである。ある特定のサイズのｓｓＤＮＡを可視化するための信頼できる方法は、例えば、尿素－ポリアクリルアミドＴＢＥゲルをメチレンブルーまたは銀染色と一緒に使用することである。

一部の実施形態では、ゲルを通る核酸の移動を、電気泳動に加えて他の方法によって駆動することができる。例えば、重力、遠心分離、真空、または圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解することができる。

刃または剃刀を使用してある特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出すことができる。切り出しがある特定のバンドで的確に行われること、および、切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が首尾よく排除されることを確実にするために、適当な光学的検出技法およびＤＮＡラダーを使用することができる。ゲルバンドを緩衝液と一緒にインキュベートしてゲルバンドを溶解させ、したがって、核酸を緩衝溶液中に放出させることができる。加熱または物理的撹拌により、溶解のスピードを上げることができる。あるいは、ゲルバンドを、緩衝液中で、ゲル溶解を必要とせずにＤＮＡの緩衝溶液中への拡散を可能にするために十分に長くインキュベートすることができる。次いで、緩衝液を残りの固相ゲルから、例えば、吸引または遠心分離によって分離することができる。次いで、核酸を溶液からフェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着などの標準の精製または緩衝液交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。

ゲル切り出しの代替として、ある特定のサイズの核酸を、ゲルから流出させることによってゲルから分離することができる。移動している核酸は、ゲルに埋め込まれたかまたはゲルの最後にあるたらい（またはウェル）を通過し得る。移動プロセスについて時間を計るまたは光学的にモニタリングし、したがって、ある特定のサイズの核酸群がたらいに入ったら、試料をたらいから収集することができる。収集は、例えば吸引によって行うことができる。次いで、核酸を、収集された溶液からフェノール－クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および／またはシリカ膜吸着などの標準の精製または緩衝液交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。

核酸サイズ選択のための他の方法としては、質量分光測定または膜に基づく濾過を挙げることができる。膜に基づく濾過の一部の実施形態では、核酸を、ｄｓＤＮＡ、ｓｓＤＮＡ、またはその両方のいずれかに優先的に結合し得る膜（例えば、シリカ膜）を通過させる。膜は、少なくともある特定のサイズの核酸を優先的に捕捉するように設計することができる。例えば、膜を、２０塩基未満、３０塩基未満、４０塩基未満、５０塩基未満、７０塩基未満、９０塩基未満、またはそれよりも多くの塩基未満の核酸を濾過して取り除くように設計することができる。前記膜に基づくサイズ選択技法は、ゲル電気泳動またはクロマトグラフィーほどストリンジェントでない可能性がある。

Ｆ．核酸捕捉
親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにすることができる。インキュベーション温度は、プローブの融解温度を摂氏５度下回る温度まで、１０度下回る温度まで、１５度下回る温度まで、２０度下回る温度まで、２５度下回る温度まで、またはそれよりも大きく下回るまであってよい。ハイブリダイズした標的を、親和性タグに特異的に結合する固相担体に捕捉することができる。固相担体は、膜、ウェル、カラム、またはビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸を全て標的から除去することができる。洗浄は、洗浄の間の標的配列の安定な固定化を容易にするためにプローブの融解温度を下回る温度で行うことができる。洗浄温度は、プローブの融解温度を摂氏５度下回る温度まで、１０度下回る温度まで、１５度下回る温度まで、２０度下回る温度まで、２５度下回る温度まで、またはそれよりも大きく下回る温度までであってよい。最終的な溶出ステップにより、核酸標的を固相担体から、ならびに親和性タグ付きプローブから回収することができる。溶出ステップは、核酸標的の溶出緩衝液中への放出を容易にするためにプローブの融解温度を上回る温度で行うことができる。溶出温度は、プローブの融解温度を摂氏５度上回る温度まで、１０度上回る温度まで、１５度上回る温度まで、２０度上回る温度まで、２５度上回る温度まで、またはそれよりも大きく上回る温度までであってよい。

一部の実施形態では、ビオチンを、固相担体上のストレプトアビジンによって固定化される親和性タグとして使用することができる。ビオチン化オリゴを、核酸捕捉プローブとして使用するために設計し、製造することができる。オリゴの５’末端または３’末端をビオチン化することができる。オリゴの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン担体でのより強力な捕捉をもたらすことができる。オリゴの３’末端のビオチンにより、ＰＣＲの間にオリゴが伸長するのを遮断することができる。ビオチンタグは、標準のビオチンのバリアントであってよい。例えば、ビオチンバリアントは、ビオチン－ＴＥＧ（トリエチレングリコール）、二重ビオチン、ＰＣビオチン、デスチオビオチン－ＴＥＧ、およびアジ化ビオチンであり得る。二重ビオチンにより、ビオチン－ストレプトアビジン親和性を増大させることができる。ビオチン－ＴＥＧは、ＴＥＧリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えば、その標的とのハイブリダイゼーションに干渉するのを防止することができる。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。

ビオチン化核酸プローブは、その標的にいかによくハイブリダイズすることができるかを考慮して設計することができる。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズし得る。より長い核酸プローブ、ならびにＧＣ含量がより高いプローブは、融解温度が上昇するので、より強力にハイブリダイズし得る。核酸プローブは、少なくとも５塩基、１０塩基、１５塩基、２０塩基、３０塩基、４０塩基、５０塩基、または１００塩基、またはそれよりも多くの塩基の長さを有し得る。核酸プローブは、０％から１００％の間のいずれかのＧＣ含量を有し得る。プローブの融解温度がストレプトアビジン担体の温度許容度を超えないことを確実にするために注意を払うことができる。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体、およびヘテロ二量体などの阻害性二次構造が回避されるように設計することができる。プローブ融解温度とオフターゲットの結合の間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さおよびＧＣ含量が存在し得る。合成核酸ライブラリーは、その核酸が効率的なプローブ結合性部位を含むように設計することができる。

固相ストレプトアビジン担体は磁気ビーズであってよい。磁気ビーズを、磁気ストリップまたはプレートを使用して固定化することができる。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップまたはプレートを容器から取り出して磁気ビーズを容器壁から溶液中に放出させることができる。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径１マイクロメートル（μｍ）から３マイクロメートル（μｍ）の間のいずれかであってよい。ビーズは、最大で１マイクロメートル、２マイクロメートル、３マイクロメートル、４マイクロメートル、５マイクロメートル、１０マイクロメートル、１５マイクロメートル、２０マイクロメートル、または２０マイクロメートルを超える直径を有し得る。ビーズ表面は疎水性であっても親水性であってもよい。ビーズをブロッキングタンパク質、例えば、ＢＳＡでコーティングすることができる。使用前に、ビーズが核酸に非特異的に結合するのを防止するために、ビーズを洗浄するまたはブロッキング溶液などの添加剤で前処理することができる。

ビオチン化プローブを磁性ストレプトアビジンビーズとカップリングした後に核酸試料プールと一緒にインキュベートすることができる。このプロセスは、直接捕捉と称することができる。あるいは、ビオチン化プローブを核酸試料プールと一緒にインキュベートした後に磁性ストレプトアビジンビーズを添加することができる。このプロセスは、間接的な捕捉と称することができる。間接的な捕捉方法により、標的の収量を改善することができる。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくすることができる。

核酸プローブと核酸試料の最適なインキュベーションは、プローブの融解温度を摂氏１～１０度またはそれよりも大きく下回る温度で行うことができる。インキュベーション温度は、最大で摂氏５度、１０度、２０度、３０度、４０度、５０度、６０度、７０度、８０度、またはそれよりも高い温度であり得る。推奨されるインキュベーション時間は１時間であり得る。インキュベーション時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。インキュベーション時間が長いほど良好な捕捉効率を導くことができる。ビオチン－ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに１０分間のインキュベーションを行うことができる。この追加的な時間は、最大で１分間、５分間、１０分間、２０分間、３０分間、６０分間、９０分間、１２０分間、またはそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオンなどの添加剤を伴う緩衝化溶液中で行うことができる。

核酸プールが一本鎖核酸である場合（二本鎖とは対照的に）、プローブとその標的のハイブリダイゼーションを改善することができる。ｓｓＤＮＡプールをｄｓＤＮＡプールから調製することには、一般にプール中の全ての核酸配列の縁に結合する１つのプライマーを用いて線形ＰＣＲを実施することが必要になり得る。核酸プールが合成により創出またはアセンブルされたものである場合、この共通のプライマー結合性部位を合成設計に含めることができる。線形ＰＣＲの産物はｓｓＤＮＡになる。核酸捕捉のためのより多くの出発ｓｓＤＮＡ鋳型をより多くの線形ＰＣＲのサイクルで生成することができる。ＰＣＲに関しては化学的方法セクションＤを参照されたい。

核酸プローブがそれらの標的とハイブリダイズし、磁性ストレプトアビジンビーズとカップリングした後、ビーズを磁石によって固定化し、いくつかのラウンドの洗浄を行うことができる。非標的核酸を除去するためには３～５回の洗浄で十分であり得るが、それよりも多いまたは少ないラウンドの洗浄を使用することができる。増やした洗浄各々により、標的化されていない核酸をさらに減少させることができるが、標的核酸の収量も低下し得る。洗浄ステップの間の標的核酸とプローブの適当なハイブリダイゼーションを容易にするために、低インキュベーション温度を使用することができる。摂氏６０度、５０度、４０度、３０度、２０度、１０度、または５度またはそれよりも低いという低さの温度を使用することができる。洗浄緩衝液は、ナトリウムイオンを伴うトリス緩衝化溶液を含み得る。

ハイブリダイズした標的の磁気ビーズ－カップリングしたプローブからの最適な溶出を、プローブの融解温度と等しいまたはそれよりも高い温度で行うことができる。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で摂氏３０度、４０度、５０度、６０度、７０度、８０度、または９０度、またはそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で１分間、２分間、５分間、１０分間、３０分間、６０分間またはそれよりも長い時間であり得る。典型的なインキュベーション時間はおよそ５分間であり得るが、より長いインキュベーション時間により、収量を改善することができる。溶出緩衝液は、ＥＤＴＡなどの添加剤を伴う水またはトリス緩衝化溶液であってよい。

区別可能な部位のセットのうちの少なくとも１つ、または複数を含有する標的配列の核酸捕捉を、それらの部位の各々に対して複数の区別可能なプローブを用いて１つの反応で実施することができる。区別可能な部位のセットのあらゆるメンバーを含有する標的配列の核酸捕捉を、その特定の部位に対するプローブを使用して区別可能な部位各々に対して１つの反応である一連の捕捉反応で実施することができる。一連の捕捉反応後の標的の収量は低い可能性があるが、捕捉された標的をその後ＰＣＲで増幅することができる。核酸ライブラリーが合成により設計されたものである場合、標的は、ＰＣＲのために共通のプライマー結合性部位を有するように設計することができる。

一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリ反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた（または意図されたものではないもしくは望ましくない）副産物を濾過して取り除くために使用することができる。例えば、アセンブリには、各縁配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の２つの捕捉反応を通るのに必要な必須の２つのプローブ結合性部位を含有するようにアセンブルすることを含み得る。前記例では、部分的にアセンブルされた産物は、プローブ部位のいずれも含有しないまたは一方のみを含有する可能性があり、したがって、最終的に捕捉されないはずである。同様に、ミスアセンブルされた（または意図されたものではないもしくは望ましくない）産物は、縁配列のいずれも含有しないまたはその一方のみを含有する可能性がある。したがって、前記ミスアセンブルされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合性部位を含めることができる。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全にアセンブルされた産物（各成分を含有する）のみをアセンブリ反応のあらゆる副産物から単離することができる。その後のＰＣＲにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善することができる。

一部の実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する（サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。

Ｇ．凍結乾燥
凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物（例えば、活性酵素）を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。

Ｈ．ＤＮＡ設計
合成ライブラリー（例えば、識別子ライブラリー）を構築するための核酸の配列（例えば、成分）は、合成、シークエンシング、およびアセンブリの複雑化が回避されるように設計することができる。さらに、当該配列は、合成ライブラリーの構築費用が低減するように、かつ、合成ライブラリーを保管することができる寿命が改善されるように設計することができる。

核酸は、合成するのが難しい場合がある長いホモポリマーの列（または繰り返された塩基配列）が回避されるように設計することができる。核酸は、２を超える、３を超える、４を超える、５を超える、６を超える、７を超えるまたはそれよりも長いホモポリマーの長さが回避されるように設計することができる。さらに、核酸は、それらの合成プロセスを阻害する可能性があるヘアピンループなどの二次構造の形成が回避されるように設計することができる。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリーを構築するための核酸は、短く設計することができる。核酸が長いほど合成が難しく、費用がかかる可能性がある。核酸が長いほど、合成の間の変異の機会も増大する。核酸（例えば、成分）は、最大で５塩基、１０塩基、１５塩基、２０塩基、２５塩基、３０塩基、４０塩基、５０塩基、６０塩基またはそれよりも多くの塩基であり得る。

アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計することができる。それぞれＯＥＰＣＲおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するより多くの情報については付録ＡおよびＢを参照されたい。効率的なアセンブリ反応には、一般には、隣接成分間のハイブリダイゼーションが伴う。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計することができる。ロックド核酸（ＬＮＡ）などの核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化することができる。これらの修飾核酸を、例えば、ステープル鎖ライゲーションにおけるステープルとして、または付着鎖ライゲーションにおける付着末端として使用することができる。合成核酸ライブラリー（または識別子ライブラリー）を構築するために使用することができる他の修飾塩基としては、２，６－ジアミノプリン、５－ブロモｄＵ、デオキシウリジン、反転ｄＴ、反転ジデオキシ－Ｔ、ジデオキシ－Ｃ、５－メチルｄＣ、デオキシイノシン、ＳｕｐｅｒＴ、ＳｕｐｅｒＧ、または５－ニトロインドールが挙げられる。核酸は、１つまたは複数の同じまたは異なる修飾塩基を含有し得る。前記修飾塩基のいくつかは、より高い融解温度を有し、したがって、アセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体（例えば、５－メチルｄＣおよび２，６－ジアミノプリン）である。前記修飾塩基のいくつかは、全ての天然の塩基に結合することができ、したがって、望ましい結合性部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基（例えば、５－ニトロインドール）である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマーおよびプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするので、プライマー（例えば、ＰＣＲ用）およびプローブ（例えば、核酸捕捉用）に有用であり得る。それぞれ核酸増幅（またはＰＣＲ）および核酸捕捉についてのさらなる核酸設計考慮事項に関しては化学的方法セクションＤおよびＦを参照されたい。

核酸は、シークエンシングが容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびＧＣ含量が高すぎるまたは低すぎる配列などの典型的なシークエンシング複雑化が回避されるように設計することができる。ある特定のシークエンサーまたはシークエンシング方法は、エラープローンであり得る。合成ライブラリー（例えば、識別子ライブラリー）を構成する核酸配列（または成分）は、互いからのある特定のハミング距離で設計することができる。このように、シークエンシングにおいて塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸（または成分）にマッピングし戻すことができる。核酸配列は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１１塩基、１２塩基、１３塩基、１４塩基、１５塩基またはそれよりも多くの塩基の変異というハミング距離で設計することができる。ハミング距離の代替距離測定基準を使用して、設計される核酸間の最小の必要距離を規定することもできる。

いくつかのシークエンシング方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記シークエンシング計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーにアセンブルすることが伴う。しかし、合成核酸ライブラリー（例えば、識別子ライブラリー）が特定の計器または方法でシークエンシングされることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー（例えば、識別子ライブラリー）を含む核酸（例えば、成分）中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上にシークエンシングアダプターをアセンブルすることができる。

核酸は、ＤＮＡ損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、ＵＶＢ（紫外線－Ｂ）光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシークエンシングおよびＰＣＲが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがＵＶＢに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン（すなわち、ＴＴ）または隣接するシトシン（すなわち、ＣＣ）が回避されるように設計することが有益であり得る。

化学的方法セクションに含有される情報は全て、上述の技術、方法、プロトコール、システム、およびプロセスを支持し、可能にするものとする。

（実施例１：ＤＮＡ分子における単一のポエム（ｐｏｅｍ）の符号化、書き込みおよび読み取り）
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長ＰＣＲを用いて実装される産生スキームを使用して識別子を構築するために、データを、ピペットを用いて９６種の成分の層２つからのＤＮＡ成分と一緒に混合して手動で符号化する。第１の層、Ｘは、９６種の総ＤＮＡ成分を含む。第２の層、Ｙも９６種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの６１ビットの連続した（隣接する分離した）列の全てが正確に１７のビット値１で９６ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを９６×９６表にハッシュして、参照マップを形成する。

図１８Ａの中央のパネルは、ポエムが複数の識別子に符号化された９６×９６表の２次元の参照マップを示す。黒い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データを、９６種の成分の層２つを使用して識別子に符号化する。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にする。識別子ライブラリーのシークエンシングを行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１８Ａの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位１７の最も豊富な（Ｘ，Ｙ）アセンブリとして取る（均一の重み符号化により、９６ビットの連続した列各々が正確に１７の「１」値、したがって、１７の対応する識別子を有し得ることが保証される）。

（実施例２：６２８２４ビットのテキストファイルの符号化）
符号化されるデータは、総計６２８２４ビットになる３つのポエムのテキストファイルである。オーバーラップ伸長ＰＣＲを用いて実装される産生スキームを使用して識別子を構築するために、データを、ＬａｂｃｙｔｅＥｃｈｏ（登録商標）リキッドハンドラーを使用して３８４種の成分の層２つからのＤＮＡ成分と一緒に混合して符号化する。第１の層、Ｘは３８４種の総ＤＮＡ成分を含む。第２の層、Ｙも３８４種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、重み（ビット値「１」の数）が減少し、チェックサムが含まれるように再符号化する。チェックサムを、１９２ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ１０，１００であり、これは、構築される識別子の数に対応する。次いで、データを３８４×３８４表にハッシュして参照マップを形成することができる。

図１８Ｂの中央のパネルは、テキストファイルが複数の識別子に符号化された３８４×３８４表の２次元の参照マップを示す。各座標（Ｘ，Ｙ）は、Ｘ＋（Ｙ－１）＊１９２位のデータのビットに対応する。黒い点はビット値「１」に対応し、白い点はビット値「０」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック（例えば、データを復号するための辞書）である。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にすることができる。識別子ライブラリーのシークエンシングを行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１８Ｂの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Ｓの最も豊富な（Ｘ，Ｙ）アセンブリとして取り、ここで、各行のＳはチェックサム値であり得る。

（実施例３：１５片、付着末端ライゲーションにおける５’突出と３’突出、および４塩基突出と６塩基突出の比較）
表１は、以下のラベルの１５ＤＮＡ成分の４つの異なるセットの測定されたライゲーション効率を提示する：６／２４／６３’、６／２４／６５’、４／２４／４３’、および４／２４／４５’。ラベルの最初の３つの数字、Ｘ／Ｙ／Ｚは、一方の末端にＸ塩基の突出を有し、中間にＹ塩基の２重鎖（またはバーコード）領域を有し、他方の末端にＺ塩基の突出を有する、セット中の各ＤＮＡ成分の形態を示す。各ラベルの最後の数字（アポストロフィーの前の数字）は、セット中の突出が５’であるか３’であるかを示す。ライゲーションを、３７℃で、０．０６７μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ（ＣＥＵ＝粘着末端単位）、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準のＴ４リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は２．５分であった。効率を、可能なセット各々について、完全にライゲーションした産物を表す全長対照（ＦＬＣ）と比べたｑＰＣＲを用いて測定した。

表１．測定されたライゲーション効率

図２２は、４つの異なる実験的ライゲーション反応の各々のうちの１つからのｑＰＣＲ産物の、およそ４５０塩基の長さを有するそれらのそれぞれのＦＬＣと並べたゲル電気泳動画像を示す。表１と一緒に、結果から、６塩基の突出では、４塩基の突出よりも高い全長産物のライゲーション効率および特異性が導かれたことが示される。５’突出の使用と３’突出の使用に関しては効率に明白なパターンは観察されない。

図２３Ａおよび２３Ｂは、２分間、２．５分間、３分間、および１４４０分間にわたってライゲーションした６／２４／６３’ＤＮＡ成分セット（図２３Ｂ）および６／２４／６５’ＤＮＡ成分セット（図２３Ａ）のライゲーション効率についてのデータを示す。図２３Ａおよび２３Ｂは、各セットについての、ＦＬＣと比べた、ｑＰＣＲによって測定されたライゲーション効率を示す。図２３Ｃは、ｑＰＣＲ産物の、およそ４５０塩基の長さを有するそれらのＦＬＣと並べたゲル電気泳動画像を示す。同様に結果から、３’突出セットが５’突出セットよりも高い特異性を有し得ることが示される。

（実施例４：突出の長さ、突出の融解温度、および突出のＧＣ含量の付着末端ライゲーション効率に対する影響の試験）
表２は、異なる長さの突出（短い＝６塩基、中間＝８塩基、および長い＝１０塩基）、異なるＧＣ含量（低い、中間、および高い）、ならびに異なる融解温度（Ｔｍ）を有するように設計された、異なる付着末端を有する（３’突出を有する）ＤＮＡ成分対９種の特徴を提示する。突出自体が表のセルにそれらの予測される摂氏温度単位の融解温度と一緒に示されている。ライゲーションを、各ＤＮＡ成分対に対して、３７℃で、０．０６７μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準のＴ４リガーゼ緩衝液部分を用いて実施した。ライゲーションを２．５分間および６０分間実施した。効率を、各対について、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。

表２．異なる付着末端を有する（３’突出を有する）ＤＮＡ成分対の特徴

図２４Ａおよび２４Ｂは、突出の長さによって群分けされたこれらのＤＮＡ成分対についてのライゲーション効率を示す。図２４Ａは２．５分のライゲーション効率を示し、図２４Ｂは２．５分時点と６０分時点の間の効率の比を示す。結果から、ライゲーション率が、より短い突出を使用した場合により高くなり得ることが示される。

図２５Ａおよび２５Ｂは、ＧＣ含量によって群分けされたこれらのＤＮＡ成分対についてのライゲーション効率を示す。図２５Ａは２．５分のライゲーション効率を示し、図２５Ｂは２．５分時点と６０分時点の間の効率の比を示す。結果から、異なるＧＣ含量（または融解温度）の突出に関してライゲーション率に大きな差異はない可能性があるが、より高いＧＣ含量（または融解温度）の突出を使用した場合にライゲーション率がわずかに高い可能性があることが示される。融解温度はＧＣ含量と相関する。

（実施例５：温度のライゲーション効率に対する影響の試験）
図２６は、種々の温度でＴ４リガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬまたは２０ＣＥＵ／μＬのＴ４リガーゼ、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準のＴ４リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、温度が高いほど、およびリガーゼ濃度が高いほど、Ｔ４リガーゼを用いたライゲーション効率が上昇することが示される。

図２７は、種々の温度でＴ４リガーゼを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４リガーゼ（２０μＬ、したがって、総計１００ＣＥＵ）、７．５％ｗ／ｖのＰＥＧ６０００、２０％ｖ／ｖのグリセロール、および標準のＴ４リガーゼ緩衝液部分を用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、温度が高いほど、およびリガーゼ濃度が高いほど、Ｔ４リガーゼを用いたライゲーション効率が上昇することが示される。結果から、図２６において観察されるものと同様の傾向が示される。

（実施例６：リガーゼ型のライゲーション効率に対する影響の試験）
図２８Ａおよび２８Ｂは、Ｔ４ＤＮＡリガーゼと比較した、Ｔ７ＤＮＡリガーゼ（図２８Ａ）およびＴ３ＤＮＡリガーゼ（図２８Ｂ）のライゲーション効率についてのデータを示す。ライゲーションを、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種に対して、２５℃で、０．１２５μＭの各ＤＮＡ成分を用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。リガーゼ濃度を１０ＣＥＵ／μＬから１００ＣＥＵ／μＬの間で変動させた。各プロット内で、効率を、Ｔ４ＤＮＡリガーゼを５ＣＥＵ／μＬで用いて実施した同じライゲーションと比較する。結果から、およそ１００ＣＥＵ／μＬの濃度のＴ３リガーゼが室温でのライゲーションに最適なリガーゼであり得ることが示される。

図２９は、種々の濃度でのＥ．ｃｏｌｉＤＮＡリガーゼのライゲーション効率についてのデータを示す。ライゲーションを、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種に対して、２５℃で、０．１２５μＭの各ＤＮＡ成分を用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。リガーゼ濃度を１ＣＥＵ／μＬから１００ＣＥＵ／μＬの間で変動させた。

表３は、４種の異なる型のリガーゼについての平均ライゲーション効率測定値を提示する。ライゲーションを、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分１５種に対して、２５℃で、０．２６８μＭの各ＤＮＡ成分を用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。Ｔ４は２０ＣＥＵ／μＬであり、Ｔ３およびＴ７は各々１５０ＣＥＵ／μＬであった。

表３．平均ライゲーション効率測定値

図３０Ａおよび３０Ｂは、Ｔ７ＤＮＡリガーゼ（図３０Ａ）またはＴ３ＤＮＡリガーゼ（図３０Ｂ）を種々の温度で用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分および１５０ＣＥＵ／μＬのＴ７またはＴ３ＤＮＡリガーゼを用いて実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、Ｔ３およびＴ７が２０℃から４０℃の間で効率を失う可能性があり、Ｔ３の方が速く降下するが、より低い温度（例えば、１５～２０℃）での効率は高いことが示される。これにより、より高い温度でのインキュベーション（例えば、３７℃）では、Ｔ４ＤＮＡリガーゼ（例えば、図２６および図２７を参照されたい）がＴ３ＤＮＡリガーゼおよびＴ７ＤＮＡリガーゼよりも良好に機能することが示される。

（実施例７：ポリエチレングリコール（ＰＥＧ）のライゲーション効率に対する影響の試験）
図３１Ａ～Ｃは、種々の量（重量／体積パーセントの単位で）のＰＥＧ８０００（図３１Ａ）、ＰＥＧ６０００（図３１Ｂ）、およびＰＥＧ４００（図３１Ｃ）と一緒にライゲーションした、付着末端を有する（１０塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分および５ＣＥＵ／μＬのＴ４リガーゼを用いて２５℃で実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、ＰＥＧを特定の量までライゲーションに添加することにより効率を改善することができるが、ある特定の量を超えると効率が阻害されることが示される。効率を改善するためにライゲーション反応に添加することができるＰＥＧの量は、ＰＥＧの分子量に依存する。

図３２は、ＰＥＧ４００またはＰＥＧ６０００のいずれかの、低い重量／体積濃度での存在下で一緒にライゲーションした付着末端を有する（１０塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分、５ＣＥＵ／μＬのＴ４ＤＮＡリガーゼ、２０％ｖ／ｖのグリセロール、および標準のＴ４リガーゼ緩衝液部分を用いて３７℃で実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、これらの条件下で、ＰＥＧ６０００を添加することにより、等価量（重量で）のＰＥＧ４００を添加するよりもライゲーション効率を改善することができることが示される。

（実施例８：ライゲーション非活性化方法の比較）
図３３は、緩衝液ＱＧまたはＥＤＴＡを使用してリガーゼを不活化することに関するデータを示す。ライゲーションを、４種の付着末端を有するＤＮＡ成分に対して実施した。緩衝液ＱＧは、Ｑｉａｇｅｎによって製造された緩衝液ＱＧまたは同様の成分（例えば、５．５Ｍのチオシアン酸グアニジン（ＧｕＳＣＮ）、２０ｍＭのＴｒｉｓＨＣｌ、ｐＨ６．６）を有する緩衝液を指す。対照群では、Ｔ４リガーゼを標準緩衝液条件下、室温、横軸に示されている所与の体積で使用した。実験群では、Ｔ４リガーゼ反応ミックスを示されている添加剤で処理した後、ＤＮＡ成分に添加して所与の体積の反応を作製した。ライゲーション時間は２．５分であった。垂直方向の軸は、各ライゲーションの全長産物に対するｑＰＣＲから得られたＣｔ結果を示す。Ｃｔは濃度についての２を底とする対数尺度を表すことに留意されたい。結果から、ＥＤＴＡまたは緩衝液ＱＧの使用によりリガーゼが非活性化し得ることが示される。ＥＤＴＡおよび緩衝液ＱＧで非活性化したリガーゼを用いたライゲーション群の結果は、リガーゼなし群と同様に見える。

（実施例９：ＤＮＡ複製に関する研究）
図３４は、Ｑ５、Ｐｈｕｓｉｏｎ、およびＴａｑＤＮＡポリメラーゼを使用した複製の線形性に関するデータを示す。横軸は理論的な標的ＤＮＡ濃度（ｎｇ／μＬ）を表し、垂直方向の軸は、標準物質と比べた、ｑＰＣＲを使用して測定された標的ＤＮＡ濃度（ｎｇ／μＬ）を表す。測定値はＰＣＲ反応の異なるサイクルで取得した。完全な対角線上のドットは、完全な線形性（理論的）を表す。他のドットは、異なるリガーゼからの実験データ点を表す。結果から、標準のＰＣＲ反応（リガーゼにかかわらず）が、１０ｎｇ／μＬまでまたはそれを超える標的で線形になり得ることが示される。本実施例では、使用して標的ＤＮＡは約４５０塩基であった。

（実施例１０：ＤＮＡを乾燥させるための異なる方法に関する研究）
図３５は、室温で４日間保管したＤＮＡ試料についてのデータを示す。異なる量の、長さ約４５０塩基のＤＮＡを含有するＤＮＡ試料を保管した（５０ｎｇ、５００ｎｇ、および５０００ｎｇ）。ＤＮＡ試料を異なる条件で保管した：湿潤または乾燥、および保存添加剤の有無（例えば、ＢＭは、バイオ安定化材料（ｂｉｏｓｔａｂｉｌｉｚｉｎｇｍａｔｅｒｉａｌ）を示す）。結果を、これらの４日間凍結水中で保管した長さ約４５０塩基のＤＮＡを含有する同じＤＮＡ試料と比較した。結果から、室温では最小のＤＮＡ分解が起こること、およびＢＭ（バイオ安定化材料）のような保存添加剤の使用が分解の低減に寄与し得ることが示される。ＤＮＡ保存添加剤が存在しない場合、乾燥プロセスによりＤＮＡ分解が導かれる可能性がある。

図３６は、室温で繰り返し乾燥させ再水分添加させたＤＮＡについてのデータを示す。保存添加剤（例えば、ＢＭはバイオ安定化材料を示す）を伴うＤＮＡおよび伴わないＤＮＡについての結果が示されている。結果から、保存添加剤を伴うおよび伴わないＤＮＡ試料の乾燥／再水分添加を、相当量のＤＮＡを失うことなく３～４回達成することができることが示される。

（実施例１１：ライゲーションのための６塩基突出の設計および試験）
表４は、コンピュータにより設計された３’突出３２種のセットを提示する。突出（およびそれらの逆相補物）を、長さ６塩基を有し、３塩基を超えるホモポリマーを有さず、互いとの間に３塩基未満のハミング距離を有さず、互いとの間に３塩基を超える等価の部分列を有さず、突出のいずれかの縁の部分列について互いから２塩基を超える等価の部分列を有さないように設計した。

表４．コンピュータにより設計された３’突出３２種のセット

表５は、コンピュータにより設計された３’突出３２種の別のセットを提示する。この６塩基の突出（およびそれらの逆相補物）のセットは、全体として表４のものほど厳密には制約されないが、表４のものと等価の制約を満たす１６種の突出のサブセットを含有するように設計した。２種の太字の配列は、組合せ実験の対照として、互いに逆相補物になるように設計した。

表５．コンピュータにより設計された３’突出３２種のセット

表４および表５の各突出およびそれらの逆相補物の付着末端ＤＮＡ配列を構築した。各表中の各突出（および逆相補物）の各配列は同じ近位２重鎖領域を有するが、その遠位末端において区別可能な３塩基の５’突出を用いて一意にバーコード化されたものであった。構築された付着末端配列のスキームについては図３７を参照されたい。合計で、各表について、逆相補物と共に、６４種の配列を構築した。それらの配列を等モル濃度でプールし、Ｔ４リガーゼを用いて３７℃、標準のリガーゼ緩衝液中でライゲーションした。ライゲーションを２．５分間実施した後、ＥＤＴＡを用いてクエンチした。ライゲーションされた配列をゲル抽出によって精製し、次いで、５’末端を埋め、クレノウポリメラーゼを使用してｄＡ尾部付加した。その後、シークエンシングアダプターを産物の末端とライゲーションし、ＩｌｌｕｍｉｎａｉＳｅｑでのシークエンシングのために増幅し、精製して調製した。可能なライゲーション産物各々の相対的なコピー数を、バーコードの可能な組合せ各々について配列読み取りの数を計数することによって推定した。突出の各セット（表４および表５）について合計６４×（６４＋１）／２＝２０８０種の可能な産物が存在し、そのうち６４種がそれらの正しい逆相補物パートナーとライゲーションした突出にそれぞれ対応した。

図３８は、表４（図３８Ａ）および表５（図３８Ｂ）の突出配列のセットのライゲーションからのデータを示す。各ヒートマップ中の各画素はその画素の行および列を表す突出によって形成されたライゲーション産物に対応する。画素のグレースケール（または「ヒート」）は、そのライゲーション産物の相対量を表す（２を底とする対数尺度）。各行および列は、表４（図３８Ａ）または表５（図３８Ｂ）のいずれかからの突出１～３２、そしてそれらの突出の逆相補物に対応する。結果から、各突出はその逆相補物と最も強力にライゲーションするが、複数の非特異的産物もライゲーションにおいて形成し得ることが示唆される。

これらのデータを使用して、３２種の突出の各セットからの突出のサブセットについてペナルティスコアを算出した。突出のサブセットについて、データセットにおいてサブセット中の可能な突出各々について形成されたオフターゲットの産物の相対量（正しい産物の量と比較した）を加えることによってペナルティスコアを算出した。

図３９は、表４および表５の突出のセット各々からの１５種の突出の２Ｍのサブセットからのペナルティスコアを示す。ペナルティスコアを使用して、１６種の成分ライゲーションに使用する高効率、高特異性の１５種の突出のセットを予測することができる。上位候補は最低ペナルティスコアで見いだすことができる。同様の解析を、Ｘ種の突出のサブセットを用いて行って、Ｘ＋１種の突出をライゲーションするための上位突出候補を見いだすことができる。この解析に基づいて、表６は、１６種のＤＮＡ成分とライゲーションするための推定上の高効率、高特異性の１５種の突出（表４のセットから取得したもの）のサブセットを提示する。同様に、表７は、１６種のＤＮＡ成分とライゲーションするための１５種の突出（表５のセットから取得したもの）の推定上のサブセットを提示する。
表６．推定上の高効率、高特異性の１５種の突出のサブセット
表７．推定上の１５種の突出のサブセット

図４０は、表７の最後の（陰影をつけた）行からの突出および印字ヘッド（ｐｒｉｎｔｈｅａｄ）からの分散を最適化することができるライゲーションミックスの特定の製剤を使用した１６種のＤＮＡ成分のライゲーション効率についてのデータを示す。ミックスは、グリセロールの形態の保湿剤、ＯｒａｎｇｅＧの形態の色素、およびのＮｉｐａｃｉｄｅの形態の殺生物剤を含有する。ライゲーションを２つのリガーゼ濃度－０．１Ｗｅｉｓｓ単位／μＬおよび０．２Ｗｅｉｓｓ単位／μＬで実施した。さらに、ライゲーションを、０．０６２５μＭの各ＤＮＡ成分、２２．５％ｖ／ｖのグリセロール、３．１％ｗ／ｖのＰＥＧ６０００、１．２５％ｗ／ｖのＯｒａｎｇｅＧ色素、０．１％ｗ／ｖのＮｉｐａｃｉｄｅ、および標準のＴ４リガーゼ緩衝液部分を用いて３７℃で実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。

（実施例１２：６０ｋｂのデジタル情報への符号化、複製、およびアクセス）
長さ６８，８００ビット（エラー保護後７３，４４０ビット）のデジタル化オーディオクリップ（「メッセージ」）を、３７２種のＤＮＡ成分の成分ライブラリーを使用し、８層産物スキームで符号化した（産物スキーム概要については図１６Ｂを参照されたい）。３種の成分の層が７つ（「基礎層」）および３５１種の成分の層（「多重層」）が１つ、したがって、７６７６３７種の可能な識別子が存在したが、符号化されたメッセージでは、組合せ空間からの１１９３５３種の識別子のみを使用した。ＬａｂｃｙｔｅＥｃｈｏ５５５ＡｃｃｅｓｓＳｙｓｔｅｍで書き込みを実施した。このプロセスを２回繰り返した。ＤＮＡ成分はコンピュータにより設計し、製造されたオリゴを二重にすることによって構築した。

書き込みプロセスを４相で行った：（１）コンピュータによる符号化、（２）ＤＮＡ成分コロケーション（ｃｏｌｌｏｃａｔｉｏｎ）、（３）ライゲーション、および（４）コンソリデーション。（１）コンピュータによる符号化の間、エラー補正したメッセージを長さ１３および重み３の連続したコードワードに符号化した。したがって、コードワードは１３種の辞書学的に順序づけられた識別子によって表され、そのうちの３種は存在することが意図されたものであり（「真の識別子」）、他の１０種は存在しないことが意図されたものであった（「偽の識別子」）。合計９１８１のコードワードが存在した。（２）ＤＮＡコロケーションでは、３７２種のＤＮＡ成分を（３８４ウェルプレートの）３４１の反応ウェル中、ＬａｂｃｙｔｅＥｃｈｏ５５５を使用して混合した。各反応は、ただ１つのコードワード（合計３種の真の識別子）が創出されることを意図した１つの反応以外は、２７の連続したコードワード（合計８１種の真の識別子）が創出されることを意図したものであった。反応を、基礎層の各々から１種のＤＮＡ成分、および多重層から複数の成分（各コードワードについて３種）が含有されるように設定した。さらに、完全に形成された識別子の各末端にライゲーションするためのシークエンシングアダプターを反応ウェルに添加した。（３）ライゲーションでは、Ｔ４リガーゼ反応ミックス（５ＣＥＵ／μＬのＴ４リガーゼおよび７．５％のＰＥＧ６０００を含有する）４μＬを各反応ウェルに添加し、３７℃で１時間インキュベートした。濃度を、各反応がおよそ４ｎＭの各層からの総ＤＮＡ成分を含有するように設定した。その後、（４）コンソリデーションでは、全ての反応およそ５０ｎＬを、ＥＤＴＡ溶液を伴う１つの容器中にコンソリデートして、リガーゼ活性を非活性化した。識別子のコンソリデートされたプール（識別子ライブラリー）を、シークエンシングのために、ＰＣＲを使用して増幅し、ゲル精製して全長識別子を抽出した。

図４１Ａ～Ｂは、メッセージを符号化する識別子ライブラリーのシークエンシングから回収されたデータを示す。図４１Ａは、符号化されたメッセージ（コンピュータによる符号化後）の３４１×３５１参照マップを示す。黒い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データを、「１」ビット値の位置に対応する識別子を構築することによってＤＮＡに書き込む（これは、識別子が辞書学的順序を有するので可能である）。図４１Ｂは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。各行の識別子は同じ反応で構築されたものである。最大のグレースケール（暗い）強度を各行内の識別子の平均コピー数に設定する。識別子は、１３種の識別子の連続した列（マップの行に沿って）において最も豊富な識別子の上位３つ以内に入る場合、真の識別子（ビット値「１」を表す識別子）と解釈することができる。他の識別子は全て偽の識別子（ビット値「０」を表す識別子）であると解釈される。この復号処理ステップをデータに適用することにより、識別子エラー（コードワード内で、偽の識別子が真の識別子よりも多くの読み取りを有する事象）ゼロおよび識別子抹消（上位３つの最も豊富な識別子を区別することができない事象）ゼロがもたらされる。したがって、復号されたメッセージは符号化されたメッセージと正確に一致する（図４１Ａ）。図４２は、符号化、書き込み、シークエンシング、および復号プロセス全体の２連の試行からのデータを示す。再度、メッセージは首尾よく書き込まれ、読み取られ、エラーまたは抹消はゼロであった。

図４３Ａ～Ｃは、メッセージを含有する元の識別子ライブラリーの複数のコピーを創出することからのデータを示す（図４１Ａ～Ｂから）。ライブラリーを１０００×希釈し、次いで、１０サイクルの、Ｐｈｕｓｉｏｎポリメラーゼおよびアダプター配列の外側の縁に結合するプライマー（ライブラリー中の全ての配列に共通する）を用いたＰＣＲで増幅した。１０サイクルのＰＣＲによりライブラリー約１０２４×がその元の濃度に増幅された。図４３Ａは、シークエンシングによって決定された、複製された識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール（暗い）強度を各行内の識別子の平均コピー数に設定する。識別子は、１３種の識別子の連続した列（マップの行に沿って）において最も豊富な識別子の上位３つ以内に入る場合、ビット値「１」を表すと解釈することができる。他の識別子は全て、ビット値「０」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロがもたらされる。識別子抹消が１つあり、これは、シークエンシングの試料サイズが小さいことによって説明することができる（表８参照）。これは全ての偽の識別子が読み取りゼロを有したが、真の識別子のうちの１つも読み取りゼロを有したコードワードである。図４３Ｂは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図４３Ｃは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーの複製の間に偏りはほとんどまたは全く生じない可能性があることが示される。

図４４Ａ～Ｃは、元のメッセージを含有する識別子ライブラリーの一部にアクセスすることからのデータを示す（図４１Ａ～Ｂから）。アクセス方法は、図１７Ｂに記載されている「ＡＮＤ」操作であった。識別子ライブラリーを約３２０００×希釈し、次いで、各縁層の特異的なＤＮＡ成分に結合するプライマーを用いたＰＣＲを使用して増幅し、したがって、ライブラリーのおよそ１／９にアクセスした（各層が可能な成分を３種有するので）。ＰＣＲを、Ｐｈｕｓｉｏｎポリメラーゼを用いて１５サイクルにわたって実施した。シークエンシングアダプターを得られたサブライブラリーの末端にライゲーションし、それをＩｌｌｕｍｉｎａｉＳｅｑでシークエンシングした。図４４Ａは、シークエンシングによって決定された、アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール（暗い）強度を各行内の識別子の平均コピー数に設定する。識別子は、１３種の識別子の連続した列（マップの行に沿って）において最も豊富な識別子の上位３つ以内に入る場合、ビット値「１」を表すと解釈することができる。他の識別子は全て、ビット値「０」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するデータセットがもたらされる（図４１Ａ）。図４４Ｂは、元のライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図４４Ｃは、元の識別子ライブラリーとアクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーアクセスの間に偏りはほとんどまたは全く生じない可能性があることが示される。

図４５Ａ～Ｃは、アクセスされた識別子ライブラリーの副次部分にさらにアクセスすることからのデータを示す（図４４Ａ～Ｃから）。元の識別子ライブラリーからのアクセス方法は、２つの入れ子状の「ＡＮＤ」操作であった（各「ＡＮＤ」は図１７Ｂに記載されている通りであった）。元の識別子ライブラリーを約３２０００×希釈し、次いで、各縁層の特異的なＤＮＡ成分に結合するプライマーを用いたＰＣＲを使用して増幅し、したがって、ライブラリーのおよそ１／９にアクセスした（各層が可能な成分を３種有するので）。得られたアクセスされた識別子ライブラリーを再度約３２０００×希釈し、次いで、各縁から１つ離れた、層の特異的なＤＮＡ成分に結合するプライマーを用いたＰＣＲを使用して増幅し、したがって、アクセスされたライブラリーのおよそ１／９（各層が可能な成分を３種有するので）、または元のライブラリー全体のおよそ１／８１（１／９の１／９）にアクセスした。得られたサブライブラリーを「２×アクセスされた」識別子ライブラリーと称する。ＰＣＲを、Ｐｈｕｓｉｏｎポリメラーゼを用いて１５サイクルにわたって実施した。シークエンシングアダプターを得られたサブライブラリーの末端にライゲーションし、それをＩｌｌｕｍｉｎａｉＳｅｑでシークエンシングした。図４５Ａは、シークエンシングによって決定された、２×アクセスされた識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール（暗い）強度を各行内の識別子の平均コピー数に設定する。識別子は、１３種の識別子の連続した列（マップの行に沿って）において最も豊富な識別子の上位３つ以内に入る場合、ビット値「１」を表すと解釈することができる。他の識別子は全て、ビット値「０」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するデータセットがもたらされる（図４１Ａ）。図４５Ｂは、元のライブラリーと２×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図４５Ｃは、元の識別子ライブラリーと２×アクセスされた識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、入れ子状識別子アクセス方法の間に偏りはほとんどまたは全く生じない可能性があることが示される。

図４６Ａ～Ｃは、メッセージを表す元の識別子ライブラリーを１００℃で４日間保管した後のデータを示す（図４１から）。元の識別子ライブラリーを、保存添加剤（バイオ安定化材料）と共に乾燥させ、１００℃に保持したサーモサイクラー中で４日間維持した。図４６Ａは、シークエンシングによって決定された、保管された識別子ライブラリー中に存在する配列の存在量のヒートマップ（３４１×３５１）を示す。各画素は識別子を表し、その画素におけるグレースケールの強度は、行内の他の識別子と比較したその識別子の相対的な存在量を表す。最大のグレースケール（暗い）強度を各行内の識別子の平均コピー数に設定する。識別子は、１３種の識別子の連続した列（マップの行に沿って）において最も豊富な識別子の上位３つ以内に入る場合、ビット値「１」を表すと解釈することができる。他の識別子は全て、ビット値「０」を表すと解釈される。この復号処理ステップをデータに適用することにより、識別子エラーゼロおよび識別子抹消ゼロ、したがって、符号化されたメッセージと正確に一致するマップがもたらされる（図４１Ａ）。図４６Ｂは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数間の相関を示し、図４６Ｃは、元の識別子ライブラリーと複製された識別子ライブラリーを対比した、それらにおける識別子コピー数の分布を示す。結果から、識別子ライブラリーの長期間にわたる極度の加熱の間に偏りはほとんどまたは全く生じない可能性があることが示される。さらに、二本鎖ＤＮＡ定量化（Ｑｕｂｉｔ蛍光定量による定量化を用いた）により、元の識別子ライブラリー（３６．４ｎｇ／ｍＬ）と保管された識別子ライブラリー（４１．２ｎｇ／ｍＬ）の間で同様の値がもたらされ、これにより、インキュベーションの間にＤＮＡの喪失はほとんどまたは全くなかった可能性があることが示される。

表８は、メッセージおよびメッセージのアクセスされた部分を表す識別子ライブラリーの書き込みおよび読み取りからの統計値を提示する（図４１～４６から）。各ライブラリーについて、ビット値「０」を表す識別子（偽の識別子）の読み取りの総数、ビット値「１」を表す識別子（真の識別子）の読み取りの総数、シークエンシングされた偽の識別子の分率（「識別子エラー率」）、コードワードの総数、コードワード抹消の数、およびコードワードエラーの数を報告する。各コードワードにおける識別子の分布を、偽の識別子の各々が等しく分布し、真の識別子の各々が等しく分布し、偽の識別子読み取り（サンプリング）の確率が識別子エラー率と等価である多項分布としてモデリングした。各ライブラリー中で表されるコードワードの数、および各コードワードからの識別子読み取りの数を各コードワードの試料サイズとして使用して、このモデルを使用して、予測されるコードワード抹消およびコードワードエラーの数を算出した。大きな試料サイズでコードワード抹消またはコードワードエラーの確率を算出することのコンピュータによる取り扱いにくさに起因して、４０読み取りを超える試料サイズはいずれも４０に固定した。したがって、期待値は上限とみなされるべきである。結果から、複製されたライブラリー中の抹消されたコードワード（図４３Ａ、図４３Ｂ、および図４３Ｃ）を内因性サンプリングノイズに起因して予測することができたことが示される。
表８．識別子ライブラリーの書き込みおよび読み取りからの統計値

（実施例１３：ＤＮＡの安定性に関する研究）
図４７Ａ～Ｄは、４つの異なる温度で８日間インキュベートしたＤＮＡ試料についてのデータを示す。各々が約４５０塩基のＤＮＡ（標的）およそ２５０ｎｇである複数の試料を保存添加剤（ＢＭはバイオ安定化材料を示す）と共に乾燥し、７５．１℃（図４７Ａ）、８４．４℃（図４７Ｂ）、９０．２℃（図４７Ｃ）、または９５．０℃（図４７Ｄ）で８日間加熱した。８日間にわたり、異なる時点において試料を取り出し、８日間の最後に最終的に測定するまで室温で保管した。最終的な測定時に、各試料中の標的ＤＮＡの相対量をｑＰＣＲで定量化した。定量化の値を、加熱していないゼロ時点の試料に対して正規化する。結果から、高温での持続的なインキュベーションを伴っても、最小のＤＮＡ分解が起こる可能性があることが示される。

（実施例１４：グリセロールのライゲーションに対する影響に関する研究）
図４８は、種々の量（体積／体積パーセント単位で）のグリセロールを用いてライゲーションした、付着末端を有する（６塩基、３’突出を有する）ＤＮＡ成分４種のライゲーションからのデータを示す。ライゲーションを、０．１２５μＭの各ＤＮＡ成分および５ＣＥＵ／μＬのＴ４リガーゼ（全体で１００ＣＥＵ）を用いて２５℃で実施した。ライゲーション時間は２．５分であった。効率を、完全にライゲーションした産物を表す全長対照と比べたｑＰＣＲを使用して測定した。結果から、２０％までまたはそれよりも多くのグリセロールの添加はライゲーションに影響を及ぼさない可能性があるが、４０％またはそれよりも多くの添加は阻害性であり得ることが示される。

本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実施形態に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。
本発明は、例えば以下の項目を提供する。
(項目１)
情報を核酸配列に書き込むための方法であって、
（ａ）前記情報を表すために記号列を生成するステップと、
（ｂ）複数の成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと、
（ｃ）前記複数の成分のうちの前記個々の成分の少なくとも１つの付着末端を生成するステップと、
（ｄ）前記複数の成分のうちの２つまたはそれより多くの成分を、前記２つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも１つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
（ｅ）前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目２)
前記記号列の各記号が、１つまたは複数の可能な記号値のうちの１つである、項目１に記載の方法。
(項目３)
前記記号列中の各記号が、２つの可能な記号値のうちの１つである、項目１または２に記載の方法。
(項目４)
前記記号列の各位置における１つの記号値を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができる、項目１～３のいずれか一項に記載の方法。
(項目５)
前記２つの可能な記号値が、０および１のビット値であり、前記記号列中の０の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の区別可能な識別子の非存在により表すことができ、前記記号列中の１の前記ビット値を有する前記個々の記号を前記識別子ライブラリー中の前記区別可能な識別子の存在により表すことができるか、またはその逆である、項目３に記載の方法。
(項目６)
（ｄ）が、２つまたはそれより多くの層からの前記２つまたはそれより多くの成分を化学的に連結させることを含み、前記２つまたはそれより多くの層の各層が、成分の区別可能なセットを含む、項目１に記載の方法。
(項目７)
前記識別子ライブラリーからの前記個々の識別子が、前記２つまたはそれより多くの層の各層からの１つの成分を含む、項目６に記載の方法。
(項目８)
前記２つまたはそれより多くの成分が、固定された順序でアセンブルされる、項目７に記載の方法。
(項目９)
前記２つまたはそれより多くの成分が、任意の順序でアセンブルされる、項目７に記載の方法。
(項目１０)
前記２つまたはそれより多くの成分が、前記２つまたはそれより多くの層のうちの異なる層からの２つの成分間に１つまたは複数の区分化成分を配置してアセンブルされる、項目７に記載の方法。
(項目１１)
前記個々の識別子が、前記２つまたはそれより多くの層のサブセットの各層からの１つの成分を含む、項目６に記載の方法。
(項目１２)
前記個々の識別子が、前記２つまたはそれより多くの層の各々からの少なくとも１つの成分を含む、項目６に記載の方法。
(項目１３)
（ｃ）が、（ｉ）前記複数の成分のうちの前記個々の成分の前記少なくとも１つの付着末端を生成するためにエンドヌクレアーゼを使用すること、または（ｉｉ）使用することを含む、項目１～１２のいずれか一項に記載の方法。
(項目１４)
前記少なくとも１つの付着末端が、前記個々の成分の５’末端にある、項目１～１３のいずれか一項に記載の方法。
(項目１５)
前記少なくとも１つの付着末端が、前記個々の成分の３’末端にある、項目１～１３のいずれか一項に記載の方法。
(項目１６)
（ｃ）が、前記個々の成分の２つの付着末端を生成することを含む、項目１～１５のいずれか一項に記載の方法。
(項目１７)
前記少なくとも１つの付着末端が、長さ少なくとも１ヌクレオチドである、項目１～１６のいずれか一項に記載の方法。
(項目１８)
前記少なくとも１つの付着末端が、長さ６ヌクレオチドである、項目１～１７のいずれか一項に記載の方法。
(項目１９)
前記少なくとも１つの付着末端が、表４または表５に収載されている配列からなる群より選択される核酸配列を含む、項目１～１８のいずれか一項に記載の方法。
(項目２０)
前記複数の核酸配列が、前記情報のメタデータを記憶する、または前記情報を隠蔽する、項目１～１９のいずれか一項に記載の方法。
(項目２１)
２つまたはそれより多くの識別子ライブラリーが組み合わせられ、前記２つまたはそれより多くの識別子ライブラリーの各識別子ライブラリーが、区別可能なバーコードでタグ付けされる、項目１～２０のいずれか一項に記載の方法。
(項目２２)
前記識別子ライブラリー中の個々の識別子各々が、区別可能なバーコードを含む、項目１～２１のいずれか一項に記載の方法。
(項目２３)
前記複数の識別子、または前記識別子を含む前記複数の成分が、読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために選択される、項目１～２２のいずれか一項に記載の方法。
(項目２４)
化学的に連結させることが、リガーゼを含む試薬を使用して前記複数の成分のうちの２つまたはそれより多くの成分を互いにライゲーションすることを含む、項目１～２３のいずれか一項に記載の方法。
(項目２５)
前記リガーゼが、Ｔ４リガーゼ、Ｔ７リガーゼ、Ｔ３リガーゼ、またはＥ．ｃｏｌｉリガーゼである、項目２３に記載の方法。
(項目２６)
前記試薬が、添加剤をさらに含む、項目２４または２５に記載の方法。
(項目２７)
前記添加剤が、前記リガーゼの効率を高める、項目２４～２６のいずれか一項に記載の方法。
(項目２８)
前記添加剤が、ポリエチレングリコール（ＰＥＧ）を含む、項目２６または２７に記載の方法。
(項目２９)
前記ＰＥＧが、ＰＥＧ４００、ＰＥＧ６０００、ＰＥＧ８０００、またはこれらの任意の組合せである、項目２８に記載の方法。
(項目３０)
前記ＰＥＧ分子の最終濃度が、単位体積当たり少なくとも約１重量（ｗ／ｖ）％である、項目２８または２９に記載の方法。
(項目３１)
前記ライゲーションの反応時間が、少なくとも１分である、項目２４～３０のいずれか一項に記載の方法。
(項目３２)
前記ライゲーションが、摂氏３０度またはそれより高い温度でのライゲーションである、項目２４～３０のいずれか一項に記載の方法。
(項目３３)
前記ライゲーションの反応効率が、少なくとも約２０％である、項目２４～３１のいずれか一項に記載の方法。
(項目３４)
ＥＤＴＡまたはチオシアン酸グアニジンを含有する緩衝液を使用して前記リガーゼを不活化するステップをさらに含む、項目２４～３３のいずれか一項に記載の方法。
(項目３５)
前記リガーゼの最終濃度が、少なくとも約５ＣＥＵ／μＬである、項目２４～３４のいずれか一項に記載の方法。
(項目３６)
前記試薬が、グリセロール分子をさらに含む、項目２４～３５のいずれか一項に記載の方法。
(項目３７)
（ｄ）における化学的に連結させることが、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）を使用することを含む、項目１～２３のいずれか一項に記載の方法。
(項目３８)
前記個々の成分が、デオキシリボ核酸（ＤＮＡ）またはリボ核酸である、項目１～３７のいずれか一項に記載の方法。
(項目３９)
前記個々の成分が再水分添加されている、項目１～３８のいずれか一項に記載の方法。
(項目４０)
前記個々の成分が、脱水された成分から再水分添加される、項目１～３９のいずれか一項に記載の方法。
(項目４１)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々を脱水することにより前記識別子ライブラリーを脱水するステップをさらに含む、項目１～４０のいずれか一項に記載の方法。
(項目４２)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々が脱水される、項目１～４１のいずれか一項に記載の方法。
(項目４３)
前記複数の識別子の少なくとも前記サブセットの個々の識別子各々を再水分添加するステップをさらに含む、項目４１または４２に記載の方法。
(項目４４)
識別子分解を防止するために前記識別子ライブラリーに保存添加剤を添加するステップをさらに含む、項目１～４０のいずれか一項に記載の方法。
(項目４５)
前記複数の識別子が、ＰＣＲでコピーされる、項目１～４０のいずれか一項に記載の方法。
(項目４６)
前記ＰＣＲが、少なくとも１０サイクルを有する、項目４５に記載の方法。
(項目４７)
前記複数の識別子が、１マイクロリットル当たり１０ナノグラムの濃度までＰＣＲで増幅される、項目４５に記載の方法。
(項目４８)
前記ＰＣＲが、エマルジョンＰＣＲである、項目４５～４７のいずれか一項に記載の方法。
(項目４９)
前記複数の識別子が、線形増幅でコピーされる、項目１～４０のいずれか一項に記載の方法。
(項目５０)
前記ＰＣＲの後、前記複数の識別子のより多くのコピーを作出するために線形増幅が使用される、項目４５～４７のいずれか一項に記載の方法。
(項目５１)
前記複数の識別子のサブセットが、１回または複数回のＰＣＲ反応でアクセスされる、項目１～５０のいずれか一項に記載の方法。
(項目５２)
前記複数の識別子のサブセットが、１つまたは複数の親和性タグ付きプローブでアクセスされる、項目１～５０のいずれか一項に記載の方法。
(項目５３)
前記複数の識別子の前記サブセットの識別子が、成分のセットを共通して有する、項目５１または５２に記載の方法。
(項目５４)
前記識別子が、ゲル電気泳動により精製される、項目１～５２のいずれか一項に記載の方法。
(項目５５)
前記識別子が、親和性タグ付きプローブにより精製される、項目１～５２のいずれか一項に記載の方法。
(項目５６)
前記識別子が、ＰＣＲを使用して増幅される、項目１～５２のいずれか一項に記載の方法。
(項目５７)
前記識別子が、チミン－チミンジヌクレオチドまたはシトシン－シトシンジヌクレオチドを回避するように設計される、項目１～５６のいずれか一項に記載の方法。
(項目５８)
情報を核酸配列に書き込むための方法であって、
（ａ）前記情報を表すために記号列を生成するステップと、
（ｂ）複数の成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が核酸配列を含む、ステップと、
（ｃ）前記複数の成分のうちの前記個々の成分の少なくとも１つの付着末端を生成するステップであって、前記少なくとも１つの付着末端が、長さ少なくとも６ヌクレオチドである、ステップと、
（ｄ）前記複数の成分のうちの２つまたはそれより多くの成分を、前記２つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも１つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
（ｅ）前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目５９)
前記少なくとも１つの付着末端が、前記個々の成分の３’末端にある、項目５８に記載の方法。
(項目６０)
前記連結させることが、前記複数の成分のうちの少なくとも１５またはそれより多くの成分を連結させることを含む、項目５８または５９に記載の方法。
(項目６１)
前記少なくとも１つの付着末端が、表４または表５に収載されている配列からなる群より選択される核酸配列を含む、項目５８～６０のいずれか一項に記載の方法。
(項目６２)
情報を核酸配列に書き込むための方法であって、
（ａ）前記情報を表すために記号列を生成するステップと、
（ｂ）複数の付着末端成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が、核酸配列および少なくとも１つの付着末端を含む、ステップと、
（ｃ）前記複数の成分のうちの２つまたはそれより多くの成分を、前記２つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも１つの付着末端を介して互いに化学的に連結させることによって複数の識別子を生成するステップであって、前記複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、前記複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応する、ステップと、
（ｄ）前記複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
(項目６３)
（ｂ）が、２つのオリゴヌクレオチドをアニールして、個々の成分各々が前記少なくとも１つの付着末端を有するように個々の成分各々を構築することを含む、項目６２に記載の方法。

Claims

情報を核酸配列に書き込むための方法であって、
（ａ）前記情報を表すために記号列を決定するステップと、
（ｂ）複数の成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が核酸配列を有する核酸分子である、ステップと、
（ｃ）前記複数の成分のうちの前記個々の成分の少なくとも１つの付着末端を生成するステップと、
（ｄ）前記複数の成分のうちの２つまたはそれより多くの成分を、前記２つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも１つの付着末端を介して互いに化学的に連結させることによって１つまたは複数の識別子を生成するステップであって、前記１つまたは複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、前記１つまたは複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応し、前記個々の識別子における前記２つまたはそれより多くの成分のうちの少なくとも第１の成分が、前記記号列中の記号の位置を表す、ステップと、
（ｅ）前記１つまたは複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
前記記号列中の各記号が、２つの可能な記号値のうちの１つである、請求項１に記載の方法。
前記記号列の各位置における１つの記号値を前記識別子ライブラリー中の区別可能な識別子の非存在により表す、請求項２に記載の方法。
（ｄ）が、２つまたはそれより多くの層からの前記２つまたはそれより多くの成分を化学的に連結させることを含み、前記２つまたはそれより多くの層の各層が、成分の区別可能なセットを含む、請求項１に記載の方法。
前記識別子ライブラリーからの前記個々の識別子が、前記２つまたはそれより多くの層の各層からの成分を含む、請求項４に記載の方法。
前記２つまたはそれより多くの成分が、固定された順序でアセンブルされる、請求項５に記載の方法。
前記２つまたはそれより多くの成分が、前記２つまたはそれより多くの層のうちの異なる層からの２つの成分間に１つまたは複数の区分化成分を配置してアセンブルされる、請求項５に記載の方法。
（ｃ）が、前記複数の成分のうちの前記個々の成分の前記少なくとも１つの付着末端を生成するためにエンドヌクレアーゼを使用することを含む、請求項１に記載の方法。
前記少なくとも１つの付着末端が、前記個々の成分の５’末端または３’末端にある、請求項８に記載の方法。
（ｃ）が、前記個々の成分の２つの付着末端を生成することを含む、請求項１に記載の方法。
前記少なくとも１つの付着末端が、表４または表５に収載されている配列からなる群より選択される核酸配列を含む、請求項１に記載の方法。
前記複数の核酸配列が、前記情報のメタデータを記憶する、または前記情報を隠蔽する、請求項１に記載の方法。
２つまたはそれより多くの識別子ライブラリーを組み合わせるステップ、および前記２つまたはそれより多くの識別子ライブラリーの各識別子ライブラリーを区別可能なバーコードでタグ付けするステップをさらに含む、請求項１に記載の方法。
前記識別子ライブラリー中の個々の識別子各々が、区別可能なバーコードを含む、請求項１に記載の方法。
前記１つまたは複数の識別子、または前記１つまたは複数の識別子を含む前記複数の成分が、読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために選択される、請求項１に記載の方法。
化学的に連結させることが、リガーゼを含む試薬を使用して前記複数の成分のうちの２つまたはそれより多くの成分を互いにライゲーションすることを含む、請求項１に記載の方法。
前記リガーゼが、Ｔ４リガーゼ、Ｔ７リガーゼ、Ｔ３リガーゼ、またはＥ．ｃｏｌｉリガーゼである、請求項１６に記載の方法。
前記試薬が、添加剤をさらに含む、請求項１６に記載の方法。
前記添加剤が、前記リガーゼの効率を高める、請求項１８に記載の方法。
前記添加剤が、ポリエチレングリコール（ＰＥＧ）を含む、請求項１８に記載の方法。
ＥＤＴＡまたはチオシアン酸グアニジンを含有する緩衝液を使用して前記リガーゼを不活化するステップをさらに含む、請求項１６に記載の方法。
前記試薬が、グリセロール分子をさらに含む、請求項１６に記載の方法。
（ｄ）における化学的に連結させることが、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）を使用することを含む、請求項１に記載の方法。
前記１つまたは複数の識別子の少なくとも前記サブセットの個々の識別子各々を脱水することにより前記識別子ライブラリーを脱水するステップをさらに含む、請求項１に記載の方法。
前記１つまたは複数の識別子をＰＣＲまたは線形増幅により増幅するステップをさらに含む、請求項１に記載の方法。
前記ＰＣＲが、少なくとも１０サイクルを有する、請求項２５に記載の方法。
前記ＰＣＲが、エマルジョンＰＣＲである、請求項２５に記載の方法。
前記１つまたは複数の識別子をゲル電気泳動または親和性タグ付きプローブにより精製するステップをさらに含む、請求項１に記載の方法。
情報を核酸配列に書き込むための方法であって、
（ａ）前記情報を表すために記号列を決定するステップと、
（ｂ）複数の付着末端成分を構築するステップであって、前記複数の成分のうちの個々の成分各々が、核酸配列および少なくとも１つの付着末端を含む、ステップと、
（ｃ）前記複数の成分のうちの２つまたはそれより多くの成分を、前記２つまたはそれより多くの成分のうちの前記個々の成分の前記少なくとも１つの付着末端を介して互いに化学的に連結させることによって１つまたは複数の識別子を生成するステップであって、前記１つまたは複数の識別子の各識別子が、２つまたはそれより多くの成分を含み、前記１つまたは複数の識別子のうちの個々の識別子が、前記記号列中の個々の記号に対応し、前記個々の識別子における前記２つまたはそれより多くの成分のうちの少なくとも第１の成分が、前記記号列中の記号の位置を表す、ステップと、
（ｄ）前記１つまたは複数の識別子の少なくともサブセットを含む識別子ライブラリーを選択的に捕捉または増幅するステップと
を含む、方法。
（ｂ）が、２つのオリゴヌクレオチドをアニールして、個々の成分各々が前記少なくとも１つの付着末端を有するように個々の成分各々を構築することを含む、請求項２９に記載の方法。