JP2022551186A

JP2022551186A - 核酸セキュリティーおよび認証

Info

Publication number: JP2022551186A
Application number: JP2022521744A
Authority: JP
Inventors: ナサニエルロケ，; ヒョンジュンパク，; スワプニルピー．バティア，; デビンリーク，
Original assignee: カタログテクノロジーズ，インコーポレイテッド
Priority date: 2019-10-11
Filing date: 2020-10-13
Publication date: 2022-12-07
Also published as: US20230295607A1; US20210108194A1; WO2021072398A1; CA3157804A1; EP4041920A1; AU2020364250A1; KR20220080172A; US11535842B2

Abstract

情報を符号化する核酸（例えば、デオキシリボ核酸）分子を使用した、セキュリティー、認証、タグ付けおよび追跡のための方法およびシステム。暗号化またはランダム化された情報を符号化する核酸分子のライブラリーを迅速に産生するために、固有の核酸分子が、予め作られた断片から効率的に産生される。物理的オブジェクトまたはアーチファクトにライブラリーをタグ付けして、オブジェクトを認証する、保証された資産もしくは位置へのアクセスを許可する、またはオブジェクトもしくは実体を追跡することができる。化学的方法を適用して、真正性を立証する、暗号解読する、またはライブラリーに記憶された情報を復号することができる。

Description

関連出願の相互参照
本願は、その内容全体が参照により本明細書に組み込まれる、２０１９年１０月１１日に出願した、表題「ＤＮＡＳＴＯＲＡＧＥＦＯＲＳＥＣＵＲＩＴＹＡＮＤＡＵＴＨＥＮＴＩＣＡＴＩＯＮ」の米国特許仮出願第６２／９１４，０８６号の優先権および利益を主張するものである。

背景
核酸デジタルデータ記憶は、情報を符号化し、長期間にわたって記憶するための安定した手法であり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で保管される核酸分子に記憶されたデジタルデータを、６０，０００年もの年数またはそれより長い年数を経た後に取得することができる。

現行の方法は、配列内の塩基間の関係をデジタル情報（例えば、二進コード）に直接変換するような、塩基毎の核酸配列へのデジタル情報（例えば、二進コード）の符号化に依拠する。デジタル符号化された情報のビットストリームまたはバイトに読み込むことができる、塩基毎の配列に記憶されたデジタルデータの配列決定は、エラーを起こしやすい可能性があり、塩基毎のデノボ核酸合成の費用が高価であり得るため符号化費用が嵩み得る。核酸デジタルデータ記憶を実施する新規方法の機会は、あまり費用が嵩まず、商業的実装がより容易である、データの符号化および取得のための手法を提供し得る。

プール内の固有の核酸配列の存在または非存在下でビット値情報を符号化することにより、塩基毎の合成を伴わずに核酸（例えば、デオキシリボ核酸、ＤＮＡ）分子にデジタル情報を符号化する方法およびシステムであって、固有の核酸配列を有するビットストリーム中の各ビット位置を指定すること、およびその位置におけるビット値をプール内の対応する固有の核酸配列の存在または非存在により指定することを含む、方法およびシステムが本明細書に提供される。これらの符号化された核酸分子は、非常に少ない化学量での、機密情報の符号化または情報によるアーチファクトのタグ付けに特に有用である。アーチファクトを、情報を符号化するある量の核酸分子と関連付けることにより、アーチファクトを堅牢な認証またはアーチファクトの起源の追跡のために使用することができるように、アーチファクトは、外部ユーザに容易に明らかとならない様式で固有にタグ付けすることができる。

ある態様では、本明細書には、追跡または認証のために流体をタグ付けするための方法が提供される。この方法は、デジタル情報を表す核酸分子のライブラリーを得るステップと、流体を、核酸分子のライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得るステップとを含む。ライブラリーは、流体、その起源、その製造日、または流体の任意の他の特徴を固有に識別するように設計することができるため、流体のタグ付けは、価値ある燃料または医薬品などの流体の真正性の認定に有利であり得る。

一部の実装では、方法は、タグ付けされた流体をサンプリングして、核酸分子のライブラリーの少なくとも一部を含有する試料を得るステップをさらに含む。サンプリングステップは、タグまたはタグ付けされた流体からある体積を拭き取るまたは取り出すステップが関与することができる。一部の実装では、方法は、試料の核酸分子を配列決定して、配列決定読み出しを得るステップがさらに関与する。配列決定読み出しを参照配列と比較して、マッチする配列の存在を決定することができる。よって、ライブラリーによって符号化された情報を決定することができ、流体を認証または識別することができる。

流体は、油、インク、圧縮ガスまたは薬物のうちいずれか１つであり得る。一部の実装では、方法は、タグ付けされた流体におけるタグの濃度を測定して、希釈物の量を決定するステップをさらに含む。このステップは、流体が改ざんされたかどうかの決定に有用である。

一部の実装では、タグは、タグに特異的な分子バーコードを含む。情報は、メッセージまたは通貨価値を含むことができる。情報は、少なくとも１キロビットの情報を含むことができる。一部の実装では、方法は、タグ付けされた流体にアクセスし、これにより、タグ付けされた流体におけるタグを減衰させるステップをさらに含む。一部の実装では、タグは、２要素認証システムの一部である。

一部の実装では、ライブラリーは、ランダムに生成される。一部の実装では、ライブラリーは、核酸分子のプールから核酸分子のサブセットを選択することにより生成される。一部の実装では、情報は、複数の記号を含み、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、情報は、符号化方式により核酸分子のライブラリーによって表され、情報は、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、記号は、２つの可能な記号値の第１の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号は、２つの可能な記号値のうちの第２の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。

別の態様では、本明細書には、セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法が提供される。この方法は、セキュリティートークンを表す核酸分子のライブラリーを得るステップと、前記セキュリティートークンを表すライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得るステップとを含む。本方法は、プレハッシュ化ライブラリーの配列が明らかとならないように、核酸分子のライブラリーを読み取る前にトークンをハッシュ化することにより、セキュリティートークンの値をエアギャップすることによる従来方法よりも有利である。

一部の実装では、化学的操作は、セキュリティートークンにおける１つまたは複数のブール関数をもたらす。例えば、１つまたは複数のブール関数は、セキュリティートークンにハッシュ関数を適用して、ハッシュ化されたライブラリーによって表されるハッシュ化されたトークンを得る。一部の実装では、ハッシュ化されたライブラリー（hashed library）は、ライブラリーのサブセットである。

一部の実装では、方法は、ハッシュ化されたライブラリーの核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップをさらに含む。配列決定読み出しは、データベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在が決定される。方法は、それぞれマッチする配列の決定された存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップをさらに含み得る。例えば、配列決定は、ハイスループット配列決定、ショットガン配列決定またはナノポア配列決定のうちいずれか１つを含む。

一部の実装では、方法は、ハッシュ化されたトークンが参照配列にマッチする場合、追加的な化学的操作をハッシュ化されたライブラリーに適用して、出力分子を産生するステップと、アッセイにより出力分子の存在または非存在を決定するステップとをさらに含む。例えば、アッセイは、ポリメラーゼ連鎖反応（ＰＣＲ）、リアルタイムＰＣＲ、逆転写ＰＣＲ（ＲＴ－ＰＣＲ）、蛍光定量法およびゲル電気泳動のうち１つである。出力分子は、ハッシュ化されたライブラリーの区別可能な核酸分子である。一部の実装では、方法は、出力分子の存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップがさらに関与する。ハッシュ化されたトークン（hashed token）を化学的に検証して出力分子を産生する、この実装は、ハッシュ化ライブラリーの配列決定の必要をなくすという点において有利である；むしろ、ハッシュ化されたライブラリーは、セキュリティートークンの真正性を決定するために、配列決定よりも安価または高速であり得る、さらに別の化学的操作を受ける。

一部の実装では、ライブラリーは、固有の分子バーコードを含む。一部の実装では、セキュリティートークンは、ランダムに生成されたキーを含む。一部の実装では、セキュリティートークンは、２要素認証システムの一部である。一部の実装では、ライブラリーは、アーチファクトと併置され、セキュリティートークンは、アーチファクトに対して固有である。例えば、アーチファクトは、流体である。流体は、油、インク、圧縮ガスまたは薬物のうちいずれか１つであり得る。一部の実装では、方法は、流体におけるライブラリーの濃度を測定して、希釈物の量を決定するステップがさらに関与する。別の例として、アーチファクトは、生物または文書である。一部の実装では、ライブラリーは、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスのうちいずれか１つに含有される。一部の実装では、ライブラリーは、凍結乾燥されている。

一部の実装では、ライブラリーは、核酸分子のプールから核酸分子のサブセットを選択することにより生成される。一部の実装では、セキュリティートークンは、複数の記号を含み、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、ランダムに生成される。一部の実装では、セキュリティートークンは、符号化方式により、核酸分子のライブラリーによって表され、セキュリティートークンは、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、記号は、２つの可能な記号値の第１の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号は、２つの可能な記号値の第２の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。一部の実装では、セキュリティートークンは、少なくとも１キロビットの情報を含む。一部の実装では、セキュリティートークンは、ユーザに対して固有である。

本開示のさらなる態様および利点は、本開示の単なる例示的な実装が示され説明される以下の詳細な説明から、当業者には容易に明らかになる。分かるであろうが、本開示は、他の異なる実装が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明らかな点で変更が可能である。したがって、図面および説明を本質的に例示的と見なすべきであり、制限的と見なすべきではない。

参照による組込み
本明細書で言及される全ての刊行物、特許および特許出願は、個々の刊行物、特許または特許出願各々が参照により組み込まれると具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に収載される本開示と相反する場合は、本明細書は、一切のそのような相反する物質に取って代わるおよび／または優先するように意図されている。

本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本発明の原理を利用する例示的な実装が記載されている以下の詳細な説明、および付属図（本明細書では「図（Ｆｉｇｕｒｅ）」および「図（ＦＩＧ．）」とも）を参照することにより、本発明の特徴および利点のよりよい理解が得られるであろう。

図１は、例示的な実装に従った、核酸配列に記憶されたデジタル情報を符号化し、書き込み、アクセスし、クエリーし、読み取り、復号するためのプロセスの概要を模式的に例示する。

図２Ａおよび図２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）を使用して「アドレスにおけるデータ」と称されるデジタルデータを符号化する方法の例を模式的に例示する。図２Ａは、例示的な実装に従った、ランクオブジェクト（またはアドレスオブジェクト）とバイト値オブジェクト（またはデータオブジェクト）を組み合わせて識別子を創出することを例示する。図２Ｂは、例示的な実装に従った、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるアドレス方式でのデータの実装を例示する。

図３Ａおよび図３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）を使用してデジタル情報を符号化する方法の例を模式的に例示する。図３Ａは、例示的な実装に従った、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを例示する。図３Ｂは、例示的な実装に従った、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実装を例示する。

図４は、例示的な実装に従った、所与のサイズの情報が記憶されるように構築することができる（等高線）、可能な識別子の組合せ空間（Ｃ、ｘ軸）と識別子の平均数（ｋ、ｙ軸）の間の関係の対数空間での等高線プロットを示す。

図５は、例示的な実装に従った、情報を核酸配列（例えば、デオキシリボ核酸）に書き込むための方法の概要を模式的に例示する。

図６Ａおよび図６Ｂは、区別可能な成分（例えば、核酸配列）を組合せによりアセンブルすることによって識別子（例えば、核酸分子）を構築するための「産物スキーム」と称される方法の例を例示する。図６Ａは、例示的な実装に従った、産物スキームを使用して構築された識別子のアーキテクチャを例示する。図６Ｂは、例示的な実装に従った、産物スキームを使用して構築することができる識別子の組合せ空間の例を例示する。

図７Ａ～図７Ｃは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図７Ａは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ（degradation targeting probe）を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｂは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｃは、例示的な実装に従った、親和性タグを使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ａ～図７Ｃは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図７Ａは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ（degradation targeting probe）を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｂは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｃは、例示的な実装に従った、親和性タグを使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ａ～図７Ｃは、より多数の識別子由来のいくつかの特定の識別子にアクセスすることによって、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する。図７Ａは、例示的な実装に従った、ポリメラーゼ連鎖反応、親和性タグ付けされたプローブおよび分解標的化プローブ（degradation targeting probe）を使用して、指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｂは、例示的な実装に従った、ポリメラーゼ連鎖反応を使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。図７Ｃは、例示的な実装に従った、親和性タグを使用して、「ＯＲ」または「ＡＮＤ」演算を行って、複数の指定の成分を含有する識別子にアクセスするための方法の例を示す。

図８は、例示的な実装に従った、本明細書に提供される方法を実行するようにプログラムされ、または他の様式で構成されたコンピュータシステムを示す。

図９は、例示的な実装に従った、識別子プールにおける定義された演算を使用したコンピュータによる計算のために調製された、２つのソースビットストリームおよびユニバーサル識別子ライブラリーの例を示す。

図１０は、例示的な実装に従った、ｉｎｖｉｔｒｏコンピュータによる計算のためのプラットフォームとして識別子ライブラリーがどのように使用され得るかを例示する、識別子のプールにおいて行われた論理演算の３つの例への入力およびその結果を示す。

図１１は、例示的な実装に従った、ランダムビット文字列の創出に使用することができるエントロピーを生成するための方法の例を示す。

図１２Ａ～図１２Ｃは、例示的な実装に従った、エントロピー（ランダムビット文字列）を生成および記憶するための方法の例を示す。

図１３Ａ～図１３Ｂは、例示的な実装に従った、入力を使用してランダムビット文字列を組織化およびアクセスするための方法の例を示す。

図１４は、例示的な実装に従った、物理的ＤＮＡキーを使用してアーチファクトへのアクセスを保証および認証するための方法の例を示す。

図１５は、例示的な実装に従った、認証のための核酸ライブラリーを調製するための方法について説明するフローチャートを示す。

図１６は、例示的な実装に従った、追跡または認証のための核酸タグにより流体をタグ付けするための方法について説明するフローチャートを示す。

図１７Ａおよび図１７Ｂは、核酸分子に符号化されたデータを符号化し、書き込み、読み取ることの例を示す。図１７Ａは、例示的な実装に従った、５，８５６ビットのデータを符号化し、書き込み、読み取ることの例を示す。図１７Ｂは、例示的な実装に従った、６２，８２４ビットのデータを符号化し、書き込み、読み取ることの例を示す。

詳細な説明
本発明の様々な実装が本明細書に示され、説明されているが、そのような実装が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実装の様々な代替案が利用される可能性があることは理解されるはずである。

用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「０」または「１」の値を有し得る。

用語「区別可能な」または「固有の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または固有の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または固有の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または固有の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。

用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、１つまたは複数の他の成分と連結またはアセンブルされることもある。

用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、１つの層内の成分が別の層内の成分と異なるような、１セットの区別可能な成分を含むことがある。１つまたは複数の層からの成分は、１つまたは複数の識別子を生成するようにアセンブルされることもある。

用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実装では、識別子は、１つまたは複数の連結された成分を含み得る。

用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリー方法に依存し得る。

用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。

用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の収集物を一般に指す。一部の実装では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。１つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する固有のバーコードを含むこともある。

用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、またはこれらのバリアントを一般に指す。核酸は、アデノシン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）およびウラシル（Ｕ）、またはそのバリアントから選択される１つまたは複数のサブユニットを含み得る。ヌクレオチドは、Ａ、Ｃ、Ｇ、ＴもしくはＵ、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、Ａ、Ｃ、Ｇ、ＴもしくはＵであることもあり、あるいはより多くの相補的Ａ、Ｃ、Ｇ、ＴもしくはＵのうちの１つに特異的であり得る、またはプリン（すなわち、ＡもしくはＧ、またはそのバリアント）もしくはピリミジン（すなわち、Ｃ、ＴもしくはＵ、またはそのバリアント）と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。

用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド（ＤＮＡ）もしくはリボヌクレオチド（ＲＮＡ）のどちらかかまたはその類似体である、様々な長さを有し得る、ポリマー形態のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、デジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、１つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および／または改変ヌクレオチドを含むこともある。

「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびチミン（Ｔ）という、またはポリヌクレオチドがＲＮＡの場合はアデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）およびウラシル（Ｕ）という、４つのヌクレオチド塩基の特異的配列で、典型的に構成されている。

改変ヌクレオチドの例としては、ジアミノプリン、５－フルオロウラシル、５－ブロモウラシル、５－クロロウラシル、５－ヨードウラシル、ヒポキサンチン、キサンチン、４－アセチルシトシン、５－（カルボキシヒドロキシメチル）ウラシル、５－カルボキシメチルアミノメチル－２－チオウリジン、５－カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ－Ｄ－ガラクトシルキューオシン、イノシン、Ｎ６－イソペンテニルアデニン、１－メチルグアニン、１－メチルイノシン、２，２－ジメチルグアニン、２－メチルアデニン、２－メチルグアニン、３－メチルシトシン、５－メチルシトシン、Ｎ６－アデニン、７－メチルグアニン、５－メチルアミノメチルウラシル、５－メトキシアミノメチル－２－チオウラシル、ベータ－Ｄ－マンノシルキューオシン、５’－メトキシカルボキシメチルウラシル、５－メトキシウラシル、２－メチルチオ－Ｄ４６－イソペンテニルアデニン、ウラシル－５－オキシ酢酸（ｖ）、ワイブトキソシン、シュードウラシル、キューオシン、２－チオシトシン、５－メチル－２－チオウラシル、２－チオウラシル、４－チオウラシル、５－メチルウラシル、ウラシル－５－オキシ酢酸メチルエステル、ウラシル－５－オキシ酢酸（ｖ）、５－メチル－２－チオウラシル、３－（３－アミノ－３－Ｎ－２－カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ、２，６－ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が（例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である１つもしくは複数の原子が、および／または相補的ヌクレオチドと水素結合を形成することが通常はできない１つもしくは複数の原子が）修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、Ｎ－ヒドロキシスクシンイミドエステル（ＮＨＳ）などのアミン反応性部分の共有結合を可能にするためにアミノアリル－ｄＵＴＰ（ａａ－ｄＵＴＰ）およびアミノヘキシルアクリルアミド（ａｍｉｎｏｈｅｘｈｙｌａｃｒｙｌａｍｉｄｅ）－ｄＣＴＰ（ａｈａ－ｄＣＴＰ）などのアミン修飾基を含有することもある。

用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応（ＰＣＲ）などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、ＤＮＡ試料の複製中に、複製を触媒する酵素が、ＤＮＡ試料に結合したプライマーの３’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、ＰＣＲに関するより多くの情報については、化学方法セクションＤを参照されたい。

用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ２９ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ（すなわち、結合の形成を触媒する酵素）が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、ＤＮＡポリメラーゼ、ＲＮＡポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Ｅ．ｃｏｌｉＤＮＡポリメラーゼＩ、Ｔ７ＤＮＡポリメラーゼ、バクテリオファージＴ４ＤＮＡポリメラーゼΦ２９（ファイ２９）ＤＮＡポリメラーゼ、Ｔａｑポリメラーゼ、Ｔｔｈポリメラーゼ、Ｔｌｉポリメラーゼ、ＰｆｕポリメラーゼＰｗｏポリメラーゼ、ＶＥＮＴポリメラーゼ、ＤＥＥＰＶＥＮＴポリメラーゼ、Ｅｘ－Ｔａｑポリメラーゼ、ＬＡ－Ｔａｗポリメラーゼ、ＳｓｏポリメラーゼＰｏｃポリメラーゼ、Ｐａｂポリメラーゼ、ＭｔｈポリメラーゼＥＳ４ポリメラーゼ、Ｔｒｕポリメラーゼ、Ｔａｃポリメラーゼ、Ｔｎｅポリメラーゼ、Ｔｍａポリメラーゼ、Ｔｃａポリメラーゼ、Ｔｉｈポリメラーゼ、Ｔｆｉポリメラーゼ、ＰｌａｔｉｎｕｍＴａｑポリメラーゼ、Ｔｂｒポリメラーゼ、Ｔｆｌポリメラーゼ、Ｐｆｕｔｕｂｏポリメラーゼ、Ｐｙｒｏｂｅｓｔポリメラーゼ、ＫＯＤポリメラーゼ、Ｂｓｔポリメラーゼ、Ｓａｃポリメラーゼ、３’→５’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。ＰＣＲと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がＰＣＲにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションＤを参照されたい。

用語「種」は、本明細書で使用される場合、同じ配列の１つまたは複数のＤＮＡ分子を一般に指す。「種」が、複数形の意味で使用される場合、複数の種における全ての種が、区別可能な配列を有することを仮定することができるが、これは、「種」の代わりに「区別可能な種」と書くことにより、明確にされる場合もある。

用語「約」および「およそ」は、前記用語の後に続く値のプラスマイナス２０％以内を意味することを理解されたい。

二進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。二進コードは、例えば、ビットと呼ばれる２つの二進記号、通常は０および１、を有する二進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非二進記号の配列を含み得る非二進コードの形で表すことができる。符号化された各記号を、固有のビット列（または「バイト」）に再び割り当てることができ、固有のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、２つの記号のうちの１つ（例えば、０または１）であり得る。Ｎビットの列を含むことができるバイトは、合計２^Ｎの固有のバイト値を有することができる。例えば、８ビットを含むバイトは、合計２^８または２５６の可能な固有のバイト値を生じさせることができ、２５６バイトの各々は、バイトで符号化することができる２５６の可能な区別可能な記号、文字または命令のうちの１つに対応し得る。生データ（例えば、テキストファイルおよびコンピュータ命令）を、バイト列またはバイトストリームとして表すことができる。ｚｉｐファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。

本開示の方法およびシステムを使用して、１ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、２ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。

デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。

新規方法は、塩基毎またはデノボ核酸合成（例えば、ホスホルアミダイト合成）に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報（例えば、二進コード）を符号化することができる。しかるが故に、新規戦略は、情報記憶の第１の要求のために区別可能な核酸配列（または成分）の第１のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列（または成分）を再利用することができる。これらの手法は、ＤＮＡへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、ＤＮＡベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホルアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、の実装と異なり、成分からの識別子構築を使用してＤＮＡに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してＤＮＡへのデジタル情報の書き込み速度を上昇させることができる。

情報を核酸配列に符号化する方法を本明細書中に提供する。核酸配列に情報を符号化する方法は、（ａ）情報を記号列に変換するステップと、（ｂ）記号列を複数の識別子にマッピングするステップと、（ｃ）複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における１つの記号は、識別子の非存在に対応し得る。例えば、「０」および「１」の二進記号（例えば、ビット）列における「０」の出現各々が、識別子の非存在に対応し得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、（ｃ）核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化されるが、核酸分子の各々の配列に符号化されないことがある。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、（ａ）コンピュータデータを受信するステップと、（ｂ）コンピュータデータを符号化する少なくとも１つの核酸配列を含む核酸分子を合成するステップと、（ｃ）少なくとも１つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。

別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、（ａ）情報を表す仮想識別子ライブラリーを受信または符号化するステップと、（ｂ）識別子ライブラリーを物理的に構築するステップと、（ｃ）識別子ライブラリーの１つまたは複数の物理的コピーを１つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、１つまたは複数の成分を含み得る。１つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。

図１は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、１つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「０」または「１」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト（例えば、識別子）にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子を配列決定または識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。

図１の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々１ビット（「１」のビット値を有するビット）を区別可能な核酸識別子にマッピングするステップとを含み得る。１のビット値に対応する（かつ０のビット値の識別子を含まない）識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法（例えば、配列決定、ハイブリダイゼーション、ＰＣＲなど）を使用して、識別子ライブラリー中のどの識別子が表されるのかを決定することと、「１」のビット値をこれらの識別子に対応するビットにおよび「０」のビット値を他の場所に割り当てること（識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること）、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。

区別可能なＮビットの列の符号化は、可能な識別子として同じ数の固有の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しい項目（Ｎビットの列）毎に識別子（例えば、核酸分子）のデノボ合成を使用し得る。他の例では、記憶するために情報の新しい項目毎に識別子（数がＮと同じであるかまたはそれ未満である）を新たに合成する費用を、情報の新しい項目の符号化が、事前に合成された（または既成の）識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の１回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、（１）記憶するための情報の新しい項目毎の最大Ｎ個の識別子のデノボ合成のコストも、または（２）記憶するために情報の新しい項目毎にＮ個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数（Ｎ未満、一部の場合には、Ｎよりもはるかに少ない）を維持し、そしてその後、これらの配列を、記憶するための情報の新しい項目毎に最大Ｎ個の識別子を生成するように酵素反応によって改変することにより、削減することができる。

読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー（例えば、識別子ライブラリー）を含むＤＮＡ配列の合理的設計に関しては化学的方法セクションＨを参照されたい。

図２Ａおよび２Ｂは、オブジェクトまたは識別子（例えば、核酸分子）中のデジタルデータを符号化する、「アドレスにおけるデータ」と呼ばれる、方法の例を模式的に示す。図２Ａは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレスにおけるデータ方法は、バイト値を識別する１つのオブジェクトである「バイト値オブジェクト」（または「データオブジェクト」）、および識別子ランク（または元のビットストリーム中のバイトの相対位置）を識別する１つのオブジェクトである「ランクオブジェクト」（または「アドレスオブジェクト」）という、２つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図２Ｂは、各ランクオブジェクトが、１セットの成分から組合せ的に構築され、各バイト値オブジェクトが、１セットの成分から組合せ的に構築され得る、アドレスにおけるデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合（例えば、図２Ａ）よりも多くの情報を識別子に書き込むことを可能にする。

図３Ａおよび３Ｂは、オブジェクトまたは識別子（例えば、核酸配列）中のデジタル情報を符号化する方法の別の例を模式的に示す。図３Ａは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク（またはアドレス）における識別子の存在により「１」のビット値が指定され、特定のランク（またはアドレス）における識別子の非存在により「０」のビット値が指定される。このタイプの符号化は、単にランク（元のビットストリーム中のビットの相対位置）を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「１」または「０」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「１」のビット値をそれらの対応するランクに割り当てること、および「０」のビット値を他の場所に割り当てることを含み得る。図３Ｂは、各識別子を１セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合（例えば、図３Ａ）よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、５つの区別可能な成分を含み得る。５つの区別可能な成分を、５成分のうちの２成分を各々が含む１０の区別可能な識別子を生成するように、アセンブルすることができる。１０の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク（またはアドレス）を各々が有し得る。識別子ライブラリーは、これらの１０の可能な識別子のうちの、ビット値「１」の位置に対応するサブセットを含み、これらの１０の可能な識別子のうちの、長さ１０のビットストリーム内のビット値「０」の位置に対応するサブセットを除外することがある。

図４は、可能な識別子の組合せ空間（Ｃ、ｘ軸）と、図３Ａおよび３Ｂに示されている符号化方法を使用してビットの所与の元のサイズの情報（Ｄ、等高線）を記憶するために物理的に構築される識別子の平均数（ｋ、ｙ軸）との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズＤの一次情報が、数個、つまりｋ個のビットが「１」のビット値を有するＣビットの列（Ｃは、Ｄより大きくなり得る）に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「１」である位置については識別子が構築され、ビット値が「０」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズＣを有し、サイズＤのビット列を符号化するために使用される識別子の数は、Ｄ＝ｌｏｇ_２（Ｃｃｈｏｏｓｅｋ）（式中、Ｃｃｈｏｏｓｅｋは、Ｃ個の可能性からｋ個の順不同結果を選ぶ方法の数についての数式であり得る）となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与の項目のサイズ（ビットで）を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。

図５は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに入力を入れることにより、反応を始動することができる。入力は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバー、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去（例えば、削除）することができる。１つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を難読化もしくは隠蔽するのに役立つこともある。

識別子ランク（例えば、核酸インデックス）は、識別子の順序付けを決定するための方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレスにおけるデータ符号化方法では、識別子ランク（識別子のランクオブジェクトにより符号化された）を使用して、ビットストリーム内のバイトの位置（識別子のバイト値オブジェクトにより符号化された）を決定することができる。代替方法では、存在する識別子の識別子ランク（全識別子自体により符号化された）を使用して、ビットストリーム内の「１」のビット値の位置を決定することができる。

キーは、区別可能なバイトを試料中の識別子（例えば、核酸分子）の固有のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する固有の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ１または０のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、配列決定、ハイブリダイゼーションまたはＰＣＲを含む任意の数の分子生物学技術を含むことができる。一部の実装では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、固有の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム（例えば、各ビット列、バイト（単数）、バイト（複数）、またはバイト列）に復号することができる。

識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の定義された群（例えば、組合せ空間）からの１セットの核酸分子（例えば、識別子）を使うことにより、情報を符号化することができる。分子の定義された群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列（例えば、成分）のアセンブリーであることもある。個々の識別子各々は、固定された順序で全ての層から１つの成分を連結させることにより構築することができる。例えば、Ｍ個の層があり、各層がｎ個の成分を有する場合には、最大Ｃ＝ｎ^Ｍ個の固有の識別子を構築することができ、最大２^Ｃ個の異なる情報項目またはＣ個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、１×１０^６個の区別可能な識別子、またはサイズＣ＝１×１０^６の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。ｎ＝１×１０^３の成分を各々が含有するＭ＝２の既成の層からアセンブリーを作成することができる。あるいは、ｎ＝１×１０^２の成分を各々が含有するＭ＝３の層からアセンブリーを作成することができる。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用することが有利であり得る。

各層内の核酸配列（例えば、成分）は、固有の（または区別可能な）配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を固有に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に４つの可能なヌクレオチドが存在する。したがって、３塩基バーコードは、４^３＝６４の核酸配列を固有に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学または配列決定を複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。

核酸配列（例えば、成分）の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Ｘからのあらゆる成分が、層Ｙからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第１の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Ｙからのあらゆる成分が、一方の末端で層Ｘのあらゆる成分に結合することができ、かつ反対側の末端で層Ｚのあらゆる成分に結合することができる。

図６Ａおよび６Ｂは、固定された順序で各層から区別可能な成分（例えば、核酸配列）を組合せ的にアセンブルすることにより識別子（例えば、核酸分子）を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図６Ａは、積スキームを使用して構築された識別子のアーキテクチャを示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。Ｎ個の成分を各々が有するＭ個の層の場合、Ｎ^Ｍ個の可能な識別子がある。図６Ｂは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、３つの区別可能な成分を各々が含む３つの層から、組合せ空間を生成することができる。これらの成分を、各層からの１つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリー方法のための全組合せ空間は、２７の可能な識別子を含むことができる。

識別子は、２０１７年１２月２１日に出願された表題「ＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許第１０，６５０，３１２号（ＤＮＡにデジタル情報を符号化することについて記載）；２０１９年５月１６日に出願され、米国特許出願公開第２０１９／０３６２８１４号として公開された表題「ＳＹＳＴＥＭＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１６／４６１，７７４号（ＤＮＡベースのデータ記憶のための符号化方式について記載）；２０１９年５月１６日に出願され、米国特許出願公開第２０１９／０３５１６７３号として公開された表題「ＰＲＩＮＴＥＲ－ＦＩＮＩＳＨＥＲＳＹＳＴＥＭＦＯＲＤＡＴＡＳＴＯＲＡＧＥＩＮＤＮＡ」の米国特許出願第１６／４１４，７５２号（符号化されたＤＮＡのアセンブリーのためのプリンター・フィニッシャーシステムについて記載）；２０１９年５月１６日に出願され、米国特許出願公開第２０２０／０１９３３０１号として公開された表題「ＣＯＭＰＯＳＩＴＩＯＮＳＡＮＤＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１６／４１４，７５８号（ＤＮＡベースのデータ記憶のための先進的アセンブリー方法について記載）；２０１９年８月５日に出願され、米国特許出願公開第２０２０／０１８５０５７号として公開された表題「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＳＴＯＲＩＮＧＡＮＤＲＥＡＤＩＮＧＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＷＩＴＨＥＲＲＯＲＰＲＯＴＥＣＴＩＯＮ」の米国特許出願第１６／５３２，０７７号（ＤＮＡ符号化のためのデータ構造ならびにエラー保護および補正について記載）；２０２０年５月１１日に出願された表題「ＤＡＴＡＳＴＲＵＣＴＵＲＥＳＡＮＤＯＰＥＲＡＴＩＯＮＳＦＯＲＳＥＡＲＣＨＩＮＧ，ＣＯＭＰＵＴＩＮＧ，ＡＮＤＩＮＤＥＸＩＮＧＩＮＤＮＡ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１６／８７２，１２９号（アクセス、ランクおよび検索のためのデータ構造および演算について記載）；および２０２０年９月４日に出願された表題「ＣＨＥＭＩＣＡＬＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１７／０１２，９０９号（符号化されたＤＮＡアセンブリーのための化学的方法について記載）に記載されている実装方法のいずれかを使用して構築することができ、これらの各々は、その全体がこれにより参照により本明細書に組み込まれる。

一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子（情報を符号化する）を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの１つまたは複数のステップが行われた後である可能性がある時点で（すなわち、情報が書き込まれている最中に）、識別子を構築することができる。

バーコードは、符号化すべきデジタル情報の量が、１つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された固有の核酸配列を有するタグを含めることにより、図３で開示される手法を階層化することによって、より長いビット列および／または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分（単数または複数）を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する固有の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、１つまたは複数の固有の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報（例えば、ビット値およびビット位置情報）を固有の配列が符号化しているのかを示すことができる。

バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば１０ビットの配列を、各バイトが５ビットを含む２セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子５個の１セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る者が、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識（例えば、第１の５ビットを提供するために、バーコード１を、核酸プール内の配列に結合させることができ、および第２の５ビットを提供するために、バーコード２を、核酸プール内の配列に結合させることができる）を用いて各識別子をバーコード化またはタグ付けし、そしてその後、それら２つのバイトに対応する識別子を組み合わせて１つのプール（例えば、「ハイパープール」または１つもしくは複数の識別子ライブラリー）にすることができる。１つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得る。

核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する固有の核酸分子（例えば、識別子）、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある（例えば、ビット値に対応しない）。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的供給源に由来することもあり、合成的に生成されることもある。生物学的供給源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、特に、合成的に符号化された情報（例えば、識別子の組合せ空間）が天然遺伝情報（例えば、断片化されたゲノム）と似ているように作成された場合、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的供給源に由来し、補足核酸は、生物学的供給源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、１つまたは複数の生物に由来し、補足核酸配列は、単一の、異なる生物に由来する。補足核酸配列は、１つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。

補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および／または一次情報の意図された受信者を決定および／または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への１つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された１つもしくは複数のバーコードまたはタグに記憶されることもある。

識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の１塩基以内、２塩基以内、３塩基以内、４塩基以内、５塩基以内、６塩基以内、７塩基以内、８塩基以内、９塩基以内、１０塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満より低いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％より高いこともあり、または識別子の濃度の約１％、１０％、２０％、４０％、６０％、８０％、１００％、１２５％、１５０％、１７５％、２００％、１０００％、１×１０^４％、１×１０^５％、１×１０^６％、１×１０^７％、１×１０^８％もしくはそれを超える％に等しいこともある。より高い濃度は、難読化またはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い（例えば、１×１０^８％高い）。

ＰＣＲベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール（例えば、識別子ライブラリー）からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションＤを参照されたい。試料がハイパープールを含む例では、識別子の一方の縁にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の縁にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット（例えば、特定のバーコードに関連する全ての核酸）にアクセスすること、およびそのようなサブセットを取得することができる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。

核酸分子（例えば、識別子）に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的化識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。本明細書で使用される場合、「アクセス」および「クエリー」は、互換的に使用することができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的化された識別子を選択的に捕捉することにより行うこともできる。標的化された識別子は、より長い情報項目の中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的化された識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図７Ａ～７Ｃは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図７Ａは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。ＰＣＲベースのアクセスの場合、識別子のプール（例えば、識別子ライブラリー）は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。１つまたは複数のプライマーが、識別子の縁の共通または可変領域に結合し得る。プライマーが結合している識別子を、ＰＣＲにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、１つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。

核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数のプローブと相補性を共有し得る。１つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、ビーズに結合して、ビーズと少なくとも１つのプローブと少なくとも１つの識別子とを含む複合体を生成することができる。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的化識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。親和性タグは、カラムに結合することができる。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的化識別子をカラムに選択的に標的化することができ、その一方で、標的化された識別子は、カラムを通って流れうる。標的化された識別子へのアクセスは、１つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または１つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。

分解ベースのアクセスの場合、プール内の識別子を構成する成分は、１つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、１つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの１つとハイブリダイズすることができる。プローブのセットは、ＲＮＡを含むことがあり、ＲＮＡは、Ｃａｓ９酵素を誘導することができる。Ｃａｓ９酵素を１つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Ｃａｓ９酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばＳ１ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー（例えば、アガロースゲル電気泳動）などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を（例えば、ＰＣＲを使用して）選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。

図７Ｂは、ポリメラーゼ連鎖反応を使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、２つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「ＯＲ」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスＰＣＲ反応において２つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、１つのフォワードプライマーが左末端の識別子のセットに結合し、１つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら２セットの交差点の「ＡＮＤ」増幅を、フォワードプライマーとリバースプライマーをＰＣＲ反応においてプライマー対として一緒に使用することにより、果たすことができる。

図７Ｃは、親和性タグを使用して「ＯＲ」または「ＡＮＤ」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「Ｐ１」が、成分「Ｃ１」を有する全ての識別子を捕捉し、別の親和性プローブ「Ｐ２」が、成分「Ｃ２」を有する全ての識別子を捕捉する場合には、Ｐ１およびＰ２を同時に使用することによりＣ１またはＣ２を有する全ての識別子のセットを捕捉することができる（「ＯＲ」操作に対応する）。同じ成分およびプローブを用いる別の例では、Ｐ１およびＰ２を逐次的に使用することによりＣ１およびＣ２を有する全ての識別子のセットを捕捉することができる（「ＡＮＤ」操作に対応する）。

別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、（ａ）識別子ライブラリーを提供するステップと、（ｂ）識別子ライブラリー中に存在する識別子を識別するステップと、（ｃ）識別子ライブラリー中に存在する識別子から記号列を生成するステップと、（ｄ）記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、１つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。

情報を本明細書の他の箇所に記載されているように１つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。

識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、バイナリ文字列中の第１の記号値（例えば、第１のビット値）を示すことができ、識別子ライブラリー中の識別子の非存在は、バイナリ文字列中の第２の記号値（例えば、第２のビット値）を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に対してビット値を基づかせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「１」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「０」のビット値を示すことができる。

１つの情報についての記号（例えば、ビット値）の生成は、記号（例えば、ビット）をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために本識別子を配列決定することまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、配列決定プラットフォームを使用して行うことができる。配列決定プラットフォームの例は、全体に参照により本明細書に組み込まれる、２０１９年８月５日に出願され、米国特許出願公開第２０２０／０１８５０５７号として公開された表題「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＳＴＯＲＩＮＧＡＮＤＲＥＡＤＩＮＧＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＷＩＴＨＥＲＲＯＲＰＲＯＴＥＣＴＩＯＮ」の米国特許出願第１６／５３２，０７７号に記載されている。

一例では、核酸符号化データの復号は、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどの、核酸鎖の塩基毎の配列決定により果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示す配列決定技術を利用することにより果たすことができる。配列決定は、可逆的ターミネーターの使用を利用することもある。配列決定は、天然または非天然（例えば、操作された）ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ、サンガー配列決定、ハイスループット配列決定、合成による配列決定、単一分子配列決定、ライゲーションによる配列決定、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、次世代配列決定、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、クローナルシングルマイクロアレイ（Ｓｏｌｅｘａ）、ショットガン配列決定、マクサム（Ｍａｘｉｍ）・ギルバート配列決定、または大規模並列配列決定を含むがこれらに限定されない、様々な配列決定手法を使用することができる。

様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ（または任意の種類の蛍光ハイブリダイゼーション）、デジタルＰＣＲ、定量的ＰＣＲ（ｑＰＣＲ）、および様々な配列決定プラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。

識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。

より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で３つの核酸分子（例えば、識別子）にマッピングされ得る「１１１」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「０００」部分列に再符号化することができる。「０００」の代替入力部分列を「１１１」に再符号化することもできる。この再符号化方法は、データセット中の「１」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「１１１」を「００」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「１」の数を低減させることができる。

検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する（例えば、高める）ことができる。例えば、検出を容易にするために設計される核酸配列（例えば、識別子）は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、ｄＮａＭ、３－メトキシ－２－ナフチル基を含有する人工ヌクレオシド、およびｄ５ＳＩＣＳ、６－メチルイソキノリン－１－チオン－２－イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を伴って設計されることもある。

操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。

配列決定プラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。配列決定プラットフォームを一本鎖または二本鎖核酸分子の配列決定専用にすることができる。配列決定プラットフォームは、個々の塩基を読み取ること（例えば、塩基毎の配列決定）により、または核酸分子（例えば、識別子）に組み込まれた全核酸配列（例えば、成分）の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。配列決定プラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。配列決定中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果として配列決定時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、固有の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その固有の光学的、電気化学的または化学的シグナルの存在または非存在は、「０」または「１」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。

符号化および復号エラーを最小限にするまたは検出するために、固有のコードを適用することができる。符号化および復号エラーは、偽陰性（無作為試料抽出に含まれない核酸分子または識別子）によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実装では、チェックサム配列をＲ識別子の連続セット毎に含めることができ、この場合のＲは、サイズが１、２、５、１０、５０、１００、２００、５００もしくは１０００に等しいまたはそれより大きいこともあり、または１０００、５００、２００、１００、５０、１０、５もしくは２未満であることもある。Ｒの値が小さいほど、エラー検出は良好である。一部の実装では、チェックサムは、補足核酸配列であり得る。例えば、７個の核酸配列（例えば、成分）を含むセットを、積スキームで識別子を構築するための核酸配列（層Ｘ中の成分Ｘ１～Ｘ３、および層Ｙ中のＹ１～Ｙ３）と補足チェックサムのための核酸配列（Ｘ４～Ｘ７およびＹ４～Ｙ７）という、２つの群に分けることができる。チェックサム配列Ｘ４～Ｘ７は、層Ｘの０、１、２または３個の配列が層Ｙの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Ｙ４～Ｙ７は、層Ｙの０、１、２または３個の配列が層Ｘの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３｝を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる：｛Ｘ１Ｙ１、Ｘ１Ｙ３、Ｘ２Ｙ１、Ｘ２Ｙ２、Ｘ２Ｙ３、Ｘ１Ｙ６、Ｘ２Ｙ７、Ｘ３Ｙ４、Ｘ６Ｙ１、Ｘ５Ｙ２、Ｘ６Ｙ３｝。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるＸ１Ｙ１の非存在、ならびにＸ１Ｙ６およびＸ６Ｙ１の存在は、Ｘ１Ｙ１核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、ＰＣＲまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および／または単離することができる。一部の実装では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。

データ符号化および復号のノイズを、パリンドロームとして識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分のパリンドローム対を使用することにより、低減させることができる。次いで、異なる層からの成分の対をパリンドローム様式（例えば、成分ＸおよびＹについてＸＹではなくＹＸＹ）で互いにアセンブルすることができる。このパリンドローム方法を、より多くの数の層（例えば、ＸＹＺではなくＺＹＸＹＺ）に拡大することができ、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。

識別子への過剰（例えば、大過剰）な補足核酸配列の付加は、配列決定による符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。よって、識別子特異的プライマーまたは識別子特異的プライマーの配列を保有した実体のみが、配列決定による回収のために符号化された識別子を富化することができるであろう。あるいは、または加えて、特異的プライマーを使用する配列決定（例えば、合成による配列決定）により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。

デジタル情報を核酸（例えば、ＤＮＡ）に符号化するためのシステムは、ファイルおよびデータ（例えば、生データ、圧縮されたｚｉｐファイル、整数データ、および他の形態のデータ）をバイトに変換し、バイトを核酸、一般にはＤＮＡのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。

デジタルデータを符号化するためのシステムを使用する方法の非限定的な実装は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス（または識別子のランク）を使用してバイト内のビットの位置をマッピングし、ビット値１またはビット値０のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、１つまたは複数のビットにマッピングされる核酸の配列（例えば、識別子）を含む核酸試料または核酸プールについて配列決定し、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。

核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合されたユニットであってもよく、上述の操作の１つまたは複数が実行されるように構成された複数のユニットであってもよい。情報を核酸分子（例えば、識別子）に符号化し、書き込むためのシステムは、デバイスおよび１つまたは複数のコンピュータプロセッサを含み得る。１つまたは複数のコンピュータプロセッサは、情報が記号列（例えば、ビットの列）に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を２つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。１つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。適したシステムは、２０１９年５月１６日に出願され、米国特許出願公開第２０１９／０３５１６７３号として公開された表題「ＰＲＩＮＴＥＲ－ＦＩＮＩＳＨＥＲＳＹＳＴＥＭＦＯＲＤＡＴＡＳＴＯＲＡＧＥＩＮＤＮＡ」の米国特許出願第１６／４１４，７５２号に記載されている。

デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの１つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、１つまたは複数の固有の成分を含み得る。１つの層内の成分は、別の層の成分と重複しない固有のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分、および鋳型をデバイスの１つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリー反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、１つまたは複数のその後の反応が行われて、識別子の１つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。１つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体（例えば、試薬、成分、鋳型）を転送することができる。

識別子ライブラリーは、デバイスにおいて記憶されても、別々のデータベースに移動されても、またはアーチファクトのタグ付け／追跡に適した組成物もしくは容器に移されてもよい。データベースは、１つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件（例えば、識別子の分解を低減するための条件）をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる。データベースは、紫外線光防護、温度の低下（例えば、冷蔵または凍結）、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前またはアーチファクトに機能付与する前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸（ＥＤＴＡ）および／または核酸分子の安定性を維持するために緩衝液を含み得る。

データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、アリコートの識別子ライブラリーをデバイスから抽出し、そのアリコートを試薬および構成成分と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、１つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の１つよりも多くのプールを同時にコピーすることができる。

アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。配列決定プラットフォームは、核酸配列に符号化された情報の復号および読み取りのために特別に設計されたものであってよい。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用のものであってよい。配列決定プラットフォームは、個々の塩基を読み取ることによって（例えば、塩基ごとの配列決定）、または核酸分子（例えば、識別子）内に組み入れられた核酸配列全体（例えば、成分）の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、配列決定プラットフォームは、Ｉｌｌｕｍｉｎａ（登録商標）Ｓｅｑｕｅｎｃｉｎｇなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによって実装される様々な解析技法を使用して実施することができる。

核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、ワンタイムアクセスコードの保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報（例えば、病歴および診療記録）を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき（例えば、着用できるデバイス中に）、体内に保管することもできる（例えば、皮下カプセル中に）。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診療記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診療記録の保管により、診療記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診療記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。

本開示は、本開示の方法を実装するようにプログラミングされたコンピュータシステムを提供する。図８は、デジタル情報を核酸配列に符号化し、かつ／または核酸配列から導き出された情報を読み取る（例えば、復号する）ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム８０１を示す。コンピュータシステム８０１は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。

コンピュータシステム８０１は、中央処理装置（ＣＰＵ、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも）８０５を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム８０１はまた、メモリまたはメモリ位置８１０（例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ）、電子記憶装置８１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース８２０（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリ、データストレージおよび／または電子ディスプレイアダプターなどの周辺機器８２５も含む。メモリ８１０、記憶装置８１５、インターフェース８２０および周辺機器８２５は、ＣＰＵ８０５と、マザーボードなどの通信バス（実線）を通じて通信する。記憶装置８１５は、データを保管するためのデータストレージユニット（またはデータリポジトリ）であってよい。コンピュータシステム８０１は、通信インターフェース８２０を利用してコンピュータネットワーク（「ネットワーク」）８３０と作動可能にカップリングすることができる。ネットワーク８３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク８３０は、一部の場合では、電気通信および／またはデータネットワークであり得る。ネットワーク８３０は、１つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク８３０は、一部の場合ではコンピュータシステム８０１を利用して、ピアツーピアネットワークを実装することができ、それにより、コンピュータシステム８０１とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。

ＣＰＵ８０５は、プログラムまたはソフトウェアで具体化することができる機械可読命令のシークエンスを実行することができるものである。命令は、メモリ８１０などのメモリ位置に記憶させることができるものである。命令をＣＰＵ８０５に方向付けることができ、その後、それにより、ＣＰＵ８０５を、本開示の方法を実装するようにプログラムするまたは他のやり方で構成することができる。ＣＰＵ８０５により実施される操作の例は、フェッチ、復号、実行、およびライトバック（ｗｒｉｔｅｂａｃｋ）を含み得る。

ＣＰＵ８０５は、集積回路などの回路の一部であってよい。システム８０１の１つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶装置８１５は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置８１５は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム８０１は、一部の場合では、例えばコンピュータシステム８０１とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム８０１に対して外付けである、１つまたは複数の追加的なデータストレージユニットを含み得る。

コンピュータシステム８０１は、１つまたは複数の遠隔コンピュータシステムとネットワーク８３０を通じて通信することができるものである。例えば、コンピュータシステム８０１は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび／もしくは機構（例えば、シークエンサーまたは核酸配列中の窒素含有塩基の順序を化学的に決定するための他のシステム）と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）使用可能デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム８０１にネットワーク８３０を介してアクセスすることができる。

本明細書に記載の方法は、例えば、メモリ８１０または電子記憶装置８１５など、コンピュータシステム８０１の電子ストレージ場所に記憶された機械（例えば、コンピュータプロセッサ）により実行可能なコードによって実装することができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ８０５によって実行することができる。一部の場合では、コードを記憶装置８１５から取得し、プロセッサ８０５による即時アクセスのためにメモリ８１０に記憶させることができる。一部の状況では、電子記憶装置８１５を除外し、機械により実行可能な命令をメモリ８１０に記憶させることができる。コンピュータシステム８０１は、本明細書に記載されている化学的方法および操作のいずれかを行うように構成された、配列決定機械、バーコードスキャナー、網膜スキャナー、指紋スキャナー、キーパッドエントリーデバイス、拭き取りデバイスおよび自動液体処理ユニットのうちいずれか１つに動作可能なように連結することができる。コンピュータシステム８０１は、保証された位置またはデポジットへの物理的アクセスをロックおよびロック解除するように構成することができる。

コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプレコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプレコンパイル様式でまたは同時コンパイル様式（ａｓ－ｃｏｍｐｉｌｅｄｆａｓｈｉｏｎ）で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。

コンピュータシステム８０１などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械（またはプロセッサ）実行可能なコードおよび／または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ）またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを１つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに命令をもたらすことに関与するあらゆる媒体を指す。

したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ（複数可）中のストレージデバイスなど、例えば、図に示されているデータベースなどを実装するために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル；コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波（ＲＦ）および赤外（ＩＲ）データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために１つまたは複数の命令の１つまたは複数のシークエンスをプロセッサに運ぶことに関与し得る。

コンピュータシステム８０１は、例えば、クロマトグラフ、配列、ならびに、ＤＮＡ記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたｚｉｐファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース（ＵＩ）８４０を含む電子ディスプレイ８３５を含み得るまたはそれと通信し得る。ＵＩの例としては、限定することなく、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブに基づくユーザインタフェースが挙げられる。本開示の方法およびシステムは、１つまたは複数のアルゴリズムを介して実装することができる。アルゴリズムは、中央処理装置８０５により実行されるとソフトウェアを介して実装することができる。デジタル情報を符号化する前に、デジタル情報を生データまたはｚｉｐファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、ＤＮＡインデックスおよび生データまたはｚｉｐファイルに圧縮もしくは復元されたデータを用いて使用することができる。

本明細書に記載されているシステムおよび方法に関与する化学的方法は、２０１９年５月１６日に出願され、米国特許出願公開第２０２０／０１９３３０１号として公開された表題「ＣＯＭＰＯＳＩＴＩＯＮＳＡＮＤＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１６／４１４，７５８号；および２０２０年９月４日に出願された表題「ＣＨＥＭＩＣＡＬＭＥＴＨＯＤＳＦＯＲＮＵＣＬＥＩＣＡＣＩＤ－ＢＡＳＥＤＤＡＴＡＳＴＯＲＡＧＥ」の米国特許出願第１７／０１２，９０９号に記載されており、これらの各々は、その全体がこれにより参照により本明細書に組み込まれる。

ライゲーションを使用して、配列決定アダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、配列決定アダプターを非対称にライゲーションすることができる。例えば、フォワード配列決定アダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバース配列決定アダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる（例えば、Ａ尾部など）。

核酸増幅は、ポリメラーゼ連鎖反応、またはＰＣＲを用いて実行することができる。ＰＣＲでは、核酸の出発プール（鋳型プールまたは鋳型と称される）をポリメラーゼ、プライマー（短い核酸プローブ）、ヌクレオチド三リン酸（例えば、ｄＡＴＰ、ｄＴＴＰ、ｄＣＴＰ、ｄＧＴＰ、およびその類似体またはバリアントなど）、ならびにベタイン、ＤＭＳＯ、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。「ＰＣＲ」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。

ハイスループット単一分子ＰＣＲは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがＰＣＲ反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子ＰＣＲでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子ＰＣＲは、配列決定のための核酸を調製するために特に有用であり得る。単一分子ＰＣＲは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルＰＣＲ（またはｄＰＣＲ）では、区別可能な単一分子ＰＣＲ増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。

ＰＣＲの一部の実装では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プライマー結合性部位に対するプライマーは、プール中の全ての核酸に隣接する。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実装では、ＰＣＲを使用し、例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによって、標的化された核酸のサブセットをプールから選択的に増幅することができる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの縁に共通のプライマー結合性部位を共有する（サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。

親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。

一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリー反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた（または意図されたものではないもしくは望ましくない）副産物を濾過して取り除くために使用することができる。例えば、アセンブリーには、各縁配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の２つの捕捉反応を通るのに必要な必須の２つのプローブ結合性部位を含有するようにアセンブルすることを含み得る。ストリンジェンシーを増大させるために、アセンブリーの各成分に共通のプローブ結合性部位を含めることができる。一部の実装では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する（サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な）ように創出またはアセンブルすることができる。

一部の実装では、核酸のライブラリーは、例えば、保存のために、凍結乾燥を受けることができる。凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物（例えば、活性酵素）を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。

核酸は、配列決定が容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびＧＣ含量が高すぎるまたは低すぎる配列などの典型的な配列決定複雑化が回避されるように設計することができる。ある特定のシークエンサーまたは配列決定方法は、エラープローンであり得る。合成ライブラリー（例えば、識別子ライブラリー）を構成する核酸配列（または成分）は、互いからのある特定のハミング距離で設計することができる。このように、配列決定において塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸（または成分）にマッピングし戻すことができる。核酸配列は、少なくとも１塩基、２塩基、３塩基、４塩基、５塩基、６塩基、７塩基、８塩基、９塩基、１０塩基、１１塩基、１２塩基、１３塩基、１４塩基、１５塩基またはそれよりも多くの塩基の変異というハミング距離で設計することができる。ハミング距離の代替距離測定基準を使用して、設計される核酸間の最小の必要距離を規定することもできる。

いくつかの配列決定方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記配列決定計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーにアセンブルすることが伴う。しかし、合成核酸ライブラリー（例えば、識別子ライブラリー）が特定の計器または方法で配列決定されることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー（例えば、識別子ライブラリー）を含む核酸（例えば、成分）中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上に配列決定アダプターをアセンブルすることができる。

核酸は、ＤＮＡ損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、ＵＶＢ（紫外線－Ｂ）光により、隣接するチミンがピリミジン二量体を形成し、次いでそれにより配列決定およびＰＣＲが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがＵＶＢに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン（すなわち、ＴＴ）が回避されるように設計することが有益であり得る。

識別子によりコンピューティングする方法
化学的操作を使用して、識別子ライブラリーにおいて符号化されたデータにおけるコンピュータによる計算を行うことが可能であり得る。かかる操作は、アーカイブ全体の任意のサブセットまたはアーカイブ全体において並列化様式で行うことができるため、これを行うことが有利であり得る。第二に、コンピュータによる計算は、データを復号することなくｉｎｖｉｔｒｏで行うことができ、よって、コンピュータによる計算を可能にしながら機密を確実にする。一実施形態では、例えば、ＡＮＤ、ＯＲ、ＮＯＴ、ＮＡＮＤなどのブール論理演算を含むコンピュータによる計算は、各ビット位置を表す識別子を使用して符号化されたビットストリームにおいて行うことができ、この場合、識別子の存在は、ビット値を「１」に符号化し、識別子の非存在は、ビット値を「０」に符号化する。

一実施形態では、全識別子が、一本鎖核酸分子として構築される（または初期には二本鎖核酸分子として、次いで一本鎖形態へと単離される）。任意の一本鎖識別子ｘについて、本発明者らは、ｘの逆相補体である識別子をｘ^＊によって表示する。一本鎖識別子の任意のセットＳについて、本発明者らは、Ｓにおける各識別子の逆相補体のセットをＳ^＊として表示する。本発明者らは、Ｕによって、ライブラリーにおけるあらゆる可能な一本鎖識別子のセットを表示し、Ｕ^＊によって、その逆相補体のセットを表示する。本発明者らは、これらのセットを、ユニバース（universe）およびユニバース^＊と呼ぶ。Ｕ_ｓおよびＵ_ｓ ^＊によって、本発明者らは、ユニバースおよびユニバース^＊セットの第２の対を表示し、これらのセットにおける各識別子は、化学的方法によって標的化または選択され得る検索領域として公知の追加の核酸配列で拡張される。

所与の識別子ライブラリーにおけるコンピュータによる計算は、ハイブリダイゼーションおよび切断が関与する一連の化学的操作によって実行することができる。これらの操作の抽象化（Abstraction）については後述する。各演算は、入力として識別子のプールを受け取り、演算を行い、出力として識別子のプールを返す。

演算ｓｉｎｇｌｅ（Ｘ）は、識別子のプール（二本鎖および／または一本鎖）を受け取り、一本鎖核酸識別子のみを返す（全ての二本鎖識別子を除去）。演算ｄｏｕｂｌｅ（Ｘ）は、識別子のプール（二本鎖および／または一本鎖）を受け取り、二本鎖識別子のみを返す（全ての一本鎖識別子を除去）。演算ｍａｋｅ－ｓｉｎｇｌｅ（Ｘ）およびｍａｋｅ－ｓｉｎｇｌｅ^＊（Ｘ）は、全ての二本鎖核酸識別子をその一本鎖形態に変換する（星印の付いたバージョンは、マイナス鎖を返す一方、星印の付いていないバージョンは、プラス鎖を返す）。演算ｇｅｔ（Ｘ，ｑ）は、クエリーｑにマッチする全識別子のプールを返す。ｑ＝「全て」である場合、クエリーは、全識別子にマッチし、これを操作する。演算ｄｅｌｅｔｅ（Ｘ，ｑ）は、クエリーｑを満たす全識別子（二本鎖または一本鎖）を削除する。クエリーは、以前に記載された通りにランダムアクセスにより実装することができる。演算ｃｏｍｂｉｎｅ（Ｐ，Ｑ）は、ＰまたはＱにおける全識別子を含有するプールを返す。本発明者らは、Ｙの結果を変数名Ｘに割り当てる演算ａｓｓｉｇｎ（Ｘ，Ｙ）を定義する。簡潔に説明すると、本発明者らはまた、この演算を次式（form）：Ｘ＝Ｙにおいて表示する。本発明者らは、割当て演算が理想的条件下で実行し、変数が、いかなる「混入」問題も伴わずに再利用されることを可能にすると仮定する。

続きにおいて、本発明者らは、両者共に長さｌのビットストリームａおよびｂが、それぞれ二本鎖識別子ライブラリーｄｓＡおよびｄｓＢに書き込まれており、本発明者らは、一部のサブビットストリーム（sub-bitstream）ｓ＝ａ_ｉ…ａ_ｊおよびｔ＝ｂ_ｉ…ｂ_ｊにおけるコンピューティングに関心があり、コンピュータによる計算の結果が、サブビットストリームｓに記憶されるべきであると仮定する。すなわち、本発明者らは、次の演算が、ｉｎｉｔｉａｌｉｚｅ（ｄｓＡ，ｄｓＢ，ｓ，ｔ）演算によって表示される、指定の順序で初期に実行されたと仮定する。

図９は、識別子ライブラリーによりコンピューティングするためのセットアップの例を例示する。本図は、抽象ツリーデータ構造（４と標識）として描かれた識別子の組合せ空間の例を例示する。この例では、ツリーの各レベルは、２つの成分（標識２によって示す）の間から選ぶ。ツリーのルート由来の各パスは、固有の識別子（標識３における例によって例示される通り）に対応し、その順序（またはランク）を決定する。標識４は、一本鎖ユニバーサル識別子ライブラリーを示す。標識５は、例えば「ａ」と呼ばれる特異的ビットストリームを符号化する一本鎖識別子ライブラリーを示す。標識７は、７ビットを含む「ｓ」と呼ばれる「ａ」のサブビットストリームを示す。同様に、標識１０は、同じ長さのビットストリーム「ｂ」のサブビットストリーム「ｔ」を示す。ｉｎｉｔｉａｌｉｚｅ（ｄｓＡ，ｄｓＢ，ｓ，ｔ）をコンピューティングするための初期化手順に記載されている通り、コンピューティングされるべきサブビットストリームは、プールＰおよびＱ（それぞれ６および９と標識）において利用でき、コンピュータによる計算の準備ができている。

ビットストリームｓおよびｔ中のビットのビット単位の論理積として定義される演算ａｎｄ（ｓ，ｔ）は、下の一連の演算を使用して実装することができる。

ビットストリームｓ中のビットのビット単位の論理否定として定義される演算ｎｏｔ（ｓ）は、下の一連の演算を使用して実装することができる。

ビットストリームｓおよびｔ中のビットのビット単位の論理和として定義される演算ｏｒ（ｓ，ｔ）は、下の一連の演算を使用して実装することができる。

ビットストリームｓおよびｔ中のビットの積（conjunction）のビット単位の論理否定として定義される演算ｎａｎｄ（ｓ，ｔ）は、下の一連の演算を使用して実装することができる。

一実施形態では、演算ｓｉｎｇｌｅ（Ｘ）は、Ｘ由来の一本鎖識別子が、ユニバーサル識別子にハイブリダイズするように、ＸをＵ_ｓまたはＵ_ｓ ^＊のいずれかとまず組み合わせることが関与し得る。さらに、Ｕ_ｓおよびＵ_ｓ ^＊におけるユニバーサル識別子は、特別な検索領域を有するため、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化された様式でアクセスされ得る。

一実施形態では、演算ｄｏｕｂｌｅ（Ｘ）は、Ｘにおける識別子をＳ１ヌクレアーゼなどの一本鎖特異的ヌクレアーゼで処理し、次いで結果として生じるＤＮＡのプールをゲルで泳動して、切断されなかった（したがって完全に二本鎖の）識別子のみを単離することが関与し得る。

図１０は、識別子ライブラリーによって符号化されたビットストリーム「ｓ」および「ｔ」において論理演算をどのように行うことができるかの例を例示する。本図において、本発明者らは、コンピューティングされているプールに相補的となるような、ユニバーサルライブラリー（１４と標識）を使用する。ＡＮＤ／ＮＡＮＤと標識された列は、ビットストリーム「ｓ」および「ｔ」（それぞれ５および７と標識）の積をどのようにコンピューティングすることができるかを示す。本発明者らは、プールが、正確なユニバーサルライブラリー（ＵまたはＵ^＊）を使用して再フォーマットされると仮定する。２つのプールが組み合わされる場合、示される通り（例えば標識９）、相補的一本鎖識別子同士がハイブリダイズして、二本鎖（double）識別子を形成する。結果として生じるプールにおける二本鎖識別子の収集（１０と標識）は、ＡＮＤのコンピュータによる計算の結果を符号化する：二本鎖産物の分離は、ａｎｄ（ｓ，ｔ）の識別子ライブラリー表現をもたらす。その代わりに、一本鎖産物の分離は、ｎａｎｄ（ｓ，ｔ）の識別子ライブラリー表現をもたらす。ＯＲと標識された列は、ビットストリーム「ｓ」および「ｔ」の和（disjunction）をそのようにコンピューティングすることができるかを示す。「ｓ」および「ｔ」を表す識別子を含有するプールが組み合わされる場合、結果として生じるライブラリーは、ｏｒ（ｓ，ｔ）の表現を含有する。ＮＯＴと標識された列は、ビットストリーム「ｓ」の否定をどのようにコンピューティングすることができるかを示す。そこで、ビットストリーム「ｓ」を表す一本鎖識別子ライブラリーは、相補的ユニバーサル識別子ライブラリー（１５と標識）と組み合わされる。結果として（１９と標識）、形成された全ての二本鎖産物（例えば１８と標識）は、「ｓ」における「１」ビットを表し、廃棄され得る。残っている一本鎖産物（例えば、１７と標識）は、「ｓ」における「０」ビットを表し、よって、ｎｏｔ（ｓ）における「１」ビットに対応する。これらの一本鎖産物は、ｎｏｔ（ｓ）の識別子ライブラリー表現をもたらし、さらなるコンピュータによる計算に使用され得る。

ＤＮＡによるデータランダム化、暗号および認証の方法
ＤＮＡを使用してランダムビットストリームを生成および記憶する能力は、暗号および組合せアルゴリズムにおけるコンピュータによる計算に用途がある場合がある。多くの暗号化アルゴリズム、例えば、ＤＥＳは、セキュリティーを保証するためにランダムビットの使用を要求する。他の暗号化アルゴリズム、例えば、ＡＥＳは、暗号キーの使用を要求する。典型的には、ランダムビットまたはキーにおける任意のシステマティックパターンまたはバイアスは、暗号化されたメッセージを攻撃し破るために活用され得るため、このようなランダムビットおよびキーは、ランダム性の堅牢なソースを使用して生成される。さらに、暗号化に使用されるキーは典型的に、暗号解読のためにアーカイブされることが要求される。暗号化方法のセキュリティーの強度は、アルゴリズムにおいて使用されるキーの長さに依存する：一般に、キーが長いほど、暗号化は強くなる。ワンタイム・パッド（one-time-pad）などの方法は、最も堅牢な暗号化方法の１つであるが、その長いキー要件が原因で、用途が限られている。

本文書に記載されている方法を使用して、数十、数百、数千、数万またはそれよりも多いビットの長さであり得る、ランダムキーの極めて大きい収集物を生成およびアーカイブするこができる。１つの実装では、各核酸分子が次の設計を満たす核酸ライブラリーを生成することができる：ｎ塩基の長さを有し、ｋ＜ｎ塩基の可変領域を有する。可変領域中の塩基は、ライブラリーの構築の際にランダムに選択できる。例えば、ｎは、１００であり得、ｋは、８０であり得る；よって、サイズ１０^５０の異なる分子のライブラリーが潜在的に生成され得る。例えば、サイズ１０００の分子のかかるライブラリーのランダム試料を配列決定して、暗号化に使用され得る最大１０００ビットランダムキーを得ることができる。

別の実装では、上記の核酸キー（キーを表す核酸分子）を識別子に取り付けて、キーセットの順序付けされた収集物を得ることができる。順序付けされたキーセットを使用して、暗号化の文脈で様々な団体によってキーが使用される順序を同期化することができる。例えば、識別子ライブラリーは、産物スキームを使用して組合せにより構築して、１０^１２通りの固有の識別子を得ることができる。マイクロ流体法を使用して、各識別子を核酸キーと併置し、アセンブルして、固有の識別子およびランダムキーを含む核酸試料を形成することができる。識別子ライブラリーにおける識別子は順序付けされているため、次に、任意の指定の順序でキーを順序付けし、アクセスし、配列決定することができる。

別の実装では、識別子に取り付けられたキーを使用して、入力識別子を一続きのランダムビットにマッピングするランダム関数をインスタンス化することができる。かかるランダム関数は、ハッシュ化など、その値のコンピューティングが容易だが、所与の値からの反転が困難な関数を要求する適用において有用であり得る。かかる適用において、各々固有の識別子によりアセンブルされたキーのライブラリーが、ランダム関数として使用される。値は、ハッシュ化されるべきである場合、それは識別子にマッピングされる。次に、ハイブリダイゼーション捕捉またはＰＣＲなど、ランダムアクセス方法を使用して、識別子は、キーライブラリーからアクセスされる。識別子は、ランダム塩基の配列を含むキーに取り付けられる。このキーは、配列決定され、一続きのビットへと翻訳され、ランダム関数の出力として使用される。

核酸分子ライブラリーは、安価かつ迅速にコピーすることができるため、また、少ない体積でひそかに輸送することができるため、上記の通りに生成された核酸キーセットは、地理的に併置されない複数の団体の間に堅牢かつひそかな様式で多数の暗号化キーが定期的に配布されなければならないという状況において有用であり得る。加えて、キーは、極めて長い期間にわたり確実にアーカイブされ、暗号化されたアーカイブされたデータの堅牢な記憶を可能にすることができる。

図１１～図１６は、ＤＮＡに記憶されたランダムなまたは暗号化されたデータを創出し、記憶し、アクセスし、使用するための方法の実装を例示する。ＤＮＡは、灰色および黒色のバーおよび記号を含む文字列として描写される。各描写されたＤＮＡは、区別可能な種を表す。「種」は、同じ配列の１つまたは複数のＤＮＡ分子として定義される。「種」が、複数形の意味で使用される場合、複数の種における全ての種が、区別可能な配列を有することを仮定することができるが、これは、「種」の代わりに「区別可能な種」と書くことにより、明確にされる場合もある。

図１１は、ＤＮＡの大きい組合せ空間およびシークエンサーを使用した、エントロピー（またはランダムデータ）生成器の例を描写する。方法は、シードと称されるＤＮＡ種のランダムプールで始まる。シードは、理想的には、ＤＮＡの定義された組合せセットの全ての種、例えば、５０塩基を有する（４^５０のメンバーを有する）全てのＤＮＡ種の均一な分布を含有するべきである。しかし、完全組合せ空間は、シードにおいて表されるべき全メンバーにとって大き過ぎる場合があるため、シードが、組合せ空間全体の代わりに組合せ空間のランダムサブセットを含有することが許容できる。シード種は、端（黒色および薄灰色のバー）に共通配列を、次いで中央（Ｎ…Ｎ）に区別可能な配列を有するように設計することができる。縮重オリゴヌクレオチド合成戦略を使用して、急速かつ廉価な様式で、この出発シードを製造することができる。共通端配列は、ＰＣＲによるシードの増幅またはある特定の読み出し（または配列決定）方法との互換性が可能になり得る。縮重オリゴヌクレオチド合成の代替として、組合せＤＮＡアセンブリー（１回の反応において多重化）を使用して、シードを急速かつ廉価に生成することもできる。シークエンサーは、シードから種をランダムにサンプリングし、ランダムな順序でサンプリングする。任意の所与の時点でシークエンサーによって読み取られる種において不確実性が存在するため、システムは、エントロピー生成器として分類することができ、これは、例えば、暗号化キーとして、ランダムな数またはデータのランダムストリームの生成に使用することができる。

図１２Ａは、ＤＮＡにランダムに生成されたデータを記憶するための方法の概略図の例を例示する。この方法は、（１）シードと称されるＤＮＡ種の大きいランダムプールで始まる。シードは、理想的には、ＤＮＡの定義された組合せセットの全ての種、例えば、５０塩基を有する（４^５０のメンバーを有する）全てのＤＮＡ種の均一な分布を含有するべきである。しかし、完全組合せ空間は、シードにおいて表されるべき全メンバーにとって大き過ぎる場合があるため、シードが、組合せ空間のランダムサブセットを含有することが許容できる。シード自体は、縮重オリゴヌクレオチド合成または組合せＤＮＡアセンブリーから生成され得る。（２）ランダムデータ（またはエントロピー）は、シードにおける種のランダムサブセットを受け取ることにより生成される。例えば、これは、シード溶液の釣り合った、分画体積を受け取ることにより達成することができる。例えば、シード溶液が、１マイクロリットル（ｕＬ）当たり推定百万の種からなる場合、シード溶液（十分に混合されていることを仮定）から１ナノリットル（ｎＬ）アリコートを受け取ることにより、およそ千の種のランダムサブセットを選択することができる。その代わりに、サブセットは、ナノポア膜を通るようにシード溶液のアリコートを流動させ、膜を通過した種のみを収集することにより選択することができる。膜を通過した種の数の計数は、ナノポアにわたる電圧差を測定することにより達成することができる。このプロセスは、望ましい数のシグネチャーが検出されるまで（例えば、１００、１０００、１００００またはそれよりも多い種のシグネチャー）続けることができる。別の代替方法として、小さい液滴（例えば、油エマルジョンによる）において単一の種を単離することができる。単一の種を有する小さい液滴は、蛍光シグネチャーによって検出し、一連のマイクロ流体チャネルによって収集チャンバーへと選別することができる。（３）本発明者らは、各選択された種を識別子と言うことができ、さらに、本発明者らは、選択された種の完全サブセットを「ランダム識別子ライブラリー」またはＲＩＬと言うことができる。ＲＩＬにおける情報を安定化し、これを分解から保護するために、ＲＩＬは、種の末端における共通配列に結合するＰＣＲプライマーにより増幅することができる。ＲＩＬにおける識別子（およびしたがって、その中に記憶されたデータ）を決定するために、ＲＩＬを配列決定することができる。真の識別子は、定義されたノイズ閾値を上回る富化を有する試料における種によって定義することができる。（４）ＲＩＬに含有されたデータが決定されたら、余分なエラーチェックおよびエラー補正種をＲＩＬに加えることができる。例えば、何個の識別子を予想するかに関する情報を含有する「整数ＤＮＡ」（例えば、チェックサムまたはパリティチェック）をＲＩＬに加えることができる。整数ＤＮＡは、情報の全てを回収するためにＲＩＬをどの程度深く配列決定するかについて知らせることができる。

ＲＩＬは、固有のＤＮＡタグによりバーコード化することができる。次に、任意の所与のＲＩＬが、その固有のＤＮＡタグに対するハイブリダイゼーションアッセイ（またはＰＣＲ）により個々にアクセスされ得るように、いくつかのバーコード化されたＲＩＬを一緒にプールすることができる。固有のＤＮＡタグを組合せによりアセンブルまたは合成し、次いでその対応するＲＩＬにおいてアセンブルすることができる。図１２Ｂは、１００個のランダム塩基を各々含有する４つの種を含むＲＩＬの例を示す。可能な種の組合せ空間は、４^１００であり、したがって、ＲＩＬは、ｌｏｇ_２（４^１００ｃｈｏｏｓｅ４）≒７２５ビットの情報を含有することができる。図１２Ｃもまた、１００個のランダム塩基を各々含有する４つの種を含むＲＩＬの例を示す。４^１００の組合せ空間から選ばれた４つの種の特定の順序付けされていない組合せに情報を記憶すること（図１２Ｂにおけるような）の代替として、各種の最終的な９０個のランダム塩基を保留して、ｌｏｇ_２（４^９０）＝１８０ビットの情報を記憶することができる一方で、最初の１０個のランダムな塩基を保留して、４つの種の各々に記憶された情報の間に相対的な順序を確立することができる。相対的な順序は、４塩基の定義された順序付けに基づく１０塩基列の辞書式順序付けによって定義することができる（英語において単語がアルファベットにおける文字の順序に従って順序付けされる様式と同様に）。ＲＩＬに情報を割り当てるための本方法は、バイナリ文字列にマッピングするには、図１２Ｂに記載されている方法よりも、計算がより高速であり得る。

前の図（図１２Ａ～図１２Ｃ）において、本発明者らは、複数のＲＩＬをバーコード化し、これらを一緒にプールするための戦略について考察する。これを行うために、入力－出力マッピングが創出され、これによると、入力は、バーコードハイブリダイゼーションプローブ（個々のＲＩＬにアクセスするための）に対応し、出力は、ランダムデータ文字列（標的されたＲＩＬによって符号化）に対応する。本方法において、予め定義されたバーコードは、組み合わせたプールからの検索のためにランダムデータにアセンブルされる一方、図１３Ａは、核酸プローブおよびランダムデータ文字列の間に入力－出力マッピングを創出するための異なる方法を実証し、それによると、バーコード（データにアクセスするための）は、ランダムデータそれ自体と共にランダムに生成される。例えば、バーコードは、１または複数の種の両方の端に現れることができるＤＮＡの短い配列の一対であり得る。本実装では、各バーコードが、偶然に、１つまたは複数の種と関連するように、可能なバーコードの組合せ空間は、プールにおけるあらゆる可能な種の総数と比較して小さくてもよい。例えば、バーコードが、種におけるランダムＤＮＡ配列（共通配列によって挟まれた）の各端における３塩基である場合、４^６＝４０９６の可能なバーコードが存在し、したがって、これらにアクセスするために構築され得る４^６＝４０９６のプライマー対が存在する（１２ビット入力に対応）。ＤＮＡのプールが、およそ４００Ｋの種を有するように選択される場合、各バーコードは、平均しておよそ１００の種に関連することができる。本実装では、ＲＩＬは、各バーコードに関連する種のサブセットによって定義される。先行する例に従って、各種が、バーコード化に使用される塩基（または配列）とは別に２５個のランダムな塩基（またはランダムな配列）を含む場合、１００の種のＲＩＬに関連するバーコードは、最大ｌｏｇ_２（４^２５ｃｈｏｏｓｅ１００）≒４４７５ビットの情報を含有することができる。

図１３Ｂは、バーコード化されたＲＩＬのプールから記憶されたランダムデータにアクセスし、読み取るためのスキームの実装を実証する。シークエンサー（またはリーダー）は、出力を返す前に配列データをマニピュレートするための関数をさらに含むことができる。例えば、ハッシュ関数は、出力データ文字列を使用して逆向き化学的クエリーを行い、その入力を見出すことを困難にし得る。この機能性は、例えば、入力が、認証に使用されるキーまたは認証情報である場合に有用であり得る。

データのクエリー可能な（またはアクセス可能な）ランダム文字列を生成および記憶する方法は、暗号化キー（ランダムデータ文字列から生成）の生成およびアーカイブに特に有用であり得る。各入力を使用して、異なる暗号化キーにアクセスすることができる。例えば、各入力は、特定のユーザ、時間範囲、および／またはプライベートアーカイブデータベースにおけるプロジェクトに対応することができる。プライベートアーカイブデータベースにおける暗号化されたデータ（潜在的に、非常に大量のデータに達する）は、アーカイブサービスプロバイダーによって従来媒体において記憶され得る一方で、暗号化キーは、所有者によってＤＮＡに記憶され得る。さらに、特定の入力のために化学的アクセスプロトコールを行うために要求される潜在的な待ち時間および高度化は、ハッキングに対する暗号化方法のセキュリティー障壁を高めることができる。

図１４は、アーチファクトへのアクセスを保証および認証するためのシステムの例を例示する。システムは、可能な種の大きいプールから取られたＤＮＡの種の特定の組合せを含む物理的なキーを要求する。「識別子キー」とも称される種の標的組合せは、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング（electrowetting）もしくはプリンティングデバイスによって自動的に、またはピペッティングによって手動により生成され得る。ビルトインロックを有するリーダーまたはシークエンサーは、マッチする識別子キーを立証し、アーチファクトへのアクセスを可能にする。その代わりに、リーダーは、認証情報－トークンシステムとして挙動することができ、それによると、アーチファクトへのアクセスを直接的にロック解除する代わりに、これは、アーチファクトのアクセスに使用され得るトークンを返す。トークンは、例えば、リーダー内のビルトインハッシュ化関数によって生成することができ、それによると、ハッシュ化関数は、電子的にリーダー由来の読み取りまたは配列データに適用される。例えば、リーダーは、プロセッサ可読媒体におけるプログラムのステップを実行するように構成されたプロセッサを含み、ステップは、読み取りまたは配列データを取り込み、１つまたは複数の数学的または論理演算をデータに適用し、ハッシュ化された値またはハッシュ化されたトークンを出力することに関与する。

リーダー内でまたはその他の方法で識別子を配列決定した後に電子的にハッシュ化関数を適用するよりもむしろ、ハッシュ化関数を、識別子ライブラリーに適用された１つまたは複数の反応により化学的に適用して、ハッシュ化されたライブラリーを生成することができ、その後に、今やハッシュ化された識別子を配列決定し、または読み取る。ハッシュ化された識別子のみが、配列決定または読み取られることにより、識別子の元のライブラリーの配列データが明らかにならないことから、この手法は、識別子によって符号化された情報のより高いセキュリティーのためのエアギャップされた手法を表すため、有利である。図１５は、セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法１５００について説明するフローチャートを示す。方法１５００は、ステップ１５０２および１５０４が関与する。ステップ１５０２は、セキュリティートークンを表す核酸分子のライブラリーを得ることが関与する。ステップ１５０４は、セキュリティートークンを表すライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得ることが関与する。

化学的操作は、セキュリティートークンにおける１つまたは複数のブール関数をもたらすように設計することができる。例えば、図９および図１０に関する上記のブール関数は、ライブラリーに、よって、それが表すトークンに適用することができる。このようなブール関数は、ライブラリーに化学的に適用されるハッシュ関数を構成して、ハッシュ化されたトークンを表すハッシュ化されたライブラリーを得ることができる。ハッシュ化されたライブラリーは、元のライブラリーのサブセットであり得、サブセットは、ライブラリーの核酸分子の一部を選択することにより決定される。

一部の実装では、方法１５００は、ハッシュ化されたライブラリーの核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップをさらに含む。さらに、方法１５００は、配列決定読み出しをデータベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在を決定するステップが関与し得る。配列決定読み出しにおけるマッチする配列の存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否することができる。配列決定の適した型は、サンガー配列決定、ハイスループット配列決定、ショットガン配列決定およびナノポア配列決定を含む。

ハッシュ化ライブラリーを配列決定するよりもむしろ、検証関数を適用して、完全なライブラリーを配列決定する必要なく、ハッシュ化されたトークンを認証することができる。ハッシュ化されたトークンが、参照配列にマッチする場合、検証関数が、ハッシュ化されたライブラリーにおける１つまたは複数の追加的な化学的操作によって行われて、出力分子が産生する。化学的操作は、ハッシュ化されたトークンへの、図９および図１０に関する上記のものなど、ブール論理を行う効果を有することができる。次に、アッセイを使用して、出力分子の存在または非存在を決定する。検証関数の化学的操作は、ネステッドＰＣＲ、標的特異的プライマーによるＰＣＲ、プローブ（例えば、親和性タグ付けされたプローブまたは分解標的化プローブ）のセットの適用、またはハッシュ化されたライブラリーの核酸と相互作用する酵素もしくはタンパク質の適用が関与し得る。例えば、検証関数の化学的操作は、ハッシュ化されたライブラリーにプライマーを適用することにより、ハッシュ化されたトークンを参照パターン／配列と比較する効果を有することができ、プライマーは、参照パターンにマッチする配列を有する核酸分子のみにハイブリダイズするように設計されている。別の例は、参照パターンに対応する配列を有する核酸分子を標的化する、ジンクフィンガーヌクレアーゼ、転写活性化因子様エフェクターヌクレアーゼ（Ｔａｌｅｎ）、またはＣａｓ９などのＣＲＩＳＰＲ関連タンパク質を使用することにより、ハッシュ化されたトークンを比較または評価することが関与する。これらのタンパク質は、標的化された核酸分子を切断して、断片を創出することができる。Ｃａｓ９は特に、標的核酸に対して相補性を有するガイドＲＮＡを使用することができる。出力分子は、小分子、核酸分子、特定の配列を有する核酸分子、ライブラリーの核酸のうち１つの核酸断片、タンパク質、酵素、機能付与されたタンパク質、タグ付けされた分子、または短い期間で減衰するように構成された分子のいずれかであり得る。例えば、出力分子は、ＲＮＡ（例えば、ライブラリー由来のＲＮＡ）であり、これは、ＲＮＡの配列を改変し、配列忠実度の限定された寿命をＲＮＡに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。

例えば、ＰＣＲ、逆転写ＰＣＲ（ＲＴ－ＰＣＲ）、ｑＰＣＲ、親和性タグ付け、蛍光定量法または電気泳動を、検証関数を完成するためのアッセイとして使用することができる。出力分子が、フルオロフォアであるまたはフルオロフォアでタグ付けされる場合、蛍光定量法が特に有用であり得る。ＲＮＡよりも化学的に安定した相補的ＤＮＡ（ｃＤＮＡ）を産生するための、ＲＴ－ＰＣＲは、出力分子としてのＲＮＡのアッセイに有用である。アッセイを一緒にまたはその代わりに使用して、出力分子の化学的同一性を立証することができる。方法は、アッセイ結果に基づき、保証された資産または位置へのアクセスを許可または拒否するステップがさらに関与し得る。方法は、アッセイ結果に基づき、ライブラリーに関連するアーチファクトの真正性を決定するステップがさらに関与し得る。

一部の実装では、ライブラリーは、固有の分子バーコードを含む。ライブラリーは、安定化された貯蔵のために凍結乾燥されてよい。セキュリティートークンは、トークンのユーザに対して固有であり得る。セキュリティートークンは、メッセージ、コードワード、ランダム化されたコードワード／キー／文字列、身元、または通貨価値を符号化することができる。トークンは、パスワードをエンターしてシステムにログインし、ライブラリーを提示し、ハッシュ化し、検証して、システムへのアクセスを確認または拒否する２要素認証システムの一部であり得る。ライブラリーは、ある期間の後に減衰するように構成することができる。例えば、ライブラリーは、ＲＮＡ（例えば、ライブラリー由来のＲＮＡ）であり、これは、ＲＮＡの配列を改変し、配列忠実度の限定された寿命をＲＮＡに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。

一部の実装では、ライブラリーは、アーチファクトと併置され、セキュリティートークンは、アーチファクトに対して固有である。例えば、アーチファクトは、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスなど、ライブラリーを封入するように構成された容器である。他の適したアーチファクトは、流体（例えば、液体、ガス、油、インク、圧縮ガスまたは薬物）、生物、通貨または文書を含む。アーチファクトが、文書である場合、ライブラリーを含有するインクまたはスタンプは、文書に刷り込まれる。

ライブラリーは、少なくとも約１キロビットの情報を符号化することができる。セキュリティートークンは、複数の記号を含むことができ、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、ランダムに生成される。例えば、図１１～図１３に関して記載されたランダムライブラリーのいずれかが用いられる。一部の実装では、セキュリティートークンは、符号化方式により、核酸分子のライブラリーによって表され、トークンは、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、記号が、２つの可能な記号値の第１の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号が、２つの可能な記号値のうちの第２の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。

ＤＮＡによりアーチファクトにタグ付けし、実体を追跡する方法
溶媒に溶解された識別子ライブラリーは、物理的アーチファクトの中にまたはその表面に噴霧、拡散、分配または注射して、これに情報をタグ付けすることができる。固体形態の（例えば、凍結乾燥された）識別子ライブラリーは、物理的アーチファクトの中にまたはその表面に沈着、静電気的に固着、化学的に結合、またはエアロゾル化し噴霧して、これに情報をタグ付けすることができる。例えば、固有の識別子ライブラリーを使用して、ある型のアーチファクトの区別可能な事例にタグ付けすることができる。アーチファクトにおける識別子ライブラリータグは、固有のバーコードもしくは値として作用することができる、または製品番号、製造もしくは発送日、起源の位置、もしくはアーチファクトの履歴に関係する任意の他の情報、例えば、以前の所有者のトランザクションリストなどのより高度化された情報を含有することができる。識別子を使用して、アーチファクトにタグ付けすることの主な利点は、識別子が、検出不能であり、耐久性があり、個々に膨大な数のアーチファクト事例をタグ付けするのに良く適していることである。

物理的オブジェクトは、固有に識別可能な合成ＤＮＡの試料でマークまたは塗布することができる。ガス（例えば、圧縮空気）および液体（例えば、インクまたは油）であってもタグ付けすることができ、これは、従来方法では不可能である。インク、例えば、プリントカートリッジまたはペンの中のインクが、固有のＤＮＡライブラリーをタグ付けされ、文書におけるプリントまたは書き込みに使用される場合、前記文書の真正性は、文書からＤＮＡを拭き取り、これを配列決定することにより検証することができる。その上、文書における材料の補充または検証のいずれかを行う、ひそかなメッセージがインクの中に含まれていてよい。タグは、守秘的（discreet）であり、例えば、オブジェクトが、ある特定の物理的空間を通って移動したかの、または別のオブジェクトと相互作用したかの識別に使用することができる。タグは、定量的でもあり、したがって、ある特定のオブジェクトが、改ざんされたまたは希釈された（液体または気体の場合）かの検証に使用することができる。例えば、液体が、１ｍＬ当たり１０００コピーのタグをタグ付けされたが、後に１ｍＬ当たり１００コピーで回収される場合、液体が希釈されたと推論され得る。タグおよびバーコードは、容易に創出および配置され得る。これらは、最大数キロビットまたはそれよりも多い情報を含有することができる。これらは、可能な識別子の予め作られた組合せ空間から識別子のサブセットを受け取ることにより創出され得る。

識別子ライブラリーは、堅牢な資産へのアクセスを獲得するためのトークンとして、容易に生成および使用することができる。トークンは、例えば、依然として堅牢であるが１キロビットの情報を符号化するなど、小さくてもよい。トークンを表す識別子ライブラリーは、可能な識別子の予め作られた組合せ空間から識別子のサブセットを受け取ることにより創出することができる。例えば、トークンは、寄託後に所有者に与え、資産の引き落とし後に容認することができる。その代わりに、トークンは、物理的なキーのように、所有者によって創出することができる。その物理的な性質のため、トークンは、電子的窃盗または改ざんを受けないであろう。同様に、その守秘的な性質のため、トークンは、偽造が困難となるであろう。化学的方法を使用して、トークンをハッシュまたは検証して、トークンが電子または可読形式を常にエンターすることを防止することができる。図９および図１０に関する上記のブール論理ゲートなど、化学的操作を使用してハッシュ関数または検証関数を行うことができる。例えば、ＡＮＤ、ＯＲ、ＮＯＴおよびＮＡＮＤなどの化学的論理ゲートを一緒に構成して、そのハッシュ化されたトークンを配列決定することにより元のトークンを推論することが難しくなるような、ハッシュ関数を形成することができる。ハッシュ化されたトークンの値は、資産に対する許可を決定するためにデータベースにマッチすることができるものである。ハッシュ関数の不可逆性が原因で、データベースは、許可されていない団体によって閲覧される可能性があるが、依然として、資産のセキュリティーおよびこれにアクセスする許可された団体の能力を損なうことはない。その上またはその代わりに、化学的論理ゲートは、これを含むＤＮＡ分子の配列決定を要求することなくトークンを検証することができる、トークンのための検証関数を含むことができる。例えば、トークンが正確なパターンにマッチする場合かつその場合に限り、検証関数を使用して、特定の出力識別子を産生することができる。例えば、リアルタイムＰＣＲ（ｑＰＣＲ）、蛍光定量法またはゲル電気泳動などのアッセイにより、前記識別子の存在を決定することができる。

図１６は、追跡または認証のために流体にタグ付けするための方法１６００について説明するフローチャートを示す。方法１６００は、ステップ１６０２および１６０４を含む。ステップ１６０２は、情報を表す核酸分子のライブラリーを得ることが関与する。ステップ１６０４は、流体を、ライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得ることが関与する。例えば、核酸分子のライブラリーを含むタグは、タグ付けされた流体の全体にわたりおよそ均一に分散される。

一部の実装では、方法１６００は、タグ付けされた流体から核酸分子のライブラリーをサンプリングして、試料を得るステップをさらに含む。サンプリングは、タグもしくはタグ付けされた流体を拭き取ること、タグ付けされた流体からライブラリーの少なくとも一部を抽出すること（例えば、流体からある体積をピペッティングするまたは取り出すことにより）、またはタグ付けされた流体からタグを除去すること（例えば、濾過などの分離プロセスにより）が関与し得る。一部の実装では、タグは、磁気ビーズをさらに含み、サンプリングは、流体に磁石を適用して、磁気ビーズを介してタグを抽出することが関与する。方法１６００は、核酸分子の試料を配列決定して、配列決定読み出しを得るステップをさらに含むことができる。上記の配列決定方法のいずれかをこのステップに用いることができる。配列決定読み出しは、図８に記載されているコンピュータネットワーク８０２など、コンピュータシステムに伝達することができる。本明細書に記載されている方法に従って、配列決定読み出しは、ハッシュ化関数を使用してハッシュ化して、情報のセキュリティーのためのハッシュ化されたデータを得ることができる。

ライブラリーは、少なくとも約１キロビットの情報を符号化することができる。情報の量は、ライブラリーおよび／または流体のサイズに基づき縮小拡大（scale）することができる。一部の実装では、タグは、タグまたは流体に特異的な分子バーコードを含む。核酸分子のライブラリーによって符号化された情報は、暗号化されたメッセージなど、メッセージであり得る。情報は、通貨価値を表すことができる。タグは、２要素認証システムの一部であり得る。

一部の実装では、流体は、液体、ガス、油、インク、圧縮ガスまたは薬物である。方法１６００は、タグ付けされた流体におけるタグの濃度を測定して、希釈物の量を決定するステップが関与し得る。一部の実装では、タグは、ある期間内に減衰または希釈するように構成される。例えば、この期間は、タグまたは流体がアクセスまたはサンプリングされたときに開始される。例えば、タグの核酸は、ＲＮＡであり、これは、ＲＮＡの配列を改変し、配列忠実度の限定された寿命をＲＮＡに与えるプロセスである、ウラシルからチミンへのメチル化またはウラシルの酸化的分解により分解する。その代わりに、流体は、ロックされた容器内に含有され、ロックされた容器が破損されると、試薬が流体中に放出されてタグと反応する。

核酸分子のライブラリーは、上記の通り情報を符号化する識別子ライブラリーであり得る。情報は、複数の記号を含むことができるまたはこれにマッピングすることができ、各記号は、ライブラリーの核酸分子の区別可能な配列によって表される。一部の実装では、ライブラリーは、より大きいライブラリーのサブセットである。一部の実装では、図１１～図１３に関する上記の通り、ライブラリーは、ランダムに生成される。一部の実装では、情報は、符号化方式により、核酸分子のライブラリーによって表され、情報は、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、記号が、２つの可能な記号値の第１の記号値を有する場合、複数の記号のうちのある記号は、ライブラリーにおける区別可能な核酸分子の存在によって表され、記号が、２つの可能な記号値のうちの第２の記号値を有する場合、記号は、区別可能な核酸分子の非存在によって表される。例えば、２つの可能な記号値は、０および１であり、値０を有する記号に対応する核酸分子が、タグに存在せず、値１を有する記号に対応する核酸分子が、タグに存在する。

別の実装では、１つまたは複数の物理的位置に各々、識別子ライブラリー由来の固有の識別子をタグ付けすることができる。例えば、物理的部位Ａ、ＢおよびＣに、識別子ライブラリーを普遍的にタグ付けすることができる。部位Ａを訪問したまたは部位Ａと接触した実体、例えば、ビヒクル、人物または任意の他のオブジェクトは、意図的であるにしろそうでないにしろ、識別子ライブラリーの試料を拾得することができる。後に、実体のアクセス後に、実体から試料を集め、化学的に処理および復号して、実体によっていずれの部位が訪問されたかについて識別することができる。実体は、２つ以上の部位を訪問することができ、２つ以上の試料を拾得することができる。識別子ライブラリーが互いに共通の要素を含まない（disjoint）場合、同様のプロセスを使用して、実体によって訪問された部位の一部または全てを識別することができる。かかるスキームは、実体のひそかな追跡における適用を有することができる。このスキームを使用することのいくつかの利点は、特に探索しない限り識別子が検出不能であること、生物学的に不活性となるように設計することができること、および膨大な数の部位または実体を固有にタグ付けするのに使用することができることである。

別の実装では、識別子ライブラリーは、実体をタグ付けすることができる。実体は、訪問した部位に注射された識別子の試料を残すことができる。このような試料を集め、処理し、復号して、いずれの実体が部位を訪問したかについて識別することができる。

（実施例１：ＤＮＡ分子における単一のポエム（ｐｏｅｍ）の符号化、書き込みおよび読み取り）
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長ＰＣＲを用いて実装される産生スキームを使用して識別子を構築するために、データを、ピペットを用いて９６種の成分の層２つからのＤＮＡ成分と一緒に混合して手動で符号化する。第１の層、Ｘは、９６種の総ＤＮＡ成分を含む。第２の層、Ｙも９６種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの６１ビットの連続した（隣接する分離した）列の全てが正確に１７のビット値１で９６ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを９６×９６表にハッシュして、参照マップを形成する。

図１７Ａの中央のパネルは、ポエムが複数の識別子に符号化された９６×９６表の２次元の参照マップを示す。黒い点は「１」ビット値に対応し、白い点は「０」ビット値に対応する。データを、９６種の成分の層２つを使用して識別子に符号化する。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にする。識別子ライブラリーの配列決定を行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１７Ａの右側のパネルは、配列決定によって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位１７の最も豊富な（Ｘ，Ｙ）アセンブリとして取る（均一の重み符号化により、９６ビットの連続した列各々が正確に１７の「１」値、したがって、１７の対応する識別子を有し得ることが保証される）。

（実施例２：６２８２４ビットのテキストファイルの符号化）
符号化されるデータは、総計６２８２４ビットになる３つのポエムのテキストファイルである。オーバーラップ伸長ＰＣＲを用いて実装される産生スキームを使用して識別子を構築するために、データを、ＬａｂｃｙｔｅＥｃｈｏ（登録商標）リキッドハンドラーを使用して３８４種の成分の層２つからのＤＮＡ成分と一緒に混合して符号化する。第１の層、Ｘは３８４種の総ＤＮＡ成分を含む。第２の層、Ｙも３８４種の総成分を含む。ＤＮＡへの書き込みの前に、データをバイナリにマッピングし、次いで、重み（ビット値「１」の数）が減少し、チェックサムが含まれるように再符号化する。チェックサムを、１９２ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ１０，１００であり、これは、構築される識別子の数に対応する。次いで、データを３８４×３８４表にハッシュして参照マップを形成することができる。

図１７Ｂの中央のパネルは、テキストファイルが複数の識別子に符号化された３８４×３８４表の２次元の参照マップを示す。各座標（Ｘ，Ｙ）は、Ｘ＋（Ｙ－１）＊１９２位のデータのビットに対応する。黒い点はビット値「１」に対応し、白い点はビット値「０」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック（例えば、データを復号するための辞書）である。表の各Ｘ値およびＹ値に成分を割り当て、「１」値を有する各（Ｘ，Ｙ）座標についてオーバーラップ伸長ＰＣＲを使用してＸ成分とＹ成分をアセンブルして識別子にすることができる。識別子ライブラリーの配列決定を行って、可能な（Ｘ，Ｙ）アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した（例えば、復号した）。

図１７Ｂの右側のパネルは、配列決定によって決定された、識別子ライブラリー中に存在する配列の存在量の２次元のヒートマップを示す。各画素は対応するＸ成分およびＹ成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Ｓの最も豊富な（Ｘ，Ｙ）アセンブリとして取り、ここで、各行のＳはチェックサム値であり得る。

本発明の好ましい実装が本明細書において示され、記載されているが、そのような実装は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実装の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実装に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。

Claims

追跡または認証のために流体をタグ付けするための方法であって、
デジタル情報を表す核酸分子のライブラリーを得るステップと、
前記流体を、核酸分子の前記ライブラリーを含むタグと組み合わせて、追跡または認証のためのタグ付けされた流体を得るステップと
を含む方法。
前記タグ付けされた流体をサンプリングして、核酸分子の前記ライブラリーの少なくとも一部を含有する試料を得るステップ
をさらに含む、請求項１に記載の方法。
サンプリングステップが、前記タグまたは前記タグ付けされた流体からある体積を拭き取るまたは取り出すステップを含む、請求項２に記載の方法。
前記試料の核酸分子を配列決定して、配列決定読み出しを得るステップ
をさらに含む、請求項２および３のいずれかに記載の方法。
前記配列決定読み出しを参照配列と比較して、マッチする配列の存在を決定するステップ
をさらに含む、請求項４に記載の方法。
前記タグが、前記タグに特異的な分子バーコードを含む、先行する請求項のいずれかに記載の方法。
前記情報が、メッセージを含む、先行する請求項のいずれかに記載の方法。
前記流体が、油、インク、圧縮ガスまたは薬物のうちいずれか１つである、先行する請求項のいずれかに記載の方法。
前記タグ付けされた流体における前記タグの濃度を測定して、希釈物の量を決定するステップ
をさらに含む、先行する請求項のいずれかに記載の方法。
前記ライブラリーが、核酸分子のプールから核酸分子のサブセットを選択することにより生成される、先行する請求項のいずれかに記載の方法。
前記タグ付けされた流体にアクセスし、これにより、前記タグ付けされた流体における前記タグを減衰させるステップ
をさらに含む、先行する請求項のいずれかに記載の方法。
前記タグが、２要素認証システムの一部である、先行する請求項のいずれかに記載の方法。
前記情報が、通貨価値を表す、先行する請求項のいずれかに記載の方法。
前記情報が、複数の記号を含み、各記号が、前記ライブラリーの核酸分子の区別可能な配列によって表される、先行する請求項のいずれかに記載の方法。
前記ライブラリーが、ランダムに生成される、先行する請求項のいずれかに記載の方法。
前記情報が、符号化方式により核酸分子の前記ライブラリーによって表され、前記情報が、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、前記記号が、前記２つの可能な記号値の第１の記号値を有する場合、前記複数の記号のうちのある記号が、前記ライブラリーにおける区別可能な核酸分子の存在によって表され、前記記号が、前記２つの可能な記号値のうちの第２の記号値を有する場合、前記記号が、前記区別可能な核酸分子の非存在によって表される、先行する請求項のいずれかに記載の方法。
前記情報が、少なくとも１キロビットの情報を含む、先行する請求項のいずれかに記載の方法。
セキュリティーおよび認証における使用のための核酸分子のライブラリーを調製するための方法であって、
セキュリティートークンを表す核酸分子の前記ライブラリーを得るステップと、
前記セキュリティートークンを表す前記ライブラリーに化学的操作を適用して、ハッシュ化されたトークンを表す核酸分子のハッシュ化されたライブラリーを得るステップと
を含む方法。
前記化学的操作が、前記セキュリティートークンにおける１つまたは複数のブール関数をもたらす、請求項１８に記載の方法。
前記１つまたは複数のブール関数が、前記セキュリティートークンにハッシュ関数を適用して、前記ハッシュ化されたライブラリーによって表される前記ハッシュ化されたトークンを得る、請求項１９に記載の方法。
前記ハッシュ化されたライブラリーの前記核酸分子の少なくとも一部を配列決定して、配列決定読み出しを得るステップ
をさらに含む、請求項１８～２０のいずれかに記載の方法。
前記配列決定読み出しをデータベースまたはルックアップテーブルと比較して、マッチする配列の存在または非存在を決定するステップ
をさらに含む、請求項２１に記載の方法。
それぞれ前記マッチする配列の前記決定された存在または非存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップ
をさらに含む、請求項２２に記載の方法。
配列決定が、ハイスループット配列決定、ショットガン配列決定またはナノポア配列決定のうちいずれか１つを含む、請求項２１～２３のいずれかに記載の方法。
前記ハッシュ化されたトークンが参照配列にマッチする場合、追加的な化学的操作を前記ハッシュ化されたライブラリーに適用して、出力分子を産生するステップと、
アッセイにより前記出力分子の存在または非存在を決定するステップと
をさらに含む、請求項１８～２０のいずれかに記載の方法。
前記アッセイが、ポリメラーゼ連鎖反応（ＰＣＲ）、リアルタイムＰＣＲ、逆転写ＰＣＲ（ＲＴ－ＰＣＲ）、蛍光定量法およびゲル電気泳動のうち１つである、請求項２５に記載の方法。
前記出力分子が、前記ハッシュ化されたライブラリーの区別可能な核酸分子である、請求項２５および２６のいずれかに記載の方法。
前記出力分子の存在に基づき、保証された資産または位置へのアクセスを許可または拒否するステップ
をさらに含む、請求項２５～２７のいずれかに記載の方法。
前記ライブラリーが、固有の分子バーコードを含む、請求項１８～２８のいずれかに記載の方法。
前記セキュリティートークンが、ランダムに生成されたキーを含む、請求項１８～２９のいずれかに記載の方法。
前記ライブラリーが、凍結乾燥されている、請求項１８～３０のいずれかに記載の方法。
前記ライブラリーが、アーチファクトと併置され、前記セキュリティートークンが、前記アーチファクトに対して固有である、請求項１８～３１のいずれかに記載の方法。
前記アーチファクトが、流体である、請求項３２に記載の方法。
前記流体が、油、インク、圧縮ガスまたは薬物のうちいずれか１つである、請求項３３に記載の方法。
前記流体における前記ライブラリーの濃度を測定して、希釈物の量を決定するステップ
をさらに含む、請求項３３および３４のいずれかに記載の方法。
前記アーチファクトが、生物である、請求項３２に記載の方法。
前記アーチファクトが、文書である、請求項３２に記載の方法。
前記ライブラリーが、ウェル、液滴、スポット、密封された容器、ゲル、懸濁液または固体マトリックスのうちいずれか１つに含有される、請求項１８～３７のいずれかに記載の方法。
前記ライブラリーが、核酸分子のプールから核酸分子のサブセットを選択することにより生成される、請求項１８～３８のいずれかに記載の方法。
前記セキュリティートークンが、２要素認証システムの一部である、請求項１８～３９のいずれかに記載の方法。
前記セキュリティートークンが、複数の記号を含み、各記号が、前記ライブラリーの核酸分子の区別可能な配列によって表される、請求項１８～４０のいずれかに記載の方法。
前記ライブラリーが、ランダムに生成される、請求項１８～４１のいずれかに記載の方法。
前記セキュリティートークンが、符号化方式により、核酸分子の前記ライブラリーによって表され、前記セキュリティートークンが、２つの可能な記号値のうち１つを有する複数の記号にマッピングされ、前記記号が、前記２つの可能な記号値の第１の記号値を有する場合、前記複数の記号のうちのある記号が、前記ライブラリーにおける区別可能な核酸分子の存在によって表され、前記記号が、前記２つの可能な記号値の第２の記号値を有する場合、前記記号が、前記区別可能な核酸分子の非存在によって表される、請求項１８～４２のいずれかに記載の方法。
前記セキュリティートークンが、少なくとも１キロビットの情報を含む、請求項１８～４３のいずれかに記載の方法。
前記セキュリティートークンが、ユーザに対して固有である、請求項１８～４４のいずれかに記載の方法。
前記ハッシュ化されたライブラリーが、前記ライブラリーのサブセットである、請求項１８～４５のいずれかに記載の方法。