JP2021524229A - 核酸ベースのデータ記憶のための組成物および方法 - Google Patents

核酸ベースのデータ記憶のための組成物および方法 Download PDF

Info

Publication number
JP2021524229A
JP2021524229A JP2020564340A JP2020564340A JP2021524229A JP 2021524229 A JP2021524229 A JP 2021524229A JP 2020564340 A JP2020564340 A JP 2020564340A JP 2020564340 A JP2020564340 A JP 2020564340A JP 2021524229 A JP2021524229 A JP 2021524229A
Authority
JP
Japan
Prior art keywords
nucleic acid
identifier
acid molecules
symbol
acid molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020564340A
Other languages
English (en)
Other versions
JPWO2019222561A5 (ja
Inventor
ナサニエル ロケ,
ナサニエル ロケ,
ヒョンジュン パク,
ヒョンジュン パク,
スワプニル ピー. バティア,
スワプニル ピー. バティア,
デビン リーク,
デビン リーク,
Original Assignee
カタログ テクノロジーズ, インコーポレイテッド
カタログ テクノロジーズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カタログ テクノロジーズ, インコーポレイテッド, カタログ テクノロジーズ, インコーポレイテッド filed Critical カタログ テクノロジーズ, インコーポレイテッド
Publication of JP2021524229A publication Critical patent/JP2021524229A/ja
Publication of JPWO2019222561A5 publication Critical patent/JPWO2019222561A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/03Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
    • H03M13/05Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本開示は、デジタル情報を様々な方法で核酸分子に記憶させるためのシステムおよび方法を提供する。デジタル情報は、記号列として受信することができ、記号列における各記号は、記号列内で記号値および記号位置を有する。第1の識別子核酸分子は、M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって形成され得る。各々がそれぞれの記号位置に対応する、複数の識別子核酸分子が形成され得る。識別子核酸分子は、粉末、液体、または固体形態を有するプール中に形成され得る。

Description

関連出願の相互参照
本願は、2018年5月16日に出願され、「COMPOSITIONS AND METHODS FOR NUCLEIC ACID−BASED DATA STORAGE」と題する米国特許仮出願第62/672,495号の優先権および恩典を主張する。上記で参照した出願の全内容は、参照により本明細書に組み込まれる。
核酸デジタルデータ記憶は、情報を符号化し、長期間にわたって記憶するための安定した手法であり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で保管される核酸分子に記憶されたデジタルデータを、60,000年もの年数またはそれより長い年数を経た後に取得することができる。
核酸分子に記憶されたデジタルデータにアクセスするために、核酸分子をシークエンシングすることができる。しかるが故に、核酸デジタルデータ記憶は、長期間にわたって記憶またはアーカイブされる大量の情報を有し得るが稀にしかアクセスされないデータを記憶させるための理想的な方法であり得る。
現行の方法は、配列内の塩基間の関係をデジタル情報(例えば、2進コード)に直接変換するような、塩基毎の核酸配列へのデジタル情報(例えば、2進コード)の符号化に依拠する。デジタル符号化された情報のビットストリームまたはバイトに読み込むことができる、塩基毎の配列に記憶されたデジタルデータのシークエンシングは、エラーを起こしやすい可能性があり、塩基毎のデノボ核酸合成の費用が高価であり得るため符号化費用が嵩み得る。核酸デジタルデータ記憶を実施する新規方法の機会は、あまり費用が嵩まず、商業的インプリメンテーションがより容易である、データの符号化および取得のための手法を提供し得る。
本開示は、デジタル情報を様々な方法で核酸分子に記憶させて、そのデジタル情報の回収およびアクセスの効率を改善するためのシステムおよび方法を提供する。例えば、成分核酸分子(例えば、成分)を選択し、互いに連結して、その各々が記号列(例えばビットストリーム)における特定の記号(例えば、ビットまたは一連のビット)またはその記号の位置(例えば、ランクまたはアドレス)に対応する識別子核酸分子(例えば、識別子)を形成する。それらの成分は、デジタルデータを表す効率的なスキームを提供するために構造化された様式で構築することができる。例えば、成分の構造により、複数の成分分子を同じコンパートメントに蓄積または分配した後に、成分分子を自己アセンブルするか、または他のやり方で既定の順序で成分分子を選別することができる。
本明細書において、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択するステップ、(2)M個の選択された成分核酸分子をコンパートメントに蓄積するステップ、(3)(2)におけるM個の選択された成分核酸分子を物理的にアセンブルして、第1および第2の末端分子ならびに第1および第2の末端分子の間に位置する第3の分子を有する第1の識別子核酸分子を形成し、したがって第1および第2の層からの成分核酸分子が識別子核酸分子の第1および第2の末端分子に対応し、第3の層における成分核酸分子が識別子核酸分子の第3の分子に対応し、第1の識別子核酸分子におけるM個の層の物理的順序を定義するステップによって第1の識別子核酸分子を形成するステップと、(c)各々が(1)第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、(2)それぞれの記号位置に対応する、複数の追加の識別子核酸分子を形成するステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における第1の識別子核酸分子の標的分子と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。
一部のインプリメンテーションでは、識別子核酸分子の集団は、同じ標的分子を共有し、同じプール中の他の識別子核酸分子は、異なる標的分子を有し得る。少なくとも1つの追加の識別子核酸分子の第1および第2の末端分子のうちの少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり得る。一部のインプリメンテーションでは、M個の選択された成分核酸分子を物理的にアセンブルするステップは、成分核酸分子のライゲーションを含む。
一部のインプリメンテーションでは、各層からの成分核酸分子は、(b)および(c)における識別子核酸分子の形成のための付着末端ライゲーションを可能にするために、別の層からの成分核酸分子の少なくとも1つの付着末端に相補的である少なくとも1つの付着末端を含む。例えば、各層(例えば、A、B、C)内の全ての成分が、互いと同じ付着末端を有してもよく、層Aにおける全ての成分の1つの付着末端は、層Bにおける全ての成分の1つの付着末端に相補的である。その上、層Bにおける全ての成分の他の付着末端は、層Cにおける全ての成分の1つの付着末端に相補的であり得る等々である。一部のインプリメンテーションでは、(c)における少なくとも1つの追加の識別子核酸分子の第1の分子は、(b)における識別子核酸分子の第1の末端分子と同一であり、(c)における少なくとも1つの追加の識別子核酸分子の第2の末端分子は、(b)における識別子核酸分子の第2の末端分子と同一である。
一部のインプリメンテーションでは、方法は、プローブを使用して、第1の識別子核酸分子における少なくとも一部の識別子核酸分子および複数の追加の識別子核酸分子の標的分子とハイブリダイズさせて、連続する記号位置を有するそれぞれの記号に対応する識別子核酸分子を選択するステップをさらに含む。連続する記号位置を有する記号は、互いに隣接し、類似の近傍にあるために類似の特徴を共有し得る。したがって、同じプローブを使用して互いに近位に位置する識別子核酸分子を選択することが望ましいであろう。一部のインプリメンテーションでは、方法は、単一のPCR反応を適用して、連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を増幅するステップをさらに含む。一部のインプリメンテーションでは、連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を、識別子核酸分子の第3の分子における特異的成分核酸分子を標的とする別のPCR反応によってさらに増幅することができる。
一部のインプリメンテーションでは、各層における成分核酸分子は、第1および第2の末端領域と共に構造化され、M個の層のある層からの各成分核酸分子の第1の末端領域は、M個の層の別の層からの任意の成分核酸分子の第2の末端領域に結合するように構造化される。一部のインプリメンテーションでは、Mは、3より大きいかまたは3に等しい。一部のインプリメンテーションでは、記号列内の各記号位置は、対応する異なる識別子核酸分子を有する。一部のインプリメンテーションでは、(b)および(c)における識別子核酸分子は、M個の層の各々からの1つの成分核酸分子を各々が含む、可能な識別子核酸分子の組合せ空間のサブセットを表す。
一部のインプリメンテーションでは、(d)におけるプール中の識別子核酸分子の存在または非存在は、記号列内の対応するそれぞれの記号位置の記号値を表す。例えば、識別子の存在は、対応する記号位置での記号値が1であることを表し得るが、非存在は、記号値がゼロであることを表し、またはその逆も当てはまる。一部のインプリメンテーションでは、連続する記号位置を有する記号は、類似のデジタル情報を符号化する。一部のインプリメンテーションでは、M個の層の各々における成分核酸分子の数の分布は非均一である。例えば、1つの層は、識別子核酸分子を創出するための可能な順列の数および/または種類を調整するために、別の層より多くの成分核酸分子を有し得る。
一部のインプリメンテーションでは、第3の層が第1の層または第2の層のいずれかより多い成分核酸分子を含む場合、(d)におけるプールにアクセスするために使用されるPCRクエリは、第3の層が第1の層または第2の層のいずれかより少ない成分核酸分子を含む場合よりアクセスされた識別子核酸分子の大きいプールをもたらす。
一部のインプリメンテーションでは、第3の層が第1の層または第2の層のいずれかより少ない成分核酸分子を含む場合、(d)におけるプールにアクセスするために使用されるPCRクエリは、第3の層が第1の層または第2の層のいずれかより多い成分核酸分子を含む場合よりアクセスされた識別子核酸分子の小さいプールをもたらし、アクセスされた識別子核酸分子のより小さいプールは、記号列における記号に対するアクセスのより高い分解能に対応する。
一部のインプリメンテーションでは、第1の層は最高の優先順位を有し、第2の層は第2の高い優先順位を有し、残りのM−2個の層は第1および第2の末端分子の間の対応する成分核酸分子を有する。一部のインプリメンテーションでは、(d)におけるプールを、1つのPCR反応において第1および第2の末端分子で特定の成分核酸分子を有するプール中の全ての識別子核酸分子にアクセスするために使用することができる。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択するステップ、(2)M個の選択された成分核酸分子をコンパートメントに蓄積するステップ、および(3)(2)におけるM個の選択された成分核酸分子を物理的にアセンブルして、第1および第2の末端分子ならびに第1および第2の末端分子の間に位置する第3の分子を有する第1の識別子核酸分子を形成し、したがって第1および第2の層からの成分核酸分子が識別子核酸分子の第1および第2の末端分子に対応し、第3の層における成分核酸分子が識別子核酸分子の第3の分子に対応し、第1の識別子核酸分子におけるM個の層の物理的順序を定義するステップとを含む方法を提供する。
一部のインプリメンテーションでは、方法は、上記のステップ(a)と、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む。
一部のインプリメンテーションでは、M個の層の少なくとも一部は、イメージデータの異なる特色に対応する。一部のインプリメンテーションでは、異なる特色は、x座標、y座標、および強度の値または強度の値の範囲を含む。イメージデータを核酸分子に記憶させるステップは、本明細書に記載のアクセススキームのいずれかなどのランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にし得る。一部のインプリメンテーションでは、イメージデータを核酸分子に記憶させるステップは、イメージデータを、イメージデータの元の分解能の分率で復号することを可能にする。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップによって第1の識別子核酸分子を形成するステップと、(c)各々が、第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における第1の識別子核酸分子の標的分子と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。イメージデータを核酸分子に記憶させるステップは、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にし得る。
一部のインプリメンテーションでは、イメージデータを核酸分子に記憶させるステップは、イメージデータを、イメージデータの元の分解能の分率で復号することを可能にし、その分率でイメージデータを復号するステップを使用して、監視イメージのアーカイブまたはビデオアーカイブにおいて特定の視覚的特色に関して検索し、目的のフレームを識別する。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)各々が、第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における第1の識別子核酸分子の標的分子と同一であり、M個の選択された成分核酸分子を物理的にアセンブルして(b)における識別子核酸分子を形成するステップが、クリックケミストリーを使用するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。デジタル情報を記憶させる方法のステップ(c)は、上記で列挙したように、第1および第2の末端分子ならびに第3の分子を有する分子を形成するステップを実施することなく、各々がそれぞれの記号位置に対応する複数の識別子核酸分子を一般的に形成するステップを伴い得る。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を、クリックケミストリーを使用して物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップと、(e)プールにおいて回収されたデータを削除するステップとを含む方法を提供する。一部のインプリメンテーションでは、ステップ(c)は、各々が、第1および第2の末端分子ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における第1の識別子核酸分子の標的分子と同一であり、M個の選択された成分核酸分子を物理的にアセンブルして(b)における識別子核酸分子を形成するステップが、クリックケミストリーを使用するステップを含む。
一部のインプリメンテーションでは、方法は、(d)におけるプールからの選択識別子核酸分子を引き下げる配列特異的プローブを使用して、データを選択的に削除するステップをさらに含む。一部のインプリメンテーションでは、選択識別子核酸分子は、CRISPRに基づく方法を使用して選択的に削除される。一部のインプリメンテーションでは、方法は、(d)におけるプール中の識別子核酸分子を不鮮明にして(obfuscating)、データをアクセス不能にするかまたは読み取りを困難もしくは不可能にすることによって、データを非選択的に削除するステップをさらに含む。一部のインプリメンテーションでは、方法は、超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のDNA修飾剤による処置、放射線照射、燃焼、および非特異的ヌクレアーゼ消化を使用して、(d)におけるプールから識別子核酸分子を分解させて、データを非選択的に削除するステップをさらに含む。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)記号列を、固定された長さ以下のサイズの1つまたは複数のブロックに分割するステップと、(c)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(d)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(e)粉末、液体、または固体形態を有するプール中の(d)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。
一部のインプリメンテーションでは、上記のステップ(d)における複数の識別子核酸分子は各々が、第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応し、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つは(b)における第1の識別子核酸分子の標的分子と同一である。
一部のインプリメンテーションでは、方法は、記号列に基づいて各ブロックのサイズを決定するステップ、必要条件を処理するステップ、またはデジタル情報の意図される適用をさらに含む。一部のインプリメンテーションでは、方法は、各ブロックのハッシュを計算するステップをさらに含む。一部のインプリメンテーションでは、方法は、1つまたは複数のエラー検出補正を各ブロックに適用するステップ、および1つまたは複数のエラー保護バイトを計算するステップをさらに含む。一部のインプリメンテーションでは、方法は、1つまたは複数のブロックを、符号化または復号の際の化学条件を最適化するコードワードのセットにマッピングするステップをさらに含む。一部のインプリメンテーションでは、固定された数の識別子核酸分子がライターシステムにおける各反応コンパートメントにおいて、各反応コンパートメント内および反応コンパートメントを超えてほぼ等しい濃度でアセンブルされるように、コードワードのセットは固定された重みを有する。
ある態様では、本開示は、核酸分子に記憶されているデジタル情報について計算を実施する方法を提供する。重要なことに、その計算は、分子のプールから実際のデジタル情報を読み取るまたは復号する必要なく実施され得る。計算は、AND、OR、NOT、またはNAND操作などのブール論理ゲートの任意の組合せを含み得る。具体的には、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップと、(e)(d)における識別子核酸分子を使用して記号列についてAND、OR、NOT、またはNANDを含むブール論理操作を伴う計算を実施して、新規核酸分子プールを産生するステップとを含む方法を提供する。そのような新規核酸分子プールは、計算の結果または出力を表し得る。
一部のインプリメンテーションでは、上記の(c)における識別子核酸分子は各々が、第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応し、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つは(b)における第1の識別子核酸分子の標的分子と同一である。
一部のインプリメンテーションでは、計算は、識別子核酸分子のいずれも復号することなく(d)における識別子核酸分子のプールについて実施され、記号列における任意の記号を得る。一部のインプリメンテーションでは、計算を実施するステップは、ハイブリダイゼーションおよび切断を含む一連の化学操作を含む。
一部のインプリメンテーションでは、(a)における記号列はaと表示されてサブビットストリームsを含み、(d)におけるプール中の複数の識別子核酸分子は二本鎖でありdsAと表示され、方法は、dsBと表示されてサブビットストリームtを含むbと表示される別の記号列を表す別の複数の識別子核酸分子の別のプールを得るステップをさらに含み、計算はdsAおよびdsBについて一連のステップを実施することによってサブビットストリームsおよびtについて実施される。一部のインプリメンテーションでは、dsAおよびdsBについての一連のステップは、dsAにおける二本鎖識別子核酸分子を、Aと表示されるプラス鎖一本鎖型に変換するステップと、dsAにおける二本鎖識別子核酸分子を、Aと表示されるマイナス鎖一本鎖型に変換するステップであって、AがAの逆相補鎖であるステップと、dsBにおける二本鎖識別子核酸分子を、Bと表示されるプラス鎖一本鎖型に変換するステップと、dsBにおける二本鎖識別子核酸分子を、Bと表示されるマイナス鎖一本鎖型に変換するステップであって、BがBの逆相補鎖であるステップと、sに対応するdsAにおける識別子核酸分子としてdsPを選択するステップと、sに対応するAにおける識別子核酸分子としてPを選択するステップと、tに対応するdsBにおける識別子核酸分子としてdsQを選択するステップと、tに対応するBにおける識別子核酸分子としてQを選択するステップとを含む、初期設定ステップを実施するステップを含む。
一部のインプリメンテーションでは、計算はAND操作であり、dsAおよびdsBについての一連のステップは、AおよびBを組み合わせるステップによってaとbとの間でAND操作を実施するステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を新規核酸分子プールとして選択するステップをさらに含む。一部のインプリメンテーションでは、計算はOR操作であり、dsAおよびdsBについての一連のステップは、PおよびQを組み合わせるステップによってsとtとの間でAND操作を実施するステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を新規核酸分子プールとして選択するステップをさらに含む。
一部のインプリメンテーションでは、完全な相補的核酸分子を選択するステップは、クロマトグラフィー、ゲル電気泳動、一本鎖特異的エンドヌクレアーゼ、一本鎖特異的エキソヌクレアーゼ、またはその組合せを使用するステップを含む。
一部のインプリメンテーションでは、計算はOR操作であり、dsAおよびdsBについての一連のステップは、dsAおよびdsBを組み合わせることによってaとbとの間でOR操作を実施し、新規核酸分子プールを産生するステップを含む。一部のインプリメンテーションでは、計算はOR操作であり、dsAおよびdsBについての一連のステップは、dsPおよびdsQを組み合わせることによってsとtとの間でOR操作を実施し、新規核酸分子プールを産生するステップをさらに含む。
一部のインプリメンテーションでは、方法は、AまたはdsAを更新して、新規核酸分子プールを含むステップをさらに含み、それによってAまたはdsAは操作の出力を表すことができる。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)複数の識別子核酸分子を形成するステップと、(c)(b)および(c)における識別子核酸分子を異なるビンに区分化するステップであって、各ビンが異なる記号値に対応するステップとを含む方法を提供する。
一部のインプリメンテーションでは、(b)における第1の識別子核酸分子を形成するステップは、(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択するステップと、(2)M個の選択された成分核酸分子をコンパートメントに蓄積するステップと、(3)(2)におけるM個の選択された成分核酸分子を物理的にアセンブルして、第1および第2の末端分子ならびに第1および第2の末端分子の間に位置する第3の分子を有する第1の識別子核酸分子を形成し、したがって第1および第2の層からの成分核酸分子が識別子核酸分子の第1および第2の末端分子に対応し、第3の層における成分核酸分子が識別子核酸分子の第3の分子に対応し、第1の識別子核酸分子におけるM個の層の物理的順序を定義するステップによって第1の識別子核酸分子を形成するステップとを含む。一部のインプリメンテーションでは、特定の記号値を有する各記号の記号位置は、その値のために用意したビンに記録され、ビンは(2)におけるコンパートメントである。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)複数の識別子核酸分子を形成するステップと、(c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。
一部のインプリメンテーションでは、上記のステップ(c)は、各々が第1および第2の末端分子、ならびに第1および第2の末端分子の間に位置する第3の分子を有し、それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における第1の識別子核酸分子の標的分子と同一であるステップを含む。
一部のインプリメンテーションでは、M個の選択された成分の個々の成分は複数の部分を含み、各部分は核酸分子を含み、各部分は1つまたは複数の化学的方法によって同じ識別子に連結される。一部のインプリメンテーションでは、前記複数の部分は各々が、異なるデータ記憶操作に関して個別の機能的目的を果たす。一部のインプリメンテーションでは、前記機能的目的は、シークエンシングの容易さおよび核酸ハイブリダイゼーションによるアクセスの容易さを含む。一部のインプリメンテーションでは、第1の識別子核酸分子を形成するステップは、dCas9−デアミナーゼなどの塩基エディターを適用することによって、親識別子における1つまたは複数の塩基をプログラム可能に突然変異させるステップを含む。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)塩基エディターを適用することによって、親識別子における1つまたは複数の塩基をプログラム可能に突然変異させることによって、第1の識別子核酸分子を形成するステップと、(c)各識別子核酸分子がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。一例では、(b)において適用される塩基エディターの1つは、dCas9−デアミナーゼである。
ある態様では、本開示は、1つまたは複数のランダムプロセスから産生されたデジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸分子のセットから選択されるM個の選択された成分核酸分子をコンパートメントに蓄積するステップ、およびM個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、(c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。
一部のインプリメンテーションでは、本開示は、適用が、情報の暗号化、エンティティの認証、または無作為化を伴う適用におけるエントロピー源としてのその使用を含む、上記の方法または上記の方法のいずれかの適用を提供する。一部のインプリメンテーションでは、1つまたは複数の分離している識別子ライブラリーからの識別子を使用してエンティティまたは物理的位置を一意に識別する。
ある態様では、本開示は、複数のランダムDNA種のパーティションにおいてデジタル情報を符号化するための方法を提供する。
ある態様では、本開示は、可能なDNA種の大きい組合せプールからDNA種を無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成する方法を提供する。
ある態様では、本開示は、可能なDNA種の大きい組合せプールからDNA種のサブセットを無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成および記憶させる方法を提供する。
一部のインプリメンテーションでは、前記DNA種のサブセットを増幅して、各々の種の複数のコピーを作製する。一部のインプリメンテーションでは、エラー調査および補正のための核酸分子を前記DNA種のサブセットに追加して、頑強な将来の読み出しを可能にする。一部のインプリメンテーションでは、前記DNA種のサブセットを一意の分子によってバーコード化し、DNA種のバーコード化サブセットのプールにおいて組み合わせる。一部のインプリメンテーションでは、前記DNA種のバーコード化サブセットのプール中のDNA種の特定のサブセットは、PCRまたは核酸捕捉のための入力核酸プローブによってアクセス可能である。
ある態様では、本開示は、(1)規定のセットからのDNA種のサブセットで構成されるDNAキーと、(2)キーを承認して、前記アーチファクトを局所でロック解除するためにマッチするキーを検索するか、またはハッシュされたトークンを返却して他のアーチファクトにアクセスするDNAリーダーとを含むシステムによってアーチファクトを保証および認証する方法を提供する。一部のインプリメンテーションでは、方法は、生物学的応用のためにDNA断片を組合せ的にアセンブルするステップをさらに含む。
ある態様では、本開示は、デジタル情報を核酸分子に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択するステップ、(2)M個の選択された成分核酸分子をコンパートメントに蓄積するステップ、(3)(2)におけるM個の選択された成分核酸分子を物理的にアセンブルして、指定成分を含む第1の識別子核酸分子を形成するステップであって、指定成分が、指定成分を含有する識別子のアクセスを可能にするために少なくとも1つの標的分子を含むステップによって第1の識別子核酸分子を形成するステップと、(c)各々が指定成分を有する、複数の追加の識別子核酸分子を物理的にアセンブルするステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、指定成分が、(b)における第1の識別子核酸分子の少なくとも1つの標的分子を含むステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸分子を回収するステップとを含む方法を提供する。
参照による組込み
本明細書で言及される全ての公表文献、特許および特許出願は、個々の公表文献、特許または特許出願各々が参照により組み込まれると具体的かつ個別に示されている場合と同程度に、参照により本明細書に組み込まれる。参照により組み込まれる公表文献および特許または特許出願が、本明細書に収載される本開示と相反する場合は、本明細書は、一切のそのような相反する物質に取って代わるおよび/または優先するように意図されている。
本発明の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本発明の原理を利用する例示的な実施形態が記載されている以下の詳細な説明、および付属図(本明細書では「図(Figure)」および「図(FIG.)」とも)を参照することにより、本発明の特徴および利点のよりよい理解が得られるであろう。
図1は、核酸配列に記憶されたデジタル情報を符号化し、書き込み、アクセスし、問い合わせ、読み取り、復号するためのプロセスの概要を模式的に例示する図である。
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)を使用して「アドレスにおけるデータ(data at address)」と称されるデジタルデータを符号化する方法の例を模式的に例示する図である。図2Aは、ランクオブジェクト(またはアドレスオブジェクト)とバイト値オブジェクト(またはデータオブジェクト)を組み合わせて識別子を創出することを例示する。図2Bは、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるアドレスにおけるデータ法の実施形態を例示する。
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)を使用してデジタル情報を符号化する方法の例を模式的に例示する図である。図3Aは、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを例示する。図3Bは、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実施形態を例示する。
図4は、所与のサイズの情報が記憶されるように構築することができる(等高線)、可能な識別子の組合せ空間(C、x軸)と識別子の平均数(k、y軸)の間の関係の対数空間での等高線プロットである。
図5は、情報を核酸配列(例えば、デオキシリボ核酸)に書き込むための方法の概要を模式的に例示する図である。
図6Aおよび6Bは、区別可能な成分(例えば、核酸配列)を組合せによりアセンブルすることによって識別子(例えば、核酸分子)を構築するための「産物スキーム」と称される方法の例を例示する図である。図6Aは、産物スキームを使用して構築された識別子のアーキテクチャを例示する。図6Bは、産物スキームを使用して構築することができる識別子の組合せ空間の例を例示する。
図7は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための、オーバーラップ伸長ポリメラーゼ連鎖反応の使用を模式的に例示する図である。
図8は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための、付着末端ライゲーションの使用を模式的に例示する図である。
図9は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための、リコンビナーゼアセンブリの使用を模式的に例示する図である。
図10Aおよび10Bは、鋳型により導かれるライゲーションを実証する図である。図10Aは、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための、鋳型により導かれるライゲーションの使用を模式的に例示する。図10Bは、各々が1つのプールされた鋳型により導かれるライゲーション反応において6種の核酸配列(例えば、成分)から組合せによりアセンブルされた256種の区別可能な核酸配列のコピー数(存在量)のヒストグラムである。 図10Aおよび10Bは、鋳型により導かれるライゲーションを実証する図である。図10Aは、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための、鋳型により導かれるライゲーションの使用を模式的に例示する。図10Bは、各々が1つのプールされた鋳型により導かれるライゲーション反応において6種の核酸配列(例えば、成分)から組合せによりアセンブルされた256種の区別可能な核酸配列のコピー数(存在量)のヒストグラムである。
図11A〜11Gは、並び替えられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための「並び替えスキーム」と称される方法の例を模式的に例示する図である。図11Aは、並び替えスキームを使用して構築された識別子のアーキテクチャを例示する。図11Bは、並び替えスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図11Cは、鋳型により導かれるライゲーションを用いた並び替えスキームのインプリメンテーションの例を示す。図11Dは、並び替えられ、繰り返された成分を有する識別子を構築するために図11Cのインプリメンテーションをどのように改変することができるかの例を示す。図11Eは、図11Dのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれ得るかを示す。図11Fは、並び替えられ、繰り返された成分を有する識別子を構築するために鋳型により導かれるライゲーションおよびサイズ選択をどのように使用するかの別の例を示す。図11Gは、サイズ選択により特定の識別子を望ましくない副産物から切り離すことが失敗し得る場合の例を示す。 同上。 同上。 同上。 同上。 同上。
図12A〜12Dは、より多数、M個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「MchooseK」スキームと称される方法の例を模式的に例示する図である。図12Aは、MchooseKスキームを使用して構築された識別子のアーキテクチャを例示する。図12Bは、MchooseKスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図12Cは、鋳型により導かれるライゲーションを使用したMchooseKスキームのインプリメンテーションの例を示す。図12Dは、図12Cのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。 図12A〜12Dは、より多数、M個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「MchooseK」スキームと称される方法の例を模式的に例示する図である。図12Aは、MchooseKスキームを使用して構築された識別子のアーキテクチャを例示する。図12Bは、MchooseKスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図12Cは、鋳型により導かれるライゲーションを使用したMchooseKスキームのインプリメンテーションの例を示す。図12Dは、図12Cのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。 図12A〜12Dは、より多数、M個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「MchooseK」スキームと称される方法の例を模式的に例示する図である。図12Aは、MchooseKスキームを使用して構築された識別子のアーキテクチャを例示する。図12Bは、MchooseKスキームを使用して構築することができる識別子の組合せ空間の例を例示する。図12Cは、鋳型により導かれるライゲーションを使用したMchooseKスキームのインプリメンテーションの例を示す。図12Dは、図12Cのインプリメンテーションの例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がどのように導かれるかを示す。
図13Aおよび13Bは、パーティションされた成分を有する識別子を構築するための「パーティションスキーム」と称される方法の例を模式的に例示する図である。図13Aは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。図13Bは、鋳型により導かれるライゲーションを使用したパーティションスキームのインプリメンテーションの例を示す。 図13Aおよび13Bは、パーティションされた成分を有する識別子を構築するための「パーティションスキーム」と称される方法の例を模式的に例示する図である。図13Aは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。図13Bは、鋳型により導かれるライゲーションを使用したパーティションスキームのインプリメンテーションの例を示す。
図14Aおよび14Bは、いくつかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列」(またはUSS)スキームと称される方法の例を模式的に例示する図である。図14Aは、USSスキームを使用して構築することができる識別子の組合せ空間の例を示す。図14Bは、鋳型により導かれるライゲーションを使用したUSSスキームのインプリメンテーションの例を示す。 図14Aおよび14Bは、いくつかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列」(またはUSS)スキームと称される方法の例を模式的に例示する図である。図14Aは、USSスキームを使用して構築することができる識別子の組合せ空間の例を示す。図14Bは、鋳型により導かれるライゲーションを使用したUSSスキームのインプリメンテーションの例を示す。
図15Aおよび15Bは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の例を模式的に例示する図である。図15Aは、成分削除スキームを使用して構築することができる識別子の組合せ空間の例を示す。図15Bは、二本鎖標的化切断および修復を使用した成分削除スキームのインプリメンテーションの例を示す。 図15Aおよび15Bは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の例を模式的に例示する図である。図15Aは、成分削除スキームを使用して構築することができる識別子の組合せ空間の例を示す。図15Bは、二本鎖標的化切断および修復を使用した成分削除スキームのインプリメンテーションの例を示す。
図16は、リコンビナーゼを親識別子に適用することによってさらなる識別子を構築することができる、リコンビナーゼ認識部位を有する親識別子を模式的に例示する図である。
図17A〜17Cは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図17Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図17Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図17Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。 図17A〜17Cは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図17Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図17Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図17Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。 図17A〜17Cは、より多数の識別子に由来するいくつかの特定の識別子にアクセスすることにより、核酸配列に記憶された情報の一部にアクセスするための方法の例の概要を模式的に例示する図である。図17Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。図17Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。図17Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の指定成分を含有する識別子にアクセスするための方法の例を示す。
図18Aおよび18Bは、核酸分子に符号化されたデータの符号化、書き込み、および読み取りの例を示す図である。図18Aは、5,856ビットのデータの符号化、書き込み、および読み取りの例を示す。図18bは、62,824ビットのデータの符号化、書き込み、および読み取りの例を示す。
図19は、本明細書に提示される方法をインプリメントするようにプログラミングされたまたは他のやり方で構成されたコンピュータシステムを示す図である。
図20は、二本鎖成分の単一の親セット由来の任意の2つの選択された二本鎖成分のアセンブリのスキームの例を示す図である。
図21は、2つのオリゴ、XおよびYで構成される可能な付着末端成分構造を示す図である。
図22は、複数の機能的部分を有する成分からの識別子の構築の例を示す図である。
図23A〜23Bは、PCRベースのランダムアクセスに対する識別子ランクの影響の例を示す図である。
図24A〜24Bは、不均一な成分分布を有する識別子のアーキテクチャの、PCRベースのランダムアクセスに対する影響の例を示す図である。
図25は、識別子のアーキテクチャの層の増加の、PCRベースのランダムアクセスに対する影響の例を示す図である。
図26は、アルファベットの9つの記号に対するマルチビン位置符号化スキームの例を示す図である。
図27は、9種の可能な4ビット列のメッセージのいずれかを符号化することが可能になる、識別子2つの識別子ライブラリーおよびビン3つのビンセットを用いたマルチビン識別子分布符号化スキームの例を示す図である。
図28は、64種の可能な6ビット列のメッセージのいずれかを符号化することが可能になる、識別子2つのライブラリーおよびビン3つのビンセットを用いた識別子の再使用を用いたマルチビン識別子分布符号化スキームの例を示す図である。
図29は、整数パーティションを用いたDNAへの情報の符号化の例を示す図である。
図30は、ソースビットストリームを作成し、ライターによって解釈される構築されたプログラム明細に変換するためのアルゴリズムモジュールを含む符号化パイプラインの例を示す図である。
図31は、識別子ライブラリーをシリアライズされたフォーマットで表すためのデータ構造の一実施形態の例を示す図である。
図32は、識別子プールに対する定義された操作を使用した計算のために調製された2つのソースビットストリームおよびユニバーサル識別子ライブラリーの例を示す図である。
図33は、識別子ライブラリーをどのようにしてin vitroにおける計算のためのプラットフォームとして使用するかを例示する、識別子のプールに対して実施された論理操作の3つの例の入力およびその結果を示す。
図34A〜34Gは、画像ファイルを多分解能で記憶し、読み取ることの例を示す図である。
図35は、ランダムビット列を創出するために使用することができるエントロピーを生成するための方法の例を示す図である。
図36A〜36Cは、エントロピー(ランダムビット列)を生成し、記憶するための方法の例を示す図である。
図37A〜37Bは、入力を使用してランダムビット列を構成し、それにアクセスするための方法の例を示す図である。
図38は、物理的DNAキーを使用してアーチファクトへのアクセスを保証および認証するための方法の例を示す図である。
本発明の様々な実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者には明らかであろう。本発明から逸脱しない非常に多くの変形形態、変更形態および置換形態が当業者の心に浮かぶだろう。本明細書に記載の本発明の実施形態の様々な代替案が利用される可能性があることは理解されるはずである。
用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を一般に指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号は、ビットであり得、ビットは、「0」または「1」の値を有し得る。
用語「区別可能な」または「一意の」は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な、または一意の、核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であることがある。区別可能な、または一意の、核酸分子は、いかなる他の核酸分子とも同じ配列を有さないことがある。区別可能な、または一意の、核酸配列または分子は、別の核酸配列または分子と類似領域を共有することもある。
用語「成分」は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な配列であることがある。成分は、他の核酸配列または分子を生成するように、1つまたは複数の他の成分と連結またはアセンブルされることもある。
用語「層」は、本明細書で使用される場合、成分の群またはプールを一般に指す。各層は、1つの層内の成分が別の層内の成分と異なるような、1セットの区別可能な成分を含むことがある。1つまたは複数の層からの成分は、1つまたは複数の識別子を生成するようにアセンブルされることもある。
用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、または記号列中の記号に対応する、任意のオブジェクトを指すことがある。一部の実施形態では、識別子は、1つまたは複数の連結された成分を含み得る。
用語「組合せ空間」は、本明細書で使用される場合、成分などのオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な区別可能な識別子のセットを一般に指す。成分をアセンブルするまたは連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。
用語「識別子ランク」は、本明細書で使用される場合、セットの中の識別子の順序を規定する関係を一般に指す。
用語「識別子ライブラリー」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の集合体を一般に指す。一部の実施形態では、識別子ライブラリー中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。1つまたは複数の識別子ライブラリーを、識別子のプール、群、またはセットの中で組み合わせることができる。各識別子ライブラリーは、識別子ライブラリーを識別する一意のバーコードを含むこともある。
用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはこれらのバリアントを一般に指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)、またはそのバリアントから選択される1つまたは複数のサブユニットを含み得る。ヌクレオチドは、A、C、G、TもしくはU、またはそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、A、C、G、TもしくはUであることもあり、あるいはより多くの相補的A、C、G、TもしくはUのうちの1つに特異的であり得る、またはプリン(すなわち、AもしくはG、またはそのバリアント)もしくはピリミジン(すなわち、C、TもしくはU、またはそのバリアント)と相補的であり得る、任意の他のサブユニットであることもある。一部の例では、核酸は、一本鎖状または二本鎖状であり得、一部の場合には、核酸分子は環状である。
用語「核酸分子」または「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド(DNA)もしくはリボヌクレオチド(RNA)のどちらかかまたはその類似体である、様々な長さを有し得る、多量体型のヌクレオチド、またはポリヌクレオチドを一般に指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指すことがあり、あるいは、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列または核酸分子を記号またはビットにマッピングするために、したがってデジタル情報を符号化するために、使用することができる。核酸配列またはオリゴヌクレオチドは、1つまたは複数の非標準ヌクレオチド、ヌクレオチド類似体および/または改変ヌクレオチドを含むこともある。
「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を一般に指し、アデニン(A)、シトシン(C)、グアニン(G)およびチミン(T)という、またはポリヌクレオチドがRNAの場合はアデニン(A)、シトシン(C)、グアニン(G)およびウラシル(U)という、4つのヌクレオチド塩基の特異的配列で、概して構成されている。
改変ヌクレオチドの例としては、ジアミノプリン、5−フルオロウラシル、5−ブロモウラシル、5−クロロウラシル、5−ヨードウラシル、ヒポキサンチン、キサンチン、4−アセチルシトシン、5−(カルボキシヒドロキシメチル)ウラシル、5−カルボキシメチルアミノメチル−2−チオウリジン、5−カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ−D−ガラクトシルキューオシン、イノシン、N6−イソペンテニルアデニン、1−メチルグアニン、1−メチルイノシン、2,2−ジメチルグアニン、2−メチルアデニン、2−メチルグアニン、3−メチルシトシン、5−メチルシトシン、N6−アデニン、7−メチルグアニン、5−メチルアミノメチルウラシル、5−メトキシアミノメチル−2−チオウラシル、ベータ−D−マンノシルキューオシン、5’−メトキシカルボキシメチルウラシル、5−メトキシウラシル、2−メチルチオ−D46−イソペンテニルアデニン、ウラシル−5−オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2−チオシトシン、5−メチル−2−チオウラシル、2−チオウラシル、4−チオウラシル、5−メチルウラシル、ウラシル−5−オキシ酢酸メチルエステル、ウラシル−5−オキシ酢酸(v)、5−メチル−2−チオウラシル、3−(3−アミノ−3−N−2−カルボキシプロピル)ウラシル、(acp3)w、2,6−ジアミノプリンなどが挙げられるが、これらに限定されない。核酸分子は、塩基部分が(例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である1つもしくは複数の原子が、および/または相補的ヌクレオチドと水素結合を形成することが通常はできない1つもしくは複数の原子が)修飾されていることもあり、糖部分が修飾されていることもあり、またはリン酸骨格が修飾されていることもある。核酸分子は、N−ヒドロキシコハク酸エステル(NHS)などのアミン反応性部分の共有結合を可能にするためにアミノアリル−dUTP(aa−dUTP)およびアミノヘキシルアクリルアミド(aminohexhylacrylamide)−dCTP(aha−dCTP)などのアミン修飾基を含有することもある。
用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応(PCR)などの核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、DNA試料の複製中に、複製を触媒する酵素が、DNA試料に結合したプライマーの3’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、PCRに関するより多くの情報については、化学方法セクションDを参照されたい。
用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、または合成されることもある。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合には、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)が、新たな核酸配列を構築するために、ポリメラーゼと併せてまたはポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex−Taqポリメラーゼ、LA−Tawポリメラーゼ、SsoポリメラーゼPocポリメラーゼ、Pabポリメラーゼ、MthポリメラーゼES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’→5’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにこれらのバリアント、改変産物および誘導体が挙げられる。PCRと共に使用することができるさらなるポリメラーゼについては、ならびにポリメラーゼ特性がPCRにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションDを参照されたい。
本明細書で使用される場合、用語「種」は一般的に、同じ配列の1つまたは複数のDNA分子を指す。「種」を複数の意味で使用する場合、複数の種におけるあらゆる種が区別可能な配列を有すると仮定され得るが、これは時に「種」の代わりに「区別可能な種」と書くことによって明白となり得る。
2進コードの形での、コンピュータデータなどの、デジタル情報は、記号の配列または記号列を含み得る。2進コードは、例えば、ビットと呼ばれる2つの2進記号、通常は0および1、を有する2進法を使用して、テキストまたはコンピュータプロセッサ命令を符号化することまたは表すことができる。デジタル情報は、非2進記号の配列を含み得る非2進コードの形で表すことができる。符号化された各記号を、一意のビット列(または「バイト」)に再び割り当てることができ、一意のビット列またはバイトを、バイト列またはバイトストリームに配列することができる。所与のビットについてのビット値は、2つの記号のうちの1つ(例えば、0または1)であり得る。Nビットの列を含むことができるバイトは、合計2の一意のバイト値を有することができる。例えば、8ビットを含むバイトは、合計2または256の可能な一意のバイト値を生じさせることができ、256バイトの各々は、バイトで符号化することができる256の可能な区別可能な記号、文字または命令のうちの1つに対応し得る。生データ(例えば、テキストファイルおよびコンピュータ命令)を、バイト列またはバイトストリームとして表すことができる。zipファイル、または生データを含む圧縮データファイルを、バイトストリームで記憶することもでき、これらのファイルを圧縮形でバイトストリームとして記憶し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。
本開示の方法およびシステムを使用して、1ビットまたは複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータまたは情報を符号化することができる。一部の例では、本開示の方法およびシステムは、2ビットの一次情報を各々が表す識別子を使用して、データまたは情報を符号化する。
デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは、費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報記憶の商業的実現可能性を向上させることができ、あらゆる新たな情報記憶要求のための区別可能な核酸配列のデノボ合成を無くすことができる。
新規方法は、塩基毎またはデノボ核酸合成(例えば、ホスホロアミダイト合成)に依拠するのではなく、成分の組合せ配列を含む複数の識別子または核酸配列にデジタル情報(例えば、2進コード)を符号化することができる。しかるが故に、新規戦略は、情報記憶の第1の要求のために区別可能な核酸配列(または成分)の第1のセットを生成することができ、その後、後続の情報記憶要求のために同じ核酸配列(または成分)を再利用することができる。これらの手法は、DNAへの情報の符号化および書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、DNAベースの情報記憶の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホロアミダイト化学ベースのまたは鋳型なしのポリメラーゼベースの核酸伸長、のインプリメンテーションと異なり、成分からの識別子構築を使用してDNAに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してDNAへのデジタル情報の書き込み速度を上昇させることができる。
情報を核酸配列に符号化するおよび書き込む方法
ある態様では、本開示は、情報を核酸配列に符号化する方法を提供する。核酸配列に情報を符号化する方法は、(a)情報を記号列に変換するステップと、(b)記号列を複数の識別子にマッピングするステップと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリーを構築するステップとを含み得る。複数の識別子のうちの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における1つの記号は、識別子の非存在に対応し得る。例えば、「0」および「1」の2進記号(例えば、ビット)列における「0」の出現各々が、識別子の非存在に対応し得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成するステップと、(c)核酸配列を有する核酸分子を記憶させるステップとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化され、核酸分子の各々の配列に符号化されないことがある。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。この方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信するステップと、(b)コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成するステップと、(c)少なくとも1つの核酸配列を含む核酸分子を記憶させるステップとを含み得る。核酸分子を合成するステップは、塩基毎の核酸合成の非存在下でのステップであり得る。
別の態様では、本開示は、核酸配列に情報を書き込むおよび記憶させる方法を提供する。核酸配列に情報を書き込むおよび記憶させる方法は、(a)情報を表す仮想識別子ライブラリーを受信または符号化するステップと、(b)識別子ライブラリーを物理的に構築するステップと、(c)識別子ライブラリーの1つまたは複数の物理的コピーを1つまたは複数の別々の位置に記憶させるステップとを含み得る。識別子ライブラリーの個々の識別子は、1つまたは複数の成分を含み得る。1つまたは複数の成分のうちの個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択するステップ、(2)M個の選択された成分核酸配列をコンパートメントに蓄積するステップ、(3)(2)におけるM個の選択された成分核酸配列を物理的にアセンブルして、第1および第2の末端配列ならびに第1および第2の末端配列の間に位置する第3の配列を有する第1の識別子核酸配列を形成し、したがって第1および第2の層からの成分核酸配列が識別子核酸配列の第1および第2の末端配列に対応し、第3の層における成分核酸配列が識別子核酸配列の第3の配列に対応し、第1の識別子核酸配列におけるM個の層の物理的順序を定義するステップによって第1の識別子核酸配列を形成するステップと、(c)各々が(1)第1および第2の末端配列、ならびに第1および第2の末端配列の間に位置する第3の配列を有し、(2)それぞれの記号位置に対応する、複数の追加の識別子核酸配列を形成するステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップとを含む方法を提供する。
別の態様では、本発明は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有し、デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、(b)M個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるM個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第1の識別子核酸配列を形成するステップと、(c)各々が、第1および第2の末端配列、ならびに第1および第2の末端配列の間に位置する第3の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を形成するステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップであって、イメージデータを核酸配列に記憶させるステップが、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にするステップとを含む方法を提供する。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるM個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第1の識別子核酸配列を形成するステップと、(c)各々が、第1および第2の末端配列ならびに第1および第2の末端配列の間に位置する第3の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップとを含む方法を提供する。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)記号列を、固定された長さ以下のサイズの1つまたは複数のブロックに分割するステップと、(c)M個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるM個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第1の識別子核酸配列を形成するステップと、(d)各々が第1および第2の末端配列、ならびに第1および第2の末端配列の間に位置する第3の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(e)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップとを含む方法を提供する。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)M個の異なる層に分けられた区別可能な成分核酸配列のセットから選択されるM個の選択された成分核酸配列をコンパートメントに蓄積するステップによって第1の識別子核酸配列を形成するステップと、(c)各々が第1および第2の末端配列、ならびに第1および第2の末端配列の間に位置する第3の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップと、(e)(d)における識別子核酸配列を使用して記号列についてAND、OR、NOT、またはNANDを含むブール論理操作を伴う計算を実施して、新規核酸配列プールを産生するステップとを含む方法を提供する。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択するステップ、(2)M個の選択された成分核酸配列をコンパートメントに蓄積するステップによって、第1の識別子核酸配列を形成するステップと、(c)各々が第1および第2の末端配列、ならびに第1および第2の末端配列の間に位置する第3の配列を有し、それぞれの記号位置に対応する、複数の識別子核酸配列を物理的にアセンブルするステップであって、単一のプローブが、記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、および第3の配列のうちの少なくとも1つが(b)における第1の識別子核酸配列の標的配列と同一であるステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップとを含む方法を提供する。
別の態様では、本開示は、デジタル情報を核酸配列に記憶させる方法であって、(a)デジタル情報を記号列として受信するステップであって、記号列における各記号が、記号列内で記号値および記号位置を有するステップと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択するステップ、(2)M個の選択された成分核酸配列をコンパートメントに蓄積するステップ、(3)(2)におけるM個の選択された成分核酸配列を物理的にアセンブルして、指定成分を含む第1の識別子核酸配列を形成するステップであって、指定成分が、指定成分を含有する識別子のアクセスを可能にするために少なくとも1つの標的配列を含むステップによって第1の識別子核酸配列を形成するステップと、(c)各々が指定成分を有する、複数の追加の識別子核酸配列を物理的にアセンブルするステップであって、プローブが、記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸配列を選択することが可能となるように、指定成分が(b)における第1の識別子核酸配列の少なくとも1つの標的配列を含むステップと、(d)粉末、液体、または固体形態を有するプール中の(b)および(c)における識別子核酸配列を回収するステップとを含む方法を提供する。
図1は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み取り、読み取り情報を復号するためのプロセスの概要を示す。デジタル情報、またはデータを、1つまたは複数の記号列に変換することができる。一例では、記号は、ビットであり、各ビットは、「0」または「1」のどちらかの値を有し得る。各記号を、その記号を表すオブジェクト(例えば、識別子)にマッピングまたは符号化することができる。各記号を区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成されている核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報を、その情報に対応する識別子ライブラリーを生成することにより、核酸配列に書き込むことができる。識別子ライブラリーは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。デジタル情報の全てのまたは任意の部分に同時にアクセスすることができる。一例では、識別子のサブセットが識別子ライブラリーからアクセスされる。識別子のサブセットは、識別子をシークエンシングまたは識別することにより読み取ることができる。識別された識別子をそれらの対応する記号と関連付けて、デジタルデータを復号することができる。
図1の手法を使用して情報を符号化するおよび読み取る方法は、例えば、ビットストリームを受信するステップと、識別子ランクまたは核酸インデックスを使用してビットストリーム中の各々1ビット(「1」のビット値を有するビット)を区別可能な核酸識別子にマッピングするステップとを含み得る。1のビット値に対応する(かつ0のビット値の識別子を含まない)識別子のコピーを含む、核酸試料プールまたは識別子ライブラリーを構築すること。試料の読み取りは、分子生物学方法(例えば、シークエンシング、ハイブリダイゼーション、PCRなど)を使用して、識別子ライブラリー中のどの識別子が表されるのかを判定することと、「1」のビット値をこれらの識別子に対応するビットにおよび「0」のビット値を他の場所に割り当てること(識別子ランクを再び参照して各識別子が対応する元のビットストリーム中のビットを識別すること)、かくて、情報を符号化された元のビットストリームに復号することとを含み得る。
区別可能なNビットの列の符号化は、可能な識別子として相当数の一意の核酸配列を使用し得る。この情報符号化手法は、記憶するために情報の新しいアイテム(Nビットの列)毎に識別子(例えば、核酸分子)のデノボ合成を使用し得る。他の例では、記憶するために情報の新しいアイテム毎に識別子(数がNに相当するかまたはそれ未満である)を新たに合成する費用を、情報の新しいアイテムの符号化が、事前に合成された(または既成の)識別子を機械的に選択し、互いに混合して、識別子ライブラリーを形成することを含み得るような、全ての可能な識別子の1回限りのデノボ合成およびその後の維持により、削減することができる。他の例では、(1)記憶するための情報の新しいアイテム毎の最大N個の識別子のデノボ合成のコストも、または(2)記憶するために情報の新しいアイテム毎にN個の可能な識別子を維持し、そこから選択することのコストも、またはこれらの任意の組合せのコストも、核酸配列を合成し、その数(N未満、一部の場合には、Nよりもはるかに少ない)を維持し、そしてその後、これらの配列を、記憶するための情報の新しいアイテム毎に最大N個の識別子を生成するように酵素反応によって改変することにより、削減することができる。
読み取り、書き込み、アクセス、コピーおよび削除操作を容易にするために識別子を合理的に設計することおよび選択することができる。書き込みエラー、突然変異、分解、および読み取りエラーを最小限にするように識別子を設計することおよび選択することができる。合成核酸ライブラリー(例えば、識別子ライブラリー)を含むDNA配列の合理的設計に関しては化学的方法セクションHを参照されたい。
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)中のデジタルデータを符号化する、「アドレス位置のデータ」と呼ばれる、方法の例を模式的に示す。図2Aは、個々の識別子が、識別子ランクを指定する単一の成分とバイト値を指定する単一の成分とを連結またはアセンブルすることにより構築される、識別子ライブラリーへのビットストリームの符号化を示す。一般に、アドレス位置のデータ方法は、バイト値を識別する1つのオブジェクトである「バイト値オブジェクト」(または「データオブジェクト」)、および識別子ランク(または元のビットストリーム中のバイトの相対位置)を識別する1つのオブジェクトである「ランクオブジェクト」(または「アドレスオブジェクト」)という、2つのオブジェクトを含むことにより、情報をモジュール式に符号化する識別子を使用する。図2Bは、各ランクオブジェクトが、1セットの成分から組合せ的に構築され、各バイト値オブジェクトが、1セットの成分から組合せ的に構築され得る、アドレス位置のデータ方法の例を示す。ランクオブジェクトとバイト値オブジェクトのこのような組合せ構築は、オブジェクトが単一成分のみから作成された場合(例えば、図2A)よりも多くの情報を識別子に書き込むことを可能にする。
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)中のデジタル情報を符号化する方法の別の例を模式的に示す。図3Aは、識別子が、識別子ランクを指定する単一成分から構築される、識別子ライブラリーへのビットストリームの符号化を示す。特定のランク(またはアドレス)における識別子の存在により「1」のビット値が指定され、特定のランク(またはアドレス)における識別子の非存在により「0」のビット値が指定される。このタイプの符号化は、単にランク(元のビットストリーム中のビットの相対位置)を符号化する識別子を使用し、識別子ライブラリー中のこれらの識別子の存在または非存在を使用してそれぞれ「1」または「0」のビット値を符号化することができる。情報の読み取りおよび復号は、識別子ライブラリー中に存在する識別子を識別すること、「1」のビット値をそれらの対応するランクに割り当てること、および「0」のビット値を他の場所に割り当てることを含み得る。図3Bは、各識別子を1セットの成分から組合せ的に構築することができ、したがって、可能な組合せ構築各々がランクを指定する、符号化方法の例を示す。このような組合せ構築は、識別子が単一成分のみから作成された場合(例えば、図3A)よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、5つの区別可能な成分を含み得る。5つの区別可能な成分を、5成分のうちの2成分を各々が含む10の区別可能な識別子を生成するように、アセンブルすることができる。10の区別可能な識別子は、ビットストリーム中のビットの位置に対応するランク(またはアドレス)を各々が有し得る。識別子ライブラリーは、これらの10の可能な識別子のうちの、ビット値「1」の位置に対応するサブセットを含み、これらの10の可能な識別子のうちの、長さ10のビットストリーム内のビット値「0」の位置に対応するサブセットを含まないことがある。
図4は、可能な識別子の組合せ空間(C、x軸)と、図3Aおよび3Bに示されている符号化方法を使用してビットの所与の元のサイズの情報(D、等高線)を記憶するように物理的に構築される識別子の平均数(k、y軸)との間の関係の、対数空間での、等高線プロットを示す。このプロットは、サイズDの一次情報が、数個、つまりk個のビットが「1」のビット値を有するCビットの列(Cは、Dより大きくなり得る)に再符号化されることを前提としている。さらに、このプロットは、核酸への情報の符号化が、再符号化されたビット列で行われること、およびビット値が「1」である位置については識別子が構築され、ビット値が「0」である位置については識別子が構築されないことを前提としている。これらの前提に従って、可能な識別子の組合せ空間は、再符号化されたビット列中のあらゆる位置を識別するためにサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log(Cchoosek)(式中、Cchoosekは、C個の可能性からk個の順不同結果を選ぶ方法の数についての数式であり得る)となるような数である。したがって、可能な識別子の組合せ空間が、情報の所与のアイテムのサイズ(ビットで)を超えて増加するにつれて、所与の情報を記憶させるために使用され得る物理的に構築される識別子の数が減少する。
図5は、情報を核酸配列に書き込む方法の概要を示す。情報を書き込む前に、情報を記号列に変換し、複数の識別子に符号化することができる。情報の書き込みは、可能な識別子を生成するための反応を始動することを含み得る。コンパートメントに投入物を蓄積することにより、反応を始動することができる。投入物は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン中の液滴であり得る。複数の反応を複数のコンパートメントで始動することができる。反応が進行して、プログラムされた温度のインキュベーションまたは循環によって識別子を生成することができる。反応を選択的にまたは普遍的に除去(例えば、削除)することができる。1つのプールにそれらの識別子を回収するために、反応を選択的にまたは普遍的に中断、コンソリデート、および精製することもできる。複数の識別子ライブラリーからの識別子を同じプールに回収することができる。個々の識別子は、それがどの識別子ライブラリーに属するのかを識別するためにバーコードまたはタグを含み得る。あるいは、または加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸または識別子を識別子ライブラリーと一緒に識別子プールに含めることもできる。補足の核酸または識別子は、符号化された情報のメタデータを含むこともあり、または符号化された情報を不鮮明に、もしくは隠蔽するのに役立つこともある。
識別子ランク(例えば、核酸インデックス)は、識別子の順序付けを決定するため方法またはキーを含むことができる。方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、これらの成分の組合せを含む任意の識別子の順序付けを決定するための関数とを有する、ルックアップテーブルを含むこともできる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書の中のワードがアルファベット順に順序付けられる様式に類似していることがある。アドレス位置のデータ符号化方法では、識別子ランク(識別子のランクオブジェクトにより符号化された)を使用して、ビットストリーム内のバイトの位置(識別子のバイト値オブジェクトにより符号化された)を決定することができる。代替方法では、存在する識別子の識別子ランク(全識別子自体により符号化された)を使用して、ビットストリーム内の「1」のビット値の位置を決定することができる。
キーは、区別可能なバイトを試料中の識別子(例えば、核酸分子)の一意のサブセットに割り当てることができる。例えば、単純な形では、キーは、ビットの位置を指定する一意の核酸配列にバイト中の各ビットを割り当てることができ、そしてその後、試料中のその核酸配列の存在または非存在により、それぞれ1または0のビット値が指定され得る。核酸試料からの符号化された情報の読み取りは、シークエンシング、ハイブリダイゼーションまたはPCRを含む任意の数の分子生物学技術を含むことができる。一部の実施形態では、符号化されたデータセットの読み取りは、データセットの一部を再構築することを含むこともあり、または各核酸試料からの符号化されたデータセット全体を再構築することを含むこともある。配列を読み取ることができるとき、核酸インデックスを、一意の核酸配列の存在または非存在と共に使用することができ、核酸試料をビットストリーム(例えば、各ビット列、バイト(単数)、バイト(複数)、またはバイトストリーム)に復号することができる。
識別子は、成分核酸配列を組合せ的にアセンブルすることにより構築することができる。例えば、分子の被定義群(例えば、組合せ空間)からの1セットの核酸分子(例えば、識別子)を使うことにより、情報を符号化することができる。分子の被定義群の可能な識別子各々は、層に分けることができる成分の既成のセットからの核酸配列(例えば、成分)のアセンブリであることもある。個々の識別子各々は、固定された順序で全ての層から1つの成分を連結させることにより構築することができる。例えば、M個の層があり、各層がn個の成分を有する場合には、最大C=n個の一意の識別子を構築することができ、最大2個の異なる情報アイテムまたはC個のビットを符号化し、記憶することができる。例えば、メガビットの情報の記憶は、1×10個の区別可能な識別子、またはサイズC=1×10の組合せ空間を使用することができる。この例での識別子は、異なる方法で構成された様々な成分からアセンブルすることができる。n=1×10の成分を各々が含有するM=2の既成の層からアセンブリを作成することができる。あるいは、n=1×10の成分を各々が含有するM=3の層からアセンブリを作成することができる。一部のインプリメンテーションでは、アセンブリは、M=2、M=3、M=4、M=5個またはそれより多くの層で作製され得る。この例が例示するように、同じ量の情報をより多くの数の層を使用して符号化することによって、成分の総数をより少なくすることが可能になり得る。書き込み費用の観点から、より少数の総成分を使用するほうが有利であり得る。
一例では、xおよびy個の成分(例えば、核酸配列)それぞれを各々が有する2セットの一意の核酸配列または層、XおよびYで、始めることができる。Xからの各核酸配列をYからの各核酸配列にアセンブルすることができる。これらの2セットの中に維持される核酸配列の総数は、xとyの和であり得るが、生成され得る核酸分子の総数およびしたがって可能な識別子は、xとyの積であり得る。Xからの配列がYの配列に任意の順序でアセンブルされてもよいのであれば、よりいっそう多くの核酸配列(例えば、識別子)を生成することができる。例えば、生成される核酸配列(例えば、識別子)の数は、アセンブリ順序がプログラム可能である場合、xとyの積の2倍になり得る。生成され得る全ての可能な核酸配列のこのセットをXYと呼ぶことができる。XY中の一意の核酸配列のアセンブルされた単位の順序を、区別可能な5’および3’末端を有する核酸を使用して制御することができ、配列の区別可能な5’および3’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)、およびシークエンシングを行うことができる。このような手法は、N個の区別可能なビットを符号化するために使用される核酸配列(例えば、成分)の総数を、それらのアセンブリ産物の組合せおよび順序で情報を符号化することにより、低減させることができる。例えば、100ビットの情報を符号化するために、10の区別可能な核酸分子(例えば、成分)の2つの層を固定された順序でアセンブルして、10*10または100の区別可能な核酸分子(例えば、識別子)を生成してもよく、または5つの区別可能な核酸分子(例えば、成分)の1つの層と10の区別可能な核酸分子(例えば、成分)のもう1つの層とを任意の順序でアセンブルして、100の区別可能な核酸分子(例えば、識別子)を生成してもよい。
各層内の核酸配列(例えば、成分)は、一意の(または区別可能な)配列、またはバーコード、を中央に、共通ハイブリダイゼーション領域を一方の末端に、および別の共通ハイブリダイゼーション領域をもう一方の他方の末端に含むことができる。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含有することができる。例えば、通常は、バーコード内の各塩基位置に4つの可能なヌクレオチドが存在する。したがって、3塩基バーコードは、4=64の核酸配列を一意に識別することができる。バーコードを、無作為に生成されるように設計することができる。あるいは、バーコードを、識別子の構築化学またはシークエンシングを複雑化する要因を生じさせる可能性がある配列を回避するように、設計することができる。加えて、バーコードを、各々が他のバーコードから最小ハミング距離を有し、それによって、塩基分解突然変異または読み取りエラーがバーコードの適切な識別に干渉し得る尤度を低下させるように、設計することができる。DNA配列の合理的設計に関しては化学的方法セクションHを参照されたい。
核酸配列(例えば、成分)の一方の末端のハイブリダイゼーション領域は、層毎に異なり得るが、ハイブリダイゼーション領域は、層内の各メンバーについては同じであり得る。隣接する層は、それらの成分上に、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Xからのあらゆる成分が、層Yからのあらゆる成分に結合することが可能であり得る。なぜなら、それらは、相補的ハイブリダイゼーション領域を有し得るからである。反対側の末端のハイブリダイゼーション領域は、第1の末端のハイブリダイゼーション領域と同じ目的を果たすことができる。例えば、層Yからのあらゆる成分が、一方の末端で層Xのあらゆる成分に結合することができ、かつ反対側の末端で層Zのあらゆる成分に結合することができる。
図6Aおよび6Bは、固定された順序で各層から区別可能な成分(例えば、核酸配列)を組合せ的にアセンブルすることにより識別子(例えば、核酸分子)を構築するための、「積スキーム」と呼ばれる、方法の例を示す。図6Aは、積スキームを使用して構築された識別子の構成を示す。識別子は、固定された順序で各層からの単一成分を組み合わせることにより構築することができる。N個の成分を各々が有するM個の層の場合、N個の可能な識別子がある。図6Bは、積スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、3つの区別可能な成分を各々が含む3つの層から、組合せ空間を生成することができる。これらの成分を、各層からの1つの成分を固定された順序で組み合わせることができるように、組み合わせることができる。このアセンブリ方法のための全組合せ空間は、27の可能な識別子を含むことができる。
図7〜10は、積スキーム(図6を参照されたい)を実行するための化学的方法を示す。図7〜10に描かれている方法を、2つまたはそれより多くの区別可能な成分を固定された順序でアセンブルするための任意の他の方法と共に使用して、例えば、識別子ライブラリー中の任意の1つまたは複数の識別子を生成することができる。本明細書で開示される方法またはシステムの最中にいつでも、図7〜10に記載のインプリメンテーション方法のいずれかを使用して識別子を構築することができる。一部の例では、可能な識別子の組合せ空間の全てまたは一部を、デジタル情報を符号化するまたは書き込む前に、構築することができ、したがって、書き込みプロセスは、既に存在するセットから識別子(情報を符号化する)を機械的に選択およびプールすることを含むことができる。他の例では、データ符号化または書き込みプロセスの1つまたは複数のステップが行われた後である可能性がある時点で(すなわち、情報が書き込まれている最中に)、識別子を構築することができる。
酵素反応を使用して、異なる層またはセットからの成分をアセンブルすることができる。各層の成分(例えば、核酸配列)は、隣接する層の成分のための特異的ハイブリダイゼーションまたは結合領域を有するため、アセンブリをワンポット反応で行うことができる。例えば、層Xからの核酸配列(例えば、成分)X1、層Yからの核酸配列Y1、および層Zからの核酸配列Z1は、アセンブルされた核酸分子(例えば、識別子)X1Y1Z1を形成することができる。加えて、各層からの複数の核酸配列を含めることにより、複数の核酸分子(例えば、識別子)を1反応でアセンブルすることができる。例えば、前の例のワンポット反応にY1とY2の両方を含めることにより、X1Y1Z1およびX1Y2Z1という2つのアセンブルされた産物(例えば、識別子)を生じさせることができる。この反応多重化を使用して、物理的に構築される複数の識別子の書き込み時間を加速することができる。DNA配列の合理的設計についての詳細については、これはアセンブリ効率に関係するので、化学的方法セクションHを参照されたい。核酸配列のアセンブリを約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間もしくは1時間未満であるまたは約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間もしくは1時間に等しい期間で、行うことができる。符号化されたデータの正確度は、少なくとも約90%、95%、96%、97%、98%、99%もしくはそれより高いこともあり、または約90%、95%、96%、97%、98%、99%もしくはそれより高い%に等しいこともある。
識別子を、図7に示されているように、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用して積スキームに従って構築することができる。各層の各成分は、隣接する層からの成分の配列末端の共通ハイブリダイゼーション領域と相同および/または相補的であり得る共通ハイブリダイゼーション領域を配列末端に有する、二本鎖または一本鎖(図に描かれている通り)核酸配列を含むことができる。個々の識別子は、成分X−Xを含む層X(または層1)からの1つの成分(例えば、一意の配列)と、Y−Yを含む層Y(または層2)からの第2の成分(例えば、一意の配列)と、Z−Zを含む層Z(または層3)からの第3の成分(例えば、一意の配列)とを連結させることにより、構築することができる。層Xからの成分は、層Yからの成分の3’末端と相補性を共有する3’末端を有し得る。したがって、層Xからの一本鎖成分とYからの一本鎖成分とを3’末端で互いにアニールすることができ、PCRを使用して伸長して二本鎖核酸分子を生成することができる。生成された二本鎖核酸分子を融解して、層Zからの成分の3’末端と相補性を共有する3’末端を生成することができる。層Zからの成分を、生成された核酸分子とアニールすることができ、伸長して、層X、YおよびZからの単一成分を固定された順序で含む一意の識別子を生成することができる。OEPCRについては化学的方法セクションAを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することができる。2つの最外層の各々について1つである2つのプローブでの逐次的核酸捕捉を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
識別子を、図8に示されているように、付着末端ライゲーションを使用して積スキームに従ってアセンブルすることができる。一本鎖3’突出を有する二本鎖成分(例えば、二本鎖DNA(dsDNA))を各々が含む3つの層を使用して、区別可能な識別子をアセンブルすることができる。例えば、成分X−Xを含む層X(または層1)からの1つの成分と、Y−Yを含む層Y(または層2)からの第2の成分と、Z−Zを含む層Z(または層3)からの第3の成分とを含む識別子。層Xからの成分を層Yからの成分と組み合わせるために、層Xの成分は、図8にaと表示されている共通3’突出を含むことができ、層Yの成分は、共通の相補的3’突出、a*を含むことができる。層Yからの成分を層Zからの成分と組み合わせるために、層Yの要素は、図8にbと表示されている共通3’突出を含むことができ、層Zの要素は、共通の相補的3’突出、b*を含むことができる。層X成分の3’突出は、層Y成分の3’末端と相補的であることができ、層Y成分の他方の3’突出は、層Z成分の3’末端と相補的であることができ、このことにより、これらの成分のハイブリダイゼーションおよびライゲーションが可能になる。しかるが故に、層Xからの成分は、層Xまたは層Zからの他の成分とハイブリダイズすることができず、同様に層Yからの成分は、層Yからの他の要素とハイブリダイズすることができない。さらに、層Yからの単一の成分は、層Xの単一の成分および層Zの単一の成分とライゲーションすることができ、このことにより、完全な識別子が確実に形成される。付着末端ライゲーションについては化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つの最外層の各々について1つである2つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
付着末端ライゲーションのための付着末端は、各層の成分を制限エンドヌクレアーゼで処理することにより生成することができる(制限酵素反応についてのより多くの情報については化学的方法セクションCを参照されたい)。一部の実施形態では、複数の層の成分を、成分の1つの「親」セットから生成することができる。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位(例えば、BamHIおよびBglIIの制限部位)を有し得る実施形態。任意の2つの成分をアセンブリに選択し、一方または他方の相補的制限酵素(例えば、BglIIまたはBamHI)で個別に消化することができ、その結果、相補的付着末端が得られ、これらを互いにライゲーションすることができ、その結果、SCARが不活性になる。産物核酸配列は、各末端に相補的制限部位(例えば、5’末端にBamHI、および3’末端にBglII)を含むこともあり、さらに、そのような核酸配列を同じプロセスに従って親セットからの別の成分にライゲーションすることができる。このプロセスは、無限に循環し得る(図20)。親がN個の成分を含む場合には、各サイクルは、N個の成分の追加の層を積スキームに加えることに相当し得る。
セットX(例えば、dsDNAのセット1)からの要素とセットY(例えば、dsDNAのセット2)からの要素とを含む核酸の配列を構築するためにライゲーションを使用する方法は、二本鎖配列の2つまたはそれより多くのプール(例えば、dsDNAのセット1およびdsDNAのセット2)を得るステップまたは構築するステップであって、第1のセット(例えば、dsDNAのセット1)が、付着末端(例えば、a)を含み、第2のセット(例えば、dsDNAのセット2)が、第1のセットの付着末端と相補的である付着末端(例えば、a*)を含む、ステップを含み得る。第1のセット(例えば、dsDNAのセット1)からの任意のDNAと第2のセット(例えば、dsDNAのセット2)からのDNAの任意のサブセットとを組み合わせ、アセンブルし、次いで、互いにライゲーションして、第1のセットからの要素と第2のセットからの要素とを有する単一の二本鎖DNAを形成することができる。
識別子を、図9に示されているように、部位特異的組換えを使用して積スキーム従ってアセンブルすることができる。3つの異なる層からの成分をアセンブルすることにより、識別子を構築することができる。層X(または層1)の成分は、分子の一方の側にattBリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Y(または層2)からの成分は、一方の側にattPリコンビナーゼ部位および他方の側にattBリコンビナーゼ部位を有する二本鎖分子を含むことができ、層Z(または層3)の成分は、分子の一方の側にattPリコンビナーゼ部位を含むことができる。ペアの中のattBおよびattP部位は、それらの下付文字により示されているように、それらの対応するリコンビナーゼ酵素の存在下で組換えが可能である。層Xからの1つの成分が層Yからの1つの成分と会合し、層Yからの1つの成分が層Zからの1つの成分と会合するように、各層の1つの成分を組み合わせることができる。1つまたは複数のリコンビナーゼ酵素の適用は、順序付けられた成分を含む二本鎖識別子を生成するように成分を組み換えることができる。DNAサイズ選択(例えば、ゲル抽出を用いる)、または最外層に隣接するプライマーを用いるPCRを実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。一般に、attBとattPの複数の直交ペアを使用することができ、各ペアを使用して追加の層からの成分をアセンブルすることができる。大きいセリンのリコンビナーゼファミリーについては、attBとattPの最大6つの直交ペアをリコンビナーゼ毎に生成することができ、複数の直交リコンビナーゼを同時に実行することもできる。例えば、BxbIおよびPhiC31などの2つの大きいセリンリコンビナーゼの各々から6つの直交ペアである、attBとattPの12の直交ペアを使用することにより、13層をアセンブルすることができる。attBとattPのペアの直交性により、1つのペアからのattB部位が別のペアのattP部位と反応しないことが保証される。これにより、異なる層からの成分を固定された順序でアセンブルすることが可能になる。リコンビナーゼ媒介組換え反応は、実行されるリコンビナーゼ系に依存して可逆的であることもあり、または不可逆的であることもある。例えば、大きいセリンリコンビナーゼファミリーは、いずれの高エネルギー補因子も必要とすることなく不可逆的組換え反応を触媒し、これに対してチロシンリコンビナーゼファミリーは、可逆的反応を触媒する。
識別子を、図10Aに示されているように、鋳型により導かれるライゲーション(TDL)を使用して積スキームに従って構築することができる。鋳型により導かれるライゲーションは、識別子を形成するための成分の順序付けられたライゲーションを容易にするために、「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用する。鋳型は、隣接する層からの成分に同時にハイブリダイズし、それらを互いに(5’末端に対して3’末端)隣接した状態で保持し、その間にリガーゼがそれらをライゲーションする。図10Aからの例では、一本鎖成分の3つの層またはセットが組み合わせられる。配列a*と相補的である共通配列aをそれらの3’末端に共有する成分の第1の層(例えば、層Xまたは層1);配列b*およびc*と相補的である共通配列bおよびcをそれらの5’および3’末端にそれぞれ共有する成分の第2の層(例えば、層Yまたは層2);配列d*と相補的であり得る共通配列dをそれらの5’末端に共有する成分の第3の層(例えば、層Zまたは層3);および2つの鋳型のセット、または第1のステープルが配列a*b*(5’→3’)を含み、第2のステープルが配列c*d*(’5→3’)を含む、2つの「ステープル」のセット。この例では、各層からの1つまたは複数の成分を選択し、ステープルとの反応に混入することができ、これらのステープルは、識別子を形成するための各層からの1つの成分の被定義順序でのライゲーションを相補的アニーリングにより容易にすることができる。TDLについては化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つの最外層の各々について1つである2つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
図10Bは、6層TDLで各々アセンブルされた256の区別可能な核酸配列についてのコピー数(存在量)のヒストグラムを示す。端層(最初の層および最後の層)各々は、1つの成分を有し、内層(残りの4つの4層)の各々は、4つの成分を有した。各端層成分は、10塩基ハイブリダイゼーション領域を含む28塩基であった。各内層成分は、5’末端の10塩基共通ハイブリダイゼーション領域と、10塩基可変(バーコード)領域と、3’末端の10塩基共通ハイブリダイゼーション領域とを含む、30塩基であった。3本の鋳型鎖の各々は、長さ20塩基であった。256の区別可能な配列全てを、1つの反応が成分および鋳型、T4ポリヌクレオチドキナーゼ(成分をリン酸化するために)、ならびにT4リガーゼ、ATP、および他の適切な反応試薬の全てを含有する多重方式で、アセンブルした。反応を37度で30分間、次いで室温で1時間インキュベートした。シークエンシングアダプターをPCRでの反応産物に添加し、産物をIllumina MiSeq装置でシークエンシングした。合計192910のアセンブルされた配列読み取りデータのうちの区別可能なアセンブルされた配列各々についての相対コピー数が示されている。この方法の他の実施形態は、二本鎖成分を使用することがあり、その場合、これらの成分は、ステープルにアニールすることができる一本鎖バージョンを形成するために最初に融解される。この方法(すなわち、TDL)の他の実施形態または派生型を使用して、積スキームで達成され得るものより複雑な識別子の組合せ空間を構築することができる。
ゴールデンゲートアセンブリ、ギブソンアセンブリおよびリガーゼサイクリング反応アセンブリを含む、様々な他の化学的インプリメンテーションを使用して、積スキームに従って、識別子を構築することができる。
図11Aおよび11Bは、成分(例えば、核酸配列)を並べ替えて識別子(例えば、核酸分子)を構築するための、「順列スキーム」と呼ばれる方法の例を模式的に示す。図11Aは、順列スキームを使用して構築された識別子の構成を示す。識別子を、プログラム可能な順序で各層からの単一成分を組み合わせることにより構築することができる。図11Bは、順列スキームを使用して構築することができる識別子の組合せ空間の例を示す。一例では、1つの区別可能な成分を各々が含む3つの層から、サイズ6の組合せ空間を生成することができる。成分を任意の順序で連結させることができる。一般に、各々がN個の成分を有するM個の層を用いて、順列スキームは、合計NM!個の識別子の組合せ空間を可能にする。
図11Cは、鋳型により導かれるライゲーション(TDL、化学的方法セクションBを参照されたい)を用いる順列スキームのインプリメンテーションの例を示す。複数の層からの成分は、端足場と呼ばれる、固定された左末端成分と固定された右末端成分の間でアセンブルされる。これらの端足場は、組合せ空間内の全ての識別子について同じであり、したがって、これらの端足場をインプリメンテーションのための反応マスターミックスの一部として添加することができる。鋳型またはステープルが、任意の2層または足場間の任意の可能な接合部のために存在し、したがって、異なる層からの成分が反応中に識別子に組み込まれる順序は、反応に選択される鋳型に依存する。M個の層について層の任意の可能な順列を可能にするために、可能な接合部(足場との接合部を含む)毎にM+2M個の区別可能な選択可能なステープルが存在し得る。これらの鋳型のうちのM個(灰色の陰付き)は、層とそれら自体の間の接合部を形成し、ここに記載されるような順列アセンブリに関しては含まれないことがある。しかし、それらを含めることで、図11D〜Gに示されているような反復成分を含む識別子を用いてより大きい組合せ空間を可能にすることができる。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照されたい)または最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実行して、識別子産物を反応中に形成され得る他の副産物から単離することができる。2つの最外層の各々について1つである2つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から単離することもできる(化学的方法セクションFを参照されたい)。
図11D〜Gは、反復している成分を有する識別子についてのある特定のインスタンスを含むように順列スキームを拡大することができる方法の例を示す。図11Dは、並べ替えられているおよび反復している成分を有する識別子を構築するために使用することができる図11Cからのインプリメンテーションの方法の例を示す。例えば、識別子は、2つの区別可能な成分からアセンブルされた合計3つの成分を含み得る。この例では、層からの成分は、識別子中に複数回存在し得る。同じ成分の隣接した連結は、隣接する相補的ハイブリダイゼーション領域を有するステープル、例えば、図中のa*b*(5’→3’)ステープルを、同じ成分の3’末端と5’末端の両方に使用することにより、達成することができる。一般に、M個の層の場合、M個のそのようなステープルが存在する。このインプリメンテーションでの反復している成分の組込みは、図11Eで実証されるように、端足場間でアセンブルされる1を超える長さ(すなわち、1、2、3、4またはそれより多くの成分を含む)の核酸配列を生成することができる。図11Eは、図11Dからのインプリメンテーションの例が、識別子に加えて、端足場間でアセンブルされる非標的核酸配列をもたらし得る方法を示す。適切な識別子をPCRで非標的核酸配列から単離することができない。なぜなら、それらは、端に同じプライマー結合部位を共有するからである。しかし、この例では、アセンブルされる核酸配列各々を、一意の長さを有するように設計することができるので(例えば、全ての成分が同じ長さを有する場合)、DNAサイズ選択(例えば、ゲル抽出を用いる)を実行して、標的識別子(例えば、上からの2番目の配列)を非標的配列から単離することができる。サイズ選択については化学的方法セクションEを参照されたい。図11Fは、反復している成分を有する識別子の構築が、区別可能な長さだが等しい端配列を有する複数の核酸配列を同じ反応中に生成し得る、別の例を示す。この方法では、1つの層中の成分と他の層中の成分を交互パターンでアセンブルする鋳型を使用することができる。図11Eに示されている方法と同様に、サイズ選択を使用して設計長の識別子を選択することができる。図11Gは、反復している成分を有する識別子の構築が、等しい端配列および一部の核酸配列(例えば、上から3番目と4番目、および上から6番目と7番目)については等しい長さを有する、複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、PCRおよびDNAサイズ排除を実行した場合であっても一方を構築することができず、他方の構築もないような、個々の識別子である両方から、除外され得る。
図12A〜12Dは、より多数、M個、の可能な成分のうちの任意の数、K個、のアセンブルされた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための、「MchooseKスキーム」と呼ばれる方法の例を模式的に示す。図12Aは、MchooseKスキームを使用して構築された識別子の構成を示す。この方法を使用して、識別子は、全ての層の任意のサブセットにおける各層からの1つの成分をアセンブルすることにより構築される(例えば、M個の可能な層のうちのk個の層から成分を選択する)。図12Bは、MchooseKスキームを使用して構築することができる識別子の組合せ空間の例を示す。このアセンブリスキームでは、組合せ空間は、M個の層、層毎にN個の成分、および成分数Kの識別子長の場合、N個のMchooseKの可能な識別子を含むことがある。一例では、各々が1つの成分を含む5つの層がある場合には、2つの成分を各々含む最大10の区別可能な識別子をアセンブルすることができる。
MchooseKスキームは、図12Cに示されているように、鋳型により導かれるライゲーション(化学的方法セクションBを参照されたい)を使用して実行することができる。順列スキームについてのTDLインプリメンテーション(図11C)と同様に、この例での成分は、反応マスターミックスに含まれることもあり、含まれないこともある、端足場間でアセンブルされる。M個の層、例えば、左端足場がランク1であり得、右端足場がランクM+1であり得る場合、2〜Mの事前に定義されたランクを有するM=4層に、成分を分割することができる。鋳型は、より低いランク〜より高いランクをそれぞれ有する任意の2成分の3’→5’ライゲーションのための核酸配列を含む。((M+1)+M+1)/2個のそのような鋳型がある。区別可能な層からの任意のK個の成分の個々の識別子は、対応するK+1個のステープルが端足場とK個の成分をそれらのランク順に接合するために使用されるライゲーション反応でそれらの選択された成分を組み合わせることにより、構築することができる。このような反応設定は、端足場間で標的識別子に対応する核酸配列を生じさせることができる。あるいは、全ての鋳型を含む反応ミックスを選ばれた成分と組み合わせて標的識別子をアセンブルすることができる。この代替方法は、図12Dに示されているように、区別可能な長さだが同じ端配列を有する(全ての成分長が等しい場合)様々な核酸配列を生成することができる。標的識別子(一番下)を、副産物核酸配列からサイズにより単離することができる。核酸サイズ選択については化学的方法セクションEを参照されたい。
図13Aおよび13Bは、区分された成分を有する識別子を構築するための、「パーティションスキーム」と呼ばれる方法の例を模式的に示す。図13Aは、パーティションスキームを使用して構築することができる識別子の組合せ空間の例を示す。異なる層の任意の2つの成分間に任意のパーティション(空間的分類成分)を必要に応じて配置して各層からの1つの成分を固定された順序でアセンブルすることにより、個々の識別子を構築することができる。例えば、1セットの成分を、1つのパーティション成分と、1つの成分を各々が含有する4つの層とに構成することができる。各層からの成分を固定された順序で組み合わせることができ、単一パーティション成分を層間の様々な位置にアセンブルすることができる。この組合せ空間における識別子は、8つの可能な識別子の組合せ空間を作成するために、パーティション成分を含まないこと、第1の層からの成分と第2の層からの成分の間にパーティションを含むこと、第2の層からの成分と第3の層からの成分の間にパーティションを含むことなどがある。一般に、N個の成分を各々が有するM個の層とp個のパーティション成分とを用いて、N(p+1)M−1個の可能な識別子を構築することができる。この方法は、様々な長さの識別子を生成することができる。
図13Bは、鋳型により導かれるライゲーション(化学的方法セクションBを参照されたい)を使用するパーティションスキームのインプリメンテーションの例を示す。鋳型は、M個の層の各々から1つの成分を固定された順序で互いにライゲーションするための核酸配列を含む。パーティション成分毎に、鋳型の追加のペアが存在し、これらにより、任意の2つの隣接する層からの成分間におけるパーティション成分のライゲーションが可能になる。例えば、ペアのうちの一方の鋳型(例えば、配列g*b*(5’→3’)を有する)が、層1(配列bを有する)の3’末端がパーティション成分(配列gを有する)の5’末端にライゲーションするのを可能にするような、およびペアのうちのもう一方の鋳型(例えば、配列c*h*(5’→3’)を有する)が、パーティション成分(配列hを有する)の3’末端が層2(配列cを有する)の5’末端にライゲーションするのを可能にするような、鋳型のペア。隣接する層の任意の2つの成分の間にパーティションを挿入するために、これらの層を互いにライゲーションするための標準鋳型を反応に含めなくてもよく、その位置でパーティションをライゲーションするための鋳型のペアを選択してもよい。現行の例では、層1と層2の間のパーティション成分の標的化は、鋳型c*b*(5’→3’)ではなく鋳型c*h*(5’→3’)と鋳型g*b*(5’→3’)のペアを反応のための選択に使用することができる。成分を、反応ミックスに(最初の層およびM番目の層にそれぞれライゲーションするためのそれらの対応する鋳型と共に)含めることができる端足場間で、アセンブルすることができる。一般に、M個の層およびp個のパーティション成分の場合、合計約M−1+2*p*(M−1)個の選択可能な鋳型をこの方法に使用することができる。パーティションスキームのこのインプリメンテーションは、区別可能な長さだが同じ端配列を有する様々な核酸配列を反応で生成することができる。標的識別子を、副産物核酸配列からDNAサイズ選択により単離することができる。具体的には、ちょうど1つの核酸配列が、ちょうどM個の層成分を有することができる。層成分が、パーティション成分と比較して十分大きく設計されている場合、識別子内の成分の特定の区分化にかかわらず識別子を選択することができる(かつどの非標的副産物も選択されることがない)普遍的サイズ選択領域を定義することが可能であり得、それによって、複数の反応から複数の区分化された識別子を同じサイズ選択ステップで単離することが可能になる。核酸サイズ選択については化学的方法セクションEを参照されたい。
図14Aおよび14Bは、いくつかの可能な成分からの成分の任意の列で構成されている識別子を構築するための、「無制約列スキーム」または「USS」と呼ばれる方法の例を模式的に示す。図14Aは、無制約列スキームを使用して構築することができる3成分(または4足場)長識別子の組合せ空間の例を示す。無制約列スキームは、1つまたは複数の層から各々取られた1つまたは複数の区別可能な成分を有する長さK成分の個々の識別子を構築し、この場合、各々の区別可能な成分が、識別子内のK成分位置のいずれかに出現し得る(これにより反復が可能になる)。例えば、1つの成分を各々が含む2つの層の場合、可能な3成分長識別子が8つある。一般に、1つの成分を各々が有するM個の層に関しては、長さKの成分の可能な識別子がM個ある。図14Bは、鋳型により導かれるライゲーション(化学的方法セクションBを参照されたい)を使用する無制約列スキームのインプリメンテーションの例を示す。この方法では、K+1個の一本鎖状の順序付けられた足場DNA成分(2個の端足場およびK−1個の内部足場を含む)が反応ミックス中に存在する。個々の識別子は、隣接する足場のあらゆるペアの間でライゲーションした単一の成分を含む。例えば、足場Aと足場B間でライゲーションした成分、足場Cと足場D間でライゲーションした成分、およびK個全ての隣接する足場接合部が成分により占有されるまでのそのようなもの。反応では、異なる層から選択された成分が、それらを適切な足場上にアセンブルするように方向付けるステープルの選択されたペアと共に、足場に導入される。例えば、ステープルa*L*(5’→3’)とステープルA*b*(5’→3’)のペアは、5’末端領域「a」と3’末端領域「b」とを有する層1成分を、L足場とA足場の間でライゲーションするように方向付ける。一般に、M個の層およびK+1個の足場で、2*M*K個の選択可能なステープルを使用して長さKの任意のUSS識別子を構築することができる。成分を足場に5’末端で接続するステープルと同じ成分を足場に3’末端で接続するステープルは分離しているため、核酸副産物は、標的識別子と等しい端足場との、しかしK個未満の成分(K+1個未満の足場)との、またはK個より多い成分(K+1個より多い足場)との、反応で形成し得る。標的識別子は、ちょうどK個の成分(K+1個の足場)を用いて形成することができ、したがって、全ての成分が等しい長さになるように設計され、全ての足場が等しい長さになるように設計された場合、DNAサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては化学的方法セクションEを参照されたい。1層当たり1つの成分が存在し得る無制約列スキームについてのある特定の実施形態では、その成分は、(1)識別バーコード、(2)足場への5’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域、および(3)足場への3’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域という、3つの役割の全てを満たす単一の区別可能な核酸配列を、専ら含み得る。
図14Bに示されている内部足場を、それらが、ある成分への足場のステープル媒介5’ライゲーションと別の(必ずしも明確に異ならない)成分への足場のステープル媒介3’ライゲーションとの両方に同じハイブリダイゼーション配列を使用するように、設計することができる。したがって、図14Bにおいて描かれている1足場、2ステープルのスタック式ハイブリダイゼーション事象は、足場とステープルの各々との間で起こる、したがって、5’成分ライゲーションと3’成分ライゲーションの両方を可能にする、統計学的前進・後退ハイブリダイゼーション事象を表す。無制約列スキームの他の実施形態では、2つの連結されたハイブリダイゼーション領域−ステープル媒介3’ライゲーションのための区別可能な3’ハイブリダイゼーション領域およびステープル媒介5’ライゲーションのための区別可能な5’ハイブリダイゼーション領域−を伴う足場を設計することができる。
図15Aおよび15Bは、親識別子からの核酸配列(または成分)を削除することにより識別子を構築するための、「成分削除スキーム」と呼ばれる方法の例を模式的に示す。図15Aは、成分削除スキームを使用して構築することができる可能な識別子の組合せ空間の例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約2、3、4、5、6、7、8、9、10、20、30、40、50もしくはそれを超える数より多い、または約2、3、4、5、6、7、8、9、10、20、30、40、50もしくはそれを超える数に等しい数の、成分を含み得る。個々の識別子は、N個の可能な成分から任意の数の成分を選択的に削除して、サイズ2の「完全」組合せ空間をもたらすことにより、またはN個の可能な成分から固定数Kの成分を削除して、かくてサイズNchooseKの「NchooseK」組合せ空間をもたらすことにより、構築することができる。3個の成分を有する親識別子を用いる一例では、完全組合せ空間は8であり得、3choose2組合せ空間は3であり得る。
図15Bは、二本鎖標的切断および修復(DSTCR)を使用する成分削除スキームのインプリメンテーションの例を示す。親配列は、ヌクレアーゼ特異的標的部位(長さ4塩基またはそれ未満の塩基数であり得る)が隣接している成分を含む一本鎖DNA基質であることがあり、この場合、親は、標的部位に対応する1つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベーションされ得る。個々の成分は、親の成分DNA(および隣接ヌクレアーゼ部位)に結合する相補的一本鎖DNA(または切断鋳型)での削除の標的にされ得、その結果、ヌクレアーゼにより両端が切断され得る、親上の安定した二本鎖配列が形成される。別の一本鎖DNA(または修復鋳型)は、親の結果として生じる分離した末端(これらの間に成分配列が存在した)とハイブリダイズし、それらをライゲーションのために、直接的にせよ、親のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、置換配列により架橋させてにせよ、寄せ集める。本発明者らは、この方法を「二本鎖標的切断」(DSTC)と呼ぶ。サイズ選択を使用して、ある特定の数の成分が削除された識別子を選択することができる。核酸サイズ選択については化学的方法セクションEを参照されたい。
あるいは、または加えて、親識別子は、どの2つの成分にも同じ配列が隣接しないようにスペーサー配列により隔てられている成分を含む、二本鎖または一本鎖核酸基質であることもある。親識別子は、Cas9ヌクレアーゼと共にインキュベートされ得る。個々の成分は、成分の端に結合してその隣接部位でのCas9媒介切断を可能にするガイドリボ核酸(切断鋳型)での削除の標的にされ得る。一本鎖核酸(修復鋳型)は、親識別子の結果として生じる、分離した末端(例えば、これらの末端間に成分配列が存在した)にハイブリダイズすることができ、かくて、それらをライゲーションのために寄せ集める。ライゲーションを直接行ってもよく、または親のライゲーションされた配列が、Cas9による標的にされ得るスペーサー配列をもはや含有しないように、置換配列で末端を架橋させることによって行ってもよい。本発明者らは、この方法を「配列特異的な標的切断および修復」または「SSTCR」と呼ぶ。
識別子を、DSTCRの派生型を使用して親識別子に成分を挿入することにより構築することができる。親識別子は、区別可能な核酸配列内に各々が埋め込まれているヌクレアーゼ特異的標的部位(これらは長さが4塩基またはそれ未満の塩基数であり得る)を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する1つまたは複数の二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子の個々の標的部位は、親識別子の標的部位および区別可能な周囲核酸配列に結合する相補的一本鎖核酸(切断鋳型)での成分挿入の標的にされ得、その結果、二本鎖部位が形成される。二本鎖部位をヌクレアーゼにより切断することもできる。別の一本鎖核酸(または修復鋳型)は、親識別子の結果として生じる分離した末端にハイブリダイズし、それらをライゲーションのために、親のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、成分配列により架橋させて、寄せ集める。あるいは、SSTCRの派生型を使用して、親識別子に成分を挿入することができる。親識別子は、二本鎖核酸または一本鎖核酸であり得、親は、Cas9ヌクレアーゼと共にインキュベートされ得る。親識別子の区別可能な部位は、ガイドRNA(切断鋳型)での切断の標的にされ得る。一本鎖核酸(または修復鋳型)は、親識別子の分離した端にハイブリダイズし、それらをライゲーションのために、親識別子のライゲーションされた配列が、ヌクレアーゼの標的となる活性部位をもはや含有しないように、成分配列により架橋させて、寄せ集める。サイズ選択を使用して、ある特定の数の成分が挿入された識別子を選択することができる。
図16は、リコンビナーゼ認識部位を有する親識別子を模式的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識され得る。リコンビナーゼの所与のセットについての全ての認識部位は、それらの間の核酸が、リコンビナーゼが適用されると切除され得るように、配列される。図16に示されている核酸鎖は、それに適用されるリコンビナーゼのサブセットに依存して2=32の異なる配列を採用することができる。一部の実施形態では、図16に描かれているように、DNAのセグメントを切除、シフト、反転および転置するためにリコンビナーゼを使用して一意の分子を生成して、異なる核酸分子を作出することができる。一般に、N個のリコンビナーゼを用いて、2個の可能な識別子を親から構築することができる。一部の実施形態では、異なるリコンビナーゼからの認識部位の複数の直交ペアを、1つのリコンビナーゼの適用が、下流でリコンビナーゼが適用された場合に起こる組換え事象のタイプに影響を与えるように、オーバーラップ方式で親識別子上に配列することができる(全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in livingcells, Science 353 (6297): aad8559 (2016)を参照されたい)。このようなシステムは、N個のリコンビナーゼの順序づけ、N!毎に異なる識別子を構築することが可能であり得る。リコンビナーゼは、チロシンファミリーのリコンビナーゼ、例えば、FlpおよびCreであってもよく、または大きいセリンリコンビナーゼファミリーのリコンビナーゼ、例えば、PhiC31、BxbI、TP901もしくはA118であってもよい。大きいセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、それらが不可逆的組換えを容易にし、したがって、他のリコンビナーゼより効率的に識別子を生成することができるため、有利であり得る。
一部の例では、非常に多数のリコンビナーゼを区別可能な順序で適用することにより多くの区別可能な核酸配列になるように、単一核酸配列をプログラムすることができる。リコンビナーゼの数であるMが、大きいセリンリコンビナーゼファミリーについて7未満であり得るかまたは7であり得る場合、異なるサブセットの中のM個のリコンビナーゼを異なる順序で適用することにより、おおよそ約eM!個の区別可能な核酸配列を生成することができる。リコンビナーゼの数であるMが、7を超え得る場合、生成され得る配列の数は、3.9ほどである;例えば、全体が参照により本明細書に組み込まれる、Roquet et al., Synthetic recombinase-based state machines in livingcells, Science 353 (6297): aad8559 (2016)を参照されたい。1つの共通配列から異なるDNA配列を生成するためのさらなる方法は、CRISPR−Cas、TALEN、およびジンクフィンガーヌクレアーゼなどの、標的核酸編集酵素を含み得る。リコンビナーゼ、標的編集酵素などにより生成される配列を、前の方法、例えば、本願の図のいずれかおよび開示において開示される方法のいずれかと併せて、使用することができる。
符号化すべき情報のビットストリームが、任意の単一核酸分子により符号化され得るものより大きい場合には、情報を分割し、核酸配列バーコードでインデックス化することができる。さらに、N個の核酸分子のセットからのサイズkの核酸分子の任意のサブセットを選択して、log(Nchoosek)ビットの情報を生成することができる。バーコードをサイズkのサブセット内の核酸分子上にアセンブルして、かつてないほど長いビットストリームを符号化することができる。例えば、M個のバーコードを使用して、M*log(Nchoosek)ビットの情報を生成することができる。あるセット内の利用可能な核酸分子の数N、および利用可能なバーコードの数Mを前提として、サイズk=kのサブセットを、1つの情報を符号化するためのプール内の分子の総数を最小限にするように選択することができる。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、6個のビットを含むビットストリームを、各成分が2個のビットを含む3つの成分に分割することができる。2ビット成分各々にバーコードを付けて情報カセットを形成し、一緒に群化またはプールして、情報カセットのハイパープールを形成することができる。
バーコードは、符号化すべきデジタル情報の量が、1つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された一意の核酸配列を有するタグを含めることにより、図3で開示される手法を階層化することによって、より長いビット列および/または複数のバイトを含む情報を符号化することができる。情報カセットまたは識別子ライブラリーは、所与の配列が対応するビットストリームの成分(単数または複数)を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する一意の核酸配列を含む窒素含有塩基または核酸配列を含むことができる。情報カセットは、1つまたは複数の一意の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットおよび情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ビットストリームのどの部分またはビットストリームのどのビット成分についての情報(例えば、ビット値およびビット位置情報)を一意の配列が符号化しているのかを示すことができる。
バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば10ビットの配列を、各バイトが5ビットを含む2セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子5個の1セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る誰かは、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかし、符号化された情報が当てはまるバイトに対応する標識(例えば、第1の5ビットを提供するために、バーコード1を、核酸プール内の配列に結合させることができ、および第2の5ビットを提供するために、バーコード2を、核酸プール内の配列に結合させることができる)を用いて各識別子にバーコード付けまたはタグ付けし、そしてその後、それら2つのバイトに対応する識別子を組み合わせて1つのプール(例えば、「ハイパープール」または1つもしくは複数の識別子ライブラリー)にすることができる。1つまたは複数の組み合わせられた識別子ライブラリーの各識別子ライブラリーは、所与の識別子を所与の識別子ライブラリーに属するものとして識別する、区別可能なバーコードを含み得。識別子ライブラリー中の各識別子にバーコードを付加させる方法は、PCR、ギブソン、ライゲーション、または所与のバーコード(例えば、バーコード1)が所与の核酸試料プールに(例えば、バーコード1が核酸試料プール1に、およびバーコード2が核酸試料プール2に)結合できるようにする任意の他の手法を使用することを含み得る。シークエンシング法を用いてハイパープールからの試料を読み取ることができ、バーコードまたはタグを使用してシークエンシング情報を解析することができる。識別子ライブラリーおよびバーコードをM個のバーコードとN個の可能な識別子のセット(組合せ空間)で使用する方法は、MとNの積に相当する長さを有するビットストリームを符号化することができる。
一部の実施形態では、識別子ライブラリーをウェルのアレイに記憶させることができる。ウェルのアレイは、n個の行とq個の列を有すると定義することができ、各ウェルは、ハイパープール内の2つまたはそれより多くの識別子ライブラリーを含むことができる。各ウェル内の符号化された情報は、ウェルの各々に収容されている情報よりn×qサイズ大きい1つの大きい連続した情報アイテムを構成し得る。ウェルのアレイ内の1つもしくは複数のウェルから分割量を取り、シークエンシング、ハイブリダイゼーションまたはPCRを使用して符号化を読み取ることができる。
核酸試料プール、ハイパープール、識別子ライブラリー、識別子ライブラリーの群、または核酸試料プールもしくはハイパープールを収容しているウェルは、情報のビットに対応する一意の核酸分子(例えば、識別子)、および複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある(例えば、ビット値に対応しない)。補足核酸試料は、試料プールに記憶された情報をマスクまたは隠蔽することができる。補足核酸配列は、生物学的起源に由来することもあり、合成的に生成されることもある。生物学的起源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、または合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、特に、合成的に符号化された情報(例えば、識別子の組合せ空間)が天然遺伝情報(例えば、断片化されたゲノム)と似ているように作成された場合、試料プール内のデータ含有核酸を隠すまたは分かりにくくすることができる。一例では、識別子は、生物学的起源に由来し、補足核酸は、生物学的起源に由来する。試料プールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、1つまたは複数の生物に由来し、補足核酸は、単一の、異なる生物に由来する。補足核酸配列は、1つまたは複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。キーを使用して、識別子と補足核酸配列を区別することができる。
補足核酸配列は、書き込まれた情報についてのメタデータを記憶することができる。メタデータは、一次情報源および/または一次情報の意図された受信者を決定および/または許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するためにおよび書き込むために使用した装置および方法、ならびに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、または外部情報への1つもしくは複数の参照を含み得る。あるいは、または加えて、メタデータは、識別子に結合された1つもしくは複数のバーコードまたはタグに記憶されることもある。
識別子プール内の識別子は、互いに同じ、類似しているまたは異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、または識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内、またはそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリー中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、または識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれ未満より低いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれを超える%より高いこともあり、または識別子の濃度の約1%、10%、20%、40%、60%、80%、100,%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%もしくはそれを超える%に等しいこともある。より高い濃度は、不鮮明にまたはデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い(例えば、1×10%高い)。
核酸配列に記憶されたデータをコピーするおよびそのようなデータにアクセスする方法
別の態様では、本開示は、核酸配列に符号化された情報をコピーする方法を提供する。核酸配列に符号化された情報をコピーする方法は、(a)識別子ライブラリーを用意するステップと、(b)識別子ライブラリーの1つまたは複数のコピーを構築するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、(a)識別子ライブラリーを用意するステップと、(b)識別子ライブラリーから識別子ライブラリー中に存在する識別子の一部またはサブセットを抽出するステップとを含み得る。識別子ライブラリーは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
情報を本明細書の他の箇所に記載されているように1つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。識別子ライブラリー中のまたは1つもしくは複数の識別子ライブラリー中の個々の識別子のコピーを生成することにより、記憶されたデータをコピーすることができる。識別子の一部がコピーされることもあり、またはライブラリー全体がコピーされることもある。識別子ライブラリー中の識別子を増幅することにより、コピーを行うことができる。1つまたは複数の識別子ライブラリーが組み合わせられるとき、単一の識別子ライブラリーがコピーされることもあり、または複数の識別子ライブラリーがコピーされることもある。識別子ライブラリーが補足核酸配列を含む場合、補足核酸配列は、コピーされることもあり、またはコピーされないこともある。
1つまたは複数の共通プライマー結合部位を含むように、識別子ライブラリー中の識別子を構築することができる。1つまたは複数の結合部位は、各識別子の端に位置することもあり、または各識別子の全体にわたって織り交ぜられていることもある。プライマー結合部位は、識別子ライブラリー特異的プライマーペアまたはユニバーサルプライマーペアが識別子に結合することおよび識別子を増幅することを可能にし得る。識別子ライブラリー中の全ての識別子、または1つもしくは複数の識別子ライブラリー中の全ての識別子を、複数のPCRサイクルにより複数回複製することができる。従来のPCRを使用して識別子をコピーすることができ、識別子を各PCRサイクルに伴って指数関数的に複製することができる。識別子のコピーの数を、各PCRサイクルに伴って指数関数的に増加させることができる。線形PCRを使用して識別子をコピーすることができ、識別子を各PCRサイクルに伴って直線的に複製することができる。識別子のコピーの数を、各PCRサイクルに伴って直線的に増加させることができる。識別子をPCR増幅の前に環状ベクターにライゲーションすることができる。環状ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのPCRプライマーは、ベクターからプライミングするように設計することができ、したがって、バーコードが付いている端部は、識別子に伴って増幅産物に含まれる。増幅中に、識別子間の組換えの結果として、各々の端に無相関のバーコードを含むコピーされた識別子が生じ得る。無相関のバーコードは、識別子の読み取り時に検出可能であり得る。無相関のバーコードを含有する識別子を偽陽性とみなすことができ、情報復号プロセス中は無視することができる。化学的方法セクションDを参照されたい。
情報の各ビットを一意の核酸分子に割り当てることにより、情報を符号化することができる。例えば、2つの核酸配列を各々が有する3つの試料セット(X、YおよびZ)は、8個の一意の核酸分子にアセンブルし、下記の8個のデータビットを復号することができる:
N1=X1Y1Z1
N2=X1Y1Z2
N3=X1Y2Z1
N4=X1Y2Z2
N5=X2Y1Z1
N6=X2Y1Z2
N7=X2Y2Z1
N8=X2Y2Z2
したがって、列の中の各ビットを対応する核酸分子に割り当てることができる(例えば、N1は、第1のビットを指定することができ、N2は、第2のビットを指定することができ、N3は、第3のビットを指定することができる、など)。ビット列全体を核酸分子の組合せに割り当てることができ、この場合、「1」のビット値に対応する核酸が、組合せまたはプールに含まれる。例えば、UTF−8符号化では、文字「K」を8ビット列コード01001011によって表すことができ、この8ビット列コードを4つの核酸分子の存在によって符号化することができる(例えば、上の例ではX1Y1Z2、X2Y1Z1、X2Y2Z1、およびX2Y2Z2)。
情報にシークエンシングまたはハイブリダイゼーションアッセイによってアクセスすることができる。例えば、プライマーまたはプローブを、核酸配列の共通領域またはバーコード化領域に結合するように設計することができる。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物のシークエンシングにより、またはハイブリダイゼーションアッセイにより、読み取ることができる。文字「K」を符号化する上の例では、データの前半が目的のものである場合、X1核酸配列のバーコード領域に特異的なプライマー、およびZセットの共通領域に結合するプライマーを使用して、核酸分子を増幅することができる。これにより、0100を符号化することができる配列Y1Z2を復帰させることができる。Y1核酸配列のバーコード領域に結合するプライマーおよびZセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することにより、そのデータの部分列にもアクセスすることができる。これにより、部分列01を符号化するZ2核酸配列を復帰させることができる。あるいは、シークエンシングを用いずに特定の核酸配列の存在または非存在についてチェックすることにより、データにアクセスすることもできる。例えば、Y2バーコードに特異的なプライマーを用いる増幅は、Y1バーコードではなくY2バーコードについての増幅産物を生成することができる。Y2増幅産物の存在は、「1」のビット値を知らせることができる。あるいは、Y2増幅産物の非存在は、「0」のビット値を知らせることができる。
PCRベースの方法を使用して、識別子または核酸試料プールからのデータにアクセスすることおよびそのようなデータをコピーすることができる。プールまたはハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。あるいは、等温増幅などの他の核酸増幅手法を使用して、試料プールまたはハイパープール(例えば、識別子ライブラリー)からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションDを参照されたい。試料がハイパープールを含む例では、識別子の一方の端にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の端にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスすること、およびそのようなサブセットを取得することができる。様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列を読み出すことおよび伸長によりデジタル符号化されたデータを読み出すことができる。
核酸分子(例えば、識別子)に記憶された情報へのアクセスは、識別子ライブラリーもしくは識別子のプールから非標的識別子の一部を選択的に除去することにより、または例えば、複数の識別子ライブラリーのプールから識別子ライブラリーの全ての識別子を選択的に除去することにより、行うことができる。本明細書で使用される場合、「アクセス」および「クエリ」は互換的に使用することができる。データへのアクセスを、識別子ライブラリーまたは識別子のプールから標的識別子を選択的に捕捉することにより行うこともできる。標的識別子は、より長い情報アイテムの中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽またはマスクするために使用されることもある。補足核酸分子は、標的識別子へのアクセス中に抽出されることもあり、または抽出されないこともある。図17A〜17Cは、より多くの数の識別子からのいくつかの特定の識別子にアクセスすることにより核酸配列に記憶された情報の一部にアクセスする方法の例の概要を模式的に示す。図17Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリー)は、各末端に共通配列を有する、各末端に可変配列を有する、または各末端に共通配列もしくは可変配列の一方を有する識別子を含み得る。共通配列または可変配列は、プライマー結合部位であることもある。1つまたは複数のプライマーが、識別子の端の共通または可変領域に結合し得る。プライマーが結合している識別子を、PCRにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリーからの識別子は、その末端の一方または両方にそのライブラリーとは区別可能な配列を含むことができ、したがって、1つより多くの識別子ライブラリーのプールまたは群から単一のライブラリーに選択的にアクセスすることを可能にする。
核酸捕捉と呼ばれることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数のプローブと相補性を共有し得る。1つまたは複数のプローブは、アクセスされることになる識別子に結合またはハイブリダイズすることができる。プローブが親和性タグを含むこともある。親和性タグは、固相基板、例えば膜、ウェル、カラム、またはビーズ上で捕捉され得る。ビーズを固相基板として使用する場合、親和性タグはビーズに結合して、ビーズ、少なくとも1つのプローブ、および少なくとも1つの識別子を含む複合体を形成し得る。ビーズは磁性であり得、磁石と共に、ビーズは、アクセスされることになる識別子を収集し、単離することができる。読み取りの前に、識別子を変性条件下でビーズから除去することができる。あるいは、または加えて、ビーズは、非標的識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。カラムを使用する場合、親和性タグはカラムに結合し得る。アクセスされることになる識別子は、捕捉用のカラムに結合することができる。その後、カラムに結合した識別子を、読み取りの前に、カラムから溶出することまたは変性させることができる。あるいは、非標的識別子をカラムに選択的に標的化することができ、その一方で、標的識別子は、カラムを流過することができる。固相基板に結合した識別子は、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応もしくは脱離反応化学、または酵素的切断などの条件に対する暴露によって、固相基板から除去され得る。ある特定の実施形態では、アクセスされる識別子は、切断可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化識別子に共有結合するための切断可能なリンカーを提供してもよい。リンカー部分は、6原子またはそれより多くの長さのリンカーであり得る。一部の実施形態では、切断可能リンカーは、TOPS(合成あたり2個のオリゴヌクレオチドの)リンカー、アミノリンカー、化学的切断可能リンカー、または光切断可能リンカーであり得る。標的識別子へのアクセスは、1つもしくは複数のプローブを識別子のプールに同時に適用することを含むこともあり、または1つもしくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。核酸捕捉に関しては化学的方法セクションFを参照されたい。
分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1つまたは複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合またはハイブリダイズすることができる。プローブは、エンドヌクレアーゼなどの分解酵素の標的になり得る。一例では、1つまたは複数の識別子ライブラリーを組み合わせることができる。プローブのセットは、識別子ライブラリーのうちの1つとハイブリダイズすることができる。プローブのセットは、RNAを含むことがあり、RNAは、Cas9酵素を誘導することができる。Cas9酵素を1つまたは複数の識別子ライブラリーに導入することができる。プローブとハイブリダイズした識別子は、Cas9酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は、一本鎖状であり得、識別子ライブラリーを、アクセスされることにならない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼ、例えばS1ヌクレアーゼ、と組み合わせることができる。アクセスされることになる識別子を識別子の相補的セットとハイブリダイズさせて、それらを一本鎖特異的エンドヌクレアーゼによる分解から保護することができる。アクセスされることになる識別子を、サイズ選択クロマトグラフィー(例えば、アガロースゲル電気泳動)などのサイズ選択により分解産物から分離することができる。あるいは、または加えて、分解されない識別子を(例えば、PCRを使用して)選択的に増幅することができ、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解または切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。
図17Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、2つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合には、識別子のこれらのセットの結合の「OR」増幅を、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスPCR反応において2つのフォワードプライマーを一緒に使用することにより、果たすことができる。別の例では、1つのフォワードプライマーが左末端の識別子のセットに結合し、1つのリバースプライマーが右末端の識別子のセットに結合する場合には、識別子のこれら2セットの交差点の「AND」増幅を、フォワードプライマーとリバースプライマーをPCR反応においてプライマーペアとして一緒に使用することにより、果たすことができる。
図17Cは、親和性タグを使用して「OR」または「AND」操作を実施して複数の成分を含有する識別子にアクセスするための方法の例を示す。一例では、親和性プローブ「P1」が、成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が、成分「C2」を有する全ての識別子を捕捉する場合には、P1およびP2を同時に使用することによりC1またはC2を有する全ての識別子のセットを捕捉することができる(「OR」操作に対応する)。同じ成分およびプローブを用いる別の例では、P1およびP2を逐次的に使用することによりC1およびC2を有する全ての識別子のセットを捕捉することができる(「AND」操作に対応する)。
核酸配列に記憶された情報を読み取る方法
別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、(a)識別子ライブラリーを用意するステップと、(b)識別子ライブラリー中に存在する識別子を識別するステップと、(c)識別子ライブラリー中に存在する識別子から記号列を生成するステップと、(d)記号列から情報をコンパイルするステップとを含み得る。識別子ライブラリーは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
情報を本明細書の他の箇所に記載されているように1つまたは複数の識別子ライブラリーに書き込むことができる。識別子を、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、記憶されたデータをコピーすることおよび記憶されたデータにアクセスすることができる。
識別子は、符号化された記号の位置、符号化された記号の値、または符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリー中の識別子の存在または非存在は、記号の値を示すことができる。識別子ライブラリー中の識別子の存在は、2進列中の第1の記号値(例えば、第1のビット値)を示すことができ、識別子ライブラリー中の識別子の非存在は、2進列中の第2の記号値(例えば、第2のビット値)を示すことができる。二進法で、識別子ライブラリー中の識別子の存在または非存在に関するビット値を偏らせることで、アセンブルされる識別子の数を低減させることができ、したがって、書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置における「1」のビット値を示すことができ、識別子の非存在は、マッピングされた位置における「0」のビット値を示すことができる。
1つの情報についての記号(例えば、ビット値)の生成は、記号(例えば、ビット)をマッピングまたは符号化することができる識別子の存在または非存在を識別することを含み得る。識別子の存在または非存在の決定は、識別子の存在を検出するために存在する識別子をシークエンシングすることまたはハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号および読み取りを、シークエンシングプラットフォームを使用して行うことができる。シークエンシングプラットフォームの例は、「METHOD OF NUCLEIC ACID AMPLIFICATION」と題する、2014年8月21日に出願された米国特許出願第14/465,685号であって、2014年12月18日に米国特許出願公開第2014−0371100号A1として公開された出願;「METHOD OF NUCLEIC ACID AMPLIFICATION」と題する、2013年5月2日に出願された米国特許出願第13/886,234号であって、2013年9月5日に米国特許出願公開第2013−0231254号A1として公開された出願;および「METHODS AND APPARATUSES FOR ANALYZING POLYNUCLEOTIDE SEQUENCES」と題する、2009年3月9日に出願された米国特許出願第12/400,593号であって、2009年10月8日に公開された米国特許出願公開第2009−0253141号A1として公開された出願に記載されており、その各々の全体が、参照により本明細書に組み込まれる。
一例では、核酸符号化データの復号は、Illumina(登録商標)Sequencingなどの、核酸鎖の塩基毎のシークエンシングにより果たすことができ、またはキャピラリー電気泳動による断片化解析などの、特定の核酸配列の存在もしくは非存在を示すシークエンシング技術を利用することにより果たすことができる。シークエンシングは、可逆的ターミネーターの使用を利用することもある。シークエンシングは、天然または非天然(例えば、操作された)ヌクレオチドまたはヌクレオチド類似体の使用を利用することもある。あるいは、または加えて、核酸配列の復号は、光学的、電気化学的または化学的シグナルを生成する任意の方法を含むがこれらに限定されない、様々な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシークエンシング、ハイスループットシークエンシング、1塩基合成反応、単一分子シークエンシング、ライゲーションによるシークエンシング、RNA−Seq(Illumina)、次世代シークエンシング、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガンシークエンシング、マクサム(Maxim)・ギルバートシークエンシング、または大規模並列シークエンシングを含むがこれらに限定されない、様々なシークエンシング手法を使用することができる。
様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および様々なシークエンシングプラットフォームをさらに使用して、符号化された配列、および伸長によりデジタル符号化されたデータを、読み出すことができる。
識別子ライブラリーは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽もしくはマスクする補足核酸配列、またはメタデータの提供も情報のマスクもする補足核酸配列を、さらに含み得る。補足核酸を識別子の識別と同時に識別することができる。あるいは、識別子を識別する前または識別した後に、補足核酸を識別することができる。一例では、補足核酸配列は、符号化された情報の読み取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子インデックスまたはキーを使用して、補足核酸分子と識別子を差別化することができる。
より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化および復号効率を高めることができる。例えば、符号化方法で3つの核酸分子(例えば、識別子)にマッピングされ得る「111」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「000」部分列に再符号化することができる。「000」の代替入力部分列を「111」に再符号化することもできる。この再符号化方法は、データセット中の「1」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「111」を「00」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「1」の数を低減させることができる。
検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度および効率を制御する(例えば、高める)ことができる。例えば、検出を容易にするために設計される核酸配列(例えば、識別子)は、それらの光学的、電気化学的、化学的または物理学的特性に基づいて呼び出すことおよび検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、一本鎖状または二本鎖状のどちらであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成または非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成もしくは非天然ヌクレオチドを含むこともあり、または天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸およびトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、dNaM、3−メトキシ−2−ナフチル基を含有する人工ヌクレオシド、およびd5SICS、6−メチルイソキノリン−1−チオン−2−イル基を含有する人工ヌクレオシド、を挙げることができる。操作された核酸配列は、増強された光学的特性などの、単一の増強された特性のために設計されることもあり、または設計される核酸配列は、増強された光学的および電気化学的特性もしくは増強された光学的および化学的特性などの、複数の増強された特性を考慮して設計されることもある。DNA設計に関しては化学的方法セクションHを参照されたい。
操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を向上させない、反応性天然、合成および非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変更する部分が挙げられるが、これらに限定されない。
シークエンシングプラットフォームを核酸配列に符号化された情報の復号および読み取りのために特異的に設計することができる。シークエンシングプラットフォームを一本鎖または二本鎖核酸分子のシークエンシング専用にすることができる。シークエンシングプラットフォームは、個々の塩基を読み取ること(例えば、塩基毎のシークエンシング)により、または核酸分子(例えば、識別子)に組み込まれた全核酸配列(例えば、成分)の存在もしくは非存在を検出することにより、核酸符号化データを復号することができる。シークエンシングプラットフォームは、無差別な試薬の使用、読み取り長の延長の使用、および検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含むことができる。シークエンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読み取り効率を高めることができ、その結果としてシークエンシング時間を短縮することができる。読み取り長の延長の使用は、符号化された核酸のより長い配列を読み取り毎に復号することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の存在または非存在により核酸配列の存在または非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、一意の光学的、電気化学的または化学的シグナルを生成する化学的部分で、タグ付けすることができる。その一意の光学的、電気化学的または化学的シグナルの存在または非存在は、「0」または「1」ビット値を示すことができる。核酸配列は、単一の化学的部分を含むこともあり、または複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。あるいは、または加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、または核酸配列が合成または非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。
符号化および復号エラーを最小限にするまたは検出するために、一意のコードを適用することができる。符号化および復号エラーは、偽陰性(無作為試料抽出に含まれない核酸分子または識別子)によって起こることがある。エラー検出コードの一例は、識別子ライブラリーに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリーの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのための試料抽出を継続することができる。一部の実施形態では、チェックサム配列をR識別子の連続セット毎に含めることができ、この場合のRは、サイズが1、2、5、10、50、100、200、500もしくは1000に等しいまたはそれより大きいこともあり、または1000、500、200、100、50、10、5もしくは2未満であることもある。Rの値が小さいほど、エラー検出は良好である。一部の実施形態では、チェックサムは、補足核酸配列であり得る。例えば、7個の核酸配列(例えば、成分)を含むセットを、積スキームで識別子を構築するための核酸配列(層X中の成分X1〜X3、および層Y中のY1〜Y3)と補足チェックサムのための核酸配列(X4〜X7およびY4〜Y7)という、2つの群に分けることができる。チェックサム配列X4〜X7は、層Xの0、1、2または3個の配列が層Yの各メンバーとアセンブルさせるかどうかを示すことができる。あるいは、チェックサム配列Y4〜Y7は、層Yの0、1、2または3個の配列が層Xの各メンバーとアセンブルされるかどうかを示すことができる。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリーを、次のプールになるようにチェックサムを含むように補足することができる:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるX1Y1の非存在、ならびにX1Y6およびX6Y1の存在は、X1Y1核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリーの試料抽出または識別子ライブラリーのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、PCRまたは親和性タグ付きプローブハイブリダイゼーションなどのアクセス方法は、それを増幅および/または単離することができる。一部の実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。
データ符号化および復号のノイズを、回文として識別子を構築することにより、例えば、積スキームにおいて単一成分ではなく成分の回文ペアを使用することにより、低減させることができる。次いで、異なる層からの成分のペアを回文様式(例えば、成分XおよびYについてXYではなくYXY)で互いにアセンブルすることができる。この回文方法を、より多くの数の層(例えば、XYZではなくZYXYZ)に拡大することができ、この回文方法により、識別子間の誤った交差反応の検出が可能になり得る。
識別子への過剰(例えば、大過剰)な補足核酸配列の付加は、シークエンシングによる符号化された識別子の回収を妨げることがある。情報の復号の前に、識別子を補足核酸配列によって濃縮することができる。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮することができる。あるいは、または加えて、特異的プライマーを使用するシークエンシング(例えば、1塩基合成反応)により、試料プールを濃縮することなく情報を復号することができる。両方の復号方法において、復号キーがなければ、または識別子の組成について何かのことが分かっていなければ、情報を濃縮または復号することは困難であり得る。親和性タグベースのプローブの使用などの代替アクセス方法を利用することもできる。
バイナリ配列データを符号化するためのシステム
デジタル情報を核酸(例えば、DNA)に符号化するためのシステムは、ファイルおよびデータ(例えば、生データ、圧縮されたzipファイル、整数データ、および他の形態のデータ)をバイトに変換し、バイトを核酸、一般にはDNAのセグメントまたは配列、またはこれらの組合せに符号化するためのシステム、方法およびデバイスを含み得る。
ある態様では、本開示は、核酸を使用してバイナリ配列データを符号化するためのシステムを提供する。核酸を使用してバイナリ配列データを符号化するためのシステムは、デバイスおよび1つまたは複数のコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリーが構築されるように構成することができる。(i)情報を記号列に翻訳するため、(ii)記号列を複数の識別子にマッピングするため、および(iii)少なくとも複数の識別子のサブセットを含む識別子ライブラリーを構築するために、1つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、1つまたは複数の成分に含み得る。1つまたは複数の成分の個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸を使用してバイナリ配列データを読み取るためのシステムを提供する。核酸を使用してバイナリ配列データを読み取るためのシステムは、データベースおよび1つまたは複数のコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリーを記憶し得る。(i)識別子ライブラリー中の識別子を識別するため、(ii)(i)で識別された識別子から複数の記号を生成するため、および(iii)複数の記号から情報をコンパイルするために、1つまたは複数のコンピュータプロセッサを個別にまたは集合的にプログラミングすることができる。識別子ライブラリーは、複数の識別子のサブセットを含み得る。複数の識別子の各個の識別子は、記号列内の個々の記号に対応し得る。識別子は、1つまたは複数の成分を含み得る。成分は、核酸配列を含み得る。
デジタルデータを符号化するためのシステムを使用する方法の非限定的な実施形態は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス(または識別子のランク)を使用してバイト内のビットの位置をマッピングし、ビット値1またはビット値0のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、1つまたは複数のビットにマッピングされる核酸の配列(例えば、識別子)を含む核酸試料または核酸プールについてシークエンシングし、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置およびビット値情報を、デジタル情報の配列を含むバイトに復号する。
核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合された単位であってもよく、上述の操作の1つまたは複数が実行されるように構成された複数の単位であってもよい。情報を核酸分子(例えば、識別子)に符号化し、書き込むためのシステムは、デバイスおよび1つまたは複数のコンピュータプロセッサを含み得る。1つまたは複数のコンピュータプロセッサは、情報が記号列(例えば、ビットの列)に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を2つまたはそれよりも多くのカテゴリーにカテゴリー化するものである。1つのカテゴリーは、識別子ライブラリー中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリー中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリー中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。
デバイスは、複数の領域、セクション、またはパーティションを含み得る。識別子をアセンブルするための試薬および成分をデバイスの1つまたは複数の領域、セクション、またはパーティションに保管することができる。層をデバイスのセクションの別々の領域に保管することができる。層は、1つまたは複数の一意の成分を含み得る。1つの層内の成分は、別の層の成分と重複しない一意のものであり得る。領域またはセクションは容器を含み得、パーティションはウェルを含み得る。各層を別々の容器またはパーティションに保管することができる。各試薬または核酸配列を別々の容器またはパーティションに保管することができる。その代わりに、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成することができる。デバイスは、試薬、成分間、および鋳型をデバイスの1つのセクションから別のセクションに組み合わされるように転送することができる。デバイスは、アセンブリ反応を完了させるための条件をもたらすことができるものである。例えば、デバイスは、加熱、撹拌、および反応進行の検出をもたらすことができるものである。構築された識別子を、1つまたは複数のその後の反応が行われて、識別子の1つまたは複数の末端にバーコード、共通配列、可変配列、またはタグが付加されるように方向付けることができる。次いで、識別子を領域またはパーティションに方向付けて、識別子ライブラリーを生成することができる。1つまたは複数の識別子ライブラリーをデバイスの各領域、セクション、または個々のパーティションに保管することができる。デバイスは、圧力、真空、または吸引を使用して流体(例えば、試薬、成分間、鋳型)を転送することができる。
識別子ライブラリーをデバイスに保管することができるまたは別々のデータベースに移すことができる。データベースは、1つまたは複数の識別子ライブラリーを含み得る。データベースは、識別子ライブラリーを長期保管するための条件(例えば、識別子の分解を低減するための条件)をもたらすものであり得る。識別子ライブラリーは、粉末、液体、または固体の形態で保管することができる。より安定な保管のために識別子の水溶液を凍結乾燥させることができる(凍結乾燥に関するより多くの情報に関しては化学的方法セクションGを参照されたい)。あるいは、識別子を、酸素の非存在下(例えば、嫌気的記憶条件)で記憶させることができる。データベースは、紫外線光防護、温度の低下(例えば、冷蔵または凍結)、ならびに分解性化学物質および酵素からの保護をもたらすものであり得る。データベースに移す前に、識別子ライブラリーを凍結乾燥または凍結させることができる。識別子ライブラリーは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸(EDTA)および/または核酸分子の安定性を維持するために緩衝剤を含み得る。
データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスとカップリングしていてもよく、当該デバイスを含んでもよく、当該デバイスとは分離されていてもよい。コピー、アクセスまたは読み取りの前に識別子ライブラリーの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、一定分量の識別子ライブラリーをデバイスから抽出し、その一定分量を試薬および構成物と組み合わせて、識別子ライブラリーの一部または全部を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができるものである。デバイスは、パーティションを含んでよく、1つまたは複数の増幅反応を、識別子ライブラリーを含むパーティションで行うことができる。デバイスは、識別子の1つよりも多くのプールを同時にコピーすることができる。
コピーされた識別子をコピーデバイスからアクセスデバイスに移すことができる。アクセスデバイスは、コピーデバイスと同じデバイスであってよい。アクセスデバイスは、別々の領域、セクション、またはパーティションを含み得る。アクセスデバイスは、親和性タグと結合した識別子を分離するための1つまたは複数のカラム、ビーズレザバー、または磁気領域を有し得る(核酸捕捉に関しては化学的方法セクションFを参照されたい)。その代わりに、またはそれに加えて、アクセスデバイスは、1つまたは複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る(核酸サイズ選択に関するより多くの情報については化学的方法セクションEを参照されたい)。コピーおよび抽出は、デバイスの同じ領域で実施されてもよく、デバイスの異なる領域で実施されてもよい(核酸増幅に関しては化学的方法セクションDを参照されたい)。
アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シークエンサー、ハイブリダイゼーションアレイ、または識別子の存在または非存在を識別するための他のユニットの一部であってよい。シークエンシングプラットフォームは、核酸配列に符号化された情報の復号および読み取り専用に設計されたものであってよい。シークエンシングプラットフォームは、一本鎖または二本鎖核酸分子のシークエンシング専用のものであってよい。シークエンシングプラットフォームは、個々の塩基を読み取ることによって(例えば、塩基毎のシークエンシング)、または核酸分子(例えば、識別子)内に組み入れられた核酸配列全体(例えば、成分)の存在もしくは非存在を検出することによって核酸符号化データを復号することができるものである。あるいは、シークエンシングプラットフォームは、Illumina(登録商標)Sequencingなどのシステムまたはキャピラリー電気泳動による断片化解析であってよい。その代わりに、またはそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、または化学的シグナルを生じさせる任意の方法を含めた、デバイスによってインプリメントされる様々な解析技法を使用して実施することができる。
核酸分子中への情報保管は、これだけに限定されないが、長期の情報保管、機密情報保管、および医学的情報の保管を含めた種々の適用を有し得る。ある例では、人の医学的情報(例えば、病歴および記録)を核酸分子中に保管し、その彼または彼女に保有させることができる。情報は、体外に保管することもでき(例えば、着用できるデバイス中に)、体内に保管することもできる(例えば、皮下カプセル中に)。患者が診療所または病院に運び込まれた場合に、試料をデバイスまたはカプセルから取得することができ、核酸シークエンサーを使用して情報を復号することができる。核酸分子中への個人的な診断記録の保管により、コンピュータおよびクラウドに基づく保管システムの代替をもたらすことができる。核酸分子中への個人的な診断記録の保管により、診断記録がハッキングされる事例または蔓延を減少させることができる。カプセルに基づく診断記録の保管に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。
コンピュータシステム
本開示は、本開示の方法をインプリメントするようにプログラミングされたコンピュータシステムを提供する。図19は、デジタル情報を核酸配列に符号化し、かつ/または核酸配列から導き出された情報を読み取る(例えば、復号する)ようにプログラミングされたまたは他のやり方で構成されたコンピュータシステム1901を示す。コンピュータシステム1901は、例えば、符号化されたビットストリームまたはバイトストリーム由来の所与のビットまたはバイトについてのビット値およびビット位置情報などの、本開示の符号化および復号手順の種々の態様を調節することができるものである。
コンピュータシステム1901は、中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」とも)1905を含み、これは、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理のための複数のプロセッサであってよい。コンピュータシステム1901はまた、メモリまたはメモリ位置1910(例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリ)、電子記憶装置1915(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース1920(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターなどの周辺機器1925も含む。メモリ1910、記憶装置1915、インターフェース1920および周辺機器1925は、CPU1905と、マザーボードなどの通信バス(実線)を通じて通信する。記憶装置1915は、データを保管するためのデータストレージユニット(またはデータリポジトリ)であってよい。コンピュータシステム1901は、通信インターフェース1920を利用してコンピュータネットワーク(「ネットワーク」)1930と作動可能にカップリングすることができる。ネットワーク1930は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび/もしくはエクストラネットであり得る。ネットワーク1930は、一部の場合では、電気通信および/またはデータネットワークであり得る。ネットワーク1930は、1つまたは複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる。ネットワーク1930は、一部の場合ではコンピュータシステム1901を利用して、ピアツーピアネットワークをインプリメントすることができ、それにより、コンピュータシステム1901とカップリングしたデバイスをクライアントまたはサーバーとして動かすことを可能にすることができるものである。
CPU1905は、プログラムまたはソフトウェアで具体化することができる一連の機械可読指示を実行することができるものである。指示は、メモリ1910などのメモリ位置に記憶させることができるものである。指示をCPU1905に方向付けることができ、その後、それにより、CPU1905を、本開示の方法をインプリメントするようにプログラムするまたは他のやり方で構成することができる。CPU1905により実施される操作の例は、フェッチ、復号、実行、および書き戻しを含み得る。
CPU1905は、集積回路などの回路の一部であってよい。システム1901の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)である。
記憶装置1915は、例えばドライバー、ライブラリーおよび保存プログラムなど、ファイルを記憶することができるものである。記憶装置1915は、ユーザデータ、例えば、ユーザの好みおよびユーザプログラムを記憶することができるものである。コンピュータシステム1901は、一部の場合では、例えばコンピュータシステム1901とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するなどコンピュータシステム1901に対して外付けである、1つまたは複数の追加的なデータストレージユニットを含み得る。
コンピュータシステム1901は、1つまたは複数の遠隔コンピュータシステムとネットワーク1930を通じて通信することができるものである。例えば、コンピュータシステム1901は、ユーザの遠隔コンピュータシステムまたは核酸の配列に符号化または復号されたデータの解析過程でユーザが使用することができる他のデバイスおよび/もしくは機構(例えば、シークエンサーまたは核酸配列中の窒素塩基の順序を化学的に決定するための他のシステム)と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android使用可能デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、コンピュータシステム1901にネットワーク1930を介してアクセスすることができる。
本明細書に記載の方法は、例えば、メモリ1910または電子記憶装置1915など、コンピュータシステム1901の電子ストレージ場所に記憶された機械(例えば、コンピュータプロセッサ)により実行可能なコードによってインプリメントすることができる。機械により実行可能なまたは機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ1905によって実行することができる。一部の場合では、コードを記憶装置1915から取得し、プロセッサ1905による即時アクセスのためにメモリ1910に記憶させることができる。一部の状況では、電子記憶装置1915を除外し、機械により実行可能な指示をメモリ1910に記憶させることができる。
コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプリコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプリコンパイル様式でまたは同時コンパイル様式で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。
コンピュータシステム1901などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させるまたは具体化される機械(またはプロセッサ)実行可能なコードおよび/または関連データの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ(例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリ)またはハードディスクなどの電子記憶装置に記憶させることができる。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサなど、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部を、時々インターネットまたは種々の他の電気通信ネットワークを通じて通信させることができる。そのような通信により、例えば、ソフトウェアを1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータから適用サーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線および光陸線ネットワークを通じておよび種々のエアリンクを通じてローカルデバイス間の物理的インターフェースを横切って使用されるものなどの光波、電気波および電磁波が挙げられる。有線または無線リンク、光リンクなどのそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体とみなすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサに指示をもたらすことに関与するあらゆる媒体を指す。
したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク、例えば、任意のコンピュータ(複数可)中のストレージデバイスなど、例えば、図に示されているデータベースなどをインプリメントするために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内に母線を含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または高周波(RF)および赤外(IR)データ通信中に生じるものなどの音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVDもしくはDVD−ROM、任意の他の光学媒体、パンチカード紙テープ、空孔のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)−EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは指示、そのような搬送波を輸送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つまたは複数の指示の1つまたは複数の配列をプロセッサに運ぶことに関与し得る。
コンピュータシステム1901は、例えば、クロマトグラフ、配列、ならびに、DNA記憶データに符号化または復号される核酸、生データ、ファイルおよび圧縮または復元されたzipファイルを符号化または復号している機械またはコンピュータシステムによって符号化されるまたは読み取られるビット、バイト、またはビットストリームを含む配列出力データをもたらすための、ユーザインタフェース(UI)1940を含む電子ディスプレイ1935を含み得るまたはそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザインターフェース(GUI)およびウェブに基づくユーザインタフェースが挙げられる。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムを介してインプリメントすることができる。アルゴリズムは、中央処理装置1905により実行されるとソフトウェアを介してインプリメントすることができる。デジタル情報を符号化する前に、デジタル情報を生データまたはzipファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、DNAインデックスおよび生データまたはzipファイルに圧縮もしくは復元されたデータを用いて使用することができる。
化学的方法セクション
A.オーバーラップ伸長PCR(OEPCR)アセンブリ
OEPCRでは、ポリメラーゼおよびdNTP(dATP、dTTP、dCTP、dGTPまたはそのバリアントもしくは類似体を含むデオキシヌクレオチド三リン酸)を含む反応で成分をアセンブルする。成分は、一本鎖核酸であっても二本鎖核酸であってもよい。互いに隣接するアセンブルされる成分は、相補的な3’末端、相補的な5’末端、または1つの成分の5’末端と隣接する成分の3’末端の間の相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と称され、OEPCR中の成分間のハイブリダイズした接合部の形成を容易にすることを目的とするものであり、ここで、1つの入力成分(またはその相補物)の3’末端がその意図された隣接成分(またはその相補物)の3’末端とハイブリダイズする。次いで、アセンブルされた二本鎖産物をポリメラーゼ伸長によって形成することができる。次いで、この産物を、その後のハイブリダイゼーションおよび伸長を通じてより多くの成分とアセンブルすることができる。図7は、3つの核酸をアセンブルするためのOEPCRの概略図例を例示する。
一部の実施形態では、OEPCRは、3つの温度:融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびに成分内または成分間での二次構造またはハイブリダイゼーションの形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏95度を超える。一部の実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、または105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、または90度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善され得るが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、またはそれよりも長く、例えば、30秒間、1分間、2分間、または3分間にわたって適用することができる。
アニーリング温度は、意図された隣接成分(またはそれらの相補物)の相補的な3’末端間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、意図されたハイブリダイズした核酸形成の算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏10度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、または70度であり得る。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含有量が高いハイブリダイゼーション領域ほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたOEPCR反応用の成分を設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、または30秒間にわたって、またはそれよりも長く適用することができる。
伸長温度は、1つまたは複数のポリメラーゼ酵素によって触媒される、ハイブリダイズした3’末端の核酸鎖延長を開始させ、またそれを容易にすることを目的とするものである。一部の実施形態では、伸長温度を、ポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、または70度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、または60秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たり約15〜45秒間であり得る。
OEPCRの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。複合アニーリングおよび伸長温度の例としては、摂氏60度、65度、または72度が挙げられる。
一部の実施形態では、OEPCRを1つの温度サイクルで実施することができる。そのような実施形態には、ただ2つの成分の意図されたアセンブリが伴い得る。他の実施形態では、OEPCRを複数の温度サイクルで実施することができる。OEPCRにおけるいかなる所与の核酸も、1つのサイクルでは最大で1つの他の核酸としかアセンブルできない。これは、アセンブリ(または伸長または延長)を核酸の3’末端でしか行わず、また、各核酸は3’末端を1つしか有さないからである。したがって、複数の成分のアセンブリには複数の温度サイクルが必要になり得る。例えば、4種の成分のアセンブルには、3つの温度サイクルが伴い得る。6種の成分のアセンブルには5つの温度サイクルが伴い得る。10種の成分のアセンブルには9つの温度サイクルが伴い得る。一部の実施形態では、最低限必要なものよりも多くの温度サイクルを使用することによりアセンブリ効率を上昇させることができる。例えば、2種の成分をアセンブルするために4つの温度サイクルを使用することにより、1つの温度サイクルのみを使用するよりも多くの産物をもたらすことができる。これは、成分のハイブリダイゼーションおよび延長が、各サイクルにおいて成分の総数のうちごく一部で起こる統計学的事象だからである。したがって、アセンブルされた成分の総画分は、サイクルの増加と共に増加させることができる。
温度サイクリングの考慮事項に加えて、OEPCRにおける核酸配列の設計がそれらの互いとのアセンブリの効率に影響を及ぼす可能性がある。長いハイブリダイゼーション領域を有する核酸は、所与のアニーリング温度で、短いハイブリダイゼーション領域を有する核酸と比較してより効率的にハイブリダイズし得る。これは、より長いハイブリダイズ産物はより多数の安定な塩基対を含有し、したがって、全体的なハイブリダイズ産物がより短いハイブリダイズ産物よりも安定であり得るからである。ハイブリダイゼーション領域は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、またはそれよりも多くの塩基の長さを有し得る。
高グアニンまたはシトシン含有量のハイブリダイゼーション領域は、所与の温度で、低グアニンまたはシトシン含有量のハイブリダイゼーション領域よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりも安定な塩基対を形成するからである。ハイブリダイゼーション領域は、0%から100%の間の任意のグアニンまたはシトシン含有量(GC含量としても公知)を有し得る。
ハイブリダイゼーション領域の長さおよびGC含量に加えて、OEPCRの効率に影響を及ぼし得る核酸配列設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とのハイブリダイゼーション産物を形成するその能力が妨げられる恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸についての可能な二次構造の型およびそれらの安定性(例えば、融解温度)は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、効率的なOEPCRのための適当な長さおよびGC含量の基準を満たす核酸配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ−ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。
同様に、ホモ二量体(同じ配列の核酸分子とハイブリダイズする核酸分子)および望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他の核酸配列とハイブリダイズする核酸配列)の形成により、OEPCRが妨げられる恐れがある。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、核酸設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して予測し、説明することができる。
より長い核酸配列またはより高いGC含量により、OEPCRでの望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短い核酸配列またはより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いハイブリダイゼーション領域または高いGC含量を使用する設計戦略が打ち消され得る。そのように、一部の実施形態では、高いGC含量の長いハイブリダイゼーション領域ではなく低いGC含量の短い非ハイブリダイゼーション領域を使用することによってOEPCRを最適化することができる。核酸の全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。一部の実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域の最適な長さおよび最適なGC含量が存在し得る。
OEPCR反応におけるより多数の区別可能な核酸は、予測されるアセンブリ効率に干渉し得る。これは、より多数の区別可能な核酸配列により、望ましくない分子間相互作用、特にヘテロ二量体の形態のより高い確率が生じ得るからである。したがって、多数の成分をアセンブルするOEPCRの一部の実施形態では、効率的なアセンブリのための核酸配列の制約はよりストリンジェントになり得る。
予測される最終的なアセンブルされた産物を増幅するためのプライマーをOEPCR反応に含めることができる。次いで、OEPCR反応を、単に構成する成分間でより多くのアセンブリを創出することによってだけでなく、完全なアセンブルされた産物を従来のPCRの様式で指数関数的に増幅することによっても(化学的方法セクションDを参照されたい)アセンブルされた産物の収率を改善するために、より多くの温度サイクルを用いて実施することができる。
アセンブリ効率を改善するために添加剤をOEPCR反応に含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはこれらの組合せの添加。添加剤含有量(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のポリメラーゼをOEPCRのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex−Taqポリメラーゼ、LA−Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金 Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸延長の間のより高い忠実度に寄与し得る3’から5’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間にリーディング配列を動かし得、一方、他のポリメラーゼは、それらを分解し得るまたは延長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。このプロセスはA尾部付加と称され、また、アデニン塩基の付加により、意図された隣接成分間の設計された3’相補性が破壊され得るので、このプロセスはOEPCRに対して阻害性であり得る。
OEPCRは、ポリメラーゼサイクリングアセンブリ(またはPCA)とも称され得る。
B.ライゲーションアセンブリ
ライゲーションアセンブリでは、別々の核酸を、1つまたは複数のリガーゼ酵素および追加的な補因子を含む反応でアセンブルする。補因子は、アデノシン三リン酸(ATP)、ジチオスレイトール(DTT)、またはマグネシウムイオン(Mg2+)を含み得る。ライゲーションの間、1つの核酸鎖の3’末端を別の核酸鎖の5’末端と共有結合により連結し、したがって、アセンブルされた核酸を形成する。ライゲーション反応の成分は、平滑末端化された二本鎖DNA(dsDNA)、一本鎖DNA(ssDNA)、または部分的にハイブリダイズした一本鎖DNAであり得る。核酸の末端を1つにまとめる戦略は、リガーゼ酵素の実行可能な基質の頻度を増大させるものであり、したがって、リガーゼ反応の効率を改善するために使用することができる。平滑末端化されたdsDNA分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を1つにまとめるためのより上首尾の戦略は、それらがアセンブルすることが意図されている成分の突出との相補性を有する5’または3’一本鎖突出のいずれかを有する核酸成分を使用することであり得る。後者の例では、塩基−塩基ハイブリダイゼーションに起因してより安定な核酸2重鎖が形成され得る。
二本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端の他方の鎖は、「くぼみ」と称することができる。まとめると、くぼみと突出は、「粘着末端」としても公知の「付着末端」を形成する。付着末端は、3’突出と5’くぼみ、または5’突出と3’くぼみのいずれであってもよい。2つの意図された隣接成分間の付着末端は、相補性を有し、したがって、両方の付着末端の突出がハイブリダイズし、したがって、各突出末端が他の成分のくぼみの始めと直接隣接するように設計することができる。これにより、リガーゼの作用によって「シール」する(リン酸ジエステル結合を通じて共有結合により連結する)ことができる「ニック」(二本鎖DNA切断)が形成される。3つの核酸をアセンブルするための付着末端ライゲーションの概略図例については図8を参照されたい。一方の鎖または他方の鎖、または両方の鎖のいずれのニックもシールすることができる。熱力学的に、付着末端を形成する分子の上の鎖および下の鎖は、会合した状態と解離した状態を移動し得、したがって、付着末端は、一過性の形成であり得る。しかし、2種の成分間の付着末端2重鎖の一方の鎖に沿ったニックがシールされると、逆の鎖のメンバーが解離したとしても共有結合性の連結が残存する。次いで、連結した鎖が、逆の鎖の意図された隣接メンバーが結合することができる鋳型になり、シールすることができるニックが再度形成される。
付着末端は、dsDNAを1つまたは複数のエンドヌクレアーゼで消化することによって創出することができる。エンドヌクレアーゼ(制限酵素と称することができる)は、dsDNA分子のいずれかの末端または両末端の特異的な部位(制限部位と称することができる)を標的とし、ねじれ型切断を創出し得(時には消化と称される)、したがって、付着末端が残される。制限酵素消化に関しては化学的方法セクションCを参照されたい。消化により、パリンドローム突出(それ自体の逆相補物である配列を有する突出)が残される。その場合、同じエンドヌクレアーゼで消化される2種の成分は、リガーゼを用いてそれに沿ってアセンブルすることができる相補的な付着末端を形成し得る。消化およびライゲーションは、エンドヌクレアーゼおよびリガーゼが適合する場合には同じ反応において共に行うことができる。反応は、摂氏4度、10度、16度、25度、または37度などの均一温度で行うことができる。または、反応は、複数の温度間、例えば、摂氏16度と摂氏37度の間のサイクルであってよい。複数の温度間でサイクルさせることにより、サイクルの異なる部分の間に消化およびライゲーションを各々それらのそれぞれの最適な温度で進行させることが可能になる。
消化およびライゲーションを別々の反応で実施することが有益な場合がある。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーション産物がエンドヌクレアーゼの新しい制限部位を形成する場合。これらの例では、制限酵素消化、次いでライゲーションを別々に実施することがより良好であり得、また、おそらく、制限酵素をライゲーションの前に除去することがさらに有益であり得る。核酸を酵素からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着、洗浄、および溶出によって分離することができる。複数のエンドヌクレアーゼを同じ反応において使用することができるが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするために注意を払うべきである。2種のエンドヌクレアーゼを使用し、一方のエンドヌクレアーゼによりdsDNA成分の両末端に直交性の(非相補的な)付着末端を創出することができる。
エンドヌクレアーゼ消化により、付着末端にリン酸化された5’末端が残される。リガーゼは、リン酸化された5’末端に対してのみ機能することができ、リン酸化されていない5’末端に対しては機能することができない。そのように、消化とライゲーションの間に中間の5’リン酸化ステップのいかなる必要もない場合がある。付着末端にパリンドローム突出を有する消化されたdsDNA成分はそれ自体とライゲーションする可能性がある。自己ライゲーションを防止するために、ライゲーション前に前記dsDNA成分を脱リン酸化することが有益であり得る。
複数のエンドヌクレアーゼが異なる制限部位を標的とし得るが、適合する突出(互いに逆相補物である突出)が残される。2種のそのようなエンドヌクレアーゼを用いて創出された付着末端のライゲーション産物では、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含有しないアセンブルされた産物がもたらされ得る。そのようなエンドヌクレアーゼにより、ただ2つのエンドヌクレアーゼを使用し、反復的な消化−ライゲーションサイクルを実施することによってプログラム可能に複数の成分をアセンブルすることができるバイオブリックアセンブリなどのアセンブリ方法の基礎が形成される。図20は、エンドヌクレアーゼBamHIおよびBglIIを適合する突出と共に使用した消化−ライゲーションサイクルの例を例示する。
一部の実施形態では、付着末端を創出するために使用されるエンドヌクレアーゼは、IIS型制限酵素であり得る。これらの酵素は、固定数の塩基をこれらの酵素の制限部位から特定の方向に切り出し、したがって、これらの酵素によって生成される突出の配列をカスタマイズすることができる。突出配列はパリンドロームである必要はない。同じIIS型制限酵素を使用して、複数の異なる付着末端を同じ反応においてまたは複数の反応において創出することができる。さらに、1つまたは複数のIIS型制限酵素を使用して、適合する突出を有する成分を同じ反応でまたは複数の反応で創出することができる。IIS型制限酵素によって生成される2つの付着末端間のライゲーション部位は、それにより新しい制限部位が形成されないように設計することができる。さらに、IIS型制限酵素部位を、dsDNAにおいて、制限酵素が付着末端を有する成分を生成する際にそれ自体の制限部位を切断するように位置させることができる。したがって、IIS型制限酵素により生成した複数の成分間のライゲーション産物は、いかなる制限部位も含有しない場合がある。
IIS型制限酵素を反応においてリガーゼと混合して、成分の消化とライゲーションを一緒に実施することができる。反応の温度を2つまたはそれよりも多くの値の間でサイクルさせて、最適な消化およびライゲーションを促進することができる。例えば、消化を摂氏37度で最適に実施することができ、ライゲーションを摂氏16度で最適に実施することができる。より一般的には、反応を少なくとも摂氏0度、5度、10度、15度、20度、25度、30度、35度、40度、45度、50度、55度、60度、または65度またはそれよりも高い温度値の間をサイクルさせることができる。複合させた消化およびライゲーション反応を使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、または20種の成分間、またはそれよりも多くをアセンブルすることができる。IIS型制限酵素を活用して付着末端を創出するアセンブリ反応の例としては、Golden Gate Assembly(Golden Gateクローニングとしても公知)またはモジュラークローニング(MoCloとしても公知)が挙げられる。
ライゲーションの一部の実施形態では、エキソヌクレアーゼを使用して、付着末端を有する成分を創出することができる。3’エキソヌクレアーゼを使用して、dsDNAから3’末端をチューバックし(chew back)、したがって、5’突出を創出する。同様に、5’エキソヌクレアーゼを使用して、dsDNAから5’末端をチューバックし、したがって、3’突出を創出する。異なるエキソヌクレアーゼは異なる性質を有し得る。例えば、エキソヌクレアーゼは、ssDNAに作用するかどうかに関わりなく、リン酸化された5’末端に作用するのかリン酸化されていない5’末端に作用するのかに関わりなく、ニックで開始することができるかどうかに関わりなく、またはそれらの活性を5’くぼみ、3’くぼみ、5’突出、もしくは3’突出において開始することができるかどうかに関わりなく、それらのヌクレアーゼ活性の方向が異なり得る(5’から3’へまたは3’から5’へ)。異なる型のエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、RecJ、エキソヌクレアーゼIII、エキソヌクレアーゼI、エキソヌクレアーゼT、エキソヌクレアーゼV、エキソヌクレアーゼVIII、エキソヌクレアーゼVII、ヌクレアーゼBAL_31、T5エキソヌクレアーゼ、およびT7エキソヌクレアーゼが挙げられる。
エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分をアセンブルすることができる。反応は、固定温度で行うこともでき、各々がリガーゼまたはエキソヌクレアーゼそれぞれに理想的な複数の温度の間をサイクルさせることもできる。ポリメラーゼをアセンブリ反応にリガーゼおよび5’から3’へのエキソヌクレアーゼと一緒に含めることができる。そのような反応における成分は、互いに隣接してアセンブルすることが意図された成分がそれらの端部に相同な配列を共有するように設計することができる。例えば、成分Yとアセンブルされる成分Xは、5’−z−3’形態の3’端部配列を有し得、成分Yは、5’−z−3’形態の5’端部配列を有し得、ここで、zは、任意の核酸配列である。本発明者らは、そのような形態の相同な端部配列を、「ギブソンオーバーラップ」と称する。5’エキソヌクレアーゼによりギブソンオーバーラップを有するdsDNA成分の5’末端がチューバックされると、互いとハイブリダイズする適合する3’突出が創出される。次いで、ハイブリダイズした3’末端がポリメラーゼの作用によって鋳型成分の末端までまたは一方の成分の伸長した3’突出が隣接成分の5’くぼみを満たす点まで伸長し、それにより、リガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と称される。ギブソンアセンブリは、T5エキソヌクレアーゼ、Phusionポリメラーゼ、およびTaqリガーゼを使用し、反応を摂氏50度でインキュベートすることによって実施することができる。前記例では、好熱性リガーゼであるTaqを使用することにより、反応における3つの型の酵素全てに適した温度である摂氏50度で反応を進行させることが可能になる。
「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼが関与する任意のアセンブリ反応を指す。ギブソンアセンブリを使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれより多くの成分をアセンブルすることができる。ギブソンアセンブリは、一段階の等温性反応として行うこともでき、1つまたは複数の温度でのインキュベーションを伴う多段階反応として行うこともできる。例えば、ギブソンアセンブリは、少なくとも30度、40度、50度、60度、または70度、またはそれよりも低い温度で行うことができる。ギブソンアセンブリのインキュベーション時間は、少なくとも1分間、5分間、10分間、20分間、40分間、または80分間であり得る。
ギブソンアセンブリ反応は、意図された隣接成分間の意図された隣接成分ギブソンオーバーラップがある特定の長さであり、ヘアピン、ホモ二量体、または望ましくないヘテロ二量体などの望ましくないハイブリダイゼーション事象を回避する配列などの配列特色を有する場合に、最適に行うことができる。一般に、少なくとも20塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、長さ少なくとも1塩基、2塩基、3塩基、5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、100塩基、またはそれよりも多くの塩基であり得る。ギブソンオーバーラップのGC含量は、0%から100%の間のいずれかであり得る。
ギブソンアセンブリは、一般に、5’エキソヌクレアーゼを用いて説明されるが、この反応は、3’エキソヌクレアーゼを用いて行うこともできる。3’エキソヌクレアーゼによりdsDNA成分の3’末端がチューバックされると、ポリメラーゼにより、3’末端が伸長することによって作用が打ち消される。この動的プロセスを、2種の成分(ギブソンオーバーラップを共有する)の5’突出(エキソヌクレアーゼによって創出される)がハイブリダイズし、ポリメラーゼにより一方の成分の3’末端がその隣接成分の5’末端に行くのに十分に伸長し、したがって、リガーゼによってシールすることができるニックが残されるまで続けることができる。
ライゲーションの一部の実施形態では、付着末端を有する成分は、酵素的なものとは対照的に、完全な相補性を共有しない2つの一本鎖核酸またはオリゴを一緒に混合することによって合成的に創出することができる。例えば、2つのオリゴ、オリゴXおよびオリゴYを、オリゴのいずれか一方または両方の全体を構成する塩基のより大きな列の亜列を形成する相補的な塩基の連続した列に沿ってのみ完全にハイブリダイズするように設計することができる。この相補的な塩基の列は、「インデックス領域」と称される。インデックス領域がオリゴXの全体およびオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の3’突出を有する他方に付着末端を有する成分を形成する(図21A)。インデックス領域がオリゴXの全体およびオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の5’突出を有する他方に付着末端を有する成分を形成する(図21B)。インデックス領域がオリゴXの全体を占有し、オリゴYのいずれの末端も占有しない場合(インデックス領域がオリゴYの中央に埋め込まれていることを意味する)、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方およびオリゴY由来の5’突出を有する他方に付着末端を有する成分を形成する(図21C)。インデックス領域がオリゴXの5’末端のみおよびオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方およびオリゴX由来の3’突出を有する他方に付着末端を有する成分を形成する(図21D)。インデックス領域がオリゴXの3’末端のみおよびオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の5’突出を有する一方およびオリゴX由来の5’突出を有する他方に付着末端を有する成分を形成する(図21E)。上述の例では、突出の配列は、インデックス領域の外側のオリゴ配列によって定義される。これらの突出配列は、ライゲーションのために成分がハイブリダイズする領域であるので、ハイブリダイゼーション領域と称することができる。
付着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域(複数可)は、成分の適当なアセンブリが容易になるように設計することができる。長い突出を有する成分は、所与のアニーリング温度で、短い突出を有する成分と比較してより効率的に互いとハイブリダイズすることができる。突出は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、15塩基、20塩基、30塩基、またはそれよりも多くの塩基の長さを有し得る。
高グアニンまたはシトシン含有量を含有する突出を有する成分は、それらの相補的な成分と、所与の温度で、低グアニンまたはシトシン含有量を含有する突出を有する成分よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりもより安定な塩基対を形成するからである。突出は、0%から100%の間のいずれかのグアニンまたはシトシン含有量(GC含量としても公知)を有し得る。
突出配列と同様に、オリゴのGC含量およびインデックス領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖および下の鎖が安定に結合していれば付着末端成分がより効率的にアセンブルすることができるからである。したがって、より高いGC含量、より長い配列、およびより高い融解温度を促進する他の特色を有するインデックス領域を設計することができる。しかし、インデックス領域および突出配列(複数可)の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とアセンブルされた産物を形成するその能力が妨げられる恐れがある。これは、インデックス領域内、突出配列内、またはその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型およびそれらの安定性(例えば、融解温度)は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さおよびGC含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避することができる。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ−ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、またはこれらの組合せを含み得る。
同様に、ホモ二量体(同じ配列のオリゴとハイブリダイズするオリゴ)および望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ)の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、予測し、オリゴ設計の間にコンピュータによる計算方法および設計空間検索アルゴリズムを使用して説明することができる。
より長いオリゴ配列またはより高いGC含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体、およびヘテロ二量体の形成の増加が生じ得る。したがって、一部の実施形態では、より短いオリゴまたはより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴまたは高いGC含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さおよび最適なGC含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なGC含量は、0%から100%の間のいずれかであり得る。
付着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル(または鋳型または架橋)鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション(SSL)、鋳型により導かれるライゲーション(TDL)、または架橋鎖ライゲーションと称することができる。3つの核酸をアセンブルするためのTDLの概略図例については図10Aを参照されたい。TDLでは、2つの一本鎖核酸を鋳型上に隣接的にハイブリダイズさせ、したがって、リガーゼによってシールすることができるニックを形成する。付着末端ライゲーションと同じ核酸設計考慮事項がTDLにも当てはまる。鋳型とそれらの意図された相補的な核酸配列の間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導くことができる。したがって、鋳型の両側でのハイブリダイゼーション安定性(または融解温度)を改善する配列特色により、ライゲーション効率を改善することができる。これらの特色は、より長い配列の長さおよびより高いGC含量を含み得る。鋳型を含めたTDLにおける核酸の長さは、少なくとも5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基、またはそれよりも多くの塩基であり得る。鋳型を含めた核酸のGC含量は、0%から100%の間のいずれかであり得る。
TDLでは、付着末端ライゲーションと同様に、配列空間検索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分および鋳型配列を設計するために注意を払うことができる。TDLにおける成分は、二本鎖の代わりに一本鎖であり得るので、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある(付着末端ライゲーションと比較)。
TDLは、平滑末端化されたdsDNA成分を用いて実施することもできる。そのような反応では、ステープル鎖が2つの一本鎖核酸を適当に架橋するためには、まずステープルが、完全な一本鎖相補物を置き換えるまたは部分的に置き換えることが必要な可能性がある。dsDNA成分を用いたTDL反応を容易にするために、dsDNAを最初に高温でインキュベートすることで融解させることができる。次いで、反応を冷却し、したがって、ステープル鎖がそれらの適当な核酸相補物にアニーリングすることを可能にすることができる。このプロセスは、dsDNA成分と比較して比較的高い濃度の鋳型を使用することによってさらにいっそう効率的なものにすることができ、したがって、結合に関して鋳型が適当な全長ssDNA相補物に打ち勝つことが可能になる。2つのssDNA鎖がそれらの鋳型およびリガーゼによってアセンブルされたら、次いで、そのアセンブルされた核酸が逆の全長ssDNA相補物の鋳型になり得る。したがって、TDLを用いた平滑末端化されたdsDNAのライゲーションを、融解(より高い温度でのインキュベーション)およびアニーリング(より低い温度でのインキュベーション)の複数のラウンドを通じて改善することができる。このプロセスは、リガーゼサイクリング反応、またはLCRと称することができる。適当な融解温度およびアニーリング温度は核酸配列に依存する。融解温度およびアニーリング温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、60度、70度、80度、90度、または100度であり得る。温度サイクルの数は、少なくとも1回、5回、10回、15回、20回、15回、30回、またはそれよりも多くであり得る。
全てのライゲーションを固定温度反応または多重温度反応で実施することができる。ライゲーション温度は、少なくとも摂氏0度、4度、10度、20度、20度、30度、40度、50度、または60度またはそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合うまたはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって、成分が一時的に隣り合うまたはハイブリダイズする頻度を増大させることができる。しかし、温度の上昇により、塩基対間の水素結合の破壊、したがって、これらの隣り合ったまたはハイブリダイズした成分2重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、アセンブルされる核酸の数、それらの核酸の配列、リガーゼの型、ならびに反応添加剤などの他の因子に依存し得る。例えば、4塩基の相補的な突出を有する2つの付着末端成分は、摂氏4度でT4リガーゼを用いると、摂氏25度でT4リガーゼを用いるよりも速くアセンブルすることができる。しかし、25塩基の相補的な突出を有する2つの付着末端成分は、摂氏25度でT4リガーゼを用いると、摂氏4度でT4リガーゼを用いるよりも速くアセンブルすることができ、また、おそらく、4塩基の突出をいずれの温度でライゲーションするよりも速くアセンブルすることができる。ライゲーションの一部の実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。
ライゲーションを使用して、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、またはそれよりも多くの核酸をアセンブルすることができる。ライゲーションインキュベーション時間は、最大で30秒間、1分間、2分間、5分間、10分間、20分間、30分間、1時間、またはそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善することができる。
ライゲーションには5’リン酸化末端を有する核酸が必要な場合がある。5’リン酸化末端を有さない核酸成分は、T4ポリヌクレオチドキナーゼ(またはT4 PNK)などのポリヌクレオチドキナーゼとの反応でリン酸化することができる。ATP、マグネシウムイオン、またはDTTなどの他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏37度で30分間行うことができる。ポリヌクレオチドキナーゼ反応温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、または60度であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、またはそれよりも長い時間であり得る。あるいは、核酸成分は、改変された5’リン酸化を用いて合成的に(酵素的なものとは対照的に)設計し、製造することができる。それらの5’末端にアセンブルされる核酸のみにリン酸化が必要になり得る。例えば、TDLにおける鋳型は、アセンブルされるものではないので、リン酸化されていなくてよい。
ライゲーション効率を改善するために、添加剤をライゲーション反応に含めることができる。例えば、ジメチルスルホキシド(DMSO)、ポリエチレングリコール(PEG)、1,2−プロパンジオール(1,2−Prd)、グリセロール、Tween−20またはこれらの組合せの添加。PEG6000が特に有効なライゲーション増強剤であり得る。PEG6000は、クラウディング剤として作用することによってライゲーション効率を上昇させ得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分をより近づけ得る。添加剤含有量(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のリガーゼをライゲーションのために使用することができる。リガーゼは、天然に存在するものであっても合成されたものであってもよい。リガーゼの例としては、T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、Taq DNAリガーゼ、9N(商標)DNAリガーゼ、E.coli DNAリガーゼ、およびSplintR DNAリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定かつ最適に機能し得る。例えば、Taq DNAリガーゼは熱安定性であり、T4 DNAリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる性質を有する。例えば、T4 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができるが、T7 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができない。
ライゲーションを使用して、シークエンシングアダプターを核酸のライブラリーに付着させることができる。例えば、ライゲーションを、核酸ライブラリーの各メンバーの末端の共通の付着末端またはステープルを用いて実施することができる。核酸の一方の末端の付着末端またはステープルが他方の末端のものと区別可能な場合、シークエンシングアダプターを非対称にライゲーションすることができる。例えば、フォワードシークエンシングアダプターを核酸ライブラリーのメンバーの一方の末端にライゲーションすることができ、リバースシークエンシングアダプターを核酸ライブラリーのメンバーの他方の末端にライゲーションすることができる。あるいは、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された二本鎖核酸のライブラリーに付着させることができる。フォークアダプターを使用して、各末端で等価である平滑末端または付着末端のいずれかを有する核酸ライブラリーにアダプターを非対称に付着させることができる(例えば、A尾部など)。
ライゲーションは、熱失活(例えば、摂氏65度で少なくとも20分間のインキュベーション)、変性剤の添加、またはEDTAなどのキレート剤の添加によって阻害され得る。
C.制限酵素消化
制限酵素消化は、制限エンドヌクレアーゼ(または制限酵素)が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を切断する(または消化する)反応である。I型、II型、III型、またはIV型制限酵素を制限酵素消化のために使用することができる。II型制限酵素が核酸消化のための最も効率的な制限酵素であり得る。II型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を切断することができる。前記制限酵素(およびそれらの制限部位)の例としては、AatII(GACGTC)、AfeI(AGCGCT)、ApaI(GGGCCC)、DpnI(GATC)、EcoRI(GAATTC)、NgeI(GCTAGC)、およびさらに多くが挙げられる。DpnIおよびAfeIなどのいくつかの制限酵素は、それらの制限部位を中央で切断することができ、したがって、平滑末端化されたdsDNA産物が残される。EcoRIおよびAatIIなどの他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって、付着末端(またはねじれ型の末端)を有するdsDNA産物が残される。いくつかの制限酵素は、不連続の制限部位を標的とし得る。例えば、制限酵素AlwNIは、制限部位CAGNNNCTGを認識し、ここで、Nは、A、T、C、またはGのいずれかである。制限部位は、長さ少なくとも2塩基、4塩基、6塩基、8塩基、10塩基、またはそれよりも多くの塩基であり得る。
いくつかのII型制限酵素は、それらの制限部位の外側の核酸を切断する。この酵素は、IIS型またはIIG型制限酵素に下位分類することができる。前記酵素は、パリンドロームでない制限部位を認識することができる。前記制限酵素の例としては、GAAACを認識し、2塩基(同じ鎖)および6塩基(逆の鎖)さらに下流にねじれ型切断を創出するBbsIが挙げられる。別の例としては、GGTCTCを認識し、1塩基(同じ鎖)および5塩基(逆の鎖)さらに下流にねじれ型切断を創出するBsaIが挙げられる。前記制限酵素をゴールデンゲートアセンブリまたはモジュラークローニング(MoClo)のために使用することができる。BcgI(IIG型制限酵素)などのいくつかの制限酵素は、その認識部位の両末端にねじれ型切断を創出し得る。制限酵素は、それらの認識部位から少なくとも1塩基、5塩基、10塩基、15塩基、20塩基、またはそれよりも遠く離れた核酸を切断し得る。前記制限酵素は、それらの認識部位の外側でねじれ型切断を創出し得るので、得られる核酸突出の配列を任意に設計することができる。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内にねじれ型切断を創出する制限酵素とは対照的である。制限酵素消化によって創出される核酸突出は、長さ少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、またはそれよりも多くの塩基であり得る。制限酵素により核酸を切断する場合、得られる5’末端はリン酸を含有する。
1つまたは複数の核酸配列を制限酵素消化反応に含めることができる。同様に、1つまたは複数の制限酵素を一緒に制限酵素消化反応に使用することができる。制限酵素消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、BSA、S−アデノシル−L−メチオニン(SAM)、またはこれらの組合せを含めた添加剤および補助因子を含有し得る。制限酵素消化反応は、摂氏37度で1時間インキュベートすることができる。制限酵素消化反応は、少なくとも摂氏0度、10度、20度、30度、40度、50度、または60度の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限酵素消化反応は、最大で1分間、10分間、30分間、60分間、90分間、120分間、またはそれよりも長くインキュベートすることができる。より長いインキュベーション時間により、消化の増大をもたらすことができる。
D.核酸増幅
核酸増幅は、ポリメラーゼ連鎖反応、またはPCRを用いて実行することができる。PCRでは、核酸の出発プール(鋳型プールまたは鋳型と称される)をポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTP、およびその類似体またはバリアントなど)、ならびにベタイン、DMSO、およびマグネシウムイオンなどの追加的な補助因子および添加剤と組み合わせることができる。鋳型は、一本鎖核酸であっても二本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列を含む各識別子核酸配列に結合し、標的配列を含むそれらの識別子核酸配列のみを選択することができる。一般には、PCR反応には2種のプライマーが存在し、一方は標的鋳型の上の鎖のプライマー結合性部位に相補であり、他方は第1の結合性部位よりも下流の、標的鋳型の下の鎖のプライマー結合性部位に相補的である。これらのプライマーがそれらの標的に結合する5’から3’への配向は、それらの間の核酸配列を首尾よく複製し、指数関数的に増幅するために、互いに向かい合っていなければならない。「PCR」とは、一般には、特に前記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。
一部の実施形態では、PCRは、3つの温度:融解温度、アニーリング温度、および伸長温度の間をサイクルさせることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変えること、ならびにハイブリダイゼーション産物および二次構造の形成を除去することを目的とするものである。一般には、融解温度は、高く、例えば、摂氏95度を超える。一部の実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、または105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、または90度であり得る。融解温度が高いほど核酸およびそれらの二次構造の解離が改善されるが、核酸またはポリメラーゼの分解などの副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、またはそれよりも長く、例えば、30秒間、1分間、2分間、または3分間にわたって適用することができる。複雑なまたは長い鋳型を用いたPCRにはより長い最初の融解温度ステップが推奨される場合がある。
アニーリング温度は、プライマーとそれらの標的鋳型の間のハイブリダイゼーションの形成を容易にすることを目的とするものである。一部の実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から摂氏10度またはそれよりも高い温度以内であり得る。一部の実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、または70度であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど融解温度が高くなり得、グアニンまたはシトシンヌクレオチドのパーセント含有量が高いプライマーほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、または30秒間にわたって、またはそれよりも長く適用することができる。アニーリングを確実にすることを補助するために、プライマー濃度を高くするまたは量を飽和させることができる。プライマー濃度は、500ナノモル(nM)であり得る。プライマー濃度は、最大で1nM、10nM、100nM、1000nM、またはそれよりも高い濃度であり得る。
伸長温度は、1つまたは複数のポリメラーゼ酵素によって触媒されるプライマーの3’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。一部の実施形態では、伸長温度をポリメラーゼが核酸結合強度、延長スピード、延長安定性、または忠実度に関して最適に機能する温度に設定することができる。一部の実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、または70度、またはそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、または60秒間にわたって、またはそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たりおよそ15〜45秒間であり得る。
PCRの一部の実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。複合アニーリングおよび伸長温度の例としては、摂氏60度、65度、または72度が挙げられる。
一部の実施形態では、PCRを1つの温度サイクルで実施することができる。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、PCRを複数の温度サイクルで実施することができる。PCRが効率的であれば、各サイクルで標的核酸分子の数が2倍になり、それにより、元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。PCRの効率は変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、100%より多いまたは少ない可能性がある。各PCRサイクルで突然変異したおよび組み換えられた核酸などの望ましくないアーチファクトが導入される可能性がある。この潜在的な害を縮小するために、忠実度が高く処理能力が高いポリメラーゼを使用することができる。さらに、限られた数のPCRサイクルを使用することができる。PCRは、最大で1、5、10、15、20、25、30、35、40、45、またはそれよりも多くのサイクルを伴い得る。
一部の実施形態では、複数の区別可能な標的核酸配列を1つのPCRで一緒に増幅することができる。各標的配列が共通のプライマー結合性部位を有する場合、全ての核酸配列を、同じプライマーセットを用いて増幅することができる。あるいは、PCRは、各々が区別可能な核酸を標的とすることが意図された複数のプライマーを含み得る。前記PCRは多重PCRと称することができる。PCRは、最大で1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれよりも多くの区別可能なプライマーを伴い得る。複数の区別可能な核酸標的を有するPCRでは、各PCRサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだまたは非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ(例えば、高忠実度および配列頑強性を有する)および最適なPCR条件を使用することができる。アニーリングおよび伸長の温度および時間などの因子を最適化することができる。さらに、限られた数のPCRサイクルを使用することができる。
PCRの一部の実施形態では、鋳型中のその標的化プライマー結合性部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を突然変異させることができる。PCRの一部の実施形態では、5’末端に余分の配列(突出として公知)を有するプライマーを使用して、その標的化された核酸に配列を付着させることができる。例えば、5’末端にシークエンシングアダプターを含有するプライマーを使用して、シークエンシングのための核酸ライブラリーを調製および/または増幅することができる。ある特定のシークエンシング技術のための十分な富化のために、シークエンシングアダプターを標的とするプライマーを使用して核酸ライブラリーを増幅することができる。
一部の実施形態では、プライマーが鋳型の一方の鎖のみ(両方の鎖ではなく)標的とする場合、線形PCR(または非対称PCR)を使用する。線形PCRでは、各サイクルから複製される核酸はプライマーと相補的なものではなく、したがって、プライマーはその核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって、線形(指数関数的なものとは対照的な)増幅になる。線形PCRからの増幅は従来の(指数関数的な)PCRほど高速でない可能性があるが、最大収率はより大きい可能性がある。理論的に、線形PCRにおけるプライマー濃度は、従来のPCRではそうなるような、サイクルの増加および収率の上昇での制限因子にはならない。指数関数的増幅後線形増幅PCR(Linear−After−The−Exponential−PCR)(またはLATE−PCR)は、特に高収率を可能にし得る線形PCRの改変バージョン。
核酸増幅の一部の実施形態では、融解、アニーリング、および伸長のプロセスを単一の温度で行うことができる。そのようなPCRは、等温性PCRと称することができる。等温性PCRでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるまたは置き換えるために温度に依存しない方法を活用することができる。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法、およびニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で摂氏20度、30度、40度、50度、60度、または70度またはそれよりも高い温度で行うことができる。
一部の実施形態では、PCRは、試料中の核酸の量を数量化するための蛍光プローブまたは色素をさらに含み得る。例えば、色素を二本鎖核酸に挿入することができる。前記色素の例は、SYBR Greenである。蛍光プローブは、蛍光単位が付着した核酸配列であってもよい。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後伸長ポリメラーゼ単位から改変されると放出され得る。前記プローブの例としては、TaqManプローブが挙げられる。そのようなプローブをPCRおよび光学的測定ツール(励起および検出のための)と併せて使用して、試料中の核酸濃度を数量化することができる。このプロセスは、定量的PCR(qPCR)またはリアルタイムPCR(rtPCR)と称することができる。
一部の実施形態では、PCRを複数の鋳型分子のプールに対してではなく単一の分子鋳型に対して(単一分子PCRと称することができるプロセスで)実施することができる。例えば、エマルジョン−PCR(ePCR)を使用して、単一の核酸分子を油エマルジョン中の水滴の中に封入することができる。水滴はPCR試薬も含み得、水滴を、PCRのための必要な温度サイクリングが可能な温度調節された環境で保持することができる。このように、複数の自蔵式PCR反応を同時にハイスループットで行うことができる。界面活性物質を用いて油エマルジョンの安定性を改善することができる。マイクロ流体チャネルを通じて圧力を用いて液滴の動きを制御することができる。マイクロ流体デバイスは、液滴を創出するため、液滴を分割するため、液滴を同化させるため、材料を液滴中に注射するため、ならびに液滴をインキュベートするために使用することができる。油エマルジョン中の水滴のサイズは、少なくとも1ピコリットル(pL)、10pL、100pL、1ナノリットル(nL)、10nL、100nL、またはそれよりも大きいサイズであり得る。
一部の実施形態では、単一分子PCRを固相基板上で実施することができる。例としては、Illumina固相増幅法またはその変形が挙げられる。鋳型プールを固相基板に暴露させ、ここで、固相基板は、鋳型をある特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより、単一分子を基板上でハイスループット様式で増幅することができる。
ハイスループット単一分子PCRは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子PCRでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子PCRは、シークエンシングのための核酸を調製するために特に有用であり得る。単一分子PCRは、鋳型プール中のいくつかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルPCR(またはdPCR)では、区別可能な単一分子PCR増幅シグナルの頻度を使用して、試料中の出発核酸分子の数を推定する。
PCRの一部の実施形態では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非弁別的に増幅することができる。例えば、プライマー結合性部位に対するプライマーは、プール中の全ての核酸に隣接している。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリーを創出またはアセンブルすることができる。しかし、一部の実施形態では、PCRを使用して、例えば、プライマーを前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することによって、標的化された核酸のサブセットをプールから選択的に増幅することができる。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に増幅するために、目的の潜在的サブライブラリーに属する核酸全てがそれらの端部に共通のプライマー結合性部位を共有する(サブライブラリー中では共通するが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。一部の実施形態では、PCRを核酸アセンブリ反応(例えば、ライゲーションまたはOEPCRなど)と組み合わせて、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸を部分的にアセンブルされたまたはミスアセンブルされた(または意図されたものではないもしくは望ましくない)副産物から選択的に増幅することができる。例えば、アセンブリは、核酸を各端部配列上のプライマー結合性部位と、完全にアセンブルされた核酸産物のみが増幅のための必須の2つのプライマー結合性部位を含有するようにアセンブルすることを伴い得る。前記例では、部分的にアセンブルされた産物は、プライマー結合性部位を有する端部配列のいずれも含有しないまたはその一方のみを含有する可能性があり、したがって、増幅されないはずである。同様に、ミスアセンブルされた(または意図されたものではないもしくは望ましくない)産物は、端部配列のいずれも含有しないもしくはその一方のみを含有する、または両方の端部配列を含有するが誤った配向であるもしくは誤った量の塩基によって分離されている。したがって、前記ミスアセンブルされた産物は、増幅されないかまたは増幅されて誤った長さの産物が創出されるはずである。後者の場合、誤った長さの増幅されたミスアセンブルされた産物を、正しい長さの増幅された完全にアセンブルされた産物から、アガロースゲルでのDNA電気泳動、その後のゲル抽出などの核酸サイズ選択方法によって分離することができる(化学的方法セクションEを参照されたい)。
核酸増幅の効率を改善するために、PCRに添加剤を含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはこれらの組合せの添加。添加剤含有量(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%、またはそれよりも多くであり得る。
種々のポリメラーゼをPCRのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。一部の場合では、新しい核酸配列を構築するために、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)をポリメラーゼと併せてまたはポリメラーゼの代替として使用する。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex−Taqポリメラーゼ、LA−Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金 Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにそのバリアント、改変製品および誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定かつ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸伸長の間、より高い忠実度に寄与し得る3’から5’へのエキソヌクレアーゼ活性を示し得る。一部のポリメラーゼは伸長の間リーディング配列を動かし得、一方、他のポリメラーゼは、それらを分解し得るまたは伸長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度および処理能力を有し得、増幅された核酸収率のために最小の突然変異を有することが重要である場合、および区別可能な核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシークエンシング調製などのPCR適用により適切であり得る。
E.サイズ選択
サイズ選択技法を使用して特定のサイズの核酸を試料から選択することができる。一部の実施形態では、サイズ選択を、ゲル電気泳動またはクロマトグラフィーを使用して実施することができる。核酸の液体試料を固定相またはゲル(またはマトリックス)の一方の電極にロードすることができる。ゲルの負極が、核酸試料がロードされる電極になり、ゲルの陽極が逆の電極になるようにゲルにわたって電圧の差異をかけることができる。核酸は負に荷電したリン酸骨格を有するので、ゲルを渡って陽極に移動することができる。核酸のサイズにより、核酸がゲルを通る相対的な移動スピードが決定され得る。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解される。電圧の差異は、100Vまたは120Vであり得る。電圧の差異は、最大で50V、100V、150V、200V、250V、またはそれよりも大きい差異であり得る。電圧の差異が大きいほど核酸移動のスピードおよびサイズ分解能が大きくなり得る。しかし、電圧の差異が大きいと、核酸またはゲルの損傷も生じ得る。より大きなサイズの核酸を分解するために、より大きな電圧の差異が推奨される場合がある。典型的な移動時間は15分間から60分間の間であり得る。移動時間は、最大で10分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きなサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、200塩基の核酸を250塩基の核酸から分解するためには、120Vという電圧の差異および30分という移動時間が十分であり得る。
ゲル、またはマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、一般には、TAE(トリス−酢酸−EDTA)またはTBE(トリス−ホウ酸−EDTA)などの伝導性緩衝剤中に分散したアガロースまたはポリアクリルアミドなどのポリマー物質を含む。ゲル中の物質(例えば、アガロースまたはアクリルアミド)の含有量(体積当たりの重み)は、最大で5%、1%、2%、3%、5%、10%、15%、20%、25%、またはそれよりも多くであり得る。含有量が高いほど移動スピードが低下し得る。より小さな核酸を分解するために、より高い含有量が好ましい場合がある。二本鎖DNA(dsDNA)を分解するためにはアガロースゲルがより良好であり得る。一本鎖DNA(ssDNA)を分解するためにはポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型およびサイズ、添加剤(例えば、色素、染料、変性溶液、またはローディング緩衝剤)の適合性ならびに先行する下流の適用(例えば、ゲル抽出、次いでライゲーション、PCR、またはシークエンシング)に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるホウ酸(酵素阻害剤)持ち越し汚染により下流の酵素反応が阻害される可能性があるので、TAEはTBEほど良好な伝導体ではないが、同様にゲル抽出に関してはより良好であり得る。
ゲルは、SDS(ドデシル硫酸ナトリウム)または尿素などの変性溶液をさらに含み得る。SDSは、例えば、タンパク質を変性させるためまたは核酸を潜在的に結合したタンパク質から分離するために使用することができる。尿素は、DNAの二次構造を変性させるために使用することができる。例えば、尿素により、dsDNAをssDNAに変換することができる、または尿素により、フォールディングされたssDNA(例えば、ヘアピン)をフォールディングされていないssDNAに変換することができる。ssDNAを正確に分解するために尿素−ポリアクリルアミドゲル(TBEをさらに含む)を使用することができる。
試料をゲルに異なるフォーマットで組み入れることができる。一部の実施形態では、ゲルは、試料を手動でロードすることができるウェルを含有し得る。1つのゲルが複数の核酸試料を流すための複数のウェルを有し得る。他の実施形態では、ゲルを、核酸試料(複数可)を自動的にロードするマイクロ流体チャネルに付着させることができる。各ゲルはいくつかのマイクロ流体チャネルの下流にあってもよく、ゲル自体が別々のマイクロ流体チャネルを占有していてもよい。ゲルの寸法が核酸検出(または可視化)の感度に影響を及ぼし得る。例えば、薄いゲルまたはマイクロ流体チャネルの内側にあるゲル(例えば、バイオアナライザまたはテープステーション中のものなど)により、核酸検出の感度を改善することができる。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。
核酸サイズ参照のためにゲルにラダーをロードすることができる。ラダーは、核酸試料を比較することができる種々のサイズのマーカーを含有し得る。異なるラダーは異なるサイズ範囲および分解能を有し得る。例えば、50塩基のラダーは、50塩基、100塩基、150塩基、200塩基、250塩基、300塩基、350塩基、400塩基、450塩基、500塩基、550塩基、および600塩基のところにマーカーを有し得る。前記ラダーは、50塩基から600塩基のサイズ範囲内の核酸を検出し、選択するために有用であり得る。ラダーは、試料中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。
核酸試料およびラダーをローディング緩衝剤と混合して、ゲル電気泳動(またはクロマトグラフィー)プロセスを容易にすることができる。ローディング緩衝剤は、核酸の移動の追跡を補助するための色素およびマーカーを含有し得る。ローディング緩衝剤は、核酸試料が試料ロードウェル(ランニング緩衝剤中に浸されていてもよい)の底部に沈むことを確実にするために、ランニング緩衝剤(例えば、TAEまたはTBE)よりも密度の高い試薬(例えば、グリセロールなど)をさらに含み得る。ローディング緩衝剤は、SDSまたは尿素などの変性剤をさらに含み得る。ローディング緩衝剤は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝剤は、核酸をヌクレアーゼから保護するためのEDTAを含有し得る。
一部の実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用することができる染料を含み得る。染料は、dsDNA、ssDNA、またはその両方に特異的なものであってよい。異なる染料を異なるゲル物質に適合させることができる。いくつかの染料は、可視化のために光源光(または電磁波)からの励起を必要とする。光源光は、UV(紫外線)または青色光であり得る。一部の実施形態では、染料をゲルに電気泳動前に添加することができる。他の実施形態では、染料をゲルに電気泳動後に添加することができる。染料の例としては、臭化エチジウム(EtBr)、SYBR Safe、SYBR Gold、銀染色、またはメチレンブルーが挙げられる。ある特定のサイズのdsDNAを可視化するための信頼できる方法は、例えば、アガロースTAEゲルをSYBR SafeまたはEtBr染色と一緒に使用することである。ある特定のサイズのssDNAを可視化するための信頼できる方法は、例えば、尿素−ポリアクリルアミドTBEゲルをメチレンブルーまたは銀染色と一緒に使用することである。
一部の実施形態では、ゲルを通る核酸の移動を、電気泳動に加えて他の方法によって駆動することができる。例えば、重力、遠心分離、真空、または圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解することができる。
刃または剃刀を使用してある特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出すことができる。切り出しがある特定のバンドで的確に行われること、および、切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が首尾よく排除されることを確実にするために、適当な光学的検出技法およびDNAラダーを使用することができる。ゲルバンドを緩衝剤と一緒にインキュベートしてゲルバンドを溶解させ、したがって、核酸を緩衝液中に放出させることができる。加熱または物理的撹拌により、溶解のスピードを上げることができる。あるいは、ゲルバンドを、緩衝剤中で、ゲル溶解を必要とせずにDNAの緩衝液中への拡散を可能にするために十分に長くインキュベートすることができる。次いで、緩衝剤を残りの固相ゲルから、例えば、吸引または遠心分離によって分離することができる。次いで、核酸を溶液からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着などの標準の精製または緩衝剤交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
ゲル切り出しの代替として、ある特定のサイズの核酸を、ゲルから流出させることによってゲルから分離することができる。移動している核酸は、ゲルに埋め込まれたかまたはゲルの最後にあるたらい(またはウェル)を通過し得る。移動プロセスについて時間を計るまたは光学的にモニタリングし、したがって、ある特定のサイズの核酸群がたらいに入ったら、試料をたらいから収集することができる。収集は、例えば吸引によって行うことができる。次いで、核酸を、収集された溶液からフェノール−クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着などの標準の精製または緩衝剤交換技法、洗浄、ならびに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
核酸サイズ選択のための他の方法としては、質量分光測定または膜に基づく濾過を挙げることができる。膜に基づく濾過の一部の実施形態では、核酸を、dsDNA、ssDNA、またはその両方のいずれかに優先的に結合し得る膜(例えば、シリカ膜)を通過させる。膜は、少なくともある特定のサイズの核酸を優先的に捕捉するように設計することができる。例えば、膜を、20塩基未満、30塩基未満、40塩基未満、50塩基未満、70塩基未満、90塩基未満、またはそれよりも多くの塩基未満の核酸を濾過して取り除くように設計することができる。前記膜に基づくサイズ選択技法は、ゲル電気泳動またはクロマトグラフィーほどストリンジェントでない可能性がある。
F.核酸捕捉
親和性タグ付き核酸を核酸捕捉のための配列特異的なプローブとして使用することができる。プローブを、核酸のプール内の標的配列と相補的になるように設計することができる。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにすることができる。インキュベーション温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、またはそれよりも大きく下回るまであってよい。ハイブリダイズした標的を、親和性タグに特異的に結合する固相基板に捕捉することができる。固相基板は、膜、ウェル、カラム、またはビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸を全て標的から除去することができる。洗浄は、洗浄の間の標的配列の安定な固定化を容易にするためにプローブの融解温度を下回る温度で行うことができる。洗浄温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、またはそれよりも大きく下回る温度までであってよい。最終的な溶出ステップにより、核酸標的を固相基板から、ならびに親和性タグ付きプローブから回収することができる。溶出ステップは、核酸標的の溶出緩衝剤中への放出を容易にするためにプローブの融解温度を上回る温度で行うことができる。溶出温度は、プローブの融解温度を摂氏5度上回る温度まで、10度上回る温度まで、15度上回る温度まで、20度上回る温度まで、25度上回る温度まで、またはそれよりも大きく上回る温度までであってよい。
ある特定の実施形態では、固相基板に結合したオリゴヌクレオチドは、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応または脱離反応化学、または酵素的切断などの条件に対する暴露によって、固相基板から除去され得る。ある特定の実施形態では、オリゴヌクレオチドは、切断可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化オリゴヌクレオチドに共有結合するための切断可能なリンカーを提供してもよい。一部の実施形態では、リンカー部分は、6原子またはそれより多くの長さのリンカーであり得る。一部の実施形態では、切断可能リンカーは、TOPS(合成あたり2個のオリゴヌクレオチドの)リンカー、アミノリンカー、または光切断可能リンカーであり得る。
一部の実施形態では、ビオチンを、固相基板上のストレプトアビジンによって固定化される親和性タグとして使用することができる。ビオチン化オリゴヌクレオチドを、核酸捕捉プローブとして使用するために設計し、製造することができる。オリゴヌクレオチドの5’末端または3’末端をビオチン化することができる。オリゴヌクレオチドの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン基板でのより強力な捕捉をもたらすことができる。オリゴの3’末端のビオチンにより、PCRの間にオリゴが伸長するのを遮断することができる。ビオチンタグは、標準のビオチンのバリアントであってよい。例えば、ビオチンバリアントは、ビオチン−TEG(トリエチレングリコール)、二重ビオチン、PCビオチン、デスチオビオチン−TEG、およびビオチンアジ化物/アジドであり得る。二重ビオチンにより、ビオチン−ストレプトアビジン親和性を増大させることができる。ビオチン−TEGは、TEGリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えば、その標的とのハイブリダイゼーションに干渉するのを防止することができる。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。
ビオチン化核酸プローブは、その標的にいかによくハイブリダイズすることができるかを考慮して設計することができる。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズし得る。より長い核酸プローブ、ならびにGC含量がより高いプローブは、融解温度が上昇するので、より強力にハイブリダイズし得る。核酸プローブは、少なくとも5塩基、10塩基、15塩基、20塩基、30塩基、40塩基、50塩基、または100塩基、またはそれよりも多くの塩基の長さを有し得る。核酸プローブは、0%から100%の間のいずれかのGC含量を有し得る。プローブの融解温度がストレプトアビジン基板の温度許容度を超えないことを確実にするために注意を払うことができる。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体、およびヘテロ二量体などの阻害性二次構造が回避されるように設計することができる。プローブ融解温度とオフターゲットの結合の間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さおよびGC含量が存在し得る。合成核酸ライブラリーは、その核酸が効率的なプローブ結合性部位を含むように設計することができる。
固相ストレプトアビジン基板は磁気ビーズであってよい。磁気ビーズを、磁気ストリップまたはプレートを使用して固定化することができる。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップまたはプレートを容器から取り出して磁気ビーズを容器壁から溶液中に放出させることができる。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径1マイクロメートル(μm)から3マイクロメートル(μm)の間のいずれかであってよい。ビーズは、最大で1マイクロメートル、2マイクロメートル、3マイクロメートル、4マイクロメートル、5マイクロメートル、10マイクロメートル、15マイクロメートル、20マイクロメートル、または20マイクロメートルを超える直径を有し得る。ビーズ表面は疎水性であっても親水性であってもよい。ビーズを遮断性タンパク質、例えば、BSAでコーティングすることができる。使用前に、ビーズが核酸に非特異的に結合するのを防止するために、ビーズを洗浄するまたは遮断性溶液などの添加剤で前処理することができる。
ビオチン化プローブを磁性ストレプトアビジンビーズとカップリングした後に核酸試料プールと一緒にインキュベートすることができる。このプロセスは、直接捕捉と称することができる。あるいは、ビオチン化プローブを核酸試料プールと一緒にインキュベートした後に磁性ストレプトアビジンビーズを添加することができる。このプロセスは、間接的な捕捉と称することができる。間接的な捕捉方法により、標的の収率を改善することができる。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくすることができる。
核酸プローブと核酸試料の最適なインキュベーションは、プローブの融解温度を摂氏1〜10度またはそれよりも大きく下回る温度で行うことができる。インキュベーション温度は、最大で摂氏5度、10度、20度、30度、40度、50度、60度、70度、80度、またはそれよりも高い温度であり得る。推奨されるインキュベーション時間は1時間であり得る。インキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。インキュベーション時間が長いほど良好な捕捉効率を導くことができる。ビオチン−ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに10分間のインキュベーションを行うことができる。この追加的な時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、またはそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオンなどの添加剤を伴う緩衝液中で行うことができる。
核酸プールが一本鎖核酸である場合(二本鎖とは対照的に)、プローブとその標的のハイブリダイゼーションを改善することができる。ssDNAプールをdsDNAプールから調製することには、一般にプール中の全ての核酸配列の端部に結合する1つのプライマーを用いて線形PCRを実施することが必要になり得る。核酸プールが合成により創出またはアセンブルされたものである場合、この共通のプライマー結合性部位を合成設計に含めることができる。線形PCRの産物はssDNAになる。核酸捕捉のためのより多くの出発ssDNA鋳型をより多くの線形PCRのサイクルで生成することができる。PCRに関しては化学的方法セクションDを参照されたい。
核酸プローブがそれらの標的とハイブリダイズし、磁性ストレプトアビジンビーズとカップリングした後、ビーズを磁石によって固定化し、いくつかのラウンドの洗浄を行うことができる。非標的核酸を除去するためには3〜5回の洗浄で十分であり得るが、それよりも多いまたは少ないラウンドの洗浄を使用することができる。増やした洗浄各々により、標的化されていない核酸をさらに減少させることができるが、標的核酸の収率も低下し得る。洗浄ステップの間の標的核酸とプローブの適当なハイブリダイゼーションを容易にするために、低インキュベーション温度を使用することができる。摂氏60度、50度、40度、30度、20度、10度、または5度またはそれよりも低いという低さの温度を使用することができる。洗浄緩衝剤は、ナトリウムイオンを伴うトリス緩衝液を含み得る。
ハイブリダイズした標的の磁気ビーズ−カップリングしたプローブからの最適な溶出を、プローブの融解温度と等しいまたはそれよりも高い温度で行うことができる。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で摂氏30度、40度、50度、60度、70度、80度、または90度、またはそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で1分間、2分間、5分間、10分間、30分間、60分間またはそれよりも長い時間であり得る。典型的なインキュベーション時間はおよそ5分間であり得るが、より長いインキュベーション時間により、収率を改善することができる。溶出緩衝剤は、EDTAなどの添加剤を伴う水またはトリス緩衝液であってよい。
区別可能な部位のセットのうちの少なくとも1つ、または複数を含有する標的配列の核酸捕捉を、それらの部位の各々に対して複数の区別可能なプローブを用いて1つの反応で実施することができる。区別可能な部位のセットのあらゆるメンバーを含有する標的配列の核酸捕捉を、その特定の部位に対するプローブを使用して区別可能な部位各々に対して1つの反応である一連の捕捉反応で実施することができる。一連の捕捉反応後の標的の収率は低い可能性があるが、捕捉された標的をその後PCRで増幅することができる。核酸ライブラリーが合成により設計されたものである場合、標的は、PCRのために共通のプライマー結合性部位を有するように設計することができる。
一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリーを創出またはアセンブルすることができる。これらの共通部位を、完全にアセンブルされたまたは潜在的に完全にアセンブルされた核酸をアセンブリ反応から選択的に捕捉し、それにより、部分的にアセンブルされたまたはミスアセンブルされた(または意図されたものではないもしくは望ましくない)副産物を濾過して取り除くために使用することができる。例えば、アセンブリには、各端部配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の2つの捕捉反応を通るのに必要な必須の2つのプローブ結合性部位を含有するようにアセンブルする。前記例では、部分的にアセンブルされた産物は、プローブ部位のいずれも含有しないまたは一方のみを含有する可能性があり、したがって、最終的に捕捉されないはずである。同様に、ミスアセンブルされた(または意図されたものではないもしくは望ましくない)産物は、端部配列のいずれも含有しないまたはその一方のみを含有する可能性がある。したがって、前記ミスアセンブルされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合性部位を含めることができる。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全にアセンブルされた産物(各成分を含有する)のみをアセンブリ反応のあらゆる副産物から単離することができる。その後のPCRにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善することができる。
一部の実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによって。合成核酸ライブラリーは、サブライブラリーをより一般的なライブラリーから選択的に捕捉するために、目的の潜在的なサブライブラリーに属する核酸の全てが共通のプローブ結合性部位を共有する(サブライブラリー中では共通であるが、他のサブライブラリーとは区別可能な)ように創出またはアセンブルすることができる。
G.凍結乾燥
凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物(例えば、活性酵素)を維持するために、化学的安定剤などの添加剤を使用することができる。スクロースおよびトレハロースなどの二糖を化学的安定剤として使用することができる。
H.DNA設計
合成ライブラリー(例えば、識別子ライブラリー)を構築するための核酸の配列(例えば、成分)は、合成、シークエンシング、およびアセンブリの複雑化が回避されるように設計することができる。さらに、当該配列は、合成ライブラリーの構築費用が低減するように、かつ、合成ライブラリーを保管することができる寿命が改善されるように設計することができる。
核酸は、合成するのが難しい場合がある長いホモポリマーの列(または繰り返された塩基配列)が回避されるように設計することができる。核酸は、2を超える、3を超える、4を超える、5を超える、6を超える、7を超えるまたはそれよりも長いホモポリマーの長さが回避されるように設計することができる。さらに、核酸は、それらの合成プロセスを阻害する可能性があるヘアピンループなどの二次構造の形成が回避されるように設計することができる。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリーを構築するための核酸は、短く設計することができる。核酸が長いほど合成が難しく、費用がかかる可能性がある。核酸が長いほど、合成の間の突然変異の機会も増大する。核酸(例えば、成分)は、最大で5塩基、10塩基、15塩基、20塩基、25塩基、30塩基、40塩基、50塩基、60塩基またはそれよりも多くの塩基であり得る。
アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計することができる。OEPCRおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するより多くの情報についてはそれぞれ、化学的方法セクションAおよびBを参照されたい。効率的なアセンブリ反応には、一般には、隣接成分間のハイブリダイゼーションが伴う。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計することができる。ロックド核酸(LNA)などの核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化することができる。これらの修飾核酸を、例えば、ステープル鎖ライゲーションにおけるステープルとして、または付着鎖ライゲーションにおける付着末端として使用することができる。合成核酸ライブラリー(または識別子ライブラリー)を構築するために使用することができる他の修飾塩基としては、2,6−ジアミノプリン、5−ブロモdU、デオキシウリジン、反転dT、反転ジデオキシ−T、ジデオキシ−C、5−メチルdC、デオキシイノシン、Super T、Super G、または5−ニトロインドールが挙げられる。核酸は、1つまたは複数の同じまたは異なる修飾塩基を含有し得る。前記修飾塩基のいくつかは、より高い融解温度を有し、したがって、アセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体(例えば、5−メチルdCおよび2,6−ジアミノプリン)である。前記修飾塩基のいくつかは、全ての天然の塩基に結合することができ、したがって、望ましい結合性部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基(例えば、5−ニトロインドール)である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマーおよびプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするので、プライマー(例えば、PCR用)およびプローブ(例えば、核酸捕捉用)に有用であり得る。それぞれ核酸増幅(またはPCR)および核酸捕捉についてのさらなる核酸設計考慮事項に関しては化学的方法セクションDおよびFを参照されたい。
核酸は、シークエンシングが容易になるように設計することができる。例えば、核酸は、二次構造、ひと続きのホモポリマー、反復配列、およびGC含量が高すぎるまたは低すぎる配列などの典型的なシークエンシング複雑化が回避されるように設計することができる。ある特定のシークエンサーまたはシークエンシング方法は、エラープローンであり得る。合成ライブラリー(例えば、識別子ライブラリー)を構成する核酸配列(または成分)は、互いからのある特定のハミング距離で設計することができる。このように、シークエンシングにおいて塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列のひと続きをなおそれらの最も可能性がある核酸(または成分)にマッピングし戻すことができる。核酸配列は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、11塩基、12塩基、13塩基、14塩基、15塩基またはそれよりも多くの塩基の突然変異というハミング距離で設計することができる。ハミング距離の代替距離メトリクスを使用して、設計される核酸間の最小の必要距離を規定することもできる。
いくつかのシークエンシング方法および計器では、アダプター配列またはプライマー結合性部位などの特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称することができる。前記シークエンシング計器および方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリーとアセンブルすることが伴う。しかし、合成核酸ライブラリー(例えば、識別子ライブラリー)が特定の計器または方法でシークエンシングされることが前もって分かっている場合には、これらの方法特異的配列を、ライブラリー(例えば、識別子ライブラリー)を含む核酸(例えば、成分)中に設計することができる。例えば、合成核酸ライブラリーのメンバー自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリーのメンバー上にシークエンシングアダプターをアセンブルすることができる。
核酸は、DNA損傷を容易にし得る配列が回避されるように設計することができる。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避することができる。別の例として、UVB(紫外線−B)光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシークエンシングおよびPCRが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリーがUVBに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン(すなわち、TT)が回避されるように設計することが有益であり得る。
化学的方法セクションに含有される情報は全て、本明細書に記載の技術、方法、プロトコール、システム、およびプロセスを支持し、可能にするものとする。
アジド−アルキン修飾を有する成分から識別子をアセンブルする方法
2つまたはそれより多くの核酸成分を、化学および/または生物学的ライゲーション方法のいずれかを使用して共にライゲーションして識別子を創出することができる。一部の実施形態では、「クリックケミストリー」などの化学的ライゲーション法は、酵素的ライゲーションなどの生物学的方法と比較して利点を有し得る。
クリックケミストリーまたは銅触媒アジド−アルキン付加環化(CuAAC)は、ヒュスゲン1,3−双極子付加環化反応の変形である。反応において、アルキンおよびアジド基が反応してトリアゾールホスホジエステル模倣体を形成する。現行の方法は、この反応の特異性、速度、および収率を増加させるためにCu(I)イオンを使用する。反応は一部のアルキンでは速くなり得て、およそ1分という反応完了時間が報告されている。反応時間は、30秒、60秒、90秒、120秒、150秒、または180秒またはそれより長い時間であり得る。反応はまた、頑強であり得て、広いpH範囲に対して抵抗性を示す。
クリックケミストリーを使用する化学的ライゲーションは、鋳型(またはステープルもしくはスプリント)オリゴヌクレオチドの助けを借りて2つの一本鎖核酸成分の間で起こり得る。あるいは、化学的ライゲーションはまた、相補的突出(または付着末端)が共通に存在する場合、二本鎖核酸成分の間でも起こり得る。クリックケミストリーによる化学的ライゲーションを使用して、上記で記載された産物スキーム(図6)、順列スキーム(図11)、MchooseKスキーム(図12)、パーティションスキーム(図13)、または無制約列スキーム(図14)に従って識別子を構築してもよい。
クリックケミストリーを使用する成分のライゲーションは、1つの成分が少なくとも1つのアルキン基を有することおよび別の成分が少なくとも1つのアジド基を有することを必要とする。1つの成分の3’末端が他方の5’末端にライゲーションするように、隣接する成分上に相補的修飾が位置する限り、いずれの修飾が1つの核酸成分の5’または3’末端に位置してもよい。
いくつかの異なるタイプのアルキン−アジド結合をクリックケミストリーにおいて使用することができる。PCRなどの分子生物学の方法と適合性であるアルキン−アジド結合は、識別子を生成するために特に十分に適切であり得る。識別子の特定のプールが1つまたは複数のアルキン−アジド結合を含む場合、識別子は、PCRを使用してその天然型(塩基間にホスホジエステル結合を有する)にコピーされ得る。
多重部分成分から識別子をアセンブルする方法
識別子を含む成分を、異なる機能を有する2つまたはそれより多くの部分に分割してもよい。例えば、各成分は2つの部分:データアクセスのために核酸プローブにハイブリダイズすることが意図される1つの長い部分、およびシークエンシングの読み出しのために意図される別のより短い部分を有し得る。2つの部分は、分離していてもよく、各端で識別子にアセンブルされると意図することができ、したがって最終の識別子産物は2つの機能的に異なる領域を有する。1つの側の1つの領域は、化学的アクセスのために意図され、他方の側の1つの領域はシークエンシングのために意図される。
図22は、各層からの成分が産物スキームに従って集合する、識別子の付着末端ライゲーションアセンブリについてのこの考え方の例としての概略図を示す。第1の層は、連結した2部成分によって識別子アセンブリプロセスの核となり、次の層は、両端から識別子上でアセンブルする分離した2部成分を含む。付着末端の上の記号はその配列を表す。異なる記号を有する付着末端は直交性である。記号の隣の星印は、逆相補鎖を表す。例えば、「a」および「a」は、互いの逆相補鎖であり、したがってライゲーションの間にハイブリダイズして産物を形成する。
塩基エディターによって識別子を構築する方法
塩基エディターを使用して、親識別子内の特定の座に位置する塩基をプログラム可能に突然変異させて、新規識別子を構築することができる。一実施形態では、塩基エディターは、シトシン(C)をウラシル(U)に変換するシチジンデアミナーゼに融合したdCas9タンパク質であり得る。親識別子は、ガイドRNA(gRNA)が結合するいくつかの直交標的を有するように設計することができる。標的座は、その座で結合したdCas9−デアミナーゼの活性範囲内で1つまたは複数のシトシンを含有し得る。活性範囲は、座内の1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、またはそれより多くの塩基であり得る。次に、親識別子とdCas9−デアミナーゼおよび特定の座に関するgRNAのサブセットとのインキュベーションは、それらの標的座の各々で1つまたは複数のシトシンからウラシルへの突然変異をもたらし得る。さらに、DNAポリメラーゼは、ウラシルをチミンとして認識し、そのため突然変異した識別子についてPCRを実施するステップも同様に相補的変異(グアニンからアデニン)をもたらし得る。N直交標的座を有する親識別子を、dCas9−デアミナーゼおよび異なるサブセットのN gRNA(各々が親における区別可能な座を標的とする)を適用することによって2個の区別可能な娘識別子配列にプログラム可能に変換することができる。したがって、このスキームにおいて構築された可能な識別子の組合せ空間は、N個のgRNA入力についてNビットの情報を記憶し得る。
一部の実施形態では、親配列の任意の所定の標的座は、増加した変異効率を促進するために上および下の鎖の両方において標的化シトシンを含有し得る。その上、各座は効率的なgRNA標的化が起こるためにはPAM部位に隣接しなければならない。しかし、PAM配列は、異なる操作されたCas9バリアントの使用に応じて変化し得る。
dCas9−デアミナーゼ融合体は、2つの融合タンパク質の間にリンカー配列を含み得る。最適なリンカーの長さは、効率的な標的化変異に関して16アミノ酸の長さであり得る。リンカーの長さは、少なくとも0アミノ酸、1アミノ酸、5アミノ酸、10アミノ酸、15アミノ酸、20アミノ酸、25アミノ酸、またはそれより多くのアミノ酸の長さであり得る。複数のシチジンデアミナーゼの1つを使用してもよい。シチジンデアミナーゼの例には、APOBEC1、AID、CDA1、またはAPOBEC3Gが挙げられる。dCas9の代わりに活性なCas9ニッカーゼを使用してもよいが、同様に識別子構築反応においてDNA修復酵素を含むことが必要であり得る。
塩基エディターによって識別子を構築する別の実施形態では、dCas9に融合したアデニンデアミナーゼ(dCas9に融合したシチジンデアミナーゼとは対照的に、またはそれに加えて)を使用して、gRNAによってアクセス可能な親識別子の被定義座でアデニンをイノシンに突然変異させてもよい。イノシンは、DNAポリメラーゼによってグアニンとして解釈される。したがって、塩基編集座でのPCRにより、反対鎖上で相補的なチミンのシトシンへの突然変異がもたらされ得る。
DNAに記憶させた情報を削除する方法
核酸を使用して記憶させたデータを信頼可能に削除(または消去)できることは、セキュリティー、プライバシー、または規制上の理由から有益であり得る。データの消去は、核酸内の共有結合の切断、シークエンシングされる能力を破壊するための核酸の非可逆的修飾、それらを非可逆的な方法で封入もしくは吸着させること、または核酸の元のコレクションを読み取り不能もしくは読み取り不可にするより多くの核酸もしくは他の材料の付加を伴い得る。これらの方法は、選択的または非選択的な方法で実施することができる。選択プロセスは、削除プロセスとは異なりうる。例えば、識別子ライブラリーから開始して、配列特異的プローブを使用して、削除のための識別子のサブセットをプルダウンすることができる。別の例として、サイズまたは質量対電荷比による選択した識別子の精製を、他の選択的または非選択的削除方法と共に行うことができる。
ライブラリーから核酸を削除する選択的方法は、削除のための核酸サブセットをプルダウンするための配列特異的プローブの使用、1つまたは複数の標的配列を含有する選択した核酸を切断するためのCRISPRに基づく方法の使用、およびサイズまたは質量対電荷比により核酸を選択するための精製技術の使用を含む。
ライブラリーからの情報符号化核酸を削除するための非選択的方法は、超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のDNA修飾剤による処置、放射線照射(例えば、紫外光による)、燃焼、およびDNアーゼIなどの非特異的ヌクレアーゼ消化(in vitroまたはin vivo)を含む。他の方法を使用して核酸をアクセスまたはシークエンシングから不鮮明に、隠す、または物理的に保護することができる。方法は、元の核酸を不鮮明にするためにカプセル化、希釈、ランダム核酸の付加、ならびに核酸の下流のシークエンシングを防止する他の作用剤の付加を含み得る。一実施形態では、核酸に記憶されたデータは、エラープローンポリメラーゼ、例えば校正機能が欠如したポリメラーゼによる増幅によって不鮮明にすることができる。
値の被定義期間で核酸に記憶させたデータに関して、データを指定された時点で自動的に削除する方法を使用することは有益であり得る。例えば、データは、必須の法定期間後に削除されるようにスケジュールすることができる。別の例として、データはそれが転送され、時間通りにその目的地に達していない場合にも削除されるようにスケジュールすることができる。一実施形態では、スケジュールされた核酸の削除は、被定義速度でまたは指定された時点で直ちに作用する分解剤の使用を伴い得る。別の実施形態では、スケジュールされた核酸の削除は、経時的に分解する核酸カプセルまたは保護ケーシングの使用を伴い得る。別の実施形態では、核酸は異なる分解速度を促進するために異なる温度または異なる環境で保持することができる。例えば、分解速度を増加させるために高温、または高湿度で保持することができる。別の実施形態では、核酸は、より急速な分解のためにより不安定型に変換することができる。例えば、DNAをより不安定なRNAに変換することができる。
核酸の削除の確認は、シークエンシング、PCR、または定量的PCRによって達成することができる。
効率的なランダムアクセスのために識別子を設計し、ランク付けする方法
本明細書に記載のシステムおよび方法により、符号化され、記憶された情報からビットの任意の分布を効率的にランダムアクセス検索することが可能になる。データが、ライブラリー中の標的化された識別子のサブセットを増幅するために縁層(または末端配列)に使用される成分特異的プライマーを用いて記憶されている場合、符号化された情報の画分を効率的に検索することができる。効率的なアクセスは、記憶されたデータから情報の選択された部分を検索するために必要なPCRステップの数の減少を含み得る。例えば、本明細書に記載の方法を使用して記憶されたデータのセットにおいて、L/2未満の逐次的なPCRステップで識別子にアクセスすることができ、ここで、Lは識別子を含む層の数である。識別子のアーキテクチャおよび識別子ランク付けシステムは、識別子プールのランダムアクセス特性に影響を及ぼす。識別子のランクは、それが表すビットの部分に対応する。識別子ランクは、各層に現れる可能性がある可能な成分の各々の順序から辞書学的に決定することができ、これを戦略的に定義することができる。例えば、識別子の縁にある層に識別子の中央にある層よりも高い優先順位を割り当てることができ、したがって、ランダムアクセス(例えば、識別子の縁層に結合するPCRプライマーを用いる)により、連続するまたは関連するひと続きの符号化されたビットに対応する連続するランク付けを有する識別子が返される。「優先順位」がより高いことは、アクセスの深さがより低いことと似通っている−例えば、優先順位が高い要素は、優先順位が低い要素よりもアクセスが容易である。
識別子のアーキテクチャおよび識別子ランク付けシステムにより、識別子プール由来の特定の識別子のサブセットにランダムアクセスすることが可能になる。一部のインプリメンテーションでは、識別子プール中の各識別子核酸配列は、記号列内での記号値および記号位置に対応する。さらに、プール中の識別子核酸配列の存在または非存在は、記号列内の対応するそれぞれの記号位置の記号値を表し得る。
ある特定のインプリメンテーションでは、連続する記号位置を有する記号により、類似のデジタル情報が符号化される。本明細書で使用される場合、類似のデジタル情報は、同じ構造のデータ(すなわち、イメージデータまたはバイナリコードの列)を含み得る。類似のデジタル情報は、情報内に含有されるデータも指し得る。例えば、特定の強度の赤色を用いて符号化された全てのイメージデータの位置を連続する記号位置と一緒に群分けすることができる。あるいは、連続する記号位置を有する記号により、類似のデジタル情報が符号化されない場合もある。例えば、連続する記号位置は、x座標、y座標、または強度の値もしくは強度の値の範囲などの、データ(すなわち、イメージデータ)内の種々の特色に対応し得る。図23は、3つの層、A、B、およびCの産物スキームによって産生される識別子の例を示す図であり、ここで、各層は、2つの成分、1および2を有する。3つの層、A、B、およびCの各々からの成分をその順序でアセンブルする。各識別子のランクは、各層に特定の順序を割り当て、次いで、各層内の各成分に特定の順序を割り当て、次いで、識別子に順序を辞書学的に割り当てることによって決定することができる。図23Aは、層の辞書学的順序を物理的識別子で順序付けられたものと同様に定義することから得られたランクを実証する。そのような識別子プールを、識別子の縁(例えば、成分A1および成分C1)に結合するプライマーを使用したPCR反応を用いて問い合わせた場合、アクセスされた識別子は連続していないランクを有し、1つのPCR反応で連続するビットの列にランダムにアクセスすることが不可能になる。本明細書に記載のある特定のインプリメンテーションでは、識別子の縁(例えば、成分A1および成分C1)は、「末端配列」または「末端分子」と称される。しかし、連続するひと続き内のビットにより関連する情報が符号化されることも多いので、多くの場合、連続するひと続きのビット(連続してランク付けされた識別子によって表される)にランダムにアクセスすることが理想的になる。プローブを使用して連続するひと続きのビット内のビットの各々にアクセスして、複数の識別子核酸配列内の各識別子核酸配列の標的末端配列にハイブリダイズさせて、それぞれの連続する記号位置を有する記号に対応する識別子核酸配列を選択することができる。図23Bは、識別子の縁(または末端配列)に結合するプライマーを使用した1つのPCR反応で連続するひと続きのビットを問い合わせることを可能にするために、層A、BおよびCの辞書学的順序をどのように変化させることができるかを実証する。この戦略は、層の物理的順序付けと同じ層の辞書学的順序付けを使用するものではない。その代わりに、この戦略は、識別子の縁(または末端配列)にある層に優先順位がより高い辞書学的順序を割り当て、識別子の中央にある層に優先順位がより低い順序を割り当てるものである。
組合せ空間の基礎をなすパーティションスキーム内の成分の分布は、PCR反応でアクセスすることができる記号の数に影響を及ぼし得る。図24は、3つの層、A、B、およびCの産物スキームによって産生される識別子の例を示す図であり、ここで、成分は層にわたって不均一に分布している。具体的には、2つの層は2つの成分、1および2を有し、1つの層は3つの成分1、2、および3を有する。上述の識別子ランク付け原理によると、物理的順序付けがA、B、次いでCであるにもかかわらず、層の辞書学的順序はA、C、次いでBである。したがって、これは、識別子の縁層(または末端配列)に結合するPCRプライマーを用いたランダムアクセスにより、連続するランク(連続するひと続きのビットに対応する)を有する識別子が返されるものである。具体的には、ある特定の識別子核酸配列の第1のおよび第2の末端配列が、連続するひと続きのビットに対応する複数の識別子核酸配列間で共有される。図24Aは、識別子の中央層(複数可)により多くの成分が位置する場合、PCRクエリ(各々が縁成分(または末端配列)に結合するプライマーを用いる)により、アクセスされた識別子のより大きなプールをもたらすことができることを実証する。対応して、一度により多くのビットにアクセスすることができる。図24Bは、識別子の縁層(複数可)(または末端配列(複数可))により多くの成分が位置する場合、等価のPCRクエリにより、アクセスされた識別子のより小さなプールをもたらすことができることを実証する。対応して、より高い分解能でビットにアクセスすることができる。
識別子を構築するための産物スキームにおける層の数も、PCRクエリごとにアクセスすることができる記号の数に影響を及ぼし得る。図25は、5つの層、A、B、C、D、およびEの産物スキームによって産生される識別子の例を示す図であり、ここで、各層は、2つの成分、1および2を有する。上述の識別子ランク付け原理を進めると、層の辞書学的順序は、最高の優先順位が最も外側の層(AおよびE)に割り当てられ、次に高い優先順位が外側から2番目の層(BおよびD)に割り当てられ、最低の優先順位が中央層(層C)に割り当てられる。本明細書で使用される場合、優先順位はデータアクセスの深さ(またはレベル)を指し、優先順位が高いことは、深さが浅いことに対応し、優先順位が低いことは深さが深いことに対応する。例えば、大量の本からの本(すなわち、層AおよびE)へのアクセスは最高の優先順位とみなされ、本の中の章へのアクセスは次に高い優先順位(すなわち、層BおよびD)とみなされ、本の章中の段落へのアクセスは最低の優先順位(すなわち、層C)とみなされる。より多くの層がある場合、層の辞書学的順序付けをこのように続け、その結果、より少ないPCRクエリを使用して連続するまたは関連するひと続きのビットを検索することができる。最も外側の層中の成分(A1およびE1)に関連する全ての識別子を1つのPCR反応で問い合わせることができる。次いで、外側から2番目の層中の成分(B1およびD1)に結合するプライマーを使用した追加的なPCR反応を用いて、さらに高い分解能(すなわちより低い優先順位またはより深い)のクエリを実施することができる。識別子のアーキテクチャにより多くの層がある場合、逐次的なPCR反応をこのように続けて、分解能がより高くなるクエリを実現することができる。しかし、2つの逐次的なPCR反応を使用して4つの成分、A1、B1、D1、およびE1に関連する全ての識別子を問い合わせることの代替として、PCRプライマーを、A1−B1まとめて、およびE1−D1まとめてには結合するが、成分自体ではいずれにも結合せず、したがって、得られたPCRクエリが、A1およびE1の後にB1およびD1が逐次的にPCRクエリされた場合と同じ識別子にアクセスするように設計することが可能である(特に、成分が十分に短い配列を有するように設計されている場合)。
DNAおよび複数のビンを用いて情報を符号化する方法
「マルチビンスキーム」を使用し、DNA識別子を用いて情報を符号化することができる。そのようなスキームの1つのインプリメンテーションでは、bビンが存在し、各々が分離した識別子のセットを保持する。各ビンには一意の[logb]ビット記号がラベルされ、これは本明細書ではラベルまたはビンラベルと称され得る。lビットのビットストリームは
Figure 2021524229
「ワード」に分割され、ここで、各ワードは長さ[logb]ビットを有する。任意のワードwがビンラベルであり得る。
具体的には、マルチビンスキームは「マルチビン位置符号化スキーム」であってよい。このマルチビンスキームでは、ビットストリーム中の各ワードwの位置を表すために一意の識別子を構築し、ラベルwを有する一意のビンに入れる。スキームのこのマルチビンインプリメンテーションでは、
Figure 2021524229
識別子を創出してlビットの情報を符号化し、ちょうど1つのビン中に存在するちょうど1つの識別子によって各ビットを符号化する。これを「マルチビン位置符号化スキーム」と称する。
上記のマルチビン位置符号化スキームは以下の例によって説明することができる。35個のビンを考え、各ビンに句読を含む英語アルファベットの区別可能な記号をラベルする。英語テキストの段落の符号化は以下のように実現される。各記号xについて、段落中のxの全ての出現を識別する。それらの整数アドレスを、テキスト中の各文字に昇順で番号付けすることによって得る。いくつかの特定の記号xのアドレスに対応する全ての識別子を創出し、xでラベルされた単一のビン中に回収する。したがって、テキスト中のxが出現する全ての位置を、xでラベルされたビン中の識別子によって表す。
図26は、マルチビン位置符号化スキームの例を例示し、ここで、記号ストリーム中の各記号型の位置を、その記号型用に確保されたビン中に記録する。この図は、「A BEACH CAFE」という例示的な句が1とラベルされることを示す。本実施例では、9つの記号型「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」、および「_」(スペースを表す)で構成される9文字のアルファベットを仮定する。このアルファベット中の各記号に、それぞれの記号に対応する区別可能なビンを割り当て、その記号で名付けた。例として、空のビン「D」はラベル7によって示される。例えば、ビン「F」のラベルはラベル6によって示される。符号化される句をアルファベットから記号に分け、ラベル3によって示される通り、識別子ライブラリーに1対1の対応でマッピングする。記号が出現するごとに、対応する識別子のその記号用に確保されたビンへの追加が引き起こされる。例えば、符号化される句(「 BECH CFE」、強調を加えた)中に記号「A」が3回出現するので、ビンAは3つの識別子(ラベル4)を有する。さらに、ビン「A」中の3つの識別子は、その記号が出現する位置を指し示す。マッピングされる句(「A BEACH CAFE」)には文字「B」および「G」は出現しないので、ビン「D」および「G」は空である。
マルチビンスキームの別のインプリメンテーションでは、lビットのビットストリームを、1、2、...、bとラベルされたbビンへの識別子の分布で暗黙的に符号化する。このスキームでは、長さlビットの全てのビットストリームのセットとbビン中へのd識別子の全ての分布のセットの間にマッピングを設計する。d識別子のbビンへの分布は、0≦b<bになるような整数ラベル(b、b、...、b)のベクトルであり、負でない整数bは各々が、i番目の識別子に割り当てられた一意のビンのラベルである。割り当てられたビンラベルの各々をb種の可能なラベルから自由に選択することができ、b種の可能な分布が存在する。
図27は、情報を符号化するための識別子分布の使用に基づくマルチビンスキームの例を図解する。図27は、識別子2つの識別子ライブラリー(1とラベルされる)および3つの名付けられたビン(0、1、2)のビン集合体を用いた例を示す。ビンの各行(各行が3つの名付けられたビン0、1、2を含む)は、3つのビンにパーティションされた2つの識別子の分布の例を示す。表(6とラベルされる)は、各分布にマッピングされた、固定されているが任意のものであるビットストリームを示す。例えば、3つのビンの第4の行(5とラベルされる)は、1と名付けられたビンには2つの識別子が入っているが、ビン0および2は空である分布を示す。この分布は、ビットストリーム0011に任意にマッピングされる。同様に、3つのビンの第2の行は、0と名付けられたビンと1と名付けられたビンに2つの識別子が入っているが、第3のビンが空のままである分布を示す。この分布は、ビットストリーム0001(3とラベルされる)にマッピングされる。次の行は、1と名付けられたビンが空のままである分布を示す。これは、ビットストリーム0010に対応する。あらゆるそのようなビットストリームを考慮して、その対応する分布を構築し、保存する。このように、このマルチビン識別子分布スキームを使用し、十分な数のビンおよび識別子を使用して、あらゆるビットストリームを符号化することができる。
マルチビンスキームの別の実施形態では、識別子が1つよりも多くのビンに存在し得る。このスキームでは、lビットのビットストリームを、ビン1、2、...、bとラベルされる識別子の分布に暗黙的に符号化する。このスキームでは、各ビンが識別子のサブセットを含有する。したがって、このスキームでは、長さlビットの全てのビットストリームのセットと全ての識別子サブセットのセットの全てのbサブセットの間にマッピングを設計する。bサブセットは、b要素を含有するセットを意味する。例えば、組合せ空間内に合計d個の識別子が存在する場合、全ての識別子サブセットのセットが2セットを含有し、これをDで示す。このスキームでは、長さlの全てのビットストリームとbセットを含有するDの任意のサブセットの間のマッピングを使用し、長さがlogdbを超えないビットストリームを符号化することができる。別の実施形態では、各ビンが区別可能なサブセットを含有する:この場合、このスキームにより、長さが
Figure 2021524229
を超えないビットストリームを符号化することができる。
図28は、識別子が1つよりも多くのビン中に現れ得る場合の、情報を符号化するための識別子分布の使用に基づくマルチビンスキームの例を図解する。このスキームを、再使用を伴う識別子分布と称する。図28は、識別子2つの識別子ライブラリー(8および9とラベルされる)ならびに3つのビン(ビン0、1、2)を伴う例を示す。2つの識別子および3つのビンを使用して、6ビット(b、ここで、各bはビットストリーム中の単一のビットに対応し、xはビットストリーム中のそれぞれのビットの位置を示す)を符号化する。図の上部は、それぞれビットb(4とラベルされる)、b、およびbに対応する可能な識別子のサブセットを示す。任意の識別子のサブセットを任意のビンに含めることができる。したがって、3つのビンの各ビンは4つの選択肢:識別子なし、単一の識別子(8とラベルされる)、他の識別子(9とラベルされる)、または両方の識別子(8および9)を含み得る。この実施例は3つのビンを伴うので、各サブセットが各行に3回示される(ラベル2)。3つのビンは各々がちょうど1つのサブセットを含み得るが、全てのサブセットで三重になることが許容される。これは、サブセットをつなぐ線(ラベル3)によって例示される:左から右への各道は、3つのビンに含められるサブセットの集合体に対応する。表(7とラベルされる)に示されている通り、識別子の各分布を特定のビットストリームにマッピングする。一実施形態では、各ビンについてサブセットを00、01、10、および11と名付けることによってビットストリームを推定することができる。したがって、例えば、ラベル5によって示される分布は、3つのビンの各々に空の識別子のサブセットが含まれるように選択されるので、ビットストリーム000000に対応し、このサブセットは00と名付けられる。同様に、ラベル6によって示される分布は、ビン0にサブセット01が含まれ、ビン1にサブセット01が含まれ、ビン2にサブセット10が含まれるように選択されるので、ビットストリーム010110に対応する。この図は、64種の可能な分布のうちのさらなる数例を示す(図中の破線の項目によって暗示される)。
マルチビン符号化スキームは、そのようなスキームを用いて符号化されたデータの復号には全てのビンにアクセスし、それを復号する必要があり得るので、データの安全な保存記録における適用を有し得る。例えば、マルチビンスキームではビットストリームが複数のビン中の区別可能な識別子の分布にマッピングされ、それにより、一般にビンの適当なサブセットからのソースビットストリームの任意の有意な部分列を復号することが不可能になるので、マルチビンにより符号化された識別子ライブラリーをソースビットストリームにマッピングし戻すためには各ビンに存在する識別子セットを得ることが必要であり得る。
別の実施形態では、マルチビンスキームを使用し、複数の直交性の識別子ライブラリーを使用してソースビットストリームを符号化することができる。得られたマルチビンライブラリーを、いくつかの最小濃度のビンの任意のサブセットからの復号が可能になるように組み合わせることができる。例えば、各々5つの直交性のライブラリーおよび3つのビンを使用してソースビットストリームを符号化することができる。次いで、得られた15のビンを、3つのビンの任意のサブセットからのビットストリームの復号が可能になるように組み合わせることができる。実際には、ビンは、基板上の管、ウェル、またはスポットなどの物理的位置であり得る。
一部の実施形態では、ビンは、基板上の管、ウェル、またはスポットなどの物理的位置であり得る。他の実施形態では、ビンは、特定のバーコード配列のような、集合体内の全ての識別子に共有される、より抽象化された結び付きであり得る。
DNAおよび整数パーティションを用いて情報を符号化する方法
用語「整数パーティション」法を、DNAのランダム配列のパーティション中に情報を記憶する符号化戦略を指すために使用する。図29は、5つのステップによって概説される整数パーティション法の実施形態を図解する。DNAが灰色または黒色の棒および記号で構成される列として示されている。示されているDNAの各々が区別可能な種を表す。「種」は、配列が同じ1つまたは複数のDNA分子と定義される。「種」が複数の意味で使用される場合には、複数の種の中のすべての種が区別可能な配列を有すると仮定することができるが、これは時には「種」の代わりに「区別可能な種」と記すことで指定される。
方法実施形態のステップ1は、各々が「カウント」と称される非常に多数の種のプールから開始される。カウントは、縁に共通の配列(黒色および薄い灰色の棒)、次いで中央に区別可能な配列(N・・・N)を有するように設計することができる。縮重オリゴヌクレオチド合成戦略を使用して、このカウントの出発プールを迅速かつ安価な様式で製造することができる。ステップ2では、カウントをビン(ステップ2に示されている四角形)中にパーティションする。どのカウントをどのビンにパーティションするかは問題ではなく、各ビンにパーティションされるカウントの数だけが大事である。したがって、パーティションは、単一のカウントを出発プールからランダムに試料抽出し、次いで、そのカウントを特定のビン(例えば、ステップ2に示されている5つのビンのうちの1つ)に割り当てることによって行うことができる。単一のカウントをプールから小さな液滴中に試料抽出することができる。ビンは、反応容器である。例えば、ビンは、マイクロ流体チャネル内のチャンバまたは基板上の位置であり得る。カウントを、マイクロ流体デバイスを通じてチャンバに、または印刷を通じて基板上の位置に割り当てることができる。各ビンがバーコードと称される区別可能なDNA種を含有する。バーコードは、縁に共通の配列(薄い灰色および濃い灰色の棒)を有し、中央に各ビンを識別する区別可能な配列(B0、B1、B2、B3、B4、・・・)を有するように設計することができる。ステップ3では、バーコードの共通の縁配列をカウントの共通の縁配列とアセンブルする。例えば、バーコードの共通の縁配列は、付着末端ライゲーションまたはギブソンアセンブリによってアセンブルするように構成することができる。ステップ4では、各ビンからアセンブルされたDNA分子をステップ5に示される保管用の最終的なプールにコンソリデートする。最終的なプール中の種は、カウントが各ビンにどのようにパーティションされたかに関する情報の全てを含有する。この情報をシークエンシングによって回収することができる。所与の例では、シークエンシングデータは、9つのカウントが5つのビンにパーティションされ、したがって、第1のビン(B0)が2つのカウントを有し、第2のビン(B1)が3つのカウントを有し、第3のビン(B2)が1つのカウントを有し、第4のビン(B3)が1つのカウントを有し、第5のビン(B4)が2つのカウントを有することを意味し得る。これは、整数「9」を順序和「2+3+1+1+2」に数学的に書き換えることと等価であり、これは、「合成」として公知である。この方法のパラメータを常に合計9つのカウントと5つのビンを有するように固定した場合、本実施例で記録される特定の組成は、13choose4の可能な合成の可能性があるので、log2(13choose4)ビットの情報を含有する。このプロセスの任意の時点で、記憶される情報に干渉することなく各種の複数のコピーが存在してよいまたは創出することができる(例えばPCRを用いて)。これにより、分解から保護するため、およびシークエンシングを促進するために最終的なプールを増幅することが可能になる。一般に、整数パーティションシステムがn個のパーティションされたカウントおよびk個のビンという固定されたパラメータ値を有する場合、方法をインプリメントして、log[(n+k−1)choose(k−1)]ビットの情報を記憶することができる。数学的には、この情報によりシステムの「弱い合成」の数が測定されると言える。しかし、これは、各ビンのバーコード配列が分かっている場合のみである。各ビンのバーコード配列が分かっていない場合(例えば、バーコード自体がランダム配列である場合)でも、なお方法をインプリメントして、
Figure 2021524229
を記憶することができ、ここで、Pj(n)は、ちょうどj部分に入るパーティションの数nである。
DNAへの情報の符号化のためのデータパイプライン設計の方法
DNAに書き込まれる入力ビットストリームを、「コーデック」と省略される計算符号化−復号パイプラインによって処理する。図30は、例示的なコーデックの符号化部分の高レベルブロック図を示す。ソースビットストリームおよびそれをDNAに書き込む要求を受信したら、コーデックはソースビットストリームをブロックサイズとして公知の固定された長さを超えないサイズの1つまたは複数のブロックに分割する。コーデックは、ソースビットストリーム(すなわち、記号列)、処理の必要条件、およびビットストリームの内容(すなわち、デジタル情報)の意図された適用に基づいて適切なブロックサイズを決定する。例えば、100Gビットビットストリームを、各々の長さが1Gビットである100個のブロックもしくは各々の長さが100Mビットである1000個のブロックに分割することができる、またはいくつかの他のやり方で分割することができる。
コーデックでは、1つまたは複数のハッシュアルゴリズムを使用して、各ブロックのハッシュを計算することができる。ハッシュアルゴリズムにより、ハッシュおよび他のメタデータ、例えば、ブロック長およびブロックアドレスをブロックに付け加えることができる。
コーデックでは、1つまたは複数のエラー検出および補正アルゴリズムを各ブロックに適用し、1つまたは複数のエラー保護バイトを計算することができる。次いで、コーデックにより元のブロックとエラー保護情報を組み合わせて、エラー保護されたブロックを得ることができる。例えば、コーデックでは、コンボリューション符号化をブロック内のビットに適用し、リード・ソロモンまたは抹消符号化をブロック内のバイトのチャンクに適用し、リード・ソロモンまたは抹消エラー保護バイトをブロックの各チャンクに付け加えることができる。コーデックによりエラー保護メタデータを各ブロックに付け加えることができる。
エラー保護情報の計算では、コーデックにより、特定の代数フィールドサイズを選択して、エラー保護算出を行うことができる。フィールドサイズによりソースワード長が規定され得、これは、任意のビット数、例えば、4、8、12、16、20、24、28、32、36、40、44、48、64、または128ビットなどであり得る。ソースワードは、ソースビットストリームを含む連続するビットの列(固定された長さのもの)である。コーデックにより、特定のフィールドサイズおよびワード長を計算の複雑さおよびエラー保護の検討に基づいて選択することができる。例えば、8ビットのワード長は計算的に効率的であるが、16ビットのワード長ではより良好なエラー保護をもたらすことができる。コーデックでは、探索アルゴリズムを使用して、1つまたは複数のオブジェクト関数に基づいて最適なパラメータ値のセットを識別することができる。例えば、コーデックでは、ライターハードウェアシステム内の独立した反応コンパートメントの数、またはパラメータ値の特定の構成の下でビットストリームを符号化するために必要な一意の識別子の数、またはいくつかの他の関数、または関数のいくつかの組合せを費用関数として使用することができる。
コーデックでは、別の符号化ステップをエラー保護されたブロックにさらに適用して、書き取りまたは読み取り性能を改善することができる。コーデックにより、エラー保護されたブロック内の各ワードを新しいコードワードにマッピングすることができる。コーデックでは、探索アルゴリズムを使用して、特定の特性のセットを有するコードワードのセットを生成することができる。例えば、コーデックにより、長さが変数である、または「1」ビット値という同じ固定された数を有するコードワード、または互いからの指定されたハミング距離を有するコードワード、またはそのような特色のいくつかの組合せを生成することができる。コーデックでは、最良のコードワード長、重量、ハミング距離、またはコードワードの他の特色の決定において、ソースワード長、ライターハードウェアスピード、および利用可能な成分の総数を含めたパラメータのセットを使用することができる。コーデックは、これらのコードワードを用いたエラー検出または補正情報の別の層を含み得る。例えば、コーデックにより、ちょうどk「1」ビット値を有する長さnのコードワードを生成することができ、ここで、ビットのうちの2つは、高ビットまたは低ビットとして公知であり、パリティビットとして機能し、高ビットはパリティビットが1の場合に設定され、そうでなければ低ビットが設定される。そのようなエラー保護ビットの1つまたは複数の対により、コードワードの種々の部分を保護することができる。
コーデックにより、特定のコードワードのセットを選択して、符号化または復号の間の最適化された化学的条件を確実にすることができる。例えば、コーデックにより、固定された重みのコードワードを生成して、固定された同一数の識別子がライターシステム内の各反応コンパートメントに、各コンパートメント中に、かつコンパートメントにわたっておよそ等濃度でアセンブルされることを確実にすることができる。コーデックにより、各反応コンパートメントに同じ数の識別子がアセンブルされ、整数のコードワードが符号化されるようにコードワード長およびパーティションスキームを選択することができる。
コーデックは、識別子の複数のセットを使用し、ソースビットストリーム中のビットの一部または全部が符号化されるように選択することができる。識別子は、直交性の識別子ライブラリーに由来するものであってもよく、同じ識別子ライブラリーに属するものであってもよい。識別子により、ソースビットストリームまたはソースビットストリーム由来のビットの組合せを符号化することができる。コーデックでは、ビットの組合せを符号化する識別子の複数のセットを使用することで、全てのビットを確実に復号するために必要な試料のサイズを縮小することができる。コーデックにより、各ソースブロックについて1つまたは複数の出力ブロックを生じさせることができる。出力ブロックは、一覧または木を含めたいくつかの他の型のデータ構造としてアセンブルされる識別子のセットとして記述することができる。コーデックにより、デバイスに指定された識別子をアセンブルするよう命令する1つまたは複数のコマンドファイルを生成することができる。例えば、コーデックにより、液体取扱いロボットまたはインク含有成分を用いるインクジェットプリンターを制御するコマンドファイルを生成することができる。コーデックは、デバイスと通信し、デバイスからの情報に基づいてブロックファイルを最適化することができる。例えば、デバイスからアセンブリエラー率を報告することができ、コーデックはエラー保護性能がより高い新しいブロックファイルを生成することができる。コーデックはブロックファイルまたはコマンドをファイルとしてまたはネットワークを介して伝達することができる。コーデックの計算プロセスは、1つまたは複数のコンピュータを介して実行することができる。
情報ライターへの指示を指定する方法
識別子ライブラリーを「ライター」として構築する任意のシステムに言及する。例えば、ライターの一部の実施形態では、印刷に基づく方法を使用して、識別子の構築のために成分をコロケートすることができる。印刷に基づく方法は、各々が1つまたは複数の核酸分子を基板上に印刷することができる1つまたは複数の印字ヘッドの使用を伴い得る。
アセンブルされる識別子ライブラリーを指定し、指定ファイルのセットを介してライターに伝達する。ブロックデータファイルにより、ライターによって生成される識別子のセットを指定する。ブロックデータファイルを、データ圧縮アルゴリズムを使用して圧縮することができる。ブロックを含む識別子を、これだけに限定されないが、木、トライ、一覧、またはビットマップなどのシリアライズされたデータ構造の形態で指定することができる。
例えば、産物スキームを使用して生成される識別子ライブラリーを、成分ライブラリーパーティションスキーム(成分が識別子のアーキテクチャ内の層に分割される様式)を含有するブロックメタデータファイル、および各層に使用される可能な成分の名称の一覧を用いて指定することができる。ブロックデータファイルは、トライの根から葉への各道が識別子を表し、道に沿った各ノードによりその識別子のその層において使用される成分名が指定される、シリアライズされたトライデータ構造として構成された生成される識別子を含有し得る。ブロックデータファイルは、このトライを、根から開始し、各ノードの左側の子ノードを見に行った後、ノード自体を見に行き、次いで、右側の子ノードを見に行く順序で横断することによってシリアライズすることを含み得る。
図31は、識別子ライブラリーを表すためのデータ構造およびシリアライゼーションの実施形態を図解する。いくつかのビットストリームを符号化する識別子ライブラリーが示されている(ラベル11)。木の根からあらゆる葉までの各道は単一の識別子を表し、識別子中の成分が道に沿って遭遇するノードの名称によって指定される。ラベル6は、成分名および区切り記号を主に含むデータ構造のシリアライズされた表示を示す。シリアライズされた形態は構築者特異的パーティションスキームの指定で始まる(ラベル5)。この場合、産物構築にはそれぞれの層の各々に3つ、2つ、3つ、および5つの成分を含有する4つの層を使用する。シリアライゼーションにおける残りの項目は、1とラベルされるもののように、データ構造の外の道を図示する。シリアライゼーションにおいて4とラベルされるセグメントは、木の根から始まり、第1の層のノード0、次いで第2の層のノード0、第3の層のノード0、および最後の層の葉0まで下る道を図示する。パーティションスキームは4つの層を有するので、この段階で完全な識別子を出力することができるとアルゴリズムにより推定される。より一般的には、シリアライゼーションのこのセグメント(7とラベルされる)は、最終的な層の代替成分の全てを指定する。特定の層の識別子ライブラリーに含まれる代替の全てが列挙されたら、区切り記号(本実施例ではピリオド)をシリアライゼーションに含めてこの状態に印をつける。これが、木の道に示されているようにアルゴリズムが層を上がる引き金となる(3とラベルされる)。シリアライゼーションにおける成分識別子の次のセグメント(16とラベルされる)は次の識別子のセットを記述する。このように、識別子ライブラリー全体を平らなシリアルファイルで簡潔に表すことができる。
識別子を用いた計算方法
化学操作を使用して識別子ライブラリーにおいて符号化されたデータに対して計算を実施することが可能であり得る。そのような操作はアーカイブ全体の任意のサブセット、またはアーカイブ全体に対して並行化された様式で実施することができるので、これを行うことが有利であり得る。さらに、計算は、in vitroにおいて、データの復号を伴わずに実施することができ、したがって、機密を保証しながら計算することが可能になる。一部のインプリメンテーションでは、AND、OR、NOT、NANDおよびさらに他のものなどのブール論理操作を伴う計算を、各ビット位を表す識別子を使用して符号化されたビットストリームに対して実施し、ここで、識別子の存在によりビット値「1」が符号化され、識別子の非存在によりビット値「0」が符号化される。
一部のインプリメンテーションでは、全ての識別子を一本鎖核酸分子として構築する(または最初に二本鎖核酸分子として構築し、次いで一本鎖形態に分離させる)。任意の一本鎖識別子xについて、識別子はxの逆相補物としてxによって示される。一本鎖識別子Sの任意のセットについて、S中の各識別子の逆相補物のセットをSと示す。ライブラリー中の全ての可能な一本鎖識別子をUにより示し、その逆相補物のセットをUにより示す。これらのセットをユニバースおよびユニバースと称する。UおよびU は、ユニバースおよびユニバースセットの第2の対を示し、したがって、これらのセット中の各識別子には、化学的方法によって標的とするまたは選択することができる検索領域として公知の追加的な核酸配列が補われる。
所与の識別子ライブラリーに対する計算を、ハイブリダイゼーションおよび切断を伴う一連の化学操作によってインプリメントすることができる。これらの操作の要約を以下に記載する。各操作は、入力として識別子のプールを取り、操作を実施し、出力として識別子のプールを返す。
手始めの例として、下記の表に示す通り、第1のライブラリーL1および第2のライブラリーL2は、各々が8ビットを含有する。2つのライブラリー間のビットごとの「OR」操作および2つのライブラリー間のビットごとの「AND」操作の結果も示されている。化学的ステップによって実施されるこれらの操作(および追加的な操作)の詳細を以下でさらに詳細に記載する。
Figure 2021524229
各ライブラリーの各ビットを、記号位置を含む識別子として符号化する。記号位置について識別子の非存在により0が示され、記号位置について識別子の存在により1が示される。本実施例では、ライブラリー中の識別子は二本鎖である。
2つのライブラリーL1およびL2に対してOR操作を実施するために、2つのライブラリープールを組み合わせる。両方のライブラリーについての識別子をOR操作のために二本鎖状態のまま残すことができる。OR操作ではL1またはL2のいずれかに1が存在するかどうかが示されるので、2つのプールの組合せは十分に決定されたOR操作出力である(上のORの列に記載の通り)。最大で、同じ記号位置に2倍多くの識別子コピーが存在し(元のライブラリーと比較して)、これにより、なおその記号位置(すなわち、記号位置b5)における1の存在が示される。一部のインプリメンテーションでは、二本鎖識別子を変性させて2つの一本鎖を生成することができる(すなわち、各二本鎖識別子についてセンスまたは「プラス」鎖1つとアンチセンスまたは「マイナス」鎖1つ)。得られた2つの相補的な一本鎖を「プラス」鎖および「マイナス」鎖と称する。一部のインプリメンテーションでは、ライブラリーの下位区分を選択することができ、OR操作を実施することができ、OR操作の結果で既存のライブラリーの一方または両方における既存のビット値を置き換えることができる。
2つのライブラリーL1およびL2に対してAND操作を実施するために、まず二本鎖識別子を変性させて2つの一本鎖(すなわち、各二本鎖識別子についてセンス鎖1つとアンチセンス鎖1つ)を生成する。再度、得られた2つの相補的な一本鎖を「プラス」鎖および「マイナス」鎖と称する。プラス鎖およびマイナス鎖を別々のプールに分離する。実際には、プラス鎖またはマイナス鎖のいずれかに対してアフィニティータグ付きプローブを使用することによってこれを実現することができる(核酸捕捉に関しては化学的方法セクションFを参照されたい)。識別子を、この目的のために共通のプローブ標的を含有するように設計することができる。次いで、第1のライブラリー由来の二本鎖識別子のプラス鎖(例えば、センス鎖)および第2のライブラリー由来の二本鎖識別子のマイナス鎖(例えば、アンチセンス鎖)を一緒にプールし、相補的な一本鎖がハイブリダイズすることを可能にする。両方のライブラリー(例えば、上記の表に示されているL1およびL2)に既存の識別子が存在すると仮定すると、得られた組み合わされたプールでは、一本鎖のDNAとハイブリダイゼーションを起こした後の二本鎖のDNAの組合せを有することになる。完全に二本鎖の識別子は、その識別子が第1のライブラリーL1および第2のライブラリーL2のどちらにも存在したことを示す。完全に二本鎖の識別子をプールから選択して、AND操作出力を創出することができる。例えば、S1ヌクレアーゼまたはリョクトウヌクレアーゼなどの一本鎖特異的ヌクレアーゼを使用して、一本鎖識別子(および部分的に一本鎖)を小さな単位に切断することで一本鎖識別子を選択的に取り除くことができる。完全に二本鎖の識別子は切断から保護され、次いで、化学的方法セクションFに記載の核酸捕捉技法または化学的方法セクションEに記載のサイズ選択技法などの技法を使用して単離することができる。例えば、核酸プールを、完全に相補的な二本鎖DNAだけがある特定の長さで流れるようにクロマトグラフィーゲルに流すことができる。組合されたプール出力が上記の表のAND列に示されている。これらのAND操作およびOR操作を実施するために必要なステップの詳細およびさらなる例を以下に記載する。
本明細書に記載のランダムアクセス方法を使用して、ライブラリーの一部を抽出することができる。例えば、ライブラリーの下位区分をランダムアクセスによって抽出することができる。論理操作(例えば、ORまたはAND)を下位区分に適用することができる。一部のインプリメンテーションでは、得られた識別子のセットでライブラリー内の下位区分の元の値を置き換えることができる。
single(X)という操作は、識別子のプール(二本鎖および/または一本鎖)を取り、一本鎖核酸識別子のみを返すものである(全ての二本鎖識別子を取り除く)。double(X)という操作は、識別子のプール(二本鎖および/または一本鎖)を取り、二本鎖識別子のみを返すものである(全ての一本鎖識別子を取り除く)。make−single(X)およびmake−single(X)という操作は、全ての二本鎖核酸識別子をそれらの一本鎖形態に変換するものである(アスタリスクが付いているバージョンではマイナス鎖を返し、アスタリスクが付いていないバージョンではプラス鎖を返す)。get(X,q)という操作は、クエリqにマッチする全ての識別子のプールを返すものである。q=「全て」の場合、クエリは全ての識別子にマッチし、動作する。delete(X,q)という操作は、クエリqを満たす全ての識別子(二本鎖または一本鎖)を削除するものである。クエリは、以前に記載されている通り、ランダムアクセスによってインプリメントすることができる。combine(P,Q)という操作は、PまたはQ中の全ての識別子を含有するプールを返すものである。assign(X,Y)という操作は、Yの結果を変数名Xに割り当てるものと定義する。簡潔にするために、この操作を以下の形態でも示す:X=Y。割り当て操作は、いかなる「コンタミネーション」問題も伴わずに変数を再使用することが可能になる理想的な条件下で実行されるものと仮定する。
その後、どちらも長さlのビットストリームaおよびbがそれぞれ二本鎖識別子ライブラリーdsAおよびdsBに書き込まれたと仮定し、いくつかのサブビットストリームs=a・・・aおよびt=b・・・bに対する計算に関心を払い、計算の結果はサブビットストリームsに記憶される。すなわち、最初にinitialize(dsA,dsB,s,t)操作によって示される以下の操作が指定された順序で実行されたと仮定する:
Figure 2021524229
図32は、識別子ライブラリーを用いた計算の設定の例を図解する。この図は、抽象木データ構造(4とラベルされる)として描かれた識別子の組合せ空間の例を図解する。本実施例では、木の各レベルで2つの成分間の選択を行う(ラベル2によって示される)。木の根からの各道は一意の識別子に対応し(ラベル3の例によって例示される通り)、その順序(またはランク)を決定するものである。ラベル4は、一本鎖ユニバーサル識別子ライブラリーを示す。ラベル5は、例えば「a」と称される特定のビットストリームを符号化する一本鎖識別子ライブラリーを示す。ラベル7は、7ビットを含む「s」と称される「a」のサブビットストリームを示す。同様に、ラベル10は、同じ長さのビットストリーム「b」のサブビットストリーム「t」を示す。initialize(dsA,dsB,s,t)を計算するための初期化手順に記載されている通り、計算されるサブビットストリームはプールPおよびQ(それぞれ6および9とラベルされる)において入手可能であり、計算の準備ができている。
and(s,t)という操作は、ビットストリームsおよびtの中のビットのビットごとの論理積と定義され、以下の順の操作を使用してインプリメントすることができる。
Figure 2021524229
not(s)という操作は、ビットストリームs中のビットのビットごとの論理否定と定義され、以下の順の操作を使用してインプリメントすることができる:
Figure 2021524229
or(s,t)という操作は、ビットストリームsおよびtの中のビットのビットごとの論理和と定義され、以下の順の操作を使用してインプリメントすることができる:
Figure 2021524229
Figure 2021524229
一部のインプリメンテーションでは、or(s,t)操作は、dsAとdsBをプール中で組み合わせ、その結果、O(or(s,t)操作の出力)と称される識別子の組合せをもたらすことを含み得る。
nand(s,t)という操作は、ビットストリームsおよびtの中のビットの連言のビットごとの論理否定と定義され、以下の順の操作を使用してインプリメントすることができる。
Figure 2021524229
一実施形態では、single(X)という操作は、まず、X由来の一本鎖識別子がユニバーサル識別子とハイブリダイズするようにXをUまたはU と組み合わせることを伴い得る。さらに、UおよびU 中のユニバーサル識別子は特別な検索領域を有するので、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化様式でアクセスすることができる。
一実施形態では、double(X)という操作は、X中の識別子をS1ヌクレアーゼなどの一本鎖特異的ヌクレアーゼで処理し、次いで、得られたDNAのプールをゲルに流して、切断されなかった識別子(したがって完全に二本鎖の識別子)のみを単離することを伴い得る。
図33は、識別子ライブラリーによって符号化されたビットストリーム「s」および「t」に対して論理操作をどのように実施することができるかの例を図解する。この図では、ユニバーサルライブラリー(14とラベルされる)を使用し、したがって、これは計算されるプールと相補的である。AND/NANDとラベルされた列は、ビットストリーム「s」および「t」(それぞれ5および7とラベルされる)の連言をどのように計算することができるかを示す。プールが正しいユニバーサルライブラリー(UまたはU)を使用して再フォーマットされていると仮定する。2つのプールを組み合わせると、相補的な一本鎖識別子がハイブリダイズし、示されている通り2重の識別子を形成する(例えばラベル9)。得られたプール(10とラベルされる)中の二本鎖識別子の集合体によりAND計算が符号化される:二本鎖産物を分離することにより、and(s,t)を表す識別子ライブラリーがもたらされる。あるいは、一本鎖産物を分離することにより、nand(s,t)を表す識別子ライブラリーがもたらされる。ORとラベルされた列は、ビットストリーム「s」および「t」の選言をどのように計算することができるかを示す。「s」および「t」を表す識別子を含有するプールを組み合わせた場合、得られるライブラリーはor(s,t)を表すものになる。NOTとラベルされた列は、ビットストリーム「s」の否定をどのように計算することができるかを示す。ここでは、ビットストリーム「s」を表す一本鎖識別子ライブラリーを相補的なユニバーサル識別子ライブラリーと組み合わせる(15とラベルされる)。結果として(19とラベルされる)、形成された全ての二本鎖産物(例えば18とラベルされる)が「s」中の「1」ビットを表し、棄却することができる。残りの一本鎖産物(例えば、17とラベルされる)は、「s」中の「0」ビットを表し、したがってnot(s)における「1」ビットに対応する。これらの一本鎖産物はnot(s)を表す識別子ライブラリーをもたらすものであり、さらなる計算に使用することができる。
イメージデータの符号化および読み取りの方法
識別子ライブラリーは、その中の符号化されたビットストリームの内容に関しては断定的なものではないが、大きなサイズおよび自然的な長期にわたる社会的価値に起因して、イメージデータをアーカイブすることにおいて特に有用であり得る。したがって、識別子ライブラリーは、イメージデータを、そのようなデータのために特別に設計された符号化スキームおよびフォーマットを用いて符号化するために有用であり得る。「イメージデータ」は、いくつかの次元のベクトルの集合体として暗黙的にまたは明確に存在し、局所性を有するデータを指す:示されたベクトルはそれらの中で距離の概念を有し、すぐ近くにあるベクトルは問い合わせ、動作、または解釈を一緒に受ける。例えば、写真イメージでは、各ピクセルは、ピクセルの位置およびその色の値を記述するベクトルであり、近くのピクセルは、一般には、写真において1つまたは複数のオブジェクトの領域を形成し、したがって、単位として解釈および動作を受ける可能性が高い。
1つのインプリメンテーションでは、イメージ符号化スキームを用いてイメージを識別子ライブラリーにマッピングし、ここで、元の多次元イメージからのベクトルを空間充填曲線などの数学関数によって定義される直線的順序付けで順序付ける。示されたベクトルの一部または全部の次元に沿って可能な値を成分ライブラリー中の特定の成分にマッピングすることができ、識別子構築のためにベクトルの一部または全部の次元を産物スキーム内の層にマッピングすることができる。これをネイティブイメージ符号化と称する。例えば、識別子構築のために幅xピクセルおよび高さyピクセルのグレースケールイメージを産物スキームにマッピングすることができ、第1の層の成分はピクセルのx座標を表し、第2の層の成分はピクセルのy座標を表し、第3の層の成分はピクセルのグレースケール強度を表す。例えば、RGBカラーイメージを、赤色チャネル、青色チャネル、および緑色チャネルのそれぞれに対する3つの直交性の識別子ライブラリーを用いて同様に表すことができる。別の実施形態では、色相、彩度、明度などの他の代替カラーモデルも同様に表すことができる。別の実施形態では、ピクセルの位置を指定する座標を、第3の層の成分が、各々が強度の値を指定する代わりに、各々が強度の値を指定するビット列中のビット位を表し、各成分を有する識別子の存在または非存在により、それぞれ「1」または「0」の値が指定される以外は上記の通り表すことができる。例えば、前者の実施形態では、第3の層は256成分を含み得、特定のピクセルにおける各成分により、256の可能な強度の値のうちの1つが指定され、後者の実施形態では、第3の層は8成分を含み得、特定のピクセルにおけるこれらの成分の各サブセットにより、256の可能な強度の値のうちの1つが指定される。
一部のインプリメンテーションでは、一部または全部の成分が値の範囲に関連付けられる。例えば、カラー値層(第3の層)の成分を、そのカラーチャネルにおけるカラー値の間隔を表すものと定義することができる。例えば、赤色チャネル識別子の第3の層の各成分を、特定の赤のカラー値にマッピングする代わりに赤のカラー値の±10点の範囲にマッピングすることができる。
一部のインプリメンテーションでは、上で定義されたようにイメージを符号化する場合、PCRまたはハイブリダイゼーション捕捉などの以前に記載されているランダムアクセススキームを使用してイメージにおける任意のデカルトセクション(近傍ピクセル)をカラー値に関して問い合わせることができる。さらに、符号化スキームが、第3の層の各成分により強度の値が指定されるものである場合、ランダムアクセススキームを使用して任意のカラー値を関連するピクセル座標に関して問い合わせることができる。
一部のインプリメンテーションでは、ネイティブイメージ符号化を用いて符号化されたイメージを複数の分解能で復号することができる。例えば、およそ3xy識別子を使用したRGBカラーモデルを用いて符号化した幅xピクセルおよび高さyピクセルのイメージを、識別子の半分の均一にランダムなサブセットを試料抽出することによって元の分解能の半分で復号することができる。試料抽出された識別子から元のイメージの内容を画像加工および内挿技法を使用して低分解能で再構築することができる。イメージの復号にはより小さな試料が使用されるので、復号の費用および時間が低減する。
一部のインプリメンテーションでは、複数のイメージの低分解能での復号および画像加工を使用して、アーカイブ中の目的のイメージまたはイメージのセクションを識別することができる。この後、これらのイメージまたはイメージのセクションの高分解能での復号を行うことができる。この特色のセットは、例えば、特定の視覚的特色が求められるサーベイランスイメージの大きなアーカイブの分析において有用であり得る。別の適用では、ビデオアーカイブを静止イメージフレームの大きなアーカイブとして処理することができる。本出願では、ランダムアクセスおよび低分解能での復号により、目的のフレームを識別することができる。次いで、周囲のフレームをより高い分解能で復号して、目的のビデオセグメントを再構築することができる。このように、大きなイメージまたはビデオアーカイブを高密度で何世紀にもわたって記憶させ、それでもなお低費用で並行して問い合わせることができる。
イメージデータの記憶および多分解能読み取りの例を以下に記載する。圧縮されていない画像ファイルを識別子に、各識別子または各連続する識別子の群がイメージのピクセルを表すように符号化することができる。例えば、イメージがビットマップとして記憶されており、各ビットが2色(例えば白色または黒色)のうちの1色を有することができるピクセルである場合、ビットマップ中の各ビットを識別子によって表すことができ、その識別子の存在または非存在により、それぞれ一方の色または他方の色を表すことができる。イメージを読み取り戻すために、識別子ライブラリーをランダムに試料抽出することができる(標準の次世代シーケンシング技術を用いて予想されるものと同様に)。イメージを読み取り戻す分解能は、読み出しのサンプルサイズを定義することによって指定することができる。したがって、低分解能バージョンのイメージを高分解能バージョンよりも安い価格で読み取り戻すことができる。これは、イメージを読み取り戻すオブジェクトが細密なイメージの詳細を必要とするものでない場合に有用であり得る。あるいは、低分解能バージョンのイメージまたはいくつかのイメージを検査して、より高い分解能での問い合わせ(アクセス)の位置を決定することができる。
この多分解能制御読み取り戻しの原理をさらに実証するために、ビットマップとして記憶されたイヌのイメージの例(図34)を検討する。図34Aの元のイメージは、1476800ピクセル(1300×1136ピクセル)であり、各々がビット(白色または黒色)として記憶されている。各ビットが識別子であり、黒色ピクセルの識別子のみを構築することによってイメージを符号化すると何が起こるかをシミュレートする。これには131820個の識別子が必要である。図34Bは、識別子の総数10倍(サンプルサイズ1318200)のシミュレートされた試料抽出から得られたイメージを実証する。これは元のイメージと同様の細部を有する。図34Cは、識別子の総数と等価数(サンプルサイズ131820)のシミュレートされた試料抽出から得られたイメージを実証する。図34Dは、識別子の総数の10分の1の識別子(サンプルサイズ13182)のシミュレートされた試料抽出から得られたイメージを実証する。黒色ピクセルは非常にまばらなので、イメージを可視化することは難しい。各濃いピクセルのサイズを増幅して、元のイメージの再創出を補助することができる。図34Eは、各黒色ピクセルを25ピクセルまで増幅した以外は同じであるイメージを示す。この分解能では、元のイメージのいくらかの細部、例えば毛の一画が喪失する可能性がある。しかし、より粗い細部、例えば眼および鼻はなお目に見える。図34Fは、識別子の総数の100分の1の識別子(サンプルサイズ1318)のシミュレートされた試料抽出から得られたイメージを実証する。黒色ピクセルは非常にまばらなので、イメージを可視化することが難しい。再度、各濃いピクセルのサイズを増幅して元のイメージの再創出を補助することができる。図34Gは、各黒色ピクセルを25ピクセルに増幅した以外は同じであるイメージを示す。元のイメージの多くの細部が失われている可能性があるが、イメージはそれでもイヌの形状ならびにそのカラーパターンに関するいくらかの細部を示す。
イメージの各ピクセルが2色よりも多くの可能なカラーを有する場合であっても、等価の多分解能読み取り戻しを実施することができる。例えば、各ピクセルが2色の代わりに256色の可能なカラーを有する場合、各ピクセルを8つの識別子のサブセットによって表すことができる。各ピクセルが、各々256の可能な強度の3つのカラーチャネル、例えばRGBを有する場合、イメージを各チャネルに対応する3つの直交性の識別子ライブラリーに記憶させることができる。
DNAを用いたデータの無作為化、暗号法、および認証の方法
DNAを使用してランダムビットストリームを生成し、記憶させる能力には、暗号法およびコンビナトリアルアルゴリズムにおける計算への適用があり得る。多くの暗号化アルゴリズム、例えば、Data Encryption Standard(DES)では、セキュリティーを保証するためにランダムビットの使用が必要である。他の暗号化アルゴリズム、例えば、Advanced Encryption Standard(AES)では、暗号化キーの使用が必要である。一般には、ランダムビットまたはキーにおける系統的なパターンまたは偏りはいずれも暗号化されたメッセージ攻撃および破壊に活用され得るので、これらのランダムビットおよびキーはランダム性の安全なソースを使用して生成される。さらに、暗号化のために使用されるキーは、一般には、解読のためにアーカイブされていることが必要である。暗号化方法のセキュリティーの強さは、アルゴリズムに使用されるキーの長さに依存する:一般に、キーが長いほど暗号化が強力になる。ワンタイムパッドのような方法は、最も安全な暗号化方法の1つであるが、それらには非常に長いキーが必要であることに起因して、適用は限られる。
本文書に記載の方法を使用して、数十、数百、数千、数万、またはそれより多くのビット長のランダムなキーの非常に大きな集合体を生成し、アーカイブすることができる。一実施形態では、各核酸分子が以下の設計:k<n塩基の可変領域を伴うn塩基の長さを有することを満たす核酸ライブラリーを生成することができる。可変領域内の塩基は、ライブラリーの構築中にランダムに選択することが許容される。例えば、nは100であり得、kは80であり得る;したがって、異なる分子1050種のサイズであるライブラリーを潜在的に生成することができる。分子1000種のサイズであるそのようなライブラリーのランダムな試料を、例えば、シークエンシングして、暗号化のために使用することができる最大1000ビットのランダムなキーを得ることができる。
別の実施形態では、上記の核酸キー(キーを表す核酸分子)を識別子に付着させ、それにより、キーセットの順序付けられた集合体を得ることができる。順序付けられたキーセットを使用して、暗号化に関して種々の関係者によってキーが使用される順序を同期させることができる。例えば、産物スキームを使用してコンビナトリアルケミストリーで識別子ライブラリーを構築して、1012種の一意の識別子を得ることができる。マイクロ流体法を使用し、核酸キーを用いて各識別子をコロケートし、アセンブルして、一意の識別子およびランダムキーを含む核酸試料を形成することができる。識別子ライブラリー中の識別子は順序付けられているので、ここでキーも任意の指定された順序で順序付け、アクセスし、シークエンシングすることができる。
一部のインプリメンテーションでは、識別子に付着したキーを使用して、入力識別子を一連のランダムビットにマッピングするランダム関数のインスタンスを生成することができる。そのようなランダム関数は、ハッシュなどの、その値の計算は容易であるが所与の値から逆を行うのは難しい関数を必要とする適用において有用であり得る。そのような適用では、各々が一意の識別子にアセンブルされたキーのライブラリーをランダム関数として使用する。値をハッシュする場合、その値を識別子にマッピングする。次に、ハイブリダイゼーション捕捉またはPCRなどのランダムアクセス法を使用してキーライブラリーから識別子にアクセスする。識別子をランダム塩基の配列を含むキーに付着させる。このキーをシークエンシングし、一連のビットに変換し、ランダム関数の出力として使用する。
核酸分子ライブラリーは、安価かつ迅速にコピーすることができること、および小さな体積で内密に輸送できることから、上記の通り生成される核酸キーセットは、多数の暗号化キーを地理的に離れている複数の関係者に定期的に安全かつ内密に配布しなければならない状況において有用であり得る。さらに、キーは、非常に長期間にわたって確実にアーカイブすることができ、それにより、暗号化されたアーカイブデータを安全に保管することが可能になる。
図35〜38は、ランダムなまたは暗号化された、DNAに記憶されたデータを創出し、記憶し、アクセスし、使用するための方法の実施形態を図解する。DNAが灰色および黒色の棒および記号を含む列として示されている。示されているDNAの各々が区別可能な種を表す。「種」は、配列が同じ1つまたは複数のDNA分子と定義される。「種」が複数の意味で使用される場合には、複数の種の中のすべての種が区別可能な配列を有すると仮定することができるが、これは時には「種」の代わりに「区別可能な種」と記すことで指定される。
図35は、DNAの大きな組合せ空間およびシークエンサーを使用したエントロピー(またはランダムデータ)発生装置の例を示す図である。方法は、シードと称されるDNA種のランダムプールから開始される。シードは、理想的には、DNAの定義された組合せセットのあらゆる種、例えば、50塩基を有する全てのDNA種(450種のメンバーを有する)の均一な分布を含有すべきである。しかし、完全な組合せ空間はあらゆるメンバーがシード中に表されるには大きすぎる可能性があり、したがって、シードが組合せ空間全体の代わりに組合せ空間のランダムサブセットを含有することが許容される。シード種は、縁に共通の配列(黒色および薄い灰色の棒)、次いで中央に区別可能な配列(N・・・N)を有するように設計することができる。この出発シードを迅速かつ安価な様式で製造するために、縮重オリゴヌクレオチド合成戦略を使用することができる。共通の縁配列により、PCRまたはある特定の読み出しとの適合性の(またはシークエンシング)方法を用いてシードを増幅することを可能にすることができる。縮重オリゴヌクレオチド合成の代替として、組合せDNAアセンブリ(1つの反応に多重化される)もシードを急速かつ安価に生成するために使用することができる。シークエンサーにより、シードから種がランダムに試料抽出され、したがって、ランダムな順序で行われる。任意の所与の時点でのシークエンサーによる種の読み取りには不確実性が存在するので、このシステムは、エントロピー発生装置と分類することができ、ランダムな数またはランダムなストリームのデータを、例えば、暗号化キーとして生成するために使用することができる。
図36Aは、ランダムに生成されたデータをDNAに記憶させるための方法の例示的な概略図を図解する。この方法は、(1)大きなシードと称されるDNA種のランダムプールから開始される。シードは、理想的には、DNAの定義された組合せセットのあらゆる種、例えば、50塩基を有する全てのDNA種(450種のメンバーを有する)の均一な分布を含有すべきである。しかし、完全な組合せ空間はあらゆるメンバーがシード中に表されるには大きすぎる可能性があり、したがって、シードが組合せ空間のランダムサブセットを含有することが許容される。シードは、それ自体を縮重オリゴヌクレオチド合成または組合せDNAアセンブリから生成することができる。(2)シード中の種のランダムサブセットを取ることによってランダムデータ(またはエントロピー)を生成する。例えば、これは、シード溶液の比例する分数の体積を取ることによって実現することができる。例えば、シード溶液がマイクロリットル(μL)当たり推定100万種からなる場合、シード溶液(よく混合されたものであると仮定する)から1ナノリットル(nL)の一定分量を取ることにより、およそ1000種のランダムサブセットを選択することができる。あるいは、シード溶液の一定分量をナノポア膜に流し、膜を通過した種のみを回収することによってサブセットを選択することができる。膜を通過する種の数の計数は、ナノポアにわたる電圧の差異を測定することによって実現することができる。このプロセスを望ましい数のシグネチャーが検出されるまで(例えば、100、1000、10000、またはそれよりも多くの種のシグネチャー)続けることができる。別の代替方法として、単一の種を小さな液滴中に単離することができる(例えば、油エマルションを用いる)。単一の種を伴う小さな液滴を蛍光シグネチャーによって検出し、一連のマイクロ流体チャネルによって選別して回収チャンバに入れることができる。(3)識別子として選択された種の各々を、さらに、選択された種の完全なサブセットも「ランダム識別子ライブラリー」またはRILと称することができる。RIL中の情報を安定化し、それを分解から保護するために、種の末端上の共通の配列に結合するPCRプライマーを用いてRILを増幅することができる。RIL中の識別子(およびしたがって、その中に記憶されたデータ)を決定するために、RILをシークエンシングすることができる。真の識別子を、試料中の、定義されたノイズ閾値を超えて富化されている種によって定義することができる。(4)RIL中に含有されるデータが決定されたら、追加のエラー調査およびエラー補正種をRILに加えることができる。例えば、いくつの識別子が予想されるかに関する情報を含有する「整数DNA」(例えば、チェックサムまたはパリティチェック)をRILに加えることができる。整数DNAにより、情報の全てを回収するためにRILをどのくらい深くシークエンシングするかを知ることが可能になり得る。
RILに一意のDNAタグをバーコード付けすることができる。次いで、いくつかのバーコード付けされたRILを一緒にプールすることができ、したがって、任意の所与のRILに、その一意のDNAタグに対するハイブリダイゼーションアッセイ(またはPCR)を用いて個別にアクセスすることができる。一意のDNAタグは、コンビナトリアルケミストリーでアセンブルすることもでき、合成し、次いでそれらの対応するRILにアセンブルすることもできる。図36Bは、各々が100個のランダム塩基を含有する4種を含むRILの例を示す。可能な種の組合せ空間は、4100であり、したがって、RILは、log(4100choose4)≒725ビットの情報を含有し得る。図36Cも、各々が100個のランダム塩基を含有する4種を含むRILの例を示す。情報を、4100の組合せ空間から選択された4種の特定の順序付けられていない組合せで記憶すること(図36Bのように)の代替として、各種の最後の90個のランダム塩基を、log(490)=180ビットの情報を記憶するために確保することができ、一方、最初の10個のランダム塩基を、4種の各々に記憶される情報間の相対的な順序を確立するために確保することができる。相対的な順序は、4塩基の定義された順序付けに基づく10塩基の列の辞書学的順序付けによって定義することができる(英語の単語をアルファベットの文字の順に従って順序付ける方法と同様に)。情報をRILに割り当てるためのこの方法は、図36Bに記載されている方法よりも、バイナリ列にマッピングするための計算が高速であり得る。
前の図(図36)では、複数のRILにバーコード付けし、それらを一緒にプールするための戦略を考察している。そうすることで、入力−出力マッピングが創出され、ここで、入力はバーコードハイブリダイゼーションプローブ(個々のRILにアクセスするためのもの)に対応し、出力はランダムデータ列(標的化されたRILによって符号化されるもの)に対応する。この方法では、組み合わせられたプールからの検索のために所定のバーコードをランダムデータにアセンブルするが、図37Aは、バーコード(データにアクセスするためのもの)をランダムデータ自体と一緒にランダムに生成する、核酸プローブとランダムデータ列の間の入力−出力マッピングを創出するための異なる方法を実証する。例えば、バーコードは、1つまたは複数の種の両縁に現れ得るDNAの短い配列の対であり得る。この実施形態では、可能なバーコードの組合せ空間は、プール中の全ての可能な種の総数と比較して小さいものであり得、したがって、各バーコードは、偶然に、1つまたは複数の種に関連付けられる。例えば、バーコードが、種のランダムなDNA配列の各縁の3塩基(共通の配列が隣接する)である場合、4=4096種の可能なバーコードが存在し、したがって、それらにアクセスするために構築することができるプライマー対が4=4096種存在する(12ビット入力に対応する)。DNAのプールを、およそ400Kの種を有するように選択した場合、各バーコードは、平均でおよそ100種に関連付けられる。この実施形態では、RILは、各バーコードに関連付けられる種のサブセットによって定義される。先行する例の後、各種が、バーコード付けに使用された塩基(または配列)に加えて25個のランダム塩基(またはランダム配列)を含む場合、100種のRILに関連付けられるバーコードは、最大log(425choose100)≒4475ビットの情報を含有し得る。
図37Bは、アクセスし、バーコード付けされたRILのプールから記憶されたランダムデータを読み取るためのスキームのインプリメンテーションを実証する。シークエンサー(またはリーダー)は、出力を返す前に配列データを操作する関数をさらに含み得る。例えば、ハッシュ関数により、出力データ列を使用して逆の化学的クエリを実施し、その入力を見つけることを難しくすることができる。この関数は、例えば、入力が認証のために使用されるキーまたは証明である場合に有用であり得る。
問い合わせ可能な(またはアクセス可能な)データのランダム列を生成し、記憶する方法は、暗号化キー(ランダムデータ列から生成される)を生成し、アーカイブするために特に有用であり得る。各入力を使用して、異なる暗号化キーにアクセスすることができる。例えば、各入力は、非公開の保存記録データベースにおける特定の使用者、時間範囲、および/またはプロジェクトに対応し得る。非公開の保存記録データベース中の暗号化されたデータ(潜在的に非常に大きな量のデータに達する)を保存記録サービスプロバイダーによって従来の媒体に記憶させることができる一方で、暗号化キーは所有者がDNAに記憶させることができる。さらに、特定の入力のための化学的アクセスプロトコールを実施するために必要な潜在的な待ち時間および高度化により、ハッキングに対する暗号化方法のセキュリティー関門を高めることができる。
図38は、アーチファクトへのアクセスを保証および認証するためのシステムの例を図解する。このシステムでは、可能な種の大きなプールから得られたDNAの種の特定の組合せを含む物理的なキーが必要である。「識別子キー」とも称される種の標的組合せを、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング、もしくは印刷デバイスによって自動的に、またはピペッティングによって手動で生成することができる。ロックが内蔵されているリーダーまたはシークエンサーにより、マッチする識別子キーが確証され、アーチファクトへのアクセスが可能になる。あるいは、リーダーは、アーチファクトへのアクセスを直接ロック解除する代わりに、アーチファクトへのアクセスに使用することができるトークンを返す証明トークンシステムとして挙動し得る。トークンは、例えば、リーダーの組み込みハッシュ関数によって生成することができる。
DNAを用いて実体を追跡し、オブジェクトにタグ付けする方法
溶媒中に溶解させた識別子ライブラリーを、物理的オブジェクト中にまたはそれらの上に噴霧する、拡散させる、分配する、または注射して、それらに情報をタグ付けすることができる。例えば、一意の識別子ライブラリーを使用して、オブジェクトの一種の区別可能なインスタンスをタグ付けすることができる。オブジェクト上の識別子ライブラリータグは、一意のバーコードとしての機能を果たし得る、または、製品番号、製造もしくは出荷日、製造場所、もしくはオブジェクトの履歴、例えば、以前の所有者の取り扱い一覧に関する任意の他の情報などのより高度な情報を含有し得る。識別子を使用してオブジェクトをタグ付けすることの主要な利点は、識別子が検出不可能であり、耐久性があり、また、膨大な数のオブジェクトインスタンスを個別にタグ付けすることに十分に適することである。
別の実施形態では、1つまたは複数の物理的位置に識別子ライブラリー由来の一意の識別子をタグ付けすることができる。例えば、物理的な場所A、B、およびCに識別子ライブラリーを遍在的にタグ付けすることができる。場所Aを訪問するまたは場所Aに接触する実体、例えば、伝達手段、人、または任意の他のオブジェクトは、意図的にまたは非意図的に識別子ライブラリーの試料を受け取る。後に実体にアクセスした際、試料を実体から集め、化学的に処理し、復号して、実体が訪問した場所を識別することができる。実体は、1つよりも多くの場所を訪問することができ、1つより多くの試料を受け取ることができる。類似のプロセスを使用して、識別子ライブラリーが離れている場合に実体が訪問した場所の一部または全部を識別することができる。そのようなスキームには、実体を内密に追跡することへの適用があり得る。このスキームを使用するいくつかの利点は、識別子が、特に探さなければ検出不可能であること、生物学的に不活性になるように設計することができること、および膨大な数の場所または実体に一意にタグ付けするために使用することができることである。
別の実施形態では、識別子ライブラリーにより、実体にタグ付けすることができる。実体は、注射された識別子の試料を訪問した場所に残すことができる。これらの試料を集め、処理し、復号して、どの実体が場所を訪問した可能性があるかを識別することができる。
組合せDNAアセンブリの方法およびシステムの適用
成分を大きな定義された識別子のセットに組合せアセンブリするための本明細書に記載の方法およびシステムをこれまでに情報技術(例えば、データ記憶、計算、および暗号法)に関するものとして記載した。しかし、これらのシステムおよび方法は、より一般的には、ハイスループット組合せDNAアセンブリの任意の適用のために使用することができる。
一実施形態では、アミノ酸の鎖を符号化する組合せDNAのライブラリーを創出することができる。それらのアミノ酸の鎖は、ペプチドまたはタンパク質のいずれかを表し得る。アセンブリのためのDNA断片は、コドン配列を含み得る。断片がそれに沿ってアセンブルされる接合部は、コンビナトリアルライブラリーの全てのメンバーに共通する機能的にまたは構造的に不活性なコドンであり得る。あるいは、断片がそれにそってアセンブルされる接合部は、後にプロセシングされたペプチド鎖に翻訳されるメッセンジャーRNAから最終的に除去されるイントロンであり得る。ある特定の断片は、コドンではなく、コドンの各組合せ列で一意にタグ付けされた(他のアセンブルされたバーコードと組み合わせて)バーコード配列であり得る。アセンブルされた産物(バーコード+コドンの列)を一緒にプールし、in vitro発現アッセイのために液滴の中に封入することができる、または、一緒にプールし、in vivo発現アッセイのために細胞に導入してそれを形質転換することができる。アッセイは、蛍光出力を有し得、したがって、液滴/細胞を蛍光強度によって選別してビンの中に入れ、その後、それらのDNAバーコードを、各コドン列を特定の出力と相関付けるためにシークエンシングすることができる。
別の実施形態では、RNAを符号化する組合せDNAのライブラリーを創出することができる。例えば、アセンブルされたDNAは、マイクロRNAまたはCRISPR gRNAの組合せを表し得る。プールされたin vitroまたはin vivoのいずれかにおけるRNA発現アッセイを、液滴または細胞のいずれかを用い、また、どの液滴または細胞がどのRNA配列を含有するかに関する追跡を維持するためにバーコードを用いて上記の通り実施することができる。しかし、出力自体がRNAシークエンシングデータである場合には、一部のプールされたアッセイを液滴または細胞の外で行うことができる。そのようなプールされたアッセイの例としては、RNAアプタマースクリーニングおよび試験(例えば、SELEX)が挙げられる。
別の実施形態では、代謝経路内の遺伝子を符号化する組合せDNAのライブラリーを創出することができる。各DNA断片は、遺伝子発現構築物を含有し得る。断片がそれに沿ってアセンブルされる接合部は、遺伝子間にある不活性なDNA配列を表し得る。プールされたin vitroまたはin vivoのいずれかにおける遺伝子経路発現アッセイを、液滴または細胞のいずれかを用いて、また、どの液滴または細胞がどの遺伝子経路を含有するかに関する追跡を維持するためのバーコードを用いて上記の通り実施することができる。
別の実施形態では、異なる遺伝子調節エレメントの組合せを有する組合せDNAのライブラリーを創出することができる。遺伝子調節エレメントの例としては、5’非翻訳領域(UTR)、リボソーム結合性部位(RBS)、イントロン、エクソン、プロモーター、ターミネーター、および転写因子(TF)結合性部位が挙げられる。プールされたin vitroまたはin vivoのいずれかにおける遺伝子発現アッセイを、液滴または細胞のいずれかを用い、また、どの液滴または細胞がどの遺伝子調節構築物を含有するかに関する追跡を維持するためのバーコードを用いて上記の通り実施することができる。
別の実施形態では、組合せDNAアプタマーのライブラリーを創出することができる。DNAアプタマーのリガンドに結合する能力を試験するためにアッセイを実施することができる。
(実施例1)
DNA分子における単一のポエムの符号化、書き込みおよび読み取り。
符号化されるデータは、ポエムを含有するテキストファイルである。オーバーラップ伸長PCRを用いてインプリメントされる産生スキームを使用して識別子を構築するために、データを、ピペットを用いて手動で符号化して、96種の成分の層2つからのDNA成分と混合する。第1の層、Xは、96種の総DNA成分を含む。第2の層、Yも96種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、元のデータの61ビットの連続した(隣接する分離した)列の全てが正確に17のビット値1で96ビットの列に翻訳される均一の重みフォーマットに再符号化する。この均一の重みフォーマットは、天然のエラー調査品質を有し得る。次いで、データを96×96表にハッシュして、参照マップを形成する。
図18Aの中央のパネルは、ポエムが複数の識別子に符号化された96×96表の2次元の参照マップを示す。黒い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データを、96種の成分の層2つを使用して識別子に符号化する。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にする。識別子ライブラリーのシークエンシングを行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図18Aの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を各行の上位17の最も豊富な(X,Y)アセンブリとして取る(均一の重み符号化により、96ビットの連続した列各々が正確に17の「1」値、したがって、17の対応する識別子を有し得ることが保証される)。
(実施例2)
62824ビットのテキストファイルの符号化。
符号化されるデータは、総計62824ビットになる3つのポエムのテキストファイルである。オーバーラップ伸長PCRを用いてインプリメントされる産生スキームを使用して識別子を構築するために、データを、Labcyte Echo(登録商標)リキッドハンドラーを使用して384種の成分の層2つからのDNA成分を混合して符号化する。第1の層、Xは384種の総DNA成分を含む。第2の層、Yも384種の総成分を含む。DNAへの書き込みの前に、データをバイナリにマッピングし、次いで、重み(ビット値「1」の数)が減少し、チェックサムが含まれるように再符号化する。チェックサムを、192ビットのデータの連続した列全てについてチェックサムに対応する識別子が存在するように確立させる。再符号化されたデータの重みはおよそ10,100であり、これは、構築される識別子の数に対応する。次いで、データを384×384表にハッシュして参照マップを形成することができる。
図18Bの中央のパネルは、テキストファイルが複数の識別子に符号化された384×384表の2次元の参照マップを示す。各座標(X,Y)は、X+(Y−1)*192位のデータのビットに対応する。黒い点はビット値「1」に対応し、白い点はビット値「0」に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック(例えば、データを復号するための辞書)である。表の各X値およびY値に成分を割り当て、「1」値を有する各(X,Y)座標についてオーバーラップ伸長PCRを使用してX成分とY成分をアセンブルして識別子にすることができる。識別子ライブラリーのシークエンシングを行って、可能な(X,Y)アセンブリ各々の存在または非存在を決定することにより、データを読み取り戻した(例えば、復号した)。
図18Bの右側のパネルは、シークエンシングによって決定された、識別子ライブラリー中に存在する配列の存在量の2次元のヒートマップを示す。各画素は対応するX成分およびY成分を含む分子を表し、その画素におけるグレースケールの強度は、その分子の他の分子と比較した相対的な存在量を表す。識別子を、各行における上位Sの最も豊富な(X,Y)アセンブリとして取り、ここで、各行のSはチェックサム値であり得る。
一般に、本明細書に記載されている主題の態様および機能的操作は、デジタル電子回路網において、または本明細書に開示されている構造およびそれらの構造的等価物、もしくはそれらの1つまたは複数の組合せを含めたコンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいてインプリメントすることができる。本明細書に記載されている主題の態様は、1つまたは複数のコンピュータプログラム製品、すなわち、データ処理装置による実行、またはデータ処理装置の操作を制御するためのコンピュータ可読媒体に符号化されたコンピュータプログラム指示の1つまたは複数のモジュールとしてインプリメントすることができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝播シグナルに影響を及ぼす組成物、またはそれらの1つもしくは複数の組合せであり得る。用語「データ処理装置」は、例として、プログラム可能プロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含めた、データ処理用の全ての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を創出するためのコード、例えば、プロセッサファームウェア、プロトコールスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つもしくは複数の組合せを構成するコードを含み得る。伝播されたシグナルは、人工的に生成されたシグナル、例えば、適切なレシーバー器具への伝達のための情報を符号化するために生成された、機械により生成された電気シグナル、光学シグナル、または電磁気シグナルである。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても公知)は、コンパイラ型言語またはインタープリタ型言語を含めた任意の形態のプログラミング言語で書かれたものであってよく、独立型プログラムとしてまたはモジュール、成分、サブルーチン、もしくは計算環境における使用に適した他の単位としてを含めた任意の形態で配布することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得る。プログラムは、他のプログラムまたはデータを保持するファイルの一部に記憶されたもの(例えば、マークアップ言語文書に記憶された1つまたは複数のスクリプト)、問題のプログラム専用の単一のファイルに記憶されたもの、または複数の連携ファイル(例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部が記憶されたファイル)に記憶されたものであり得る。コンピュータプログラムは、1つのコンピュータでまたは1つの場所に位置するもしくは複数の場所に分布し、通信ネットワークによって相互接続された複数のコンピュータで実行されるように配布することができる。
本明細書に記載されているプロセスおよび論理の流れは、1つまたは複数のコンピュータプログラムを実行して、入力データを操作し、出力を生成することによって機能を果たす1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理の流れは、特殊用途の論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施することもでき、装置を、特殊用途の論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)としてインプリメントすることもできる。
コンピュータプログラムの実行に適したプロセッサとしては、例として、汎用マイクロプロセッサおよび特殊用途マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが挙げられる。一般に、プロセッサは、リードオンリーメモリーまたはランダムアクセスメモリーまたはその両方から指示およびデータを受信する。コンピュータの必須要素は、指示を実施するためのプロセッサならびに指示およびデータを記憶させるための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを受信するため、またはデータを転送するため、またはその両方のために、データ記憶用の1つまたは複数の大容量ストレージデバイス、例えば、磁気、磁気光ディスク、または光ディスクも含む、またはそれらと動作可能にカップリングされる。しかし、コンピュータはそのようなデバイスを有する必要はない。
本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本発明は、本明細書の中で提供される特定の実施例によって限定されるものではない。本発明は上記の明細に関連して記載されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載の発明の実施形態に対する種々の代替を本発明の実施において使用することができることが理解されるべきである。したがって、本発明は、あらゆるそのような代替物、改変物、変形物または均等物も包含することが意図されている。以下の特許請求の範囲により本発明の範囲が規定され、これらの特許請求の範囲の範囲内に入る方法および構造ならびにそれらの均等物がそれにより包含されるものとする。本明細書において引用された全ての参考文献は、その全体が参照により組み込まれ、本出願の一部をなす。

Claims (68)

  1. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)
    (1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記M個の層の各々からの1つの成分核酸分子を選択すること、
    (2)M個の選択された成分核酸分子をコンパートメントに蓄積すること、
    (3)(2)における前記M個の選択された成分核酸分子を物理的にアセンブルして、第1および第2の末端分子ならびに前記第1および第2の末端分子の間に位置する第3の分子を有する第1の識別子核酸分子を形成し、したがって第1および第2の層からの前記成分核酸分子が前記識別子核酸分子の前記第1および第2の末端分子に対応し、第3の層における成分核酸分子が前記識別子核酸分子の前記第3の分子に対応し、前記第1の識別子核酸分子における前記M個の層の物理的順序を定義すること
    によって前記第1の識別子核酸分子を形成するステップと、
    (c)各々が(1)第1および第2の末端分子、ならびに前記第1および第2の末端分子の間に位置する第3の分子を有し、(2)それぞれの記号位置に対応する、複数の追加の識別子核酸分子を形成するステップであって、プローブが、前記記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の前記第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における前記第1の識別子核酸分子の標的分子と同一であるステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  2. 前記少なくとも1つの追加の識別子核酸分子の前記第1および第2の末端分子の少なくとも1つが、(b)における前記第1の識別子核酸分子の標的分子と同一である、請求項1に記載の方法。
  3. 前記M個の選択された成分核酸分子を物理的にアセンブルするステップが、前記成分核酸分子のライゲーションを含む、請求項1または2に記載の方法。
  4. (b)および(c)における前記識別子核酸分子の形成のための付着末端ライゲーションを可能にするために、各層からの前記成分核酸分子が、別の層からの成分核酸分子の少なくとも1つの付着末端と相補的である少なくとも1つの付着末端を含む、請求項1〜3のいずれか一項に記載の方法。
  5. (c)における前記少なくとも1つの追加の識別子核酸分子の前記第1の分子が、(b)における前記識別子核酸分子の前記第1の末端分子と同一であり、(c)における前記少なくとも1つの追加の識別子核酸分子の前記第2の末端分子が、(b)における前記識別子核酸分子の前記第2の末端分子と同一である、請求項1〜4のいずれかに記載の方法。
  6. 前記プローブを使用して、前記第1の識別子核酸分子における少なくとも一部の識別子核酸分子および前記複数の追加の識別子核酸分子の前記標的分子にハイブリダイズさせて、連続する記号位置を有するそれぞれの記号に対応する識別子核酸分子を選択するステップをさらに含む、請求項1〜5のいずれかに記載の方法。
  7. 単一のPCR反応を適用して、連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を増幅するステップをさらに含む、請求項1〜6のいずれかに記載の方法。
  8. 連続する記号位置を有するそれぞれの記号に対応する前記少なくとも2つの識別子核酸分子を、前記識別子核酸分子の前記第3の分子における特異的成分核酸分子を標的とする別のPCR反応によってさらに増幅することが可能である、請求項7に記載の方法。
  9. 各層における前記成分核酸分子が、第1および第2の末端領域と共に構造化され、前記M個の層のある層からの各成分核酸分子の前記第1の末端領域が、前記M個の層の別の層からの任意の成分核酸分子の前記第2の末端領域に結合するように構造化される、請求項1〜8のいずれかに記載の方法。
  10. Mが、3より大きいかまたは3に等しい、請求項1〜9のいずれかに記載の方法。
  11. 前記記号列内の各記号位置が、対応する異なる識別子核酸分子を有する、請求項1〜10のいずれかに記載の方法。
  12. (b)および(c)における前記識別子核酸分子が、前記M個の層の各々からの1つの成分核酸分子を各々が含む、可能な識別子核酸分子の組合せ空間のサブセットを表す、請求項1〜11のいずれかに記載の方法。
  13. (d)における前記プール中の識別子核酸分子の存在または非存在が、前記記号列内の前記対応するそれぞれの記号位置の前記記号値を表す、請求項12に記載の方法。
  14. 連続する記号位置を有する前記記号が類似のデジタル情報を符号化する、請求項1〜13のいずれかに記載の方法。
  15. 前記M個の層の各々における成分核酸分子の数の分布が非均一である、請求項1〜14のいずれかに記載の方法。
  16. 前記第3の層が前記第1の層または前記第2の層のいずれかより多い成分核酸分子を含む場合、(d)における前記プールにアクセスするために使用されるPCRクエリが、前記第3の層が前記第1の層または前記第2の層のいずれかより少ない成分核酸分子を含む場合より大きいアクセスされた識別子核酸分子プールをもたらす、請求項15に記載の方法。
  17. 前記第3の層が前記第1の層または前記第2の層のいずれかより少ない成分核酸分子を含む場合、(d)におけるプールにアクセスするために使用されるPCRクエリが、前記第3の層が前記第1の層または前記第2の層のいずれかより多い成分核酸分子を含む場合よりアクセスされた識別子核酸分子の小さいプールをもたらし、前記アクセスされた識別子核酸分子のより小さいプールが、前記記号列における前記記号に対するアクセスのより高い分解能に対応する、請求項16に記載の方法。
  18. 前記第1の層が最高の優先順位を有し、前記第2の層が第2の高い優先順位を有し、残りのM−2個の層が前記第1および第2の末端分子の間の対応する成分核酸分子を有する、請求項1〜17のいずれかに記載の方法。
  19. (d)における前記プールを、1つのPCR反応において前記第1および第2の末端分子で特定の成分核酸分子を有する前記プール中の全ての識別子核酸分子にアクセスするために使用することができる、請求項18に記載の方法。
  20. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有し、前記デジタル情報がベクトルの集合体によって表されるイメージデータを含むステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルするステップによって第1の識別子核酸分子を形成するステップと、
    (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  21. 前記M個の層の少なくとも一部が、前記イメージデータの異なる特色に対応する、請求項20に記載の方法。
  22. 前記異なる特色が、x座標、y座標、および強度の値または強度の値の範囲を含む、請求項21に記載の方法。
  23. 前記イメージデータを核酸分子に記憶させるステップが、ランダムアクセススキームを使用して任意の近傍ピクセルをカラー値に関して問い合わせることを可能にする、請求項20〜22のいずれかに記載の方法。
  24. 前記イメージデータを核酸分子に記憶させるステップが、前記イメージデータを、前記イメージデータの元の分解能の分率で復号することを可能にする、請求項20〜23のいずれかに記載の方法。
  25. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有し、前記デジタル情報が、ベクトルの集合体によって表されるイメージデータを含むステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)各々が(1)第1および第2の末端分子、ならびに前記第1および第2の末端分子の間に位置する第3の分子を有し、(2)それぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップであって、単一のプローブが、前記記号列内の関連する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、少なくとも1つの追加の識別子核酸分子の前記第1の末端分子、第2の末端分子、および第3の分子のうちの少なくとも1つが(b)における前記第1の識別子核酸分子の標的分子と同一であるステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  26. 前記イメージデータを核酸分子に記憶させるステップが、前記イメージデータを、前記イメージデータの元の分解能の分率で復号することを可能にし、前記分率で前記イメージデータを復号することを使用して、目的のフレームを識別するために監視イメージのアーカイブまたはビデオアーカイブにおいて特定の視覚的特色に関して検索する、請求項25に記載の方法。
  27. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、 (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  28. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと、
    (e)前記プール中の回収された少なくとも一部のデータを削除するステップと
    を含む方法。
  29. (d)における前記プールからの選択識別子核酸分子を引き下げるために配列特異的プローブを使用して、データを選択的に削除するステップをさらに含む、請求項28に記載の方法。
  30. 前記選択識別子核酸分子がCRISPRに基づく方法を使用して選択的に削除される、請求項29に記載の方法。
  31. (d)におけるプール中の前記識別子核酸分子を不鮮明にして、データを非選択的に削除するステップをさらに含む、請求項28〜30のいずれかに記載の方法。
  32. 超音波、オートクレーブ、漂白剤、塩基、酸、臭化エチジウム、または他のDNA修飾剤による処理、放射線照射、燃焼、および非特異的ヌクレアーゼ消化を使用して、(d)における前記プールからの前記識別子核酸分子を分解して、データを非選択的に削除するステップをさらに含む、請求項28〜31のいずれかに記載の方法。
  33. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)前記記号列を、固定された長さ以下のサイズの1つまたは複数のブロックに分割するステップと、
    (c)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (d)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (e)粉末、液体、または固体形態を有するプール中の(c)および(d)における前記識別子核酸分子を回収するステップと
    を含む方法。
  34. 前記記号列に基づいて各ブロックのサイズを決定するステップ、必要条件を処理するステップ、または前記デジタル情報の意図される適用をさらに含む、請求項33に記載の方法。
  35. 各ブロックのハッシュを計算するステップをさらに含む、請求項33〜34のいずれかに記載の方法。
  36. 1つまたは複数のエラー検出補正を各ブロックに適用するステップおよび1つまたは複数のエラー保護バイトを計算するステップをさらに含む、請求項33〜35のいずれかに記載の方法。
  37. 1つまたは複数のブロックを、符号化または復号の際の化学条件を最適化するコードワードのセットにマッピングするステップをさらに含む、請求項33〜36のいずれかに記載の方法。
  38. 固定された数の識別子核酸分子がライターシステムにおける各反応コンパートメントにおいて、各反応コンパートメント内および反応コンパートメントを超えてほぼ等しい濃度でアセンブルされるように、コードワードのセットが固定された重みを有する、請求項37に記載の方法。
  39. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと、
    (e)(d)における前記識別子核酸分子を使用して前記記号列についてAND、OR、NOT、またはNANDを含むブール論理操作を伴う計算を実施して、新規核酸分子プールを産生するステップと
    を含む方法。
  40. 前記計算が、前記識別子核酸分子のいずれも復号することなく、(d)における識別子核酸分子の前記プールについて実施され、前記記号列における前記記号のいずれかを得る、請求項39に記載の方法。
  41. 前記計算を実施するステップが、ハイブリダイゼーションおよび切断を含む一連の化学操作を含む、請求項39〜40のいずれかに記載の方法。
  42. (a)における前記記号列がaと表示されてサブビットストリームsを含み、(d)における前記プール中の前記複数の識別子核酸分子が二本鎖でありdsAと表示され、前記方法が、dsBと表示されてサブビットストリームtを含むbと表示される別の記号列を表す別の複数の識別子核酸分子の別のプールを得るステップをさらに含み、前記計算がdsAおよびdsBについて一連のステップを実施することによってサブビットストリームsおよびtについて実施される、請求項39〜41のいずれかに記載の方法。
  43. dsAおよびdsBについての前記一連のステップが、
    (1)dsAにおける前記二本鎖識別子核酸分子を、Aと表示されるプラス鎖一本鎖型に変換するステップと、
    (2)dsAにおける前記二本鎖識別子核酸分子を、Aと表示されるマイナス鎖一本鎖型に変換するステップであって、AがAの逆相補鎖であるステップと、
    (3)dsBにおける前記二本鎖識別子核酸分子を、Bと表示されるプラス鎖一本鎖型に変換するステップと、
    (4)dsBにおける前記二本鎖識別子核酸分子を、Bと表示されるマイナス鎖一本鎖型に変換するステップであって、BがBの逆相補鎖であるステップと、
    (5)sに対応するdsAにおける識別子核酸分子としてdsPを選択するステップと、
    (6)sに対応するAにおける識別子核酸分子としてPを選択するステップと、
    (7)tに対応するdsBにおける識別子核酸分子としてdsQを選択するステップと、
    (8)tに対応するBにおける識別子核酸分子としてQを選択するステップと
    を含む初期設定ステップを実施するステップを含む、請求項42に記載の方法。
  44. (9)AまたはdsAを更新して、sに対応する識別子核酸分子を削除するステップと、
    (10)BまたはdsBを更新して、tに対応する識別子核酸分子を削除するステップと
    をさらに含む、請求項43に記載の方法。
  45. 前記計算がAND操作であり、dsAおよびdsBについての前記一連のステップが、
    (1)AおよびBを組み合わせるステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的二本鎖核酸分子を核酸分子の新規プールとして選択するステップによって、aとbとの間で前記AND操作を実施するステップ、または
    (2)PおよびQを組み合わせるステップ、相補的核酸分子をハイブリダイズさせるステップ、ならびに完全な相補的核酸分子を核酸分子の新規プールとして選択するステップによってsとtとの間で前記AND操作を実施するステップ
    をさらに含む、請求項42〜44のいずれかに記載の方法。
  46. 前記完全な相補的核酸分子を選択するステップが、クロマトグラフィー、ゲル電気泳動、一本鎖特異的エンドヌクレアーゼ、一本鎖特異的エキソヌクレアーゼ、またはその組合せを使用するステップを含む、請求項45に記載の方法。
  47. 前記計算がOR操作であり、dsAおよびdsBについての前記一連のステップが、
    (a)dsAおよびdsBを組み合わせることによってaとbとの間で前記OR操作を実施し、前記新規核酸分子プールを産生するステップ、または
    (b)dsPおよびdsQを組み合わせることによってsとtとの間で前記OR操作を実施し、前記新規核酸分子プールを産生するステップ
    をさらに含む、請求項42〜44のいずれかに記載の方法。
  48. AまたはdsAを更新して、前記新規核酸分子プールを含むステップをさらに含む、請求項44〜47のいずれかに記載の方法。
  49. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)複数の識別子核酸分子を形成するステップと、
    (d)(b)および(c)における前記識別子核酸分子を異なるビンに区分化するステップであって、各ビンが異なる記号値に対応するステップと
    を含む方法。
  50. 第1のタイプの記号のビンが、前記第1のタイプの記号を有する記号位置に対応する識別子核酸分子を含有する、請求項49に記載の方法。
  51. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分をコンパートメントに蓄積することであって、前記M個の選択された成分がM個の異なる層に分けられた区別可能な成分のセットから選択される、こと、および前記M個の選択された成分を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  52. 前記M個の選択された成分の個々の成分が複数の部分を含み、各部分が核酸分子を含み、各部分が、1つまたは複数の化学的方法によって同じ識別子に連結される、請求項51に記載の方法。
  53. 前記複数の部分が各々、異なるデータ記憶操作のために個別の機能的目的を果たす、請求項52に記載の方法。
  54. 前記機能的目的が、シークエンシングの容易さおよび核酸ハイブリダイゼーションによるアクセスの容易さを含む、請求項53に記載の方法。
  55. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)塩基エディターを適用することによって、親識別子における1つまたは複数の塩基をプログラム可能に突然変異させることによって、第1の識別子核酸分子を形成するステップと、
    (c)各識別子核酸分子がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  56. 前記塩基エディターがdCas9−デアミナーゼを含む、請求項55に記載の方法。
  57. 1つまたは複数のランダムプロセスから産生されたデジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)M個の選択された成分核酸分子をコンパートメントに蓄積することであって、前記M個の選択された成分核酸分子がM個の異なる層に分けられた区別可能な成分核酸分子のセットから選択される、こと、および前記M個の選択された成分核酸分子を物理的にアセンブルすることによって第1の識別子核酸分子を形成するステップと、
    (c)各々がそれぞれの記号位置に対応する、複数の識別子核酸分子を形成するステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
  58. 適用が、情報の暗号化、エンティティの認証、または無作為化を伴う適用におけるエントロピー源としてのその使用を含む、請求項57に記載の方法の適用。
  59. 1つまたは複数の分離している識別子ライブラリーからの識別子核酸分子を使用してエンティティまたは物理的位置を一意に識別する、請求項51または57に記載の方法の適用。
  60. 複数のランダムDNA種のパーティションにおいてデジタル情報を符号化するための方法。
  61. 可能なDNA種の大きい組合せプールからDNA種を無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成する方法。
  62. 可能なDNA種の大きい組合せプールからDNA種のサブセットを無作為にサンプリングおよびシークエンシングすることによってランダムデータを生成および記憶させる方法。
  63. 前記DNA種のサブセットが増幅されて、各々の種の複数のコピーを作製する、請求項62に記載の方法。
  64. エラー調査および補正のための核酸分子を前記DNA種のサブセットに追加して頑強な将来の読み出しを可能にする、請求項62〜63のいずれかに記載の方法。
  65. 前記DNA種のサブセットを、一意の分子によってバーコード化し、DNA種のバーコード化サブセットのプールにおいて組み合わせる、請求項62に記載の方法。
  66. 前記DNA種のバーコード化サブセットのプール中のDNA種の特定のサブセットが、PCRまたは核酸捕捉のための入力核酸プローブによってアクセス可能である、請求項65に記載の方法。
  67. (1)規定のセットからのDNA種のサブセットで構成されるDNAキー、および(2)キーを承認して、アーチファクトを局所でロック解除するためにマッチするキーを検索するか、または他のアーチファクトにアクセスするためにハッシュされたトークンを返却するDNAリーダー
    を含むシステムによってアーチファクトを保証および認証する方法。
  68. デジタル情報を核酸分子に記憶させる方法であって、
    (a)前記デジタル情報を記号列として受信するステップであって、前記記号列における各記号が、前記記号列内で記号値および記号位置を有するステップと、
    (b)
    (1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記M個の層の各々からの1つの成分核酸分子を選択するステップ、
    (2)前記M個の選択された成分核酸分子をコンパートメントに蓄積するステップ、
    (3)(2)における前記M個の選択された成分核酸分子を物理的にアセンブルして、指定成分を含む第1の識別子核酸分子を形成するステップであって、前記指定成分が、前記指定成分を含有する前記第1の識別子核酸分子のアクセスを可能にするために少なくとも1つの標的分子を含むステップ
    によって前記第1の識別子核酸分子を形成するステップと、
    (c)各々が前記指定成分を有する、複数の追加の識別子核酸分子を物理的にアセンブルするステップであって、プローブが、前記記号列内の連続する記号位置を有するそれぞれの記号に対応する少なくとも2つの識別子核酸分子を選択することが可能となるように、前記指定成分が、(b)における前記第1の識別子核酸分子の前記少なくとも1つの標的分子を含むステップと、
    (d)粉末、液体、または固体形態を有するプール中の(b)および(c)における前記識別子核酸分子を回収するステップと
    を含む方法。
JP2020564340A 2018-05-16 2019-05-16 核酸ベースのデータ記憶のための組成物および方法 Pending JP2021524229A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862672495P 2018-05-16 2018-05-16
US62/672,495 2018-05-16
PCT/US2019/032756 WO2019222561A1 (en) 2018-05-16 2019-05-16 Compositions and methods for nucleic acid-based data storage

Publications (2)

Publication Number Publication Date
JP2021524229A true JP2021524229A (ja) 2021-09-13
JPWO2019222561A5 JPWO2019222561A5 (ja) 2022-05-24

Family

ID=66770581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564340A Pending JP2021524229A (ja) 2018-05-16 2019-05-16 核酸ベースのデータ記憶のための組成物および方法

Country Status (7)

Country Link
US (2) US20200193301A1 (ja)
EP (1) EP3794598A1 (ja)
JP (1) JP2021524229A (ja)
KR (1) KR20210029147A (ja)
AU (1) AU2019270159A1 (ja)
CA (1) CA3100529A1 (ja)
WO (1) WO2019222561A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3542295A4 (en) 2016-11-16 2020-10-21 Catalog Technologies, Inc. SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
WO2019178551A1 (en) 2018-03-16 2019-09-19 Catalog Technologies, Inc. Chemical methods for nucleic acid-based data storage
US11249941B2 (en) * 2018-12-21 2022-02-15 Palo Alto Research Center Incorporated Exabyte-scale data storage using sequence-controlled polymers
CA3139819A1 (en) 2019-05-09 2020-11-12 Catalog Technologies, Inc. Data structures and operations for searching, computing, and indexing in dna-based data storage
US20210049491A1 (en) * 2019-08-12 2021-02-18 International Business Machines Corporation Qubit sensory representation
US11535842B2 (en) 2019-10-11 2022-12-27 Catalog Technologies, Inc. Nucleic acid security and authentication
AU2021271639A1 (en) 2020-05-11 2022-12-08 Catalog Technologies, Inc. Programs and functions in DNA-based data storage
US20230317164A1 (en) * 2020-09-08 2023-10-05 Catalog Technologies, Inc. Systems and methods for writing by sequencing of nucleic acids
WO2022066637A1 (en) 2020-09-22 2022-03-31 Catalog Technologies, Inc. Temperature-controlled fluidic reactions system
AU2022390024A1 (en) * 2021-11-19 2024-05-16 Catalog Technologies, Inc. Nucleic acid storage for blockchain and non-fungible tokens
WO2023195822A1 (en) * 2022-04-08 2023-10-12 Seegene, Inc. Method for providing user interface and device therefor
CN116030895A (zh) * 2022-12-13 2023-04-28 中国科学院深圳先进技术研究院 一种基于天然和非天然碱基的dna信息存储方法
WO2024132107A1 (en) * 2022-12-20 2024-06-27 Ribbon Biolabs Gmbh Ligation of oligonucleotides

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080523A (ja) * 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
JP2013543728A (ja) * 2010-10-29 2013-12-09 プレジデント アンド フェロウズ オブ ハーバード カレッジ 核酸ナノ構造バーコードプローブ
WO2017189914A1 (en) * 2016-04-27 2017-11-02 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage

Family Cites Families (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032048A1 (en) 1988-05-03 2005-02-10 Oxford Gene Technology Limited Analyzing polynucleotide sequences
US6030657A (en) 1994-11-01 2000-02-29 Dna Technologies, Inc. Labeling technique for countering product diversion and product counterfeiting
IL131978A0 (en) 1997-03-20 2001-03-19 Univ Washington Solvent for biopolymer synthesis solvent microdots and methods of use
US6419883B1 (en) 1998-01-16 2002-07-16 University Of Washington Chemical synthesis using solvent microdroplets
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6537747B1 (en) 1998-02-03 2003-03-25 Lucent Technologies Inc. Data transmission using DNA oligomers
US6187537B1 (en) 1998-04-27 2001-02-13 Donald E. Zinn, Jr. Process and apparatus for forming a dry DNA transfer film, a transfer film product formed thereby and an analyzing process using the same
US6458583B1 (en) 1998-09-09 2002-10-01 Agilent Technologies, Inc. Method and apparatus for making nucleic acid arrays
US6309828B1 (en) 1998-11-18 2001-10-30 Agilent Technologies, Inc. Method and apparatus for fabricating replicate arrays of nucleic acid molecules
US6221653B1 (en) 1999-04-27 2001-04-24 Agilent Technologies, Inc. Method of performing array-based hybridization assays using thermal inkjet deposition of sample fluids
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6446642B1 (en) 1999-11-22 2002-09-10 Agilent Technologies, Inc. Method and apparatus to clean an inkjet reagent deposition device
CN100485032C (zh) 2001-05-11 2009-05-06 松下电器产业株式会社 生物分子基底,使用它的检验和诊断方法及装置
WO2003025123A2 (en) 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
JP2005503813A (ja) 2001-09-25 2005-02-10 独立行政法人理化学研究所 オリゴマー及び/又はポリマーを適用した支持体を含む印刷物、その製造方法、ならびにその配送及び/又は保管方法
US7361310B1 (en) 2001-11-30 2008-04-22 Northwestern University Direct write nanolithographic deposition of nucleic acids from nanoscopic tips
US20030116630A1 (en) 2001-12-21 2003-06-26 Kba-Giori S.A. Encrypted biometric encoded security documents
US6773888B2 (en) 2002-04-08 2004-08-10 Affymetrix, Inc. Photoactivatable silane compounds and methods for their synthesis and use
WO2003101736A2 (en) 2002-05-29 2003-12-11 Arizona Board Of Regents, Acting On Behalf Of Arizona State University Nanoscale ink-jet printing
US20040043390A1 (en) 2002-07-18 2004-03-04 Asat Ag Applied Science & Technology Use of nucleotide sequences as carrier of cultural information
US8071168B2 (en) 2002-08-26 2011-12-06 Nanoink, Inc. Micrometric direct-write methods for patterning conductive material and applications to flat panel display repair
US7491422B2 (en) 2002-10-21 2009-02-17 Nanoink, Inc. Direct-write nanolithography method of transporting ink with an elastomeric polymer coated nanoscopic tip to form a structure having internal hollows on a substrate
DE10308931A1 (de) 2003-02-28 2004-09-23 Apibio Sas System und Verfahren zur Synthese von Polymeren
US6943417B2 (en) 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
KR101239466B1 (ko) 2003-10-14 2013-03-07 베르선 코포레이션 분자 분해를 위한 방법 및 장치
US20050239102A1 (en) 2003-10-31 2005-10-27 Verdine Gregory L Nucleic acid binding oligonucleotides
DE102005012567B4 (de) 2005-03-04 2008-09-04 Identif Gmbh Markierungslösung, deren Verwendung und Verfahren zu ihrer Herstellung
EP1752213A1 (en) 2005-08-12 2007-02-14 Samsung Electronics Co., Ltd. Device for printing droplet or ink on substrate or paper
WO2007042966A2 (en) 2005-10-07 2007-04-19 Koninklijke Philips Electronics N.V. Inkjet device and method for the controlled positioning of droplets of a substance onto a substrate
US20080252679A1 (en) 2005-10-07 2008-10-16 Koninklijke Philips Electronics, N.V. Ink Jet Device for the Controlled Positioning of Droplets of a Substance Onto a Substrate, Method for the Controlled Positioning of Droplets of a Substrate, and Use of an Ink Jet Device
EP1782886A1 (en) 2005-11-02 2007-05-09 Sony Deutschland GmbH A method of patterning molecules on a substrate using a micro-contact printing process
JP2009517198A (ja) 2005-11-28 2009-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基板上に複数の物質を制御可能に放出するインクジェット装置、複数の物質同士を識別する方法、およびインクジェット装置の使用
JP2009520598A (ja) 2005-12-22 2009-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基板上に物質を位置付けるインクジェット装置、基板の上に物質を位置付ける方法、及び、インクジェット装置の使用
US20090033690A1 (en) 2006-01-12 2009-02-05 Koninklijke Philips Electronics N.V. Ink jet device and method for releasing a plurality of substances onto a substrate
CA2649725A1 (en) 2006-04-19 2007-10-25 Applera Corporation Reagents, methods, and libraries for gel-free bead-based sequencing
CN101516493A (zh) 2006-09-21 2009-08-26 皇家飞利浦电子股份有限公司 喷墨设备以及通过向衬底上释放多个物质以制造生物测定衬底的方法
BRPI0718223A2 (pt) 2006-10-30 2013-11-12 Koninkl Philips Electronics Nv Substrato de ensaio biológico poroso, métodos para produzir um substrato de ensaio biológico e para examinar fluidos de analito, e, dispositivo de jato de tinta para produzir um substrato de ensaio biológico
WO2008141048A1 (en) 2007-05-09 2008-11-20 Nanoink, Inc. Compact nanofabrication apparatus
EP2170501A2 (en) 2007-06-20 2010-04-07 Northwestern University Universal matrix
US9061494B2 (en) 2007-07-19 2015-06-23 The Board Of Trustees Of The University Of Illinois High resolution electrohydrodynamic jet printing for manufacturing systems
US9684678B2 (en) 2007-07-26 2017-06-20 Hamid Hatami-Hanza Methods and system for investigation of compositions of ontological subjects
US8452725B2 (en) 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
CZ301799B6 (cs) 2007-07-30 2010-06-23 Kencl@Lukáš Zpusob úpravy datové informace v systému
EP2190673B1 (en) 2007-08-20 2011-10-19 Moore Wallace North America, Inc. Compositions compatible with jet printing and methods therefor
DE102007057802B3 (de) 2007-11-30 2009-06-10 Geneart Ag Steganographische Einbettung von Informationen in kodierenden Genen
JP5171346B2 (ja) 2008-03-28 2013-03-27 株式会社日立ハイテクノロジーズ 文字列検索システム及び方法
EA201170424A1 (ru) 2008-09-10 2011-10-31 Дейталейз Лтд. Многоцветные коды
WO2010029629A1 (ja) 2008-09-11 2010-03-18 長浜バイオラボラトリー株式会社 Dna含有インク組成物
US8769689B2 (en) 2009-04-24 2014-07-01 Hb Gary, Inc. Digital DNA sequence
US8806127B2 (en) 2009-10-26 2014-08-12 Genisyss Llc Data storage device with integrated DNA storage media
US20110269119A1 (en) 2009-10-30 2011-11-03 Synthetic Genomics, Inc. Encoding text into nucleic acid sequences
US8735327B2 (en) 2010-01-07 2014-05-27 Jeansee, Llc Combinatorial DNA taggants and methods of preparation and use thereof
US9187777B2 (en) 2010-05-28 2015-11-17 Gen9, Inc. Methods and devices for in situ nucleic acid synthesis
US20110312744A1 (en) 2010-06-17 2011-12-22 Geneasys Pty Ltd Microfluidic device for amplifying mitochondrial dna in a biological sample
US9114399B2 (en) 2010-08-31 2015-08-25 Canon U.S. Life Sciences, Inc. System and method for serial processing of multiple nucleic acid assays
DK2630263T4 (da) 2010-10-22 2022-02-14 Cold Spring Harbor Laboratory Varital tælling af nucleinsyrer for at opnå information om antal genomiske kopier
US20120329561A1 (en) 2010-12-09 2012-12-27 Genomic Arts, LLC System and methods for generating avatars and art
KR101345337B1 (ko) 2011-06-13 2013-12-30 한국생명공학연구원 원자간력 현미경(afm)을 이용한 딥-펜 나노리소그래피에서의 단일 또는 다중팁을 이용한 나노포지셔닝 기판 제조장치 및 제조방법
ES2659343T3 (es) 2011-07-20 2018-03-14 The Regents Of The University Of California Dispositivo de poro dual
US20130253839A1 (en) * 2012-03-23 2013-09-26 International Business Machines Corporation Surprisal data reduction of genetic data for transmission, storage, and analysis
WO2013170009A1 (en) 2012-05-09 2013-11-14 Applied Dna Sciences, Inc. Verification of physical encryption taggants uning digital representatives and authentications thereof
DK2856375T3 (en) 2012-06-01 2018-11-05 European Molecular Biology Laboratory High capacity storage of digital information in DNA
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US9266370B2 (en) 2012-10-10 2016-02-23 Apdn (B.V.I) Inc. DNA marking of previously undistinguished items for traceability
US8937564B2 (en) 2013-01-10 2015-01-20 Infinidat Ltd. System, method and non-transitory computer readable medium for compressing genetic information
EP2953524B1 (en) 2013-02-06 2018-08-01 Freenome Holdings Inc. Systems and methods for early disease detection and real-time disease monitoring
KR102245192B1 (ko) 2013-05-06 2021-04-29 온테라 인크. 나노포어를 이용한 표적 검출
CA2926436A1 (en) 2013-10-07 2015-04-16 Judith Murrah Multimode image and spectral reader
WO2015144858A1 (en) 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
US10020826B2 (en) 2014-04-02 2018-07-10 International Business Machines Corporation Generating molecular encoding information for data storage
US20150312212A1 (en) 2014-04-24 2015-10-29 David Holmes Holistic embodiment of dna and ipv6
EP2958238A1 (en) 2014-06-17 2015-12-23 Thomson Licensing Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
KR101788673B1 (ko) 2014-06-24 2017-11-15 싸이퍼롬, 인코퍼레이티드 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
US20170218228A1 (en) 2014-07-30 2017-08-03 Tufts University Three Dimensional Printing of Bio-Ink Compositions
WO2016015701A1 (de) 2014-07-31 2016-02-04 Schebo Biotech Ag Vorrichtung zur bioanalytik, deren herstellung und verfahren zum nachweis von bioanalyten mittels der vorrichtung
EP2983297A1 (en) 2014-08-08 2016-02-10 Thomson Licensing Code generation method, code generating apparatus and computer readable storage medium
JP2017532015A (ja) 2014-08-28 2017-11-02 エーピーディーエヌ(ビー・ヴイ・アイ)・インコーポレイテッド 現場におけるdnaの抽出、検出及び認証の方法並びにそのためのシステム
KR102068451B1 (ko) 2014-09-03 2020-01-20 난트헬쓰, 인코포레이티드 합성 게놈 변형-기반의 보안 트랜잭션 디바이스들, 시스템들 및 방법들
SG11201703138RA (en) 2014-10-18 2017-05-30 Girik Malik A biomolecule based data storage system
EP3215895B1 (de) 2014-11-03 2022-02-23 Universität Osnabrück Verfahren zur durchführung eines kapillar-nanodrucks, feld von tintentropfen und feld von drähten erhältlich nach dem verfahren
EP3221341B1 (en) 2014-11-20 2020-07-29 Cytonics Corporation Therapeutic variant alpha-2-macroglobulin compositions
US11164661B2 (en) 2015-04-10 2021-11-02 University Of Washington Integrated system for nucleic acid-based storage and retrieval of digital data using keys
US10385387B2 (en) 2015-04-20 2019-08-20 Pacific Biosciences Of California, Inc. Methods for selectively amplifying and tagging nucleic acids
US10589273B2 (en) 2015-05-08 2020-03-17 Illumina, Inc. Cationic polymers and method of surface application
US10423341B1 (en) 2015-06-12 2019-09-24 Bahram Ghaffarzadeh Kermani Accurate and efficient DNA-based storage of electronic data
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
EP3322812B1 (en) 2015-07-13 2022-05-18 President and Fellows of Harvard College Methods for retrievable information storage using nucleic acids
KR20180058772A (ko) 2015-09-22 2018-06-01 트위스트 바이오사이언스 코포레이션 핵산 합성을 위한 가요성 기판
US20170093851A1 (en) 2015-09-30 2017-03-30 Aetna Inc. Biometric authentication system
US20170136452A1 (en) 2015-11-13 2017-05-18 SoluDot LLC Method for high throughput dispensing of biological samples
US10566077B1 (en) 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
US10047235B2 (en) 2015-12-08 2018-08-14 Xerox Corporation Encoding liquid ink with a device specific biomarker
WO2017151195A1 (en) 2016-02-29 2017-09-08 The Penn State Research Foundation Nucleic acid molecular diagnosis
US10438662B2 (en) 2016-02-29 2019-10-08 Iridia, Inc. Methods, compositions, and devices for information storage
US10640822B2 (en) * 2016-02-29 2020-05-05 Iridia, Inc. Systems and methods for writing, reading, and controlling data stored in a polymer
WO2017184677A1 (en) 2016-04-21 2017-10-26 President And Fellows Of Harvard College Method and system of nanopore-based information encoding
US10839295B2 (en) 2016-05-04 2020-11-17 Bgi Shenzhen Method for using DNA to store text information, decoding method therefor and application thereof
CN109477130B (zh) 2016-07-01 2022-08-30 微软技术许可有限责任公司 通过迭代dna编辑的存储
EP3426793A4 (en) 2016-07-22 2019-03-27 Hewlett-Packard Development Company, L.P. METHOD FOR PREPARING TEST SAMPLES
JP2019521713A (ja) 2016-07-22 2019-08-08 ヌクレオトレイス プロプライアタリー リミティド 核酸配列の増幅方法
US20190194484A1 (en) 2016-09-08 2019-06-27 Thomas Villwock Methods and systems for authenticating goods using analyte encoded security fluids
WO2018057526A2 (en) 2016-09-21 2018-03-29 Twist Bioscience Corporation Nucleic acid based data storage
US10370246B1 (en) 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
EP3532965A1 (en) 2016-10-28 2019-09-04 Integrated DNA Technologies Inc. Dna data storage using reusable nucleic acids
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
EP3542295A4 (en) 2016-11-16 2020-10-21 Catalog Technologies, Inc. SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE
US10853244B2 (en) 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
US10417208B2 (en) 2016-12-15 2019-09-17 Sap Se Constant range minimum query
US10984029B2 (en) 2016-12-15 2021-04-20 Sap Se Multi-level directory tree with fixed superblock and block sizes for select operations on bit vectors
KR102622275B1 (ko) 2017-01-10 2024-01-05 로스웰 바이오테크놀로지스 인코포레이티드 Dna 데이터 저장을 위한 방법들 및 시스템들
US10787699B2 (en) 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
US10793897B2 (en) 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
WO2018148458A1 (en) 2017-02-08 2018-08-16 Essenlix Corp. Digital assay
WO2018148260A1 (en) 2017-02-13 2018-08-16 Thomson Licensing Apparatus, method and system for digital information storage in deoxyribonucleic acid (dna)
US10920274B2 (en) 2017-02-21 2021-02-16 Apdn (B.V.I.) Inc. Nucleic acid coated submicron particles for authentication
CN118116478A (zh) 2017-02-22 2024-05-31 特韦斯特生物科学公司 基于核酸的数据存储
US10774379B2 (en) 2017-03-15 2020-09-15 Microsoft Technology Licensing, Llc Random access of data encoded by polynucleotides
CN111033521A (zh) 2017-05-16 2020-04-17 雅腾帝卡(私人)有限公司 用于文化制品的分析的数字数据细节处理
US10742233B2 (en) 2017-07-11 2020-08-11 Erlich Lab Llc Efficient encoding of data for storage in polymers such as DNA
US11539516B2 (en) 2017-10-27 2022-12-27 Eth Zurich Encoding and decoding information in synthetic DNA with cryptographic keys generated based on polymorphic features of nucleic acids
US10940171B2 (en) 2017-11-10 2021-03-09 Massachusetts Institute Of Technology Microbial production of pure single stranded nucleic acids
WO2019136175A1 (en) 2018-01-04 2019-07-11 Twist Bioscience Corporation Dna-based digital information storage
SG11202008929WA (en) 2018-03-15 2020-10-29 Twinstrand Biosciences Inc Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
WO2019178551A1 (en) 2018-03-16 2019-09-19 Catalog Technologies, Inc. Chemical methods for nucleic acid-based data storage
KR102138864B1 (ko) 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
US10956806B2 (en) 2019-06-10 2021-03-23 International Business Machines Corporation Efficient assembly of oligonucleotides for nucleic acid based data storage
US10917109B1 (en) 2020-03-06 2021-02-09 Centre National De La Recherche Scientifique Methods for storing digital data as, and for transforming digital data into, synthetic DNA

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080523A (ja) * 2003-09-05 2005-03-31 Sony Corp 生体遺伝子に導入するdna、遺伝子導入ベクター、細胞、生体遺伝子への情報導入方法、情報処理装置および方法、記録媒体、並びにプログラム
JP2013543728A (ja) * 2010-10-29 2013-12-09 プレジデント アンド フェロウズ オブ ハーバード カレッジ 核酸ナノ構造バーコードプローブ
WO2017189914A1 (en) * 2016-04-27 2017-11-02 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"DNA-BASED STORAGE: TRENDS AND METHODS", IEEE TRANSACTIONS ON MOLECULAR, BIOLOGICAL AND MULTI-SCALE COMMUNICATIONS, vol. VOL:1, NR:3, JPN5021009537, September 2015 (2015-09-01), pages 230 - 248, ISSN: 0005061998 *

Also Published As

Publication number Publication date
EP3794598A1 (en) 2021-03-24
US20200193301A1 (en) 2020-06-18
AU2019270159A1 (en) 2020-12-03
US11227219B2 (en) 2022-01-18
WO2019222561A1 (en) 2019-11-21
CA3100529A1 (en) 2019-11-21
US20210209479A1 (en) 2021-07-08
KR20210029147A (ko) 2021-03-15

Similar Documents

Publication Publication Date Title
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
US11379729B2 (en) Nucleic acid-based data storage
JP7179008B2 (ja) 核酸ベースのデータ記憶
JP7364604B2 (ja) 核酸ベースのデータ記憶のための化学的方法
US20230308275A1 (en) Nucleic acid storage for blockchain and non-fungible tokens
KR20230160898A (ko) 고정 소수점 숫자 표현 및 계산 회로
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage
JP2023546330A (ja) 温度制御流体反応システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220516

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230519

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230815

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240410