JP2024514430A - 固定小数点数表現及び計算回路 - Google Patents

固定小数点数表現及び計算回路 Download PDF

Info

Publication number
JP2024514430A
JP2024514430A JP2023557329A JP2023557329A JP2024514430A JP 2024514430 A JP2024514430 A JP 2024514430A JP 2023557329 A JP2023557329 A JP 2023557329A JP 2023557329 A JP2023557329 A JP 2023557329A JP 2024514430 A JP2024514430 A JP 2024514430A
Authority
JP
Japan
Prior art keywords
nucleic acid
identifier
identifiers
components
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023557329A
Other languages
English (en)
Inventor
ピー. バティア,スワップニル
ノースワージー,マイケル
カンバラ,トレイシー
Original Assignee
カタログ テクノロジーズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カタログ テクノロジーズ, インコーポレイテッド filed Critical カタログ テクノロジーズ, インコーポレイテッド
Publication of JP2024514430A publication Critical patent/JP2024514430A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0009RRAM elements whose operation depends upon chemical change
    • G11C13/0014RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
    • G11C13/0019RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising bio-molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Error Detection And Correction (AREA)

Abstract

【課題】本開示は、種々の方法でデジタル情報を核酸分子に格納するためのシステム及び方法を提供する。【解決手段】デジタル情報は、記号列として受信され得、記号列中の各記号は、記号値及び記号列内の記号位置を有する。第1の識別子核酸分子は、M個の選択された成分核酸分子を区画内に配置することであって、M個の選択された成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、配置することと、M個の選択された成分核酸分子を物理的に組み立てることと、によって形成され得る。それぞれの記号位置にそれぞれ対応する複数の識別子核酸分子が形成され得る。識別子核酸分子は、粉体、液体又は固体形態を有するプールにおいて形成され得る。【選択図】図40

Description

関連出願の相互参照
[0001] 本願は、2021年3月24日付けで出願された「FIXED POINT NUMBER REPRESENTATION AND COMPUTATION CIRCUITS」という名称の米国仮特許出願第63/165,507号に対する優先権及びその利益を主張するものである。
背景
[0002] 核酸デジタルデータ格納は、情報を符号化して長期間にわたって格納するための安定した手法であり、データは、磁気テープ又はハードドライブ格納システムよりも高密度で格納される。さらに、低温乾燥条件で格納されている核酸分子に格納されたデジタルデータは、60,000年以上という長期にわたり検索することができる。
[0003] 核酸分子に格納されたデジタルデータにアクセスするために、核酸分子はシーケンシングされ得る。したがって、核酸デジタルデータ格納は、頻繁にはアクセスされないが、大量の情報を長期にわたって格納又はアーカイブし得るデータの格納に理想的な方法であり得る。
[0004] 現行の方法は、配列中の塩基間関係がデジタル情報(例えば、2進コード)に直接翻訳されるように、デジタル情報(例えば、2進コード)を塩基毎に核酸配列に符号化することに依存する。塩基毎の核酸デノボ合成のコストが高いことがあるため、デジタル的に符号化された情報のビットストリーム又はバイトに読み込むことができる塩基毎の配列に格納されたデジタルデータのシーケンシングは、エラーを受けやすく、符号化にコストがかかる恐れがある。核酸デジタルデータ格納を実行する新しい方法の機会は、コストがより低く、商業的な実施がより容易である、データを符号化し、検索する手法を提供し得る。
概要
[0005] 本開示は、種々の方法でデジタル情報を核酸分子に格納して、デジタル情報の検索及びアクセスの効率を改善するためのシステム及び方法を提供する。例えば、成分核酸分子(例えば、成分)が選択されて互いに連結されて、識別子核酸分子(例えば、識別子)を形成し、各識別子核酸分子は、特定の記号(例えば、ビット又は一連のビット)又は記号列(例えば、ビットストリーム)中のその記号の位置(例えば、ランク又はアドレス)に対応する。それらの成分は、デジタルデータを表すための効率的な方式を提供するように構造的に編成され得る。例えば、成分の構造は、複数の成分分子が同じ区画に配置又は分注された後、成分分子を自己組織化又は他の方法で所定の順序でそれら自体をソートさせ得る。
[0006] 一態様において、本開示は、情報を核酸配列に書き込む方法を提供する。本方法は、第1の固定小数点数を取得することを含む。本方法は、成分核酸配列の順序付きサブセットをそれぞれ含む識別子核酸配列の組合せ空間を規定する成分核酸配列のライブラリを取得することを含む。本方法は、組合せ空間中の識別子核酸配列の第1のサブセットを、第1のサブセット中の識別子核酸配列の数に対応するコードワードサイズを有する第1のコードワードとして識別することを含む。本方法は、第1のサブセットの別個の識別子核酸配列を有する1つ又は複数の識別子核酸分子の第1のセットを形成することであって、第1のセットにおいて表される別個の識別子核酸配列の数の、コードワードサイズに対する比率は、第1の固定小数点数を近似する、形成することを含む。
[0007] 幾つかの実装形態では、成分核酸配列のライブラリは、複数の層を含み、各層は、成分核酸配列のサブセットを含む。各識別子核酸配列は、各層からの1つの成分核酸配列を含み得る。
[0008] 幾つかの実装形態では、第1の固定小数点数は、値xを有し、コードワードサイズは、wであり、かつ、k個の識別子核酸分子は、比率がk/wであり、かつ、xにおよそ等しいように第1のセットにおいて形成される。幾つかの実装形態では、k/wは、xのプラス又はマイナス20%以内である。幾つかの実装形態では、コードワードサイズは、少なくとも8である。幾つかの実装形態では、コードワードサイズは、少なくとも256である。幾つかの実装形態では、コードワードサイズは、少なくとも512である。幾つかの実装形態では、コードワードサイズは、少なくとも1024である。
[0009] 幾つかの実装形態では、本方法は、第2の固定小数点数を取得することと、組合せ空間中の識別子核酸配列の第2のサブセットを、第1のコードワードのコードワードサイズを有し、かつ、第2のサブセット中の識別子核酸配列の数に対応する第2のコードワードとして識別することと、第2のサブセットの別個の識別子核酸配列を有する1つ又は複数の識別子核酸分子の第2のセットを形成することとを含む。第2のセット中の別個の識別子核酸配列の数の、コードワードサイズに対する比率は、第2の固定小数点数を近似することができる。
[0010] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、合算プールを取得することと、プールされたセットを希釈して、スケーリングされた合算プールを取得することとにより、第1の固定小数点数及び第2の固定小数点数を合計することを含む。
[0011] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、因子プールを取得することと、化学的AND演算を識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することとにより、第1の固定小数点数及び第2の固定小数点数を乗算することを含む。
[0012] 幾つかの実装形態では、化学的AND演算は、識別子核酸分子を1本鎖識別子核酸分子に変換することと、相補的識別子核酸分子をハイブリダイズすることと、完全にハイブリダイズされた2本鎖核酸分子を選択して、積プールを取得することとを含む。
[0013] 幾つかの実装形態では、選択することは、1本鎖核酸分子を選択的に分解する酵素又は配列ミスマッチを有する2本鎖核酸分子を選択的に分解する酵素の少なくとも1つを使用することを含む。
[0014] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、因子プールを取得することと、化学的OR演算を識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、本方法は、第1のセット及び第2のセットを混合することを含む。
[0015] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、因子プールを取得することと、化学的NIMPLY演算を識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的NIMPLY演算は、識別子核酸分子を1本鎖識別子核酸分子に変換することであって、第2のセットの1本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、第2のセットの1本鎖識別子核酸分子のモル過剰を提供することと、相補的識別子核酸分子をハイブリダイズすることと、アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた2本鎖核酸分子を選択して、積プールを取得することとを含む。
[0016] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、因子プールを取得することと、化学的NOT演算を識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的NOT演算は、識別子核酸分子を1本鎖識別子核酸分子に変換することであって、第1のセットの1本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、第1のセットの1本鎖識別子核酸分子のモル過剰を提供することと、相補的識別子核酸分子をハイブリダイズすることと、アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた2本鎖核酸分子を選択して、積プールを取得することとを含む。
[0017] 幾つかの実装形態では、本方法は、第1のセット及び第2のセットをプールして、因子プールを取得することと、化学的XOR演算を識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することとを含む。幾つかの実装形態では、化学的XOR演算は、2つのNIMPLY演算を実行し、それに続いてOR演算を実行することを含む。
参照による援用
[0018] 本明細書で触れられる全ての公開特許、特許及び特許出願は、個々の各公開特許、特許又は特許出願が特に個々に参照により援用されると示されているかのような程度と同程度まで参照により本明細書に援用される。参照により援用される公開特許及び特許又は特許出願が、本明細書に含まれる開示と矛盾する限り、本明細書が任意のそのような矛盾する事項に取って代わり、及び/又はそれに優先することが意図される。
図面の簡単な説明
[0019] 本発明の新規の特徴が特に添付の特許請求の範囲に記載される。本発明の原理が利用される例示的な実施形態を記載する以下の詳細な説明及び添付図面(本発明ではまた「図(Figure)」及び「図(FIG.)」)を参照することにより、本発明の特徴及び利点をよりよい理解が得られであろう。
[0020]核酸配列に格納されたデジタル情報の符号化、書込み、アクセス、クエリ、読取り及び復号化を行うプロセスの全体像を概略的に示す。 [0021]オブジェクト又は識別子(例えば、核酸分子)を使用して、「データアットアドレス」と呼ばれるデジタルデータを符号化する一例の方法を概略的に示し、識別子を作成するためのバイト値オブジェクト(又はデータオブジェクト)とランクオブジェクト(又はアドレスオブジェクト)を組み合わせることを示す。 [0021]オブジェクト又は識別子(例えば、核酸分子)を使用して、「データアットアドレス」と呼ばれるデジタルデータを符号化する一例の方法を概略的に示し、ランクオブジェクト及びバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるデータアットアドレス方法の一実施形態を示す。 [0022]オブジェクト又は識別子(例えば、核酸配列)を使用してデジタル情報を符号化する一例の方法を概略的に示す図であり、ランクオブジェクトを識別子として使用してデジタル情報を符号化することを示す。 [0022]オブジェクト又は識別子(例えば、核酸配列)を使用してデジタル情報を符号化する一例の方法を概略的に示す図であり、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の実施形態を示す。 [0023]所与のサイズ(等高線)の情報を格納するように構築し得る可能な識別子の組合せ空間(C、x軸)と識別子の平均数(k、y軸)との間の関係の対数空間における等高線図を示す。 [0024]核酸配列(例えば、デオキシリボ核酸)に情報を書き込む方法の全体像を概略的に示す。 [0025]別個の成分(例えば、核酸配列)を組合せにより組み立てることにより、識別子(例えば、核酸分子)を構築するための「産物方式」と呼ばれる一例の方法を示し、産物方式を使用して構築された識別子のアーキテクチャを示す。 [0025]別個の成分(例えば、核酸配列)を組合せにより組み立てることにより、識別子(例えば、核酸分子)を構築するための「産物方式」と呼ばれる一例の方法を示し、産物方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0026]成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するためのオーバーラップ伸長ポリメラーゼ連鎖反応の使用を概略的に示す。 [0027]成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための粘着末端ライゲーションの使用を概略的に示す。 [0028]成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するためのリコンビナーゼアセンブリの使用を概略的に示す。 [0029]鋳型指向ライゲーションを実証し、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための鋳型指向ライゲーションの使用を概略的に示す。 [0029]鋳型指向ライゲーションを実証し、1つのプールされた鋳型指向ライゲーション反応において6つの核酸配列(例えば、成分)から組合せにより各々組み立てられた256個の別個の核酸配列のコピー数(存在度)のヒストグラムを示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列方式を使用して構築された識別子のアーキテクチャを示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを用いる順列方式の一実装形態例を示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、順列され、繰り返される成分を有する識別子を構築するために、図11Cからの実装形態をどのように変更し得るかの一例を示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、図11Dからの実装形態例が、核酸サイズ選択を用いて除去し得る不要な副産物にどのように繋がり得るかを示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーション及びサイズ選択をどのように使用して、順列され、繰り返される成分を有する識別子を構築するかの別の例を示す。 [0030]順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための「順列方式」と呼ばれる一例の方法を概略的に示し、サイズ選択が、不要な副産物から特定の識別子を分離するのに失敗し得る一例を示す。 [0031]大きい数M個の可能な成分から、任意の数K個の組み立てられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。 [0031]大きい数M個の可能な成分から、任意の数K個の組み立てられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、MchooseK方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0031]大きい数M個の可能な成分から、任意の数K個の組み立てられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを使用したMchooseK方式の一実装形態例を示す。 [0031]大きい数M個の可能な成分から、任意の数K個の組み立てられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための「MchooseK」方式と呼ばれる一例の方法を概略的に示し、図12Cからの実装形態例が、核酸サイズ選択を用いて除去し得る不要な副産物にどのように繋がり得るかを示す。 [0032]区画化された成分を有する識別子を構築するための「区画方式」と呼ばれる一例の方法を概略的に示し、区画方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0032]区画化された成分を有する識別子を構築するための「区画方式」と呼ばれる一例の方法を概略的に示し、鋳型指向ライゲーションを使用した区画方式の一実装形態例を示す。 [0033]幾つかの可能な成分から任意の成分列で構成された識別子を構築するための「非制約列」(又はUSS)方式と呼ばれる一例の方法を示す概略的に示し、USS方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0033]幾つかの可能な成分から任意の成分列で構成された識別子を構築するための「非制約列」(又はUSS)方式と呼ばれる一例の方法を示す概略的に示し、鋳型指向ライゲーションを使用したUSS方式の一実装形態例を示す。 [0034]親識別子から成分を除去することにより識別子を構築するための「成分削除」と呼ばれる一例の方法を概略的に示し、成分削除方式を使用して構築し得る識別子の組合せ空間の一例を示す。 [0034]親識別子から成分を除去することにより識別子を構築するための「成分削除」と呼ばれる一例の方法を概略的に示し、2本鎖標的開裂及び修復を使用した成分削除方式の一実装形態例を示す。 [0035]リコンビナーゼを親識別子に適用することによりさらなる識別子を構築し得るリコンビナーゼ認識部位を有する親識別子を概略的に示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、ポリメラーゼ連鎖反応、アフィニティタグ付きプローブ及び減成標的プローブを使用して、指定された成分を含む識別子にアクセスする方法例を示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、ポリメラーゼ連鎖反応を使用して「OR」又は「AND」演算を実行して、複数の指定された成分を含む識別子にアクセスする方法例を示す。 [0036]より多数の識別子から幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部分にアクセスする一例の方法の全体像を概略的に示し、アフィニティタグを使用して「OR」又は「AND」演算を実行し、複数の指定された成分を含む識別子にアクセスする方法例を示す。 [0037]核酸分子にコードされたデータの符号化、書込み及び読取りの例を示し、5,856ビットのデータの符号化、書込み及び読取りの一例を示す。 [0037]核酸分子にコードされたデータの符号化、書込み及び読取りの例を示し、62,824ビットのデータの符号化、書込み及び読取りの一例を示す。 [0038]本明細書に提供される方法を実施するようにプログラム又は他の方法で構成されたコンピュータシステムを示す。 [0039]2本鎖成分の単一の親セットからの任意の2つの選択された2本鎖成分を組み当てる方式の一例を示す。 [0040]2つのオリゴX及びYから作られた可能な粘着末端成分構造を示す。 [0041]複数の機能部を有する成分から識別子を構築する一例を示す。 [0042]PCRベースのランダムアクセスに対する識別子ランクの影響の一例を示す。 [0042]PCRベースのランダムアクセスに対する識別子ランクの影響の一例を示す。 [0043]PCRベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの影響の一例を示す。 [0043]PCRベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの影響の一例を示す。 [0044]PCRベースのランダムアクセスに対する識別子アーキテクチャ中の層を増やすことの影響の一例を示す。 [0045]9つの記号のアルファベットにわたるマルチビン位置符号化方式の一例を示す。 [0046]4ビット列の可能な9つのメッセージのいずれも符号化することができる2つの識別子の識別子ライブラリ及び3つのビンのビンセットを有するマルチビン識別子分布符号化方式の一例を示す。 [0047]6ビット列の可能な64のメッセージのいずれも符号化することができる2つの識別子の識別子ライブラリ及び3つのビンのビンセットを再使用するマルチビン識別子分布符号化方式の一例を示す。 [0048]整数区画化を用いる、DNAに情報を符号化する一例を示す。 [0049]ソースビットストリームを準備し、ライタにより解釈されるビルドプログラム仕様に変換するためのアルゴリズムモジュールを含む符号化パイプラインの一例を示す。 [0050]直列化形式で識別子ライブラリを表すためのデータ構造の一実施形態の一事例を示す。 [0051]2つのソースビットストリームと、識別子プールで定義された演算を使用する計算に向けて準備された汎用識別子ライブラリとの一例を示す。 [0052]識別子ライブラリがインビトロ計算としてどのように使用され得るかを示す、識別子のプールに対して実行された論理演算の3つの例への入力及び結果を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0053]複数の分解能での画像ファイルの格納及び読取りの一例を示す。 [0054]ランダムビット列の作成に使用し得るエントロピーを生成する方法の一例を示す。 [0055]エントロピー(ランダムビット列)を生成し、格納する方法の一例を示す。 [0055]エントロピー(ランダムビット列)を生成し、格納する方法の一例を示す。 [0055]エントロピー(ランダムビット列)を生成し、格納する方法の一例を示す。 [0056]入力を使用してランダムビット列を編成し、ランダムビット列にアクセスする方法の一例を示す。 [0056]入力を使用してランダムビット列を編成し、ランダムビット列にアクセスする方法の一例を示す。 [0057]物理的なDNA鍵を使用してアーチファクトへのアクセスをセキュア化し、認証する方法の一例を示す。 [0058]産物方式を使用してデータをFPN形式のDNAに符号化する方法の一例の全体像及びそのようなデータに対する演算の例を概略的に示す。 [0059]dsDNAのヌクレアーゼ保護を使用したANDゲートのメカニズムの一例の全体像を概略的に示す。 [0060]dsDNAを使用したORゲートのメカニズムの一例の全体像を概略的に示す。 [0060]ssDNAを使用したORゲートのメカニズムの一例の全体像を概略的に示す。 [0061]アフィニティタグを使用したNIMPLYゲートのメカニズムの一例の全体像を概略的に示し、提供されるのは、ビオチンタグを有するBのモル過剰であり、Bと一致するA中のあらゆる識別子は、ハイブリダイズされ、Bにより除去され、Aから生き残った識別子は、A-NIMPLY-Bリターン積の一部である。 [0061]ヌクレアーゼを使用したNIMPLYゲートのメカニズムの一例の全体像を概略的に示す。 [0062]アフィニティタグを使用したNOTゲートのメカニズムの一例の全体像を概略的に示し、提供されるのは、ビオチンタグを有するAのモル過剰であり、Aと一致するB中のあらゆる識別子は、ハイブリダイズされ、Aにより除去され、Bから生き残った識別子は、NOT-Aリターン積の一部である。 [0062]アフィニティタグを使用したNOTゲートのメカニズムの一例の全体像を概略的に示し、提供されるのはAのモル過剰であり、Aと一致するB中のあらゆる識別子は、ハイブリダイズされ、Aにより除去され、Bから生き残った識別子は、NOT-Aリターン積の一部である。 [0063]アフィニティタグを使用したXORゲートのメカニズムの一例の全体像を概略的に示し、ビオチンタグを有するBのモル過剰が提供され、Bと一致するA中のあらゆる識別子は、ハイブリダイズされ、Bにより除去され、Aから生き残った識別子は、A-NIMPLY-Bリターン積の一部である。 [0063]アフィニティタグを使用したXORゲートのメカニズムの一例の全体像を概略的に示し、ビオチンタグを有するAのモル過剰が提供され、Aと一致するB中のあらゆる識別子は、ハイブリダイズされ、Aにより除去され、Bから生き残った識別子は、B-NIMPLY-Aリターン積の一部である。 [0063]アフィニティタグを使用したXORゲートのメカニズムの一例の全体像を概略的に示し、最後のXORステップを示す。
[0064] 本発明の種々の実施形態が本明細書に示され、説明されているが、そのような実施形態が単なる例として提供されることは、当業者に明らかであろう。本発明から逸脱することなく、非常に多くの変形形態、変更形態及び置換形態が当業者に想到されるであろう。本明細書に記載の本発明の実施形態の種々の代替案が利用可能であることが理解されるはずである。
[0065] 用語「記号」は、本明細書で使用される場合、デジタル情報の単位の表現を概して指す。デジタル情報は、記号列に分割又は変換され得る。一例では、記号は、ビットであり得、ビットは、「0」又は「1」の値を有し得る。
[0066] 用語「別個の」又は「一意の」は、本明細書で使用される場合、群内の他の物体と区別することができる物体を概して指す。例えば、別個の又は一意の核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であり得る。別個の又は一意の核酸分子は、いかなる他の核酸分子とも同じ配列を有さない。別個の又は一意の核酸配列又は分子は、別の核酸配列又は分子と類似領域を共有し得る。
[0067] 用語「成分」は、本明細書で使用される場合、核酸配列を概して指す。成分は、別個の配列であり得る。成分は、他の核酸配列又は分子を生成するように1つ又は複数の他の成分と連結されるか又は組み立てられ得る。
[0068] 用語「層」は、本明細書で使用される場合、成分の群又はプールを概して指す。各層は、1つの層内の成分が別の層内の成分と異なるような別個の成分のセットを含み得る。1つ又は複数の層からの成分は、1つ又は複数の識別子を生成するように組み立てられ得る。
[0069] 用語「識別子」は、本明細書で使用される場合、より大きいビット列内のビット列の位置及び値を表す核酸分子又は核酸配列を概して指す。より一般的には、識別子は、記号列中の記号を表すか、又は記号列中の記号に対応する任意のオブジェクトを指し得る。幾つかの実施形態では、識別子は、1つ又は複数の連結された成分を含み得る。
[0070] 用語「組合せ空間」は、本明細書で使用される場合、成分等のオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、全ての可能な別個の識別子のセットを概して指す。成分を組み立てるか又は連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数及び識別子を生成するために使用される特定のアセンブリ方法に依存し得る。
[0071] 用語「識別子ランク」は、本明細書で使用される場合、セット内の識別子の順序を規定する関係を概して指す。
[0072] 用語「識別子ライブラリ」は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の集合を概して指す。幾つかの実施形態では、識別子ライブラリ中の所与の識別子の非存在は、特定の位置における記号値を示し得る。1つ又は複数の識別子ライブラリは、識別子のプール、群又はセット内で組み合わされ得る。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含み得る。
[0073] 用語「核酸」は、本明細書で使用される場合、デオキシリボ核酸(DNA)、リボ核酸(RNA)又はそれらのバリアントを概して指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)及びウラシル(U)又はそれらのバリアントから選択される1つ又は複数のサブユニットを含み得る。ヌクレオチドは、A、C、G、T、U又はそれらのバリアントを含み得る。ヌクレオチドは、成長中の核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、A、C、G、T、U或いは1つ若しくは複数の相補的なA、C、G、T若しくはUに特異的であるか、又はプリンに相補的(即ちA若しくはG又はそれらのバリアント)であるか、又はピリミジンに相補的(即ちC、T若しくはU又はそれらのバリアント)であり得る任意の他のサブユニットであり得る。幾つかの例では、核酸は、1本鎖又は2本鎖であり得、場合により、核酸は、環状である。
[0074] 用語「核酸分子」又は「核酸配列」は、本明細書で使用される場合、デオキシリボヌクレオチド(DNA)若しくはリボヌクレオチド(RNA)のいずれか又はその類似体である、種々の長さを有し得るポリマー形態のヌクレオチド又はポリヌクレオチドを概して指す。用語「核酸配列」は、ポリヌクレオチドのアルファベット表現を指し得、代替的に、この用語は、物理的なポリヌクレオチド自体に適用され得る。このアルファベット表現は、中央演算処理装置を有するコンピュータ内のデータベースに入力され、核酸配列又は核酸分子を記号又はビットにマッピングし、デジタル情報を符号化するために使用され得る。核酸配列又はオリゴヌクレオチドは、1つ又は複数の非標準ヌクレオチド、ヌクレオチド類似体及び/又は修飾ヌクレオチドも含み得る。
[0075] 「オリゴヌクレオチド」は、本明細書で使用される場合、一本鎖核酸配列を概して指し、典型的にはアデニン(A)、シトシン(C)、グアニン(G)及びチミン(T)又はポリヌクレオチドがRNAの場合にはアデニン(A)、シトシン(C)、グアニン(G)及びウラシル(U)の4つのヌクレオチド塩基の特異的配列で構成される。
[0076] 修飾ヌクレオチドの例としては、限定されないが、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルキューオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、ベータ-D-マンノシルキューオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリン等が挙げられる。核酸分子は、塩基部分(例えば、通常、相補的ヌクレオチドと水素結合を形成するために利用可能である1つ若しくは複数の原子及び/又は通常、相補的ヌクレオチドと水素結合を形成することができない1つ若しくは複数の原子)が修飾されているか、糖部分が修飾されているか、又はリン酸骨格が修飾されていることもある。核酸分子は、N-ヒドロキシスクシンイミドエステル(NHS)等のアミン反応性部分の共有結合を可能にするために、アミノアリル-dUTP(aa-dUTP)及びアミノヘキシルアクリルアミド-dCTP(aha-dCTP)等のアミン修飾基も含み得る。
[0077] 用語「プライマー」は、本明細書で使用される場合、ポリメラーゼ連鎖反応(PCR)等の核酸合成のための出発点として役立つ核酸鎖を概して指す。一例では、DNA試料の複製中、複製を触媒する酵素は、DNA試料に結合したプライマーの3’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、PCRの詳細な情報については、化学的方法セクションDを参照されたい。
[0078] 用語「ポリメラーゼ」又は「ポリメラーゼ酵素」は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を概して指す。ポリメラーゼの例としては、限定されないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在するか又は合成され得る。ポリメラーゼの例は、Φ29ポリメラーゼ又はその誘導体である。幾つかの場合、転写酵素又はリガーゼ(即ち結合の形成を触媒する酵素)は、新たな核酸配列を構築するために、ポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌(E. coli)DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、SsoポリメラーゼPocポリメラーゼ、Pabポリメラーゼ、MthポリメラーゼES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’エキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ並びにこれらのバリアント、修飾産物及び誘導体が挙げられる。PCRと併用することができるさらなるポリメラーゼについて及びポリメラーゼ特性がPCRにどのような影響を与え得るかに関する詳細については、化学的方法セクションDを参照されたい。
[0079] 用語「種」は、本明細書で使用される場合、同じ配列の1つ又は複数のDNA分子を概して指す。「種」が複数の意味で使用される場合、複数の種の中のあらゆる種は、別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことにより明示される。
[0080] 用語「約」及び「およそ」は、前記用語に続く値の±20%以内を意味すると理解されたい。
[0081] 2進コードの形態でのコンピュータデータ等のデジタル情報は、記号の配列又は記号列を含み得る。2進コードは、例えば、典型的には0及び1である、ビットと呼ばれる2つの2進記号を有する2進法を使用して、テキスト又はコンピュータプロセッサ命令を符号化するか又は表し得る。デジタル情報は、非2進記号の配列を含み得る非2進コードの形式で表され得る。符号化された各記号は、一意のビット列(又は「バイト」)に再び割り当てることができ、一意のビット列又はバイトは、バイト列又はバイトストリームに配置することができる。所与のビットについてのビット値は、2つの記号の1つ(例えば、0又は1)であり得る。Nビットの列を含み得るバイトは、合計2の一意のバイト値を有することができる。例えば、8ビットを含むバイトは、合計2又は256の可能な一意のバイト値を生じさせることができ、256バイトの各々は、バイトで符号化することができる256の可能な別個の記号、文字又は命令の1つに対応し得る。生データ(例えば、テキストファイル及びコンピュータ命令)は、バイト列又はバイトストリームとして表すことができる。zipファイル又は生データを含む圧縮データファイルは、バイトストリームで記憶することもでき、これらのファイルを圧縮形式でバイトストリームとして記憶し、その後、コンピュータにより読み取られる前に生データに復元することができる。
[0082] 本開示の方法及びシステムは、各々が元情報の1つ又は複数のビットを表し得る複数の識別子にコンピュータデータ又は情報を符号化するために使用され得る。幾つかの例では、本開示の方法及びシステムは、各々が元情報の2ビットを表す識別子を使用してデータ又は情報を符号化する。
[0083] デジタル情報を核酸に符号化する従来の方法は、核酸の塩基毎の合成に依存し、コスト及び時間がかかり得る。代替の方法は、デジタル情報を符号化するために塩基毎の核酸合成への依拠を減らすことにより、デジタル情報格納の商業的実現可能性を改善し、新しいあらゆる情報格納要求に対して別個の核酸配列のデノボ合成をなくし得る。
[0084] 新しい方法は、塩基毎又はデノボ核酸合成(例えば、ホスホラミダイト合成)に依存する代わりに、成分の組合せ配置を含む複数の識別子又は核酸配列にデジタル情報(例えば、2進コード)を符号化することができる。したがって、新しい戦略は、情報格納の第1の要求に対して別個の核酸配列(又は成分)の第1のセットを生産し得、その後、同じ核酸配列(又は成分)を続く情報格納要求に再使用することができる。これらの手法は、DNAへの情報符号化及び書込みプロセスにおける核酸配列のデノボ合成の役割を減らすことにより、DNAベースの情報格納のコストを大幅に下げることができる。さらに、各伸長核酸への各塩基の循環送達を使用し得るホスホラミダイト化学又は鋳型なしポリメラーゼベースの核酸伸長等の塩基毎の合成の実装形態と異なり、成分からの識別子構築を使用する、情報をDNAに書き込む新しい方法は、必ずしも循環核酸伸長を使用するわけではない高度に並列化可能なプロセスである。したがって、新しい方法は、古い方法と比較してデジタル情報をDNAに書き込む速度が上がり得る。
情報を核酸配列に符号化し書き込む方法
[0085] 一態様において、本開示は、情報を核酸配列に符号化する方法を提供する。情報を核酸配列に符号化する方法は、(a)情報を記号列に翻訳することと、(b)記号列を複数の識別子にマッピングすることと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含み得る。複数の識別子のうちの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、別個の識別子に対応し得る。個々の識別子は、記号列中の個々の位置における個々の記号に対応し得る。さらに、記号列中の各位置における1つの記号は、識別子の不在に対応し得る。例えば、「0」及び「1」の2進記号(例えば、ビット)の列において、「0」の各発生は、識別子の不在に対応し得る。
[0086] 別の態様において、本開示は、核酸ベースのコンピュータデータ格納の方法を提供する。核酸ベースのコンピュータデータ格納の方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成することと、(c)核酸配列を有する核酸分子を格納することとを含み得る。コンピュータデータは、合成された核酸分子の少なくともサブセットに符号化され得、各核酸分子の配列に符号化されない。
[0087] 別の態様において、本開示は、情報を核酸配列に書き込み、格納する方法を提供する。方法は、(a)情報を表す仮想識別子ライブラリを受信又は符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1つ又は複数の物理的コピーを1つ又は複数の別個の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。
[0088] 別の態様において、本開示は、核酸ベースのコンピュータデータ格納を提供する。核酸ベースのコンピュータデータ格納の方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化した少なくとも1つの核酸配列を含む核酸分子を合成することと、(c)少なくとも1つの核酸配列を含む核酸分子を格納することとを含み得る。核酸分子を合成することは、塩基毎の核酸合成を含まなくてよい。
[0089] 別の態様において、本開示は、情報を核酸配列に書き込み、格納する方法を提供する。情報を核酸配列に書き込み、格納する方法は、(a)情報を表す仮想識別子ライブラリを受信又は符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1つ又は複数の物理的コピーを1つ又は複数の別個の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。
[0090] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)第1の識別子核酸配列を形成することであって、(1)M個の異なる層に分けられる別個の成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択し、(2)M個の選択された成分核酸配列を区画に配置し、(3)M個の選択された成分核酸配列を(2)に物理的に組み付けて、第1及び第2の層からの成分核酸配列が識別子核酸配列の第1及び第2の末端配列に対応し、第3の層中の成分核酸配列が識別子核酸配列の第3の配列に対応して、第1の識別子核酸配列におけるM個の層の物理的順序を規定するように、第1及び第2の末端配列を有し、第1の末端配列と第2の末端配列との間に位置する第3の配列を有する第1の識別子核酸配列を形成することにより、形成することと、(c)複数の追加の識別子核酸配列を形成することであって、各々が(1)第1及び第2の末端配列を有し、第1の末端配列と第2の末端配列との間に位置する第3の配列を有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列は、(b)における第1の識別子核酸配列の標的配列と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することとを含む。
[0091] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、(b)M個の選択された成分核酸配列を区画に配置することにより、第1の識別子核酸配列を形成することであって、M個の選択される成分核酸配列は、M個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、(c)複数の識別子核酸配列を形成することであって、各識別子核酸配列は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することであって、画像データを核酸配列に格納することにより、ランダムアクセス方式を使用して色値について任意の近傍ピクセルに問い合わせることができる、収集することとを含む。
[0092] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸配列を区画に配置することにより、第1の識別子核酸配列を形成することであって、M個の選択される成分核酸配列は、M個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、(c)複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することとを含む。
[0093] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)固定長以下のサイズの1つ又は複数のブロックに記号列を分割することと、(c)M個の選択された成分核酸配列を区画に配置することにより、第1の識別子核酸配列を形成することであって、M個の選択される成分核酸配列は、M個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、(d)複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することとを含む。
[0094] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸配列を区画に配置することにより、第1の識別子核酸配列を形成することであって、M個の選択される成分核酸配列は、M個の異なる層に分けられた別個の成分核酸配列のセットから選択される、形成することと、(c)複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することと、(e)(d)における識別子核酸配列を使用して、記号列に対して、AND、OR、NOT又はNANDを含むブール論理演算が関わる計算を実行して、核酸分子の新しいプールを生成することとを含む。
[0095] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)第1の識別子核酸配列を形成することであって、(1)M個の異なる層に分けられる別個の成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択し、(2)M個の選択された成分核酸配列を区画に配置することにより、形成することと、(c)複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することとを含む。
[0096] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)第1の識別子核酸配列を形成することであって、(1)M個の異なる層に分けられる別個の成分核酸配列のセットから、M個の層の各々からの1つの成分核酸配列を選択し、(2)M個の選択された成分核酸配列を区画に配置し、(3)(2)にけるM個の選択された成分核酸配列を物理的に組み付けて、指定された成分を含む第1の識別子核酸配列を形成することにより、形成し、指定された成分は、少なくとも1つの標的配列を含み、指定された成分を含む識別子のアクセスを可能にする、形成することと、(c)複数の識別子核酸配列を物理的に組み立てることであって、各識別子核酸配列は、それぞれ指定された成分を有し、指定された成分は、(b)における第1の識別子核酸配列の少なくとも1つの標的配列を含み、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、組み立てることと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸配列を収集することとを含む。
[0097] 図1は、核酸配列への情報の符号化、核酸配列への情報の書込み、核酸配列に書き込まれた情報の読取り及び読み取った情報の復号化の全体プロセスを示す。デジタル情報又はデータは、1つ又は複数の記号列に翻訳され得る。一例では、記号は、ビットであり、各ビットは、「0」又は「1」のいずれかの値を有し得る。各記号は、その記号を表すオブジェクト(例えば、識別子)にマッピング又は符号化され得る。各記号は、別個の識別子によって表され得る。別個の識別子は、成分で構成された核酸分子であり得る。成分は、核酸配列であり得る。デジタル情報は、情報に対応する識別子ライブラリを生成することにより核酸配列に書き込まれ得る。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成され得る。デジタル情報のあらゆる部分に一度にアクセスし得る。一例では、識別子のサブセットは、識別子ライブラリからアクセスされる。識別子のサブセットは、識別子をシーケンシング及び識別することにより読み取ることができる。デジタルデータを復号化するために、識別された識別子に、対応する記号を関連付け得る。
[0098] 図1の手法を使用した情報の符号化及び読取りの方法は、例えば、ビットストリームを受け取ることと、識別子ランク又は核酸索引を使用して、ビットストリーム中の各1ビット(「1」のビット値を有するビット)を別個の核酸識別子にマッピングすることとを含み得る。1のビット値に対応する識別子のコピーを含む核酸分子サンプルプール又は識別子ライブラリを構築する(ビット値0の場合には識別子を除外する)。サンプルの読取りは、分子生物学的方法(例えば、シーケンシング、ハイブリダイゼーション、PCR等)を使用して、いずれの識別子が識別子ライブラリ内で表されているかを特定し、それらの識別子に対応するビットにビット値「1」を割り当て、識別子ライブラリ内で表されていない識別子に対応するビットにビット値「0」を割り当て(ここでも、各識別子が対応する元のビットストリーム中のビットを識別するために、識別子ランクを参照する)、それにより情報を復号化して元の符号化ビットストリームにすることを含み得る。
[0099] N個の別個のビットの列を符号化することは、等しい数の一意の核酸配列を可能な識別子として使用することができる。情報を符号化するこの手法は、格納すべき情報の新しい各項目(Nビットの列)に対して、識別子(例えば、核酸分子)のデノボ合成を使用し得る。他の事例では、情報の新しい項目の符号化が、予め合成(又は予め作製)された識別子を機械的に選択し、一緒に混合して識別子ライブラリを形成することを含み得るように、デノボ合成を1回行い、可能な全ての識別子を続けて維持することにより、格納すべき情報の新しい各項目に対して識別子(数がN以下である)を新しく合成するコストを下げることができる。他の事例では、幾つか(N未満及び幾つかの場合にはNよりもはるかに小さい数)の核酸配列を合成して維持し、次いで酵素反応を通してこれらの配列を修飾して、格納すべき新しい各項目にN個までの識別子を生成することにより、(1)格納すべき情報の新しい各項目にN個までの識別子をデノボ合成するコスト、(2)格納すべき情報の新しい各項目にN個の可能な識別子を維持し、そこから選択するコストの両方又はそれらの任意の組合せを削減し得る。
[00100] 識別子は、読取り、書込み、アクセス、コピー及び削除演算を容易にするように合理的に設計及び選択され得る。識別子は、書込みエラー、変異、分解及び読取りエラーを最小にするように設計及び選択され得る。合成核酸ライブラリ(識別子ライブラリ等)を含むDNA配列の合理的な設計については、化学的方法セクションHを参照されたい。
[00101] 図2A及び図2Bは、デジタルデータをオブジェクト又は識別子(例えば、核酸分子)に符号化する「データアットアドレス」と呼ばれる方法の一例を概略的に示す。図2Aは、ビットストリームを識別子ライブラリに符号化することを示し、個々の識別子は、識別子ランクを指定する単一の成分を、バイト値を指定する単一の成分に連結するか又は組み付けることにより構築される。一般に、データアットアドレス方法は、2つのオブジェクトを含むことにより情報をモジュール式に符号化する識別子を使用し、1つのオブジェクトは、バイト値を識別する「バイト値オブジェクト」(又は「データオブジェクト」)であり、1つのオブジェクトは、識別子ランク(又は元のビットストリーム内のバイトの相対位置)を識別する「ランクオブジェクト」(又は「アドレスオブジェクト」)である。図2Bは、データアットアドレス方法の一例を示し、各ランクオブジェクトは、成分のセットから組合せにより構築され得、各バイト値オブジェクトは、成分のセットから組合せにより構築され得る。ランクオブジェクト及びバイト値オブジェクトのそのような組合せ構造により、オブジェクトが単一の成分のみから作られた場合(例えば、図2A)より多くの情報を識別子に書き込むことが可能になる。
[00102] 図3A及び図3Bは、デジタル情報をオブジェクト又は識別子(例えば、核酸配列)に符号化する方法の別の例を概略的に示す。図3Aは、ビットストリームを識別子ライブラリに符号化することを示し、識別子は、識別子ランクを指定する単一の成分から構築される。特定のランク(又はアドレス)における識別子の存在は、ビット値「1」を指定し、特定のランク(又はアドレス)における識別子の不在は、ビット値「0」を指定する。このタイプの符号化は、ランク(元のビットストリーム内のビットの相対位置)のみを符号化する識別子を使用し、識別子ライブラリ内のそれらの識別子の有無を使用して、それぞれビット値「1」又は「0」を符号化し得る。情報の読取り及び復号化は、識別子ライブラリ内に存在する識別子を識別することと、それらの識別子の対応するランクにビット値「1」を割り当てることと、識別子ライブラリ内に存在しない識別子の場合にはビット値「0」を割り当てることとを含み得る。図3Bは、各識別子が、可能な各組合せ構築がランクを指定するように、成分のセットから組合せにより構築され得る符号化方法の一例を示す。そのような組合せ構造により、識別子が単一の成分のみから作られる場合(例えば、図3A)よりも多くの情報を識別子に書き込むことが可能になる。例えば、成分セットは、5つの別個の成分を含み得る。5つの別個の成分は、組み立てられて、各々が5つの成分のうちの2つを含む10個の別個の識別子を生成し得る。10個の別個の識別子は、ビットストリーム中のビットの位置に対応するランク(又はアドレス)をそれぞれ有し得る。識別子ライブラリは、長さ10のビットストリーム内において、ビット値「1」の位置に対応するそれらの可能な10個の識別子のサブセットを含み得、ビット値「0」の位置に対応するそれらの可能な10個の識別子のサブセットを除外し得る。
[00103] 図4は、図3A及び図3Bに示す符号化方法を使用してビット単位の所与の元のサイズの情報(D、等高線)を格納するように物理的に構築される可能な識別子の組合せ空間(C、x軸)と識別子の平均数(k、y軸)との間の関係の対数空間における等高線図を示す。このプロットは、サイズDの元情報がCビットの列に再符号化され(Cは、Dより大きい値であり得る)、k個のビットがビット値「1」を有すると仮定している。さらに、プロットは、情報から核酸への符号化が、再符号化されたビット列に対して実行され、ビット値が「1」である位置の識別子が構築され、ビット値が「0」である位置の識別子が構築されないと仮定している。仮定に従い、可能な識別子の組合せ空間は、再符号化されたビット列内のあらゆる位置を識別するためにサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log2(Cchoosek)であるようなものであり、Cchoosekは、C個の可能性からk個の順序付けられていない結果を選択する方法の数についての数式であり得る。したがって、可能な識別子の組合せ空間が情報の所与の項目のサイズ(ビット単位)を超えて増大するにつれて、所与の情報を格納するために使用し得る物理的に構築された識別子の数が減少する。
[00104] 図5は、核酸配列に情報を書き込む全体的な方法を示す。情報は、書き込まれる前に記号列に翻訳され、複数の識別子に符号化され得る。情報の書込みは、可能な識別子を生成するように反応を準備することを含み得る。反応は、入力を区画に配置することにより準備され得る。入力は、核酸、成分、鋳型、酵素又は化学試薬を含み得る。区画は、ウェル、チューブ、表面上の位置、マイクロ流体デバイス内のチャンバ又は乳剤内の液滴であり得る。複数の反応は、複数の区画で準備され得る。反応は、プログラムされた温度のインキュベーション又は循環を通して識別子の生成に進み得る。反応は、選択的又は普遍的に除去(例えば、削除)され得る。反応は、識別子を1つのプール内に集めるように選択的又は普遍的に中断、統合及び精製することもできる。複数の識別子ライブラリからの識別子は、同じプールに集められ得る。個々の識別子は、その識別子が属する識別子ライブラリを識別するために、バーコード又はタグを含み得る。代わりに又は加えて、バーコードは、符号化された情報のメタデータを含み得る。補足の核酸又は識別子は、識別子ライブラリと共に識別子プールに含まれ得る。補足の核酸又は識別子は、符号化された情報のメタデータを含み得るか、又は符号化された情報を不明瞭にするか若しくは隠すように機能し得る。
[00105] 識別子ランク(例えば、核酸索引)は、識別子の順序付けを決める方法又は鍵を含み得る。方法は、全ての識別子及びそれらの対応するランクを有するルックアップテーブルを含み得る。方法は、識別子を構成する全ての成分のランクと、それらの成分の組合せを含むあらゆる識別子の順序付けを決めるための関数とを有するルックアップテーブルも含み得る。そのような方法は、辞書的順序付けと呼ぶことができ、辞書内の単語がアルファベット順に順序付けられる様式に類似し得る。データアットアドレス符号化方法では、識別子ランク(識別子のランクオブジェクトにより符号化される)を使用して、ビットストリーム内のバイト(識別子のバイト値オブジェクトにより符号化される)の位置を決定し得る。代替の方法では、現在の識別子の識別子ランク(識別子全体自体により符号化される)を使用して、ビットストリーム内のビット値「1」の位置を決めることができる。
[00106] 鍵は、サンプル内の識別子(例えば、核酸分子)の一意のサブセットに別個のバイトを割り当て得る。例えば、簡単な形態では、鍵は、ビットの位置を指定する一意の核酸配列にバイト内の各ビットを割り当て得、次いでサンプル内のその核酸配列の有無がそれぞれビット値1又は0を指定し得る。符号化された情報を核酸サンプルから読み取ることは、シーケンシング、ハイブリダイゼーション又はPCRを含む任意の数の分子生物学的技法を含み得る。幾つかの実装形態では、符号化されたデータセットを読み取ることは、各核酸サンプルからデータセットの一部分を再構築すること又は符号化されたデータセット全体を再構築することを含み得る。配列が読み取られ得るとき、核酸索引を一意の核酸配列の有無と共に使用することができ、核酸サンプルを復号化してビットストリームにすることができる(例えば、各ビット列、1バイト、複数のバイト又はバイト列)。
[00107] 識別子は、成分核酸配列を組合せにより組み立てることにより構築され得る。例えば、規定された分子のグループ(例えば、組合せ空間)から核酸分子(例えば、識別子)のセットをとることにより、情報を符号化し得る。規定された分子のグループの可能な各識別子は、層に分け得る予め作製された成分のセットからの核酸配列(例えば、成分)のアセンブリであり得る。個々の各識別子は、あらゆる層からの1つの成分を固定の順序で連結することにより構築され得る。例えば、M個の層が存在し、各層がn個の成分を有し得る場合、最大C=n個の一意の識別子を構築し得、情報の最大2個の異なる項目又はCビットを符号化し、格納し得る。例えば、1メガビットの情報の格納は、1×10個の別個の識別子又はサイズC=1×10の組合せ空間を使用し得る。この例では、識別子は、異なる方法で編成された多様な成分から組み立てられ得る。アセンブリは、M=2個の予め作製された層から作られ得、各層は、n=1×10個の成分を含む。代替として、アセンブリは、M=3個の層から作られ得、各層は、n=1×10個の成分を含む。幾つかの実施形態では、アセンブリは、M=2、M=3、M=4、M=5又はそれよりも多い層から作られ得る。この例が示すように、より多数の層を使用して同量の情報を符号化することで成分の総数をより小さくすることができ得る。全体でより少数の成分を使用することは、書込みコストの点から有利であり得る。
[00108] 一例では、2セットの一意の核酸配列又は層X及びYで開始することができ、各核酸配列又は層は、それぞれx及びy成分(例えば、核酸配列)を有する。Xからの各核酸配列は、Yからの各核酸配列に組み付けることができる。2つのセット内で維持される核酸配列の総数は、xとyとの和であり得るが、生成することができる核酸分子、したがって可能な識別子の総数は、xとyとの積であり得る。Xからの配列をYの配列に任意の順序で組み付けることができる場合、さらに多くの核酸配列(例えば、識別子)を生成することができる。例えば、組立て順序がプログラム可能である場合、生成される核酸配列(例えば、識別子)の数は、xとyとの積の2倍であり得る。生成することができる可能な全ての核酸配列のこのセットは、XYと呼ぶことができる。XY内の一意の核酸配列の組み立てられたユニットの順序は、別個の5’及び3’末端を有する核酸を使用して制御することができ、配列の別個の5’及び3’末端に対して制限消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)及びシーケンシングを行い得る。そのような手法は、情報を組立て積の組合せ及び順序に符号化することにより、N個の別個のビットの符号化に使用される核酸配列(例えば、成分)の総数を低減することができる。例えば、100ビットの情報を符号化するために、10個の別個の核酸分子(例えば、成分)の2つの層を固定の順序で組み立てて、1010、即ち100個の別個の核酸分子(例えば、識別子)を生成し得るか、又は5個の別個の核酸分子(例えば、成分)の1つの層と、10個の別個の核酸分子(例えば、成分)の別の層とを任意の順序で組み立てて、100個の別個の核酸分子(例えば、識別子)を生成し得る。
[00109] 各層内の核酸配列(例えば、成分)は、中央の一意(又は別個)の配列又はバーコード、一方の末端における共通のハイブリダイゼーション領域及び他方の末端における別の共通のハイブリダイゼーション領域を含み得る。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含み得る。例えば、典型的には、バーコード内の各塩基位置に対して4つの可能なヌクレオチドが存在する。したがって、3つの塩基バーコードが4=64個の核酸配列を一意に識別し得る。バーコードは、ランダムに生成されるように設計され得る。代替として、バーコードは、識別子又はシーケンシングの構造の化学的性質に複雑さを生じさせる可能性のある配列を回避するように設計され得る。さらに、バーコードは、各バーコードが他のバーコードから最小のハミング距離を有し得るように設計され得、それにより塩基分解能の変異又は読取りエラーがバーコードの適切な識別に干渉し得る尤度を減少させ得る。DNA配列の合理的な設計については、化学的方法セクションHを参照されたい。
[00110] 核酸配列(例えば、成分)の一方の末端におけるハイブリダイゼーション領域は、各層内で異なり得るが、層内の各メンバで同じであり得る。隣接する層は、それらの成分に相補的なハイブリダイゼーション領域を有するものであり、互いに相互作用することが可能である。例えば、層Xからのあらゆる成分は、相補的なハイブリダイゼーション領域を有し得るため、層Yからのあらゆる成分に付着することが可能であり得る。反対の末端のハイブリダイゼーション領域は、第1の末端のハイブリダイゼーション領域と同じ目的を果たし得る。例えば、層Yからのあらゆる成分は、一方の末端で層Xのあらゆる成分に付着し得、反対の末端で層Zのあらゆる成分に付着し得る。
[00111] 図6A及び図6Bは、各層からの別個の成分(例えば、核酸配列)を固定の順序で組合せにより組み立てることにより、識別子(例えば、核酸分子)を構築するための「産物方式」(product scheme)と呼ばれる方法の一例を示す。図6Aは、産物方式を使用して構築された識別子のアーキテクチャを示す。識別子は、各層からの単一の成分を固定の順序で組み合わせることにより構築され得る。それぞれN個の成分を有するM個の層の場合、N個の可能な識別子が存在する。図6Bは、産物方式を使用して構築し得る識別子の組合せ空間の一例を示す。一例では、組合せ空間は、3つの層から生成することができ、各層は、3つの別個の成分を含む。成分は、各層からの1つの成分を固定の順序で組み合わせ得るように組み合わされ得る。この組立て方法での組合せ空間全体は、27個の可能な識別子を含み得る。
[00112] 図7~図10は、産物方式(図6を参照されたい)を実施するための化学的方法を示す。図7~図10に示す方法は、2つ以上の別個の成分を固定の順序で組み立てる任意の他の方法と共に、例えば識別子ライブラリ内にいずれか1つ又は複数の識別子を生成するために使用され得る。識別子は、本明細書に開示される方法又はシステム中の任意の時点において、図7~図10に記載の実施方法のいずれかを使用して構築され得る。幾つかの事例では、可能な識別子の組合せ空間の全て又は一部分は、デジタル情報が符号化されるか又は書き込まれる前に構築され得、その場合、書込みプロセスは、既に存在するセットから識別子(情報を符号化する)を機械的に選択し、プールすることを含み得る。他の事例では、識別子は、データ符号化又は書込みプロセスの1つ又は複数のステップが行われた可能性がある後(即ち情報が書き込まれているとき)に構築され得る。
[00113] 酵素反応は、異なる層又はセットから成分を組み立てるために使用され得る。各層の成分(例えば、核酸配列)は、隣接する層の成分に対する特異的ハイブリダイゼーション又は付着領域を有するため、アセンブリは、ワンポット反応で行われ得る。例えば、層Xからの核酸配列(例えば、成分)X1、層Yからの核酸配列Y1及び層Zからの核酸配列Z1は、組み立てられた核酸分子(例えば、識別子)X1Y1Z1を形成し得る。加えて、複数の核酸分子(例えば、識別子)は、各層からの複数の核酸配列を含むことにより、1つの反応において組み立てられ得る。例えば、前の例のワンポット反応においてY1とY2との両方を含むことにより、2つの組み立てられた産物(例えば、識別子)、即ちX1Y1Z1及びX1Y2Z1が生じ得る。この反応多重化は、物理的に構築される複数の識別子に対する書込み時間を加速させるために使用され得る。組立て効率に関するDNA配列の合理的な設計の詳細については、化学的方法セクションHを参照されたい。核酸配列のアセンブリは、約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間又は1時間以下の時間期間内に実行され得る。符号化されたデータの精度は、少なくとも約90%、95%、96%、97%、98%、99%又はそれ以上であり得る。
[00114] 識別子は、図7に示されるように、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用して産物方式により構築され得る。各層内の各成分は、隣接する層からの成分の配列末端上の共通ハイブリダイゼーション領域と相同及び/又は相補的であり得る共通ハイブリダイゼーション領域を配列末端上に有する二本鎖又は一方鎖(図に描かれるように)核酸配列を含み得る。個々の識別子は、成分X~Xを含む層X(又は層1)からの1つの成分(例えば、一意の配列)と、Y~Yを含む層Y(又は層2)からの第2の成分(例えば、一意の配列)と、Z~Zを含む層Z(又は層3)からの第3の成分(例えば、一意の配列)とを連結することにより構築され得る。層Xからの成分は、層Yからの成分上の3’末端との相補性を共有する3’末端を有し得る。したがって、層X及びYからの一本鎖成分は、3’末端において一緒にアニーリングされ得、二本鎖核酸分子を生成するためにPCRを使用して延長され得る。生成された二本鎖核酸分子は、層Zからの成分の3’末端との相補性を共有する3’末端を生成するように融解され得る。層Zからの成分は、生成された核酸分子と共にアニーリングされ得、固定順序で層X、Y及びZからの単一の成分を含む一意の識別子を生成するように延長され得る。OEPCRについては、化学的方法セクションAを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いた)又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応(PCR)は、反応中に形成され得る他の副産物から、完全に組み立てられた識別子産物を単離するために実施することもできる。反応中に形成され得る他の副産物から、完全に組み立てられた識別子産物を単離するために、2つの最外層の各々に1つずつ、合計2つのプローブを用いた逐次核酸捕捉を実施し得る(化学的方法セクションFを参照されたい)。
[00115] 識別子は、図8に示されるように、粘着末端ライゲーションを使用する産物方式により組み立てられ得る。一本鎖3’突出を有する二本鎖成分(例えば、二本鎖DNA(dsDNA))をそれぞれ含む3つの層は、別個の識別子を組み立てるために使用可能である。例えば、成分X~Xを含む層X(又は層1)からの1つの成分と、Y~Yを含む層Y(又は層2)からの第2の成分と、Z~Zを含む層Z(又は層3)からの第3の成分とを含む識別子である。層Xからの成分を層Yからの成分と組み合わせるために、層X内の成分は、図8でaとラベルされる共通の3’突出を含み得、層Y内の成分は、共通の相補的3’突出、即ちaを含み得る。層Yからの成分を層Zからの成分と組み合わせるために、層Y内の要素は、図8でbとラベルされる共通の3’突出を含み得、層Z内の要素は、共通の相補的3’突出、即ちbを含み得る。層X成分内の3’突出は、層Y成分内の3’末端と相補的であり得、層Y成分内の他の3’突出は、層Z成分内の3’末端と相補的であり得、成分がハイブリダイゼーション及びライゲーションすることを可能にする。したがって、層Xからの成分は、層X又は層Zからの他の成分とハイブリダイゼーションすることができず、同様に、層Yからの成分は、層Yからの他の要素とハイブリダイゼーションすることができない。さらに、層Yからの単一の成分は、層Xの単一の成分及び層Zの単一の成分にライゲーションし、完全な識別子の形成を保証することができる。粘着末端ライゲーションについては、化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いた、化学的方法セクションEを参照されたい)又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)は、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。反応中に形成され得る他の副産物から識別子産物を単離するために、2つの最外層の各々に1つずつ、合計2つのプローブを用いた逐次核酸捕捉を実施し得る(化学的方法セクションFを参照されたい)。
[00116] 粘着末端ライゲーションのための粘着末端は、制限エンドヌクレアーゼで各層の成分を処理することにより生成され得る(制限酵素反応の詳細な情報については、化学的方法セクションCを参照されたい)。幾つかの実施形態では、複数の層の成分は、成分の1つの「親」セットから生成され得る。例えば、二本鎖成分の単一の親セットが各末端上に相補的な制限部位(例えば、BamHI及びBglIIのための制限部位)を有し得る一実施形態である。任意の2つの成分が組立てに選択され、1つ又は他の相補的制限酵素(例えば、BglII又はBamHI)を用いて個々に消化され、不活性瘢痕となる、一緒にライゲーションすることができる相補的粘着末端になり得る。産物核酸配列は、各末端上に相補的制限部位を含み得(例えば、5’末端上のBamHI及び3’末端上のBglII)、同じプロセスに従う親セットからの別の成分にさらにライゲーションすることができる。このプロセスは、無限に循環され得る(図20)。親がN個の成分を含む場合、各サイクルは、N個の成分の余剰層を産物方式に追加することに等しい。
[00117] ライゲーションを使用して、セットX(例えば、dsDNAのセット1)からの要素と、セットY(例えば、dsDNAのセット2)からの要素とを含む核酸の配列を構築する方法は、二本鎖配列の2つ以上のプール(例えば、dsDNAのセット1及びdsDNAのセット2)を取得又は構築するステップであって、第1のセット(例えば、dsDNAのセット1)は、粘着末端(例えば、a)を含み、第2のセット(例えば、dsDNAのセット2)は、第1のセットの粘着末端に相補的である粘着末端(例えば、a)を含む、ステップを含み得る。第1のセット(例えば、dsDNAのセット1)からの任意のDNA及び第2のセット(例えば、dsDNAのセット2)からのDNAの任意のサブセットは、組み合わされ、組み立てられて、次いで一緒にライゲーションされ、第1のセットからの要素と第2のセットからの要素とを有する単一の二本鎖DNAを形成することができる。
[00118] 識別子は、図9に示されるように、部位特異的組換えを使用する産物方式により組み立てられ得る。識別子は、3つの異なる層から成分を組み立てることにより構築され得る。層X(又は層1)内の成分は、分子の一方の側にattBリコンビナーゼ部位を有する二本鎖分子を含み得、層Y(又は層2)からの成分は、一方の側にattPリコンビナーゼ部位を、他方の側にattBリコンビナーゼ部位を有する二本鎖分子を含み得、層Z(又は層3)内の成分は、分子の一方の側にattPリコンビナーゼ部位を含み得る。下付き文字により示される、ペア内のattB部位及びattP部位は、対応するリコンビナーゼ酵素の存在下で組み換えることが可能である。各層からの1つの成分は、層Xからの1つの成分が層Yからの1つの成分と関連し、層Yからの1つの成分が層Zからの1つの成分と関連するように組み合わされ得る。1つ又は複数のリコンビナーゼ酵素の適用は、成分を組み換えて、順序付き成分を含む二本鎖識別子を生成し得る。DNAサイズ選択(例えば、ゲル抽出を用いた)又は最外層と隣接するプライマーとのPCRは、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。一般に、複数の直交性attB及びattPペアが使用され得、各ペアは、余剰層からの成分を組み立てるために使用され得る。リコンビナーゼの大型セリンファミリの場合、1リコンビナーゼ当たり最大6つの直交性attB及びattPペアが生成され得、複数の直交性リコンビナーゼも同様に実施され得る。例えば、13の層は、12の直交するattB及びattPペア、即ちBxbI及びPhiC31等の2つの大型セリンリコンビナーゼの各々からの6つの直交するペアを使用することにより組み立てられ得る。attB及びattPペアの直交性は、1つのペアからのattB部位が別のペアからのattP部位と反応しないことを保証する。これにより、異なる層からの成分が固定順序で組み立てられることが可能になる。リコンビナーゼ媒介性組換え反応は、実施されるリコンビナーゼ系に応じて可逆的又は非可逆的であり得る。例えば、大型セリンリコンビナーゼファミリは、高エネルギー補因子を必要とすることなく非可逆的な組換え反応を触媒するが、チロシンリコンビナーゼファミリは、可逆的な反応を触媒する。
[00119] 識別子は、図10Aに示されるように、鋳型指向ライゲーション(TDL)を使用する産物方式により構築され得る。鋳型指向ライゲーションは、「鋳型」又は「ステープル」と呼ばれる一本鎖状の核酸配列を利用して、識別子を形成するために成分の順序付きライゲーションを容易にする。鋳型は、隣接する層からの成分に同時にハイブリダイゼーションし、リガーゼがそれらをライゲーションする間、それらを互いに隣接して(5’末端に対する3’末端)保持する。図10Aからの例では、一本鎖成分の3つの層又はセットが組み合わされる。配列aに相補的である、3’末端上の共通配列aを共有する成分の第1の層(例えば、層X又は層1)、配列b及びcに相補的である、それぞれ5’末端及び3’末端上の共通配列b及びcを共有する成分の第2の層(例えば、層Y又は層2)、配列dに相補的であり得る、5’末端上の共通配列dを共有する成分の第3の層(例えば、層Z又は層3)並びに配列a(5’から3’)を含む第1のステープルと配列c(‘5から3’)を含む第2のステープルとを有する2つの鋳型又は「ステープル」のセットである。この例では、各層からの1つ又は複数の成分が選択され、ステープルとの反応に混合され得、それは、相補的アニーリングにより、識別子を形成するために、規定された順序での各層からの1つの成分のライゲーションを容易にし得る。TDLについては、化学的方法セクションBを参照されたい。DNAサイズ選択(例えば、ゲル抽出を用いた、化学的方法セクションEを参照されたい)又は最外層と隣接するプライマーとのポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)は、反応中に形成され得る他の副産物から識別子産物を単離するために実施され得る。反応中に形成され得る他の副産物から識別子産物を単離するために、2つの最外層の各々に1つずつ、合計2つのプローブを用いた逐次核酸捕捉を実施し得る(化学的方法セクションFを参照されたい)。
[00120] 図10Bは、各々が6層TDLと組み立てられた256個の別個の核酸配列のコピー数(存在度)のヒストグラムを示す。縁部層(第1の層及び最後の層)は、それぞれ1つの成分を有し、内部層(残りの4つの層)の各々は、4つの成分を有する。各縁部層成分は、10塩基ハイブリダイゼーション領域を含む28の塩基であった。各内部層成分は、5’末端上の10塩基共通ハイブリダイゼーション領域と、10塩基可変(バーコード)領域と、3’末端上の10塩基共通ハイブリダイゼーション領域とを含む30塩基であった。3つの鋳型鎖の各々は、長さが20塩基であった。全256個の別個の配列は、多重方式で組み立てられ、1つの反応は、成分及び鋳型、T4ポリヌクレオチドキナーゼ(成分をリン酸化するための)並びにT4リガーゼ、ATP及び他の適切な反応試薬の全てを含んだ。反応は、37度で30分間、次いで室温で1時間インキュベートされた。シーケンシングアダプタがPCRとの反応産物に追加され、この産物は、Illumina MiSeq機器を用いてシーケンシングされた。192910の全組み立てられた配列読取りからの各別個の組み立てられた配列の相対的コピー数が図示されている。この方法の他の実施形態は、二本鎖成分を使用し得、その成分は、最初に、ステープルにアニーリングすることができる一本鎖バージョンを形成するように融解される。この方法(即ちTDL)の他の実施形態又は派生物は、産物方式において達成され得るものよりも複雑な識別子の組合せ空間を構築するために使用され得る。
[00121] 識別子は、ゴールデンゲートアセンブリ、ギブソンアセンブリ又はリガーゼ循環反応アセンブリを含む種々の他の化学的実装形態を使用して産物方式に従って構築され得る。
[00122] 図11A及び図11Bは、順列された成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための、「順列方式」(permutation scheme)と呼ばれる方法の一例を概略的に示す。図11Aは、順列方式を使用して構築された識別子のアーキテクチャを示す。識別子は、各層からの単一の成分をプログラム可能な順序で組み合わせることにより構築され得る。図11Bは、順列方式を使用して構築し得る識別子の組合せ空間の一例を示す。一例では、サイズ6の組合せ空間は、各々が1つの別個の成分を含む3つの層から生成され得る。成分は、任意の順序で連結され得る。一般に、各々がN個の成分を有するM個の層を用いる場合、順列方式は、総じてNM!個の識別子の組合せ空間を可能にする。
[00123] 図11Cは、鋳型指向ライゲーション(TDL、化学的方法セクションBを参照されたい)を用いる順列方式の一実装形態例を示す。複数の層からの成分は、末端足場と呼ばれる固定された左末端成分と右末端成分との間に組み立てられる。これらの末端足場は、組合せ空間内の全ての識別子で同じであり、したがって実装形態の反応マスタミックスの一環として追加され得る。異なる層からの成分が反応において識別子内に組み込まれる順序が、反応に選択される鋳型に依存するように、任意の2つの層又は足場間の任意の可能な接合部に鋳型又はステープルが存在する。M個の層の場合、層の任意の可能な順列を可能にするために、可能なあらゆる接合部(足場との接合部を含む)に選択可能なM+2M個の別個のステープルが存在し得る。それらの鋳型のうちのM個(グレーの陰影付き)は、層とそれら自体との間の接合部を形成し、本明細書に記載の順列アセンブリの目的のために除外され得る。しかしながら、それらの包含により、図11D~図11Gに示す反復成分を含む識別子を有するより大きい識別子空間が可能になり得る。DNAサイズ選択(例えば、ゲル抽出、化学的方法セクションEを参照されたい)又は最外層隣接プライマーを用いたポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照されたい)を実施して、識別子産物を反応で形成され得る他の副産物から単離し得る。2つの最外層の各々に1つずつ、2つのプローブを有する逐次核酸捕捉を実施して、反応で形成され得る他の副産物から識別子産物を単離し得る(化学的方法セクションFを参照されたい)。
[00124] 図11D~図11Gは、反復成分を有する識別子の特定の事例を含むように順列方式をどのように拡張し得るかの方法例を示す。図11Dは、図11Cからの実装形態をどのように使用して、順列成分及び反復成分を有する識別子を構築し得るかの一例を示す。例えば、識別子は、2つの別個の成分から組み立てられた総じて3つの成分を含み得る。この例では、1つの層からの1つの成分が識別子において複数回存在し得る。同じ成分の隣接連結は、図中のa(5’から3’)ステープル等の同じ成分の3’末端及び5’末端の両方の隣接する相補的なハイブリダイゼーション領域を有するステープルを使用することにより達成され得る。一般に、M個の層の場合、M個のそのようなステープルが存在する。この実装形態を用いた反復成分の組み込みは、図11Eに示すように、末端足場間に組み立てられた、1を超える長さ(即ち1個、2個、3個、4個又はそれを超える成分を含む)の核酸配列を生成し得る。図11Eは、図11Dからの実装形態例が、末端足場間に組み立てられる、識別子以外の非標的核酸配列にどのように繋がり得るかを示す。適切な識別子は、末端で同じプライマー結合部位を共有するため、PCRを用いて非標核酸配列から単離することができない。しかしながら、この例では、DNAサイズ選択(例えば、ゲル抽出を用いた)を実施して、標的識別子(例えば、上から2番目の配列)を非標的配列から単離し得、なぜなら、組み立てられた各核酸配列は、一意の長さを有するように設計することができる(例えば、全成分が同じ長さを有する場合)ためである。サイズ選択については、化学的方法セクションEを参照されたい。図11Fは、反復成分を有する識別子の構築が、等しい末端配列を有するが、異なる長さを有する複数の核酸配列を同じ反応で生成し得る別の例を示す。この方法では、ある層における成分を別の層における成分と交互パターンに組み立てる鋳型を使用し得る。図11Eに示す方法と同様に、サイズ選択を使用して、設計された長さの識別子を選択し得る。図11Gは、反復成分を有する識別子の構築が、等しい末端配列を有すると共に、幾つかの核酸配列(例えば、上から3番目及び4番目並びに上から6番目及び7番目)で等しい長さを有する複数の核酸配列を生成し得る一例を示す。この例では、等しい長さを共有する核酸配列は、PCR及びDNAサイズ選択が実施される場合でも、他方も構築せずに一方を構築することが可能ではないことがあるため、両方とも個々の識別子であることから除外することができる。
[00125] 図12A~図12Dは、より大きい数M個の可能な成分の中から任意の数K個の組み立てられた成分(例えば、核酸配列)を有する識別子(例えば、核酸分子)を構築するための、「MchooseK方式」と呼ばれる方法の一例を概略的に示す。図12Aは、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。この方法を使用する場合、識別子は、全層の任意のサブセット内の各層から1つの成分を組み立てる(例えば、M個の可能な層からのk個の層からの成分を選択する)ことにより構築される。図12Bは、MchooseK方式を使用して構築し得る識別子の組合せ空間の一例を示す。この組立て方式では、組合せ空間は、M個の層、1層当たりN個の成分及び識別子長がK個の成分である場合、NMchooseK個の可能な識別子を含み得る。一例では、各々が1つの成分を含む5個の層がある場合、各々が2個の成分を含む別個の識別子を最大10個組み立てることができる。
[00126] MchooseK方式は、図12Cに示すように、鋳型指向ライゲーション(化学的方法セクションBを参照されたい)を使用して実施され得る。順列方式でのTDL実施(図11C)と同様に、この例において、成分は、反応マスタミックスに含まれても又は含まれなくてもよい末端足場間に組み立てられる。成分は、M個の層、例えば予め規定されたランク2からMを有するM=4個の層に分けることができ、左末端足場は、ランク1であり得、右末端足場は、ランクM+1であり得る。鋳型は、低ランクから高ランクをそれぞれ有する任意の2つの成分の3’から5’ライゲーションのための核酸配列を含む。((M+1)+M+1)/2個のそのような鋳型がある。別個の層からの任意のK個の成分の個々の識別子は、K個の成分を共にそれらのランクの順序で末端足場と一緒にするために使用される対応するK+1個のステープルを用いて、ライゲーション反応でそれらの選択された成分を組み合わせることにより構築され得る。そのような反応の準備は、末端足場間の標的識別子に対応する核酸配列をもたらし得る。代替的に、全鋳型を含む反応ミックスを選択された成分と組み合わせて標的識別子を組み立て得る。この代替の方法は、図12Dに示すように、同じ末端配列を有するが、別個の長さ(全成分長が等しい場合)を有する種々の核酸配列を生成し得る。標的識別子(下部)は、サイズにより副産物核酸配列から単離され得る。核酸サイズ選択については、化学的方法セクションEを参照されたい。
[00127] 図13A及び図13Bは、区画化された成分を有する識別子を構築するための、「区画方式」(partition scheme)と呼ばれる方法の一例を概略的に示す。図13Aは、区画方式を使用して構築し得る識別子の組合せ空間の一例を示す。個々の識別子は、異なる層の任意の2つの成分間に任意の区画(特別に成分として分類される)が任意選択的に配置された状態で、各層からの1つの成分を固定の順序で組み立てることにより構築され得る。例えば、成分のセットは、1つの区画成分と、各々が1つの成分を含む4個の層とに編成され得る。各層からの1つの成分を固定の順序で組み合わせ得、単一の区画成分を層間の種々の場所に組み立て得る。この組合せ空間内の識別子は、区画成分なし、第1及び第2の層からの成分間の区画成分、第2の層及び第3の層からの成分間の区画等を含み、8個の可能な識別子の組合せ空間を作り出す。一般に、各々がN個の成分を有するM個の層及びp個の区画成分を用いる場合、構築し得るN(p+1)M-1個の可能な識別子が存在する。この方法は、種々の長さの識別子を生成し得る。
[00128] 図13Bは、鋳型指向ライゲーション(化学的方法セクションBを参照されたい)を使用した区画方式の一実装形態例を示す。鋳型は、M個の層の各々からの1つの成分を一緒に固定の順序でライゲーションするための核酸配列を含む。各区画成分において、区画成分が任意の2つの隣接層からの成分間にライゲーションできるようにする追加の鋳型対が存在する。例えば、一対のうちの一方の鋳型(例えば、配列g(5’から3’)を有する)は、層1(配列bを有する)の3’末端を区画成分(配列gを有する)の5’末端にライゲーションできるようにし、一対のうちの第2の鋳型(配列c(5’から3’)を有する)は、区画成分(配列hを有する)の3’末端を層2(配列cを有する)の5’末端にライゲーションできるようにするような一対の鋳型である。隣接する層の任意の2つの成分間に区画を挿入するために、それらの層を一緒にライゲーションするための標準鋳型は、反応において除外され得、その位置における区画をライゲーションするために鋳型対は、反応において選択され得る。本例では、層1と層2との間の区画成分の標的化は、鋳型c(5’から3’)ではなく、鋳型c(5’から3’)及びg(5’から3’)の対を使用して反応に向けて選択され得る。成分は、反応ミックスに含まれ得る(第1及び第Mの層にそれぞれライゲーションするための対応する鋳型と共に)末端足場間に組み立て得る。一般に、M個の層及びp個の区画成分の場合、総じてM-1+2(M-1)個前後の選択可能な鋳型を使用し得る。区画方式のこの実装形態は、同じ末端配列を有するが、別個の長さを有する種々の核酸配列を反応で生成し得る。標的識別子は、DNAサイズ選択により副産物核酸配列から単離され得る。具体的には、厳密にM個の層成分を有する厳密に1つの核酸配列産物が存在し得る。層成分が区画成分と比べて十分に大きく設計される場合、普遍的なサイズ選択領域を画定することが可能であり得、それにより特定の識別子内の成分の特定の区画化を問わず、識別子を選択する(及び非標的副産物を選択しない)ことができ、それにより複数の反応からの複数の区画化された識別子を同じサイズ選択ステップで単離することが可能である。核酸サイズ選択については、化学的方法セクションEを参照されたい。
[00129] 図14A及び図14Bは、幾つかの可能な成分から任意の成分列で構成された識別子を構築するための、「非制約列方式」(unconstrained string)又は「USS」と呼ばれる方法の一例を概略的に示す。図14Aは、非制約列方式を使用して構築し得る3成分(又は4足場)長の識別子の組合せ空間の一例を示す。非制約列方式は、各々が1つ又は複数の層からとられた1つ又は複数の別個の成分を用いて成分K個分の長さの個々の識別子を構築し、別個の各成分は、識別子内のK個の成分位置のいずれかに出現することができる(反復が許容される)。例えば、各々が1つの成分を含む2個の層の場合、8個の可能な3成分長識別子が存在する。一般に、各々が1つの成分を含むM個の層を用いる場合、成分K個の分の長さのM個の可能な識別子が存在する。図14Bは、鋳型指向ライゲーション(化学的方法セクションBを参照されたい)を使用した非制約列方式の一実装形態例を示す。この方法では、K+1個の1本鎖の順序付き足場DNA成分(2つの末端足場及びK-1個の内部足場を含む)が反応ミックスに存在する。個々の識別子は、隣接する足場のあらゆる対間にライゲーションされた単一の成分を含む。例えば、足場A及びB間にライゲーションされた成分であり、足場C及びD間にライゲーションされた成分及びK個の全ての隣接する足場接合部が成分で占められるようになるまで以下同様である。反応において、異なる層から選択された成分は、適切な足場に組み立てられるように誘導する選択されたステープル対と共に足場に導入される。例えば、ステープル対a(5’から3’)及びA(5’から3’)は、5’末端領域「a」及び3’末端領域「b」を有する層1成分をL足場とA足場との間にライゲーションするように誘導する。一般に、M個の層及びK+1個の足場がある場合、長さKの任意のUSS識別子を構築するために2K個の選択可能なステープルを使用し得る。5’末端上の足場に成分を接続するステープルは、同じ成分を3’末端上の足場に接続するステープルから分離されているため、標的識別子と等しい末端足場を有するが、K個未満の成分(K未満+1個の足場)又はK個よりも多数の成分(K超+1個の足場)を有する核酸副産物が反応で形成される可能性がある。標的識別子は、厳密にK個の成分を形成し得(K+1個の足場)、したがって全成分が同じ長さであるように設計され、全足場が同じ長さであるように設計される場合、DNAサイズ選択のような技法を通して選択可能であり得る。核酸サイズ選択については、化学的方法セクションEを参照されたい。1層につき1つの成分が存在し得る非制約列方式の特定の実施形態では、その成分は、(1)識別バーコード、(2)足場への5’末端のステープル仲介ライゲーションのハイブリダイゼーション領域、及び(3)足場への3’末端のステープル仲介ライゲーションのハイブリダイゼーション領域の3つ全ての役割を果たす単一の別個の核酸配列のみを含み得る。
[00130] 図14Bに示す内部足場は、成分への足場のステープル仲介5’ライゲーション及び別の(必ずしも別個であるわけではない)成分への足場のステープル仲介3’ライゲーションの両方に同じハイブリダイゼーション配列を使用するように設計され得る。したがって、図14Bに示す1足場2ステープル積層ハイブリダイゼーションイベントは、足場とステープルの各々との間で生じる統計学的な前後ハイブリダイゼーションイベントを表し、したがって5’成分ライゲーション及び3’成分ライゲーションの両方を可能にする。非制約列方式の他の実施形態では、足場に2つの連結されたハイブリダイゼーション領域 - ステープル仲介3’ライゲーションに別個の3’ハイブリダイゼーション領域及びステープル仲介5’ライゲーションに別個の5’ハイブリダイゼーション領域 - を設計し得る。
[00131] 図15A及び図15Bは、親識別子から核酸配列(又は成分)を削除することにより識別子を構築するための、「成分削除方式」(component deletion)と呼ばれる方法の一例を概略的に示す。図15Aは、成分削除方式を使用して構築し得る可能な識別子の組合せ空間の一例を示す。この例では、親識別子は、複数の成分を含み得る。親識別子は、約2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、20個以上、30個以上、40個以上、50個以上又はそれよりも多くの成分を含み得る。個々の識別子は、N個の可能な成分から任意の数の成分を選択的に削除し、サイズ2の「完全」組合せ空間にすることにより又はN個の可能な成分から一定数K個の成分を削除し、それによりサイズNchooseKの「NchooseK」組合せ空間にすることにより構築され得る。3個の成分を有する親識別を用いる一例では、完全組合せ空間は、8であり得、3choose2組合せ空間は、3であり得る。
[00132] 図15Bは、2本鎖標的開裂及び修復(Double Stranded Targeted Cleavage)(DSTCR)を使用した成分削除方式の一実装形態例を示す。親配列は、ヌクレアーゼ特異的標的部位(塩基4個以下の長さであり得る)に隣接する成分を含む1本鎖DNA基質であり得、親は、標的部位に対応する1つ又は複数の2本鎖特異的ヌクレアーゼを用いてインキュベートすることができる。個々の成分は、親の成分DNA(及び隣接するヌクレアーゼ部位)に結合する相補的な1本鎖DNA(又は開裂鋳型)を用いて削除に向けて標的化することができ、したがってヌクレアーゼにより両方の末端で開裂し得る安定した2本鎖配列を親に形成し得る。別の1本鎖DNA(又は修復鋳型)は、親の結果として生成された分離された末端(それらの間に成分配列が存在していた)にハイブリダイズし、親上のライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように、直接又は置換配列により架橋されて、ライゲーションに向けてそれらを一緒にする。この方法を「2本鎖標的開裂」(DSTC)と呼ぶ。サイズ選択を使用して、特定の数の成分が削除された識別子を選択し得る。核酸サイズ選択については、化学的方法セクションEを参照されたい。
[00133] 代わりに又は加えて、親識別子は、2つの成分が同じ配列に隣接しないようにスペーサ配列で隔てられた成分を含む2本鎖又は1本鎖核酸基質であり得る。親識別子は、Cas9ヌクレアーゼを用いてインキュベートされ得る。個々の成分は、成分の末端に結合し、その隣接部位でのCas9仲介開裂を可能にするガイドリボ核酸(開裂鋳型)を用いて削除の標的とされ得る。その結果生成された親識別子の分離末端(例えば、成分配列があった末端間)に1本鎖核酸(修復鋳型)をハイブリダイズし、それによりライゲーションに向けてそれらを一緒にし得る。ライゲーションは、直接又は親上のライゲーションされた配列が、Cas9により標的とすることができるスペーサ配列をもはや含まないように置換配列を用いて末端を架橋することにより行うことができる。この方法を「配列特異的標的開裂及び修復」(Sequence Specific Targeted Cleavage and Repair)又は「SSTCR」と呼ぶ。
[00134] 識別子は、DSTCRの派生物を使用して成分を親識別子に挿入することにより構築され得る。親識別子は、各々が別個の核酸配列内に組み込まれたヌクレアーゼ特異的標的部位(塩基4個分以下の長さであり得る)を含む1本鎖核酸基質であり得る。親識別子は、標的部位に対応する1つ又は複数の2本鎖特異的ヌクレアーゼを用いてインキュベートされ得る。親識別子上の個々の標的部位は、標的部位と親識別子上の別個の周囲核酸配列とを結合し、したがって2本鎖部位を形成する相補的な1本鎖核酸(開裂鋳型)を用いて成分挿入の標的とされ得る。2本鎖部位は、ヌクレアーゼにより開裂され得る。その結果として生成された親識別子の分離末端に別の1本鎖核酸(修復鋳型)をハイブリダイズして、ライゲーションに向けて一緒にそれらを一緒にし、親上のライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように成分配列により架橋し得る。代替的に、SSTCRの派生物を使用して、成分を親識別子に挿入し得る。親識別子は、2本鎖又は1本鎖核酸であり得、親は、Cas9ヌクレアーゼを用いてインキュベートされ得る。親識別子上の別個の部位は、ガイドRNA(開裂鋳型)を用いた開裂の標的にされ得る。1本鎖核酸(修復鋳型)を親識別子の分離末端にハイブリダイズして、ライゲーションに向けてそれらを一緒にし、親識別子にライゲーションされた配列がもはや活性ヌクレアーゼ標的部位を含まないように成分配列により架橋し得る。サイズ選択を使用して、特定の数の成分挿入を有する識別子を選択し得る。
[00135] 図16は、リコンビナーゼ認識部位を有する親識別子を概略的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識することができる。リコンビナーゼの所与のセットの全ての認識部位は、リコンビナーゼが適用された場合、それらの間の核酸を切除し得るように配置される。図16に示す核酸鎖は、適用されるリコンビナーゼのサブセットに応じて2=32個の異なる配列を採用することができる。幾つかの実施形態では、図16に示すように、リコンビナーゼを使用してDNAのセグメントを切除、シフト、反転及び転置し、異なる核酸分子を作成して、一意の分子を生成することができる。一般に、N個のリコンビナーゼを用いる場合、親から2個の可能な識別子を構築することができる。幾つかの実施形態では、1つのリコンビナーゼの適用が、下流リコンビナーゼが適用されるときに生じる組換えイベントのタイプに影響を及ぼすように、異なるリコンビナーゼからの認識部位の複数の直交対を重複して親識別子上に配置し得る(Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたく、これは、全体的に参照により本明細書に援用される)。そのようなシステムは、N個のリコンビナーゼのあらゆる順序付けN!に対して異なる識別子を構築することが可能であり得る。リコンビナーゼは、Flp及びCre等のチロシンファミリ又はPhiC31、BxbI、TP901若しくはA118等の大型セリンリコンビナーゼファミリのものであり得る。大型セリンリコンビナーゼファミリからのリコンビナーゼの使用は、不可逆的組換えを促進し、したがって他のリコンビナーゼよりも効率的に識別子を生成し得るために有利であり得る。
[00136] 幾つかの事例では、多くのリコンビナーゼを別個の順序で適用することにより、多くの別個の核酸配列になるように単一の核酸配列をプログラムすることができる。リコンビナーゼ数Mが大型セリンリコンビナーゼファミリで7以下であり得る場合、M個のリコンビナーゼを異なるサブセット及び順序で適用することにより、およそ約eM!個の別個の核酸配列を生成し得る。リコンビナーゼ数Mが7よりも大きい値であり得る場合、生成することができる配列数は、およそ3.9である。例えば、Roquet et al., Synthetic recombinase-based state machines in living cells, Science 353 (6297): aad8559 (2016)を参照されたく、これは、全体的に参照により本明細書に援用される。1つの共通配列から異なる複数のDNA配列を生成する追加の方法は、CRISPR-Cas、TALENS及びジンクフィンガーヌクレアーゼ等の標的核酸編集酵素を含み得る。リコンビナーゼ、標的編集酵素等により生成された配列は、先の方法のいずれとも、例えば本願における図及び開示のいずれで開示される方法とも併用することができる。
[00137] 符号化すべき情報のビットストリームが、任意の単一の核酸分子により符号化することができるよりも大きい場合、情報を分割し、核酸配列バーコードで索引付けることができる。さらに、log2(Nchoosek)ビットの情報を生成するために、N個の核酸分子のセットからのサイズkの核酸分子の任意のサブセットを選択することができる。バーコードは、サイズkのサブセット内の核酸分子に組み付けて、さらに長いビットストリームを符号化することができる。例えば、M個のバーコードを使用して、M*log2(Nchoosek)ビットの情報を生成し得る。セット内の利用可能な核酸分子数N及び利用可能なバーコード数Mを所与として、情報を符号化するためのプール内の分子の総数を最小化するために、サイズk=kのサブセットを選択し得る。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、6ビットを含むビットストリームは、各々が2ビットを含む3個の成分に分割することができる。各2ビット成分にバーコードを付して情報カセットを形成することができ、一緒にグループ化又はプールして、情報カセットのハイパープールを形成することができる。
[00138] バーコードは、符号化すべきデジタル情報量が、1つのプールのみに入れることができる量を超える場合、情報の索引付けを促進することができる。より長いビット列及び/又は複数のバイトを含む情報は、例えば、核酸索引を使用して符号化された一意の核酸配列を有するタグを含むことにより、図3に開示する手法を層化することにより符号化することができる。情報カセット又は識別子ライブラリは、所与の配列が対応するビットストリームの1つ又は複数の成分を示すバーコード又はタグに加えて、場所及びビット値情報を提供する一意の核酸配列を含む窒素塩基又は核酸配列を含み得る。情報カセットは、1つ又は複数の一意の核酸配列及びバーコード又はタグを含み得る。情報カセット上のバーコード又はタグは、情報カセット及び情報カセットに含まれる任意の配列の参照を提供することができる。例えば、情報カセット上のタグ又はバーコードは、一意の配列が情報(例えば、ビット値及びビット位置情報)を符号化するのがビットストリームのいずれの部分又はビットストリームのいずれのビット成分であるかを示すことができる。
[00139] バーコードを使用して、可能な識別子の組合せ空間のサイズよりもビット単位で多くの情報をプールに符号化することができる。例えば、10ビットの配列は、バイトの2セットに分けることができ、各バイトは、5ビットを含む。各バイトは、5個の可能な別個の識別子のセットにマッピングすることができる。最初に、各バイトに生成される識別子は、同じであり得るが、別個のプールに保持することができ、そうでなければ、情報を読み取っている人は、特定の核酸配列が属するバイトを見分けることができない可能性がある。しかしながら、各識別子に、符号化された情報が適用されるバイトに対応するラベルをバーコード付け又はタグ付けすることができ(例えば、最初の5ビットを提供する核酸プール内の配列にバーコード1を取り付け得、次の5ビットを提供する核酸プール内の配列にバーコード1を取り付け得る)、次いでこれらの2つのバイトに対応する識別子を組み合わせて1つのプール(例えば、「ハイパープール」又は1つ若しくは複数の識別子ライブラリ)に入れることができる。1つ又は複数の組み合わされた識別子ライブラリのうちの各識別子ライブラリは、所与の識別子ライブラリに属するものとして所与の識別子を識別する別個のバーコードを含み得る。バーコードを識別子ライブラリ内の各ライブラリに追加する方法は、PCR、ギブソン、ライゲーション又は所与のバーコード(例えば、バーコード1)が所与の核酸サンプルプールに取り付けられる(例えば、バーコード1を核酸サンプルプール1に取り付け、バーコード2を核酸サンプルプール2に取り付ける)ようにする任意の他の手法を使用することを含み得る。ハイパープールからのサンプルは、シーケンシング法を用いて読み取ることができ、シーケンシング情報はバーコード又はタグを使用して解析することができる。M個のバーコード及びN個の可能な識別子(組合せ空間)のセットを有する識別子ライブラリ及びバーコードを使用する方法は、MとNとの積に等しい長さを有するビットストリームを符号化することができる。
[00140] 幾つかの実施形態では、識別子ライブラリは、ウェルのアレイに格納され得る。ウェルのアレイは、n列及びq行を有するものとして規定され得、各ウェルは、2つ以上の識別子ライブライをハイパープール内に含み得る。各ウェルで符号化される情報は、各ウェルに含まれる情報よりも大きいサイズn×qの情報の1つの大きい連続項目を構成し得る。ウェルのアレイ内のウェルの1つ又は複数からアリコートをとることができ、シーケンシング、ハイブリダイゼーション又はPCRを使用して符号化を読み取ることができる。
[00141] 核酸サンプルプール、ハイパープール、識別子ライブラリ、識別子ライブラリのグループ又は核酸サンプルプール若しくはハイパープールを含むウェルは、情報のビットに対応する一意の核酸分子(例えば、識別子)と、複数の補足の核酸配列とを含み得る。補足の核酸配列は、符号化されたデータに対応しない(例えば、ビット値に対応しない)場合がある。補足の核酸サンプルは、サンプルプールに格納された情報をマスキング又は暗号化し得る。補足の核酸配列は、生物学的ソースから導出され得るか又は合成して生成され得る。生物学的ソースから導出された補足の核酸配列は、ランダムに断片化された核酸配列又は合理的に断片化された配列を含み得る。特に合成的に符号化された情報(例えば、識別子の組合せ空間)が天然遺伝情報(例えば、断片化されたゲノム)に類似するように作られる場合、生物学的に導出された補足の核酸は、天然遺伝情報を合成的に符号化された情報と共に提供することにより、サンプルプール内のデータ含有核酸を隠すか又は不明瞭化し得る。一例では、識別子は、生物学的ソースから導出され、補足の核酸は、生物学的ソースから導出される。サンプルプールは、識別子及び補足の核酸配列の複数のセットを含み得る。識別子及び補足の核酸配列の各セットは、異なる有機体から導出され得る。一例では、識別子は、1つ又は複数の有機体から導出され、補足の核酸配列は、単一の異なる有機体から導出される。補足の核酸配列は、1つ又は複数の有機体から導出され得、識別子は、補足の核酸の導出元である有機体と異なる単一の有機体から導出され得る。識別子及び補足の核酸配列の両方は、複数の異なる有機体から導出され得る。鍵を使用して、識別子を補足の核酸配列から区別し得る。
[00142] 補足の核酸配列は、書き込まれたデータについてのメタデータを格納し得る。メタデータは、元情報のソース及び/又は元情報の意図される受信者を特定及び/又は認証するための追加情報を含み得る。メタデータは、元情報の形式、元情報の符号化及び書込みに使用される機器及び方法並びに元情報を識別子に書き込む日時についての追加情報を含み得る。メタデータは、元情報の形式、元情報の符号化及び書込みに使用される機器及び方法並びに元情報を核酸配列に書き込む日時についての追加情報を含み得る。メタデータは、情報を核酸配列に書き込んだ後に元情報に対して行われた改変についての追加情報を含み得る。メタデータは、元情報へのアノテーション又は外部情報への1つ若しくは複数の参照を含み得る。代わりに又は加えて、メタデータは、識別子に取り付けられた1つ又は複数のバーコード又はタグに格納され得る。
[00143] 識別子プール内の識別子は、互いに同じ、同様の又は異なる長さを有し得る。補足の核酸配列は、識別子の長さよりも短い、略等しい又はより長い長さを有し得る。補足の核酸配列は、識別子の平均長さの1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内又はより多くの塩基以内の平均長さを有し得る。一例では、補足の核酸配列は、識別子と同じ又は略同じ長さである。補足の核酸配列の濃度は、識別子ライブラリ内の識別子の濃度よりも低い、略同じ又は高い値であり得る。補足の核酸の濃度は、識別の濃度の約1%以下、約10%以下、約20%以下、約40%以下、約60%以下、約80%以下、約100、%以下、約125%以下、約150%以下、約175%以下、約200%以下、約1000%以下、約1×10%以下、約1×10%以下、約1×10%以下、約1×10%以下、約1×10%以下であり得る。補足の核酸の濃度は、識別子の濃度の約1%以上、約10%以上、約20%以上、約40%以上、約60%以上、約80%以上、約100、%以上、約125%以上、約150%以上、約175%以上、約200%以上、約1000%以上、約1×10%以上、約1×10%以上、約1×10%以上、約1×10%以上、約1×10%以上であり得る。濃度が高いほど、データを不明瞭化するか又は隠すのに有利であり得る。一例では、補足の核酸配列の濃度は、識別子プール内の識別子の濃度よりもはるかに大きい(例えば、1×10%大きい)。
核酸配列に格納されたデータのコピー及びアクセスを行う方法
[00144] 別の態様において、本開示は、核酸配列に符号化された情報をコピーする方法を提供する。核酸配列に符号化された情報をコピーする方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリの1つ又は複数のコピーを構築することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子の個々の各識別子は、記号列中の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
[00145] 別の態様において、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリから、識別子ライブラリに存在する識別子の一部分又はサブセットを抽出することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別の個々の各識別子は、記号列中の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
[00146] 情報は、本明細書の他の箇所に記載のように、1つ又は複数の識別子ライブラリに書き込まれ得る。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築され得る。格納されたデータは、ある識別子ライブラリ内又は1つ若しくは複数の識別子ライブラリ内の個々の識別子のコピーを生成することによりコピーされ得る。識別子の一部分又はライブラリ全体をコピーし得る。コピーは、識別子ライブラリ内の識別子を増幅することにより実行され得る。1つ又は複数の識別子ライブラリが組み合わされる場合、単一の識別子ライブラリ又は複数の識別子ライブラリをコピーし得る。識別子ライブラリが補足の核酸配列を含む場合、補足の核酸配列は、コピーされても又はされなくてもよい。
[00147] 識別子ライブラリ内の識別子は、1つ又は複数の共通プライマー結合部位を含むように構築され得る。1つ又は複数の結合部位は、各識別子の末端にあり得るか又は各識別子全体に織り交ぜられ得る。プライマー結合部位は、識別子ライブラリ特異的プライマー対又は普遍的プライマー対が識別子に結合し、増幅できるようにされ得る。ある識別子ライブラリ内の全ての識別子又は1つ若しくは複数の識別子ライブラリ内の全ての識別子は、複数のPCRサイクルにより複数回複製され得る。従来のPCRを使用して識別子をコピーし得、識別子は、各PCRサイクルで指数的に複製され得る。識別子のコピー数は、各PCRサイクルに伴って指数的に増大し得る。線形PCRを使用して識別子をコピーし得、識別子は、各PCRサイクルで線形に複製され得る。識別子のコピー数は、各PCRサイクルに伴って線形に増大し得る。識別子は、PCR増幅前に循環ベクターにライゲーションされ得る。循環ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのPCRプライマーは、バーコードが付された末端が識別子と共に増幅産物内に含まれるようにベクターをプライミングするように設計され得る。増幅中、識別子間の組換えにより、各末端に非相関バーコードを含む識別子がコピーされることになり得る。非相関バーコードは、識別子読取り時に検出可能であり得る。非相関バーコードを含む識別子は、偽陽性とみなすことができ、情報復号化プロセス中に無視され得る。化学的方法セクションDを参照されたい。
[00148] 情報は、情報の各ビットを一意の核酸分子に割り当てることにより符号化され得る。例えば、各々が2つの核酸配列を含む3つのサンプルセット(X、Y及びZ)は、組み立てて8つの一意の核酸分子にし得、8ビットのデータを復号化し得る。
N1=X1Y1Z1
N2=X1Y1Z2
N3=X1Y2Z1
N4=X1Y2Z2
N5=X2Y1Z1
N6=X2Y1Z2
N7=X2Y2Z1
N8=X2Y2Z2
次いで、列中の各ビットを対応する核酸分子に割り当て得る(例えば、N1は、1番目のビットを指定し得、N2は、2番目のビットを指定し得、N3は、3番目のビットを指定し得る等である)。ビット列全体は、核酸分子の組合せに割り当てられ得、ビット値「1」に対応する核酸分子は、組合せ又はプールに含まれる。例えば、UTF-8コーディングでは、文字「K」は、8ビット列コード01001011によって表され得、これは、4つの核酸分子(例えば、上記例におけるX1Y1Z2、X2Y1Z1、X2Y2Z1及びX2Y2Z2)の存在により符号化され得る。
[00149] 情報には、シーケンシング又はハイブリダイゼーションアッセイを通してアクセスし得る。例えば、プライマー又はプローブは、核酸配列の共通領域又はバーコード付き領域に結合するように設計され得る。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物は、増幅産物をシーケンシングするか又はハイブリダイゼーションアッセイにより読み取られ得る。文字「K」を符号化する上記例では、データの最初の半分に関心がある場合、X1核酸配列のバーコード領域に特異的なプライマー及びZセットの共通領域に結合するプライマーを使用して核酸分子を増幅し得る。これは、配列Y1Z2を返し得、配列Y1Z2は、0100を符号化し得る。そのデータの部分列にも、Y1核酸配列のバーコード領域に結合するプライマー及びZセットの共通配列に結合するプライマーを用いて核酸分子をさらに増幅することによりアクセスし得る。これは、Z2核酸配列を返し得、Z2核酸配列は、部分列01を符号化する。代替的に、データには、シーケンシングなしで特定の核酸配列の有無をチェックすることによりアクセスし得る。例えば、Y2バーコードに特異的なプライマーを用いた増幅は、Y2バーコードの増幅産物を生成し得るが、Y1バーコードの増幅産物を生成しない。Y2増幅産物の存在は、ビット値「1」を伝達し得る。代替的に、Y2増幅産物の不在は、ビット値「0」を伝達し得る。
[00150] PCRベースの方法は、識別子又は核酸サンプルプールからのデータにアクセスし、及び識別子又は核酸サンプルプールからのデータをコピーするために使用することができる。プール又はハイパープール内で識別子に隣接する共通プライマー結合部位を使用して、情報を含む核酸を容易にコピーすることができる。代替的に、サンプルプール又はハイパープール(例えば、識別子ライブラリ)からのデータを容易にコピーするために、等温増幅等の他の核酸増幅手法を使用することも可能である。核酸増幅については、化学的方法セクションDを参照されたい。サンプルがハイパープールを含む場合、順方向においての一方の末端における特定のバーコードを識別子に結合するプライマーを、逆方向において識別子の反対の末端上の共通配列に結合する別のプライマーと共に使用することにより、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスし、検索することができる。種々の読取り方法を使用して、符号化された核酸から情報を引き出すことができる。例えば、マイクロアレイ(又は任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量化PCR(qPCR)及び種々のシーケンシングプラットフォームをさらに使用して、符号化された配列、したがってデジタル符号化されたデータを読み取ることができる。
[00151] 核酸分子(例えば、識別子)に格納された情報へのアクセスは、非標的識別子の部分を識別子ライブラリ若しくは識別子のプールから選択的に除去するか、又は例えば複数の識別子ライブラリのプールからある識別子ライブラリの全ての識別子を選択的に除去することにより実行され得る。本明細書で使用する場合、「アクセス」及び「問い合わせ」(クエリ)は、同義で使用することができる。データへのアクセスは、識別子ライブラリ又は識別子のプールから標的識別子を選択的に捕捉することにより実行することもできる。標的識別子は、情報のより大きい項目内の関心のあるデータに対応し得る。識別子のプールは、補足の核酸分子を含み得る。補足の核酸分子は、符号化された情報についてのメタデータを含み得るか、又は情報に対応する識別子の暗号化若しくはマスキングに使用され得る。補足の核酸分子は、標的識別子にアクセスしている間に抽出されても又はされなくてもよい。図17A~図17Cは、より多数の識別子からの幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の部分にアクセスする方法例の全体像を概略的に示す。図17Aは、ポリメラーゼ連鎖反応、アフィニティタグ付きプローブ及び分解標的プローブを使用して、指定された成分を含む識別子にアクセスする方法例を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリ)は、各末端に共通配列、各末端に可変配列又は各末端に共通配列若しくは可変配列の一方を有する識別子を含み得る。共通配列又は可変配列は、プライマー結合部位であり得る。1つ又は複数のプライマーは、識別子末端の共通又は可変領域に結合し得る。結合されたプライマーを有する識別子は、PCRにより増幅され得る。増幅される識別子は、増幅されない識別子よりもかなり多い。読取り中、増幅された識別子を識別し得る。識別子ライブラリからの識別子は、そのライブラリに特有の配列を両方の末端の一方又は両方に含み得、したがって2つ以上の識別子ライブラリのプール又はグループから単一のライブラリに選択的にアクセスできるようにする。
[00152] アフィニティタグベースのアクセス、即ち核酸捕捉と呼ぶことができるプロセスの場合、プール内の識別子を構成する成分は、1つ又は複数のプローブと相補性を共有し得る。1つ又は複数のプローブは、アクセスすべき識別子に結合又はハイブリダイズされ得る。プローブは、アフィニティタグを含み得る。アフィニティタグは、膜、ウェル、カラム又はビーズ等の固相物質上に捕捉され得る。固相物質としてビーズを使用する場合、アフィニティタグは、ビーズと結合し得、ビーズ、少なくとも1つのプローブ及び少なくとも1つの識別子を含む複合体を生成し得る。ビーズは、磁性であり、磁石と一緒であり得、アクセスすべき識別子を収集及び分離し得る。識別子は、読取り前に変性条件下でビーズから取り外され得る。代わりに又は加えて、ビーズは、非標的識別子を収集し、洗浄されて別個の容器に入り読み取ることができるプールの残りの部分から非標的識別子を隔離し得る。カラムを使用する場合、アフィニティタグは、カラムに結合し得る。アクセスすべき識別子は、捕捉のためにカラムに結合し得る。カラムに結合した識別子は、続けて、読取り前にカラムから溶離又は変性され得る。代替的に、非標的識別子は、カラムに選択的に標的化され得る一方、標的識別子は、カラムを通して流れ得る。固相物質に結合した識別子は、例えば、酸、塩基、酸化、還元、熱、光、金属鉄触媒、変位若しくは脱離の化学的作用又は酵素開裂等の条件に曝されることにより固相物質から取り外され得る。特定の実施形態では、アクセスすべき識別子は、開裂連鎖部分を通して固体担体に付着し得る。例えば、固相物質は、標的識別子への共有結合付着のための開裂連鎖を提供するように官能化され得る。リンカー部分は、原子6個分以上の長さであり得る。幾つかの実施形態では、開裂可能リンカーは、TOPS(1合成当たり2オリゴヌクレオチド)リンカー、アミノリンカー、化学的開裂可能リンカー又は光開裂可能リンカーであり得る。標的識別子へのアクセスは、1つ若しくは複数のプローブを識別子のプールに同時に適用すること又は1つ若しくは複数のプローブを識別のプールに逐次適用することを含み得る。核酸捕捉については、化学的方法セクションFを参照されたい。
[00153] 分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1つ又は複数の分解標的プローブと相補性を共有し得る。プローブは、識別子上の別個の成分に結合又はハイブリダイズされ得る。プローブは、エンドヌクレアーゼ等の分解酵素の標的であり得る。一例では、1つ又は複数の識別子ライブラリを組み合わせ得る。プローブのセットを識別子ライブラリの1つとハイブリダイズし得る。プローブのセットは、RNAを含み得、RNAは、Cas9酵素を誘導し得る。Cas9酵素は、1つ又は複数の識別子ライブラリに導入し得る。プローブとハイブリダイズされた識別子は、Cas9酵素により分解され得る。アクセスすべき識別子は、分解酵素により分解されなくてもよい。別の例では、識別子は、1本鎖であり得、識別子ライブラリは、アクセスされない識別子を選択的に分解させる、S1ヌクレアーゼ等の1本鎖特異的エンドヌクレアーゼと組み合わされ得る。アクセスすべき識別子は、識別子の相補的なセットとハイブリダイズされて、それらを1本鎖特異的エンドヌクレアーゼによる分解から保護し得る。アクセスすべき識別子は、サイズ選択クロマトグラフィ(例えば、アガロースゲル、電気泳動)等のサイズ選択により分解産物から単離され得る。代わりに又は加えて、分解されない識別子は、分解産物が増幅されないように選択的に増幅され得る(例えば、PCRを使用して)。非分解識別子は、非分解識別子の各末端にハイブリダイズされ、したがって分解又は開裂した識別子の各末端にハイブリダイズしないプライマーを使用して増幅され得る。
[00154] 図17Bは、ポリメラーゼ連鎖反応を使用して「OR」又は「AND」演算を実行し、複数の成分を含む識別子にアクセスする方法例を示す。一例では、2つの順方向プライマーが左末端上の識別子の別個のセットに結合する場合、識別子のそれらのセットの和集合の「OR」増幅は、右末端上の全ての識別子に結合する逆方向プライマーと共に、2つの順方向プライマーを乗算PCR反応で一緒に使用することにより達成され得る。別の例では、1つの順方向プライマーが左末端上の識別子のセットに結合し、1つの逆方向プライマーが右末端上の識別子のセットに結合する場合、識別子のそれらの2つのセットの共通部分の「AND」演算は、順方向プライマー及び逆方向プライマーを一緒にプライマー対としてPCR反応で使用することにより達成され得る。
[00155] 図17Cは、アフィニティタグを使用して「OR」又は「AND」演算を実行して、複数の成分を含む識別子にアクセスする方法例を示す。一例では、親和性プローブ「P1」が、成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が、成分「C2」を有する全ての識別子を捕捉する場合、C1又はC2を有する全ての識別子のセットは、P1及びP2を同時に使用する(「OR」演算に対応する)ことにより捕捉することができる。同じ成分及びプローブを用いる別の例では、C1及びC2を有する全ての識別子のセットは、P1及びP2を逐次使用する(「AND」演算に対応する)ことにより捕捉することができる。
核酸配列に格納された情報を読み取る方法
[00156] 別の態様において、本開示は、核酸配列に格納された情報を読み取る方法を提供する。核酸配列に格納された情報を読み取る方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリに存在する識別子を識別することと、(c)識別子ライブラリに存在する識別子から記号列を生成することと、(d)記号列から情報をコンパイルすることとを含み得る。識別子ライブラリは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の各識別子は、記号列内の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
[00157] 情報は、本明細書の他の箇所に記載のように、1つ又は複数の識別子ライブラリに書き込むことができる。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築され得る。格納されたデータは、本明細書の他の箇所に記載の任意の方法を使用してコピー及びアクセスされ得る。
[00158] 識別子は、符号化された記号の場所、符号化された記号の値又は符号化された記号の場所及び値の両方に関連する情報を含み得る。識別子は、符号化された記号の場所に関連する情報を含み得、識別子ライブラリ内のその識別子の有無は、記号の値を示し得る。識別子ライブラリ内の識別子の存在は、2進列内の第1の記号値(例えば、第1のビット値)を示し得、識別子ライブラリ内の識別子の不在は、2進列内の第2の記号値(例えば、第2のビット値)を示し得る。2進系では、ビット値を識別子ライブラリ内の識別子の有無に基づかせることで、組み立てる識別子の数を低減し得、したがって書込み時間を短縮し得る。一例では、識別子の存在は、マッピングされた場所におけるビット値「1」を示し得、識別子の不在は、マッピングされた場所におけるビット値「0」を示し得る。
[00159] 情報の記号(例えば、ビット値)を生成することは、記号(例えば、ビット)をマッピング又は符号化し得る識別子の有無を識別することを含み得る。識別子の有無を判断することは、現在の識別子をシーケンシングすること又はハイブリダイゼーションアレイを使用して識別子の存在を検出することを含み得る。一例では、符号化された配列の復号化及び読取りは、シーケンシングプラットフォームを使用して実行され得る。シーケンシングプラットフォームの例は、2014年12月18日付けで米国特許出願公開第2014-0371100A1号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」という名称の、2014年8月21日付けで出願された米国特許出願第14/465,685号;2013年9月5日付けで米国特許出願公開第2013-0231254A1号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」という名称の、2013年5月2日付けで出願された米国特許出願第13/886,234号;及び2009年10月8日付けで米国特許出願公開第2009-0253141A1号として公開された、「METHODS AND APPARATUSES FOR ANALYZING POLYNUCLEOTIDE SEQUENCES」という名称の、2009年3月9日付けで出願された米国特許出願第12/400,593号に記載されており、これらの各々は、全体的に参照により本明細書に援用される。
[00160] 一例では、核酸符号化されたデータを復号化することは、Illumina(登録商標)シーケンシング等の核酸鎖の塩基毎のシーケンシング又は毛細管電気泳動による断片解析等の特定の核酸配列の有無を示すシーケンシング技法を利用することにより達成され得る。シーケンシングは、可逆的ターミネータの使用により採用され得る。シーケンシングは、天然又は非天然(例えば、工学的に操作された)ヌクレオチド又はヌクレオチド類似体の使用を採用し得る。代わりに又は加えて、核酸配列を復号化することは、限定されないが、光信号、電子化学信号又は化学信号を生成する任意の方法を含め、多様な解析的技法を使用して実行され得る。限定されないが、ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシーケンシング、高スループットシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ライゲーションによるシーケンシング、RNA-Seq(Illuimna)、次世代シーケンシング、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガンシーケンシング、マキサム-ギルバートシーケンシング又は大規模並列シーケンシングを含め、多様なシーケンシング手法が使用可能である。
[00161] 種々の読取り方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ(又は任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)及び種々のシーケンシングプラットフォームをさらに使用して、符号化された配列及び伸長によりデジタル符号化されたデータを読み取ることができる。
[00162] 識別子ライブラリは、情報についてのメタデータを提供する補足核酸配列、情報を暗号化若しくはマスクする補足核酸配列又はメタデータの提供及び情報のマスクの両方を行う補足核酸配列をさらに含み得る。補足核酸を識別子の識別と同時に識別し得る。代替的に、識別子を識別する前又は識別した後に補足核酸を識別し得る。一例では、補足核酸配列は、符号化された情報の読取り中に識別されない。補足核酸配列を識別子と区別できないこともある。識別子索引又は鍵を使用して、補足核酸分子と識別子とを差別化し得る。
[00163] より少ない核酸分子の使用を可能にするように入力ビット列を再符号化することにより、データの符号化及び復号化効率を高め得る。例えば、符号化方法で3つの核酸分子(例えば、識別子)にマッピングされ得る「111」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「000」部分列に再符号化し得る。「000」の代替入力部分列を「111」に再符号化することもできる。この再符号化方法は、データセット中の「1」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させ得る。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させ得る。符号化及び復号化効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「111」を「00」に再符号化し得、これは、データセットのサイズを縮小し、データセット中の「1」の数を低減させ得る。
[00164] 検出を容易にするように識別子を特異的に設計することにより、核酸符号化データを復号化する速度及び効率を制御する(例えば、高める)ことができる。例えば、検出を容易にするように設計される核酸配列(例えば、識別子)は、それらの光学的、電気化学的、化学的又は物理学的特性に基づいて呼び出すこと及び検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。工学的に操作された核酸配列は、一本鎖状又は二本鎖状のいずれでもあり得る。工学的に操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成又は非天然ヌクレオチドを含み得る。工学的に操作された核酸配列は、全て天然ヌクレオチドを含み得るか、全て合成若しくは非天然ヌクレオチドを含み得るか、又は天然ヌクレオチドと、合成ヌクレオチドと、非天然ヌクレオチドとの組合せを含み得る。合成ヌクレオチドとしては、ヌクレオチド類似体、例えばペプチド核酸、ロックド核酸、グリコール核酸及びトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、dNaM、3-メトキシ-2-ナフチル基を含む人工ヌクレオシド及びd5SICS、6-メチルイソキノリン-1-チオン-2-イル基を含む人工ヌクレオシドを挙げることができる。工学的に操作された核酸配列は、増強された光学的特性等、単一の増強された特性のために設計され得るか、又は設計される核酸配列は、増強された光学的及び電気化学的特性若しくは増強された光学的及び化学的特性等、複数の増強された特性を伴って設計され得る。DNA設計については、化学的方法セクションHを参照されたい。
[00165] 工学的に操作された核酸配列は、核酸配列の光学的、電気化学的、化学的又は物理的特性を向上させない反応性天然、合成及び非天然ヌクレオチドを含み得る。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含み得るか又は複数の化学的部分を含み得る。化学的部分の例としては、蛍光部分、化学発光部分、酸性又は塩基性部分、疎水性又は親水性部分及び核酸配列の酸化状態又は反応性を変更する部分が挙げられるが、これらに限定されない。
[00166] シーケンシングプラットフォームは、核酸配列に符号化された情報の復号化及び読取りのために特異的に設計され得る。シーケンシングプラットフォームは、一本鎖又は二本鎖核酸分子のシーケンシング専用であり得る。シーケンシングプラットフォームは、個々の塩基を読み取ること(例えば、塩基毎のシーケンシング)又は核酸分子(例えば、識別子)に組み込まれた全核酸配列(例えば、成分)の存在若しくは非存在を検出することにより、核酸符号化データを復号化し得る。シーケンシングプラットフォームは、無差別な試薬の使用、読取り長の延長の使用及び検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含み得る。シーケンシング中のより多くの無差別な試薬の使用は、より速い塩基呼び出しを可能にすることにより読取り効率を高めることができ、その結果としてシーケンシング時間を短縮することができる。読取り長の延長の使用は、符号化された核酸のより長い配列を読取り毎に復号化することを可能にし得る。検出可能な化学的部分タグの付加は、化学的部分の有無により核酸配列の有無の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列は、固有の光学的、電気化学的又は化学的シグナルを生成する化学的部分においてタグ付けされ得る。その一意の光学的、電気化学的又は化学的シグナルの有無は、「0」又は「1」ビット値を示し得る。核酸配列は、単一の化学的部分を含み得るか又は複数の化学的部分を含み得る。データを符号化するための核酸配列の使用前に化学的部分を核酸配列に付加させ得る。代わりに又は加えて、データの符号化後であるが、データを復号化する前に化学的部分を核酸配列に付加させ得る。化学的部分タグを核酸配列に直接付加させ得るか、又は核酸配列が合成又は非天然ヌクレオチドアンカーを含み得、そのアンカーに化学的部分タグを付加させ得る。
[00167] 符号化及び復号化エラーを最小限にするか又は検出するために、一意のコードを適用し得る。符号化及び復号化エラーは、偽陰性(無作為サンプリングに含まれない核酸分子又は識別子)により起こり得る。誤り検出コードの一例は、識別子ライブラリに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリの読取り中、チェックサムは、識別子のその連続セットからの取得期待数を示し得、識別子は、その期待数が満たされるまで読取りのためのサンプリングを継続し得る。一幾つかの実施形態では、チェックサム配列をR識別子の連続セット毎に含め得、ここで、Rは、サイズが1、2、5、10、50、100、200、500若しくは1000以上であり得るか、又は1000、500、200、100、50、10、5若しくは2未満であり得る。Rの値が小さいほど、誤り検出が良好である。幾つかの実施形態では、チェックサムは、補足核酸配列であり得る。例えば、7個の核酸配列(例えば、成分)を含むセットを、産物方式で識別子を構築するための核酸配列(層X中の成分X1~X3及び層Y中のY1~Y3)と補足チェックサムのための核酸配列(X4~X7及びY4~Y7)との2つの群に分けることができる。チェックサム配列X4~X7は、層Xの0、1、2又は3個の配列が層Yの各メンバと組み立てられるか否かを示すことができる。代替的に、チェックサム配列Y4~Y7は、層Yの0、1、2又は3個の配列が層Xの各メンバと組み立てられるか否かを示し得る。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリを、以下のプールになるようにチェックサムを含むように補足し得る:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列をエラー補正に使用し得る。例えば、上記データセットにおけるX1Y1の非存在並びにX1Y6及びX6Y1の存在は、X1Y1核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリのサンプリング又は識別子ライブラリのアクセスされる部分から欠けているか否かを示し得る。欠けているチェックサム配列の場合、PCR又はアフィニティタグ付きプローブハイブリダイゼーション等のアクセス方法は、それを増幅及び/又は単離し得る。幾つかの実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化し得、その結果、それらは、識別子によって表される。
[00168] データ符号化及び復号化のノイズは、パリンドロームとして識別子を構築することにより、例えば産物方式において単一成分ではなく成分のパリンドローム対を使用することにより低減され得る。次いで、異なる層からの成分の対をパリンドローム様式(例えば、成分X及びYについてXYではなくYXY)で互いに組み立て得る。このパリンドローム方法は、より多くの数の層(例えば、XYZではなくZYXYZ)に拡大され得、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。
[00169] 識別子への過剰(例えば、大過剰)な補足核酸配列の付加は、シーケンシングによる符号化された識別子の収集を妨げる恐れがある。情報の復号化前に識別子は補足核酸配列により濃縮され得る。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子は濃縮され得る。代わりに又は加えて、特異的プライマーを使用するシーケンシング(例えば、合成によるシーケンシング)により、サンプルプールを濃縮することなく情報を復号化し得る。両方の復号化方法において、復号化鍵がないか又は識別子の組成について何らかのことが分かっていなければ、情報を濃縮又は復号化することは、困難であり得る。アフィニティタグベースのプローブの使用等の代替アクセス方法を利用することもできる。
2進配列データを符号化するシステム
[00170] デジタル情報を核酸(例えば、DNA)に符号化するシステムは、ファイル及びデータ(例えば、生データ、圧縮されたzipファイル、整数データ及び他の形態のデータ)をバイトに変換し、バイトを核酸、典型的にはDNAのセグメント、配列又はこれらの組合せに符号化するシステム、方法及びデバイスを含み得る。
[00171] 一態様において、本開示は、核酸を使用して2進配列データを符号化するシステムを提供する。核酸を使用して2進配列データを符号化するシステムは、デバイスと、1つ又は複数のコンピュータプロセッサとを含み得る。デバイスは、識別子ライブラリを構築するように構成され得る。1つ又は複数のコンピュータプロセッサは、個々に又は集合的に、(i)情報を記号列に翻訳することと、(ii)記号列を複数の識別子にマッピングすることと、(iii)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを行うようにプログラムされ得る。複数の識別子のうちの個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。
[00172] 別の態様において、本開示は、核酸を使用して2進配列データを読み取るシステムを提供する。核酸を使用して2進配列データを読み取るシステムは、データベースと、1つ又は複数のコンピュータプロセッサとを含み得る。データベースは、情報を符号化した識別子ライブラリを格納し得る。1つ又は複数のコンピュータプロセッサは、個々に又は集合的に、(i)識別子ライブラリ内の識別子を識別することと、(ii)(i)において識別された識別子から複数の記号を生成することと、(iii)複数の記号から情報をコンパイルすることとを行うようにプログラムされ得る。識別子ライブラリは、複数の識別子のサブセットを含み得る。複数の識別子の個々の各識別子は、記号列内の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
[00173] システムを使用してデジタルデータを符号化する方法の非限定的な実施形態は、バイトストリームの形態でデジタル情報を受信するステップを含む。バイトストリームを個々のバイトに解析し、核酸索引(又は識別子ランク)を使用してバイト内のビットの場所をマッピングし、ビット値1又はビット値0のいずれかに対応する配列を識別子に符号化する。デジタルデータを検索するステップは、1つ又は複数のビットにマッピングされる核酸の配列(例えば、識別子)を含む核酸サンプル又は核酸プールをシーケンシングすることと、識別子ランクを参照して、識別子が核酸プールに存在するか否かを確認することと、各配列の場所及びビット値情報を復号化して、デジタル情報の配列を含むバイトにすることとを含み得る。
[00174] 符号化され核酸分子に書き込まれた情報を符号化、書込み、コピー、アクセス、読取り及び復号化するシステムは、単一の一体ユニットであり得るか、又は上記演算の1つ若しくは複数を実行するように構成された複数のユニットであり得る。情報を符号化し核酸分子(例えば、識別子)に書き込むシステムは、デバイスと、1つ又は複数のコンピュータプロセッサとを含み得る。1つ又は複数のコンピュータプロセッサは、情報を解析して記号列(例えば、ビット列)にするようにプログラムされ得る。コンピュータプロセッサは、識別子ランクを生成し得る。コンピュータプロセッサは、記号を2つ以上のカテゴリに分類され得る。1つのカテゴリは、識別子ライブラリ内の対応する識別子の存在によって表される記号を含み得、別のカテゴリは、識別子ライブラリ内の対応する識別子の不在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリ内の識別子の存在に対して表される記号に対応する識別子を組み立てるようにデバイスに指示し得る。
[00175] デバイスは、複数の領域、セクション又は区画を含み得る。識別子を組み立てるための試薬及び成分は、デバイスの1つ又は複数の領域、セクション又は区画に格納され得る。層をデバイスのセクションの別個の領域に格納し得る。層は、1つ又は複数の一意の成分を含み得る。1つの層内の成分は、別の層内の成分から一意に区別され得る。領域又はセクションは、容器を含み得、区画は、ウェルを含み得る。各層は、別々の容器又は区画に格納され得る。各試薬又は核酸配列は、別々の容器又は区画に格納され得る。代わりに又は加えて、複数の試薬を組み合わせて、識別子を構築するためのマスタミックスを形成し得る。デバイスは、あるセクションで組み合わされるべき試薬、成分及び鋳型をデバイスの別のセクションから移送し得る。デバイスは、アセンブリ反応を完了するための条件を提供し得る。例えば、デバイスは、加熱、攪拌及び反応進行の検出を提供し得る。構築された識別子は、バーコード、共通配列、可変配列又はタグを識別子の1つ又は複数の末端に付加する1つ又は複数の続く反応を経るように向けられ得る。次いで、識別子は、識別子ライブラリを生成する領域又は区画に向けられ得る。1つ又は複数の識別子ライブラリは、デバイスの各領域、セクション又は個々の区画に格納され得る。デバイスは、圧力、真空又は吸引を使用して流体(例えば、試薬、成分、鋳型)を移送し得る。
[00176] 識別子ライブラリは、デバイスに格納され得るか又は別々のデータベースに移され得る。データベースは、1つ又は複数の識別子ライブラリを含み得る。データベースは、識別子ライブラリの長期格納条件(例えば、識別子の分解を低減するための条件)を提供し得る。識別子ライブラリは、粉体、液体又は固体形態で格納し得る。識別子の水溶液は、より安定した格納のために凍結乾燥され得る(凍結乾燥についての詳細な情報については、化学的方法セクションGを参照されたい)。代替的に、識別子は、酸素の不在下で格納され得る(例えば、嫌気性格納条件)。データベースは、紫外線光保護、低温(例えば、冷蔵又は冷凍)及び分解させる化学物質及び酵素からの保護を提供し得る。データベースへの移送前に、識別子ライブラリは、凍結乾燥又は凍結され得る。識別子ライブラリは、ヌクレアーゼを不活性化するエチレンジアミン四酢酸(EDTA)及び/又は核酸分子の安定性を維持するための緩衝液を含み得る。
[00177] データベースは、情報を識別子に書き込み、情報をコピーし、情報にアクセスするか、又は情報を読み取るデバイスに結合され得るか、そのデバイスを含み得るか、又はそのデバイスとは別々であり得る。識別子ライブラリの一部分は、コピー、アクセス又は読取り前にデータベースから除去され得る。情報をデータベースからコピーするデバイスは、情報を書き込むものと同じ又は異なるデバイスであり得る。情報をコピーするデバイスは、デバイスから識別子ライブラリのアリコートを抽出し、そのアリコートを試薬及び構成物質と組み合わせて、識別子ライブラリの一部分又は全体を増幅し得る。デバイスは、増幅反応の温度、圧力及び攪拌を制御し得る。デバイスは、複数の区画を含み得、1つ又は複数の増幅反応は、識別子ライブラリを含む区画で行われ得る。デバイスは、一度に2つ以上の識別子プールをコピーし得る。
[00178] コピーされた識別子は、コピーデバイスからアクセスデバイスに移送され得る。アクセスデバイスは、コピーデバイスと同じデバイスであり得る。アクセスデバイスは、別々の領域、セクション又は区画を含み得る。アクセスデバイスは、アフィニティタグに結合された識別子を単離するための1つ又は複数のカラム、ビーズ貯槽又は磁性領域を有し得る(核酸捕捉については、化学的方法セクションFを参照されたい)。代わりに又は加えて、アクセスデバイスは、1つ又は複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動又は核酸分子をサイズ選択する任意の他の方法を含み得る(核酸サイズ選択の詳細な情報については、化学的方法セクションEを参照されたい)。コピー及び抽出は、デバイスの同じ領域で実行され得るか、又はデバイスの異なる領域で実行され得る(核酸増幅については、化学的方法セクションDを参照されたい)。
[00179] アクセスされたデータは、同じデバイスで読み出され得るか、又はアクセスされたデータは、別のデバイスに移送され得る。読取りデバイスは、識別子を検出し、識別する検出ユニットを含み得る。検出ユニットは、シーケンサ、ハイブリダイゼーションアレイ又は識別子の有無を識別するための他のユニットの一部であり得る。シーケンシングプラットフォームは、核酸配列に符号化された情報を復号化し、読み取るように特に設計され得る。シーケンシングプラットフォームは、1本鎖又は2本鎖核酸分子のシーケンシングに特化し得る。シーケンシングプラットフォームは、個々の塩基を読み取る(例えば、塩基毎のシーケンシング)ことにより又は核酸分子(例えば、識別子)内に組み込まれた核酸配列(例えば、成分)全体の有無を検出することにより、核酸符号化されたデータを復号化し得る。代替的に、シーケンシングプラットフォームは、Illumina(登録商標)シーケンシング又は毛細管電気泳動による断片化解析等のシステムであり得る。代わりに又は加えて、核酸配列の復号化は、限定されないが、光信号、電子化学信号又は化学信号を生成する任意の方法を含め、デバイスにより実施される多様な解析技法を使用して実行され得る。
[00180] 核酸分子への情報格納には、限定されないが、長期情報格納、機密情報格納及び医療情報の格納を含め、種々の用途があり得る。一例では、人の医療情報(例えば、病歴及び医療記録)を核酸分子に格納し、その人に渡すことができる。情報は、身体外(例えば、ウェアラブルデバイスに)又は身体内(例えば、皮下カプセル)に格納され得る。患者が診療所又は病院に運ばれた場合、サンプルをデバイス又はカプセルからとり得、核酸シーケンサを使用して情報を復号化し得る。核酸分子への医療記録の個人的な格納は、コンピュータ及びクラウドベースの格納システムに対する代替を提供し得る。核酸分子への医療記録の個人的な格納は、医療記録がハッキングされる事例又は医療記録ハッキングの蔓延を低減し得る。医療記録のカプセルベースの格納に使用される核酸分子は、ヒトのゲノム配列から導出され得る。ヒトのゲノム配列の使用は、カプセルの故障又は漏出の場合、核酸配列の免疫原性を低減し得る。
コンピュータシステム
[00181] 本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図19は、デジタル情報を核酸配列に符号化及び/又は核酸配列から導出された情報を読み取る(例えば復号化する)ようにプログラム又は他の方法で構成されたコンピュータシステム1901を示す。コンピュータシステム1901は、例えば、符号化されたビットストリーム又はバイトストリームからの所与のビット又はバイトのビット値及びビット場所情報等、本開示の符号化手順及び復号化手順の種々の態様を調整することができる。
[00182] コンピュータシステム1901は、シングルコア若しくはマルチコアプロセッサであり得る1つの中央演算処理装置(CPU、本明細書ではまた「プロセッサ」及び「コンピュータプロセッサ」)又は並列処理のための複数のプロセッサを含む。コンピュータシステム1901は、メモリ又はメモリロケーション1910(例えば、ランダムアクセスメモリ、読取り専用メモリ、フラッシュメモリ)、電子格納ユニット1915(例えば、ハードディスク)、1つ又は複数の他のシステムと通信するための通信インタフェース1920(例えば、ネットワークアダプタ)及びキャッシュ、他のメモリ、データストレージ及び/又は電子ディスプレイアダプタ等の周辺機器1925も含む。メモリ1910、ストレージユニット1915、インタフェース1920及び周辺機器1925は、マザーボード等の通信バス(実線)を通してCPU1905と通信する。ストレージユニット1915は、データを格納するためのデータ格納ユニット(又はデータリポジトリ)であり得る。コンピュータシステム1901は、通信インタフェース1920を用いてコンピュータネットワーク(「ネットワーク」)1930に動作可能に結合することができる。ネットワーク1930は、インターネット、インターネット及び/又はエクストラネット又はインターネットと通信するイントラネット及び/又はエクストラネットであり得る。幾つかの事例では、ネットワーク1930は、電気通信ネットワーク及び/又はデータネットワークである。ネットワーク1930は、クラウド計算等の分散計算を可能にすることができる1つ又は複数のコンピュータサーバを含み得る。幾つかの事例では、ネットワーク1930は、コンピュータシステム1901を用いてピアツーピアネットワークを実施することができ、ピアツーピアネットワークは、コンピュータシステム1901に結合されたデバイスがクライアント又はサーバとして挙動できるようにし得る。
[00183] CPU1905は、プログラム又はソフトウェアで具現化することができる機械可読命令シーケンスを実行することができる。命令は、メモリ1910等のメモリロケーションに格納され得る。命令は、CPU1905に向けることができ、続けて本開示の方法を実施するようにCPU1905をプログラム又は他の方法で構成することができる。CPU1905により実行される動作の例には、フェッチ、復号化、実行及びライトバックがあり得る。
[00184] CPU1905は、集積回路等の回路の一部であり得る。システム1901の1つ又は複数の他の構成要素は、回路に含まれ得る。幾つかの事例では、回路は、特定用途向け集積回路(ASIC)である。
[00185] ストレージユニット1915は、ドライバ、ライブラリ及び保存されたプログラム等のファイルを格納することができる。ストレージユニット1915は、ユーザデータ、例えばユーザの好み及びユーザプログラムを格納することができる。コンピュータシステム1901は、幾つかの事例では、イントラネット又はインターネットを通してコンピュータシステム1901と通信するリモートサーバに配置される等、コンピュータシステム1901の外部にある1つ又は複数の追加のデータストレージユニットを含み得る。
[00186] コンピュータシステム1901は、ネットワーク1930を通して1つ又は複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム1901は、ユーザのリモートコンピュータシステム及び/又は核酸配列(例えば、核酸配列中の窒素塩基の順序を化学的に特定するための配列又は他のシステム)において符号化又は復号化されたデータを解析する過程でユーザにより使用され得る機械により使用され得る機械と通信することができる。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレート又はタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))又は個人情報端末がある。ユーザは、ネットワーク1930を介してコンピュータシステム1901にアクセスすることができる。
[00187] 本明細書に記載の方法は、例えば、メモリ1910又は電子ストレージユニット1915等のコンピュータシステム1901の電子格納場所に格納された機械(例えば、コンピュータプロセッサ)実行可能コードにより実施することができる。機械実行可能又は機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサ1905により実行することができる。幾つかの事例では、コードは、ストレージユニット1915から検索され、プロセッサ1905による容易なアクセスためのメモリ1910に格納することができる。幾つかの状況では、電子ストレージユニット1915が除外され得、機械実行可能命令は、メモリ1910に格納される。
[00188] コードは、プレコンパイルされ、コードを実行するように適合されたプロセッサを有する機械と併用されるように構成され得るか又は実行時中にコンパイルされ得る。コードは、プレコンパイル様式又は実行時コンパイル様式でコードを実行できるようにするように選択することができるプログラミング言語で供給することができる。
[00189] コンピュータシステム1901等の本明細書で提供されるシステム及び方法の態様は、プログラミングで具現化することができる。本技術の種々の態様は、ある種の機械可読媒体で搬送又は具現化される典型的には機械(又はプロセッサ)実行可能コード及び/又は関連データの形態の「製品」又は「製造品」として考えることができる。機械実行可能コードは、メモリ(例えば、読取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスク等の電子ストレージユニットに格納することができる。「格納」タイプの媒体は、コンピュータ、プロセッサ等のあらゆる有形メモリ又ソフトウェアプログラミングに非一時的格納を随時提供し得る種々の半導体メモリ、テープドライブ、ディスクドライブ等の関連モジュールを含み得る。ソフトウェアの全て又は一部分は、ときにインターネット又は種々の他の電気通信ネットワークを通して通信し得る。そのような通信は、例えば、あるコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば管理サーバ又はホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにソフトウェアをロードできるようにし得る。したがって、ソフトウェア要素を運び得る別のタイプの媒体には、有線及び光学陸線ネットワークを通して及び種々のエアリンクを経由してローカルデバイス間で物理的インタフェースにわたって使用される等の光波、電波及び電磁波がある。有線又は無線リンク、光リンク等のそのような波動を運ぶ物理的要素もソフトウェアを運ぶ媒体としてみなすことができる。本明細書で使用される場合、非一時的有形「格納」媒体に制限されない限り、コンピュータ又は機械「可読媒体」等の用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
[00190] したがって、コンピュータ実行可能コード等の機械可読媒体は、限定されないが、有形格納媒体、搬送波媒体又は物理的伝送媒体を含め、多くの形態をとり得る。不揮発性格納媒体は、例えば、図面に示されているデータベース等の実施に使用され得る等の任意のコンピュータ等における記憶装置のいずれか等の光ディスク又は磁気ディスクを含む。揮発性格納媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、コンピュータシステム内のバスを含むワイヤを含め、同軸ケーブル、銅線及び光ファイバを含む。搬送波伝送媒体は、無線周波(RF)及び赤外線(IR)データ通信中に生成されるもの等の電気信号、電磁信号、音波又は光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD若しくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的格納媒体、RAM、ROM、PROM及びEPROM、フラッシュEPROM、任意の他のメモリチップ若しくはカートリッジ、データ若しくは命令を輸送する搬送波、そのような搬送波を輸送するケーブル若しくはリンク又はコンピュータがプログラミングコード及び/又はデータを読み取り得る任意の他の媒体がある。コンピュータ可読媒体のこれらの形態の多くは、1つ又は複数の命令の1つ又は複数のシーケンスを実行のためにプロセッサに搬送することに関わり得る。
[00191] コンピュータシステム1901は、例えば、DNA格納データに符号化又は復号化されるべき核酸、生データ、ファイル及び圧縮若しくは圧縮解除されたzipファイルを符号化又は復号化している機械又はコンピュータシステムにより符号化又は読み出される、例えば配列及びビット、バイト又はビットストリームを含む配列出力データを提供するための、ユーザインタフェース(UI)1940を含む電子表示1935を含み得るか又はそれと通信し得る。UIの例には、限定ではなく、グラフィカルユーザインタフェース(GUI)及びウェブベースのユーザインタフェースがある。本開示の方法及びシステムは、1つ又は複数のアルゴリズムにより実施することができる。アルゴリズムは、中央演算処理装置1905により実行されるとき、ソフトウェアにより実施することができる。アルゴリズムは、デジタル情報を符号化する前に、生データ又はzipファイル圧縮データからデジタル情報をコーディングするカスタマイズされた方法を決定するために、例えばDNA索引及び生データ又はzipファイルの圧縮又は解凍されたデータと併用することができる。
化学的方法セクション
A.オーバーラップ伸長PCR(OEPCR)アセンブリ
[00192] OEPCRでは、成分は、ポリメラーゼ及びdNTP(dATP、dTTP、dCTP、dGTP又はそれらのバリアント若しくは類似体を含むデオキシヌクレオチド三リン酸)を含む反応で組み立てられる。成分は、1本鎖又は2本鎖核酸であり得る。互いに隣接して組み立てられるべき成分は、相補的な3’末端、相補的な5’末端又はある成分の5’末端と、隣接する成分の3’末端との間に相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と呼ばれ、OEPCR中、成分間にハイブリダイズされた接合部が形成されることを促進することを目的とし、1つの入力成分(又はその相補体)の3’末端は、意図される隣接する成分(又はその相補体)の3’末端にハイブリダイズされる。次いで、ポリメラーゼ伸長により、組み立てられた2本鎖産物を形成することができる。次いで、続くハイブリダイゼーション及び伸長を通して、この産物をより多くの成分に組み付け得る。図7は、3つの核酸を組み立てるためのOEPCRの一例の概略図を示す。
[00193] 幾つかの実施形態では、OEPCRは、3つの温度間循環を含み得る:融解温度、アニーリング温度及び伸長温度。融解温度は、2本鎖核酸を1本鎖核酸に変えると共に、成分内又は成分間の二次構造又はハイブリダイゼーションの形成を除去することを意図する。典型的には、融解温度は、高く、例えば95℃を超える。幾つかの実施形態では、融解温度は、少なくとも96℃、97℃、98℃、99℃、100℃、101℃、102℃、103℃、104℃又は105℃であり得る。他の実施形態では、融解温度は、最大で95℃、94℃、93℃、92℃、91℃又は90℃であり得る。融解温度が高いほど、核酸及びそれらの二次構造の解離を改善し得るが、核酸又はポリメラーゼの分解等の副作用も生じさせ得る。融解温度は、少なくとも1秒、2秒、3秒、4秒、5秒又はそれよりも長く、例えば30秒、1分、2分若しくは3分にわたって反応に適用され得る。
[00194] アニーリング温度は、意図される隣接成分(又はそれらの相補体)の相補的な3’末端間のハイブリダイゼーションの形成を促進することを意図する。幾つかの実施形態では、アニーリング温度は、意図されるハイブリダイズされた核酸形成の計算された融解温度に一致し得る。他の実施形態では、アニーリング温度は、前記融解温度の10℃以上以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも25℃、30℃、50℃、55℃、60℃、65℃又は70℃であり得る。融解温度は、成分間の意図されるハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど、高い融解温度を有し、グアニン又はシトシンヌクレオチドの含有率が高いハイブリダイゼーション領域ほど、高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に組み立てることを意図するOEPCR反応に向けて成分を設計することが可能であり得る。アニーリング温度は、少なくとも1秒、5秒、10秒、15秒、20秒、25秒、30秒又はそれを超える時間にわたって反応に適用され得る。
[00195] 伸長温度は、1つ又は複数のポリメラーゼ酵素により触媒されたハイブリダイズされた3’末端の核酸鎖伸長を開始し、促進することを意図する。幾つかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性又は忠実性の点で最適に機能する温度に設定され得る。幾つかの実施形態では、伸長温度は、少なくとも30℃、40℃、50℃、60℃、70℃又はそれを超える温度であり得る。アニーリング温度は、少なくとも1秒、5秒、10秒、15秒、20秒、25秒、30秒、40秒、50秒、60秒又はそれよりも長い時間にわたって反応に適用され得る。推奨される伸長時間は、予期される伸長1キロベース当たり15~45秒前後であり得る。
[00196] OEPCRの幾つかの実施形態では、アニーリング温度及び伸長温度は、同じであり得る。したがって、3ステップ温度サイクルの代わりに2ステップ温度サイクルを使用することができる。アニーリング温度及び伸長温度の例には、60℃、65℃又は72℃がある。
[00197] 幾つかの実施形態では、OEPCRは、1つの温度サイクルを用いて実行され得る。そのような実施形態は、2つのみの成分の意図される組立てを含み得る。他の実施形態では、OEPCRは、複数の温度サイクルを用いて実行され得る。OEPCRにおける任意の所与の核酸は、1つのサイクルで最大で1つの他の核酸に組み付けられ得る。これは、組立て(又は伸長若しくは延長)が核酸の3’末端のみで行われ、各核酸が1つのみの3’末端を有するためである。したがって、複数の成分を組み立てるには、複数の温度サイクルが必要であり得る。例えば、4個の成分を組み立てることは、3つの温度サイクルを含み得る。6個の成分を組み立てることは、5つの温度サイクルを含み得る。10個の成分を組み立てることは、9つの温度サイクルを含み得る。幾つかの実施形態では、必要最低限よりも多くの温度サイクルを使用して、組立て効率を上げることができる。例えば、4つの温度サイクルを使用して2個の成分を組み立てることにより、1つのみの温度サイクルを使用するよりも産物収率を高くし得る。これは、成分のハイブリダイゼーション及び延長が、各サイクルにおける成分の総数の関数として生じる統計学的事象であるためである。したがって、組み立てられる成分の総割合は、サイクル数の増大に伴って増大し得る。
[00198] 温度循環考慮事項に加えて、OEPCRにおける核酸配列の設計も互いへの組み付け効率に影響し得る。ハイブリダイゼーション領域が長い核酸は、ハイブリダイゼーション領域が短い核酸と比べて、所与のアニーリング温度でより効率的にハイブリダイズされ得る。これは、ハイブリダイズされた産物が長いほど、ハイブリダイズされた産物が短い場合よりも多数の安定した塩基対を含み、したがってハイブリダイズされた産物全体でより安定するためである。ハイブリダイゼーション領域は、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個又はそれよりも多くの塩基分の長さを有し得る。
[00199] グアニン又はシトシン含有率が高いハイブリダイゼーション領域ほど、所与の温度において、グアニン又はシトシン含有率が低いハイブリダイゼーション領域よりも効率的にハイブリダイズされ得る。これは、アデニンがチミンと塩基対を形成するよりも、グアニンがシトシンとより安全した塩基対を形成するためである。ハイブリダイゼーション領域は、0%~100%の任意の値のグアニン又はシトシン含有率(GC含有率としても知られている)を有し得る。
[00200] ハイブリダイゼーション領域長及びGC含有率に加えて、OEPCRの効率に影響し得る核酸配列設計のはるかに多くの態様が存在する。例えば、成分内の望ましくない二次構造の形成は、意図される隣接成分とハイブリダイゼーション産物を形成する能力に干渉する恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸に対して生じる可能性のある二次構造のタイプ及びそれらの安定性(例えば、融解温度)は、配列に基づいて予測され得る。設計空間探索アルゴリズムを使用して、潜在的に阻害性二次構造を有する配列を回避しながら、効率的なOEPCRに適切な長さ及びGC含有率基準を満たす核酸配列を特定し得る。設計空間探索アルゴリズムは、遺伝アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分枝限定探索アルゴリズム、ダイナミックプログラミングベースのアルゴリズム、制約付き組合せ最適化、勾配降下ベースのアルゴリズム、ランダム探索アルゴリズム又はそれらの組合せを含み得る。
[00201] 同様に、ホモ二量体(同じ配列の核酸分子とハイブリダイズする核酸分子)及び不要なヘテロ二量体(意図される組立て相手以外の核酸配列とハイブリダイズする核酸配列)の形成もOEPCRと干渉する恐れがある。核酸内の二次構造と同様に、計算方法及び設計空間探索アルゴリズムを使用して、核酸設計中にホモ二量体及びヘテロ二量体の形成を予測し、考慮に入れることもできる。
[00202] 核酸配列が長いほど又はGC含有率が高いほど、OEPCRに伴って形成される不要な二次構造、ホモ二量体及びヘテロ二量体が増え得る。したがって、幾つかの実施形態では、より短い核酸配列又はより低いGC含有率の使用は、より高い組立て効率に繋がり得る。これらの設計原理は、より効率的な組立てに向けて長いハイブリダイゼーション領域又は高いGC含有率を使用する設計戦略に対抗し得る。したがって、幾つかの実施形態では、OEPCRは、高いGC含有率を有する長いハイブリダイゼーション領域を使用するが、低いGC含有率を有する短い非ハイブリダイゼーション領域を使用することにより最適化され得る。核酸の全長は、塩基少なくとも10個、20個、30個、40個、50個、60個、70個、80個、90個、100個又はそれよりも多くの個数分であり得る。幾つかの実施形態では、組立て効率が最適化される、核酸のハイブリダイゼーション領域の最適な長さ及び最適なGC含有率が存在し得る。
[00203] OEPCR反応における別個の核酸の数が多いほど、予期される組立て効率に干渉する恐れがある。これは、別個の核酸配列の数が多いほど、特にヘテロ二量体の形態の望ましくない分子相互作用の確率が高くなり得るためである。したがって、多数の成分を組み立てるOEPCRの幾つかの実施形態では、効率的な組立てのために核酸配列制約がより厳しくなり得る。
[00204] 期待される最終的に組み立てられた産物を増幅するためのプライマーをOEPCR反応に含め得る。その場合、OEPCR反応は、より多くの温度サイクルを用いて実行されて、構成成分間により多くのアセンブリを作り出すのみならず、完全に組み立てられたサンプルを従来のPCRの様式で指数的に増幅することによりも、組み立てられる産物の収率を改善し得る(化学的方法セクションDを参照されたい)。
[00205] 添加剤をOEPCR反応に含めて、組立て効率を改善し得る。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)又はそれらの組合せの添加である。添加剤含有率(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%又はそれを超え得る。
[00206] 種々のポリメラーゼがOEPCRに使用可能である。ポリメラーゼは、天然に発生するもの又は合成されたものであり得る。ポリメラーゼの一例は、Φ29ポリメラーゼ又はその誘導体である。幾つかの事例では、新しい核酸配列を構築するために、転写酵素又はリガーゼ(即ち結合の形成を触媒する酵素)がポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例には、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌(E. coli)DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’エキソヌクレアーゼ活性を有するKlenow断片ポリメラーゼ並びにそれらのバリアント、修飾産物及び誘導体がある。異なるポリメラーゼは、異なる温度で安定し、最適に機能し得る。さらに、異なるポリメラーゼは、異なる性質を有する。例えば、Phusionポリメラーゼ等の幾つかのポリメラーゼは、核酸延長中、より高い忠実性に寄与し得る3’から5’エキソヌクレアーゼ活性を示し得る。ポリメラーゼによっては、延長中、先導配列を変位させるものもあれば、先導配列を分解又は延長を停止させるものもある。ポリメラーゼによっては、Taqのように、核酸配列の3’末端にアデニン塩基を組み込むものがある。このプロセスは、Aテーリングと呼ばれ、アデニン塩基の付加は、意図される隣接成分間に設計される3’相補性を妨害する恐れがあるため、OEPCRを阻害する恐れがある。
[00207] OEPCRは、ポリメラーゼサイクルアセンブリ(又はPCA)と呼ぶこともできる。
B.ライゲーションアセンブリ
[00208] ライゲーションアセンブリでは、1つ又は複数のリガーゼ酵素及び追加の補因子を含む反応において、別々の核酸が組み立てられる。補因子は、アデノシン三リン酸(ATP)、ジチオスレイトール(DTT)又はマグネシウムイオン(Mg2+)を含み得る。ライゲーション中、1本の核酸鎖の3’末端は、別の核酸鎖の5’末端に共有結合され、したがって組み立てられた核酸を形成する。ライゲーション反応における成分は、平滑末端2本鎖DNA(dsDNA)、1本鎖DNA(ssDNA)又は部分的にハイブリダイズされた1本鎖DNAであり得る。核酸の末端を一緒にする戦略は、リガーゼ酵素に対して物質が生き残る頻度を上げ、したがってリガーゼ反応の効率改善に使用され得る。平滑末端dsDNA分子は、リガーゼ酵素が作用し得る疎水性積層を形成する傾向があるが、核酸を一緒にするためのより成功率の高い戦略は、組み付けが意図される成分の突出と相補性を有する5’又は3’1本鎖突出、を有する核酸成分を使用することであり得る。後者の場合、塩基/塩基ハイブリダイゼーションに起因して、より安定した核酸二本鎖を形成し得る。
[00209] 2本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端上の他方の鎖は、「窪み」(cavity)と呼ぶことができる。窪み及び突出は、一緒に、「付着末端」としても知られる「粘着末端」を形成する。粘着末端は、3’突出及び5’窪みであり得るか、又は5’突出及び3’窪みであり得る。2つの意図される隣接成分間の粘着末端は、各突出末端が他方の成分上の窪みの冒頭に直に隣接するように両方の粘着末端の突出がハイブリダイズするように、相補性を有するように設計され得る。これは、リガーゼの作用により「封止」(sealed)(ホスホジエステル結合を通して共有結合)し得る「ニック」(nick)(2本鎖DNA切断)を形成する。3個の核酸を組み立てるための粘着末端ライゲーションの概略の一例については、図8を参照されたい。一方若しくは他方の鎖上のニックのいずれか又は両方は、封止され得る。熱力学的に、粘着末端を形成する分子の上鎖及び下鎖は、連結状態と解離状態との間で移行し得、したがって、粘着末端は、過渡的な形成であり得る。しかしながら、2つの成分間の粘着末端2本鎖の一方の鎖に沿ったニックが封止されると、その共有結合は、逆鎖のメンバが解離した場合でも残る。その場合、結合鎖は、逆鎖の意図される隣接メンバが結合し、封止し得るニックを再び形成することができる鋳型になり得る。
[00210] 粘着末端は、1つ又は複数のエンドヌクレアーゼを用いてdsDNAを消化することにより作成され得る。エンドヌクレアーゼ(制限酵素と呼ばれ得る)は、dsDNA分子の片方又は両方の末端上の特定の部位(制限部位と呼ばれ得る)を標的とし得、互い違いの開裂を作成し(消化と呼ばれ得る)、したがって粘着末端を残し得る。制限消化については、化学的方法セクションCを参照されたい。消化は、パリンドローム突出(それ自体の逆相補鎖である配列を有する突出)を残し得る。その場合、同じエンドヌクレアーゼを用いて消化された2つの成分は、リガーゼを用いてそれらを組み立て得る相補的粘着末端を形成し得る。エンドヌクレアーゼ及びリガーゼが適合する場合、消化及びライゲーションは、同じ反応で一緒に行うことができる。反応は、4℃、10℃、16℃、25℃又は37℃等の均一な温度で生じ得る。又は、反応は、16℃~37℃等の複数の温度間で循環し得る。複数の温度間の循環により、サイクルの異なる部分中、消化及びライゲーションをそれぞれの最適温度で各々進めることが可能になり得る。
[00211] 消化及びライゲーションを別々の反応で実行することが有益であり得る。例えば、所望のリガーゼ及び所望のエンドヌクレアーゼが異なる条件で最適に機能する場合である。又は、例えば、ライゲーションされた産物がエンドヌクレアーゼの新しい制限部位を形成する場合である。これらの場合、制限消化を実行してから、次いでライゲーションを別々に実行する方がよいことがあり、おそらくライゲーション前に制限酵素を除去することがさらに有益であり得る。核酸は、フェノール-クロロホルム抽出、エタノール沈殿、磁性ビーズ捕捉及び/又はシリカ膜吸着、洗浄及び溶出を通して酵素から単離され得る。同じ反応で複数のエンドヌクレアーゼが使用可能であるが、複数のエンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを保証することに注意を払うべきである。2つのエンドヌクレアーゼを使用する場合、直交(非相補性)粘着末端をdsDNA成分の両方の末端に作成し得る。
[00212] エンドヌクレアーゼ消化は、リン酸化された5’末端を有する粘着末端を残すことになる。リガーゼは、リン酸化された5’末端でのみ機能し得、リン酸化されていない5’末端では機能しない。したがって、消化とライゲーションとの間に中間5’リン酸化ステップのいかなる必要性もなくてよい。パリンドローム突出を粘着末端に有する消化されたdsDNA成分は、それ自体にライゲーションし得る。自己ライゲーションを回避するために、ライゲーション前に前記dsDNA成分を脱リン酸化することが有益であり得る。
[00213] 複数のエンドヌクレアーゼは、異なる制限部位を標的とし得るが、適合性の突出(互いの逆相補鎖である突出)を残し得る。2つのそのようなエンドヌクレアーゼを用いて作成された粘着末端のライゲーションの産物は、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含まない、組み立てられた産物を生成し得る。そのようなエンドヌクレアーゼは、消化-ライゲーション反復サイクルを実行することにより、2つのみのエンドヌクレアーゼを使用して複数の成分をプログラム可能に組み立て得る、バイオブリックアセンブリ等の組立て方法の土台をなす。図20は、適合性突出を有するエンドヌクレアーゼBamHI及びBglIIを使用した消化-ライゲーションサイクルの一例を示す。
[00214] 幾つかの実施形態では、粘着末端の作成に使用されるエンドヌクレアーゼは、IIS型制限酵素であり得る。これらの酵素は、固定数の塩基を制限部位から特定の方向に離して開裂させ、したがって、それらが生成する突出の配列は、カスタマイズすることが可能である。突出配列は、パリンドロームである必要はない。同じIIS型制限酵素を同じ反応又は複数の反応で使用して、複数の異なる粘着末端を作成し得る。さらに、1つ又は複数のIIS型制限酵素を同じ反応又は複数の反応で使用して、適合性突出を有する成分を作成し得る。IIS型制限酵素により生成された2つの粘着末端間のライゲーション部位は、新しい制限部位を形成しないように設計され得る。加えて、IIS型制限酵素部位は、粘着末端を有する成分を生成するとき、制限酵素がそれ自体の制限部位を開裂するようにdsDNAに配置され得る。したがって、IIS型制限酵素から生成された複数の成分間のライゲーション産物は、いかなる制限部位も含まない。
[00215] IIS型制限酵素は、反応においてリガーゼと一緒に混合されて、成分の消化及びライゲーションを一緒に実行し得る。反応の温度は、2つ以上の値間で循環して、最適な消化及びライゲーションを促進し得る。例えば、消化は、37℃で最適に実行され得、ライゲーションは、16℃で最適に実行され得る。より一般には、反応は、少なくとも0℃、5℃、10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃又はそれを超える値の温度値間を循環し得る。消化及びライゲーション組合せ反応は、少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個又はそれを超える個数の成分を組み立てるために使用され得る。IIS型制限酵素を利用して粘着末端を作成するアセンブリ反応の例には、ゴールデンゲートアセンブリ(ゴールデンゲートクローニングとしても知られている)又はモジュラークローニング(MoCloとしても知られている)がある。
[00216] ライゲーションの幾つかの実施形態では、エキソヌクレアーゼを使用して、粘着末端を有する成分を作成し得る。3’エキソヌクレアーゼを使用してdsDNAから3’末端を噛み返し(chew back)得、それにより5’突出を作成し得る。同様に、5’エキソヌクレアーゼを使用してdsDNAから5’末端を噛み返し得、それにより3’突出を作成し得る。異なるエキソヌクレアーゼは、異なる性質を有し得る。例えば、エキソヌクレアーゼは、ヌクレアーゼ活性の方向において(5’から3’に又は3’から5’に)、ssDNAに対して作用するか否か、リン酸化された5’末端に対して作用するか若しくはリン酸化されていない5’末端に対して作用するか、ニックで開始可能であるか否か又は活性を5’窪み、3’窪み、5’突出若しくは3’突出で開始可能であるか否かが異なり得る。異なるタイプのエキソヌクレアーゼとしては、ラムダエキソヌクレアーゼ、RecJ、エキソヌクレアーゼIII、エキソヌクレアーゼI、エキソヌクレアーゼT、エキソヌクレアーゼV、エキソヌクレアーゼVIII、エキソヌクレアーゼVII、ヌクレアーゼBAL_31、T5エキソヌクレアーゼ及びT7エキソヌクレアーゼが挙げられる。
[00217] エキソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分を組み立て得る。反応は、固定温度で行われ得、各々がリガーゼ又はエキソヌクレアーゼのそれぞれに理想的な複数の温度間を循環され得る。ポリメラーゼをアセンブリ反応にリガーゼ及び5’→3’エキソヌクレアーゼと一緒に含め得る。そのような反応における成分は、互いに隣接して組み立てることが意図された成分がそれらの縁部に相同な配列を共有するように設計され得る。例えば、成分Yと組み立てられる成分Xは、5’-z-3’形態の3’縁配列を有し得、成分Yは、5’-z-3’形態の5’縁配列を有し得、ここで、zは、任意の核酸配列である。そのような形態の相同な縁配列は、「ギブソンオーバーラップ」と呼ばれ得る。5’エキソヌクレアーゼによりギブソンオーバーラップを有するdsDNA成分の5’末端が噛み返されると、互いにハイブリダイズする適合する3’突出が作成される。次いで、ハイブリダイズした3’末端がポリメラーゼの作用により鋳型成分の末端まで又は一方の成分の伸長した3’突出が隣接成分の5’窪みを満たす点まで伸長し、それによりリガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ及びエキソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と呼ばれる。ギブソンアセンブリは、T5エキソヌクレアーゼ、Phusionポリメラーゼ及びTaqリガーゼを使用し、反応を50℃でインキュベートすることにより実施され得る。前記例では、好熱性リガーゼであるTaqを使用することにより、反応における3つの型の酵素全てに適した温度である50℃で反応を進行させることが可能になる。
[00218] 「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ及びエキソヌクレアーゼが関与する任意の組立て反応を指し得る。ギブソンアセンブリは、少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個又はそれを超える数の成分を組み立てるために使用され得る。ギブソンアセンブリは、1ステップの等温反応として又は1つ若しくは複数の温度インキュベーションを用いたマルチステップ反応として行うことができる。例えば、ギブソンアセンブリは、少なくとも30度、40度、50度、60度、70度又はこれらの温度を下回る温度で行われ得る。ギブソンアセンブリのインキュベーション時間は、少なくとも1分、5分、10分、20分、40分又は80分であり得る。
[00219] ギブソンアセンブリ反応は、意図される隣接成分間のギブソンオーバーラップが特定の長さであり、ヘアピン、ホモ二量体又は不要なヘテロ二量体等の望ましくないハイブリダイゼーション事象を回避する配列等の配列特徴を有する場合、最適に行うことができる。一般に、少なくとも塩基20個分の長さのギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、少なくとも塩基1個、2個、3個、5個、10個、20個、30個、40個、50個、60個、100個又はそれを超える個数分の長さであり得る。ギブソンオーバーラップのGC含有率は、0%~100%の任意の値であり得る。
[00220] ギブソンアセンブリについて一般に5’エキソヌクレアーゼを用いて説明するが、反応は、3’エキソヌクレアーゼを用いて行うことも可能である。3’エキソヌクレアーゼは、dsDNA成分の3’末端を噛み返すため、ポリメラーゼは、3’末端を伸長することにより作用を相殺する。この動的プロセスは、2つの成分(ギブソンオーバーラップを共有する)の5’突出(エキソヌクレアーゼにより作成される)がハイブリダイズし、ポリメラーゼが、隣接成分の5’末端に遭遇するのに十分に遠くまで一方の成分の3’末端を伸長するまで続けられ得、それによりリガーゼによって封止し得るニックを残す。
[00221] ライゲーションの幾つかの実施形態では、粘着末端を有する成分は、完全相補性を共有しない2つの1本鎖核酸又はオリゴを一緒に混合することにより、酵素による作成とは対照的に合成により作成され得る。例えば、2つのオリゴ:オリゴX及びオリゴYは、オリゴのいずれか一方又は両方の全体を構成する塩基のより大きい列の部分列を形成する相補塩基の連続列に沿ってのみ完全ハイブリダイズするように設計され得る。塩基のこの相補列は、「索引領域」と呼ばれる。索引領域がオリゴXの全体及びオリゴYの5’末端のみを占める場合、それらのオリゴは、一緒に、片側に平滑末端を有し、逆側にオリゴYからの3’突出との粘着末端を有する成分を形成する(図21A)。索引領域がオリゴXの全体及びオリゴYの3’末端のみを占める場合、それらのオリゴは、一緒に、片側に平滑末端を有し、逆側にオリゴYからの5’突出との粘着末端を有する成分を形成する(図21B)。索引領域がオリゴXの全体を占めオリゴYの末端を占めないない場合(索引領域がオリゴYの中間内に組み込まれることを黙示する場合)、それらのオリゴは、一緒に、片側にオリゴYからの3’突出との粘着末端を有し、逆側にオリゴYからの5’突出との粘着末端を有する成分を形成する(図21C)。索引領域がオリゴXの5’末端のみ及びオリゴYの5’末端のみを占める場合、それらのオリゴは、一緒に、片側にオリゴYからの3’突出との粘着末端を有し、逆側にオリゴXからの3’突出との粘着末端を有する成分を形成する(図21D)。索引領域がオリゴXの3’末端のみ及びオリゴYの3’末端のみを占める場合、これらのオリゴは、一緒に、片側にオリゴYからの5’突出との粘着末端を有し、逆側にオリゴXからの5’突出との粘着末端を有する成分を形成する(図21E)。上記例では、突出の配列は、索引領域外のオリゴ配列により規定される。これらの突出配列は、それに沿ってライゲーションに向けて成分がハイブリダイズする領域であるため、ハイブリダイゼーション領域と呼ぶことができる。
[00222] 粘着末端ライゲーションにおけるオリゴの索引領域及びハイブリダイゼーション領域は、成分の適切な組立てを促進するように設計され得る。突出が長い成分は、突出が短い成分と比べて、所与のアニーリング温度で互いにより効率的にハイブリダイズされ得る。突出は、塩基少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、30個又はそれを超える個数分の長さを有し得る。
[00223] 高いグアニン又はシトシン含有率を含む突出を有する成分は、低いグアニン又はシトシン含有率を含む突出を有する成分よりも、所与の温度で相補的成分に効率的にハイブリダイズされ得る。これは、アデニンがチミンと塩基対を形成するよりも、グアニンがシトシンと安定した塩基対を形成するためである。突出は、0%~100%の任意の値のグアニン又はシトシン含有率(GC含有率としても知られている)を有し得る。
[00224] 突出配列と同様に、オリゴのGC含量及び索引領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖及び下の鎖が安定に結合していれば粘着末端成分がより効率的に組み立てることができるためである。したがって、より高いGC含量、より長い配列及びより高い融解温度を促進する他の特徴を有する索引領域を設計し得る。しかしながら、索引領域及び突出配列の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様がさらに多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分と組み立てられた産物を形成するその能力が妨げられる恐れがある。これは、索引領域内、突出配列内又はその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型及びそれらの安定性(例えば、融解温度)は、配列に基づいて予測され得る。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さ及びGC含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避し得る。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、タブー検索のようなメタ-ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム又はこれらの組合せを含み得る。
[00225] 同様に、ホモ二量体(同じ配列のオリゴとハイブリダイズするオリゴ)及び望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ)の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体及びヘテロ二量体の形成は、予測し、オリゴ設計中にコンピュータによる計算方法及び設計空間検索アルゴリズムを使用して説明することができる。
[00226] より長いオリゴ配列又はより高いGC含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体及びヘテロ二量体の形成の増加が生じ得る。したがって、幾つかの実施形態では、より短いオリゴ又はより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴ又は高いGC含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さ及び最適なGC含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基若しくは100塩基又はそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なGC含量は、0%~100%のいずれかであり得る。
[00227] 粘着末端ライゲーションに加えて、ライゲーションは、一本鎖核酸間でステープル(又は鋳型又は架橋)鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション(SSL)、鋳型により導かれるライゲーション(TDL)又は架橋鎖ライゲーションと呼ぶことができる。3つの核酸を組み立てるためのTDLの概略の一例については、図10Aを参照されたい。TDLでは、2つの一本鎖核酸を鋳型上に隣接的にハイブリダイズさせ、したがってリガーゼによりシールすることができるニックを形成する。粘着末端ライゲーションと同じ核酸設計考慮事項がTDLにも当てはまる。鋳型と、それらの意図された相補的な核酸配列との間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導き得る。したがって、鋳型の両側でのハイブリダイゼーション安定性(又は融解温度)を改善する配列特徴により、ライゲーション効率を改善し得る。これらの特徴は、より長い配列の長さ及びより高いGC含量を含み得る。鋳型を含めたTDLにおける核酸の長さは、少なくとも5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基若しくは100塩基又はそれよりも多くの塩基であり得る。鋳型を含めた核酸のGC含量は、0%~100%であり得る。
[00228] TDLでは、粘着末端ライゲーションと同様に、配列空間探索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分及び鋳型配列を設計するために注意を払うことができる。TDLにおける成分は、二本鎖の代わりに一本鎖であり得るため、露出した塩基に起因して望ましくない二次構造の発生率がより高くなる可能性がある(粘着末端ライゲーションと比較して)。
[00229] TDLは、平滑末端化されたdsDNA成分を用いて実行され得る。そのような反応では、ステープル鎖が2つの一本鎖核酸を適当に架橋するために、最初にステープルが完全な一本鎖相補鎖を置き換えるか又は部分的に置き換えることが必要であり得る。dsDNA成分を用いたTDL反応を容易にするために、dsDNAを最初に高温でインキュベートすることで融解させ得る。次いで、反応を冷却し、したがってステープル鎖がそれらの適当な核酸相補鎖にアニーリングすることを可能にし得る。このプロセスは、dsDNA成分と比較して比較的高い濃度の鋳型を使用することにより、さらに一層効率的なものにすることができ、したがって結合に関して鋳型が適当な全長ssDNA相補鎖に打ち勝つことが可能になる。2つのssDNA鎖がそれらの鋳型及びリガーゼにより組み立てられると、次いでその組み立てられた核酸が逆の全長ssDNA相補鎖の鋳型になり得る。したがって、TDLを用いた平滑末端化されたdsDNAのライゲーションを、融解(より高い温度でのインキュベーション)及びアニーリング(より低い温度でのインキュベーション)の複数のラウンドを通して改善し得る。このプロセスは、リガーゼサイクリング反応又はLCRと呼ぶことができる。適当な融解温度及びアニーリング温度は、核酸配列に依存する。融解温度及びアニーリング温度は、少なくとも4℃、10℃、20℃、20℃、30℃、40℃、50℃、60℃、70℃、80℃、90℃又は100℃であり得る。温度サイクルの数は、少なくとも1回、5回、10回、15回、20回、15回、30回又はそれを超え得る。
[00230] 全てのライゲーションは、固定温度反応又は多重温度反応で実行され得る。ライゲーション温度は、少なくとも0℃、4℃、10℃、20℃、20℃、30℃、40℃、50℃若しくは60℃又はそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合う又はハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって成分が一時的に隣り合う又はハイブリダイズする頻度を増大させ得る。しかしながら、温度の上昇により、塩基対結合の破壊、したがってこれらの隣り合った又はハイブリダイズした成分2重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、組み立てられる核酸の数、それらの核酸の配列、リガーゼの型並びに反応添加剤等の他の因子に依存し得る。例えば、4塩基の相補的な突出を有する2つの粘着末端成分は、4℃でT4リガーゼを用いると、25℃でT4リガーゼを用いるよりも速く組み立てることができる。しかしながら、25塩基の相補的な突出を有する2つの粘着末端成分は、25℃でT4リガーゼを用いると、4℃でT4リガーゼを用いるよりも速く組み立てることができ、またおそらく4塩基の突出をいずれの温度でライゲーションするよりも速く組み立てることができる。ライゲーションの幾つかの実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。
[00231] ライゲーションを使用して、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20又はそれよりも多くの核酸を組み立て得る。ライゲーションインキュベーション時間は、最大で30秒間、1分間、2分間、5分間、10分間、20分間、30分間、1時間又はそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善し得る。
[00232] ライゲーションには、5’リン酸化末端を有する核酸が必要な場合がある。5’リン酸化末端を有さない核酸成分は、T4ポリヌクレオチドキナーゼ(又はT4 PNK)等のポリヌクレオチドキナーゼとの反応でリン酸化され得る。ATP、マグネシウムイオン又はDTT等の他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、37℃で30分間行われ得る。ポリヌクレオチドキナーゼ反応温度は、少なくとも4℃、10℃、20℃、20℃、30℃、40℃、50℃又は60℃であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間又はそれよりも長い時間であり得る。代替的に、核酸成分は、修飾された5’リン酸化を用いて合成的に(酵素的なものとは対照的に)設計され、製造され得る。それらの5’末端に組み立てられる核酸のみにリン酸化が必要になり得る。例えば、TDLにおける鋳型は、組み立てられるものではないため、リン酸化されていなくてよい。
[00233] ライゲーション効率を改善するために、添加剤をライゲーション反応に含め得る。例えば、ジメチルスルホキシド(DMSO)、ポリエチレングリコール(PEG)、1,2-プロパンジオール(1,2-Prd)、グリセロール、Tween-20又はこれらの組合せの添加である。PEG6000が特に有効なライゲーション増強剤であり得る。PEG6000は、クラウディング剤として作用することによりライゲーション効率を上昇させ得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分とをより近づけ得る。添加剤含有量(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%又はそれを超え得る。
[00234] 種々のリガーゼがライゲーションに使用可能である。リガーゼは、天然に存在するもの又は合成されたものであり得る。リガーゼの例としては、T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、Taq DNAリガーゼ、9oN(商標)DNAリガーゼ、大腸菌(E. coli)DNAリガーゼ及びSplintR DNAリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定に及び最適に機能し得る。例えば、Taq DNAリガーゼは、熱安定性であり、T4 DNAリガーゼは、熱安定性ではない。さらに、異なるリガーゼは、異なる性質を有する。例えば、T4 DNAリガーゼは、平滑末端化されたdsDNAをライゲーションすることができるが、T7 DNAリガーゼは、平滑末端化されたdsDNAをライゲーションすることができない。
[00235] ライゲーションを使用して、シーケンシングアダプタを核酸のライブラリに付着させ得る。例えば、ライゲーションは、核酸ライブラリの各メンバの末端の共通の粘着末端又はステープルを用いて実行され得る。核酸の一方の末端の粘着末端又はステープルが他方の末端のものと区別可能な場合、シーケンシングアダプタを非対称にライゲーションすることができる。例えば、フォワードシーケンシングアダプタを核酸ライブラリのメンバの一方の末端にライゲーションすることができ、リバースシーケンシングアダプタを核酸ライブラリのメンバの他方の末端にライゲーションし得る。代替的に、平滑末端化されたライゲーションを使用して、アダプタを、平滑末端化された二本鎖核酸のライブラリに付着させ得る。フォークアダプタを使用して、各末端で均等な平滑末端又は粘着末端のいずれかを有する核酸ライブラリにアダプタを非対称に付着させ得る(例えば、A尾部等)。
[00236] ライゲーションは、熱失活(例えば、65℃で少なくとも20分間のインキュベーション)、変性剤の添加又はEDTA等のキレート剤の添加により阻害され得る。
C.制限消化
[00237] 制限消化は、制限エンドヌクレアーゼ(又は制限酵素)が核酸上のそれらの同類の制限部位を認識し、その後、前記制限部位を含有する核酸を開裂する(又は消化する)反応である。I型、II型、III型又はIV型制限酵素を制限消化のために使用し得る。II型制限酵素は、核酸消化のための最も効率的な制限酵素であり得る。II型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を開裂し得る。前記制限酵素(及びそれらの制限部位)の例としては、AatII(GACGTC)、AfeI(AGCGCT)、ApaI(GGGCCC)、DpnI(GATC)、EcoRI(GAATTC)、NgeI(GCTAGC)及びさらに多くが挙げられる。DpnI及びAfeI等の幾つかの制限酵素は、それらの制限部位を中央で切断し得、したがって平滑末端化されたdsDNA産物が残される。EcoRI及びAatII等の他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって粘着末端(又はねじれ型の末端)を有するdsDNA産物が残される。幾つかの制限酵素は、不連続の制限部位を標的とし得る。例えば、制限酵素AlwNIは、制限部位CAGNNNCTGを認識し、ここで、Nは、A、T、C又はGのいずれかであり得る。制限部位は、長さ少なくとも2塩基、4塩基、6塩基、8塩基、10塩基又はそれよりも多くの塩基であり得る。
[00238] 幾つかのII型制限酵素は、それらの制限部位の外側の核酸を開裂する。この酵素は、IIS型又はIIG型制限酵素に下位分類され得る。前記酵素は、パリンドロームでない制限部位を認識し得る。前記制限酵素の例としては、GAAACを認識し、2塩基(同じ鎖)及び6塩基(逆の鎖)だけさらに下流にねじれ型開裂を作成するBbsIが挙げられる。別の例としては、GGTCTCを認識し、1塩基(同じ鎖)及び5塩基(逆の鎖)だけさらに下流にねじれ型開裂を作成するBsaIが挙げられる。前記制限酵素は、ゴールデンゲートアセンブリ又はモジュラークローニング(MoClo)に使用され得る。BcgI(IIG型制限酵素)等の幾つかの制限酵素は、その認識部位の両方の末端にねじれ型開裂を作成し得る。制限酵素は、それらの認識部位から少なくとも1塩基、5塩基、10塩基、15塩基、20塩基又はそれよりも遠く離れた核酸を開裂し得る。前記制限酵素は、それらの認識部位の外側でねじれ型開裂を作成し得るため、得られる核酸突出の配列を任意に設計し得る。これは、得られる核酸突出の配列が制限部位の配列とカップリングする、それらの認識部位内にねじれ型開裂を作成する制限酵素とは対照的である。制限消化により作成される核酸突出は、長さ少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基又はそれよりも多くの塩基であり得る。制限酵素により核酸を開裂する場合、得られる5’末端は、リン酸を含む。
[00239] 1つ又は複数の核酸配列を制限消化反応に含め得る。同様に、1つ又は複数の制限酵素を一緒に制限消化反応に使用し得る。制限消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、BSA、S-アデノシル-L-メチオニン(SAM)又はこれらの組合せを含めた添加剤及び補助因子を含み得る。制限消化反応は、37℃で1時間インキュベートされ得る。制限消化反応は、少なくとも0℃、10℃、20℃、30℃、40℃、50℃又は60℃の温度でインキュベートされ得る。最適な消化温度は、酵素に依存し得る。制限消化反応は、最大で1分間、10分間、30分間、60分間、90分間、120分間又はそれよりも長くインキュベートされ得る。より長いインキュベーション時間により、消化の増大をもたらし得る。
D.核酸増幅
[00240] 核酸増幅は、ポリメラーゼ連鎖反応又はPCRを用いて実行され得る。PCRでは、核酸の出発プール(鋳型プール又は鋳型と呼ばれる)は、ポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTP及びその類似体又はバリアント等)並びにベタイン、DMSO及びマグネシウムイオン等の追加的な補助因子及び添加剤と組み合わされ得る。鋳型は、一本鎖核酸又は二本鎖核酸であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。典型的には、PCR反応には2種のプライマーが存在し、一方は、標的鋳型の上の鎖のプライマー結合部位に相補であり、他方は、第1の結合部位よりも下流の、標的鋳型の下の鎖のプライマー結合部位に相補的である。これらのプライマーがそれらの標的に結合する5’から3’への配向は、それらの間の核酸配列を問題なく複製し、指数関数的に増幅するために互いに向かい合っていなければならない。「PCR」とは、典型的には、特に前記形態の反応を指し得るが、より一般的にはあらゆる核酸増幅反応を指すためにも使用され得る。
[00241] 幾つかの実施形態では、PCRは、3つの温度:融解温度、アニーリング温度及び伸長温度間を循環させることを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変え、ハイブリダイゼーション産物及び二次構造の形成を除去することを目的とするものである。典型的には、融解温度は、高く、例えば95℃を超える。幾つかの実施形態では、融解温度は、少なくとも96℃、97℃、98℃、99℃、100℃、101℃、102℃、103℃、104℃又は105℃であり得る。他の実施形態では、融解温℃は、最大で95℃、94℃、93℃、92℃、91℃又は90℃であり得る。融解温度が高いほど、核酸及びそれらの二次構造の解離が改善されるが、核酸又はポリメラーゼの分解等の副作用も引き起こされる恐れがある。融解温度は、少なくとも1秒間、2秒間、3秒間、4秒間、5秒間又はそれよりも長く、例えば30秒間、1分間、2分間又は3分間にわたって反応に適用され得る。複雑な又は長い鋳型を用いたPCRには、より長い最初の融解温度ステップが推奨される場合がある。
[00242] アニーリング温度は、プライマーとそれらの標的鋳型との間のハイブリダイゼーションの形成を容易にすることを目的とするものである。幾つかの実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、前記融解温度から10℃又はそれよりも高い温度以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも25℃、30℃、50℃、55℃、60℃、65℃又は70℃であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど、融解温度が高くなり得、グアニン又はシトシンヌクレオチドのパーセント含有量が高いプライマーほど、融解温度が高くなり得る。したがって、特定のアニーリング温度で最適に組み立てるように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間若しくは30秒間にわたって又はそれよりも長く反応に適用され得る。アニーリングを確実にすることを補助するために、プライマー濃度を高くするか又は量を飽和させ得る。プライマー濃度は、500ナノモル(nM)であり得る。プライマー濃度は、最大で1nM、10nM、100nM、1000nM又はそれよりも高い濃度であり得る。
[00243] 伸長温度は、1つ又は複数のポリメラーゼ酵素により触媒されるプライマーの3’末端核酸鎖延長を開始させ、容易にすることを目的とするものである。幾つかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、延長速度、延長安定性又は忠実度に関して最適に機能する温度に設定され得る。幾つかの実施形態では、伸長温度は、少なくとも30℃、40℃、50℃、60℃若しくは70℃又はそれよりも高い温度であり得る。アニーリング温度は、少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間若しくは60秒間にわたって又はそれよりも長く反応に適用され得る。推奨される伸長時間は、予測される延長の1キロベース当たりおよそ15~45秒間であり得る。
[00244] PCRの幾つかの実施形態では、アニーリング温度及び伸長温度は、同じであり得る。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用し得る。複合アニーリング及び伸長温度の例としては、60℃、65℃又は72℃が挙げられる。
[00245] 幾つかの実施形態では、PCRは、1つの温度サイクルで実行され得る。そのような実施形態は、標的化された一本鎖鋳型核酸を二本鎖核酸に変えることを伴い得る。他の実施形態では、PCRは、複数の温度サイクルで実行され得る。PCRが効率的であれば、各サイクルで標的核酸分子の数が2倍になり、それにより元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。PCRの効率は、変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、100%より多い又は少ないことがある。各PCRサイクルで変異した及び組み換えられた核酸等の望ましくないアーチファクトが導入される恐れがある。この潜在的な害を縮小するために、忠実度が高く、処理能力が高いポリメラーゼを使用し得る。さらに、限られた数のPCRサイクルを使用し得る。PCRは、最大で1、5、10、15、20、25、30、35、40、45又はそれよりも多くのサイクルを伴い得る。
[00246] 幾つかの実施形態では、複数の別個の標的核酸配列は、1つのPCRで一緒に増幅され得る。各標的配列が共通のプライマー結合部位を有する場合、全ての核酸配列は、同じプライマーセットを用いて増幅され得る。代替的に、PCRは、各々が別個の核酸を標的とすることが意図された複数のプライマーを含み得る。前記PCRは、多重PCRと呼ぶことができる。PCRは、最大で1個、2個、3個、4個、5個、6個、7個、8個、9個、10個又はそれよりも多くの別個のプライマーを伴い得る。複数の別個の核酸標的を有するPCRでは、各PCRサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだ又は非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ(例えば、高忠実度及び配列頑強性を有する)及び最適なPCR条件を使用し得る。アニーリング及び伸長の温度及び時間等の因子を最適化し得る。さらに、限られた数のPCRサイクルを使用し得る。
[00247] PCRの幾つかの実施形態では、鋳型中のその標的化プライマー結合部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を変異させ得る。PCRの幾つかの実施形態では、5’末端に余分の配列(突出として知られている)を有するプライマーを使用して、その標的化された核酸に配列を付着させ得る。例えば、5’末端にシーケンシングアダプタを含有するプライマーを使用して、シーケンシングのための核酸ライブラリを調製及び/又は増幅し得る。特定のシーケンシング技術のための十分な富化のために、シーケンシングアダプタを標的とするプライマーを使用して核酸ライブラリを増幅し得る。
[00248] 幾つかの実施形態では、プライマーが鋳型の一方の鎖のみ(両方の鎖ではなく)標的とする場合、線形PCR(又は非対称PCR)が使用される。線形PCRでは、各サイクルから複製される核酸は、プライマーと相補的なものではなく、したがって、プライマーは、その核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって線形(指数関数的なものとは対照的な)増幅になる。線形PCRからの増幅は、従来の(指数関数的な)PCRほど高速でない可能性があるが、最大収率は、より大きい可能性がある。理論的に、線形PCRにおけるプライマー濃度は、従来のPCRでそうなるようなサイクルの増加及び収率の上昇での制限因子にはならない。指数関数的増幅後線形増幅PCR(又はLATE-PCR)は、特に高収率を可能にし得る線形PCRの改変バージョンである。
[00249] 核酸増幅の幾つかの実施形態では、融解、アニーリング及び伸長のプロセスは、単一の温度で行われ得る。そのようなPCRは、等温性PCRと呼ぶことができる。等温性PCRでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させるか又は置き換えるために温度に依存しない方法を活用し得る。この戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法及びニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で20℃、30℃、40℃、50℃、60℃若しくは70℃又はそれよりも高い温度で行われ得る。
[00250] 幾つかの実施形態では、PCRは、サンプル中の核酸の量を数量化するために蛍光プローブ又は色素をさらに含み得る。例えば、色素は、二本鎖核酸に挿入され得る。前記色素の例は、SYBR Greenである。蛍光プローブは、蛍光単位が付着した核酸配列であり得る。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後、伸長ポリメラーゼ単位から修飾されると放出され得る。前記プローブの例としては、TaqManプローブが挙げられる。そのようなプローブをPCR及び光学的測定ツール(励起及び検出のための)と併せて使用して、試料中の核酸濃度を数量化し得る。このプロセスは、定量的PCR(qPCR)又はリアルタイムPCR(rtPCR)と呼ぶことができる。
[00251] 幾つかの実施形態では、PCRは、複数の鋳型分子のプールに対してではなく、単一の分子鋳型に対して(単一分子PCRと呼ぶことができるプロセスで)実行され得る。例えば、エマルジョン-PCR(ePCR)を使用して、単一の核酸分子を油エマルジョン中の水滴中に封入し得る。水滴は、PCR試薬も含み得、水滴を、PCRのための必要な温度サイクリングが可能な温度調節された環境で保持し得る。このように、複数の自蔵式PCR反応を同時に高スループットで行い得る。界面活性物質を用いて油エマルジョンの安定性を改善し得る。マイクロ流体チャネルを通して圧力を用いて液滴の動きを制御し得る。マイクロ流体デバイスは、液滴を作成し、液滴を分割し、液滴を同化させ、材料を液滴中に注入し、及び液滴をインキュベートするために使用され得る。油エマルジョン中の水滴のサイズは、少なくとも1ピコリットル(pL)、10pL、100pL、1ナノリットル(nL)、10nL、100nL又はそれよりも大きいサイズであり得る。
[00252] 幾つかの実施形態では、単一分子PCRは、固相基板上で実行され得る。例としては、Illumina固相増幅法又はその変形形態が挙げられる。鋳型プールを固相基板に暴露させ、固相基板は、鋳型を特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより単一分子を基板上において高スループットで増幅し得る。
[00253] 高スループット単一分子PCRは、互いに妨げる可能性がある別個の核酸のプールを増幅するために有用であり得る。例えば、複数の別個の核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、その結果、新しい組み換えられた核酸がもたらされ得る。単一分子PCRでは、別個の核酸配列が互いに区画化され、したがって相互作用することができないため、この潜在的な増幅エラーが防止される。単一分子PCRは、シーケンシングのための核酸を調製するために特に有用であり得る。単一分子PCRは、鋳型プール中の幾つかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルPCR(又はdPCR)では、別個の単一分子PCR増幅シグナルの頻度を使用して、サンプル中の出発核酸分子の数を推定する。
[00254] PCRの幾つかの実施形態では、全ての核酸に共通するプライマー結合部位に対するプライマーを使用し、核酸の群を非差別的に増幅し得る。例えば、プライマー結合部位に対するプライマーは、プール中の全ての核酸に隣接している。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリを作成又は組み立て得る。しかしながら、幾つかの実施形態では、PCRを使用し得、それにより、例えばプライマーを、前記標的化された核酸のサブセットにおいてのみ存在するプライマー結合部位と使用することにより、標的化された核酸のサブセットをプールから選択的に増幅し得る。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に増幅するために、目的の潜在的サブライブラリに属する核酸の全てがそれらの端部に共通のプライマー結合部位を共有する(サブライブラリ中では共通するが、他のサブライブラリとは別個)ように作成されるか又は組み立てられ得る。幾つかの実施形態では、PCRを核酸アセンブリ反応(例えば、ライゲーション又はOEPCR等)と組み合わせて、完全に組み立てられた又は潜在的に完全に組み立てられた核酸を、部分的に組み立てられた又は誤って組み立てられた(又は意図されたものではない若しくは望ましくない)副産物から選択的に増幅し得る。例えば、アセンブリは、核酸を各縁配列上のプライマー結合部位と、完全に組み立てられた核酸産物のみが増幅のための必須の2つのプライマー結合部位を含むように組み立てることを伴い得る。前記例では、部分的に組み立てられた産物は、プライマー結合部位を有する縁配列のいずれも含まない又はその一方のみを含む可能性があり、したがって増幅されないはずである。同様に、誤って組み立てられた(又は意図されたものではない若しくは望ましくない)産物は、縁配列のいずれも含まないか若しくはその一方のみを含むか又は両方の縁配列を含むが、誤った配向である若しくは誤った量の塩基により分離されている。したがって、前記誤って組み立てられた産物は、増幅されないか又は増幅されて誤った長さの産物が作成されるはずである。後者の場合、誤った長さの増幅された誤って組み立てられた産物は、正しい長さの増幅された完全に組み立てられた産物から、アガロースゲルでのDNA電気泳動、その後のゲル抽出等の核酸サイズ選択方法(化学的方法セクションEを参照されたい)により分離され得る。
[00255] 核酸増幅の効率を改善するために、PCRに添加剤を含め得る。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)又はこれらの組合せの添加である。添加剤含有量(体積当たりの重み)は、少なくとも0%、1%、5%、10%、20%又はそれを超え得る。
[00256] 種々のポリメラーゼがPCRに使用可能である。ポリメラーゼは、天然に存在するもの又は合成されたものであり得る。ポリメラーゼの例は、Φ29ポリメラーゼ又はその誘導体である。幾つかの場合、新しい核酸配列を構築するために、転写酵素又はリガーゼ(即ち結合の形成を触媒する酵素)がポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌(E. coli)DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ並びにそのバリアント、修飾産物及び誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定に及び最適に機能し得る。さらに、異なるポリメラーゼは、異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸伸長中、より高い忠実度に寄与し得る3’から5’へのエキソヌクレアーゼ活性を示し得る。ポリメラーゼによっては、伸長中にリーディング配列を動かし得るものもあれば、それらを分解し得るか又は伸長を停止し得るものもある。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度及び処理能力を有し得、増幅された核酸収率のために最小の変異を有することが重要である場合及び別個の核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシーケンシング調製等のPCR適用により適切であり得る。
E.サイズ選択
[00257] サイズ選択技法を使用して特定のサイズの核酸をサンプルから選択し得る。幾つかの実施形態では、サイズ選択は、ゲル電気泳動又はクロマトグラフィを使用して実行され得る。核酸の液体サンプルは、固定相又はゲル(又はマトリックス)の一方の電極にロードされ得る。ゲルの負極は、核酸サンプルがロードされる電極になり、ゲルの陽極が逆の電極になるようにゲルにわたって電圧差をかけ得る。核酸は、負に荷電したリン酸骨格を有するため、ゲルにわたって陽極に移動することができる。核酸のサイズにより、核酸がゲルを通る相対的な移動速度が決まる。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解されることになる。電圧差は、100V又は120Vであり得る。電圧の差異は、最大で50V、100V、150V、200V、250V又はそれよりも大きい差異であり得る。電圧の差異が大きいほど、核酸移動の速度及びサイズ分解能が大きくなり得る。しかしながら、電圧差が大きいと、核酸又はゲルの損傷も生じ得る。より大きいサイズの核酸を分解するために、より大きい電圧の差異が推奨される場合がある。典型的な移動時間は、15分間~60分間であり得る。移動時間は、最大で10分間、30分間、60分間、90分間、120分間又はそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きいサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、200塩基の核酸を250塩基の核酸から分解するために、120Vの電圧の差異及び30分の移動時間で十分であり得る。
[00258] ゲル又はマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、典型的には、TAE(トリス-酢酸-EDTA)又はTBE(トリス-ホウ酸-EDTA)等の伝導性緩衝剤中に分散したアガロース又はポリアクリルアミド等のポリマー物質を含む。ゲル中の物質(例えば、アガロース又はアクリルアミド)の含有量(体積当たりの重み)は、最大で5%、1%、2%、3%、5%、10%、15%、20%、25%又はそれを超え得る。含有量が高いほど、移動速度が低下し得る。より小さい核酸を分解するために、より高い含有量が好ましい場合がある。二本鎖DNA(dsDNA)を分解するためにアガロースゲルがより良好であり得る。一本鎖DNA(ssDNA)を分解するためにポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型及びサイズ、添加剤(例えば、色素、染料、変性溶液又はローディング緩衝剤)の適合性並びに先行する下流の適用(例えば、ゲル抽出、次いでライゲーション、PCR又はシーケンシング)に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるホウ酸(酵素阻害剤)持ち越し汚染により下流の酵素反応が阻害される可能性があるため、TAEは、TBEほど良好な伝導体ではないが、同様にゲル抽出に関してより良好であり得る。
[00259] ゲルは、SDS(ドデシル硫酸ナトリウム)又は尿素等の変性溶液をさらに含み得る。SDSは、例えば、タンパク質を変性させるか、又は核酸を潜在的に結合したタンパク質から単離するために使用され得る。尿素は、DNAの二次構造を変性させるために使用され得る。例えば、尿素により、dsDNAをssDNAに変換し得るか、又は尿素により、フォールディングされたssDNA(例えば、ヘアピン)を、フォールディングされていないssDNAに変換し得る。ssDNAを正確に分解するために尿素-ポリアクリルアミドゲル(TBEをさらに含む)を使用し得る。
[00260] サンプルは、ゲルに異なる形式で組み入れることができる。幾つかの実施形態では、ゲルは、サンプルを手動でロードし得るウェルを含み得る。1つのゲルは、複数の核酸サンプルを流すための複数のウェルを有し得る。他の実施形態では、ゲルは、核酸サンプルを自動的にロードするマイクロ流体チャネルに付着され得る。各ゲルは、幾つかのマイクロ流体チャネルの下流にあり得、ゲル自体が別々のマイクロ流体チャネルを占有し得る。ゲルの寸法が核酸検出(又は可視化)の感度に影響を及ぼし得る。例えば、薄いゲル又はマイクロ流体チャネルの内側にあるゲル(例えば、バイオアナライザ又はテープステーション中のもの等)により、核酸検出の感度を改善し得る。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。
[00261] 核酸サイズ参照のためにゲルにラダーをロードし得る。ラダーは、核酸サンプルを比較し得る種々のサイズのマーカーを含み得る。異なるラダーは異なるサイズ範囲及び分解能を有し得る。例えば、50塩基のラダーは、50塩基、100塩基、150塩基、200塩基、250塩基、300塩基、350塩基、400塩基、450塩基、500塩基、550塩基及び600塩基のところにマーカーを有し得る。前記ラダーは、50塩基から600塩基のサイズ範囲内の核酸を検出し、選択するのに有用であり得る。ラダーは、サンプル中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。
[00262] 核酸サンプル及びラダーは、ローディング緩衝剤と混合されて、ゲル電気泳動(又はクロマトグラフィ)プロセスを容易にし得る。ローディング緩衝剤は、核酸の移動の追跡を補助するための色素及びマーカーを含み得る。ローディング緩衝剤は、核酸サンプルがサンプルロードウェル(ランニング緩衝剤中に浸され得る)の底部に沈むことを確実にするために、ランニング緩衝剤(例えば、TAE又はTBE)よりも密度の高い試薬(例えば、グリセロール等)をさらに含み得る。ローディング緩衝剤は、SDS又は尿素等の変性剤をさらに含み得る。ローディング緩衝剤は、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディング緩衝剤は、核酸をヌクレアーゼから保護するためのEDTAを含み得る。
[00263] 幾つかの実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用し得る染料を含み得る。染料は、dsDNA、ssDNA又はその両方に特異的なものであり得る。異なる染料を異なるゲル物質に適合させ得る。幾つかの染料は、可視化のために光源光(又は電磁波)からの励起を必要とし得る。光源光は、UV(紫外線)又は青色光であり得る。幾つかの実施形態では、染料をゲルに電気泳動前に添加し得る。他の実施形態では、染料をゲルに電気泳動後に添加し得る。染料の例としては、臭化エチジウム(EtBr)、SYBR Safe、SYBR Gold、銀染色又はメチレンブルーが挙げられる。特定のサイズのdsDNAを可視化するための信頼できる方法は、例えば、アガロースTAEゲルをSYBR Safe又はEtBr染色と一緒に使用することであり得る。特定のサイズのssDNAを可視化するための信頼できる方法は、例えば、尿素-ポリアクリルアミドTBEゲルをメチレンブルー又は銀染色と一緒に使用することであり得る。
[00264] 幾つかの実施形態では、ゲルを通る核酸の移動は、電気泳動に加えて他の方法により駆動され得る。例えば、重力、遠心分離、真空又は圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解し得る。
[00265] 刃又は剃刀を使用して特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出し得る。切り出しが特定のバンドで的確に行われること及び切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が問題なく排除されることを確実にするために、適当な光学的検出技法及びDNAラダーを使用し得る。ゲルバンドを緩衝剤と一緒にインキュベートしてゲルバンドを融解させ、したがって核酸を緩衝液中に放出させ得る。加熱又は物理的撹拌により、融解の速度を上げ得る。代替的に、ゲルバンドを、緩衝剤中において、ゲル融解を必要とせずにDNAの緩衝液中への拡散を可能にするために十分に長くインキュベートし得る。次いで、緩衝剤を残りの固相ゲルから例えば吸引又は遠心分離により分離し得る。次いで、核酸を、フェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉及び/又はシリカ膜吸着等の標準の精製又は緩衝剤交換技法、洗浄並びに溶出を使用して溶液から精製し得る。このステップで核酸を濃縮することもできる。
[00266] ゲル切り出しの代替として、特定のサイズの核酸をゲルから流出させることによりゲルから単離し得る。移動している核酸は、ゲルに埋め込まれたか又はゲルの最後にあるたらい(又はウェル)を通過し得る。移動プロセスについて時間を計るか又は光学的にモニタリングし、それにより特定のサイズの核酸群がたらいに入ったとき、サンプルがたらいから収集される。収集は、例えば、吸引により行われ得る。次いで、核酸は、収集された溶液からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉及び/又はシリカ膜吸着等の標準の精製又は緩衝剤交換技法、洗浄並びに溶出を使用して精製され得る。このステップで核酸を濃縮することもできる。
[00267] 核酸サイズ選択のための他の方法としては、質量分光測定又は膜に基づく濾過を挙げることができる。膜に基づく濾過の幾つかの実施形態では、核酸は、dsDNA、ssDNA又はその両方に優先的に結合し得る膜(例えば、シリカ膜)を通過される。膜は、少なくとも特定のサイズの核酸を優先的に捕捉するように設計され得る。例えば、膜を、20塩基未満、30塩基未満、40塩基未満、50塩基未満、70塩基未満、90塩基未満又はそれよりも多くの塩基未満の核酸を濾過して取り除くように設計し得る。前記膜に基づくサイズ選択技法は、ゲル電気泳動又はクロマトグラフィほどストリンジェントでないことがある。
F.核酸捕捉
[00268] アフィニティタグ付き核酸は、核酸捕捉のための配列特異的なプローブとして使用され得る。プローブは、核酸のプール内の標的配列と相補的になるように設計され得る。続けて、プローブは、核酸プールと一緒にインキュベートされ、その標的とハイブリダイズされ得る。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにし得る。インキュベーション温度は、プローブの融解温度を5℃下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで又はそれを大きく下回るまでであり得る。ハイブリダイズされた標的は、アフィニティタグに特異的に結合する固相基板に捕捉され得る。固相基板は、膜、ウェル、カラム又はビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸は、全て標的から除去され得る。洗浄は、洗浄中の標的配列の安定な固定化を容易にするために、プローブの融解温度を下回る温度で行われ得る。洗浄温度は、プローブの融解温度を5℃下回る温度まで、10℃下回る温度まで、15℃下回る温度まで、20℃下回る温度まで、25℃下回る温度まで、又はそれを大きく下回る温度までであり得る。最終的な溶出ステップにより、核酸標的を固相基板及びアフィニティタグ付きプローブから収集し得る。溶出ステップは、核酸標的の溶出緩衝剤中への放出を容易にするためにプローブの融解温度を上回る温度で行われ得る。溶出温度は、プローブの融解温度を5℃上回る温度まで、10℃上回る温度まで、15℃上回る温度まで、20℃上回る温度まで、25℃上回る温度まで又はそれを大きく上回る温度までであり得る。
[00269] 特定の実施形態では、固相基板に結合したオリゴヌクレオチドは、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒作用、置換反応若しくは脱離反応化学又は酵素的開裂等の条件に対する暴露により固相基板から除去され得る。特定の実施形態では、オリゴヌクレオチドは、開裂可能な連結部分を通して固相支持体に付着し得る。例えば、固相基板を官能化して、標的化オリゴヌクレオチドに共有結合するための開裂可能なリンカーを提供し得る。幾つかの実施形態では、リンカー部分は、6原子以上の長さのリンカーであり得る。幾つかの実施形態では、開裂可能リンカーは、TOPS(1合成当たり2個のオリゴヌクレオチドの)リンカー、アミノリンカー又は光開裂可能リンカーであり得る。
[00270] 幾つかの実施形態では、ビオチンは、固相基板上のストレプトアビジンにより固定化されるアフィニティタグとして使用され得る。ビオチン化オリゴヌクレオチドは、核酸捕捉プローブとして使用するように設計され、製造され得る。オリゴヌクレオチドの5’末端又は3’末端をビオチン化することができる。オリゴヌクレオチドの内部のチミン残基をビオチン化することもできる。オリゴ上のビオチンを増加させることにより、ストレプトアビジン基板でのより強力な捕捉をもたらし得る。オリゴの3’末端のビオチンにより、PCR中にオリゴが伸長することを遮断し得る。ビオチンタグは、標準のビオチンのバリアントであり得る。例えば、ビオチンバリアントは、ビオチン-TEG(トリエチレングリコール)、二重ビオチン、PCビオチン、デスチオビオチン-TEG及びビオチンアジ化物/アジドであり得る。二重ビオチンは、ビオチン-ストレプトアビジン親和性を増大させ得る。ビオチン-TEGは、TEGリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えばその標的とのハイブリダイゼーションに干渉することを防止し得る。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。
[00271] ビオチン化核酸プローブは、その標的にどのように良好にハイブリダイズすることができるかを考慮して設計され得る。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズされ得る。より長い核酸プローブ及びGC含量がより高いプローブは、融解温度が上昇するため、より強力にハイブリダイズされ得る。核酸プローブは、少なくとも5塩基、10塩基、15塩基、20塩基、30塩基、40塩基、50塩基若しくは100塩基又はそれよりも多くの塩基の長さを有し得る。核酸プローブは、0%~100%のいずれかのGC含量を有し得る。プローブの融解温度がストレプトアビジン基板の温度許容度を超えないことを確実にするために注意を払い得る。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体及びヘテロ二量体等の阻害性二次構造が回避されるように設計され得る。プローブ融解温度とオフターゲットの結合との間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの長さ及びGC含量が存在し得る。合成核酸ライブラリは、その核酸が効率的なプローブ結合部位を含むように設計され得る。
[00272] 固相ストレプトアビジン基板は、磁気ビーズであり得る。磁気ビーズは、磁気ストリップ又はプレートを使用して固定化され得る。磁気ストリップ又はプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップ又はプレートを容器から取り出して、磁気ビーズを容器壁から溶液中に放出させ得る。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは、種々のサイズを有し得る。例えば、ビーズは、直径1マイクロメートル(μm)~3マイクロメートル(μm)のいずれかであり得る。ビーズは、最大で1マイクロメートル、2マイクロメートル、3マイクロメートル、4マイクロメートル、5マイクロメートル、10マイクロメートル、15マイクロメートル、20マイクロメートル又はそれを超える直径を有し得る。ビーズ表面は、疎水性又は親水性であり得る。ビーズは、遮断性タンパク質、例えばBSAでコーティングされ得る。使用前に、ビーズが核酸に非特異的に結合することを防止するために、ビーズを洗浄するか又は遮断性溶液等の添加剤で前処理し得る。
[00273] ビオチン化プローブは、磁性ストレプトアビジンビーズとカップリングした後、核酸サンプルプールと一緒にインキュベートされ得る。このプロセスは、直接捕捉と呼ぶことができる。代替的に、ビオチン化プローブを核酸サンプルプールと一緒にインキュベートした後、磁性ストレプトアビジンビーズを添加し得る。このプロセスは、間接的な捕捉と呼ぶことができる。間接的な捕捉方法により、標的の収率を改善し得る。核酸プローブが短いほど、磁気ビーズにカップリングするために必要な時間量を少なくし得る。
[00274] 核酸プローブと核酸サンプルとの最適なインキュベーションは、プローブの融解温度を1~10℃又はそれを大きく下回る温度で行われ得る。インキュベーション温度は、最大で5℃、10℃、20℃、30℃、40℃、50℃、60℃、70℃、80℃又はそれよりも高い温度であり得る。推奨されるインキュベーション時間は、1時間であり得る。インキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間又はそれよりも長い時間であり得る。インキュベーション時間が長いほど、良好な捕捉効率を導くことができる。ビオチン-ストレプトアビジンカップリングを可能にするために、ストレプトアビジンビーズの添加後にさらに10分間のインキュベーションを行い得る。この追加的な時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間又はそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオン等の添加剤を伴う緩衝液中で行われ得る。
[00275] 核酸プールが一本鎖核酸である場合(二本鎖とは対照的に)、プローブとその標的とのハイブリダイゼーションを改善し得る。ssDNAプールをdsDNAプールから調製するには、一般にプール中の全ての核酸配列の端部に結合する1つのプライマーを用いて線形PCRを実施することが必要になり得る。核酸プールが合成により作成又は組み立てられたものである場合、この共通のプライマー結合部位を合成設計に含め得る。線形PCRの産物は、ssDNAになる。核酸捕捉のためのより多くの出発ssDNA鋳型をより多くの線形PCRのサイクルで生成し得る。PCRについては、化学的方法セクションDを参照されたい。
[00276] 核酸プローブがそれらの標的とハイブリダイズされ、磁性ストレプトアビジンビーズとカップリングされた後、ビーズを磁石により固定化し、幾つかのラウンドの洗浄を行い得る。非標的核酸を除去するために3~5回の洗浄で十分であり得るが、それよりも多い又は少ないラウンドの洗浄を使用し得る。増やした洗浄の各々により、標的化されていない核酸をさらに減少させ得るが、標的核酸の収率も低下し得る。洗浄ステップ中の標的核酸とプローブとの適当なハイブリダイゼーションを容易にするために、低いインキュベーション温度を使用し得る。60℃、50℃、40℃、30℃、20℃、10℃若しくは5℃又はそれよりも低い低温を使用し得る。洗浄緩衝剤は、ナトリウムイオンを伴うトリス緩衝液を含み得る。
[00277] ハイブリダイズした標的の磁気ビーズカップリングプローブからの最適な溶出は、プローブの融解温度以上の温度で行われ得る。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で30℃、40℃、50℃、60℃、70℃、80℃若しくは90℃又はそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で1分間、2分間、5分間、10分間、30分間、60分間又はそれよりも長い時間であり得る。典型的なインキュベーション時間は、およそ5分間であり得るが、より長いインキュベーション時間により収率を改善し得る。溶出緩衝剤は、EDTA等の添加剤を伴う水又はトリス緩衝液であり得る。
[00278] 別個の部位のセットの少なくとも1つ又は複数を含有する標的配列の核酸捕捉は、それらの部位の各々に対して複数の別個のプローブを用いて1つの反応で実行され得る。別個の部位のセットのあらゆるメンバを含む標的配列の核酸捕捉は、その特定の部位に対するプローブを使用して別個の各部位に対して1つの反応である一連の捕捉反応で実行され得る。一連の捕捉反応後の標的の収率は、低い可能性があるが、その後、捕捉された標的をPCRで増幅し得る。核酸ライブラリが合成により設計されたものである場合、標的は、PCRのために共通のプライマー結合部位を有するように設計され得る。
[00279] 一般的な核酸捕捉のために、共通のプローブ結合部位を有する合成核酸ライブラリを作成又は組み立て得る。これらの共通部位は、完全に組み立てられた又は潜在的に完全に組み立てられた核酸をアセンブリ反応から選択的に捕捉し、それにより部分的に組み立てられた又は誤って組み立てられた(又は意図されたものではない若しくは望ましくない)副産物を濾過して取り除くために使用され得る。例えば、アセンブリは、完全に組み立てられた核酸産物のみが、各プローブを使用した一連の2つの捕捉反応を通過するのに必要な必須の2つのプローブ結合部位を含むように、各縁配列にプローブ結合部位を有する核酸を組み立てることを含み得る。前記例では、部分的に組み立てられた産物は、プローブ部位のいずれも含有しないか又は一方のみを含み得、したがって最終的に捕捉されないはずである。同様に、誤って組み立てられた(又は意図されたものではない若しくは望ましくない)産物も、縁配列のいずれも含まない又はその一方のみを含み得る。したがって、前記誤って組み立てられた産物は、最終的に捕捉されない。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合部位を含め得る。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全に組み立てられた産物(各成分を含む)のみをアセンブリ反応のあらゆる副産物から単離し得る。その後のPCRにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善し得る。
[00280] 幾つかの実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉し得る。例えば、前記標的化された核酸のサブセットにおいてのみ存在する結合部位を有するプローブを使用することによるものである。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に捕捉するために、目的の潜在的なサブライブラリに属する核酸の全てが共通のプローブ結合部位を共有する(サブライブラリ内で共通であるが、他のサブライブラリとは別個)ように作成又は組み立てることができる。
G.凍結乾燥
[00281] 凍結乾燥は、脱水プロセスである。核酸及び酵素の両方を凍結乾燥し得る。凍結乾燥された物質は、より長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物(例えば、活性酵素)を維持するために、化学的安定剤等の添加剤を使用し得る。スクロース及びトレハロース等の二糖を化学的安定剤として使用し得る。
H.DNA設計
[00282] 合成ライブラリ(例えば、識別子ライブラリ)を構築するための核酸の配列(例えば、成分)は、合成、シーケンシング及びアセンブリの複雑化が回避されるように設計され得る。さらに、配列は、合成ライブラリの構築費用が低減され、及び合成ライブラリを保管することができる寿命が改善されるように設計され得る。
[00283] 核酸は、合成するのが難しい場合がある長いホモポリマーの列(又は反復塩基配列)が回避されるように設計され得る。核酸は、2を超える、3を超える、4を超える、5を超える、6を超える、7を超える又はそれよりも長いホモポリマーの長さが回避されるように設計され得る。さらに、核酸は、それらの合成プロセスを阻害する恐れがあるヘアピンループ等の二次構造の形成が回避されるように設計され得る。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成し得る。合成ライブラリを構築するための核酸は、短く設計され得る。核酸が長いほど、合成が難しく、費用がかかる恐れがある。核酸が長いほど、合成間の変異の機会も増大する。核酸(例えば、成分)は、最大で5塩基、10塩基、15塩基、20塩基、25塩基、30塩基、40塩基、50塩基、60塩基又はそれよりも多くの塩基であり得る。
[00284] アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計され得る。OEPCR及びライゲーションベースのアセンブリ反応の核酸配列考慮事項の詳細な情報については、化学的方法セクションA及びBをそれぞれ参照されたい。効率的なアセンブリ反応は、典型的には、隣接成分間のハイブリダイゼーションを含む。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に、潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計され得る。ロックド核酸(LNA)等の核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化し得る。これらの修飾核酸は、例えば、ステープル鎖ライゲーションにおけるステープルとして又は粘着鎖ライゲーションにおける粘着末端として使用され得る。合成核酸ライブラリ(又は識別子ライブラリ)を構築するために使用することができる他の修飾塩基としては、2,6-ジアミノプリン、5-ブロモdU、デオキシウリジン、反転dT、反転ジデオキシ-T、ジデオキシ-C、5-メチルdC、デオキシイノシン、Super T、Super G又は5-ニトロインドールが挙げられる。核酸は、1つ又は複数の同じ又は異なる修飾塩基を含み得る。前記修飾塩基の幾つかは、より高い融解温度を有し、したがってアセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体(例えば、5-メチルdC及び2,6-ジアミノプリン)である。前記修飾塩基の幾つかは、全ての天然の塩基に結合することができ、したがって望ましい結合部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基(例えば、5-ニトロインドール)である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマー及びプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするため、プライマー(例えば、PCR用)及びプローブ(例えば、核酸捕捉用)に有用であり得る。核酸増幅(又はPCR)及び核酸捕捉に関する詳細な核酸設計考慮事項については、化学的方法セクションD及びFをそれぞれ参照されたい。
[00285] 核酸は、シーケンシングが容易になるように設計され得る。例えば、核酸は、二次構造、一続きのホモポリマー、反復配列及びGC含有率が高すぎる又は低すぎる配列等の典型的なシーケンシング複雑化が回避されるように設計され得る。特定のシークエンサ又はシーケンシング方法は、エラープローンであり得る。合成ライブラリ(例えば、識別子ライブラリ)を構成する核酸配列(又は成分)は、互いからの特定のハミング距離で設計され得る。このように、シーケンシングにおいて塩基分解能エラーが高い率で生じる場合でも、エラーを含む配列の一続きをなおそれらの最も可能性がある核酸(又は成分)にマッピングして戻すことができる。核酸配列は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、11塩基、12塩基、13塩基、14塩基、15塩基又はそれよりも多くの塩基の変異のハミング距離で設計され得る。ハミング距離の代替距離メトリックを使用して、設計される核酸間の最小の必要距離を規定することもできる。
[00286] 幾つかのシーケンシング方法及び計器では、アダプタ配列又はプライマー結合部位等の特定の配列を含有させるために入力核酸が必要になり得る。これらの配列は、「方法特異的配列」と呼ぶことができる。前記シーケンシング計器及び方法の典型的な予備的ワークフローは、方法特異的配列を核酸ライブラリと組み立てることを含み得る。しかしながら、合成核酸ライブラリ(例えば、識別子ライブラリ)が特定の計器又は方法でシーケンシングされることが事前に分かっている場合、これらの方法特異的配列は、ライブラリ(例えば、識別子ライブラリ)を含む核酸(例えば、成分)中に設計され得る。例えば、合成核酸ライブラリのメンバ自体が個々の核酸成分から組み立てられるのと同じ反応ステップで合成核酸ライブラリのメンバ上にシーケンシングアダプタを組み立て得る。
[00287] 核酸は、DNA損傷を容易にし得る配列が回避されるように設計され得る。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避し得る。別の例として、UVB(紫外線-B)光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシーケンシング及びPCRが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリがUVBに暴露される環境で保管されることが意図されている場合、その核酸配列を隣接するチミン(即ちTT)が回避されるように設計することが有益であり得る。
[00288] 化学的方法セクション内に含まれる全ての情報は、本明細書に記載の技術、方法、プロトコル、システム及びプロセスをサポートし、可能にすることを目的とする。
アジド-アルキン修飾を用いて成分から識別子を組み立てる方法
[00289] 化学的及び/又は生物学的ライゲーション方法を使用して2つ以上の核酸成分を一緒にライゲーションし、識別子を作成し得る。幾つかの実施形態では、「クリックケミストリ」等の化学的ライゲーション方法対酵素ライゲーション等の生物学的方法に伴う利点が存在し得る。
[00290] クリックケミストリ又は銅触媒アジド-アルキン付加環化(CuAAC)は、ヒュスゲン1,3-双極子付加環化反応の変形形態である。反応において、アルキン基及びアジド基は、反応してトリアゾールホスホジエステル模倣体を形成する。現行の方法は、Cu(I)イオンを使用してこの反応の特異性、速度及び収率を増加させる。反応は、一部のアルキンで速くなり得、およそ1分の反応完了時間が報告されている。反応時間は、30秒、60秒、90秒、120秒、150秒、180秒又はそれより長い時間であり得る。反応は、ロバストでもあり得、広いpH範囲に対して耐性を示す。
[00291] クリックケミストリを使用する化学的ライゲーションは、鋳型(又はステープル若しくはスプリント)オリゴヌクレオチドを用いて2つの1本鎖核酸成分間で起こり得る。代替的に、化学的ライゲーションは、共通する相補的突出(又は粘着末端)が存在する場合、2本鎖核酸成分間でも起こり得る。クリックケミストリによる化学的ライゲーションを使用して、上述した産物方式(図6)、順列方式(図11)、MchooseK方式(図12)、区画方式(図13)又は非制約列方式(図14)に従って識別子を構築し得る。
[00292] クリックケミストリを使用した成分のライゲーションでは、ある成分が少なくとも1つのアルキン基を有し、別の成分が少なくとも1つのアジド基を有する必要がある。ある成分の3’末端が別の成分の5’末端にライゲーションするように隣接する成分上に相補的修飾が位置する限り、いずれの修飾がある核酸成分の5’末端にあるか又は3’末端にあるかは、重要ではない。
[00293] 幾つかの異なるタイプのアルキン-アジド結合をクリックケミストリで使用し得る。PCR等の分子生物学的方法に適合するアルキン-アジド結合は、識別子の生成に特に適し得る。識別子の特定のプールが1つ又は複数のアルキン-アジド結合を含む場合、識別子は、PCRを使用して、それらの自然形態(塩基間にホスホジエステル結合を有する)にコピーされ得る。
多要素成分から識別子を組み立てる方法
[00294] 識別子を含む成分は、異なる機能を有する2つ以上の部分に分割され得る。例えば、各成分は、2つの部分を有し得る:データアクセスのために核酸プローブにハイブリダイズすることが意図される1つの長い部分及びシーケンシングの読取りが意図される別の短い部分。2つの部分は、分離され得、最終的な識別子産物が2つの機能的に異なる領域を有するように、各縁部で識別子に組み付けられることが意図される。片側の1つの領域は、化学的アクセスのためのものであり、逆側の1つの領域は、シーケンシングのためのものである。
[00295] 図22は、各層からの成分が産物方式に従って一緒になる、識別子の粘着末端ライゲーションアセンブリでのこの概念の一例の概略図を与える。第1の層は、連結した2部成分により識別子アセンブリプロセスの核となり、後続層は、両縁部から識別子に組み付けられる分離した2部成分を含む。粘着末端の上の記号は、それらの配列を表す。異なる記号を有する粘着末端は、直交する。記号の隣の星印は、逆相補鎖を表す。例えば、「a」及び「a」は、互いの逆相補鎖であり、したがってライゲーション中にハイブリダイズして産物を形成することになる。
塩基エディタを用いて識別子を構築する方法
[00296] 塩基エディタを使用して、親識別子内の特定の座に位置する塩基をプログラム可能に変異させ、新しい識別子を構築し得る。一実施形態では、塩基エディタは、シトシン(C)をウラシル(U)に変換するシチジンデアミナーゼに融合したdCas9タンパク質であり得る。親識別子は、ガイドRNA(gRNA)が結合する幾つかの直交標的を有するように設計され得る。標的座は、その座で結合したdCas9-デアミナーゼの活性範囲内に1つ又は複数のシトシンを含有し得る。活性範囲は、座内の1塩基、2塩基、3塩基、4塩基、5塩基、6塩基又はそれより多くの塩基であり得る。続けて、親識別子をdCas9-デアミナーゼ及び特定の座に関するgRNAのサブセットと共にインキュベートすると、それらの標的座の各々で1つ又は複数のシトシンからウラシルへの変異が生じ得る。さらに、DNAポリメラーゼは、ウラシルをチミンとして認識し、したがって変異した識別子に対してPCRを実行することにより、相補的変異(グアニンからアデニンへ)が同様に生じ得る。N個の直交標的座を有する親識別子は、dCas9-デアミナーゼ及びN個のgRNA(各々が親における別個の座を標的とする)の異なるサブセットを適用することにより、2個の別個の娘識別子配列にプログラム可能に変換され得る。したがって、この方式で構築される可能な識別子の組合せ空間は、N個のgRNA入力に対してNビットの情報を格納し得る。
[00297] 幾つかの実施形態では、親配列の任意の所与の標的座は、変異効率の増大を促進するために上鎖及び下鎖の両方に標的化シトシンを含有し得る。その上、効率的なgRNA標的化を生じさせるために、各座は、PAM部位に隣接しなければならない。しかしながら、PAM配列は、工学的に操作された異なるCas9バリアントの使用に応じて様々であり得る。
[00298] dCas9-デアミナーゼ融合体は、2つの融合タンパク質間にリンカー配列を含み得る。最適なリンカー長は、効率的な標的化変異でアミノ酸16個分の長さであり得る。リンカー長は、少なくともアミノ酸0個、1個、5個、10個、15個、20個、25個又はそれより多くのアミノ酸個数分の長さであり得る。複数のシチジンデアミナーゼの1つを使用し得る。シチジンデアミナーゼの例には、APOBEC1、AID、CDA1又はAPOBEC3Gがある。dCas9の代わりに活性なCas9ニッカーゼを使用し得るが、その場合、識別子構築反応にDNA修復酵素を含むことが同様に必要であり得る。
[00299] 塩基エディタを用いて識別子を構築する別の実施形態では、dCas9に融合したアデニンデアミナーゼ(dCas9に融合したシチジンデアミナーゼとは対照的に又はそれに加えて)を使用して、gRNAによりアクセス可能な親識別子の被定義座でアデニンをイノシンに変異させ得る。イノシンは、DNAポリメラーゼによりグアニンとして解釈される。したがって、塩基編集座のPCRにより、逆鎖上で相補的なチミンからシトシンへの変異が生じ得る。
DNAに格納した情報を削除する方法
[00300] 核酸を使用して格納したデータを確実に削除(又は消去)できることは、セキュリティ、プライバシー及び規制上の理由から有益であり得る。データの消去は、核酸内の共有結合の切断、シーケンシングされる能力を破壊するような核酸の非可逆的修飾、それらを非可逆的に封入若しくは吸着させること又はより多くの核酸若しくは他の材料を付加して、核酸の元の集合を読取り不能若しくは読取り不可にすることを伴い得る。これらの方法は、選択的に実行され得るか又は非選択的に実行され得る。選択プロセスは、削除プロセスと別であり得る。例えば、識別子ライブラリから開始して、配列特異的プローブを使用して、削除する識別子のサブセットをプルダウンし得る。別の例として、サイズ又は質量対電荷比による選択した識別子の精製を他の選択的又は非選択的削除方法と併せて行い得る。
[00301] ライブラリから核酸を削除する選択的方法は、削除する核酸のサブセットをプルダウンするための配列特異的プローブの使用、1つ又は複数の標的配列を含有する選択した核酸を開裂させるためのCRISPRに基づく方法の使用及びサイズ又は質量対電荷比により核酸を選択するための精製技術の使用を含む。
[00302] ライブラリからの情報符号化核酸を削除するための非選択的方法は、超音波処理、オートクレーブ処理、漂白、塩基、酸、臭化エチジウム又は他のDNA修飾剤を用いた処理、照射(例えば、紫外光を用いた)、燃焼及びDNアーゼI等の非特異的ヌクレアーゼ消化(インビトロ又はインビボ)を含む。他の方法を使用して、核酸をアクセス又はシーケンシングから不明瞭化するか、隠すか又は物理的に保護し得る。方法は、封入、希釈、元の核酸を不明瞭化するためのランダム核酸の付加及び核酸の下流のシーケンシングを防止する他の作用剤の付加を含み得る。一実施形態では、核酸に格納されたデータは、エラープローンポリメラーゼ、例えば校正機能が欠如したポリメラーゼによる増幅を用いて不明瞭化され得る。
[00303] 値の定義された期間と共に核酸に格納されたデータの場合、指定された時点でデータを自動的に削除する方法を使用することが有益であり得る。例えば、データは、必須の法定期間後に削除されるようにスケジュールされ得る。別の例として、データは、転送中であり、時間通りにその宛先に到達しない場合、削除されるようにスケジュールされ得る。一実施形態では、スケジュールされた核酸の削除は、定義された速度又は指定された時点で直ちに作用する分解剤の使用を伴い得る。別の実施形態では、スケジュールされた核酸の削除は、経時的に分解する核酸カプセル又は保護ケーシングの使用を伴い得る。別の実施形態では、核酸は、異なる分解速度を促進するために異なる温度又は異なる環境で保持され得る。例えば、分解速度を速めるために、高温又は高湿度におけるものである。別の実施形態では、核酸は、より急速な分解のためにより不安定な形態に変換され得る。例えば、DNAをより不安定なRNAに変換し得る。
[00304] 核酸削除の確認は、シーケンシング、PCR又は定量的PCRを用いて達成され得る。
効率的なランダムアクセスに向けて識別子を設計し、ランク付けする方法
[00305] 本明細書に記載のシステム及び方法は、符号化され、格納された情報から任意の分布のビットを効率的にランダムアクセス検索できるようにする。データが、ライブラリ中の識別子の標的化されたサブセットを増幅するためにエッジ層(又は末端配列)に使用される成分特異的プライマーと共に格納されている場合、符号化された情報のある割合を効率的に検索し得る。効率的なアクセスは、格納されたデータから情報の選択された部分を検索するために必要なPCRステップ数の減少を含み得る。例えば、本明細書に記載の方法を使用して格納されたデータのセットにおいて、L/2未満の逐次的なPCRステップで識別子にアクセスし得、ここで、Lは、識別子を含む層の数である。識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールのランダムアクセス性質に影響を及ぼす。識別子のランクは、それが表すビットの位置に対応する。識別子ランクは、各層に現れ得る可能な各成分の順序から辞書学的に決定され得、戦略的に定義され得る。例えば、識別子の縁部にある層には、識別子の中央にある層よりも高い優先順位を割り当てることができ、したがってランダムアクセス(例えば、識別子のエッジ層に結合するPCRプライマーを用いる)により、連続する又は関連するひと続きの符号化されたビットに対応する連続ランクを有する識別子が返される。「優先順位」が高いことは、アクセスの深さが深いことと類似している - 例えば、優先順位が高い要素は、優先順位が低い要素よりもアクセスが容易である。
[00306] 識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールからの特定の識別子のサブセットにランダムアクセスできるようにする。幾つかの実装形態では、識別子プール内の各識別子核酸配列は、記号列内での記号値及び記号位置に対応する。さらに、プール内の識別子核酸配列の有無は、記号列内の対応する各記号位置の記号値を表し得る。
[00307] 特定の実装形態では、連続記号位置を有する記号は、同様のデジタル情報を符号化する。本明細書で使用される場合、同様のデジタル情報は、同じ構造のデータ(即ち画像データ又は2進コード列)を含み得る。同様のデジタル情報は、情報内に含有されるデータを指すこともできる。例えば、特定の強度の赤色を用いて符号化された全ての画像データの位置は、連続記号位置に一緒にグループ化され得る。代替的に、連続記号位置を有する記号は、同様のデジタル情報を符号化しなくてもよい。例えば、連続記号位置は、x座標、y座標又は強度値若しくは強度値範囲等のデータ(即ち画像データ)内の種々の特徴に対応し得る。図23は、3層A、B及びCの産物方式により生成される識別子の一例を示し、各層は、2つの成分1及び2を有する。3層A、B及びCの各々からの成分は、その順序で組み立てられる。各識別子のランクは、各層に特定の順序を割り当て、次いで各層内の各成分に特定の順序を割り当て、次いで識別子に順序を辞書学的に割り当てることにより決定され得る。図23Aは、層の辞書学的順序を物理的識別子で順序付けられたものと同様に定義することから得られたランクを示す。そのような識別子プールに、識別子の縁部(例えば、成分A1及び成分C1)に結合するプライマーを使用したPCR反応を用いて問い合わせた場合、アクセスされた識別子は、非連続ランクを有し、1つのPCR反応で連続するビット列にランダムにアクセスすることが不可能になる。本明細書に記載の特定の実装形態では、識別子の縁部(例えば、成分A1及び成分C1)は、「末端配列」又は「末端分子」と呼ばれる。しかしながら、連続するひと続き内のビットは、関連する情報を符号化することが多いため、多くの場合、連続するひと続きのビット(連続してランク付けされた識別子によって表される)にランダムにアクセスすることが理想的である。プローブを使用して連続するひと続きのビット内の各ビットにアクセスして、複数の識別子核酸配列内の各識別子核酸配列の標的末端配列にハイブリダイズさせて、連続記号位置を有する各記号に対応する識別子核酸配列を選択し得る。図23Bは、識別子の縁部(又は末端配列)に結合するプライマーを使用した1つのPCR反応で連続するひと続きのビットを問い合わせることを可能にするために、層A、B及びCの辞書学的順序をどのように変え得るかを示す。この戦略は、層の物理的順序付けと同じ層の辞書学的順序付けを使用するものではない。代わりに、この戦略は、識別子の縁部(又は末端配列)にある層に優先順位がより高い辞書学的順序を割り当て、識別子の中央にある層に優先順位がより低い順序を割り当てるものである。
[00308] 組合せ空間の基礎をなす区画方式における成分の分布は、PCR反応でアクセスし得る記号数に影響を及ぼし得る。図24は、3つの層A、B及びCの産物方式により生成される識別子の一例を示し、成分は、層にわたって不均一に分布している。具体的には、2つの層は、2つの成分1及び2を有し、1つの層は、3つの成分1、2及び3を有する。上述の識別子ランク付け原理によれば、物理的順序付けがA、B、次いでCであるにもかかわらず、層の辞書学的順序は、A、C、次いでBである。これは、識別子のエッジ層(又は末端配列)に結合するPCRプライマーを用いたランダムアクセスが、連続するランク(連続するひと続きのビットに対応する)を有する識別子を返すようなものである。具体的には、特定の識別子核酸配列の第1の及び第2の末端配列は、連続するひと続きのビットに対応する複数の識別子核酸配列間で共有される。図24Aは、識別子の中央層により多くの成分が位置する場合、PCRクエリ(各々が縁部成分(又は末端配列)に結合するプライマーを用いる)によりアクセスされる識別子のプールがより大きくなり得ることを示す。それに対応して、一度にアクセスすることができるビット数が大きくなり得る。図24Bは、識別子のエッジ層(又は末端配列)により多くの成分が位置する場合、均等なPCRクエリによりアクセスされる識別子のプールがより小さくなり得ることを示す。それに対応して、より高分解能でビットにアクセスすることができる。
[00309] 識別子を構築するための産物方式における層の数も、PCRクエリ毎にアクセスすることができる記号数に影響を及ぼし得る。図25は、5つの層A、B、C、D及びEの産物方式により生成される識別子の一例を示し、各層は、2つの成分1及び2を有する。上記識別子ランク付け原理を進めると、層の辞書学的順序は、最高の優先順位を最外層(A及びE)に割り当て、次に高い優先順位を外側から2番目の層(B及びD)に割り当て、最低の優先順位を中央層(層C)に割り当てる。本明細書で使用される場合、優先順位は、データアクセスの深さ(又はレベル)を指し、優先順位が高いことは、深さが浅いことに対応し、優先順位が低いことは、深さが深いことに対応する。例えば、大量の本からの1冊の本(即ち層A及びE)へのアクセスは、最高優先順位とみなされ、その本内の1章へのアクセスは、次に高い優先順位(即ち層B及びD)とみなされ、その本のその章内の1段落へのアクセスは、最低の優先順位(即ち層C)とみなされる。より多くの層がある場合、層の辞書学的順序付けは、このように続き、その結果、より少ないPCRクエリを使用して連続する又は関連するひと続きのビットを検索することができる。最外層中の成分(A1及びE1)に関連する全ての識別子は、1つのPCR反応で問い合わせ得る。次いで、外側から2番目の層中の成分(B1及びD1)に結合するプライマーを使用した追加のPCR反応を用いて、さらに高い分解能(即ちより低い優先順位又はより深い)のクエリを実行し得る。識別子のアーキテクチャにより多くの層がある場合、逐次的なPCR反応は、このように続き、一層分解能が高いクエリを達成し得る。しかしながら、2つの逐次的なPCR反応を使用して、4つの成分A1、B1、D1及びE1に関連する全ての識別子を問い合わせることの代替としてのものである。A1-B1を一緒に及びE1-D1を一緒に結合するが、成分自体ではいずれにも結合せず、したがって、その結果として、PCRクエリが、A1及びE1後にB1及びD1が逐次的にPCRクエリされる場合と同じ識別子にアクセスするように、PCRプライマーを設計することが可能である(特に成分が十分に短い配列を有するように設計されている場合)。
DNA及び複数のビンを用いて情報を符号化する方法
[00310] 情報は、「マルチビン方式」を使用してDNA識別子を用いて符号化され得る。そのような方式の一実装形態では、b個のビンが存在し、各ビンは、識別子の分離したセットを保持する。各ビンは、一意の[log2b]ビット記号を用いてラベルされ、これは、本明細書ではラベル又はビンラベルと呼ばれ得る。lビットのビットストリームは、
「ワード」に分割され、各ワードは、長さ[log2b]ビットを有する。任意のワードwがビンラベルであり得る。
[00311] 具体的には、マルチビン方式は、「マルチビン位置符号化方式」であり得る。このマルチビン方式では、ビットストリーム中の各ワードwの位置を表すために一意の識別子を構築し、ラベルwを有する一意のビンに入れる。このマルチビン実装形態では、lビットの情報を符号化するために、
個の識別子を作成し、厳密に1つのビンに存在する厳密に1つの識別子により各ビットを符号化する。これを「マルチビン位置符号化方式」と呼ぶ。
[00312] 上記マルチビン位置符号化方式は、以下の例により説明することができる。35個のビンを考え、各ビンに、句読を含む英語アルファベットの別個の記号をラベルする。英語テキストの段落の符号化は、以下のように達成される。各記号xについて、段落内のxの全ての出現が識別される。テキスト中の各文字に昇順で番号付けすることにより、それらの整数アドレスを取得する。幾つかの特定の記号xのアドレスに対応する全ての識別子が作成され、xでラベルされた単一のビンに集める。したがって、テキスト中のxが出現する全ての位置は、xでラベルされたビン中の識別子によって表される。
[00313] 図26は、マルチビン位置符号化方式の一例を示し、記号ストリーム中の各記号型の位置は、その記号型に確保されたビンに記録される。この図は、「
」という句の一例が1とラベルされることを示す。この例では、9つの記号型「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」及び「_」(スペースを表す)で構成される9文字のアルファベットを仮定する。このアルファベット中の各記号は、各記号に対応する別個のビンを割り当てられ、その記号で名付けられる。例えば、空のビン「D」は、ラベル7により示される。例えば、ビン「F」のラベルは、ラベル6により示される。符号化される句をアルファベットから記号に分け、ラベル3により示されるように、識別子ライブラリに1対1の対応でマッピングする。記号が出現する都度、対応する識別子のその記号に確保されたビンへの追加がトリガーされる。例えば、符号化される句(「
」強調付加)中に記号「A」が3回出現するため、ビンAは、3つの識別子(ラベル4)を有する。さらに、ビン「A」中の3つの識別子は、その記号が出現する位置を指し示す。マッピングされる句(「
」)には文字「D」及び「G」が出現しないため、ビン「D」及び「G」は、空である。
[00314] マルチビン方式の別の実装形態では、lビットのビットストリームは、1、2、...、bとラベルされたbビンへの識別子の分布に暗黙的に符号化される。この方式では、長さlビットの全てのビットストリームのセットと、b個のビン中へのd個の識別子の全ての分布のセットとの間にマッピングが設計される。d個の識別子のb個のビンへの分布は、0≦b<bであるような整数ラベル(b、b、...、b)のベクトルであり、負でない各整数bは、i番目の識別子に割り当てられた一意のビンのラベルである。割り当てられた各ビンラベルは、b個の可能なラベルから自由に選択することができるため、b個の可能な分布が存在する。
[00315] 図27は、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。図27は、識別子2つの識別子ライブラリ(1とラベルされる)及び3つの名付けられたビン(0、1、2)のビンの集合を用いた一例を示す。ビンの各行(各行が3つの名付きビン0、1、2を含む)は、3つのビンに区画された2つの識別子の分布の一例を示す。表(6とラベルされる)は、各分布にマッピングされた、任意だが固定されているビットストリームを示す。例えば、3つのビンの4行目(5とラベルされる)は、2つの識別子が1と名付けられたビンに入っている一方、ビン0及びビン2は、空である分布を示す。この分布は、ビットストリーム0011に任意にマッピングされる。同様に、3つのビンの2行目は、2つの識別子が0と名付けられたビン及び1と名付けられたビンに入っている一方、3番目のビンは、空のままである分布を示す。この分布は、ビットストリーム0001(3とラベルされる)にマッピングされる。次の行は、1と名付けられたビンが空のままである分布を示す。これは、ビットストリーム0010に対応する。あらゆるそのようなビットストリームを所与として、その対応する分布が構築され保存される。このように、このマルチビン識別子分布方式を使用し、十分な数のビン及び識別子を使用して、あらゆるビットストリームを符号化し得る。
[00316] マルチビン方式の別の実施形態では、識別子は、2つ以上のビンに存在し得る。この方式では、lビットのビットストリームは、1、2、...、bとラベルされたビンへの識別子の分布に暗黙的に符号化される。この方式では、各ビンは、識別子のサブセットを含む。したがって、この方式では、長さlビットの全てのビットストリームのセットと、全ての識別子サブセットのセットの全てのbサブセットのセットとの間にマッピングが設計される。bサブセットとは、b個の要素を含むセットを意味する。例えば、組合せ空間内に合計d個の識別子が存在する場合、全ての識別子サブセットのセットは、2個のセットを含み、これをDで示す。この方式では、長さlの全てのビットストリームと、b個のセットを含むDの任意のサブセットとの間のマッピングを使用し、長さがlog2dbを超えないビットストリームを符号化することができる。別の実施形態では、各ビンは別個のサブセットを含む。この場合、この方式により、長さが
を超えないビットストリームを符号化することができる。
[00317] 図28は、識別子が2つ以上のビンに現れ得る場合、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。この方式を、再使用を伴う識別子分布と呼ぶ。図28は、識別子2つの識別子ライブラリ(8及び9とラベルされる)並びに3つのビン(ビン0、1、2)を伴う一例を示す。2つの識別子及び3つのビンを使用して、6ビット(b、ここで、各bは、ビットストリーム中の単一のビットに対応し、xは、ビットストリーム中の各ビットの位置を示す)を符号化する。図の上部は、それぞれビットb(4とラベルされる)、b及びbに対応する可能な識別子のサブセットを示す。識別子の任意のサブセットが任意のビンに含まれ得る。したがって、3つのビンの各ビンは、4つの選択肢を含み得る:識別子なし、単一の識別子(8とラベルされる)、他方の識別子(9とラベルされる)又は両方の識別子(8及び9)。この例は、3つのビンを伴うため、各サブセットは、各行に3回示される(ラベル2)。3つのビンの各々は、厳密に1つのサブセットを含み得るが、全てのサブセットで三重になることが許容される。これは、サブセットを繋ぐ線(ラベル3)で示されている。左から右への各パスは、3つのビンに含められるサブセットの集合に対応する。表(7とラベルされる)に示されるように、識別子の各分布は、特定のビットストリームにマッピングされる。一実施形態では、各ビンのサブセットを00、01、10及び11と名付けることにより、ビットストリームを推測し得る。したがって、例えば、ラベル5により示される分布は、3つのビンの各々に空の識別子のサブセットが含まれるように選択されるため、ビットストリーム000000に対応し、このサブセットは、00と名付けられる。同様に、ラベル6により示される分布は、ビン0にサブセット01が含まれ、ビン1にサブセット01が含まれ、ビン2にサブセット10が含まれるように選択されるため、ビットストリーム010110に対応する。この図は、64個の可能な分布のさらなる数例を示す(図中の破線の項目により暗に示される)。
[00318] マルチビン符号化方式は、そのような方式を用いて符号化されたデータを復号化するには、全てのビンにアクセスして復号化する必要があり得るため、データの安全なアーカイブに用途を有し得る。例えば、マルチビンにより符号化された識別子ライブラリをソースビットストリームにマッピングして戻すために、各ビンに存在する識別子セットを取得することが必要であり得、なぜなら、マルチビン方式では、ビットストリームが複数のビンにおける別個の識別子の分布にマッピングされ、それにより一般にビンの適切なサブセットからソースビットストリームの任意の有意な部分列を復号化することが不可能になるためである。
[00319] 別の実施形態では、マルチビン方式を使用し、複数の直交性識別子ライブラリを使用してソースビットストリームを符号化し得る。得られたマルチビンライブラリは、幾つかの最小濃度のビンの任意のサブセットからの復号化を可能にするように組み合わされ得る。例えば、ソースビットストリームは、それぞれ5つの直交性ライブラリ及び3つのビンを使用して符号化され得る。次いで、得られた15個のビンは、3つのビンの任意のサブセットからのビットストリームの復号化を可能にするように組み合わされ得る。実際には、ビンは、基板上の管、ウェル又はスポット等の物理的位置であり得る。
[00320] 幾つかの実施形態では、ビンは、基板上の管、ウェル又はスポット等の物理的位置であり得る。他の実施形態では、ビンは、特定のバーコード配列等、集合内の全ての識別子に共有されるより抽象化された結び付きであり得る。
DNA及び整数区画化を用いて情報を符号化する方法
[00321] 用語「整数区画」法は、DNAのランダム配列の区画に情報を格納する符号化戦略を指すために使用される。図29は、5つのステップにより概説される整数区画法の一実施形態を示す。DNAは、灰色又は黒色の棒及び記号を含む列として示されている。示されている各DNAは、別個の種を表す。「種」は、同じ配列の1つ又は複数のDNA分子と定義される。「種」が複数の意味で使用される場合、複数の種のうちのあらゆる種が別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことで明確にされ得る。
[00322] 方法実施形態のステップ1において、各々が「カウント」と呼ばれる非常に多数の種のプールから開始される。カウントは、縁部に共通の配列(黒色及び薄い灰色の棒)、次いで中央に別個の配列(N...N)を有するように設計され得る。縮重オリゴヌクレオチド合成戦略を使用して、このカウントの出発プールを迅速及び安価に製造することができる。ステップ2において、カウントをビン(ステップ2に示されている矩形)に区画化する。いずれのカウントがいずれのビンに区画化されるかは、重要ではなく、重要であるのは、各ビンに区画化されるカウントの数のみである。したがって、区画化は、単一のカウントを出発プールからランダムにサンプリングし、次いでそのカウントを特定のビン(例えば、ステップ2に示されている5つのビンの1つ)に割り当てることにより行われ得る。単一のカウントは、プールから小さい液滴でサンプリングされ得る。ビンは、反応容器である。例えば、ビンは、マイクロ流体チャネル内のチャンバ又は基板上の位置であり得る。カウントは、マイクロ流体デバイスを通してチャンバに又はプリントを通して基板上の位置に割り当て得る。各ビンは、バーコードと呼ばれる別個のDNA種を含む。バーコードは、縁部に共通の配列(薄い灰色及び濃い灰色の棒)を有し、中央に各ビンを識別する別個の配列(B0、B1、B2、B3、B4、...)を有するように設計され得る。ステップ3において、バーコードの共通の縁配列をカウントの共通の縁配列に組み付ける。例えば、バーコードの共通の縁配列は、粘着末端ライゲーション又はギブソンアセンブリにより組み立てるように構成され得る。ステップ4において、各ビンから組み立てられたDNA分子を、ステップ5に示される格納のための最終的なプールに統合する。最終的なプール内の種は、カウントが各ビンにどのように区画化されたかに関する情報の全てを含む。この情報は、シーケンシングにより復元され得る。所与の例では、シーケンシングデータは、第1のビン(B0)が2つのカウントを有し、第2のビン(B1)が3つのカウントを有し、第3のビン(B2)が1つのカウントを有し、第4のビン(B3)が1つのカウントを有し、第5のビン(B4)が2つのカウントを有するように、9つのカウントが5つのビンに区画化されたことを黙示し得る。これは、整数「9」を順序和「2+3+1+1+2」として数学的に書き換えることと均等であり、これは、「合成」(composition)として知られている。この方法のパラメータが常に合計9つのカウント及び5つのビンを有するように固定される場合、この例で記録される特定の合成は、13choose4の可能な合成の可能性があるため、log2(13choose4)ビットの情報を含む。このプロセスの任意の時点において、格納されている情報に干渉することなく各種の複数のコピーが存在し得るか又は作成され得る(例えば、PCRを用いて)。これにより、分解から保護するため及びシーケンシングを促進するために、最終的なプールを増幅することが可能になる。一般に、整数区画システムがn個の区画化されたカウント及びk個のビンの固定されたパラメータ値を有する場合、方法を実施して、log2[(n+k-1)choose(k-1)]ビットの情報を格納し得る。数学的には、この情報がシステムの「弱合成」(weak compositions)数を測定すると言える。しかしながら、これは、各ビンのバーコード配列が分かっている場合のみである。各ビンのバーコード配列が分かっていない場合(例えば、バーコード自体がランダム配列である場合)でも、方法をなお実施して、
を格納し得、ここで、Pj(n)は、厳密にj部分に入る区画数nである。
DNAに情報を符号化するためのデータパイプライン設計の方法
[00323] DNAに書き込まれる入力ビットストリームは、「コーデック」と省略される計算符号化-復号化パイプラインにより処理される。図30は、コーデックの符号化部分の一例の高レベルブロック図を示す。ソースビットストリーム及びそれをDNAに書き込む要求を受信すると、コーデックは、ソースビットストリームを、ブロックサイズとして知られる固定長を超えないサイズの1つ又は複数のブロックに分割する。コーデックは、ソースビットストリーム(即ち記号列)、処理要件及びビットストリームの内容(即ちデジタル情報)の意図される用途に基づいて適切なブロックサイズを決定する。例えば、100Gビットのビットストリームは、各々の長さが1Gビットである100個のブロック若しくは各々の長さが100Mビットである1000個のブロックに分割し得るか、又は何らかの他の方法で分割し得る。
[00324] コーデックは、1つ又は複数のハッシュアルゴリズムを使用して各ブロックのハッシュを計算し得る。ハッシュアルゴリズムは、ハッシュ及び他のメタデータ、例えばブロック長及びブロックアドレスをブロックに付加し得る。
[00325] コーデックは、1つ又は複数の誤り検出及び修正アルゴリズムを各ブロックに適用し、1つ又は複数の誤り保護バイトを計算し得る。次いで、コーデックは、元のブロックを誤り保護情報と組み合わせて、誤り保護されたブロックを取得し得る。例えば、コーデックは、畳込み符号化をブロック内のビットに適用し、リードソロモン又は抹消符号化をブロック内のバイトのチャンクに適用し、リードソロモン又は抹消誤り保護バイトをブロックの各チャンクに付加し得る。コーデックは、誤り保護メタデータを各ブロックに付加し得る。
[00326] 誤り保護情報の計算において、コーデックは、特定の代数フィールドサイズを選択して、誤り保護算出を行い得る。フィールドサイズによりソースワード長が決まり得、これは、任意のビット数、例えば4、8、12、16、20、24、28、32、36、40、44、48、64又は128ビット等であり得る。ソースワードは、ソースビットストリームを含むビットの連続列(固定長)である。コーデックは、特定のフィールドサイズ及びワード長を計算の複雑さ及び誤り保護考慮事項に基づいて選択され得る。例えば、8ビットのワード長は、計算上効率的であり得るが、16ビットのワード長でより良好な誤り保護を提供し得る。コーデックは、探索アルゴリズムを使用して、1つ又は複数の目的関数に基づいてパラメータ値の最適なセットを識別し得る。例えば、コーデックは、ライタハードウェアシステム内の独立した反応区画の数、パラメータ値の特定の構成下でビットストリームを符号化するために必要な一意の識別子の数、何らかの他の関数又は関数の何らかの組合せを費用関数として使用し得る。
[00327] コーデックは、誤り保護されたブロックに別の符号化ステップをさらに適用して、書込み又は読取り性能を改善し得る。コーデックは、誤り保護されたブロック内の各ワードを新しいコードワードにマッピングし得る。コーデックは、探索アルゴリズムを使用して、性質の特定のセットを有するコードワードのセットを生成し得る。例えば、コーデックは、可変長のコードワード、同じ固定数の「1」ビット値を有するコードワード、互いから指定されたハミング距離を有するコードワード又はそのような特徴の何らかの組合せのコードワードを生成し得る。コーデックは、最良のコードワード長、重み、ハミング距離又はコードワードの他の特徴の決定において、ソースワード長、ライタハードウェア速度及び利用可能な成分の総数を含むパラメータのセットを使用し得る。コーデックは、これらのコードワードを用いた誤り検出又は修正情報の別の層を含み得る。例えば、コーデックは、厳密にk個の「1」ビット値を有する長さnのコードワードを生成し得、それらのビットの2つは、ハイビット又はロービットとして知られており、パリティビットとして機能する。ハイビットは、パリティビットが1の場合に設定され、そうでなければロービットが設定される。そのような誤り保護ビットの1つ又は複数の対は、コードワードの種々の部分を保護し得る。
[00328] コーデックは、コードワードの特定のセットを選択して、符号化中又は復号化中、最適化された化学的条件を保証し得る。例えば、コーデックは、固定された重みのコードワードを生成して、固定された同一数の識別子がライタシステム内の各反応区画において、各区画内で及び複数の区画にわたりおよそ等濃度で組み立てられることを保証し得る。コーデックは、各反応区画において同数の識別子が組み立てられ、整数のコードワードが符号化されるようにコードワード長及び区画方式を選択し得る。
[00329] コーデックは、識別子の複数のセットを使用して、ソースビットストリーム内のビットの一部又は全部を符号化するように選択され得る。識別子は、直交性の識別子ライブラリに由来するものであり得、同じ識別子ライブラリに属するものであり得る。識別子は、ソースビットストリーム又はソースビットストリームからのビットの組合せを符号化し得る。ビットの組合せを符号化する識別子の複数のセットを使用することで、コーデックは、全てのビットを確実に復号化するために必要なサンプルのサイズを縮小することが可能であり得る。コーデックは、各ソースブロックに1つ又は複数の出力ブロックを生成し得る。出力ブロックは、リストとして又はツリーを含む何らかの他のタイプのデータ構造として組み立てられるべき識別子のセットを記述し得る。コーデックは、指定された識別子を組み立てるようにデバイスに命令する1つ又は複数のコマンドファイルを生成し得る。例えば、コーデックは、液体ハンドリングロボット又はインク含有成分を用いるインクジェットプリンタを制御するコマンドファイルを生成し得る。コーデックは、デバイスと通信し、デバイスからの情報に基づいてブロックファイルを最適化し得る。例えば、デバイスは、アセンブリエラー率を報告し得、コーデックは、誤り保護性能がより高い新しいブロックファイルを生成し得る。コーデックは、ブロックファイル又はコマンドをファイルとして又はネットワークを介して送信し得る。コーデックは、1つ又は複数のコンピュータを介して計算プロセスを実行し得る。
情報ライタへの指示を指定する方法
[00330] 本明細書では、識別子ライブラリを構築する任意のシステムを「ライタ」と呼ぶ。例えば、ライタの幾つかの実施形態は、プリントに基づく方法を使用して、識別子の構築のために成分を並置し得る。プリントに基づく方法は、各々が1つ又は複数の核酸分子を基板にプリントすることが可能な1つ又は複数のプリントヘッドの使用を伴い得る。
[00331] 組み立てる識別子ライブラリが指定され、指定ファイルのセットを介してライタに送信される。ブロックデータファイルは、ライタにより生成される識別子のセットを指定する。ブロックデータファイルは、データ圧縮アルゴリズムを使用して圧縮され得る。ブロックを含む識別子は、限定されないが、ツリー、トライ、リスト又はビットマップ等の直列化されたデータ構造の形態で指定され得る。
[00332] 例えば、産物方式を使用して生成される識別子ライブラリは、成分ライブラリ区画方式(成分が識別子のアーキテクチャ内の層に分割される様式)を含むブロックメタデータファイル及び各層で使用される可能な成分の名称のリストを用いて指定され得る。ブロックデータファイルは、直列化されたトライデータ構造として編成された、生成される識別子を含み得、直列化されたトライデータ構造では、トライのルートからリーフへの各パスは、識別子を表し、パスに沿った各ノードは、その識別子のその層において使用すべき成分名を指定する。ブロックデータファイルは、ルートから開始し、各ノードの左側の子ノードに行った後、ノード自体に行き、次いで右側の子ノードに行く順序でトラバースすることにより、このトライを直列化することを含み得る。
[00333] 図31は、識別子ライブラリを表すデータ構造及び直列化の一実施形態を示す。あるビットストリームを符号化する識別子ライブラリが示されている(ラベル11)。ツリーのルートから任意のリーフまでの各パスは、単一の識別子を表し、識別子内の成分は、パスに沿って遭遇するノードの名称により指定される。ラベル6は、成分名及び区切り記号を主に含むデータ構造の直列化された表現を示す。直列化された形態は、構築者固有区画方式の指定(ラベル5)から始まる。この場合、各層に3つ、2つ、3つ及び5つの成分を含む4つの層を有する産物コンストラクトが使用される。直列化における残りの項目は、1と記されるもののように、データ構造外のパスを概述する。直列化において4とラベルされるセグメントは、ツリーのルートから始まり、第1の層のノード0、次いで第2の層のノード0、第3の層のノード0及び最後の層のリーフ0まで下るパスを概述する。区画方式は、4つの層を有するため、この段階で完全な識別子を出力し得るとアルゴリズムが推測する。より一般的には、直列化のこのセグメント(7とラベルされる)は、最終的な層の代替成分の全てを指定する。特定の層の識別子ライブラリに含まれるべき代替の全てが列挙された場合、区切り記号(この例ではピリオド)が直列化に含められてこの状態を記す。これは、ツリーのパスに示されているように、アルゴリズムが層を上がる引き金となる(3とラベルされる)。直列化における成分識別子の次のセグメント(16とラベルされる)は、識別子の次のセットを記述する。このようにして、識別子ライブラリ全体を平らなシリアルファイルで簡潔に表し得る。
識別子を用いた計算方法
[00334] 化学的演算を使用して、識別子ライブラリに符号化されたデータに対して計算を実行することが可能であり得る。そのような演算は、アーカイブ全体の任意のサブセット又はアーカイブ全体に対して並行化して実行され得るため、これを行うことが有利であり得る。さらに、計算は、データを復号化せずにインビトロで実行され得、したがってセキュリティを保証しながら計算することが可能になる。幾つかの実装形態では、AND、OR、NOT及びNAND等のブール論理演算を含む計算は、各ビット位置を表す識別子を使用して符号化されたビットストリームに対して実行され、識別子の存在によりビット値「1」が符号化され、識別子の非存在によりビット値「0」が符号化される。
[00335] 幾つかの実装形態では、全ての識別子は、1本鎖核酸分子として構築される(又は最初に2本鎖核酸分子として構築され、次いで1本鎖形態に単離される)。任意の1本鎖識別子xについて、識別子は、xの逆相補鎖としてxにより示される。1本鎖識別子の任意のセットSについて、S内の各識別子の逆相補鎖のセットをSと示す。ライブラリ内の可能な全ての1本鎖識別子をUで示し、その逆相補鎖のセットをUで示す。これらのセットをユニバース及びユニバースと呼ぶ。U及びU により、ユニバース及びユニバースセットの第2の対を示し、それにより、これらのセット中の各識別子は、化学的方法により標的とするか又は選択することができる探索領域として知られている追加の核酸配列で増補される。
[00336] 所与の識別子ライブラリに対する計算は、ハイブリダイゼーション及び開裂を含む一連の化学的演算により実施され得る。これらの演算の要約を以下に記載する。各演算は、入力として識別子のプールをとり、演算を実行し、出力として識別子のプールを返す。
[00337] 初歩的な例として、下記の表に示すように、第1のライブラリL1及び第2のライブラリL2は、それぞれ8ビットを含む。2つのライブラリ間のビット毎の「OR」演算及び2つのライブラリ間のビット毎の「AND」演算の結果も示されている。化学的ステップにより実行されるこれらの演算(及び追加の演算)の詳細についてさらに詳細に後述する。
各ライブラリの各ビットは、記号位置を含む識別子として符号化される。記号位置での識別子の不在は、0を示し、記号位置での識別子の存在は、1を示す。この例では、ライブラリ内の識別子は、2本鎖である。
[00338] 2つのライブラリL1及びL2に対してOR演算を実行するために2つのライブラリプールを組み合わせる。両方のライブラリの識別子は、OR演算に向けて2本鎖状態のまま残され得る。OR演算は、L1又はL2のいずれかに1が存在するか否かを示すため、2つのプールの組合せは、完全に決定されたOR演算出力である(上のOR列に記載のように)。最大で同じ記号位置に2倍の識別子コピーが存在することになり(元のライブラリと比較して)、これは、依然としてその記号位置(即ち記号位置b5)における1の存在を示す。幾つかの実装形態では、2本鎖識別子を変性させて2つの1本鎖を生成し得る(即ち各2本鎖識別子でセンス又は「ポジティブ」鎖1つ及びアンチセンス又は「ネガティブ」鎖1つ)。得られた2つの相補的な1本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と呼ぶ。幾つかの実装形態では、ライブラリのサブセクションを選択し得、OR演算を実行し得、OR演算の結果で既存のライブラリの一方又は両方内の既存のビット値を置換し得る。
[00339] 2つのライブラリL1及びL2に対してAND演算を実行するために、まず2本鎖識別子を変性させて2つの1本鎖(即ち各二本鎖識別子でセンス鎖1つ及びアンチセンス鎖1つ)を生成する。ここでも、得られた2つの相補的な1本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と呼ぶ。ポジティブ鎖及びネガティブ鎖を別々のプールに分離する。実際には、これは、ポジティブ鎖又はネガティブ鎖のいずれかに対してアフィニティタグ付きプローブを使用することにより達成され得る(核酸捕捉については、化学的方法セクションFを参照されたい)。識別子は、この目的のために共通のプローブ標的を含むように設計され得る。次いで、第1のライブラリからの2本鎖識別子のポジティブ鎖(例えば、センス鎖)及び第2のライブラリからの2本鎖識別子のネガティブ鎖(例えば、アンチセンス鎖)を一緒にプールし、相補的な1本鎖がハイブリダイズできるようにする。両方のライブラリ(例えば、上記の表に示されているL1及びL2)に既存の識別子が存在すると仮定すると、得られた組み合わされたプールは、DNAの1本鎖と、ハイブリダイゼーションの実行が可能になった後のDNAの2本鎖との組合せを有することになる。完全に2本鎖の識別子は、その識別子が第1のライブラリL1及び第2のライブラリL2の両方に存在したことを示す。完全に二本鎖の識別子をプールから選択して、AND演算出力を生成し得る。例えば、S1ヌクレアーゼ又はマングビーンヌクレアーゼ等の一本鎖特異的ヌクレアーゼを使用して、一本鎖識別子(及び部分的に一本鎖の識別子)を小さい単位に開裂することで一本鎖識別子を選択的に除去し得る。完全に二本鎖の識別子は、開裂から保護され、次いで化学的方法セクションFに記載の核酸捕捉技法又は化学的方法セクションEに記載のサイズ選択技法等の技法を使用して単離され得る。例えば、核酸プールは、完全に相補的な二本鎖DNAのみが特定の長さで流れるように、クロマトグラフィーゲルに流れ得る。組み合されたプール出力は、上記表のAND列に示されている。これらのAND演算及びOR演算を実行するために必要なステップの詳細及びさらなる例を以下に記載する。
[00340] 本明細書に記載のランダムアクセス方法を使用して、ライブラリの一部分を抽出し得る。例えば、ライブラリのサブセクションをランダムアクセスにより抽出し得る。論理演算(例えば、OR又はAND)をサブセクションに適用し得る。幾つかの実装形態では、得られた識別子のセットでライブラリ内のサブセクションの元の値を置換し得る。
[00341] 演算single(X)は、識別子のプール(二本鎖及び/又は一本鎖)をとり、一本鎖核酸識別子のみを返す(全ての二本鎖識別子を除去する)。演算double(X)は、識別子のプール(二本鎖及び/又は一本鎖)をとり、二本鎖識別子のみを返す(全ての一本鎖識別子を除去する)。演算make-single(X)及びmake-single*(X)は、全ての二本鎖核酸識別子をそれらの一本鎖形態に変換する(アスタリスクが付いているバージョンではネガティブ鎖を返し、アスタリスクが付いていないバージョンではポジティブ鎖を返す)。演算get(X,q)は、クエリqにマッチする全ての識別子のプールを返す。q=「全て」の場合、クエリは、全ての識別子にマッチし、全ての識別子に対して動作する。演算delete(X,q)は、クエリqを満たす全ての識別子(二本鎖又は一本鎖)を削除する。クエリは、上述したように、ランダムアクセスにより実施され得る。演算combine(P,Q)は、P又はQ中の全ての識別子を含むプールを返す。本明細書では、演算assign(X,Y)は、Yの結果を変数名Xに割り当てるものと定義する。簡潔にするために、この演算を以下の形態でも示す:X=Y。割り当て演算は、いかなる「汚染」問題も伴わずに変数を再使用できるようにする理想的な条件下で実行されるものと仮定する。
[00342] 以下では、いずれも長さlのビットストリームa及びbがそれぞれ二本鎖識別子ライブラリdsA及びdsBに書き込まれたと仮定し、幾つかのサブビットストリームs=a,...,a及びt=b,...,bに対する計算に関心を払い、計算の結果は、サブビットストリームsに格納される。即ち、最初に、initialize(dsA,dsB,s,t)演算により示される以下の演算が、指定された順序で実行されたと仮定する。
[00343] 図32は、識別子ライブラリを用いた計算のセットアップの一例を示す。この図は、抽象木データ構造(4とラベルされる)として描かれた識別子の組合せ空間の一例を示す。この例では、ツリーの各レベルで2成分間の選択を行う(ラベル2により示される)。ツリーのルートからの各パスは、一意の識別子に対応し(ラベル3の例により示されるように)、その順序(又はランク)を決定する。ラベル4は、一本鎖ユニバーサル識別子ライブラリを示す。ラベル5は、例えば、「a」と呼ばれる特定のビットストリームを符号化する一本鎖識別子ライブラリを示す。ラベル7は、7ビットを含む「s」と呼ばれる「a」のサブビットストリームを示す。同様に、ラベル10は、同じ長さのビットストリーム「b」のサブビットストリーム「t」を示す。initialize(dsA,dsB,s,t)を計算するための初期化手順に記載のように、計算されるサブビットストリームは、プールP及びQ(それぞれ6及び9とラベルされる)において入手可能であり、計算可能な状態である。
[00344] 演算AND(s,t)は、ビットストリームs及びt中のビットのビット毎の論理積と定義され、以下の順の演算を使用して実施され得る。
[00345] 演算NOT(s)は、ビットストリームs中のビットのビット毎の論理否定と定義され、以下の順の演算を使用して実施され得る。
[00346] 演算OR(s,t)は、ビットストリームs及びt中のビットのビット毎の論理和と定義され、以下の順の演算を使用して実施され得る。
幾つかの実装形態では、OR(s,t)演算は、dsAとdsBとをプール中で組み合わせ、その結果、O(OR(s,t)演算の出力)と呼ばれる識別子の組合せを生成することを含み得る。
[00347] 演算NAND(s,t)は、ビットストリームs及びt中のビットの連言のビット毎の論理否定と定義され、以下の順の操作を使用して実施され得る。
[00348] 一実施形態では、演算single(X)は、まず、Xからの一本鎖識別子がユニバーサル識別子とハイブリダイズするようにXをU又はU と組み合わせることを含み得る。さらに、U及びU 中のユニバーサル識別子は、特別な探索領域を有するため、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化様式でアクセスされ得る。
[00349] 一実施形態では、演算double(X)は、X中の識別子をS1ヌクレアーゼ等の一本鎖特異的ヌクレアーゼで処理し、次いで得られたDNAのプールをゲルに流し、開裂されなかった識別子(したがって完全に二本鎖の識別子)のみを単離することを含み得る。
[00350] 図33は、識別子ライブラリにより符号化されたビットストリーム「s」及び「t」に対して論理演算をどのように実行し得るかの一例を示す。この図では、計算が行われているプールに相補的であるようなユニバーサルライブラリ(14とラベルされる)を使用する。AND/NANDと記された列は、ビットストリーム「s」及び「t」(それぞれ5及び7とラベルされる)の連言をどのように計算し得るかを示す。プールが正しいユニバーサルライブラリ(U又はU)を使用して再形式化されていると仮定する。2つのプールが組み合わされると、相補的な一本鎖識別子がハイブリダイズし、示されているように、2重の識別子を形成する(例えば、ラベル9)。得られたプール(10とラベルされる)中の二本鎖識別子の集合は、AND計算の結果を符号化する。二本鎖産物を分離することにより、AND(s,t)を表す識別子ライブラリが与えられる。代替的に、一本鎖産物を分離することにより、NAND(s,t)を表す識別子ライブラリが与えられる。ORと記された列は、ビットストリーム「s」及び「t」の選言をどのように計算し得るかを示す。「s」及び「t」を表す識別子を含むプールが組み合わされる場合、得られるライブラリは、OR(s,t)の表現を含む。NOTと記された列は、ビットストリーム「s」の否定をどのように計算し得るかを示す。ここで、ビットストリーム「s」を表す一本鎖識別子ライブラリは、相補的なユニバーサル識別子ライブラリと組み合わされる(15とラベルされる)。結果として(19とラベルされる)、形成された全ての二本鎖産物(例えば、18とラベルされる)は、「s」中の「1」ビットを表し、破棄され得る。残りの一本鎖産物(例えば、17とラベルされる)は、「s」中の「0」ビットを表し、したがってNOT(s)における「1」ビットに対応する。これらの一本鎖産物は、NOT(s)を表す識別子ライブラリを与え、さらなる計算に使用され得る。
画像データを符号化し、読み取る方法
[00351] 識別子ライブラリは、識別子内に符号化されたビットストリームの内容に依存しないが、その大きいサイズ及び自然的な長期にわたる社会的価値に起因して、画像データをアーカイブすることにおいて特に有用であり得る。したがって、識別子ライブラリは、画像データのために特別に設計された符号化方式及び形式を用いてそのようなデータを符号化するのに有用であり得る。「画像データ」は、何らかの次元のベクトルの集合として暗黙的に又は明確に提示され、局所性を有するデータを指す。提示されたベクトルは、ベクトル間で距離の概念を有し、すぐ近くにあるベクトル同士は、問い合わせ、演算又は解釈を一緒に受ける。例えば、写真画像では、各ピクセルは、ピクセルの位置及びその色値を記述するベクトルであり、近くのピクセルは、典型的には、写真において1つ又は複数の物体の領域を形成し、したがって一体として解釈及び演算を受ける可能性が高い。
[00352] 一実装形態では、画像は、画像符号化方式を用いて識別子ライブラリにマッピングされ、元の多次元画像からのベクトルは、空間充填曲線等の数学関数により定義される直線的順序付けで順序付けられる。提示されたベクトルの幾つか又は全ての次元に沿った可能な値は、成分ライブラリ中の特定の成分にマッピングすることができ、ベクトルの幾つか又は全ての次元は、識別子構築のために産物方式内の層にマッピングすることができる。本明細書では、これをネイティブ画像符号化と呼ぶ。例えば、識別子構築のために、幅xピクセル及び高さyピクセルのグレースケール画像を産物方式にマッピングし得、第1の層の成分は、ピクセルのx座標を表し、第2の層の成分は、ピクセルのy座標を表し、第3の層の成分は、ピクセルのグレースケール強度を表す。例えば、RGBカラー画像は、赤色チャネル、青色チャネル及び緑色チャネルのそれぞれに1つずつ、3つの直交性識別子ライブラリを用いて同様に表され得る。別の実施形態では、色相-彩度-明度等の他の代替カラーモデルも同様に表すことができる。別の実施形態では、ピクセルの位置を指定する座標は、上述したように表すことができるが、第3の層の成分は、強度値を指定する代わりに、強度値を指定するビット列中のビット位置をそれぞれ表し、各成分を有する識別子の有無がそれぞれ「1」又は「0」の値を指定する。例えば、前者の実施形態では、第3の層は、256個の成分を含み得、特定のピクセルにおける各成分は、256個の可能な強度値の1つを指定し、後者の実施形態では、第3の層は、8個の成分を含み得、特定のピクセルにおけるこれらの成分の各サブセットは、256個の可能な強度値の1つを指定する。
[00353] 幾つかの実装形態では、一部又は全部の成分に値の範囲が関連付けられる。例えば、色値層(第3の層)の成分は、そのカラーチャネルにおける色値の間隔を表すものと定義され得る。例えば、赤色チャネル識別子の第3の層の各成分は、特定の赤の色値にマッピングされる代わりに、±10点の赤の色値範囲にマッピングされ得る。
[00354] 幾つかの実装形態では、上で定義されたように画像が符号化される場合、PCR又はハイブリダイゼーション捕捉等の上述したランダムアクセス方式を使用して、画像における任意のデカルトセクション(近傍ピクセル)を色値に関して問い合わせ得る。さらに、符号化方式が、第3の層の各成分により強度値が指定されるようなものである場合、ランダムアクセス方式を使用して任意の色値を関連するピクセル座標に関して問い合わせ得る。
[00355] 幾つかの実装形態では、ネイティブ画像符号化を用いて符号化された画像は、複数の分解能で復号化され得る。例えば、およそ3xy個の識別子を使用したRGBカラーモデルを用いて符号化された幅xピクセル及び高さyピクセルの画像は、識別子の半分の一様ランダムなサブセットをサンプリングすることにより、元の分解能の半分で復号化され得る。元の画像の内容は、画像処理及び内挿技法を使用して、サンプリングされた識別子からより低い分解能で再構築され得る。画像の復号化には、より小さいサンプルが使用されるため、復号化の費用及び時間が低減する。
[00356] 幾つかの実装形態では、複数の画像の低分解能での復号化及び画像処理を使用して、アーカイブにおける目的の画像又は画像のセクションを識別し得る。この後、これらの画像又は画像のセクションの高分解能での復号化が続き得る。特徴のこのセットは、例えば、特定の視覚的特徴が探し求められている監視画像の大きいアーカイブの解析において有用であり得る。別の適用では、ビデオアーカイブを静止画像フレームの大きいアーカイブとして扱い得る。この適用では、ランダムアクセス及び低分解能での復号化により、目的のフレームを識別し得る。次いで、周囲のフレームをより高い分解能で復号化して、目的のビデオセグメントを再構築し得る。このようにして、大きい画像又はビデオアーカイブを高密度で何世紀にもわたって格納し得、それでもなお低費用で並行して問い合わせることが可能である。
[00357] 以下では、画像データの格納及び多分解能読取りの一例について記載する。圧縮されていない画像ファイルは、各識別子又は識別子の各連続群が画像のピクセルを表すように識別子に符号化され得る。例えば、画像がビットマップとして格納され、各ビットが、2色(例えば、白色又は黒色)のうちの1色を有することができるピクセルである場合、ビットマップ中の各ビットは、識別子によって表され得、その識別子の有無によりそれぞれ一方の色又は他方の色を表し得る。画像を読み取るために、識別子ライブラリをランダムにサンプリングし得る(標準の次世代シーケンシング技術を用いて予期されるものと同様に)。画像のリードバック分解能は、読取りのサンプルサイズを定義することにより指定され得る。したがって、低分解能バージョンの画像は、高分解能バージョンよりも安い価格でリードバックされ得る。これは、画像をリードバックする目的が細密な画像の詳細を必要としない場合に有用であり得る。代替的に、低分解能バージョンの1つの画像又は幾つかの画像を検査して、問い合わせる(アクセスする)位置をより高い分解能で特定し得る。
[00358] この多分解能制御リードバックの原理をさらに実証するために、ビットマップとして格納された犬の画像の例(図34)を検討する。図34Aの元画像は、1476800ピクセル(1300×1136ピクセル)であり、各ピクセルは、ビット(白色又は黒色)として格納されている。各ビットが識別子であり、黒色ピクセルの識別子のみを構築することにより画像を符号化すると、どのようなことが起こるかをシミュレートする。これには、131820個の識別子が必要である。図34Bは、識別子の総数の10倍(サンプルサイズ1318200)のシミュレートされたサンプリングから得られた画像を示す。これは、元画像と同様の細部を有する。図34Cは、識別子の総数と均等な数(サンプルサイズ131820)のシミュレートされたサンプリングから得られた画像を示す。図34Dは、識別子の総数の10分の1の識別子(サンプルサイズ13182)のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図34Eは、同じ画像を示すが、各黒色ピクセルは、25ピクセルまで増幅されている。この分解能では、元画像の幾らかの細部、例えば毛の線が喪失する可能性がある。しかし、より粗い細部、例えば眼及び鼻は、依然として目に見える。図34Fは、識別子の総数の100分の1の識別子(サンプルサイズ1318)のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。ここでも、各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図34Gは、同じ画像を示すが、各黒色ピクセルは、25ピクセルまで増幅されている。元画像の多くの細部が失われている可能性があるが、画像は、それでも犬の形状及びそのカラーパターンについての幾らかの細部を示す。
[00359] 画像の各ピクセルが2色よりも多くの可能な色を有する場合でも、均等な多分解能リードバックを実行し得る。例えば、各ピクセルが2色の代わりに256色の可能な色を有する場合、各ピクセルは、8つの識別子のサブセットで表し得る。各ピクセルがそれぞれ256の可能な強度の3つのカラーチャネル、例えばRGBを有する場合、画像は、各チャネルに対応する3つの直交性識別子ライブラリに格納され得る。
DNAを用いたデータの無作為化、暗号化及び認証の方法
[00360] DNAを使用してランダムビットストリームを生成し、格納する能力は、暗号法及び組み合わせアルアルゴリズムにおける計算に適用され得る。多くの暗号化アルゴリズム、例えばデータ暗号化標準(DES)は、セキュリティを保証するためにランダムビットを使用する必要がある。他の暗号化アルゴリズム、例えば高度暗号化標準(AES)は、暗号鍵の使用を必要とする。典型的には、これらのランダムビット及び鍵は、ランダム性の安全なソースを使用して生成され、なぜなら、ランダムビット又は鍵における系統的なパターン又は偏りは、いずれも暗号化されたメッセージへの攻撃及び破壊に利用され得るためである。さらに、暗号化に使用される鍵は、典型的には、復号化のためにアーカイブされている必要がある。暗号化方法のセキュリティの強さは、アルゴリズムに使用される鍵の長さに依存する。一般に、鍵が長いほど、暗号化が強力になる。ワンタイムパッドのような方法は、最も安全な暗号化方法の1つであるが、それらには非常に長い鍵が必要であることに起因して、適用が限られる。
[00361] 本明細書に記載の方法を使用して、数十、数百、数千、数万又はそれより多くのビット長のランダム鍵の極めて大きい集合を生成し、アーカイブし得る。一実施形態では、各核酸分子が以下の設計を満たす核酸ライブラリを生成し得る:k<n塩基の可変領域を有するn塩基の長さを有する。可変領域内の塩基は、ライブラリの構築中にランダムに選択することが許容される。例えば、nは、100であり得、kは、80であり得;したがって、異なる分子1050個のサイズであるライブラリを潜在的に生成し得る。分子1000個のサイズであるそのようなライブラリのランダムサンプルは、例えば、シーケンシングされて、暗号化のために使用し得る最大1000ビットのランダム鍵を取得し得る。
[00362] 別の実施形態では、上述した核酸鍵(鍵を表す核酸分子)を識別子に付着させ、それにより鍵セットの順序付き集合を得ることができる。順序付き鍵セットを使用して、暗号化に関して種々の関係者により鍵が使用される順序を同期させ得る。例えば、産物方式を使用して識別子ライブラリを組み合わせにより構築し、1012個の一意の識別子を得ることができる。マイクロ流体法を使用し、核酸鍵を用いて各識別子を並置し、組み立てて、一意の識別子及びランダム鍵を含む核酸サンプルを形成し得る。識別子ライブラリ中の識別子は、順序付きのため、鍵も任意の指定された順序で順序付け、アクセス及びシーケンシングされ得る。
[00363] 幾つかの実装形態では、識別子に付着した鍵を使用して、入力識別子をランダムビット列にマッピングするランダム関数のインスタンスを生成し得る。そのようなランダム関数は、ハッシュ等、値の計算が容易であるが、所与の値から逆を行うことが難しい関数を必要とする適用において有用であり得る。そのような適用では、各々に一意の識別子が組み立てられた鍵のライブラリをランダム関数として使用する。値をハッシュする場合、その値は、識別子にマッピングされる。次に、ハイブリダイゼーション捕捉又はPCR等のランダムアクセス法を使用して、鍵ライブラリから識別子にアクセスする。識別子は、ランダム塩基の配列を含む鍵に付着する。この鍵をシーケンシングし、ビット列に変換し、ランダム関数の出力として使用する。
[00364] 核酸分子ライブラリは、安価及び迅速にコピーすることができ、小さい体積で内密に輸送できることから、上述したように生成される核酸鍵セットは、多数の暗号鍵を、地理的に離れている複数の関係者に定期的に安全及び内密に配布しなければならない状況において有用であり得る。さらに、鍵は、非常に長期間にわたって確実にアーカイブすることができ、それにより暗号化されたアーカイブデータを安全に保管することが可能になる。
[00365] 図35~図38は、ランダムな又は暗号化された、DNAに格納されたデータを作成、格納、アクセス及び使用する方法の実施形態を示す。DNAは、灰色及び黒色の棒並びに記号を含む列として示されている。示されている各DNAは、別個の種を表す。「種」は、同じ配列の1つ又は複数のDNA分子と定義される。「種」が複数の意味で使用される場合、複数の種の中のあらゆる種が別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことにより明示される。
[00366] 図35は、DNAの大きい組合せ空間及びシーケンサを使用したエントロピー(又はランダムデータ)生成器の一例を示す図である。方法は、シードと呼ばれるDNA種のランダムプールから開始される。シードは、理想的には、一様な分布のDNAの定義された組合せセットのあらゆる種、例えば50塩基を有する全てのDNA種(450種のメンバを有する)を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間全体の代わりに組合せ空間のランダムサブセットを含むことが許容される。シード種は、縁部に共通の配列(黒色及び薄い灰色の棒)、次いで中央に別個の配列(N...N)を有するように設計され得る。この出発シードを迅速及び安価な様式で製造するために、縮重オリゴヌクレオチド合成戦略を使用し得る。共通の縁配列により、PCRを用いた又は特定の読取り(又はシーケンシング)方法に適合したシードの増幅が可能になり得る。縮重オリゴヌクレオチド合成の代替として、組合せDNAアセンブリ(1つの反応に多重化される)もシードを急速及び安価に生成するために使用することができる。シーケンサは、シードから種をランダムにサンプリングし、したがってサンプリングをランダムな順序で行う。任意の所与の時点でシーケンサにより読み取られている種には、不確実性が存在するため、システムは、エントロピー生成器として分類され得、乱数又はランダムなストリームのデータを例えば暗号鍵として生成するために使用され得る。
[00367] 図36Aは、ランダムに生成されたデータをDNAに格納する方法の一例の概略図を示す。方法は、(1)シードと呼ばれるDNA種の大きいランダムプールから開始される。シードは、理想的には、一様な分布のDNAの定義された組合せセットのあらゆる種、例えば50塩基を有する全てのDNA種(450種のメンバを有する)を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間のランダムサブセットを含むことが許容される。シードは、それ自体、縮重オリゴヌクレオチド合成又は組合せDNAアセンブリから生成され得る。(2)シード中の種のランダムサブセットを取ることにより、ランダムデータ(又はエントロピー)が生成される。例えば、これは、シード溶液の比例する割合の体積を取ることにより実現され得る。例えば、シード溶液が1マイクロリットル(μL)当たり推定100万種からなる場合、シード溶液(よく混合されたものであると仮定する)から1ナノリットル(nL)の一定分量(aliquot)を取ることにより、およそ1000種のランダムサブセットを選択し得る。代替的に、シード溶液の一定分量をナノポア膜に流し、膜を通過した種のみを収集することによりサブセットを選択し得る。膜を通過する種の数の計数は、ナノポアにわたる電圧の差異を測定することにより実現され得る。このプロセスは、望ましい数のシグネチャが検出されるまで(例えば、100、1000、10000又はそれよりも多くの種のシグネチャ)続けられ得る。別の代替方法として、単一の種を小さい液滴中に単離し得る(例えば、油エマルジョンを用いる)。単一の種を伴う小さい液滴を蛍光シグネチャにより検出し、一連のマイクロ流体チャネルにより選別して収集チャンバに入れ得る。(3)識別子として選択された各種は、識別子と呼ぶことができ、さらに、選択された種の完全なサブセットは、「ランダム識別子ライブラリ」又はRILと呼ぶことができる。RIL中の情報を安定化して分解から保護するために、種の末端上の共通の配列に結合するPCRプライマーを用いてRILを増幅し得る。RIL中の識別子(したがってその中に格納されたデータ)を特定するために、RILは、シーケンシングされ得る。真の識別子は、サンプル中の、定義されたノイズ閾値を超えて富化されている種により定義され得る。(4)RIL中に含まれるデータが特定されると、追加の誤り調査及び誤り修正種をRILに加え得る。例えば、予期される識別子数に関する情報を含む「整数DNA」(例えば、チェックサム又はパリティチェック)をRILに加え得る。整数DNAにより、情報の全てを収集するためにRILをどの程度深くシーケンシングするかを知ることが可能になり得る。
[00368] RILに一意のDNAタグをバーコード付けし得る。次いで、任意の所与のRILに、その一意のDNAタグに対するハイブリダイゼーションアッセイ(又はPCR)を用いて個々にアクセスすることができるように、幾つかのバーコード付けされたRILを一緒にプールし得る。一意のDNAタグは、組み合わせにより組み立てられ得るか、又は合成されてから、対応するRILに組み立てられ得る。図36Bは、各々が100個のランダム塩基を含む4種を含むRILの一例を示す。可能な種の組合せ空間は、4100であり、したがって、RILは、log2(4100choose4)≒725ビットの情報を含み得る。図36Cも、各々が100個のランダム塩基を含む4種を含むRILの一例を示す。4100個の組合せ空間から選択された4種の特定の順序付けられていない組合せで情報を格納すること(図36Bのように)の代替として、各種の最後の90個のランダム塩基は、log2(490)=180ビットの情報を格納するために確保され得る一方、最初の10個のランダム塩基は、4種の各々に格納される情報間の相対的な順序を確立するために確保され得る。相対的な順序は、4塩基の定義された順序付けに基づく10塩基の列の辞書学的順序付けにより定義され得る(英語の単語をアルファベットの文字の順に従って順序付ける方法と同様に)。情報をRILに割り当てるこの方法は、図36Bに記載の方法よりも2進列にマッピングするための計算が高速であり得る。
[00369] 前の図(図36)では、複数のRILにバーコード付けし、それらを一緒にプールするための戦略を考察している。そうするにあたり、入力-出力マッピングが作成され、入力は、バーコードハイブリダイゼーションプローブ(個々のRILにアクセスするためのもの)に対応し、出力は、ランダムデータ列(標的化されたRILにより符号化されるもの)に対応する。この方法では、組み合わされたプールからの検索のために所定のバーコードをランダムデータに組み立てるが、図37Aは、バーコード(データにアクセスするためのもの)がランダムデータ自体と共にランダムに生成される、核酸プローブとランダムデータ列との間の入力-出力マッピングを作成するための異なる方法を示す。例えば、バーコードは、1つ又は複数の種の両縁部に現れ得るDNAの短い配列の対であり得る。この実施形態では、可能なバーコードの組合せ空間は、プール中の可能な全ての種の総数と比較して、各バーコードに偶然に1つ又は複数の種が関連付けられるように小さいものであり得る。例えば、バーコードが種のランダムなDNA配列の各縁部の3塩基(共通の配列が隣接する)である場合、4=4096個の可能なバーコードが存在し、したがって、それらにアクセスするために構築することができるプライマー対は、4=4096個存在する(12ビット入力に対応する)。およそ400Kの種を有するようにDNAのプールを選択した場合、各バーコードは、平均でおよそ100種に関連付けられる。この実施形態では、RILは、各バーコードに関連付けられる種のサブセットにより定義される。先の例に続き、各種が、バーコード付けに使用された塩基(又は配列)に加えて25個のランダム塩基(又はランダム配列)を含む場合、100種のRILに関連付けられるバーコードは、最大log2(425choose100)≒4475ビットの情報を含み得る。
[00370] 図37Bは、バーコード付きRILのプールにアクセスし、格納されたランダムデータをそこから読み取る方式の一実装形態を示す。シーケンサ(又はリーダ)は、出力を返す前に配列データを操作する関数をさらに含み得る。例えば、ハッシュ関数により、出力データ列を使用して逆の化学的クエリを実行し、入力を見つけることを難しくすることができる。この関数は、例えば、入力が認証のために使用される鍵又は証明である場合に有用であり得る。
[00371] 問い合わせ可能な(又はアクセス可能な)データのランダム列を生成し、格納する方法は、暗号鍵(ランダムデータ列から生成される)を生成し、アーカイブするために特に有用であり得る。各入力を使用して、異なる暗号鍵にアクセスし得る。例えば、各入力は、非公開のアーカイブデータベースにおける特定の使用者、時間範囲及び/又はプロジェクトに対応し得る。非公開のアーカイブデータベース中の暗号化されたデータ(潜在的に非常に大きい量のデータに達する)をアーカイブサービスプロバイダーにより従来の媒体に格納させることができる一方、暗号鍵は、所有者がDNAに格納させることができる。さらに、特定の入力に対して化学的アクセスプロトコルを実行するために必要な潜在的な待ち時間及び高度性により、ハッキングに対する暗号化方法のセキュリティバリアを高め得る。
[00372] 図38は、アーチファクトへのアクセスを保証及び認証するためのシステムの一例を示す。このシステムは、可能な種の大きいプールからとられたDNAの種の特定の組合せを含む物理的な鍵を必要とする。「識別子鍵」とも呼ばれる種の標的組合せは、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング若しくはプリントデバイスにより自動的に又はピペッティングにより手動で生成され得る。ロックが内蔵されているリーダ又はシーケンサにより、マッチする識別子鍵が確証され、アーチファクトへのアクセスが可能になる。代替的に、リーダは、アーチファクトへのアクセスを直接ロック解除する代わりに、アーチファクトへのアクセスに使用することができるトークンを返す証明トークンシステムとして挙動し得る。トークンは、例えば、リーダの組み込みハッシュ関数により生成され得る。
DNAを用いて実体を追跡し、物体にタグ付けする方法
[00373] 溶媒中に融解した識別子ライブラリは、物理的物体中又はそれらの表面上に噴霧、拡散、分注又は注入されて、物体に情報をタグ付けし得る。例えば、一意の識別子ライブラリを使用して、物体の一種の別個のインスタンスにタグ付けし得る。物体上の識別子ライブラリタグは、一意のバーコードとして作用し得るか、又は製品番号、製造若しくは出荷日、製造部位若しくは物体の履歴、例えば以前の所有者の取引リストに関する任意の他の情報等のより高度な情報を含み得る。識別子を使用して物体をタグ付けすることの主な利点は、識別子が検出不可能であり、耐久性があり、膨大な数の物体事例に個々にタグ付けするのに十分に適することである。
[00374] 別の実施形態では、1つ又は複数の物理的位置に識別子ライブラリからの一意の識別子をタグ付けし得る。例えば、物理的部位A、B及びCに識別子ライブラリを遍在的にタグ付けし得る。部位Aを訪問するか又は部位Aに接触する実体、例えば伝達手段、人又は任意の他の物体は、意図的に又は非意図的に識別子ライブラリのサンプルを受け取り得る。後に実体にアクセスした際、サンプルを実体から集め、化学的に処理し、復号化して、実体が訪問した部位を識別し得る。実体は、2つ以上の部位を訪問し得、2つ以上のサンプルを受け取り得る。同様のプロセスを使用して、識別子ライブラリが分離されている場合、実体が訪問した部位の一部又は全部を識別し得る。そのような方式は、実体を内密に追跡することに適用性があり得る。この方式を使用する幾つかの利点は、識別子が特異的に探さなければ検出不可能であること、生物学的に不活性になるように設計することができること及び膨大な数の部位又は実体に一意にタグ付けするために使用可能であることである。
[00375] 別の実施形態では、識別子ライブラリは、実体にタグ付けされ得る。実体は、注入された識別子のサンプルを訪問した部位に残し得る。これらのサンプルを集め、処理し、復号化して、いずれの実体が部位を訪問した可能性があるかを識別し得る。
組合せDNAアセンブリの方法及びシステムの適用
[00376] 大きい定義された識別子のセットに成分を組合せにより組み合わせる本明細書に記載の方法及びシステムについて、情報技術(例えば、データ格納、計算及び暗号法)に関連するものとしてこれまで説明してきた。しかしながら、これらのシステム及び方法は、より一般的には、高スループット組合せDNAアセンブリの任意の適用に使用し得る。
[00377] 一実施形態では、アミノ酸鎖を符号化する組合せDNAのライブラリを作成し得る。それらのアミノ酸鎖は、ペプチド又はタンパク質のいずれかを表し得る。アセンブリのためのDNA断片は、コドン配列を含み得る。断片がそれに沿って組み立てられる接合部は、組合せライブラリの全てのメンバに共通する機能的又は構造的に不活性なコドンであり得る。代替的に、断片がそれに沿って組み立てられる接合部は、後にプロセシングされたペプチド鎖に翻訳されるメッセンジャーRNAから最終的に除去されるイントロンであり得る。特定の断片は、コドンではなく、コドンの各組合せ列で一意にタグ付けされた(他の組み立てられたバーコードと組み合わせて)バーコード配列であり得る。組み立てられた産物(バーコード+コドンの列)を一緒にプールし、インビトロ発現アッセイのために液滴中に封入し得るか、又は一緒にプールし、インビボ発現アッセイのために細胞に導入してそれを形質転換し得る。アッセイは、蛍光出力を有し得、したがって液滴/細胞を蛍光強度により選別してビン内に入れ、その後、それらのDNAバーコードを、各コドン列を特定の出力と相関付けるためにシーケンシングし得る。
[00378] 別の実施形態では、RNAを符号化する組合せDNAのライブラリを作成し得る。例えば、組み立てられたDNAは、マイクロRNA又はCRISPR gRNAの組合せを表し得る。プールされたインビトロ又はインビボのいずれかにおけるRNA発現アッセイを、液滴又は細胞のいずれかを用い、またいずれの液滴又は細胞がいずれのRNA配列を含むかに関する追跡を維持するためにバーコードを用いて上記のように実行し得る。しかしながら、出力自体がRNAシーケンシングデータである場合、一部のプールされたアッセイを液滴又は細胞の外で行い得る。そのようなプールされたアッセイの例としては、RNAアプタマースクリーニング及び試験(例えば、SELEX)が挙げられる。
[00379] 別の実施形態では、代謝経路内の遺伝子を符号化する組合せDNAのライブラリを作成し得る。各DNA断片は、遺伝子発現コンストラクトを含み得る。断片がそれに沿って組み立てられる接合部は、遺伝子間にある不活性なDNA配列を表し得る。液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子経路を含むかに関する追跡を維持するためのバーコードを用いて、プールされたインビトロ又はインビボのいずれかにおける遺伝子経路発現アッセイを上述したように実行し得る。
[00380] 別の実施形態では、異なる遺伝子調節エレメントの組合せを有する組合せDNAのライブラリを作成し得る。遺伝子調節エレメントの例には、5’非翻訳領域(UTR)、リボソーム結合部位(RBS)、イントロン、エクソン、プロモータ、ターミネータ及び転写因子(TF)結合部位がある。プールされたインビトロ又はインビボのいずれかにおける遺伝子発現アッセイは、液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子調節コンストラクトを含むかに関する追跡を維持するためのバーコードを用いて、上述したように実行し得る。
[00381] 別の実施形態では、組合せDNAアプタマーのライブラリを作成し得る。リガンドに結合するDNAアプタマーの能力を試験するためにアッセイを実行することができる。
固定小数点数表現
[00382] 本明細書に記載されるのは、化学的計算を実行する技術である。多数の計算モデルが文献に提示されており、そのうちの幾つかは、スケーラブルに化学的に実現可能であり得る。化学的に実現されていない多くのモデルが確率的計算(例えば、引用文献[1、2、3、4]に示されるように)についての文献で見られる。一例のモデルは、DNA鎖変位を介して実施される化学反応ネットワークモデルである(例えば、引用文献[5、6、7]を参照されたい)。本明細書に記載の符号化方式にモデルを適合し、ネイティブ並列性を利用することは、このモデルにとって課題であり得る。シューシステム[8]に基づく異なるモデルは、PCRを使用して実施することができ、部位特異的変異誘発は、小さいプログラムで実証され得る[9]。このモデルは、興味深いが、算術演算が関わる計算に理想的ではなく、なぜなら、各算術演算は、一連の核酸書き換え演算に翻訳されなければならないためである。モデルはまた、本明細書に記載の符号化方式又は産物方式に直ちに適合しない。
[00383] 本明細書に記載されるのは、本明細書に記載の産物方式(例えば、上記段落[0085]~[00121]を参照されたい)を使用して固定小数点数(FPN)を表し、FPNに対して算術演算を効率的に実行するシステム及び方法を含む技術である。一実装形態では、FPNは、可能な識別子のセットに存在する識別子の割合を使用して表される。この形式で符号化された2つのFPNの乗算は、例えば、ハイブリダイゼーションを介して実施される識別子単位の論理AND演算により実行することができる。2つ以上のFPNの加算は、例えば、プーリング及びサンプリング演算を使用して又は識別子単位のXOR及びNOTゲートを使用して実行することができる。
[00384] 本明細書に記載されるのは、以下の特徴を含む計算のモデルである:a)本技術は、横符号化を用いる産物方式、本明細書に記載の核酸に情報を書き込むか又は符号化する技術と併用される一次符号化方式と適合し、b)本技術の実施により、デジタル信号処理等の用途で頻繁に使用されるアルゴリズムのかなり小型の回路が生成され、c)本技術は、入力データ及び中間データにおけるノイズ及び誤りに適応することができ、d)論理状態の実施に使用される化学的方法のネイティブ並列性を利用し、e)本明細書に記載のように識別子の大きい組合せ空間を利用する。従来の手法は、これらの特徴を提供するいかなる計算モデルも提供していない。
[00385] 本明細書に記載の手法に幾つかの利点が存在する。本明細書に記載のFPN形式で表される有理数は、一般的な演算に必要とされる計算回路のサイズの縮小に繋がる。例えば、2つのFPNの乗算は、単一のANDゲートを必要とする一方、位置数システム(PSN)表現等の従来のコンパクトな表現は、入力数のサイズと線形の(例えば、比例する)数のゲートを必要とする。このゲート数の低減は、単一の乗算演算で実行すべき化学的ステップ数の低減に繋がり、長く複雑な計算を実現可能及び/又はより効率的にする。ゲート数の低減は、大きいデータセットに対して計算を実行するのに必要なエネルギーの大きい低減にも繋がり得る。本明細書に記載の計算ゲートは、理論上、無限の並列性を提供する。ゲートへのFPN入力の各セットは、それ自体の別々の化学的論理ゲートにより演算することができる。この並列性の程度は、大きい面積、通信及びエネルギーフットプリントなしでは、従来の電子計算を含む他の計算方式を用いて可能ではない。逆に、核酸(例えば、DNA)は、小さい物理的フットプリントを占め、幾らか、大半又は全ての計算は、データをメモリの計算可能な階層に読み取ることなく、インサイチューで実行することができる。幾つかの実装形態では、FPNにわたる計算は、近似することができるが、ノイズ及び誤りに対してロバストであり得る。本明細書に記載のゲート例は、組み合わされて、任意の多項式関数を実現し得、トレーニング及び推論用途に役立つ点で有用であり得る。
[00386] 識別子を構築し、データを識別子にマッピングし、プローブを使用して識別子の指定されたセットにアクセスし、識別子を読み取る技法は、2017年12月21日付けで出願された「NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許第10,650,312号(DNAへのデジタル情報符号化を記載している);米国特許出願公開第2019/0362814号として公開された、2019年5月16日付けで出願された「SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許出願第16/461,774号(DNAベースのデータ格納のための符号化方式を記載している);2019年5月16日付けで出願された「COMPOSITIONS AND METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」という名称の米国特許出願第16/414,758号;2019年8月5日付けで出願された「SYSTEMS AND METHODS FOR STORING AND READING NUCLEIC ACID-BASED DATA WITH ERROR PROTECTION」という名称の米国特許出願第16/532,077号(DNA符号化のためのデータ構造並びに誤り保護及び修正を記載している);2020年5月11日付けで出願された「DATA STRUCTURES AND OPERATIONS FOR SEARCHING, COMPUTING, AND INDEXING IN DNA-BASED DATA STORAGE」という名称の米国特許出願第16/872,129号(アクセス、ランク及び探索のためのデータ構造及び演算を記載している)に記載されており、これらの各々は、全体的に参照により本明細書に援用される。
[00387] 本明細書に記載されるのは、固定小数点数演算の技術である。幾つかの実装形態では、産物方式を使用してFPNを表すために、長さwを有し、正の整数であるコードワードが識別される。次いで、任意のFPNx(ここで、0≦x≦1である)は、k/w≒xである(例えば、xの±30%以内、xの±25%以内、xの±20%以内、xの±15%以内、xの±10%以内、xの±5%以内)ようなk、k≦wの識別子を作成することによって表すことができる。幾つかの実装形態では、負の数及び正の数の両方は、間隔の一部を負のFPNに確保し、間隔の別の分離した部分を正のFPNに確保することによって表すことができる[1]。本明細書、例えば上記段落[0085]~[00121]に記載され、例えば図39に示されるように、複数のそのようなコードワードを1つ又は複数の組合せ空間に書き込むことができ、それによりFPNの大きいデータセットを符号化することができる。図39は、この概念を示す。図39Aは、成分ライブラリと、産物方式を使用してこのライブラリを用いて作成することができる組合せ空間とを示す。図39Bは、2つの有理数0.5及び0.875をFPN形式で符号化する一例を示す。この例では、コードワード長は、8識別子と規定され、組合せ空間内で2つのFPNを表現できるようにする。数0.5は、この例では、コードワード内の8個の可能な識別子から、ランク1、3、4及び6の4個の識別子を用いて表され、なぜなら、存在する識別子(4)とコードワード内の可能な識別子数(8)との比率が0.5であるためである。0.5のこの表現は、一意ではなく、70個の可能な表現のいずれも有効である。しかしながら、高精度性能の計算を可能にするには、コードワード内で作成される識別子が、他のコードワードに選択された識別子のランクと相関する可能性が低いランクを有するように選択される表現を実施することができる。幾つかの実装形態では、コードワードにFPNを符号化するために作成される特定の識別子は、一様にランダムに選択される。この方式では、2つのFPN符号化コードワードの識別子単位のAND演算は、識別子が両方の入力コードワードに存在した場合のみ、その識別子が存在する新しいコードワードを表す。識別子がANDゲートの出力に存在する可能性は、識別子が2つの入力コードワードの各々に存在した確率の積である。(これは、入力FPNを符号化する識別子が、相関しない独立した様式で選択される場合にのみ当てはまる)。識別子が2つの入力コードワードの各々に存在した確率は、そのコードワードにより符号化されるFPNと均等であり、なぜなら、FPNは、そのコードワード内で可能な識別子の総数に対する存在する識別子の比率として符号化されるためである。このようにして、2つの入力FPNのANDは、入力FPNの積を表す新しいFPNを生成する。
[00388] 本明細書に記載されるのは、本明細書に記載の符号化及び計算方式を使用して実施することができる計算(論理)ゲートである。1つ又は複数の識別子ライブラリに産物方式を使用して符号化されたデータは、1つ又は複数の論理ゲートを含む1つ又は複数の回路を使用した計算に使用することができる。各ゲートは、入力として1つ又は複数の識別子ライブラリをとり、一連の化学的演算を通して1つ又は複数の出力ライブラリを生成する。図39Cは、2つのFPN、即ち0.5及び0.3が、識別子16個のコードワード長さを有する2つのオペランドライブラリで表される一例を示す。2つの入力識別子単位の論理ANDゲートがライブラリに適用されて、図39Dに示される出力ライブラリを取得する。出力ライブラリは、16個の可能な識別子のうちの3つを含むため、0.15の正しい値に近いFPN3/16=0.1875を符号化する。スケーリング加算、即ち入力と同じ範囲にスケーリングされた2つのオペランドの和は、多くの適用分野で有用な演算であり、簡単な物理的演算を使用して実施することができる。スケーリング加算の場合、2つの入力ライブラリは、一緒にプールされて和を取得し、次いで希釈されて和をスケーリングする。図39Eは、左側に、0.5及び0.3を符号化したライブラリをプールした結果を示し、右側に、プールされたライブラリからのサンプリングの最終結果を示す。得られた出力ライブラリは、正しい答えである0.4に近いFPN0.375を符号化した6/16個の識別子を含む。FPN表現及び計算の制度は、より大きいコードワード長、例えば256、512又は1024のコードワード長を使用して改善することができる。
[00389] 幾つかの実装形態では、乗算及び加算を超えて、FPNを用いた計算は、多くの他の演算を必要とし得る。これらは、例えば、例として識別子ライブラリに符号化されたFPNに対する計算に使用することができる核酸論理ゲートを実施する方法例を説明している本明細書の段落[00334]~[00350]に記載されるような論理ゲートのセットを使用して実現され得る。本明細書に記載されているのは、論理ゲートを実施する追加又は代替の方法である。
[00390] 本明細書に記載の技術を使用して実施されるANDゲートの一例を図40に示す。一例のANDゲートは、2つの識別子ライブラリをとり、両方のライブラリに存在する識別子を含み、両入力ライブラリに存在しない識別子を除外した1つの出力識別子ライブラリを生成する。幾つかの実装形態では、このゲートは、入力ライブラリを相補的核酸、例えば1本鎖DNA(ssDNA)形態に変換し、ssDNAライブラリをハイブリダイズして2本鎖(dsDNA)識別子を作成し、混合物中に存在する完全にマッチするdsDNA核酸を選択することで出力ライブラリを作成することにより実現することができる。dsDNAの選択は、エキソヌクレアーゼI、エキソヌクレアーゼT、エキソヌクレアーゼVII、マングビーンエキソヌクレアーゼ、ヌクレアーゼP1、ヌクレアーゼS1、RecJF、それらのバリアント又は任意の他の適した酵素等のssDNA特異的ヌクレアーゼの使用を通して達成することができる。ミスマッチ含有dsDNAは、T7エンドヌクレアーゼI、T4エンドヌクレアーゼVII、CEL I、CEL II、エンドヌクレアーゼV、それらのバリアント又は任意の他の適した酵素等のミスマッチ認識エンドヌクレアーゼを使用して分解させることができる。
[00391] 本明細書に記載の技術を使用して実施されるORゲートの一例を図41に示す。一例のORゲートは、2つの識別子ライブラリを入力としてとり、入力ライブラリのいずれかに存在する識別子を含む出力ライブラリを生成する。幾つかの実装形態では、このゲートは、プールされた複数の入力ライブラリを混合することにより実現することができる。ライブラリは、両方ともdsDNA(図41A)、両方ともssDNA(図41B)又はdsDNAとssDNAとの混合であり得、いずれの形態でも上流入力から利用可能若しくは好都合であるか又は下流での使用に必要とされる。
[00392] 本明細書に記載の技術を使用して実施されるNIMPLYゲートの一例を図42に示す。一例のNIMPLYゲートは、NOT IMPLYゲートとしても知られており、2つのライブラリA及びBを入力としてとり、ライブラリAに存在するが、ライブラリBに存在しない識別子のみを含むライブラリを出力として生成する。(即ち、ライブラリAに存在しない識別子をBが有する場合、それらの識別子は、返される値に存在しない)。
[00393] 幾つかの実装形態(例えば、図42Aに示されるように)では、ライブラリAからの識別子は、1本鎖DNAとして提供される。単に説明のための例として、ライブラリAは、特異的に「上鎖」として提供される。ライブラリBは、アフィニティタグを含む「下鎖」分子の形態であり、ハイブリダイゼーション反応においてモル過剰で提供され、ライブラリAからのマッチするあらゆる識別子を「おびき寄」せる(ベイトする)。ライブラリBにも存在するライブラリAからのあらゆる識別子は、ライブラリBからのベイトにハイブリダイズすることになる。その後、全てのライブラリB識別子(1本鎖分子及びライブラリA分子に結合したものの両方を含む)は、存在する全てのライブラリB分子に適用されたアフィニティタグに対する特異的捕捉メカニズムの使用により除去することができ、ライブラリAに存在するが、ライブラリBに存在しない識別子を残す。
[00394] 幾つかの実装形態(例えば、図42Bに示されるような)では、一例のライブラリA及びライブラリBは、それぞれ上鎖分子及び下鎖分子として提供される。このメカニズムのパート1において、ライブラリAをライブラリBのモル過剰にハイブリダイズさせることにより、2本鎖複合体が形成される。次いで、2本鎖特異的DNAヌクレアーゼを使用し(それにより例えばdsDNAを除去し)、1本鎖DNAのみを残す。このメカニズム例のパート2において、核酸「保護プローブ」が適用され、これは、ライブラリAへの相補鎖であるが、ライブラリBに対して相補的ではない。次いで、1本鎖特異的DNAヌクレアーゼを使用し、保護プローブにより保護されたライブラリAからの鎖のみを残す。
[00395] 本明細書に記載の技術を使用して実施されるNOTゲートの一例を図43に示す。一例のNOTゲートは、ライブラリAを入力としてとり、別のライブラリBをゲートパラメータとしてとり、Bに存在するが、Aに存在しない識別子を含む出力ライブラリを生成する。
[00396] 幾つかの実装形態(例えば、図43Aに示されるような)では、ライブラリBからの可能な全ての識別子は、1本鎖DNAとして提供される。単に説明のための例として、ライブラリBは、特異的に下鎖として提供される。ライブラリAは、アフィニティタグを含む上鎖分子の形態であり、ハイブリダイゼーション反応においてモル過剰で提供され、ライブラリBからのマッチするあらゆる識別子を「おびき寄」せる。ライブラリAにも存在するライブラリBからのあらゆる識別子は、ライブラリAからのベイトにハイブリダイズすることになる。その後、全てのライブラリA識別子(1本鎖分子及びライブラリB分子に結合したものの両方を含む)は、存在する全てのライブラリA分子に適用されたアフィニティタグに対する特異的捕捉メカニズムの使用により除去することができ、ライブラリBに存在するが、ライブラリAに存在しない識別子を残す。したがって、得られたDNAのプールは、ライブラリA内の情報の「NOT」ゲート又は逆数の返り値を形成する。
[00397] 幾つかの実装形態(例えば、図43Bに示されるような)では、一例のライブラリA及びライブラリBは、それぞれ上鎖分子及び下鎖分子として提供される。このメカニズムのパート1において、ライブラリBをライブラリAのモル過剰にハイブリダイズさせることにより、2本鎖複合体が形成される。次いで、2本鎖特異的DNAヌクレアーゼを使用して、1本鎖DNAのみを残す。このメカニズム例のパート2において、「保護プローブ」が適用され、これは、ライブラリBへの相補鎖であるが、ライブラリAに対して相補的ではない。次いで、1本鎖特異的DNAヌクレアーゼを使用し、保護されたライブラリBからの鎖のみを残す。
[00398] 本明細書に記載の技術を使用して実施されるXORゲートの一例を図44に示す。一例のXORゲートは、2つのライブラリを入力としてとり、入力ライブラリのいずれかに存在するが、ライブラリの両方には存在しない識別子を含む出力ライブラリを生成する。幾つかの実装形態では、ゲートは、例えば、図42Bに示されるように、2つの逆のNIMPLYヌクレアーゼゲートを使用し、その後、例えば図41Bに示されるように、同様であるが、返されるDNAの鎖性を問わないORゲートが続く。幾つかの実装形態(例えば、図44A~Cに示されるような)では、ゲートは、図42Bに示されるような2つの逆のNIMPLY親和性ゲートを使用し、その後、例えば図41Bに示されるように、同様であるが、返されるDNAの鎖性を問わないORゲートが続く。
[00399] 上述したゲート例は、2本鎖核酸(例えば、dsDNA)及び/又は1本鎖核酸(例えば、ssDNA)、例えば特異的な上鎖又は下鎖を利用することができる。これらの形式は、例えば、ssDNAからdsDNAに変換することができる。例えば、ssDNAの場合、一方又は他方の鎖に特異的なハイブリダイゼーション、それに続くマッチする鎖のプルダウンを使用することができる。例えば、dsDNAの場合、dsDNAを作成するためのssDNA又はdsDNAである任意の鋳型からのPCRを使用することができる。
[00400] 文献目録
[1]B. R. Gaines,“Stochastic Computing,”Proc. of the Spring Joint Computer Conference, pp. 149-156, 1967.
[2]B. D. Brown and H. C. Card,“Stochastic neural computation I: computational elements,”IEEE Transactions on Computers, vol. 50, no.9, pp. 891-905, 2001.
[3]J. von Neumann,“Probabilistic logics and the synthesis of reliable organisms from unreliable components,”Automata Studies, 1956.
[4]A. Alaghi and J. P. Hayes,“Survey of stochastic computing,”ACM Transactions on Embedded Computing Systems, vol. 12, no. 2S, 2013.
[5]D. Soloveichik, G. Seeling and E. Winfree,“DNA as a universal substrate for chemical kinetics,”Proc. of the National Academy of Sciences, vol. 107, no.12, pp. 5393-5398, 2010.
[6]B. Wang, C. Thachuk, A. D. Ellington, E. Winfree and D. Soloveichik,“Effective design principles for leakless strand displacement systems,”Proc. of the National Academy of Sciences, vol. 115, no. 52, pp. E12182-E12191, 2018.
[7]K. M. Cherry and L. Qian,“Scaling up molecular pattern recognition with DNA-based winner-take-all neural networks,”Nature, vol. 559, pp. 370-376, 2018.
[8]A. Salomaa and G. Rozenberg,“Handbook of formal languages: word, language, grammar,”1997.
[9]A. Currin, K. Korovin, M. Ababi, K. Roper, D. B. Kell, P. J. Day and R. D. King,“Computing exponentially faster: implementing a non-deterministic universal Turing machine using DNA,”J. of the Royal Society, vol. 128 no. 14, 2017.
実施例
実施例1:DNA分子内の単一の詩の符号化、書込み及び読取り
[00401] 符号化されるデータは、詩を含むテキストファイルである。データは、オーバーラップ伸長PCRを用いて実施される産物方式を使用して、96個の成分の2つの層からのDNA成分を一緒に混合して識別子を構築するように、ピペットを用いて手動で符号化される。第1の層、即ちXは、総じて96個のDNA成分を含む。第2の層、即ちYも総じて96個の成分を含む。DNAを書き込む前に、データは、2進にマッピングされ、次いで均一重み形式に記録され、均一重み形式では、元データの61ビットのあらゆる連続する(隣接する分離された)列は、値1の厳密に17ビットを有する96ビット列に翻訳される。この均一重み形式は、天然の誤りチェック品質を有し得る。次いで、データは、96×96テーブルにハッシュされて、参照マップを形成する。
[00402] 図18Aの中央パネルは、詩を複数の識別子に符号化する96×96テーブルの2次元参照マップを示す。暗い点は、「1」ビット値に対応し、白い点は、「0」ビット値に対応する。データは、96個の成分の2つの層を使用して識別子に符号化される。テーブルの各X値及びY値に成分が割り当てられ、X成分及びY成分は、「1」値を有する各(X,Y)座標にオーバーラップ伸長PCRを使用して識別子に組み立てられる。データは、識別子ライブラリをシーケンシングすることにより、データをリードバック(例えば、復号化)して、可能な各(X,Y)組立ての有無を特定した。
[00403] 図18Aの右パネルは、シーケンシングにより特定される識別子ライブラリに存在する配列の存在度の2次元ヒートマップを示す。各ピクセルは、対応するX成分及びY成分を含む分子を表し、そのピクセルにおけるグレースケール強度は、他の分子と比較したその分子の相対的存在度を表す。識別子は、各行の上位17の最も豊富な(X,Y)アセンブリとみなされる(均一重み符号化は、96ビットの各連続した列が厳密に17個の「1」値、したがって17個の対応する識別子を有し得ることを保証するため)。
実施例2:62824ビットテキストファイルの符号化
[00404] 符号化されるデータは、合計で62824ビットになる3つの詩のテキストファイルである。データは、オーバーラップ伸長PCRを用いて実施される産物方式を使用して、384個の成分の2つの層からのDNA成分を一緒に混合して識別子を構築するように、Labcyte Echo(登録商標)液体処理装置を使用して符号化される。第1の層、即ちXは、総じて384個のDNA成分を含む。第2の層、即ちYも総じて384個の成分を含む。DNAを書き込む前に、データは、2進にマッピングされ、次いで重み(「1」のビット値の数)を減少させ、チェックサムを含むように記録される。チェックサムは、データの192ビットのあらゆる連続した列に対してチェックサムに対応する識別子があるように確立される。再符号化されたデータは、およそ10,100の重みを有し、これは、構築されることになる識別子の数に対応する。次いで、データは、384×384テーブルにハッシュされて、参照マップを形成し得る。
[00405] 図18Bの中央パネルは、テキストファイルを複数の識別子に符号化する384×384テーブルの2次元参照マップを示す。各座標(X,Y)は、位置X+(Y-1)192におけるデータのビットに対応する。黒い点は、「1」のビット値に対応し、白い点は、「0」のビット値に対応する。図の右側の黒い点は、チェックサムであり、図の上部の黒い点のパターンは、コードブック(例えば、データを復号化するための辞書)である。テーブルの各X値及びY値に成分が割り当てられ得、X成分及びY成分は、「1」値を有する各(X,Y)座標にオーバーラップ伸長PCRを使用して識別子に組み立てられる。データは、識別子ライブラリをシーケンシングすることにより、データをリードバック(例えば、復号化)して、可能な各(X,Y)組立ての有無を特定した。
[00406] 図18Bの右パネルは、シーケンシングにより特定される識別子ライブラリに存在する配列の存在度の2次元ヒートマップを示す。各ピクセルは、対応するX成分及びY成分を含む分子を表し、そのピクセルにおけるグレースケール強度は、他の分子と比較したその分子の相対的存在度を表す。識別子は、各行における上位S個の最も豊富な(X,Y)アセンブリとみなされ、各行に対するSは、チェックサム値であり得る。
[00407] 本明細書に提供されるのは、デジタル情報を核酸分子に格納する方法でもあり、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)第1の識別子核酸分子を形成することであって、(1)M個の異なる層に分けられる別個の成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択し、(2)M個の選択された成分核酸分子を区画に配置し、(3)M個の選択された成分核酸分子を(2)に物理的に組み付けて、第1及び第2の層からの成分核酸分子が識別子核酸分子の第1及び第2の末端分子に対応し、第3の層中の成分核酸分子が識別子核酸分子の第3の分子に対応して、第1の識別子核酸分子におけるM個の層の物理的順序を規定するように、第1及び第2の末端分子を有し、第1の末端分子と第2の末端分子との間に位置する第3の分子を有する第1の識別子核酸分子を形成することにより、形成することと、(c)複数の追加の識別子核酸分子を形成することであって、各々が(1)第1及び第2の末端分子を有し、第1の末端分子と第2の末端分子との間に位置する第3の分子を有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子は、(b)における第1の識別子核酸分子の標的分子と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。
[00408] 幾つかの実装形態において、識別子核酸分子の集団は、同じ標的分子を共有する一方、同じプール内の他の識別子核酸分子は、異なる標的分子を有し得る。少なくとも1つの追加の識別子核酸分子の第1及び第2の末端分子の少なくとも一方は、(b)における第1の識別子核酸分子の標的分子と同一であり得る。幾つかの実装形態において、M個の選択された成分核酸分子を物理的に組み立てることは、成分核酸分子のライゲーションを含む。
[00409] 幾つかの実装形態において、各層からの成分核酸分子は、少なくとも1つの粘着末端を含み、少なくとも1つの粘着末端は、別の層からの成分核酸分子の少なくとも1つの粘着末端と相補的であり、それにより(b)及び(c)における識別子核酸分子の形成するための粘着末端ライゲーションを可能にする。例えば、各層(A、B、C)内の全ての成分は、互いに同じ粘着末端を有し得、層A内の全ての成分の一方の粘着末端は、層B内の全ての成分の一方の粘着末端と相補的である。さらに、層B内の全ての成分の他方の粘着末端は、層C内の全ての成分の一方の粘着末端と相補的であり得、以下同様である。幾つかの実装形態において、(c)における少なくとも1つの追加の識別子核酸分子の第1の分子は、(b)における識別子核酸分子の第1の末端分子と同一であり、(c)における少なくとも1つの追加の識別子核酸分子の第2の末端分子は、(b)における識別子核酸分子の第2の末端分子と同一である。
[00410] 幾つかの実装形態において、方法は、プローブを使用して、第1の識別子核酸分子及び複数の追加の識別子核酸分子内の少なくとも幾つかの識別子核酸分子の標的分子にハイブリダイズして、連続記号位置を有する各記号に対応する識別子核酸分子を選択することをさらに含む。連続記号位置を有する記号は、互いに隣接し、同様の近傍にあることにより同様の特性を共有し得る。したがって、同じプローブを使用して、互いの近くに位置する識別子核酸分子を選択することが望ましいことがある。幾つかの実装形態において、方法は、単一のPCR反応を適用して、連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を増幅することをさらに含む。幾つかの実装形態において、連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子は、識別子核酸分子の第3の分子内の特定の成分核酸分子を標的する別のPCR反応によりさらに増幅させることが可能である。
[00411] 幾つかの実装形態において、各層内の成分核酸分子は、第1及び第2の末端領域を有して構造化され、M個の層の1つからの各成分核酸分子の第1の末端領域は、M個の層のうちの別の層からの任意の成分核酸分子の第2の末端領域に結合するような構造である。幾つかの実装形態において、Mは、3以上である。幾つかの実装形態において、記号列内の各記号位置は、対応する異なる識別子核酸分子を有する。幾つかの実装形態において、(b)及び(c)における識別子核酸分子は、各々がM個の各層からの1つの成分核酸分子を含む可能な識別子核酸分子の組合せ空間のサブセットを表す。
[00412] 幾つかの実装形態において、(d)におけるプール内の識別子核酸分子の有無は、記号列内の対応する各記号位置の記号値を表す。例えば、識別子の存在は、対応する記号位置における記号値が1であることを表し得る一方、不在は、記号値が0であることを表し得るか又は逆も同様である。幾つかの実装形態において、連続記号位置を有する記号は、同様のデジタル情報を符号化する。幾つかの実装形態において、M個の各層における成分核酸分子の数の分布は、非均一である。例えば、ある層は、別の層よりも多くの成分核酸分子を有し得、それにより識別子核酸分子を作成するために可能な順列の数及び/又は多様性を調整し得る。
[00413] 幾つかの実装形態において、第3の層が第1の層又は第2の層よりも多くの成分核酸分子を含む場合、(d)におけるプールへのアクセスに使用されるPCRクエリの結果としてアクセスされる識別子核酸分子のプールは、第3の層が第1の層又は第2の層のいずれかよりも少ない成分核酸分子を含む場合よりも大きくなる。
[00414] 幾つかの実装形態において、第3の層が第1の層又は第2の層のいずれかよりも少ない成分核酸分子を含む場合、(d)におけるプールへのアクセスに使用されるPCRクエリの結果としてアクセスされる識別子核酸分子のプールは、第3の層が第1の層又は第2の層のいずれかよりも多い成分核酸分子を含む場合よりも小さくなり、アクセスされる識別子仮核酸分子のプールがより小さいことは、記号列内の記号へのアクセス分解能がより高いことに対応する。
[00415] 幾つかの実装形態において、第1の層は、最高優先度を有し、第2の層は、次に高い優先度を有し、残りのM-2個の層は、第1の末端分子と第2の末端分子との間に対応する成分核酸分子を有する。幾つかの実装形態において、(d)におけるプールは、1つのPCR反応において、第1及び第2の末端分子における特定の成分核酸分子を有するプール内の全ての識別子核酸分子にアクセスするために使用することが可能である。
[00416] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、(b)第1の識別子核酸分子を形成することであって、(1)M個の異なる層に分けられる別個の成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択し、(2)M個の選択された成分核酸分子を区画に配置し、(3)M個の選択された成分核酸分子を(2)に物理的に組み付けて、第1及び第2の層からの成分核酸分子が識別子核酸分子の第1及び第2の末端分子に対応し、第3の層中の成分核酸分子が識別子核酸分子の第3の分子に対応して、第1の識別子核酸分子におけるM個の層の物理的順序を規定するように、第1及び第2の末端分子を有し、第1の末端分子と第2の末端分子との間に位置する第3の分子を有する第1の識別子核酸分子を形成することにより、形成することとを含む。
[00417] 幾つかの実装形態において、方法は、上記ステップ(a)と、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成するステップであって、M個の選択される成分核酸分子は、M個の異なる層に分けられた別個の成分核酸分子のセットから選択される、形成するステップ及びM個の選択された成分核酸分子を物理的に組み立てるステップと、(c)複数の識別子核酸分子を形成するステップであって、各識別子核酸分子は、各記号位置に対応する、形成するステップと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集するステップとを含む。
[00418] 幾つかの実装形態において、M個の層の少なくとも幾つかは、画像データの異なる特徴に対応する。幾つかの実装形態において、異なる特徴は、x座標、y座標及び強度値又は強度値範囲を含む。画像データを核酸分子に格納することにより、本明細書に記載のアクセス方式のいずれか等のランダムアクセス方式を使用して任意の近傍ピクセルに色値について問い合わせることができ得る。幾つかの実装形態において、画像データを核酸分子に格納することにより、画像データの元の分解能のある割合で画像データを復号化することができる。
[00419] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有し、デジタル情報は、ベクトルの集合によって表される画像データを含む、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成することと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。画像データを核酸分子に格納することにより、ランダムアクセス方式を使用して任意の近傍ピクセルに色値について問い合わせることができ得る。
[00420] 幾つかの実装形態において、画像データを核酸分子に格納することにより、画像データの元の分解能のある割合で画像データを復号化することができ、画像データを上記割合で復号化することは、関心のあるフレームを識別するために、監視画像のアーカイブ又はビデオアーカイブ内の特定の視覚的特徴を探索するために使用される。
[00421] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法でもあり、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにし、M個の選択された成分核酸分子を物理的に組み立てて、(b)における識別子核酸分子を形成することは、クリックケミストリを使用することを含む、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。デジタル情報を格納する方法のステップ(c)は、上述したように、第1及び第2の末端分子並びに第3の分子を有する分子の形成を実行することなく、複数の識別子核酸分子を概して形成することを含み得、各識別子核酸分子は、各記号位置に対応する。
[00422] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することと、(e)プールに収集されたデータを削除することとを含む。幾つかの実装形態において、ステップ(c)は、複数の識別子核酸分子を物理的に組み立てることを含み、各識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにし、M個の選択された成分核酸分子を物理的に組み立てて、(b)における識別子核酸分子を形成することは、クリックケミストリを使用することを含む。
[00423] 幾つかの実装形態において、方法は、配列特異的プローブを使用して、(d)におけるプールから識別子核酸分子をプルダウン選択して、データを選択的に削除することをさらに含む。幾つかの実装形態において、選択された識別子核酸分子は、CRISPRベースの方法を使用して選択的に削除される。幾つかの実装形態において、方法は、プール内の識別子核酸分子にアクセスできないようにするか又は読取りを困難若しくは不可能にすることにより、(d)におけるプール内の識別子核酸分子を不明瞭化して、データを非選択的に削除することをさらに含む。幾つかの実装形態において、方法は、超音波処理、オートクレーブ処理、漂白、塩基、酸、臭化エチジウム又は他のDNA修飾剤を用いた処理、照射、燃焼及び非特異的ヌクレアーゼ消化を使用して、(d)におけるプールからの識別子核酸分子を分解させてデータを非選択的に削除することをさらに含む。
[00424] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)固定長以下のサイズの1つ又は複数のブロックに記号列を分割することと、(c)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(d)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(e)、液体又は固体形態を有するプールに(d)及び(c)における識別子核酸分子を収集することとを含む。
[00425] 幾つかの実装形態において、上記ステップ(d)における複数の識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とをそれぞれ有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする。
[00426] 幾つかの実装形態において、方法は、記号列、処理要件又はデジタル情報の意図される用途に基づいて各ブロックのサイズを決定することをさらに含む。幾つかの実装形態において、方法は、各ブロックのハッシュを計算することをさらに含む。幾つかの実装形態において、方法は、1つ又は複数の誤り検出及び修正を各ブロックに適用することと、1つ又は複数の誤り保護バイトを計算することとをさらに含む。幾つかの実装形態において、方法は、符号化又は復号化中、化学的条件を最適化するコードワードのセットに1つ又は複数のブロックをマッピングすることをさらに含む。幾つかの実装形態において、コードワードのセットは、固定数の識別子核酸分子が、ライタシステム内の各反応区画において、各反応区画内及び複数の反応区画にわたりおよそ等しい濃度で組み立てられるような固定の重みを有する。
[00427] 一態様において、本開示は、核酸分子に格納されたデジタル情報に対して計算を実行する方法を提供する。重要なことに、その計算は、分子のプールから正確なデジタル情報を読み取る、即ち復号化する必要なく実行され得る。計算は、AND、OR、NOT又はNAND演算等のブール論理ゲートの任意の組合せを含み得る。具体的には、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することと、(e)(d)における識別子核酸分子を使用して、記号列に対するAND、OR、NOT又はNANDを含むブール論理演算が関与する計算を実行して、核酸分子の新しいプールを生成することとを含む。核酸分子のその新しいプールは、計算の結果又は出力を表し得る。
[00428] 幾つかの実装形態において、上記(c)における識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とをそれぞれ有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする。
[00429] 幾つかの実装形態において、計算は、識別子核酸分子のいずれも復号化することなく、(d)における識別子核酸分子のプールに対して実行されて、記号列内の記号のいずれかを取得する。幾つかの実装形態において、計算を実行することは、ハイブリダイゼーション及び開裂を含む一連の化学的演算を含む。
[00430] 幾つかの実装形態において、(a)における記号列は、aと示され、サブビットストリームsを含み、(d)における複数の識別子核酸分子は、2本鎖であり、dsAと示され、方法は、dsBと示され、サブビットストリームtを含む、bと示される別の記号列を表す別の複数の識別子核酸分子の別のプールを取得することをさらに含み、計算は、dsA及びdsBに対して一連のステップを実行することにより、サブビットストリームs及びtに対して実行される。幾つかの実装形態において、dsA及びdsBに対する一連のステップは、初期化ステップを実行することを含み、初期化ステップは、dsAにおける2本鎖識別子核酸分子を、Aと示される正の1本鎖形態に変換することと、dsAにおける2本鎖識別子核酸分子を、Aと示される負の1本鎖形態に変換することであって、Aは、Aの逆相補鎖である、変換することと、dsBにおける2本鎖識別子核酸分子を、Bと示される正の1本鎖形態に変換することと、dsBにおける2本鎖識別子核酸分子を、Bと示される負の1本鎖形態に変換することであって、Bは、Bの逆相補鎖である、変換することと、sに対応するdsAにおける識別子核酸分子としてdsPを選択することと、sに対応するAにおける識別子核酸分子としてPを選択することと、tに対応するdsBにおける識別子核酸分子としてdsQを選択することと、tに対応するBにおける識別子核酸分子としてQを選択することとを含む。
[00431] 幾つかの実装形態において、演算は、AND演算であり、dsA及びdsBに対する一連のステップは、AとBとを組み合わせることによってaとbとの間でAND演算を実行することと、相補的な核酸分子をハイブリダイズすることと、完全に補完された2本鎖核酸分子を核酸分子の新しいプールとして選択することとをさらに含む。幾つかの実装形態において、計算は、OR演算であり、dsA及びdsBに対する一連のステップは、PとQとを組み合わせることによってsとtとの間でAND演算を実行することと、相補的な核酸分子をハイブリダイズすることと、完全に補完された2本鎖核酸分子を核酸分子の新しいプールとして選択することとをさらに含む。
[00432] 幾つかの実装形態において、完全に補完された核酸分子を選択することは、クロマトグラフィ、ゲル電気泳動、1本鎖特異的エンドヌクレアーゼ、1本鎖特異的エキソヌクレアーゼ又はそれらの組合せを使用することを含む。
[00433] 幾つかの実装形態において、計算は、OR演算であり、dsA及びdsBに対する一連のステップは、dsAとdsBとを組み合わせることによってaとbとの間でOR演算を実行して、核酸分子の新しいプールを生成することを含む。幾つかの実装形態において、計算は、OR演算であり、dsA及びdsBに対する一連のステップは、dsPとdsQとを組み合わせることによってsとtとの間でOR演算を実行して、核酸分子の新しいプールを生成することを含む。
[00434] 幾つかの実装形態において、方法は、核酸分子の新しいプールを含むようにA又はdsAを更新し、それによりA又はdsAが演算の出力を表せるようにすることをさらに含む。
[00435] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)(b)及び(c)における識別子核酸分子を別個のビンに区画化することであって、各ビンは、異なる記号値に対応する、区画化することとを含む。
[00436] 幾つかの実装形態において、(b)における第1の識別子核酸分子を形成することは、(1)M個の異なる層に分けられる別個の成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択することと、(2)M個の選択された成分核酸分子を区画に配置することと、(3)(2)におけるM個の選択された成分核酸分子を物理的に組み立てて、第1及び第2の層からの成分核酸分子が識別子核酸分子の第1及び第2の末端分子に対応し、第3の層内の成分核酸分子が識別子核酸分子の第3の分子に対応して、第1の識別子核酸配列におけるM個の層の物理的順序を規定するように、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有する第1の識別子核酸分子を形成することとを含む。幾つかの実装形態において、特定の記号値を有する各記号の記号位置は、その値に確保されたビンに記録され、ビンは、(2)における区画である。
[00437] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)(b)及び(c)における識別子核酸分子を粉体、液体又は固体形態を有するプールに収集することとを含む。
[00438] 幾つかの実装形態において、上記ステップ(c)は、各記号位置に対応する複数の識別子核酸分子を形成することを含み、各識別子核酸分子は、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを含み、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内の関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする。
[00439] 幾つかの実装形態において、M個の選択される成分の個々の成分は、複数の部分を含み、各部分は、核酸分子を含み、各部分は、1つ又は複数の化学的方法によって同じ識別子にリンクされる。幾つかの実装形態において、前記複数の部分は、異なるデータ格納演算に対して別個の機能目的をそれぞれ果たす。幾つかの実装形態において、前記機能目的は、シーケンシングの容易さ及び核酸ハイブリダイゼーションによるアクセスの容易さを含む。幾つかの実装形態において、第1の識別子核酸分子を形成することは、dCas9-デアミナーゼ等の塩基エディタを適用することにより、親識別子内の1つ又は複数の塩基をプログラムによって変異させることを含む。
[00440] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)塩基エディタを適用することで親識別子内の1つ又は複数の塩基をプログラムによって変異させることにより、第1の識別子核酸分子を形成することと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。一例では、(b)において適用される塩基エディタの1つは、dCas9-デアミナーゼである。
[00441] 一態様において、本開示は、1つ又は複数のランダムプロセスから生成されたデジタル情報を核酸分子に格納する方法を提供し、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)M個の選択された成分核酸分子を区画に配置することにより、第1の識別子核酸分子を形成することであって、M個の選択される成分核酸分子は、M個の異なる層に分けられる別個の成分核酸分子のセットから選択される、形成すること及びM個の選択された成分核酸分子を物理的に組み立てることと、(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は、各記号位置に対応する、形成することと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。
[00442] 幾つかの実装形態において、本開示は、上記方法又は上記複数の方法のいずれかの適用を提供し、適用は、情報の暗号化、エンティティの認証又は無作為化が関わる用途にけるエントロピー源としての使用を含む。幾つかの実装形態において、1つ又は複数の分離識別子ライブラリからの識別子は、エンティティ又は物理的部位を一意に識別するために使用される。
[00443] 一態様において、本開示は、デジタル情報を幾つかのランダムDNA種の区画に符号化する方法を提供する。
[00444] 一態様において、本開示は、可能なDNA種の大きい組合せプールからDNA種をランダムにサンプリングし、シーケンシングすることにより、ランダムデータを生成する方法を提供する。
[00445] 一態様において、本開示は、可能なDNA種の大きい組合せプールからDNA種のサブセットをランダムにサンプリングし、シーケンシングすることにより、ランダムデータを生成し、格納する方法を提供する。
[00446] 幾つかの実装形態において、DNA種の前記サブセットは、各種の複数のコピーを作成するように増幅される。幾つかの実装形態において、誤りチェック及び修正のための核酸分子がDNA種の前記サブセットに追加されて、ロバストな将来の読取りを可能にする。幾つかの実装形態において、DNA種の前記サブセットは、一意の分子を用いてバーコードを付与され、DNA種の上記サブセットは、DNA種のバーコード付きサブセットのプールにおいて組み合わされる。幾つかの実装形態において、DNA種のバーコード付きサブセットの前記プール内のDNA種の特定のサブセットは、PCR又は核酸捕捉のための入力核酸プローブを用いてアクセス可能である。
[00447] 一態様において、本開示は、システムを用いてアーチファクトをセキュア化し、認証する方法を提供し、システムは、(1)規定されたセットからのDNA種のサブセットで構成されたDNA鍵と、(2)鍵を受け入れ、前記アーチファクトをロック解除するために、一致する鍵をローカルで探索するか、又は他の部位でアーチファクトにアクセスために、ハッシュ化されたトークンを返すDNAリーダとを含む。幾つかの実装形態において、方法は、生物学的用途に向けてDNA断片を組み合わせにより組み立てることをさらに含む。
[00448] 一態様において、本開示は、デジタル情報を核酸分子に格納する方法でもあり、方法は、(a)デジタル情報を記号列として受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)(1)M個の異なる層に分けられる別個の成分核酸分子のセットから、M個の層の各々からの1つの成分核酸分子を選択し、(2)M個の選択された成分核酸分子を区画に配置し、(3)M個の選択された成分核酸分子を(2)に物理的に組み付けて、指定された成分を含む第1の識別子核酸分子を形成することにより、第1の識別子核酸分子を形成することであって、指定された成分は、少なくとも1つの標的分子を含み、指定された成分を含む識別子のアクセスを可能にする、形成することと、(c)各々が指定された成分を有する複数の追加の識別子核酸分子を物理的に組み立てることであって、指定された成分は、(b)における第1の識別子核酸分子の少なくとも1つの標的分子を含んで、プローブが、記号列内に連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、組み立てることと、(d)粉体、液体又は固体形態を有するプールに(b)及び(c)における識別子核酸分子を収集することとを含む。
[00449] 一般に、本明細書に記載の主題及び関数演算の態様は、本明細書に開示された構造及びそれらの構造的均等物を含め、デジタル電子回路又はコンピュータソフトウェア、ファームウェア若しくはハードウェア或いはそれらの1つ又は複数の組合せで実施することができる。本明細書に記載の主題の態様は、1つ又は複数のコンピュータプログラム製品として、即ちデータ処理装置により実行されるか又はデータ処理装置の動作を制御するためにコンピュータ可読媒体に符号化されたコンピュータプログラム命令の1つ又は複数のモジュールとして実施することができる。コンピュータ可読媒体は、機械可読記憶装置、機械可読記憶基板、メモリデバイス、機械可読伝播信号に影響を及ぼす組成物又はそれらの1つ若しくは複数の組合せであり得る。「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ又は複数のプロセッサ若しくはコンピュータを含む、データを処理するための全ての装置、デバイス及び機械を包含する。装置は、ハードウェアに加えて、対象のコンピュータプログラムの実行環境をもたらすコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム又はそれらの1つ若しくは複数の組合せを構成するコードを含み得る。伝播信号は、人工的に生成された信号、例えば適した受信機装置への送信に向けて情報を符号化するために生成される機械生成の電気、光又は電磁信号である。
[00450] コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト又はコードとしても知られる)は、コンパイル型又はインタプリタ型言語を含め、任意の形態のプログラミング言語で記述することができ、独立プログラム又はモジュール、コンポーネント、サブルーチン若しくは計算環境での使用に適した他のユニットとしてのものを含め、任意の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得る。プログラムは、他のプログラム若しくはデータ(例えば、マークアップ言語文書に格納された1つ若しくは複数のスクリプト)を保持するファイルの一部分、対象のプログラム専用の単一ファイル又は複数の連携ファイル(例えば、1つ若しくは複数のモジュール、サブプログラム若しくはコードの部分を格納した複数のファイル)に格納することができる。コンピュータプログラムは、1つのコンピュータ又は1つの部位に配置されるか若しくは複数の部位にわたって分散し、通信ネットワークにより相互接続された複数のコンピュータで実行されるように展開することができる。
[00451] 本明細書に記載のプロセス及び論理フローは、1つ又は複数のコンピュータプログラムを実行して、入力データに対して動作して出力を生成することにより機能を実行する1つ又は複数のプログラマブルプロセッサにより実行することができる。プロセス及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)により実行され得、装置は、そのような専用論理回路として実施され得る。
[00452] コンピュータプログラムの実行に適したプロセッサには、例として、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方並びに任意の種類のデジタルコンピュータの任意の1つ又は複数のプロセッサがある。一般に、プロセッサは、読取り専用メモリ若しくはランダムアクセスメモリ又はそれらの両方から命令及びデータを受信する。コンピュータの基本要素は、命令を実行するプロセッサ並びに命令及びデータを格納する1つ又は複数のメモリデバイスである。一般に、コンピュータは、データを格納する1つ若しくは複数の大容量記憶装置、例えば磁気ディスク、磁気光学ディスク若しくは光ディスクも含むか、又はそのような1つ若しくは複数の大容量記憶装置に動作可能に結合されてデータを受信若しくは転送するか又はその両方を行う。しかしながら、コンピュータは、そのようなデバイスを有する必要があるわけではない。
[00453] 本発明の好ましい実施形態を本明細書に図示し、説明したが、そのような実施形態が単に例として提供されていることが当業者に明らかになるであろう。本発明は、本明細書内に提供される特定の例により限定されることを意図されない。本発明について上述の本明細書を参照して説明したが、本明細書における実施形態の説明及び例示は、限定の意味で解釈されることを意図されない。ここで、本発明から逸脱することなく、当業者であれば多くの変形形態、変更形態及び置換形態を想到するであろう。さらに、本発明の全ての態様は、多様な条件及び変数に依存する本明細書に記載の特定の図、構成又は相対的な部分に限定されないことが理解されるものとする。本発明を実施するにあたり、本明細書に記載の本発明の実施形態への種々の代替形態が採用可能であることを理解されたい。したがって、本発明はそのようなあらゆる代替形態、改変形態、変形形態又は均等物も包含することが企図される。以下の特許請求の範囲は、本発明の範囲を規定し、特許請求の範囲及びその均等物内の方法及び構造がそれらにより包含されることが意図される。本明細書に引用された全ての引用文献は、全体的に参照により援用され、本願の一部をなす。

Claims (21)

  1. 情報を核酸配列に書き込む方法であって、
    第1の固定小数点数を取得すること、
    成分核酸配列の順序付きサブセットをそれぞれ含む識別子核酸配列の組合せ空間を規定する前記成分核酸配列のライブラリを取得すること、
    前記組合せ空間中の識別子核酸配列の第1のサブセットを、前記第1のサブセット中の識別子核酸配列の数に対応するコードワードサイズを有する第1のコードワードとして識別すること、
    前記第1のサブセットの別個の識別子核酸配列を有する1つ又は複数の識別子核酸分子の第1のセットを形成することであって、前記第1のセットにおいて表される別個の識別子核酸配列の前記数の、前記コードワードサイズに対する比率は、前記第1の固定小数点数を近似する、形成することと、
    を含む方法。
  2. 成分核酸配列の前記ライブラリは、複数の層を含み、各層は、前記成分核酸配列のサブセットを含み、各識別子核酸配列は、各層からの1つの成分核酸配列を含む、請求項1に記載の方法。
  3. 前記第1の固定小数点数は、値xを有し、前記コードワードサイズは、wであり、k個の識別子核酸分子は、前記比率がk/wであり、かつ、xにおよそ等しいように前記第1のセットにおいて形成される、請求項1又は2に記載の方法。
  4. k/wは、xのプラス又はマイナス20%以内である、請求項3に記載の方法。
  5. 前記コードワードサイズは、少なくとも8である、請求項1~4のいずれか一項に記載の方法。
  6. 前記コードワードサイズは、少なくとも256である、請求項5に記載の方法。
  7. 前記コードワードサイズは、少なくとも512である、請求項6に記載の方法。
  8. 前記コードワードサイズは、少なくとも1024である、請求項7に記載の方法。
  9. 第2の固定小数点数を取得することと、
    前記組合せ空間中の識別子核酸配列の第2のサブセットを、前記第1のコードワードの前記コードワードサイズを有し、かつ、前記第2のサブセット中の識別子核酸配列の数に対応する第2のコードワードとして識別することと、
    前記第2のサブセットの別個の識別子核酸配列を有する1つ又は複数の識別子核酸分子の第2のセットを形成することであって、前記第2のセット中の別個の識別子核酸配列の前記数の、前記コードワードサイズに対する比率は、前記第2の固定小数点数を近似する、形成することと
    をさらに含む、請求項1~8のいずれか一項に記載の方法。
  10. 前記第1のセット及び前記第2のセットをプールして、合算プールを取得することと、
    前記プールされたセットを希釈して、スケーリングされた合算プールを取得することと、
    により、前記第1の固定小数点数及び前記第2の固定小数点数を合計することをさらに含む、請求項9に記載の方法。
  11. 前記第1のセット及び前記第2のセットをプールして、因子プールを取得することと、
    化学的AND演算を前記識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することと、
    により、前記第1の固定小数点数及び前記第2の固定小数点数を乗算することをさらに含む、請求項9に記載の方法。
  12. 前記化学的AND演算は、
    前記識別子核酸分子を1本鎖識別子核酸分子に変換することと、
    相補的識別子核酸分子をハイブリダイズすることと、
    完全にハイブリダイズされた2本鎖核酸分子を選択して、前記積プールを取得することと、
    を含む、請求項11に記載の方法。
  13. 選択することは、1本鎖核酸分子を選択的に分解する酵素又は配列ミスマッチを有する2本鎖核酸分子を選択的に分解する酵素の少なくとも1つを使用することを含む、請求項12に記載の方法。
  14. 前記第1のセット及び前記第2のセットをプールして、因子プールを取得することと、
    化学的OR演算を前記識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することと、
    をさらに含む、請求項9に記載の方法。
  15. 前記第1のセット及び前記第2のセットを混合することを含む、請求項14に記載の方法。
  16. 前記第1のセット及び前記第2のセットをプールして、因子プールを取得することと、
    化学的NIMPLY演算を前記識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することと、
    をさらに含む、請求項9に記載の方法。
  17. 前記化学的NIMPLY演算は、
    前記識別子核酸分子を1本鎖識別子核酸分子に変換することであって、前記第2のセットの前記1本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、
    前記第2のセットの1本鎖識別子核酸分子のモル過剰を提供することと、
    相補的識別子核酸分子をハイブリダイズすることと、
    前記アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた2本鎖核酸分子を選択して、前記積プールを取得することと、
    を含む、請求項16に記載の方法。
  18. 前記第1のセット及び前記第2のセットをプールして、因子プールを取得することと、
    化学的NOT演算を前記識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することと、
    をさらに含む、請求項9に記載の方法。
  19. 前記化学的NOT演算は、
    前記識別子核酸分子を1本鎖識別子核酸分子に変換することであって、前記第1のセットの前記1本鎖識別子核酸分子は、アフィニティタグを含む、変換することと、
    前記第1のセットの1本鎖識別子核酸分子のモル過剰を提供することと、
    相補的識別子核酸分子をハイブリダイズすることと、
    前記アフィニティタグに対する特異的捕捉メカニズムを使用して、完全にハイブリダイズされた2本鎖核酸分子を選択して、前記積プールを取得することと、
    を含む、請求項18に記載の方法。
  20. 前記第1のセット及び前記第2のセットをプールして、因子プールを取得することと、
    化学的XOR演算を前記識別子核酸分子の第1及び第2のセットに適用して、積プールを取得することと、
    をさらに含む、請求項9に記載の方法。
  21. 前記化学的XOR演算は、2つのNIMPLY演算を実行し、それに続いてOR演算を実行することを含む、請求項21に記載の方法。
JP2023557329A 2021-03-24 2022-03-18 固定小数点数表現及び計算回路 Pending JP2024514430A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163165507P 2021-03-24 2021-03-24
US63/165,507 2021-03-24
PCT/US2022/020949 WO2022203958A1 (en) 2021-03-24 2022-03-18 Fixed point number representation and computation circuits

Publications (1)

Publication Number Publication Date
JP2024514430A true JP2024514430A (ja) 2024-04-02

Family

ID=81386824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023557329A Pending JP2024514430A (ja) 2021-03-24 2022-03-18 固定小数点数表現及び計算回路

Country Status (6)

Country Link
EP (1) EP4315336A1 (ja)
JP (1) JP2024514430A (ja)
KR (1) KR20230160898A (ja)
AU (1) AU2022245140A1 (ja)
CA (1) CA3214604A1 (ja)
WO (1) WO2022203958A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5821886A (en) * 1996-10-18 1998-10-13 Samsung Electronics Company, Ltd. Variable length code detection in a signal processing system
AU6846698A (en) 1997-04-01 1998-10-22 Glaxo Group Limited Method of nucleic acid amplification
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
KR102534408B1 (ko) 2016-11-16 2023-05-18 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
WO2019246434A1 (en) * 2018-06-20 2019-12-26 Brown University Methods of chemical computation
US20220064705A1 (en) * 2018-12-26 2022-03-03 Bgi Shenzhen Method and device for fixed-point editing of nucleotide sequence with stored data

Also Published As

Publication number Publication date
AU2022245140A1 (en) 2023-09-28
KR20230160898A (ko) 2023-11-24
WO2022203958A1 (en) 2022-09-29
EP4315336A1 (en) 2024-02-07
CA3214604A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
US11379729B2 (en) Nucleic acid-based data storage
US20230376787A1 (en) Nucleic acid-based data storage
JP7364604B2 (ja) 核酸ベースのデータ記憶のための化学的方法
JP2022551186A (ja) 核酸セキュリティーおよび認証
US20230308275A1 (en) Nucleic acid storage for blockchain and non-fungible tokens
JP2024514430A (ja) 固定小数点数表現及び計算回路
US12006497B2 (en) Chemical methods for nucleic acid-based data storage
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage
JP2023546330A (ja) 温度制御流体反応システム