JP2023546330A - 温度制御流体反応システム - Google Patents

温度制御流体反応システム Download PDF

Info

Publication number
JP2023546330A
JP2023546330A JP2023518164A JP2023518164A JP2023546330A JP 2023546330 A JP2023546330 A JP 2023546330A JP 2023518164 A JP2023518164 A JP 2023518164A JP 2023518164 A JP2023518164 A JP 2023518164A JP 2023546330 A JP2023546330 A JP 2023546330A
Authority
JP
Japan
Prior art keywords
nucleic acid
identifier
pad
channel
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023518164A
Other languages
English (en)
Inventor
ナサニエル ロケ,
ショーン ミーム,
Original Assignee
カタログ テクノロジーズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カタログ テクノロジーズ, インコーポレイテッド filed Critical カタログ テクノロジーズ, インコーポレイテッド
Publication of JP2023546330A publication Critical patent/JP2023546330A/ja
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/50Containers for the purpose of retaining a material to be analysed, e.g. test tubes
    • B01L3/502Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures
    • B01L3/5027Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip
    • B01L3/502769Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements
    • B01L3/502784Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements specially adapted for droplet or plug flow, e.g. digital microfluidics
    • B01L3/502792Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by multiphase flow arrangements specially adapted for droplet or plug flow, e.g. digital microfluidics for moving individual droplets on a plate, e.g. by locally altering surface tension
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L7/00Heating or cooling apparatus; Heat insulating devices
    • B01L7/52Heating or cooling apparatus; Heat insulating devices with provision for submitting samples to a predetermined sequence of different temperatures, e.g. for treating nucleic acid samples
    • B01L7/525Heating or cooling apparatus; Heat insulating devices with provision for submitting samples to a predetermined sequence of different temperatures, e.g. for treating nucleic acid samples with physical movement of samples between temperature zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/02Adapting objects or devices to another
    • B01L2200/026Fluid interfacing between devices or objects, e.g. connectors, inlet details
    • B01L2200/027Fluid interfacing between devices or objects, e.g. connectors, inlet details for microfluidic devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0647Handling flowable solids, e.g. microscopic beads, cells, particles
    • B01L2200/0668Trapping microscopic beads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0673Handling of plugs of fluid surrounded by immiscible fluid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/06Auxiliary integrated devices, integrated components
    • B01L2300/0627Sensor or part of a sensor is integrated
    • B01L2300/0645Electrodes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/16Surface properties and coatings
    • B01L2300/161Control and use of surface tension forces, e.g. hydrophobic, hydrophilic
    • B01L2300/165Specific details about hydrophobic, oleophobic surfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1816Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using induction heating
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1822Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using Peltier elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/18Means for temperature control
    • B01L2300/1805Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks
    • B01L2300/1827Conductive heating, heat from thermostatted solids is conducted to receptacles, e.g. heating plates, blocks using resistive heater
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0403Moving fluids with specific forces or mechanical means specific forces
    • B01L2400/0415Moving fluids with specific forces or mechanical means specific forces electrical forces, e.g. electrokinetic
    • B01L2400/0427Electrowetting
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0403Moving fluids with specific forces or mechanical means specific forces
    • B01L2400/043Moving fluids with specific forces or mechanical means specific forces magnetic forces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0475Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure
    • B01L2400/0487Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2400/00Moving or stopping fluids
    • B01L2400/04Moving fluids with specific forces or mechanical means
    • B01L2400/0475Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure
    • B01L2400/0487Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics
    • B01L2400/049Moving fluids with specific forces or mechanical means specific mechanical means and fluid pressure fluid pressure, pneumatics vacuum

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Clinical Laboratory Science (AREA)
  • Dispersion Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Hematology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Physical Or Chemical Processes And Apparatus (AREA)
  • Control Of Temperature (AREA)

Abstract

本開示は、供給源リザーバと、供給源リザーバおよび主チャネルと流体連通する投入チャネルとを含む、化学反応を実行するための方法およびシステムを開示する。投入チャネルは、供給源リザーバからの反応体積を主チャネルに分配するように構成される。主チャネルは、エレクトロウェッティングを介して複数の液滴として反応体積を搬送するように構成された主チャネルの内面上に複数のパッドを含む。システムは、複数の液滴を主チャネルからプールに受け入れるように構成された宛先リザーバを含む。

Description

相互参照
本出願は、2020年9月22日に出願された米国仮特許出願第63/081,666号の利益および優先権を主張し、その全体が参照により本明細書に組み込まれる。
背景
ポリメラーゼ連鎖反応(PCR)のような複数の温度工程を必要とする化学反応は、非効率的な熱伝達のために大規模に実行することが困難である。PCRの場合、反応は、典型的には、1ミリリットル未満の体積(典型的には250マイクロリットル)を保持する小型の特殊化されたチューブ(PCRチューブ)内で行われる。PCRを行うための従来のシステムは、温度制御システムに接続された熱伝導チャンバを使用してPCRチューブを加熱および冷却するように構成されたサーモサイクラーである。大量の反応物に対してPCRを行うために、ユーザは、大量の反応物を複数のPCRチューブに分割し、ハイスループットサーモサイクラーを使用してそれらに対して同時にPCRを行うことができる。通常、これらのハイスループットサーモサイクラーは、複数のチューブ用の複数のチャンバを有し、最大およそ10ミリリットル(mL)の凝集体積(全てのPCRチューブにわたっる合計)を処理することができる。これは、96個のチャンバがあり、各チャンバが100マイクロリットル(uL)の反応体積を有する管の温度を動的に制御するように構成されているシステムを想定している。より多くの体積を各管に充填することができるが、それは熱伝達の効率を低下させ、したがって反応に悪影響を及ぼす。したがって、この従来のシステムは、反応の総体積が大きいほど、より多くの管を収容するためにシステムがより並列化されなければならないため、うまくスケーリングしない。このシステムでは、数万のチャンバを有する非常に大きな機器を必要とするため、1リットル程度以上の反応体積へのスケーリングは実用的ではない。
サーモサイクラーは、反応が配置されるチャンバの温度を動的に制御するが、他のシステムは、異なる温度に設定されたチャンバまたは位置の間で反応を移動させることに依存する。そのようなシステムの一実施形態は、反応体積を保持するためのチャンバおよび大きな管または容器として水浴を使用する。次いで、大きな反応を異なる温度の水浴間で移す。例えば、PCRの場合、一方の水浴は、二本鎖DNAを融解するために摂氏95度(℃)に固定されてもよく、一方の水浴は、プライマーをアニーリングするために55℃に固定されてもよく、他方の水浴は、ポリメラーゼによるプライマー伸長のために72℃に固定されてもよい。反応体積は、これらの浴を横切って複数回循環させることができる。このようなシステムは、大きな反応体積を物理的に収容することができるが、反応体積が増加するにつれて熱伝達効率が低下すると想定される。そのようなシステムは、十分にスケーリングされず、1リットルまでの体積でさえ実用的ではない。
この形態の代替システムは、マイクロ流体を活用する。これらのシステムでは、反応体積は、狭いマイクロ流体チャネルを通るポンプによって駆動される。チャネルは、異なる温度に固定された位置を通過し、それによってPCRを可能にする。反応体積は、連続流体としてマイクロ流体チャネルを通って移動してもよく、またはエマルジョンとしてマイクロ流体チャネルを通って移動する複数の水性液滴に封入されてもよい。しかしながら、そのようなシステムは、チャネルを横切る不均一な流れを被る可能性があり、それにより、反応体積の不正確なまたは一貫しない温度制御をもたらす。
核酸デジタルデータストーレージは、情報を長期間にわたって符号化および格納するための安定した手法であり、データは磁気テープまたはハードドライブストーレージシステムよりも高密度で格納される。さらに、低温および乾燥条件で格納された核酸分子に保存されたデジタルデータは、60,000年以上もの間、検索することができる。
核酸分子に格納されたデジタルデータにアクセスするために、核酸分子を配列決定することができる。このように、核酸デジタルデータストーレージは、頻繁にアクセスされないが、長期間保存またはアーカイブされる大量の情報を有し得るデータを格納するための理想的な方法であり得る。
現在の方法は、配列中の塩基対塩基の関係がデジタル情報(例えば、バイナリコード)に直接変換されるように、デジタル情報(例えば、バイナリコード)を塩基ごとの核酸配列に符号化することに依存している。デジタル符号化された情報のビットストリームまたはバイトに読み取ることができる塩基ごとの配列に格納されたデジタルデータの配列決定は、デノボ塩基ごとの核酸合成のコストが高価になる可能性があるため、エラーが発生しやすく、符号化にコストがかかる可能性がある。核酸デジタルデータストーレージを実行する新しい方法の機会は、より安価で商業的に実施するのがより容易なデータを符号化および検索するためのアプローチを提供し得る。
要旨
本明細書に記載の技術は、例えば複数の温度段階を使用するシステムの精度または精度を犠牲にすることなく、化学反応を実行する、例えばポリメラーゼ連鎖反応を大量にスケーリングするためのシステムおよび方法を提供することができる。このシステムの有用な用途は、大規模PCRであろう。そのような大規模PCRは、大量の特定のDNA配列を製造するために使用することができる。さらに、大規模PCRは、DNA配列の大きなライブラリを増幅するために使用することができる。これは、ファージディスプレイ等のスクリーニングに使用されるDNA変異体のライブラリに有用であり得る。別の用途は、配列決定のための遺伝子DNAの大きなライブラリの増幅および調製であり得る。いくつかの実施態様では、本明細書に記載のシステムは、デジタル情報を符号化するDNAの大型ライブラリの増幅および調製に使用することができる。
一態様では、化学反応を実行するためのシステムは、供給源リザーバと、供給源リザーバと流体連通する投入チャネルと、主チャネルとを備える。投入チャネルは、供給源リザーバからの反応体積を主チャネルに分配するように構成される。主チャネルは、エレクトロウェッティングを介して複数の液滴として反応体積を搬送するように構成された主チャネルの内面上に複数のパッドを含む。システムは、複数の液滴を主チャネルからプールに受け入れるように構成された宛先リザーバを含む。
いくつかの実施態様では、複数のパッドの各パッドは、電極、誘電材料、および疎水性表面を備える。
いくつかの実施態様では、複数のパッドは、内面上にアレイとして配置され、アレイは、アレイのパッド列に沿って複数の液滴の個々の液滴を搬送するように構成され、アレイは、複数のパッド列を含み、各パッド列は、主チャネルの長さに沿って延在する。いくつかの実施態様では、複数のパッド列は、複数の液滴を並行して搬送するように構成される。いくつかの実施態様では、システムは、主チャネルの内面の上方の高さhに位置するカバープレートを含み、高さhが、主チャネルを一次元で画定する。
いくつかの実施態様では、主チャネルの高さh、主チャネルの幅w、主チャネルを通る複数の液滴の液滴速度v、および複数の液滴によって占有される主チャネルの平均部分体積oのうちの少なくとも1つは、h*w*v*oに等しいシステムの有効流量が、目標時間量で主チャネルを通って供給源リザーバ内の初期反応体積を移動させるのに十分であるように構成される。
いくつかの実施態様では、初期反応体積は、約1リットル以上であり、前記目標時間量が約2時間以下である。いくつかの実施態様では、液滴速度vは、前記液滴速度がx*fに等しくなるようにパッド長さxおよびパッドスイッチング周波数fによって決定される。
いくつかの実施態様では、複数のパッドは、目標温度に設定されたパッド行を含む。いくつかの実施態様では、アレイは、複数の目標温度に設定された複数のパッド行を含む。いくつかの実施態様では、各パッド列は、液滴がアレイの個々のパッド列に沿って搬送されるときに液滴が複数の目標温度にさらされるように、複数の目標温度に設定された複数のパッド行の各パッド行からのパッドを含む。
いくつかの実施態様では、アレイは、主チャネルの長さに沿って周期的な温度パターンを有するパッド行のパターンを含む。いくつかの実施態様では、パターンは温度サイクルを定義し、アレイはパターンの複数のインスタンスを含む。
いくつかの実施態様では、反応体積はポリメラーゼ連鎖反応(PCR)処方であり、個々のサイクルの複数の標的温度は、二本鎖DNAを融解し、プライマーをアニーリングし、プライマーを伸長するように構成される。
いくつかの実施態様では、温度サイクルの個々の温度に対するパッドスイッチング周波数およびパッド行の数が、個々の液滴が個々の温度で目標時間を費やすように設定される。
いくつかの実施態様では、主チャネルの長さは、少なくともパターンのインスタンスの数×パターン長と同じ長さである。
いくつかの実施態様では、複数のパッドのうちの1つのパッドが酵素とコンジュゲートされる。いくつかの実施態様では、複数のパッドのうちの1つのパッドは酵素を捕捉するように構成される。
いくつかの実施態様では、複数の液滴の各液滴が磁気ビーズを含有し、酵素が磁気ビーズに結合しており、パッドは、酵素が結合している磁気ビーズを捕捉するように構成された電磁石を含む。いくつかの実施態様では、酵素はポリメラーゼである。
いくつかの実施態様では、システムは、複数の液滴を供給源リザーバから投入チャネルを介して主チャネルに搬送するように構成された投入ポンプを含む。いくつかの実施態様では、システムは、主チャネルから宛先リザーバに液滴を吸引するように構成された排出ポンプを含む。いくつかの実施態様では、投入ポンプおよび排出ポンプのうちの少なくとも1つは、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの1つである。
いくつかの実施態様では、供給源リザーバは加圧される。いくつかの実施態様では、宛先リザーバは減圧される。いくつかの実施態様では、宛先リザーバは、反応を阻害するように構成された試薬をさらに含む。いくつかの実施態様では、試薬はEDTAである。
いくつかの実施態様では、主チャネルは空気を含む。いくつかの実施態様では、主チャネルは油を含む。いくつかの実施態様では、反応体積は、デジタル情報を符号化するDNA分子のライブラリを含む。いくつかの実施態様では、反応体積はゲノムDNAのライブラリを含む。いくつかの実施態様では、反応体積は、スクリーニングのためのDNA変異体のライブラリを含む。
いくつかの実施態様では、宛先リザーバは、プールの少なくとも一部を容器内または基板上に分配するように構成されたディスペンサを含む。
幾つかの実施態様では、システムは、主チャネルおよび宛先リザーバと流体連通する排出チャネルをさらに備え、排出チャネルが、複数の液滴を前記主チャネルから宛先リザーバに搬送するように構成される。
態様では、デバイスは、前述した実施態様のいずれかの主チャネルを含む。
一態様において、化学反応を実行するためのデバイスは、底面と、底面上に配置された複数のパッドと、底面の第1の末端にある入口と、第1の末端とは反対側の底面の第2の末端にある出口と、底面の上方のチャネル高さに位置するカバーとを備える。底面およびカバーは、チャネル高さによって特徴付けられるチャネルを規定する。
いくつかの実施態様では、複数のパッドの各パッドは、電極、誘電材料、および疎水性表面を備える。いくつかの実施態様では、各パッドは、底面とカバーとの間に電界を生成するように構成される。
いくつかの実施態様では、複数のパッドは底面上にアレイとして配置され、アレイは複数のパッド行および複数のパッド列を含む。いくつかの実施態様では、各パッド列は各パッド行と交差し、その逆も同様であり、各パッド列は各パッド行からのパッドを含み、その逆も同様である。
いくつかの実施態様では、各パッド行は目標温度にある。いくつかの実施態様では、アレイはパッド行の複数のセットを含み、各セットは目標温度にあり、1またはそれを超えるパッド行を含む。いくつかの実施態様では、アレイは温度サイクルのパターンを含み、各温度サイクルは複数のセットを含み、温度サイクルにおける複数のセットの各セットは異なる目標温度を有する。
いくつかの実施態様では、チャネルは、複数の液滴として凝集反応体積を含む。いくつかの実施態様では、複数のパッドは、入口から出口に液滴を搬送するように配置され、入口から前記出口への方向は、チャネル高さに直交する。
いくつかの実施態様では、凝集反応体積は、デジタル情報を符号化するDNA分子のライブラリ、ゲノムDNA分子のライブラリ、スクリーニング用のDNA変異体のライブラリ、またはRNAのライブラリのうちの1つまたは複数を含む。
いくつかの実施態様では、チャネル高さh、チャネルの幅w、チャネルを通る複数の液滴の液滴速度v、および複数の液滴によって占められるチャネルの平均部分体積oのうちの少なくとも1つは、h*w*v*oに等しいデバイスの有効流量が、凝集反応体積を目標時間量で入口から出口までチャネルを通って移動させるのに十分であるように構成される。
いくつかの実施態様では、複数のパッドのうちの1つのパッドが酵素とコンジュゲートされる。いくつかの実施態様では、複数のパッドのうちの1つのパッドは酵素を捕捉するように構成される。
いくつかの実施態様では、パッドは、酵素が結合している磁気ビーズを捕捉するように構成された電磁石を含む。いくつかの実施態様では、酵素はポリメラーゼである。
いくつかの実施態様では、デバイスは、供給源リザーバおよびチャネルの入口の各々と流体連通する投入チャネルを介して、供給源リザーバから前記チャネル内に初期反応体積を搬送するように構成された投入ポンプを含む。
いくつかの実施態様では、デバイスは、チャネルの出口および宛先リザーバのそれぞれと流体連通する排出チャネルを介して、チャネルから宛先リザーバに流体または粒子を搬送するように構成された排出ポンプを含む。いくつかの実施態様では、投入ポンプおよび排出ポンプのうちの少なくとも1つは、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの1つである。いくつかの実施態様では、チャネルは、底面とカバーとの間に空気を含む。いくつかの実施態様では、チャネルは、底面とカバーとの間に油を含む。
プール内の固有の核酸配列の存在下または非存在下でビット値情報を符号化することによって、塩基ごとの合成なしに核酸(例えば、デオキシリボ核酸、DNA)分子内のデジタル情報を符号化するための方法およびシステムも開示され、固有の核酸配列を有するビットストリーム内の各ビット位置を指定すること、およびプール内の対応する固有の核酸配列の存在下または非存在下によってその位置のビット値を指定することを含む。しかし、より一般的には、核酸配列の固有のサブセットによってバイトストリーム内の固有のバイトを指定することが開示されている。また、コンビナトリアルゲノム戦略を使用して塩基対塩基合成なしでユニーク核酸配列を生成する方法も開示される(例えば、複数の核酸配列のアセンブリまたは核酸配列の酵素ベースの編集)。
本開示のさらなる態様および利点は、本開示の例示的な実施形態のみが示され説明される以下の詳細な説明から当業者には容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、様々な明白な点で修正が可能である。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。
参照による組み込み
本明細書で言及される全ての刊行物、特許、および特許出願は、あたかも各個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる開示と矛盾する限り、本明細書は、そのような矛盾する材料に取って代わるおよび/または優先することを意図している。
本発明の新規な特徴は、添付の特許請求の範囲に詳細に記載されている。本発明の特徴および利点のより良い理解は、本発明の原理が利用される例示的な実施形態を説明する以下の詳細な説明、および添付の図面(本明細書では「図(Figure)」および「図(FIG.)」もまた)を参照することによって得られるであろう。
図1Aおよび図1Bは、異なる寸法であるが同じ断面積を有するチャネルの2つの例を概略的に示す。チャネルの断面は、チャネルを通る流れがページに出入りすると解釈できるように示されている。断面は、高さ寸法および幅寸法を含む。矢印で示すように、熱は幅に沿ってチャネルに伝達される。図1Aのチャネルは、図1Bと比較して幅(熱源がある場所)に沿ってより多くの表面を有するため、より効率的な熱伝達を受ける。
図2Aおよび図2Bは、PCR等の大規模な化学反応を実行するためのシステムを概略的に示す。図2Aは、システムの側面図を示し、図2Bは、図2Aの主チャネルの鳥瞰図を示す。反応体積は、(1)供給源リザーバで開始する。体積は、(2)投入チャネルを通って移動し、(3)主チャネル内に液滴として堆積される。主チャネルは、図2Aに示すように高さh、および(2B)に示すように幅Wおよび長さLを有する。液滴は、矢印によって示されるように、長さに沿ってパッド間から主チャネル内を移動する。パッドは、エレクトロウェッティングを使用して液滴のプログラム可能な移動を容易にする。幅に沿ったパッドの異なる行は、液滴が主チャネルの長さに沿って移動するときに複数の温度段階にさらされるように、異なる温度で構成されてもよい。主チャネルの終わりに、液滴は、(4)排出チャネルによって(5)宛先リザーバに吸引される。
図3は、2段階PCRを行うように設計された、図2の主チャネルの構成を示す。液滴は、主チャネルに沿って矢印の方向に移動する。パッドの影付きの行は、二本鎖DNAを融解するのに適切な温度に構成されている。網掛けされていない行は、プライマーをアニーリングおよび伸長するための適切な温度に構成される。この例では、8行のパッドのパターンでフル溶融アニール延長サイクルが構成されている。このパターンは、複数のサイクルにわたって主チャネルに沿って繰り返すことができる。
図4A、図4Bおよび図4Cは、パッド上の液滴中でPCRを行うためのポリメラーゼ酵素を構成するための異なる戦略を示す。図4Aは、ポリメラーゼが液滴溶液の一部である例を示す。この場合、ポリメラーゼは、パッドを離れるときに液滴と共に移動する。図4Bは、ポリメラーゼがパッドの表面にテザリングされている例を示す。この場合、ポリメラーゼは、パッドを出るときに液滴と共に移動しない。ポリメラーゼは、パッド上に移動する任意の液滴中で活性である。図4Cは、ポリメラーゼがビーズにつながれ、パッドの表面に対するビーズの親和性をオンまたはオフに切り替えることができる例を示す。親和性がオフにされると、ポリメラーゼは液滴溶液中に自由に溶解し、親和性がオンにされると、ポリメラーゼはパッドの表面に捕捉され、パッドから移動するときに液滴と共に移動しない。この構成では、ポリメラーゼをプログラム可能に放出し、液滴溶液から捕捉することができる。
図5は、核酸配列に格納されたデジタル情報の符号化、書き込み、アクセス、読み出しおよび復号のための処理の概要を模式的に示す。
図6Aおよび図6Bは、オブジェクトまたは識別子(例えば、核酸分子)を使用して「アドレスのデータ」と呼ばれるデジタルデータを符号化する例示的な方法を概略的に示す。図6Aは、識別子を作成するためにランクオブジェクト(またはアドレスオブジェクト)をバイト値オブジェクト(またはデータオブジェクト)と結合することを示す。図6Bは、ランクオブジェクトおよびバイト値オブジェクトがそれ自体他のオブジェクトの組み合わせ連結であるアドレス指定方法におけるデータの実施形態を示す。
図7Aおよび図7Bは、オブジェクトまたは識別子(例えば、核酸配列)を使用してデジタル情報を符号化する例示的な方法を概略的に示す。図7Aは、ランクオブジェクトを識別子として用いたデジタル情報の符号化を例示する。図7Bは、アドレスオブジェクト自体が他のオブジェクトの組み合わせ連結である符号化方法の実施形態を示す。
図8は、可能な識別子の組み合わせ空間(C、x軸)と、所与のサイズの情報(輪郭線)を格納するように構成され得る識別子の平均数(k、y軸)との間の関係の、対数空間における輪郭プロットを示す。
図9は、核酸配列に情報を書き込む方法(例えば、デオキシリボ核酸)の概要を模式的に示す。
図10Aおよび図10Bは、別個の成分(例えば、核酸配列)を組み合わせてアセンブリすることによって識別子(例えば、核酸分子)を構築するための、「産物スキーム」と呼ばれる例示的な方法を示す。図10Aは、産物スキームを使用して構築された識別子の構造を示す。図10Bは、産物スキームを用いて構築され得る識別子の組み合わせ空間の例を示す。
図11は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための重複伸長ポリメラーゼ連鎖反応の使用を概略的に示す。
図12は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための粘着末端ライゲーションの使用を概略的に示す。
図13は、成分(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するためのリコンビナーゼアセンブリの使用を概略的に示す。
図14Aおよび図14Bは、鋳型指向性ライゲーションを示す。図14Aは、成分を(例えば、核酸配列)から識別子(例えば、核酸分子)を構築するための鋳型指向性ライゲーションの使用を概略的に示す。図14Bは、1つのプールされた鋳型指向性ライゲーション反応において6つの核酸配列(例えば、成分を)からそれぞれ組み合わせて構築された256個の異なる核酸配列のコピー数(存在量)のヒストグラムを示す。 同上。
図15A、図15B、図15C、図15D、図15E、図15Fおよび図15Gは、並べ替えられた成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための、「順列置換スキーム」と呼ばれる例示的な方法を概略的に示す;図15Aは、順列置換スキームを使用して構築された識別子の構造を示す;図15Bは、順列置換スキームを用いて構築され得る識別子の組み合わせ空間の例を示す;図15Cは、鋳型指向ライゲーションを用いた置換スキームの例示的な実施態様を示す;図15Dは、図15Cからの実施態様をどのように修正して、並び替えられた成分および繰り返された成分を有する識別子を構築することができるかの例を示す;図15Eは、図15Dの例示的な実施態様が、核酸サイズ選択で除去され得る望ましくない副生成物をどのようにもたらし得るかを示す;図15Fは、鋳型指向ライゲーションおよびサイズ選択を使用して、並び替えられた成分および繰り返された成分を有する識別子を構築する方法の別の例を示す。;図15Gは、サイズ選択が望ましくない副生成物から特定の識別子を分離できない場合の例を示す図である。 同上。 同上。 同上。 同上。 同上。
図16A、図16B、図16C、および図16Dは、可能な成分のより大きな数Mから、任意の数Kのアセンブリされた成分(例えば、核酸配列)の識別子(例えば、核酸分子)を構築するための、「MchooseK」スキームと呼ばれる例示的な方法を概略的に示す。図16Aは、MchooseKスキームを用いて構築された識別子の構造を例示する。図16Bは、MchooseKスキームを用いて構築され得る識別子の組み合わせ空間の例を例示する。図16Cは、鋳型指向性ライゲーションを使用するMchooseKスキームの例示的な実施態様を示す。図16Dは、図16Cの例示的な実施態様が、核酸サイズ選択で除去され得る望ましくない副生成物をどのようにもたらし得るかを示す。 同上。 同上。
図17Aおよび図17Bは、パーティション付きの成分を有する識別子を構築するための「パーティションススキーム」と呼ばれる例示的な方法を概略的に示す。図17Aは、パーティションスキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。図17Bは、鋳型指向性ライゲーションを使用するパーティションスキームの例示的な実施態様を示す。 同上。
図18Aおよび図18Bは、いくつかの可能な成分から成分の任意の列から構成される識別子を構築するための、「無制限文字列」(またはUSS)方式と呼ばれる例示的な方法を概略的に示す。図18Aは、USSスキームを用いて構築され得る識別子の組み合わせ空間の例を示す。図18Bは、鋳型指向性ライゲーションを使用するUSSスキームの例示的な実施態様を示す。 同上。
図19Aおよび図19Bは、親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される例示的な方法を概略的に例示する。図19Aは、成分削除スキームを用いて構築され得る識別子の組み合わせ空間の例を示す。図19Bは、二本鎖標的化切断および修復を使用する成分欠失スキームの例示的な実施態様を示す。 同上。
図20は、リコンビナーゼ認識部位を有する親識別子を概略的に示し、リコンビナーゼを親識別子に適用することによってさらなる識別子を構築することができる。
図21A、図21Bおよび図21Cは、より多数の識別子から多数の特定の識別子にアクセスすることによって核酸配列に格納された情報の部分にアクセスするための例示的な方法の概要を概略的に示す。図21Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して、特定の成分を含有する識別子にアクセスするための例示的な方法を示す。図21Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」演算を実行し、複数の指定された成分を含む識別子にアクセスする例示的な方法を示す。図21Cは、親和性タグを使用して「OR」または「AND」演算を実行し、複数の指定された成分を含む識別子にアクセスするための例示的な方法を示す。 同上。 同上。
図22Aおよび図22Bは、核酸分子に符号化されたデータの符号化、書き込みおよび読み出しの例を示す。図22Aは、5,856ビットのデータの符号化、書き込みおよび読出しの一例を示す。図22bは、62,824ビットのデータの符号化、書き込みおよび読出しの一例を示す、ならびに
図23は、本明細書で提供される方法を実施するようにプログラムまたは他の方法で構成されたコンピュータシステムを示す。
図24は、二本鎖成分の単一の親セットから選択された任意の2つの二本鎖成分のアセンブリの例示的なスキームを示す。
図25は、2つのオリゴXおよびYから作製された可能な粘着末端成分の構造を示す。
図26は、15片の粘着末端DNA成分ライゲーションからのqPCR産物の例示的なゲル電気泳動画像を示す。
図27Aは、2、2.5、3および1440分間ライゲーションされた15片、6塩基の5’オーバーハングDNA成分セットのライゲーション効率の例示的なデータを示す。図27Bは、2、2.5、3および1440分間ライゲーションされた15片、6塩基の3’ DNA成分セットのライゲーション効率の例示的なデータを示す。 図27Cは、qPCR産物の例示的なゲル電気泳動画像を示す。
図28Aは、オーバーハング長さによってグループ化されたDNA成分対のライゲーション効率を示す例示的なデータを示す。図28Bは、オーバーハング長さによってグループ化されたDNA成分対のライゲーション効率を示す例示的なデータを示す。
図29Aは、GC含有量によってグループ分けされたDNA成分対のライゲーション効率を示す例示的なデータを示す。図29Bは、GC含有量によってグループ分けされたDNA成分対のライゲーション効率を示す例示的なデータを示す。
図30は、様々な温度でT4リガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからの例示的データを示す。
図31は、様々な温度でT4リガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからの例示的データを示す。
図32Aは、T4 DNAリガーゼと比較した、T7 DNAリガーゼのライゲーション効率についての例示的なデータを示す。図32Bは、T4 DNAリガーゼと比較した、T3 DNAリガーゼのライゲーション効率についての例示的なデータを示す。
図33は、様々な濃度での大腸菌DNAリガーゼのライゲーション効率についての例示的データを示す。
図34Aは、様々な温度でT7 DNAリガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからの例示的データを示す。図34Bは、様々な温度でT3 DNAリガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからの例示的データを示す。
図35Aは、ライゲーション効率に対するPEG8000の効果の例示的なデータを示す。図35Bは、ライゲーション効率に対するPEG6000の効果の例示的なデータを示す。 図35Cは、ライゲーション効率に対するPEG400の効果の例示的なデータを示す。
図36は、PEG400またはPEG6000の存在下で一緒にライゲーションされた4つの粘着末端(10塩基、3’オーバーハングあり)DNA成分のライゲーションからの例示的なデータを示す。
図37は、リガーゼに対するバッファーQGまたはEDTAの効果の例示的なqPCRデータを示す。
図38は、Q5、PhusionおよびTaq DNAポリメラーゼを使用した複製の線形性に関する例示的なデータを示す。
図39は、室温で4日間保存した異なるDNAサンプルの例示的なゲル画像を示す。
図40は、室温で乾燥および再水和を繰り返したDNAの例示的なデータを示す。
図41は、構築された粘着末端配列の例示的スキームを示す。
図42Aは、表4に列挙した異なる対のオーバーハング配列のライゲーションからの例示的なデータを示す。図42Bは、表5に列挙した異なる対のオーバーハング配列のライゲーションからの例示的なデータを示す。
図43は、表4および表5に列挙されたオーバーハングの各セットからの15個のオーバーハングの200万個のサブセットからのペナルティスコアを示す。
図44は、表7の最終行からのオーバーハングを使用した16個のDNA成分のライゲーション効率の例示的なデータを示す。
図45Aは、(コンピュータによる符号化後の)符号化されたメッセージの341×351参照マップを示す。図45Bは、配列決定によって決定された、識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。
図46は、図41A~図41B示された符号化、書き込み、配列決定、および復号プロセス全体の複製実行からの例示的なデータを示す。
図47Aは、配列決定によって決定された、複製された識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。データは、図45A~図45Bのメッセージを含む元の識別子ライブラリの複数のコピーを作成することによって得られた。 図47Bは、元の識別子ライブラリ内の識別子コピー数と複製された識別子ライブラリとの間の相関関係を示す。図47Cは、複製された識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。
図48Aは、配列決定によって決定された、アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。データは、図45A~図45Bからの元のメッセージを含む識別子ライブラリの一部にアクセスすることによって得られた。 図48Bは、元のライブラリにおける識別子コピー数とアクセスされた識別子ライブラリとの間の相関関係を示す。図48Cは、アクセスされた識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。
図49Aは、配列決定によって決定された、2回アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。データは、図48A~図48Cのアクセスされた識別子ライブラリの下位部分にさらにアクセスすることによって得られた。 図49Bは、元のライブラリにおける識別子コピー数と2回アクセスされた識別子ライブラリとの間の相関関係を示す。図49Cは、2回アクセスされた識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。
図50Aは、配列決定によって決定された、格納された識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。データは、100℃で4日間、図45A~図45Bからのメッセージを表す元の識別子ライブラリを記憶した後から得られた。
図50Bは、元の識別子ライブラリ内の識別子コピー数と複製された識別子ライブラリとの間の相関関係を示す。
図50Cは、複製された識別子ライブラリに対する元の識別子ライブラリにおける識別子コピー数の分布を示す。
図51Aは、75.1℃で8日間インキュベートしたDNAサンプルの例示的なデータを示す。図51Bは、84.4℃で8日間インキュベートしたDNAサンプルの例示的なデータを示す。 図51Cは、90.2℃で8日間インキュベートしたDNAサンプルの例示的なデータを示す。図51Dは、95.0℃で8日間インキュベートしたDNAサンプルの例示的なデータを示す。
図52は、様々な量の(体積当たりの体積パーセントに関して)グリセロールと共にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからの例示的なデータを示す。
詳細な説明
本発明の様々な実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。当業者であれば、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。本明細書に記載の本発明の実施形態に対する様々な代替形態が使用され得ることを理解されたい。
本明細書で使用される場合、「記号」という用語は、一般に、デジタル情報の単位の表現を指す。デジタル情報は、記号列に分割または変換され得る。一例では、記号はビットであってもよく、ビットは「0」または「1」の値を有してもよい。
本明細書で使用される場合、「別個の」または「固有の」という用語は、一般に、グループ内の他の物体と区別可能な物体を指す。例えば、別個のまたはユニークな核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であり得る。別個のまたはユニークな核酸分子は、他の核酸分子と同じ配列を有していなくてもよい。別個のまたはユニークな核酸配列または分子は、別の核酸配列または分子と類似性の領域を共有し得る。
本明細書で使用される場合、「成分」という用語は、一般に核酸配列を指す。成分は、別個の核酸配列であり得る。成分は、他の核酸配列または分子を生成するために、1またはそれを超える他の成分と連結またはアセンブリされてもよい。
本明細書で使用される場合、「層」という用語は、一般に、成分のグループまたはプールを指す。各層は、1つの層の成分が別の層の成分と異なるように、1組の別個の成分を含んでもよい。1またはそれを超える層からの成分は、1またはそれを超える識別子を生成するためにアセンブリすることができる。
本明細書で使用される場合、「識別子」という用語は、一般に、より大きなビット列内のビット列の位置および値を表す核酸分子または核酸配列を指す。より一般的には、識別子は、記号列内の記号を表すかまたはそれに対応する任意の目的物を指すことができる。いくつかの実施形態では、識別子は、1つまたは複数結された成分を含むことができる。
本明細書で使用される場合、「組み合わせ空間」という用語は、一般に、成分等のオブジェクトの開始セットから生成され得る全ての可能な別個の識別子のセット、および識別子を形成するためにそれらのオブジェクトをどのように修正するかについての許容可能な規則のセットを指す。成分をアセンブリするか連結することによって作られる識別子の組み合わせ空間のサイズは、成分の層の数、各層の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。
本明細書で使用される場合、「識別子ランク」という用語は、一般に、セット内の識別子の順序を定義する関係を指す。
本明細書で使用される場合、「識別子ライブラリ」という用語は、一般に、デジタル情報を表す記号列内の記号に対応する識別子の集合を指す。いくつかの実施形態では、識別子ライブラリに所与の識別子が存在しないことは、特定の位置に記号値を示すことができる。1またはそれを超える識別子ライブラリは、プール、グループ、または識別子のセットで組み合わせることができる。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含むことができる。
本明細書で使用される場合、「核酸」という用語は、一般に、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはそれらの変異体を指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、およびウラシル(U)から選択される1またはそれを超えるサブユニット、またはそれらの変異体を含み得る。ヌクレオチドは、A、C、G、TもしくはU、またはそれらの変異体を含むことができる。ヌクレオチドは、成長中の核酸鎖に組み込むことができる任意のサブユニットを含むことができる。そのようなサブユニットは、A、C、G、TもしくはU、またはより多くの相補的なA、C、G、TもしくはUのうちの1つに特異的であり得るか、またはプリン(すなわち、AもしくはG、またはその変異体)もしくはピリミジン(すなわち、C、T、もしくはU、またはそれらの変異体)に相補的であり得る任意の他のサブユニットであり得る。いくつかの例では、核酸は一本鎖または二本鎖であり得、いくつかの場合、核酸は環状である。
本明細書で使用される場合、「核酸分子」または「核酸配列」という用語は、一般に、デオキシリボヌクレオチド(DNA)もしくはリボヌクレオチド(RNA)、またはそれらの類縁体の様々な長さを有し得るヌクレオチドまたはポリヌクレオチドのポリマー形態を指す。「核酸配列」という用語は、ポリヌクレオチドのアルファベット表示を指し得る。あるいは、この用語は、物理的ポリヌクレオチド自体に適用され得る。このアルファベット表示は、中央処理装置を有するコンピュータ内のデータベースに入力することができ、核酸配列または核酸分子をデジタル情報を符号化する記号またはビットにマッピングするために使用することができる。核酸配列またはオリゴヌクレオチドは、1またはそれを超える非標準ヌクレオチド(複数可)、ヌクレオチド類縁体および/または修飾ヌクレオチド(複数可)を含み得る。
本明細書で使用される場合、「オリゴヌクレオチド」は、一般に、一本鎖核酸配列を指し、典型的には4つのヌクレオチド塩基:アデニン(A)の特定の配列から構成される:シトシン(C);ポリヌクレオチドがRNAである場合、グアニン(G)、およびチミン(T)またはウラシル(U)。
修飾ヌクレオチドの例としては、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシルメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルケオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、ベータ-D-マンノシルケオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ウィブトキソシン、プソイドウラシル、ケオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリン等が挙げられるが、これらに限定されない。核酸分子はまた、塩基部分(例えば、典型的には相補的ヌクレオチドと水素結合を形成するために利用可能な1もしくはそれを超える原子および/または典型的には相補的ヌクレオチドと水素結合を形成することができない1もしくはそれを超える原子において)、糖部分またはリン酸骨格において修飾され得る。核酸分子はまた、N-ヒドロキシスクシンイミドエステル(NHS)等のアミン反応性部分の共有結合を可能にするために、アミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアミド-dCTP(aha-dCTP)等のアミン修飾基を含有し得る。
本明細書で使用される場合、「プライマー」という用語は、一般に、ポリメラーゼ連鎖反応(PCR)等の核酸合成の出発点として働く核酸の鎖を指す。一例では、DNAサンプルの複製中、複製を触媒する酵素は、DNAサンプルに結合したプライマーの3’末端で複製を開始し、反対鎖をコピーする。プライマー設計に関する詳細を含むPCRに関するさらなる情報については、化学的方法のセクションDを参照されたい。
本明細書で使用される場合、「ポリメラーゼ」または「ポリメラーゼ酵素」という用語は、一般に、ポリメラーゼ反応を触媒することができる任意の酵素を指す。ポリメラーゼの例としては、限定されないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される(すなわち、結合の形成を触媒する酵素)。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobest、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。PCRと共に使用され得るさらなるポリメラーゼについて、ならびにポリメラーゼの特徴がPCRにどのように影響し得るかについての詳細については、化学的方法のセクションDを参照されたい。
「約」および「およそ」という用語は、当該用語に続く値の±20%以内を意味すると理解されるべきである。
本明細書では、例えば、図1Aおよび図1Bに示すように、チャネルを介して、例えばチャネルを介して大量の反応体積を移動させるためにエレクトロウェッティングを利用するシステム等の技術について説明する。いくつかの実施態様では、例示的なチャネルは、約2:1~15:1の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約4:1~15:1の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約8:1~15:1の幅対高さ比を有することができる。いくつかの実施態様では、例示的なチャネルは、約2:1~4:1の幅対高さ比を有することができる。流体ポンプとは異なり、エレクトロウェッティングは、パッドまたは離散化された表面に電圧を印加することによって、正確かつ均一な流体運動を容易に可能にする。パッドは、電極、誘電材料、および疎水性表面を含むことができる。パッドは、パッドの1またはそれを超える電気的特性を制御するために制御システムに接続(例えば、電気的に接続される)されてもよい。エレクトロウェッティングは、印加された電界による表面の湿潤特性(例えば、疎水性)の操作を含み得る。ウェッティング特性を操作することにより、液体、固体、および気体または不混和性液体等の第3の流体の交差部で形成される液体接触角。エレクトロウェッティングは、液滴を形成し、液滴を広げ、液滴の形状を変化させ、形状モード振動を誘発し、液滴を分割し、表面を横切って液滴を移動させ、液滴を併合および混合するために、液体および/または液滴に適用され得る。
図2Aおよび図2Bは、供給源リザーバ、投入チャネル、主チャネル、排出チャネル、および宛先リザーバを含むシステムの一例を示す。図2Aは、システムの線形ワークフローを示す。反応体積は、供給源リザーバから投入チャネルを通って引き込まれ、液滴として主チャネルに分配される。液滴は、本明細書に記載されるようにパッドのトラックに沿って主チャネルを通るエレクトロウェッティングを使用して移動される。液滴は、排出チャネルを介して主チャネルから除去され、宛先リザーバに移送される。
いくつかの実施態様では、反応体積は、投入から主チャネルのパッド上に分配される。液体はパッド上に蓄積し、液滴を形成し、次いで、これはエレクトロウェッティングによって主チャネルに沿って別のパッドに移動する。これにより、新しい液滴がその場所に形成され、プロセスが継続する。各液滴は、投入チャネルを通じた分注プロセスと主チャネルにおけるエレクトロウェッティングとの複合作用によって形成される。
図2Bは、主チャネルの上面図を示す。主チャネル内のパッドは、幅および長さを有するトラックまたはアレイを形成する。主チャネルの長さに沿ったパッドのラインは、パッドの列または「パッド列」と呼ばれ、主チャネルの幅に沿ったパッドのラインは、パッドの行または「パッド行」と呼ばれる。例示的なパッドは、電極、誘電材料、および疎水性表面を含むことができる。パッドは、図2Bに示すように正方形であってもよいし、長方形、三角形、または他の形状等の異なる形状であってもよい。パッドは、液滴の形成および移動を容易にする。液滴は、パッド上に置かれ、例えば、プロセッサおよびメモリを含む制御システムを使用して、プログラム可能な方法でパッド間を移動することができる。いくつかの実施態様では、システムは、いくつかの液滴の動きを同時に統合することができるか、または統合するように構成される。図2Aおよび図2Bの例では、主チャネルは、液滴の行が複数の平行なパッド列に沿って同時に移動することができるように、パッド列に沿って投入チャネルから排出チャネルに液滴を移動させるように構成される。パッドの主チャネルおよびアレイは、ソフトリソグラフィを使用してポリジメチルシロキサン(PDMS)内に形成されてもよい。例示的な実施態様では、PDMS構造は、疎水性誘電体層でコーティングされたガラス基板に取り付けられてもよい。
いくつかの実施態様では、システムは、感光性電極を含む1またはそれを超えるパッドを含む。いくつかの実施態様では、システムは、液滴がパッドとカバープレートとの間を流れるように、各パッドの上方に位置された複数の透明電極を含むカバープレートを含む。感光電極および透明電極は、いずれも電源、例えば交流電源に接続されている。感光性電極は、(選択的に)光に曝露されて電気的接続を形成し、局所的な電界を形成することができる。いくつかの実施態様では、光の1またはそれを超える「スポット」を1またはそれを超える感光性電極に向けて電気的接続を形成し、局所的な電界を形成することができる。主チャネル内の電界を成形するために、異なるパターンの光を電極/パッドのアレイに投射することができる。例えば、デジタル光プロセッサチップおよび1またはそれを超える光学デバイスを使用して、複数のパッドのうちの複数に同時に制御された方法で光を投射することができる。各液滴内の核酸の存在に起因する電荷(例えば、負電荷)を有する液滴は、誘電泳動によって主チャネルを横切って移動することができ、移動する電場と共に移動するように液滴を強制する。いくつかの実施態様では、リアルタイム映像フィードバック制御デバイスを使用して、複数の液滴を同時に移動させ、正確な移動および制御を確実にすることができる。
いくつかの実施態様では、主チャネルは、エレクトロウェッティングを容易にするカバープレートを有することができる。主チャネルの高さは、パッドのトラックとカバープレートとの間の距離である。チャネルの高さは、エレクトロウェッティングおよび液滴への効率的な熱伝達を可能にするように構成されてもよい。流路の高さは、0.1mm~10mmであってもよい。流路の高さは、0.5mm~5mmであってもよい。例示的な実施態様では、効率的な熱伝達とエレクトロウェッティングの両方に1mmの高さが適切である。高さ、幅、および液滴速度は、特定の流量容量をサポートするように構成され得る。例えば、高さが1mm、幅が100mm、液滴速度が2mm/sであるとすると、システムの流量容量は1*100*2=200mm/sとなる。1mm=1uLの変換を使用すると、この数は200uL/sの流量容量に対応する。主チャネル内の容積の全てが反応液滴によって占められた場合、主チャネルを通る反応体積の流量として「流量容量」を定義することができる。しかし、実際には、液滴は離間しなければならないため、主チャネルの全体積を占めない。「占有率」は、液滴によって占められる主チャネルの平均部分体積として定義することができる。占有をプログラムすることができる。200uL/sの流量容量および0.5の占有率を考えると、有効流量は0.5*200=100uL/sとなる。したがって、この例では、供給源リザーバ内の初期反応体積が1Lである場合、システムは、体積全体を主チャネルに流すのにおよそ10K秒、またはほぼ2.8時間かかる。この期間は、総体積に比例する。したがって、10Lの初期反応体積は、およそ100K秒または28時間かかる。持続時間は、幅または液滴速度を増加させることによって短縮することができ、それぞれが持続時間と逆の関係を有する。上記の例では、幅を2倍し200mmにし、速度を10mm/sに5倍に増加させる場合、初期反応体積10Lの持続時間は、100K秒ではなく10K秒に短縮される。したがって、システムの有効流量は、本明細書に記載のいくつかの実際の用途のための合理的な目標時間量内に、大きな反応体積であっても初期反応体積を処理するように容易に構成することができる。
いくつかの実施態様では、液滴速度は、パッドの長さおよびスイッチング周波数によって制御することができる。スイッチング周波数は、液滴が1つのパッドから近接するパッドに移動することができる速度である。例えば、システムが1Hz(1パッド/秒)のスイッチング周波数を有し、各パッドが10mmの長さを有する場合、液滴速度は10mm/秒になる。いくつかの実施態様では、システムは、0.01Hz~100Hzのスイッチング周波数を有することができる。いくつかの実施態様では、システムは、0.1Hz~10Hzのスイッチング周波数を有することができる。いくつかの実施態様では、システムは、0.5Hz~5Hzのスイッチング周波数を有することができる。
いくつかの実施態様では、主チャネルの異なる部分(例えば、1またはそれを超えるパッド行)は、カバープレートまたはパッド自体の温度を制御することによって異なる温度を有するように構成することができる。例えば、液滴が主チャネルの長さに沿って移動すると、一定期間異なる温度にさらされるように、異なるパッド行を異なる温度に設定することができる。これらの期間は、特定の温度に設定されたスイッチング周波数および直列の連続するパッド行の数によって制御することができる。例えば、PCRでは、典型的には、高温(例えば、95℃)で短時間、例えば5秒間行われる融解工程がある。一例では、スイッチング周波数が0.2/s(0.2Hz)である場合、この5秒間の温度段階は、単一行のパッドを95℃に設定することによって主チャネル内で達成することができる。あるいは、スイッチング周波数が0.4/s(0.4Hz)である場合、5秒工程は、95℃で2つの連続したパッド行を必要とする。PCR反応における後続の温度段階は、プライマーをアニーリングするために構成され得る。例えば、これは、反応物を60℃に10秒間曝露することを必要とし得る。スイッチング周波数を0.2/sと仮定すると、これは、連続する2つのパッド行を60℃に設定することによって達成され得る。ポリメラーゼを用いてプライマーを伸長するために、後続の温度段階が必要とされ得る。これは、主チャネル内に構成することもできる。例えば、拡張工程が30秒間72℃を必要とし、スイッチング速度が0.2/sである場合、これは、6つの連続する行を72℃に設定することによって主チャネルで達成することができる。いくつかのPCR処方では、アニーリングおよび伸長を単一の温度段階で行うことができる。温度サイクルは、異なる温度でパッド行の繰り返しパターンを確立することによって実行することができる。1またはそれを超える加熱または冷却機構を使用して、主チャネルの一部に温度を設定することができる。例えば、誘導プレート、熱ダイオード、ペルチェ素子、または任意の他の適切な熱交換器のいずれかを1またはそれを超えるパッド行に近接して位置し、1またはそれを超えるパッド行を目標温度まで加熱または冷却することができる。いくつかの実施態様では、1またはそれを超える加熱/冷却チャネルは、1またはそれを超えるパッド行に沿って位置することができ、1またはそれを超えるパッド行を絶縁、加熱、または冷却するように構成された流体を流すように構成することができる。
図3は、2段階PCRの構成例を示している。この例では、PCRサイクルは8つのパッド行で達成され、1つのパッド行は溶融のための温度に保持され、続いて7つのパッド行はアニーリングおよび伸長のための温度に保持される。次いで、8パッドパターンを複数サイクル繰り返すことができる。例えば、この例における10サイクルPCRの実施は、8パッドパターンを10回繰り返し、主チャネル内の合計80パッド行に対して行うことができる。したがって、主チャネルの長さを使用して、PCR反応のサイクル数を制御することができる。別の例として、反応サイクルが例えば5パッド行を必要とする場合、20PCRサイクルのために100パッド行が必要である。追加のパッド行は、主チャネルの始めまたは終わりに組み込むことができる。例えば、PCRでは、追加のパッド行を必要とする第1のサイクルに細長い溶融工程があってもよい。同様に、追加のパッド行を必要とする最後のサイクルの終わりに引き延ばされた伸長工程があってもよい。
エレクトロウェッティングのための現在の技術水準では、パッドサイズを縮小し、スイッチング周波数を上げることは困難である。適切には、本明細書に記載のシステムは、現在の技術水準に対して小さいパッドサイズまたは高いスイッチング周波数に依存しない。例えば、主チャネルは、高さ1mm、幅に沿って80個のパッドおよび長さに沿って120個のパッドを有する3mm×3mmのパッドで構築することができる。このシステムにおける2段階PCRサイクルは、2~20または20~40のパッド行を含み得る。このシステム上の例示的な2段階PCRサイクルは、(少なくとも)12個のパッド行、例えば、溶融のための2個のパッド行と、それに続くアニーリングおよび伸長のための10個のパッド行とを含むことができる。例示的な実施態様では、スイッチング周波数は0.5 Hzとすることができ、サイクルごとに4秒の溶融段階、それに続く24秒のアニーリングおよび伸長段階を可能にする。1mmの主チャネル高さ、3mm×3mmのパッドサイズ、0.5Hzのスイッチング周波数、および結果として生じる1.5mm/sの液滴速度は、エレクトロウェッティングのための現在の技術水準で容易に達成可能である。例示的な実施態様では、結果として得られるシステムの主チャネルは、標準的なベンチトップに適合するのに十分小さい約240mmの幅および約360mmの長さとすることができる。しかしながら、例示的なシステムを使用して、1Lを超える前例のないスケールで反応体積に対して10サイクルのPCRを実施することができる。例えば、50%の占有率では、有効流速は180uL/sであり、1LのPCR反応に約1.5時間をもたらす。
いくつかの実施態様では、供給源リザーバおよび標準リザーバは、大型ボトルまたは容器、例えば、1ml、5ml、10ml、またはそれを超える体積を有する容器であってもよい。例示的な実施態様では、供給源リザーバは、少なくとも1つの投入チャネルを使用して主チャネル内への液滴の制御された堆積のために加圧されてもよい。宛先リザーバは、少なくとも1つの排出チャネルを使用して主チャネルからの液滴の制御された吸引のために減圧されてもよい。あるいは、1またはそれを超える投入および排出チャネルを介した主チャネルへの堆積および主チャネルからの吸引は、蠕動ポンプまたはダイアフラムポンプ等の他のポンプ機構によって制御されてもよい。いくつかの実施態様では、システムは、パッド列ごとに1つの投入チャネル、および同様にパッド列ごとに1つの排出チャネルを含むことができる。いくつかの実施態様では、システムは、複数のパッド列のための1つの投入チャネルを含むことができる。1つの投入チャネルは、複数のパッド列に移動または分割される液滴を堆積させることができる。いくつかの実施態様では、1つの排出チャネルは、複数のパッド列からの液滴を凝集させることができる。一実施形態では、主チャネルは空気で満たされてもよい。いくつかの実施態様では、主チャネルは、安定した液滴形成を提供する油または別の液体物質で満たされてもよい。
いくつかの実施態様では、完全な反応処方を混合し、供給源リザーバに充填することができる。例えば、PCRでは、ポリメラーゼ、dNTP、反応バッファー、および鋳型DNAの組み合わせを供給源リザーバにロードすることができる。いくつかの実施態様では、主チャネルは、特定の反応成分の活性化を可能にするように構成され得る。例えば、PCR反応体積は、ホットスタートポリメラーゼを用いて供給源リザーバにロードされてもよく、主チャネル内の第1系列のパッド行は、ポリメラーゼを活性化するために反応液滴を加熱するように構成されてもよい。いくつかの実施態様では、主チャネルは、反応成分を含むように構成され得る。例えば、ポリメラーゼのような酵素を各パッドの表面にコンジュゲートさせることができる。あるいは、酵素を磁気ビーズにコンジュゲートさせることができ、これを捕捉し、電磁機構を用いてパッドの表面に放出することができる。例えば、ビーズコンジュゲート化酵素は、液滴中に放出され、次いで、液滴がパッドから離れる前に捕捉され得る。例えば、主チャネルの末端にある1またはそれを超える捕捉パッド行を使用して、液滴が目的チャンバに移送される前に全てのビーズおよび/または酵素が捕捉されることを確実にすることができる。パッド上に酵素を保持するこれらの機構は、酵素の使用を少なくすることを可能にし得る(例えば、酵素が反応体積に溶解される場合、液滴が宛先リザーバに入るたびに消費される)。しかし、酵素がパッド上に保持されている場合、それらは複数の反応液滴のために再使用することができる。したがって、反応液滴中に酵素を配置するよりもパッド上に酵素を保持する方が安価であり得る。さらに、パッド上に酵素を保持することは、例えば、異なるパッド行が異なる酵素を保持する場合、複数の温度段階だけでなく、複数の酵素段階も含む主チャネル内で反応を実行する方法を提供し得る。例えば、制限エンドヌクレアーゼ酵素をパッド行のセットに保持することによって、核酸断片化のために制限消化工程を実施することができる。ライゲーション工程(例えば、粘着末端ライゲーションまたは平滑末端ライゲーション)は、パッド行のセット上にリガーゼ酵素を保持することによって、バーコード核酸を標的核酸に付加するために、または標的核酸を組み合わせるために実施され得る。いくつかの実施態様では、パッドのアレイは、特定の酵素を特定のパッド行に保持し、各列の温度を設定することによって、任意の指定された順序で、上記の説明に従って任意の数のPCR、ライゲーション、および制限工程を実行するように構成される。
図4は、PCR用のパッドにポリメラーゼを保持する異なる方法を示す。宛先リザーバは、EDTAまたは塩等の反応阻害のための追加の成分を含み得る。図4Aは、ポリメラーゼが液滴溶液の一部である例を示す。この場合、ポリメラーゼは、パッドを離れるときに液滴と共に移動する。図4Bは、ポリメラーゼがパッドの表面にテザリングされている例を示す。この場合、ポリメラーゼは、パッドを出るときに液滴と共に移動しない。ポリメラーゼは、パッド上に移動する任意の液滴中で活性である。図4Cは、ポリメラーゼがビーズにつながれ、パッドの表面に対するビーズの親和性をオンまたはオフに切り替えることができる例を示す。親和性がオフにされると、ポリメラーゼは液滴溶液中に自由に溶解し、親和性がオンにされると、ポリメラーゼはパッドの表面に捕捉され、パッドから移動するときに液滴と共に移動しない。この構成では、ポリメラーゼをプログラム可能に放出し、液滴溶液から捕捉することができる。
本明細書に記載のシステムは、複数の温度段階の精度または精度を犠牲にすることなく、大量のスケーリング反応を提供することができる。このシステムの有用な用途は、大規模PCRであろう。そのような大規模PCRは、大量の特定のDNA配列を製造するために使用することができる。さらに、大規模PCRは、DNA配列の大きなライブラリを増幅するために使用することができる。これは、ファージディスプレイ等のスクリーニングに使用されるDNA変異体のライブラリに有用であり得る。別の用途は、配列決定のための遺伝子DNAの大きなライブラリの増幅および調製であり得る。いくつかの実施態様では、本明細書に記載のシステムは、デジタル情報を符号化するDNAの大型ライブラリの増幅および調製に使用することができる。そのようなデータ符号化ライブラリは、塩基ごとの合成または大規模DNAアセンブリ等の様々な方法によって作製することができる。いくつかの実施態様では、そのようなライブラリは、商業的に関連する量の情報を符号化し格納するために、(少なくとも)数十億の固有のDNA配列を含み得る。本明細書に記載のシステムは、従来のPCRシステムによって容易に取り扱うことができる規模を超えてこれらのライブラリを提供および処理することができる。したがって、本明細書に記載のシステムは、DNA内の大規模データ記憶システムの展開を成功させるために不可欠であり得る。さらに、本明細書で提供されるシステムおよび方法は、RNAのライブラリ上に逆転写酵素を使用して相補的DNA(cDNA)のライブラリを作製する大規模逆転写PCR(RT-PCR)に使用することができ、これをさらに増幅および分析してRNAに対応する遺伝子発現を測定することができる。本明細書で提供されるシステムおよび方法の別の用途は、DNA結合色素および蛍光標識配列特異的プライマーまたはプローブを使用することによるリアルタイムPCR(qPCR)である。この実施態様では、蛍光検出モジュールを使用して、増幅が起こるにつれて各液滴内の蛍光シグナルを監視することができる。測定された蛍光はアンプリコンの総量に比例し、各液滴の蛍光の変化を経時的に監視して、各増幅サイクルで産生されるアンプリコンの量を計算することができる。
そのようなライブラリを設計および生成するための適切なシステムおよび方法は、2017年12月21日に出願された米国特許第10,650,312号、発明の名称「NUCLEIC ACID-BASED DATA STORAGE」(DNA中のデジタル情報の符号化を記載);2019年5月16日に米国特許出願第16/461,774号として出願され、米国特許出願公開第2019/0362814号として公開された、発明の名称「SYSTEMS FOR NUCLEIC ACID-BASED DATA STORAGE」(DNAベースのデータストーレージのための符号化方式を記載);2019年5月16日に米国特許出願第16/414,752号として出願され、米国特許出願公開第2019/0351673号として公開された、発明の名称「PRINTER-FINISHER SYSTEM FOR DATA STORAGE IN DNA」(符号化されたDNAのアセンブリのためのプリンターフィニッシャシステムを記載);2019年5月16日出願に米国特許出願第16/414,758号として出願され、米国特許出願公開第2020/0193301号として公開された、発明の名称「COMPOSITIONS AND METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」(DNAベースのデータストーレージのための高度なアセンブリ方法を記載);2019年8月5日に米国特許出願第16/532,077号として出願され、米国特許出願公開第2020/0185057号として公開された、発明の名称「SYSTEMS AND METHODS FOR STORING AND READING NUCLEIC ACID-BASED DATA WITH ERROR PROTECTION」(データ構造ならびにDNA符号化のためのエラー保護および訂正を記載);2020年5月11日に米国特許出願第16/872,129号と出願された、発明の名称「DATA STRUCTURES AND OPERATIONS FOR SEARCHING,COMPUTING,AND INDEXING IN DNA-BASED DATA STORAGE」(アクセス、ランク、および検索のためのデータ構造および演算を記載);ならびに2020年9月4日に米国特許出願第17/012,909号として出願された、発明の名称「CHEMICAL METHODS FOR NUCLEIC ACID-BASED DATA STORAGE」(符号化DNAアセンブリのための化学的方法を記載する)に記載されており、これらはそれぞれ、その全体が参照により本明細書に組み込まれる。
バイナリコードの形態のコンピュータデータ等のデジタル情報は、記号の配列または記号列を含むことができる。バイナリコードは、例えば、ビットと呼ばれる2つのバイナリ記号、典型的には0および1を有する二進数システムを使用して、テキストまたはコンピュータプロセッサ命令を符号化または表現することができる。デジタル情報は、一連の非バイナリ記号を含むことができる非バイナリコードの形態で表すことができる。各符号化記号は、固有のビット列(または「バイト」に再割り当てすることができ、固有のビット列またはバイトは、バイト列またはバイトストリームに配置することができる。所与のビットのビット値は、2つの記号(例えば、0または1)のうちの1つであり得る。Nビットの文字列を含むことができるバイトは、合計2個の一意のバイト値を有することができる。例えば、8ビットを含むバイトは、合計2または256の可能な一意のバイト値を生成することができ、256バイトの各々は、バイトで符号化することができる256の可能な別個の記号、文字、または命令のうちの1つに対応することができる。生データ(例えば、テキストファイルおよびコンピュータ命令)は、バイト列またはバイトストリームとして表すことができる。Zipファイル、または生データを含む圧縮データファイルをバイトストリームに格納することもでき、これらのファイルを圧縮形式のバイトストリームとして格納し、次いでコンピュータによって読み取られる前に生データに解凍することができる。
本開示の方法およびシステムを使用して、コンピュータデータまたは情報を複数の識別子に符号化することができ、その各々は元の情報の1またはそれを超えるビットを表すことができる。いくつかの例では、本開示の方法およびシステムは、各々が元の情報の2ビットを表す識別子を使用してデータまたは情報を符号化する。
デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基ごとの合成に依存しており、これは費用および時間がかかる可能性がある。代替方法は、効率を改善し、デジタル情報を符号化するための塩基ごとの核酸合成への依存を低減することによってデジタル情報記憶の商業的実行可能性を改善し、全ての新しい情報記憶要求に対する別個の核酸配列のデノボ合成を排除することができる。
新しい方法は、塩基ごとまたはデノボ核酸合成(例えば、ホスホラミダイト合成)に依存する代わりに成分の組み合わせ配置を含む複数の識別子または核酸配列においてデジタル情報(例えば、バイナリコード)を符号化することができる。このように、新しい戦略は、情報記憶の第1の要求のために第1のセットの別個の核酸配列(または成分)を生成することができ、その後、後続の情報記憶要求のために同じ核酸配列(または成分)を再使用することができる。これらのアプローチは、情報からDNAへの符号化および書き込みプロセスにおける核酸配列のde-novo合成の役割を減らすことによって、DNAベースの情報記憶のコストを大幅に削減することができる。さらに、各伸長核酸への各塩基の周期的送達を使用することができるホスホロアミダイト化学または鋳型フリーのポリメラーゼに基づく核酸伸長等の塩基ごとの合成の実施態様とは異なり、成分からの識別子構築を使用した情報-DNA書き込みの新しい方法は、必ずしも周期的核酸伸長を使用しない高度に並列化可能なプロセスである。したがって、新しい方法は、古い方法と比較して、デジタル情報をDNAに書き込む速度を高めることができる。
核酸配列(複数可)に情報を符号化および書き込むための方法
一態様では、本開示は、情報を核酸配列に符号化する方法を提供する。情報を核酸配列に符号化する方法は、(a)情報を記号列に変換することと、(b)記号列を複数の識別子にマッピングすることと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含み得る。複数の識別子の個々の識別子は、1またはそれを超える成分を含むことができる。1またはそれを超える成分の個々の成分は、核酸配列を含み得る。記号列内の各位置の各記号は、別個の識別子に対応することができる。個々の識別子は、記号列内の個々の位置における個々の記号に対応することができる。さらに、記号列内の各位置における1つの記号は、識別子の非存在に対応し得る。例えば、「0」および「1」のバイナリ記号(例えば、ビット)の文字列において、「0」の各出現は、識別子の非存在に対応し得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータ記憶のための方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成することと、(c)核酸配列を有する核酸分子を記憶することとを含み得る。コンピュータデータは、核酸分子の各々の配列ではなく、合成された核酸分子の少なくともサブセットに符号化されてもよい。
別の態様では、本開示は、核酸配列に情報を書き込み、格納するための方法を提供する。本方法は、(a)情報を表す仮想識別子ライブラリを受信または符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1またはそれを超える物理的コピーを1またはそれを超える別々の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、1またはそれを超える成分を含むことができる。1またはそれを超える成分の個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法を提供する。核酸ベースのコンピュータデータストーレージのための方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成することと、(c)少なくとも1つの核酸配列を含む核酸分子を格納することとを含み得る。核酸分子の合成は、塩基別核酸合成の非存在下であり得る。
別の態様では、本開示は、核酸配列に情報を書き込み、格納するための方法を提供する。核酸配列に情報を書き込み、格納するための方法は、(a)情報を表す仮想識別子ライブラリを受信または符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1またはそれを超える物理的コピーを1またはそれを超える別々の場所に格納することとを含み得る。識別子ライブラリの個々の識別子は、1またはそれを超える成分を含むことができる。1またはそれを超える成分の個々の成分は、核酸配列を含み得る。
図5は、情報を核酸配列に符号化し、核酸配列に情報を書き込み、核酸配列に書き込まれた情報を読み出し、読み出した情報を復号する概要処理を示す。デジタル情報またはデータは、1またはそれを超える記号列に変換することができる。一例では、記号はビットであり、各ビットは「0」または「1」のいずれかの値を有することができる。各記号は、その記号を表すオブジェクト(例えば、識別子)にマッピングまたは符号化され得る。各記号は、別個の識別子によって表され得る。別個の識別子は、成分から構成される核酸分子であり得る。成分は核酸配列であり得る。デジタル情報は、情報に対応する識別子ライブラリを生成することによって核酸配列に書き込まれ得る。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することによって物理的に生成することができる。デジタル情報の全てまたは任意の部分が一度にアクセスされてもよい。一例では、識別子のサブセットは識別子ライブラリからアクセスされる。識別子のサブセットは、識別子を配列決定し識別することによって読み取られ得る。識別された識別子は、デジタルデータを復号するためにそれらの対応する記号と関連付けられ得る。
図5の手法を使用して情報を符号化および読み取りするための方法は、例えば、ビットストリームを受信することと、識別子ランクまたは核酸インデックスを使用して、ビットストリーム内の各1ビット(「1」のビット値を有するビット)を別個の核酸識別子にマッピングすることとを含むことができる。1のビット値に対応する識別子のコピーを含む(0のビット値の識別子を除外する)核酸サンプルプールまたは識別子ライブラリの構築。サンプルを読み取ることは、分子生物学的方法(例えば、配列決定、ハイブリダイゼーション、PCR等)を使用することと、識別子ライブラリでどの識別子が表されているかを判定することと、それらの識別子に対応するビットに「1」のビット値および他の場所の「0」のビット値を割り当てて(ここでも識別子ランクを参照して、各識別子が対応する元のビットストリーム内のビットを識別する)、元の符号化ビットストリームに情報を復号することとを風組むことができる。
N個の別個のビットの文字列を符号化することは、可能な識別子として同数の固有の核酸配列を使用することができる。情報符号化に対するこの手法は、格納するために情報の新しい項目(Nビットの文字列)ごとの識別子(例えば、核酸分子)のde-novo合成を使用することができる。他の例では、新たな情報項目を符号化することが、識別子ライブラリを形成するために予め合成された(または予め作製された)識別子を機械的に選択および混合することを含むことができるように、格納すべき新たな情報項目ごとに識別子(N個またはそれ未満の数で同等)を新たに合成するコストは、1回のde-novo合成およびその後の全ての可能な識別子の保守によって低減することができる。他の例では、(1)格納すべき新たな情報項目ごとに最大N個の識別子をde-novo合成すること、または(2)格納すべき新たな情報項目ごとにN個の可能な識別子を維持および選択すること、またはそれらの任意の組み合わせの両方のコストは、多数(N未満、場合によってははるかにNより少ない)の核酸配列を合成および維持し、次いで酵素反応によってこれらの配列を改変して、格納すべき新たな情報項目ごとに最大N個の識別子を生成することによって低減され得る。
識別子は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために合理的に設計および選択され得る。識別子は、書き込みエラー、突然変異、劣化、および読み出しエラーを最小限に抑えるように設計および選択することができる。合成核酸ライブラリ(例えば、識別子ライブラリ)を含むDNA配列の合理的な設計については、化学的方法のセクションHを参照されたい。
図6Aおよび図6Bは、オブジェクトまたは識別子(例えば、核酸分子)においてデジタルデータを符号化する、「アドレスのデータ」と呼ばれる例示的な方法を概略的に示す。図6Aは、ビットストリームを識別子ライブラリに符号化することを示し、個々の識別子は、識別子ランクを指定する単一の成分をバイト値を指定する単一の成分と連結またはアセンブリすることによって構築される。一般に、アドレス方式のデータは、2つのオブジェクト、すなわち、バイト値を識別する1つのオブジェクト「バイト値オブジェクト」(または「データオブジェクト」)と、識別子ランク(または元のビットストリーム内のバイトの相対位置)を識別する1つのオブジェクト「ランク対象」(または「アドレスオブジェクト」)とを備えることによってモジュール式に情報を符号化する識別子を使用する。図6Bは、各ランクオブジェクトが成分のセットから組み合わせ的に構築され得、各バイト値オブジェクトが成分のセットから組み合わせ的に構築され得るアドレス指定方法におけるデータの一例を示す。ランクおよびバイト値オブジェクトのそのような組み合わせ構築は、オブジェクトが単一の成分のみから作成される場合(例えば、図6A)よりも多くの情報を識別子に書き込むことを可能にする。
図7Aおよび図7Bは、オブジェクトまたは識別子(例えば、核酸配列)においてデジタル情報を符号化する別の例示的な方法を概略的に示す。図7Aは、ビットストリームを識別子ライブラリに符号化することを示し、識別子は、識別子ランクを指定する単一の成分から構築される。特定のランク(またはアドレス)における識別子の存在は、「1」のビット値を指定し、特定のランク(またはアドレス)における識別子の非存在は、「0」のビット値を指定する。このタイプの符号化は、ランク(元のビットストリーム内のビットの相対位置)のみを符号化する識別子を使用し、識別子ライブラリ内のそれらの識別子の有無を使用して、それぞれ「1」または「0」のビット値を符号化することができる。情報を読み出して復号することは、識別子ライブラリに存在する識別子を識別することと、「1」のビット値をそれらの対応するランクに割り当てることと、「0」のビット値を他の場所に割り当てることとを含むことができる。図7Bは、各可能な組み合わせ構成がランクを指定するように、各識別子が成分のセットから組み合わせ的に構成され得る例示的な符号化方法を示す。そのような組み合わせ構成は、識別子が単一の成分のみから作成される場合(例えば、図7A)よりも多くの情報を識別子に書き込むことを可能にする。例えば、成分セットは、5つの別個の成分を含むことができる。5つの別個の成分は、各々が5つの成分のうちの2つを含む10個の別個の識別子を生成するようにアセンブリすることができる。10個の別個の識別子は各々、ビットストリーム内のビットの位置に対応するランク(またはアドレス)を有することができる。識別子ライブラリは、ビット値「1」の位置に対応する10個の可能な識別子のサブセットを含み、長さ10のビットストリーム内のビット値「0」の位置に対応する10個の可能な識別子のサブセットを除外することができる。
図8は、図8Aおよび図8B示された符号化方法を使用して所与の元のサイズの情報をビットで格納するために(D、輪郭線)、可能な識別子の組み合わせ空間(C、x軸)と物理的に構築される識別子の平均数(k、y軸)との間の関係のログ空間における等高線プロットを示す。このプロットは、サイズDの元の情報がCビットの文字列(CはDより大きい場合がある)に再符号化され、ビット数kが’1’のビット値を有すると仮定する。さらに、プロットは、再符号化されたビット列に対して情報対核酸符号化が実行され、ビット値が「1」である位置の識別子が構築され、ビット値が「0」である位置の識別子は構築されないと仮定する。仮定に従って、可能な識別子の組み合わせ空間は、再符号化されたビット列内の全ての位置を識別するためのサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log(Cchoosek)のようになり、Cchoosekは、C個の可能性からk個の順不同の結果を選ぶ方法の数の数式であり得る。したがって、可能な識別子の組み合わせ空間が所与の情報項目のサイズ(ビット単位)を超えて増加するにつれて、物理的に構築された識別子の数が減少して、所与の情報を格納するために使用され得る。
図9は、核酸配列に情報を書き込むための概観方法を示す。情報を書き込む前に、情報は記号列に変換され、複数の識別子に符号化されてもよい。情報を書き込むことは、可能な識別子を生成するために反応を設定することを含むことができる。反応は、投入を区画にデポジットすることによって設定され得る。投入は、核酸、成分、鋳型、酵素、または化学試薬を含み得る。区画は、ウェル、チューブ、表面上の位置、マイクロ流体デバイス内のチャンバ、またはエマルジョン内の液滴であってもよい。複数の反応を複数の区画に設定することができる。反応は、プログラムされた温度インキュベーションまたはサイクリングによって識別子を生成するために進行し得る。反応は、選択的または遍在的に除去され得る(例えば、削除される)。反応はまた、それらの識別子を1つのプールに集めるために、選択的または遍在的に中断され、統合され、精製され得る。複数の識別子ライブラリからの識別子は、同じプールに収集されてもよい。個々の識別子は、どの識別子ライブラリに属するかを識別するためのバーコードまたはタグを含むことができる。代替的に、またはそれに加えて、バーコードは、符号化された情報のためのメタデータを含むことができる。補助的な核酸または識別子もまた、識別子ライブラリと共に識別子プールに含まれ得る。補足的な核酸または識別子は、符号化された情報のためのメタデータを含むか、または符号化された情報を難読化または秘匿化するのに役立ち得る。
識別子ランク(例えば、核酸インデックス)は、識別子の順序を決定するための方法または鍵を備えることができる。本方法は、全ての識別子およびそれらの対応するランクを有するルックアップテーブルを含むことができる。本方法はまた、識別子を構成する全ての成分のランク有するルックアップテーブルと、それらの成分の組み合わせを含む任意の識別子の順序を決定するための関数とを含むことができる。そのような方法は、辞書式順序付けと呼ばれることがあり、辞書内の単語がアルファベット順に並べられる方法に類似することがある。アドレスにおけるデータ符号化方法では、(識別子のランクオブジェクトによって符号化された)識別子ランクを使用して、ビットストリーム内の(識別子のバイト値オブジェクトによって符号化された)バイトの位置を判定することができる。代替方法では、現在の識別子の(識別子自体全体によって符号化された)識別子ランクを使用して、ビットストリーム内の「1」のビット値の位置を判定することができる。
鍵は、サンプル内の識別子(例えば、核酸分子)の一意のサブセットに異なるバイトを割り当てることができる。例えば、単純な形態では、キーは、ビットの位置を指定する固有の核酸配列にバイト内の各ビットを割り当てることができ、次いで、サンプル内のその核酸配列の有無は、それぞれ1または0のビット値を指定することができる。核酸サンプルから符号化された情報を読み取ることは、配列決定、ハイブリダイゼーション、またはPCRを含む任意の数の分子生物学技術を含むことができる。いくつかの実施形態では、符号化データセットを読み取ることは、データセットの一部を再構築すること、または各核酸サンプルから符号化データセット全体を再構築することを含み得る。配列を読み取ることができる場合、核酸インデックスを固有の核酸配列の存在または非存在と共に使用することができ、核酸サンプルをビットストリーム(例えば、ビット、バイト、バイト(複数)の各文字列、またはバイト(複数)の文字列)に復号することができる。
識別子は、成分核酸配列を組み合わせてアセンブリすることによって構築され得る。例えば、情報は、分子の定義された群(例えば、組み合わせ空間)から核酸分子のセット(例えば、識別子)を取ることによって符号化され得る。定義された分子群の可能な各識別子は、層に分割され得る予め作製された成分のセットからの核酸配列(例えば、成分)のアセンブリであり得る。各個別の識別子は、全ての層から1つの成分を固定された順序で連結することによって構築されてもよい。例えば、M個の層があり、各層がn個の成分を有し得る場合、最大C=nの固有の識別子が構築され得、最大2の異なる情報項目、またはCビットが符号化され、格納され得る。例えば、メガビットの情報の記憶は、1×10個の別個の識別子またはサイズC=1×10の組み合わせ空間を使用することができる。この例の識別子は、異なる方法で編成された様々な成分からアセンブリすることができる。アセンブリは、それぞれがn=1×10の成分を含むM=2のプレハブ層から作製されてもよい。あるいは、アセンブリは、それぞれがn=1×10の成分を含有するM=3層から作製されてもよい。この例が示すように、より多数の層を使用して同じ量の情報を符号化することにより、成分の総数をより少なくすることができる。より少ない数の全成分を使用することは、書き込みコストの点で有利であり得る。
一例では、それぞれxおよびy成分(例えば、核酸配列)を有する2組のユニークな核酸配列または層XおよびYから始めることができる。Xからの各核酸配列を、Yからの各核酸配列にアセンブリすることができる。2つのセットで維持される核酸配列の総数はxとyの合計であり得るが、生成され得る核酸分子の総数、したがって可能な識別子はxとyの積であり得る。Xからの配列を任意の順序でYの配列にアセンブリすることができる場合、さらに多くの核酸配列(例えば、識別子)を生成することができる。例えば、生成される核酸配列(例えば、識別子)の数は、アセンブリ順序がプログラム可能である場合、xとyの積の2倍であり得る。生成され得る全ての可能な核酸配列のこのセットは、XYと呼ばれ得る。XYにおける固有核酸配列のアセンブリされた単位の順序は、別個の5’および3’末端を有する核酸を使用して制御することができ、配列の別個の5’および3’末端に関して制限消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)および配列決定が行われ得る。そのようなアプローチは、それらのアセンブリ製品の組み合わせおよび順序で情報を符号化することによって、N個の別個のビットを符号化するために使用される核酸配列(例えば、成分)の総数を減らすことができる。例えば、100ビットの情報を符号化するために、10個の異なる核酸分子(例えば、成分)の2つの層を固定された順序でアセンブリして10*10個または100個の異なる核酸分子(例えば、識別子)を生成してもよく、または5個の異なる核酸分子(例えば、成分)の1つの層および10個の異なる核酸分子(例えば、成分)の別の層を任意の順序でアセンブリして100個の異なる核酸分子(例えば、識別子)を生成してもよい。
各層内の核酸配列(例えば、成分)は、中央に、一方の末端に共通のハイブリダイゼーション領域を含み、他方の末端に別の共通のハイブリダイゼーション領域を含み得る。バーコードは、層内の全ての配列を一意に識別するのに十分な数のヌクレオチドを含み得る。例えば、典型的には、バーコード内の各塩基位置に対して4つの可能なヌクレオチドが存在する。したがって、三塩基バーコードは、4=64個の核酸配列を一意的に識別し得る。バーコードは、ランダムに生成されるように設計されてもよい。あるいは、バーコードは、識別子または配列決定の構築化学を複雑にする可能性がある配列を回避するように設計されてもよい。さらに、バーコードは、各々が他のバーコードからの最小ハミング距離を有することができるように設計されてもよく、それによって、塩基分解能突然変異または読み取りエラーがバーコードの適切な識別を妨げる可能性を低減する。DNA配列の合理的な設計については、化学的方法のセクションHを参照されたい。
核酸配列の一末端のハイブリダイゼーション領域(例えば、成分)は、各層で異なっていてもよいが、層内の各部材で同じであってもよい。近接する層は、それらが互いに相互作用することを可能にする相補的ハイブリダイゼーション領域をそれらの成分上に有する層である。例えば、層Xからの任意の成分は、相補的なハイブリダイゼーション領域を有し得るので、層Yからの任意の成分に結合することができ得る。反対側の末端のハイブリダイゼーション領域は、第1の末端のハイブリダイゼーション領域と同じ目的を果たし得る。例えば、層Yからの任意の成分は、一方の末端の層Xの任意の成分および反対側の末端の層Zの任意の成分に結合することができる。
図10Aおよび図10Bは、固定された順序で各層から別個の成分(例えば、核酸配列)を組み合わせてアセンブリすることによって識別子(例えば、核酸分子)を構築するための、「産物スキーム」と呼ばれる例示的な方法を示す。図10Aは、産物スキームを用いて構築された識別子の構造を示す。識別子は、各層からの単一の成分を固定された順序で組み合わせることによって構築されてもよい。各々がN個の成分を有するM個の層について、N個の可能な識別子がある。図10Bは、産物スキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。一例では、組み合わせ空間は、各々が3つの別個の成分を含む3つの層から生成され得る。各層からの1つの成分が固定された順序で組み合わされるように、成分が組み合わされてもよい。このアセンブリ方法の組み合わせ空間全体は、27個の可能な識別子を含むことができる。
図11~図14は、産物スキーム(図6参照)を実施するための化学的方法を示す。図11~図14に示す方法は、2またはそれを超える別個の成分を固定された順序でアセンブリするための任意の他の方法と共に、例えば、識別子ライブラリ内の任意の1またはそれを超える識別子を生成するために使用され得る。識別子は、本明細書に開示されている方法またはシステムの間の任意の時点で、図11~図14に記載される実施方法のいずれかを使用して構築され得る。場合によっては、可能な識別子の組み合わせ空間の全てまたは一部は、デジタル情報が符号化または書き込まれる前に構築されてもよく、その後、書き込みプロセスは、既存のセットから(情報を符号化する)識別子を機械的に選択およびプールすることを含んでもよい。他の例では、識別子は、データ符号化または書き込みプロセスの1またはそれを超える工程が発生した後(すなわち、情報が書き込まれているとき)に構築されてもよい。
酵素反応を使用して、異なる層またはセットから成分をアセンブリすることができる。各層の成分(例えば、核酸配列)は、近接する層の成分のための特異的なハイブリダイゼーションまたは結合領域を有するので、ワンポット反応でアセンブリが起こり得る。例えば、層Xからの核酸配列(例えば、成分)X1、層Yからの核酸配列Y1、および層Zからの核酸配列Z1は、集合した核酸分子(例えば、識別子)X1Y1Z1を形成し得る。さらに、各層から複数の核酸配列を含めることによって、複数の核酸分子(例えば、識別子)を1回の反応でアセンブリすることができる。例えば、前の例のワンポット反応にY1およびY2の両方を含めると、2つの集合生成物(例えば、識別子)、X1Y1Z1およびX1Y2Z1が得られ得る。この反応多重化は、物理的に構築された複数の識別子の書き込み時間を高速化するために使用され得る。アセンブリ効率に関するDNA配列の合理的な設計についての詳細については、化学的方法のセクションHを参照されたい。核酸配列のアセンブリは、約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間または1時間以下の期間で行われ得る。符号化データの精度は、少なくとも約90%、95%、96%、97%、98%、99%またはそれを超えてもよい。
識別子は、図11に示すように、重複伸長ポリメラーゼ連鎖反応(OEPCR)を使用して産物スキームに従って構築することができる。各層中の各成分は、近接する層からの成分の配列末端上の共通のハイブリダイゼーション領域に相同および/または相補的であり得る配列末端上の共通のハイブリダイゼーション領域を有する二本鎖または一本鎖(図に示す)核酸配列を含み得る。個々の識別子は、成分X-Xを含む層X(または層1)からの1つの成分(例えば、ユニーク配列)、Y-Yを含む層Y(または層2)からの第2の成分(例えば、ユニーク配列)、およびZ-Zを含む層Z(または層3)からの第3の成分(例えば、ユニーク配列)を連結することによって構築され得る。層Xからの成分は、層Yからの成分上の3’末端と相補性を共有する3’末端を有し得る。したがって、層XおよびYからの一本鎖成分は、3’末端で一緒にアニーリングされ得、PCRを使用して伸長されて二本鎖核酸分子を生成し得る。生成された二本鎖核酸分子を溶融して、層Zからの成分の3’末端と相補性を共有する3’末端を生成することができる。層Zからの成分は、生成された核酸分子とアニールされてもよく、層X、Y、およびZからの単一成分を固定された順序で含む固有の識別子を生成するように拡張されてもよい。OEPCRについては、化学的方法のセクションAを参照されたい。最も外側の層に隣接するプライマーを用いたDNAサイズ選択(例えば、ゲル抽出を用いて、化学的方法のセクションEを参照されたい)またはポリメラーゼ連鎖反応(PCR)(化学的方法のセクションDを参照されたい)を実施して、反応で形成され得る他の副生成物から完全にアセンブリされた識別子生成物を単離することができる。2つの最外層の各々に1つずつの2つのプローブによる連続的な核酸捕捉もまた、完全にアセンブリされた識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る(化学的方法のセクションFを参照されたい)。
識別子は、図12に示すように、粘着末端ライゲーションを使用して産物スキームに従ってアセンブリすることができる。一本鎖3’オーバーハングを有する二本鎖成分(例えば、二本鎖DNA(dsDNA))をそれぞれ含む3つの層を使用して、別個の識別子をアセンブリすることができる。例えば、成分X-Xを含む層X(または層1)からの1つの成分、Y-Yを含む層Y(または層2)からの第2の成分、およびZ-Zを含む層Z(または層3)からの第3の成分を含む識別子である。層Xからの成分を層Yからの成分と組み合わせるために、層Xの成分は共通の3’オーバーハングを含むことができ、図12ではaとラベル付けされ、層Yの成分は共通の相補的な3’オーバーハングa*を含むことができる。層Yからの成分を層Zからの成分と組み合わせるために、層Yの要素は共通の3’オーバーハングを含むことができ、図12ではbとラベル付けされ、層Zの要素は共通の相補的な3’オーバーハングb*を含むことができる。層X成分の3’オーバーハングは層Y成分の3’末端と相補的であり得、層Y成分の他の3’オーバーハングは層Z成分の3’末端と相補的であり得、成分がハイブリダイズしライゲーションすることを可能にする。したがって、層Xからの成分は、層Xまたは層Zからの他の成分とハイブリダイズすることができず、同様に、層Yからの成分は、層Yからの他の元素とハイブリダイズすることができない。さらに、層Yからの単一の成分は、層Xの単一の成分および層Zの単一の成分にライゲーションすることができ、完全な識別子の形成を確実にする。粘着末端ライゲーションについては、化学的方法のセクションBを参照されたい。最も外側の層に隣接するプライマーを用いたDNAサイズ選択(例えば、ゲル抽出を用いて、化学的方法のセクションEを参照されたい)またはポリメラーゼ連鎖反応(PCR)(化学的方法のセクションDを参照されたい)を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。2つの最外層の各々に1つずつの2つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る(化学的方法のセクションFを参照されたい)。
粘着末端ライゲーションのための粘着末端は、各層の成分を制限エンドヌクレアーゼで処理することによって生成され得る(制限酵素反応についてのより多くの情報については化学的方法のセクションCを参照されたい)。いくつかの実施形態では、複数の層の成分は、成分の1つの「親」セットから生成されてもよい。例えば、二本鎖成分の単一の親セットが各末端に相補的制限部位(例えば、BamHIおよびBglIIの制限部位)を有し得る実施形態。任意の2つの成分をアセンブリのために選択し、1つまたは他の相補的制限酵素(例えば、BglIIまたはBamHI)で個別に消化して、互いにライゲーションされて不活性瘢痕をもたらすことができる相補的な粘着末端をもたらすことができる。産物核酸配列は、各末端に相補的制限部位を含み得(例えば、5’末端のBamHIおよび3’末端のBglII)、同じプロセスに従って親セットからの別の成分にさらにライゲーションされ得る。このプロセスは、無期限にサイクルし得る(図24)。親がN個の成分を含む場合、各サイクルは、N個の成分の追加の層を産物スキームに追加することと同等であり得る。
セットXからの要素(例えば、dsDNAのセット1)およびセットYからの要素(例えば、dsDNAのセット2)を含む核酸配列を構築するためにライゲーションを使用する方法は、第1のセット(例えば、dsDNAのセット1)が粘着末端(例えば、)を含み、第2のセット(例えば、dsDNAのセット2)が第1のセットの粘着末端に相補的な粘着末端(例えば、a*)を含む、二本鎖配列の2またはそれを超えるプール(例えば、dsDNAのセット1およびdsDNAのセット2)を得るまたは構築する工程を含み得る。第1のセット(例えば、dsDNAのセット1)からの任意のDNAおよび第2のセット(例えば、dsDNAのセット2)からの任意のDNAサブセットを組み合わせ、アセンブリし、次いで一緒にライゲーションして、第1のセットからの要素および第2のセットからの要素を有する一本鎖二本鎖DNAを形成することができる。
識別子は、図13に示すように、部位特異的組換えを使用して産物スキームに従ってアセンブリすることができる。識別子は、3つの異なる層から成分をアセンブリすることによって構築されてもよい。層X(または層1)の成分は、分子の片側にattBリコンビナーゼ部位を有する二本鎖分子を含み得、層Y(または層2)の成分は、片側にattPリコンビナーゼ部位を有し、反対側にattBリコンビナーゼ部位を有する二本鎖分子を含み得、層Z(または層3)の成分は、分子の片側にattPリコンビナーゼ部位を含み得る。対内のattBおよびattP部位は、それらの添字によって示されるように、それらの対応するリコンビナーゼ酵素の存在下で再結合することができる。各層からの1つの成分は、層Xからの1つの成分が層Yからの1つの成分と会合し、層Yからの1つの成分が層Zからの1つの成分と会合するように組み合わされてもよい。1またはそれを超えるリコンビナーゼ酵素の適用は、成分を再結合して、順序付けられた成分を含む二本鎖識別子を生成し得る。DNAサイズ選択(例えば、ゲル抽出による)または最も外側の層に隣接するプライマーを用いたPCRを実施して、反応で形成され得る他の副生成物から識別子産物を単離することができる。一般に、複数の直交するattBおよびattPの対を使用することができ、各対を使用して余分な層から成分をアセンブリすることができる。リコンビナーゼのラージセリンファミリーの場合、リコンビナーゼごとに最大6つの直交するattBおよびattP対を生成することができ、複数の直交するリコンビナーゼも実装することができる。例えば、BxbIおよびPhiC31等の2つの大きなセリンリコンビナーゼのそれぞれからの12個の直交するattBおよびattP対、6個の直交する対を使用することによって、13個の層をアセンブリすることができる。attBおよびattP対の直交性は、ある対からのattB部位が別の対からのattP部位と反応しないことを保証する。これにより、異なる層からの成分を固定された順序でアセンブリすることが可能になる。リコンビナーゼ媒介組換え反応は、実施されるリコンビナーゼシステムに応じて可逆的または不可逆的であり得る。例えば、大きなセリンリコンビナーゼファミリーは、高エネルギー補因子を必要とせずに不可逆的な組換え反応を触媒し、一方、チロシンリコンビナーゼファミリーは可逆的反応を触媒する。
識別子は、図14Aに示されるように、鋳型指向性ライゲーション(TDL)を使用する産物スキームに従って構築され得る。鋳型指向性ライゲーションは「鋳型」または「ステープル」と呼ばれる一本鎖核酸配列を利用して、識別子を形成するための成分の順序付きライゲーションを容易にする。鋳型は、近接する層からの成分に同時にハイブリダイズし、リガーゼがそれらをライゲーションしながらそれらを互いに近接して保持する(3’末端対5’末端)。図14Aの例では、3つの層または一本鎖成分のセットが組み合わされている。配列a*に相補的な共通の配列aをその3’末端に共有する成分の第1の層(例えば、層Xまたは層1);配列b*およびc*に相補的な共通の配列bおよびcをそれらの5’および3’末端でそれぞれ共有する成分の第2の層(例えば、層Yまたは層2);配列d*と相補的であり得る共通の配列dをそれらの5’末端で共有する成分の第3の層(例えば、層Zまたは層3);第1のステープルが配列a*b*(5’から3’)を含み、第2のステープルが配列c*d*(’5から3’)を含む、2つの鋳型または「ステープル」のセット。この例では、各層からの1またはそれを超える成分を選択し、ステープルとの反応に混合することができ、これは相補的アニーリングによって、識別子を形成するために規定された順序で各層からの1つの成分のライゲーションを容易にすることができる。TDLについては化学的方法のセクションBを参照されたい。最も外側の層に隣接するプライマーを用いたDNAサイズ選択(例えば、ゲル抽出を用いて、化学的方法のセクションEを参照されたい)またはポリメラーゼ連鎖反応(PCR)(化学的方法のセクションDを参照されたい)を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。2つの最外層の各々に1つずつの2つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る(化学的方法のセクションFを参照されたい)。
図14Bは、それぞれが6層TDLでアセンブルされた256個の異なる核酸配列のコピー数(存在量)のヒストグラムを示す。エッジ層(第1および最終層)はそれぞれ1つの成分を有し、内層(残りの4つの層)はそれぞれ4つの成分を有していた。各エッジ層の成分は、10塩基のハイブリダイゼーション領域を含む28塩基であった。各内層成分は、5’末端に10塩基の共通のハイブリダイゼーション領域、10塩基の可変(バーコード)領域および3’末端に10塩基の共通のハイブリダイゼーション領域を含む30塩基であった。3本の鋳型鎖の各々は20塩基長であった。256個全ての異なる配列を、全ての成分および鋳型、T4ポリヌクレオチドキナーゼ(成分をリン酸化するため)、ならびにT4リガーゼ、ATP、および他の適切な反応試薬を含有する一反応物を用いて多重様式でアセンブリした。反応物を37℃で30分間、次いで室温で1時間インキュベートした。PCRを用いて配列決定アダプタを反応産物に加え、Illumina MiSeq装置を用いて産物を配列決定した。192910個の総アセンブルされた配列リードの中の各別個のアセンブルされた配列の相対コピー数を示す。この方法の他の実施形態は、二本鎖成分を使用することができ、成分は最初に溶融されてステープルにアニールすることができる一本鎖バージョンを形成する。この方法の他の実施形態または派生物(すなわち、TDL)を使用して、産物スキームで達成され得るものよりも複雑な識別子の組み合わせ空間を構築することができる。
識別子は、ゴールデンゲートアセンブリ、ギブソンアセンブリ体、およびリガーゼサイクル反応アセンブリを含む様々な他の化学的実施態様を使用して、産物スキームに従って構築され得る。
図15Aおよび図15Bは、並べ替えられた成分(例えば、核酸配列)を用いて識別子(例えば、核酸分子)を構築するための、「順列置換スキーム」と呼ばれる例示的な方法を概略的に示している。図15Aは、順列置換スキームを用いて構築された識別子の構造を示す。識別子は、各層からの単一の成分をプログラム可能な順序で組み合わせることによって構築することができる。図15Bは、順列置換スキームを使用して構築され得る識別子の組み合わせ空間の一例を示す。一例では、サイズ6の組み合わせ空間は、各々が1つの別個の成分を含む3つの層から生成され得る。成分は任意の順序で連結されてもよい。一般に、各々がN個の成分を有するM個の層では、順列置換スキームはNM!個の総識別子の組み合わせ空間を可能にする。
図15Cは、鋳型指向ライゲーション(TDL、化学的方法のセクションBを参照されたい)による順列置換スキームの例示的な実施態様を示す。複数の層から成分は、エッジスキャフォールドと呼ばれる固定された左末端成分と右末端成分との間にアセンブリされる。これらのエッジスキャフォールドは、組み合わせ空間内の全ての識別子について同じであり、したがって、実施のための反応マスターミックスの一部として添加され得る。鋳型またはステープルは、異なる層からの成分が反応において識別子に組み込まれる順序が反応のために選択された鋳型に依存するように、任意の2つの層またはスキャフォールド間の任意の可能な接合部のために存在する。M層の層の任意の可能な順列を可能にするために、全ての可能な接合部(スキャフォールドとの接合部を含む)に対してM+2Mの別個の選択可能なステープルがあり得る。これらの鋳型のうちのM個(灰色で網掛け)は、層とそれ自体との間の接合部を形成し、本明細書中に記載されるような順列アセンブリの目的のために除外され得る。しかしながら、それらの包含は、図15D~図15Gに示されるような繰り返し成分を含む識別子を有するより大きな組み合わせ空間を可能にすることができる。最も外側の層に隣接するプライマーを用いたDNAサイズ選択(例えば、ゲル抽出を用いて、化学的方法のセクションEを参照されたい)またはポリメラーゼ連鎖反応(PCR)(化学的方法のセクションDを参照されたい)を実施して、反応で形成され得る他の副生成物から識別子生成物を単離することができる。2つの最外層の各々に1つずつの2つのプローブによる連続的な核酸捕捉もまた、識別子生成物を反応で形成し得る他の副生成物から単離するために実施され得る(化学的方法のセクションFを参照されたい)。
図15D~図15Gは、成分が繰り返される識別子の特定のインスタンスを含むように順列置換スキームがどのように拡張され得るかの例示的な方法を示す。図15Dは、図15Cの実施態様を使用して、並び替えられた成分および繰り返された成分を有する識別子を構築する方法の一例を示す。例えば、識別子は、2つの別個の成分からアセンブリされた3つの合計成分を含むことができる。この例では、層からの成分は、識別子内に複数回存在し得る。同じ成分の近接する連結は、図のa*b*(5’から3’)ステープルのような、同じ成分の3’末端および5’末端の両方に近接する相補的ハイブリダイゼーション領域を有するステープルを使用することによって達成され得る。一般に、M個の層の場合、M個のそのようなステープルがある。この実施態様に繰り返し成分を組み込むことにより、図15Eに示されるように、エッジスキャフォールドの間に構築される2つ以上の長さ(すなわち、1つ、2つ、3つ、4つ、またはそれを超える成分を含む)の核酸配列が生成され得る。図15Eは、図15Dからの例示的な実施態様が、エッジスキャフォールド間でアセンブリされる識別子以外の非標的核酸配列をどのようにもたらし得るかを示す。適切な識別子は、それらがエッジ上で同じプライマー結合部位を共有するので、PCRを用いて非標的核酸配列から単離することができない。しかし、この例では、各構築された核酸配列は固有の長さ(例えば、全ての成分が同じ長さを有する場合)を有するように設計することができるため、DNAサイズ選択(例えば、ゲル抽出を用いて)を実施して非標的配列から標的化識別子(例えば、上から2番目の配列)を単離することができる。サイズ選択については、化学的方法のセクションEを参照されたい。図15Fは、反復成分を用いて識別子を構築することにより、同じ反応において等しいエッジ配列を有するが異なる長さを有する複数の核酸配列を生成し得る別の例を示す。この方法では、1つの層の成分を他の層の成分と交互のパターンでアセンブリする鋳型を使用することができる。図15Eに示す方法と同様に、サイズ選択を使用して、設計された長さの識別子を選択することができる。図15Gは、反復成分を用いて識別子を構築することにより、等しいエッジ配列およびいくつかの核酸配列(例えば、上から3番目と4番目、上から6番目と7番目)に対して等しい長さを有する複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、PCRおよびDNAサイズ選択が実施されたとしても、他方を構築せずに一方を構築することは不可能であり得るため、両方の個々の識別子から除外され得る。
図16A~図16Dは、より多数のM個の可能な成分のうちの任意の数K個のアセンブリされた成分(例えば、核酸配列)の識別子(例えば、核酸分子)を構築するための、「MchooseKスキーム」と呼ばれる例示的な方法を概略的に示す。図16Aは、MchooseKスキームを用いて構築された識別子の構造を示す。この方法を使用して、識別子は、全ての層(例えば、M個の可能な層のうちのk個の層から成分を選択する)の任意のサブセット内の各層から1つの成分をアセンブリすることによって構築される。図16Bは、MchooseKスキームを用いて構築され得る識別子の組み合わせ空間の例を例示する。このアセンブリ方式では、組み合わせ空間は、M個の層に対してNMchooseK個の可能な識別子、層ごとのN個の成分、およびK個の成分の識別子長さを含むことができる。一例では、各々が1つの成分を含む5つの層がある場合、各々が2つの成分を含む最大10個の別個の識別子をアセンブリすることができる。
MchooseKスキームは、図16Cに示されるように、鋳型指向性ライゲーション(化学的方法のセクションBを参照されたい)を使用して実施され得る。順列置換スキーム(図15C)のためのTDL実施態様と同様に、この例における成分は、反応マスターミックスに含まれていても含まれていなくてもよいエッジスキャフォールドの間にアセンブリされる。成分は、M個の層、例えば、2からMまでの所定のランクを有するM=4個の層に分割されてもよく、左端スキャフォールドはランク1であってもよく、右端スキャフォールドはランクM+1であってもよい。鋳型は、それぞれ低いランクから高いランクまでの任意の2つの成分の3’から5’へのライゲーションのための核酸配列を含む。そのような鋳型は((M+1)+M+1)/2個存在する。別個の層からの任意のK個の成分の個々の識別子は、ライゲーション反応においてそれらの選択された成分を、K個の成分をエッジスキャフォールドと共にそれらのランク順に運ぶために使用される対応するK+1ステープルと組み合わせることによって構築され得る。そのような反応セットアップは、エッジスキャフォールド間の標的識別子に対応する核酸配列をもたらし得る。あるいは、全ての鋳型を含む反応混合物を選択成分と組み合わせて、標的識別子をアセンブリすることができる。この代替方法は、図16Dに示すように、同じエッジ配列を有するが異なる長さ(全ての成分の長さが等しい場合)を有する様々な核酸配列を生成し得る。標的識別子(下)は、サイズによって副生成物核酸配列から単離され得る。核酸サイズ選択については、化学的方法のセクションEを参照されたい。
図17Aおよび図17Bは、分割された成分を有する識別子を構築するための「パーティション方式」と呼ばれる例示的な方法を概略的に示す。図17Aは、パーティション方式を使用して構築され得る識別子の組み合わせ空間の一例を示す。個々の識別子は、異なる層の任意の2つの成分の間に任意のパーティション(特別に分類された成分)を必要に応じて配置して、固定された順序で各層から1つの成分をアセンブリすることによって構築することができる。例えば、成分のセットは、1つのパーティション成分と、各々が1つの成分を含む4つの層とに編成することができる。各層からの成分は、固定された順序で組み合わされてもよく、単一のパーティション成分は、層間の様々な位置にアセンブリされてもよい。この組み合わせ空間内の識別子は、8つの可能な識別子の組み合わせ空間を作るために、パーティション成分、第1および第2の層からの成分間のパーティション成分、第2および第3の層からの成分間のパーティション等を含まなくてもよい。一般に、各々がN個の成分を有するM個の層およびp個のパーティション成分を用いて、構築され得るN(p+1)M-1個の可能な識別子が存在する。この方法は、様々な長さの識別子を生成することができる。
図17Bは、鋳型指向性ライゲーションを使用したパーティションスキームの例示的な実施態様を示す(化学的方法のセクションBを参照されたい)。鋳型は、M層の各々からの1つの成分を固定された順序で一緒に連結するための核酸配列を含む。各パーティション成分について、パーティション成分が任意の2つの近接する層からの成分間にライゲーションすることを可能にする鋳型のさらなる対が存在する。例えば、対中の1つの鋳型(例えば、配列g*b*(5’から3’)を有する)が、層1の3’末端(配列bを有する)をパーティション成分の5’末端(配列gを有する)にライゲーションすることを可能にし、対中の第2の鋳型(例えば、配列c*h*(5’から3’)を有する)が、パーティション成分の3’末端(配列hを有する)を層2の5’末端(配列cを有する)にライゲーションすることを可能にするような鋳型の対。近接する層の任意の2つの成分間にパーティションを挿入するために、それらの層を一緒に連結するための標準的な鋳型を反応において除外することができ、その位置のパーティションをライゲーションするための鋳型対を反応において選択してもよい。本実施例では、層1と層2との間のパーティション成分を標的とするために、鋳型c*b*(5’から3’)ではなく、対の鋳型c*h*(5’から3’)およびg*b*(5’から3’)を使用して反応を選択することができる。成分は、反応混合物(第1および第Mの層にそれぞれライゲーションするためのそれらの対応する鋳型と共に、)に含まれ得るエッジスキャフォールドの間でアセンブリされ得る。一般に、合計約M-1+2*p*(M-1)個の選択可能な鋳型が、M個の層およびp個のパーティション成分のためのこの方法に使用され得る。パーティションスキームのこの実施態様は、同じエッジ配列であるが異なる長さを有する反応において様々な核酸配列を生成し得る。標的識別子は、DNAサイズ選択によって副生成物核酸配列から単離され得る。具体的には、正確にM個の層成分を有する正確に1つの核酸配列産物が存在し得る。層成分がパーティション成分比較して十分に大きく設計されている場合、汎用サイズ選択領域を定義することが可能であり得、識別子内の成分の特定のパーティションに関係なく識別子(および非標的副生成物のいずれもない)を選択することができ、それにより、複数の反応からの複数のパーティション化された識別子を同じサイズ選択工程で分離することが可能になる。核酸サイズ選択については、化学的方法のセクションEを参照されたい。
図18Aおよび図18Bは、いくつかの可能な成分から成分の任意の列からなる識別子を構築するための、「無制限文字列スキーム」または「USS」と呼ばれる例示的な方法を概略的に示す。図18Aは、無制限文字列スキームを使用して構築され得る3成分(または4スキャフォールド)の長さ識別子の組み合わせ空間の一例を示す。無制限文字列スキームは、各々が1またはそれを超える層から取られた1またはそれを超える別個の成分を有する長さKの成分の個々の識別子を構築し、各別個の成分は、識別子内のK個の成分位置のいずれかに現れることができる(繰り返しを可能にする)。例えば、各々が1つの成分を含む2つの層について、8つの可能な3成分長識別子がある。一般に、各々が1つの成分を有するM個の層では、長さKの成分のM個の可能な識別子がある。図18Bは、鋳型指向性ライゲーションを使用する無制限文字列スキームの例示的な実施態様を示す(化学的方法のセクションBを参照されたい)。この方法では、K+1の一本鎖および秩序化スキャフォールドDNA成分(2つのエッジスキャフォールドおよびK-1の内部スキャフォールドを含む)が反応混合物中に存在する。個々の識別子は、近接するスキャフォールドの全ての対の間にライゲーションされた単一の成分を含む。例えば、スキャフォールドAとスキャフォールドBとの間にライゲーションされた成分、スキャフォールドCとスキャフォールドDとの間にライゲーションされた成分等が、K個全ての近接するスキャフォールド接合部が成分によって占有されるまで続く。反応では、異なる層から選択された成分が、適切なスキャフォールド上にアセンブリするようにそれらに指示するステープルの選択された対と共にスキャフォールドに導入される。例えば、一対のステープルa*L*(5’から3’)およびA*b*(5’から3’)は、LスキャフォールドとAスキャフォールドとの間にライゲーションするように、5’末端領域「a」および3’末端領域「b」を有する層1成分を導く。一般に、M層およびK+1スキャフォールドでは、2*M*Kの選択可能なステープルを使用して、長さKの任意のUSS識別子を構築することができる。成分をスキャフォールドに5’末端で接続するステープルは、同じ成分をスキャフォールドに3’末端で接続するステープルから分離しているので、核酸副生成物は、標的識別子として等しいエッジスキャフォールドを有するが、K個未満の成分(K+1個未満のスキャフォールド)またはK個を超える成分(K+1個を超えるスキャフォールド)を有する反応で形成され得る。標的化された識別子は、正確にK個の成分(K+1スキャフォールド)で形成され得、したがって、全ての成分が長さが等しくなるように設計され、全てのスキャフォールドが長さが等しくなるように設計されている場合、DNAサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては、化学的方法のセクションEを参照されたい。層ごとに1つの成分が存在し得る無制限文字列スキームの特定の実施形態では、その成分は、(1)識別バーコード、(2)5’末端のスキャフォールドへのステープル媒介ライゲーションのためのハイブリダイゼーション領域、および(3)3’末端のスキャフォールドへのステープル媒介ライゲーションのためのハイブリダイゼーション領域の3つの役割全てを満たす単一の別個の核酸配列のみを含み得る。
図18Bに示す内部スキャフォールドは、成分へのスキャフォールドのステープル媒介5’ライゲーションおよび別の(必ずしも別個ではない)成分へのスキャフォールドのステープル媒介3’ライゲーションの両方に同じハイブリダイゼーション配列を使用するように設計され得る。したがって、図18Bに示される1スキャフォールド、2ステープル積層ハイブリダイゼーション事象は、スキャフォールドとステープルのそれぞれとの間に生じる統計的な往復ハイブリダイゼーション事象を表し、したがって5’成分ライゲーションおよび3’成分ライゲーションの両方を可能にする。無制限文字列スキームの他の実施形態では、スキャフォールドは、2つのライゲーションされたハイブリダイゼーション領域、すなわちステープル媒介3’ライゲーションのための別個の3’ハイブリダイゼーション領域およびステープル媒介5’ライゲーションのための別個の5’ハイブリダイゼーション領域を用いて設計され得る。
図19Aおよび図19Bは、親識別子から核酸配列(または成分)を削除することによって識別子を構築するための、「成分削除スキーム」と呼ばれる例示的な方法を概略的に示す。図19Aは、成分削除スキームを使用して構築され得る可能な識別子の組み合わせ空間の一例を示す。この例では、親識別子は複数の成分を含み得る。親識別子は、約2、3、4、5、6、7、8、9、10、20、30、40、50またはそれを超える成分を含み得る。個々の識別子は、N個の可能な成分から任意の数の成分を選択的に削除してサイズ2の「全」組み合わせ空間をもたらすことによって、またはN個の可能な成分から固定数のK個の成分を削除してサイズNchooseKの「NchooseK」組み合わせ空間をもたらすことによって構築され得る。3つの成分を有する親識別子を有する例では、完全な組み合わせ空間は8であり得、3choose2の組み合わせ空間は3であり得る。
図19Bは、二本鎖標的化切断および修復(DSTCR)を使用する成分欠失スキームの例示的な実施態様を示す。親配列は、ヌクレアーゼ特異的標的部位(4塩基長またはそれ未満であり得る)に隣接する成分を含む一本鎖DNA基質であり得、親は、標的部位に対応する1またはそれを超える二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。個々の成分は、親の成分DNA(および隣接するヌクレアーゼ部位)に結合する相補的一本鎖DNA(または切断鋳型)による欠失を標的とすることができ、したがって、ヌクレアーゼによって両末端で切断され得る安定な二本鎖配列を親に形成する。別の一本鎖DNA(または修復鋳型)は、親の得られた不連続末端(その間に成分があった)にハイブリダイズし、直接または置換配列によって架橋されたライゲーションのためにそれらを一緒にして、親上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないようにする。本発明者らは、この方法を「二本鎖標的切断」(DSTC)と呼ぶ。サイズ選択は、特定の数の削除された成分を有する識別子を選択するために使用され得る。核酸サイズ選択については、化学的方法のセクションEを参照されたい。
代替的に、またはそれに加えて、親識別子は、2つの成分が同じ配列に隣接しないようにスペーサー配列によって分離された成分を含む二本鎖または一本鎖核酸基質であり得る。親識別子をCas9ヌクレアーゼと共にインキュベートすることができる。個々の成分は、その成分のエッジに結合し、その隣接部位でCas9媒介性切断を可能にするガイドリボ核酸(切断鋳型)による欠失の標的とされ得る。一本鎖核酸(修復鋳型)は、親識別子(例えば、成分配列が存在していた末端の間)の得られた不連続末端にハイブリダイズし、それによってそれらをライゲーションのため共に架橋し得る。ライゲーションは、親上のライゲーションされた配列がもはやCas9によって標的化され得るスペーサー配列を含まないように、直接または置換配列で末端を架橋することによって行われ得る。本発明者らは、この方法を「配列特異的標的切断および修復」または「SSTCR」と呼ぶ。
識別子は、DSTCRの誘導体を使用して親識別子に成分を挿入することによって構築することができる。親識別子は、それぞれが異なる核酸配列内に埋め込まれたヌクレアーゼ特異的標的部位(4塩基長またはそれ未満であり得る)を含む一本鎖核酸基質であり得る。親識別子は、標的部位に対応する1またはそれを超える二本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子上の個々の標的部位は、標的部位および親識別子上の別個の周囲核酸配列に結合し、したがって二本鎖部位を形成する相補的一本鎖核酸(切断鋳型)による成分挿入のために標的化され得る。二本鎖部位は、ヌクレアーゼによって切断され得る。別の一本鎖核酸(修復鋳型)は、親識別子の得られた不連続末端にハイブリダイズし、親上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないように、ライゲーションのためにそれらを共に成分配列によって架橋することができる。あるいは、SSTCRの誘導体を使用して、成分を親識別子に挿入することができる。親識別子は二本鎖または一本鎖核酸であり得、親はCas9ヌクレアーゼと共にインキュベートされ得る。親識別子上の別個の部位は、ガイドRNA(切断鋳型)による切断のために標的化され得る。一本鎖核酸(修復鋳型)は、親識別子の不連続末端にハイブリダイズし、親識別し上のライゲーションされた配列がもはや活性なヌクレアーゼ標的部位を含まないように、ライゲーションのためにそれらを共に成分配列によって架橋することができる。サイズ選択を使用して、特定の数の成分挿入を有する識別子を選択することができる。
図20は、リコンビナーゼ認識部位を有する親識別子を概略的に示す図である。異なるパターンの認識部位は、異なるリコンビナーゼによって認識され得る。リコンビナーゼの所与のセットに対する全ての認識部位は、リコンビナーゼが適用された場合にその間の核酸が切除され得るように配置される。図20に示す核酸鎖は、それに適用されるリコンビナーゼのサブセットに応じて2=32の異なる配列を採用することができる。いくつかの実施形態では、図20に示すように、リコンビナーゼを使用してDNAのセグメントを切り出し、シフトさせ、反転させ、および転移させて、異なる核酸分子を作製することにより、固有の分子を生成することができる。一般に、N個のリコンビナーゼでは、親から構築された2個の可能な識別子が存在し得る。いくつかの実施形態では、異なるリコンビナーゼからの認識部位の複数の直交する対は、1つのリコンビナーゼの適用が、下流のリコンビナーゼが適用されたときに生じる組換え事象のタイプに影響を及ぼすように、重複する様式で親識別子上に配置され得る(参照により本明細書に完全に組み込まれる、Roquet et al.,Synthetic recombinase-based state machines in living cells,Science 353(6297):aad8559(2016)を参照されたい)。そのようなシステムは、N個のリコンビナーゼ、N!の順序ごとに異なる識別子を構築することが可能であり得る。リコンビナーゼは、FlpおよびCre等のチロシンファミリー、またはPhiC31、BxbI、TP901もしくはA118等の大きなセリンリコンビナーゼファミリーであり得る。大きなセリンリコンビナーゼファミリーからのリコンビナーゼの使用は、不可逆的な組換えを促進し、したがって他のリコンビナーゼよりも効率的に識別子を生成し得るので有利であり得る。
いくつかの例では、多数のリコンビナーゼを異なる順序で適用することによって、単一の核酸配列を多くの異なる核酸配列になるようにプログラムすることができる。およそ~eM!リコンビナーゼの数Mが大型セリンリコンビナーゼファミリーについて7以下であり得る場合、異なるサブセットおよびその順序でM個のリコンビナーゼを適用することによって、別個の核酸配列を生成することができる。リコンビナーゼの数Mが7より大きくてもよい場合、生成され得る配列の数はおよそ3.9であり、例えば、参照により全体が本明細書に組み込まれるRoquet et al.,Synthetic recombinase-based state machines in living cells,Science 353(6297):aad8559(2016)を参照されたい。1つの共通配列から異なるDNA配列を生成するためのさらなる方法は、CRISPR-Cas、TALENS、およびジンクフィンガーヌクレアーゼ等の標的核酸編集酵素を含むことができる。リコンビナーゼ、標的化編集酵素等によって産生された配列は、前述の方法のいずれか、例えば本出願の図および開示のいずれかに開示されている方法と組み合わせて使用することができる。
符号化される情報のビットストリームが任意の単一の核酸分子によって符号化され得るビットストリームよりも大きい場合、情報は分割され、核酸配列バーコードでインデックス付けされ得る。さらに、N個の核酸分子のセットからのサイズkの核酸分子の任意のサブセットを選択して、log(Nchoosek)ビットの情報を生成することができる。バーコードは、さらに長いビットストリームを符号化するために、サイズkのサブセット内の核酸分子上に構築され得る。例えば、M個のバーコードを使用して、M*log(Nchoosek)ビットの情報を生成することができる。セット内の利用可能な核酸分子の数Nおよび利用可能なバーコードの数Mが与えられると、サイズk=kのサブセットは、情報を符号化するためのプール内の分子の総数を最小化するように選択され得る。デジタル情報を符号化する方法は、ビットストリームを分割し、個々の要素を符号化する工程を含むことができる。例えば、6ビットを含むビットストリームは、各々が2ビットを含む3つの成分に分割することができる。各2ビット成分をバーコード化して情報カセットを形成し、グループ化またはプールして情報カセットのハイパープールを形成することができる。
バーコードは、符号化されるデジタル情報の量が1つのプールのみに収まる量を超える場合、情報インデックス化を容易にすることができる。より長いビット列および/または複数バイトを含む情報は、図7に開示された手法を積層することによって、例えば核酸インデックスを使用して符号化された固有の核酸配列を有するタグを含めることによって、符号化することができる。情報カセットまたは識別子ライブラリは、所与の配列が対応するビットストリームの1つまたは複数の成分を示すバーコードまたはタグに加えて、位置およびビット値情報を提供する固有の核酸配列を含む窒素塩基または核酸配列を含むことができる。情報カセットは、1またはそれを超える固有の核酸配列ならびにバーコードまたはタグを含むことができる。情報カセット上のバーコードまたはタグは、情報カセットの参照および情報カセットに含まれる任意の配列を提供することができる。例えば、情報カセット上のタグまたはバーコードは、ユニーク配列がビットストリームのどの部分またはビット成分を符号化するか(例えば、以下のビット値およびビット位置情報)を示すことができる。
バーコードを使用すると、可能な識別子の組み合わせ空間のサイズよりも多くのビットの情報をプールに符号化することができる。例えば、10ビットの配列は、各バイトが5ビットを含む2セットのバイトに分離することができる。各バイトは、5つの可能な個別の識別子のセットにマッピングすることができる。最初は、各バイトに対して生成された識別子は同じであり得るが、それらは別々のプールに保持され得るか、または情報を読み取る者が特定の核酸配列がどのバイトに属するかを知ることができない可能性がある。しかしながら、各識別子は、符号化された情報が適用されるバイト(例えば、最初の5ビットを提供するためにバーコード1を核酸プール中の配列に結合させることができ、2番目の5ビットを提供するためにバーコード2を核酸プール中の配列に結合させることができる)に対応するラベルでバーコード化またはタグ付けすることができ、次いで、2つのバイトに対応する識別子を1つのプール(例えば、「ハイパープール」または1つもしくはそれを超える識別子ライブラリ)に組み合わせることができる。1またはそれを超える組み合わせた識別子ライブラリの各識別子ライブラリは、所与の識別子を所与の識別子ライブラリに属するものとして識別する別個のバーコードを含むことができる。バーコードを識別子ライブラリ内の各識別子に付加する方法は、PCR、Gibson、ライゲーション、または所与のバーコード(例えば、バーコード1)を所与の核酸サンプルプール(例えば、バーコード1から核酸サンプルプール1およびバーコード2から核酸サンプルプール2)に結合させることを可能にする任意の他のアプローチを使用することを含むことができる。ハイパープールからのサンプルは配列決定方法で読み取ることができ、配列決定情報はバーコードまたはタグを使用して解析することができる。M個のバーコードおよびN個の可能な識別子(組み合わせ空間)のセットを有する識別子ライブラリおよびバーコードを使用する方法は、MとNの積に等しい長さを有するビットのストリームを符号化することができる。
いくつかの実施形態では、識別子ライブラリは、ウェルのアレイに格納され得る。ウェルのアレイは、n列およびq行を有するものとして定義することができ、各ウェルは、ハイパープール内に2またはそれを超える識別子ライブラリを含むことができる。各ウェルに符号化された情報は、各ウェルに含まれる情報よりも大きいサイズn×qの1つの大きな連続した情報項目を構成し得る。アリコートは、ウェルのアレイ内の1またはそれを超えるウェルから採取され得、符号化は、配列決定、ハイブリダイゼーション、またはPCRを使用して読み取られ得る。
核酸サンプルプールまたはハイパープールを含む核酸サンプルプール、ハイパープール、識別子ライブラリ、識別子ライブラリのグループ、またはウェルは、情報のビットおよび複数の補足核酸配列に対応する固有の核酸分子(例えば、識別子)を含み得る。補足核酸配列は、符号化データ(例えば、ビット値に対応しない)に対応しない場合がある。補助核酸サンプルは、サンプルプールに格納された情報をマスクまたは暗号化することができる。補足核酸配列は、生物学的供給源に由来し得るか、または合成的に産生され得る。生物学的供給源に由来する補足核酸配列は、ランダムに断片化された核酸配列または合理的に断片化された配列を含み得る。生物学的に誘導された補足核酸は、特に合成的に符号化された情報(例えば、識別子の組み合わせ空間)が天然の遺伝情報(例えば、断片化されたゲノム)に類似するようにされている場合、合成的に符号化された情報と共に天然の遺伝情報を提供することによって、サンプルプール内のデータ含有核酸を隠すまたは不明瞭にすることができる。一例では、識別子は生物源に由来し、補足核酸は生物源に由来する。サンプルプールは、識別子および補足核酸配列の複数のセットを含み得る。識別子および補足核酸配列の各セットは、異なる生物に由来し得る。一例では、識別子は1またはそれを超える生物に由来し、補足核酸配列は単一の異なる生物に由来する。補足核酸配列はまた、1またはそれを超える生物に由来してもよく、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来してもよい。識別子および補足核酸配列の両方は、複数の異なる生物に由来し得る。キーを使用して、識別子を補足核酸配列と区別することができる。
補足核酸配列は、書き込まれた情報に関するメタデータを格納し得る。メタデータは、元の情報のソースおよび/または元の情報の意図された受信者を決定および/または許可するための追加の情報を含むことができる。メタデータは、元の情報のフォーマット、元の情報を符号化して書き込むために使用される機器および方法、ならびに元の情報を識別子に書き込む日時に関する追加の情報を含むことができる。メタデータは、元の情報のフォーマット、元の情報を符号化して書き込むために使用される機器および方法、ならびに元の情報を核酸配列に書き込む日時に関する追加情報を含み得る。メタデータは、情報を核酸配列に書き込んだ後に元の情報に対して行われた修正に関する追加情報を含み得る。メタデータは、元の情報に対する注釈または外部情報に対する1またはそれを超える参照を含むことができる。代替的に、またはそれに加えて、メタデータは、識別子に添付された1またはそれを超えるバーコードまたはタグに格納されてもよい。
識別子プール内の識別子は、互いに同じ、類似、または異なる長さを有することができる。補足核酸配列は、識別子の長さよりも短いか、実質的に等しいか、またはそれを超える長さを有し得る。補足核酸配列は、識別子の平均長さの1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内、またはそれを超える塩基以内の平均長さを有し得る。一例では、補足核酸配列は、識別子と同じまたは実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリ中の識別子の濃度よりも低くてもよく、実質的に等しくてもよく、またはそれを超えてもよい。補足核酸の濃度は、約1%、10%、20%、40%、60%、80%、100、%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%以下または識別子の濃度未満でもよい。補足核酸の濃度は、約1%、10%、20%、40%、60%、80%、100、%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%以上または識別子の濃度を超えてもよい。より大きな濃度は、データの難読化または秘匿化に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール内の識別子の濃度よりも実質的に高い(例えば、1×10%超)。
核酸配列に格納されたデータをコピーし、アクセスする方法
別の態様では、本開示は、核酸配列(複数可)に符号化された情報をコピーする(または複製する)方法を提供する。核酸配列(複数可)に符号化された情報をコピーする方法は、(a)識別子ライブラリを提供すること、および(b)識別子ライブラリの1またはそれを超えるコピーを構築することを含み得る。識別子ライブラリは、より大きな組み合わせ空間からの複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、1またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。
別の態様では、本開示は、核酸配列に符号化された情報にアクセスするための方法を提供する。核酸配列に符号化された情報にアクセスするための方法は、(a)識別子ライブラリを提供すること、および(b)識別子ライブラリから識別子ライブラリに存在する識別子の一部またはサブセットを抽出することを含み得る。識別子ライブラリは、より大きな組み合わせ空間からの複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、1またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。
情報は、本明細書の他の箇所に記載されているように、1またはそれを超える識別子ライブラリに書き込まれてもよい。識別子は、本明細書の他の箇所に記載されている任意の方法を使用して構築することができる。格納されたデータは、識別子ライブラリまたは1つもしくは複数の識別子ライブラリに個々の識別子のコピーを生成することによってコピーすることができる。識別子の一部をコピーしてもよいし、ライブラリ全体をコピーしてもよい。コピーは、識別子ライブラリ内の識別子を増幅することによって実行されてもよい。1またはそれを超える識別子ライブラリが組み合わされる場合、単一の識別子ライブラリまたは複数の識別子ライブラリをコピーすることができる。識別子ライブラリが補足核酸配列を含む場合、補足核酸配列はコピーされてもされなくてもよい。
識別子ライブラリ中の識別子は、1またはそれを超える共通プライマー結合部位を含むように構築され得る。1またはそれを超える結合部位は、各識別子の縁部に配置されてもよく、または各識別子全体にわたって織り合わされてもよい。プライマー結合部位は、識別子ライブラリ特異的プライマー対またはユニバーサルプライマー対が識別子に結合してこれを増幅することを可能にし得る。識別子ライブラリ内の全ての識別子または1もしくはそれを超える識別子ライブラリ内の全ての識別子は、複数のPCRサイクルによって複数回複製することができる。従来のPCRを使用して識別子をコピーし、各PCRサイクルで識別子を指数関数的に複製することができる。識別子のコピー数は、PCRサイクルごとに指数関数的に増加し得る。線形PCRを使用して識別子をコピーし、各PCRサイクルで識別子を線形に複製することができる。識別子コピーの数は、各PCRサイクルで直線的に増加し得る。PCR増幅の前に、識別子を環状ベクターにライゲーションしてもよい。円ベクターは、識別子挿入部位の各末端にバーコードを含むことができる。識別子を増幅するためのPCRプライマーは、バーコード化エッジが増幅産物中の識別子と共に含まれるようにベクターにプライミングするように設計され得る。増幅中、識別子間の組換えは、各エッジ上に非相関バーコードを含むコピーされた識別子をもたらし得る。非相関バーコードは、識別子を読み取ると検出可能であり得る。相関のないバーコードを含む識別子は、フォールスポジティブとみなされてもよく、情報復号プロセス中に無視されてもよい。化学的方法のセクションDを参照されたい。
情報は、情報の各ビットを固有の核酸分子に割り当てることによって符号化され得る。例えば、各々が2つの核酸配列を含む3つのサンプルセット(X、Y、Z)は、8つのユニークな核酸分子に集合し、8ビットのデータを符号化し得る。
N1=X1Y1Z1
N2=X1Y1Z2
N3=X1Y2Z1
N4=X1Y2Z2
N5=X2Y1Z1
N6=X2Y1Z2
N7=X2Y2Z1
N8=X2Y2Z2
次いで、文字列内の各ビットを対応する核酸分子に割り当てることができる(例えば、N1は第1のビットを指定することができ、N2は第2のビットを指定することができ、N3は第3のビットを指定することができ、以下同様である)。ビット列全体は、「1」のビット値に対応する核酸分子が組み合わせまたはプールに含まれる核酸分子の組み合わせに割り当てられ得る。例えば、UTF-8コーディングでは、文字「K」は、4つの核酸分子(例えば、上記の例では、X1Y1Z2、X2Y1Z1、X2Y2Z1、およびX2Y2Z2である。)の存在によって符号化され得る8ビット文字列コード01001011によって表され得る。
情報は、配列決定またはハイブリダイゼーションアッセイによってアクセスされ得る。例えば、プライマーまたはプローブは、核酸配列の共通領域またはバーコード化領域に結合するように設計され得る。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物を、増幅産物を配列決定することによって、またはハイブリダイゼーションアッセイによって読み取ることができる。文字「K」を符号化する上記の例では、データの前半が関心対象である場合、X1核酸配列のバーコード領域に特異的なプライマーおよびZセットの共通領域に結合するプライマーを使用して核酸分子を増幅することができる。これは、0100を符号化し得る配列Y1Z2を返し得る。そのデータの部分列は、Y1核酸配列のバーコード領域に結合するプライマーおよびZセットの共通配列に結合するプライマーで核酸分子をさらに増幅することによってアクセスすることもできる。これは、部分文字列01を符号化するZ2核酸配列を返し得る。あるいは、配列決定なしで特定の核酸配列の有無をチェックすることによってデータにアクセスすることができる。例えば、Y2バーコードに特異的なプライマーを用いた増幅は、Y1バーコードではなく、Y2バーコードの増幅産物を生成し得る。Y2増幅産物の存在は、「1」のビット値をシグナル伝達し得る。あるいは、Y2増幅産物が存在しないことは、「0」のビット値をシグナル伝達し得る。
PCRに基づく方法を使用して、識別子または核酸サンプルプールからのデータにアクセスし、コピーすることができる。プールまたはハイパープール内の識別子に隣接する共通のプライマー結合部位を使用して、情報を含む核酸を容易にコピーすることができる。あるいは、等温増幅等の他の核酸増幅アプローチを使用して、サンプルプールまたはハイパープール(例えば、識別子ライブラリ)からデータを容易にコピーすることもできる。核酸増幅に関する化学的方法のセクションDを参照されたい。サンプルがハイパープールを含むインスタンスでは、順方向の識別子の一方のエッジで特定のバーコードに結合するプライマーを、逆方向の識別子の反対側のエッジで共通配列に結合する別のプライマーと共に使用することによって、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスし、検索することができる。このプロセスは、識別子のサブプールからサブプールにアクセスするために複数回繰り返すことができる(例えば、2またはそれを超える特定のバーコードを有する全ての核酸)。例えば、ネステッドPCRを使用することによって、最初に1つのエッジ上の特定のバーコードに結合するプライマーを用い、次に当該エッジから除去された1つの特定のバーコードに結合する特定のプライマーを用い、次に当該エッジから除去された2つのバーコードに結合する特定のプライマーを用い、以下同様である。コードされた核酸から情報を引き出すために様々な読み出し方法を使用することができ、例えば、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量PCR(qPCR)、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を、そしてひいてはデジタル符号化されたデータを読み出すことができる。
核酸分子に格納された情報(例えば、識別子)にアクセスすることは、識別子ライブラリまたは識別子のプールから非標的識別子の一部を選択的に除去することによって、または例えば、複数の識別子ライブラリのプールから識別子ライブラリの全ての識別子を選択的に除去することによって実行され得る。データへのアクセスはまた、識別子ライブラリまたは識別子のプールからターゲット識別子を選択的に取り込むことによって実行されてもよい。ターゲット識別子は、より大きな情報項目内の関心のあるデータに対応することができる。識別子のプールは、補足核酸分子を含み得る。補足的な核酸分子は、符号化された情報に関するメタデータを含み得るか、または情報に対応する識別子を暗号化またはマスクするために使用され得る。補足核酸分子は、標的化された識別子にアクセスしている間に抽出されてもされなくてもよい。図21A~図21Cは、より多数の識別子から多数の特定の識別子にアクセスすることによって核酸配列に格納された情報の部分にアクセスするための例示的な方法の概要を概略的に示す。図21Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブおよび分解標的化プローブを使用して、特定の成分を含有する識別子にアクセスするための例示的な方法を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリ)は、各末端に共通配列、各末端に可変配列、または各末端に共通配列もしくは可変配列のうちの1つを有する識別子を含むことができる。共通の配列または可変配列は、プライマー結合部位であり得る。1またはそれを超えるプライマーは、識別子エッジ上の共通または可変領域に結合し得る。プライマーが結合した識別子は、PCRによって増幅され得る。増幅された識別子は、増幅されていない識別子よりも大幅に多くなり得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリからの識別子は、そのライブラリとは異なるその末端の一方または両方に配列を含むことができ、したがって、単一のライブラリを複数の識別子ライブラリのプールまたはグループから選択的にアクセスできるようにする。
親和性タグに基づくアクセス、核酸捕捉と呼ばれ得るプロセスでは、プール内の識別子を構成する成分は、1またはそれを超えるプローブと相補性を共有し得る。1またはそれを超えるプローブは、アクセスされる識別子に結合またはハイブリダイズすることができる。プローブは親和性タグを含み得る。親和性タグはビーズに結合し、ビーズ、少なくとも1つのプローブ、および少なくとも1つの識別子を含む複合体を生成し得る。ビーズは磁性であってもよく、磁石と共に、ビーズはアクセスされる識別子を収集して分離することができる。識別子は、読み取り前に変性条件下でビーズから除去することができる。代替的に、またはそれに加えて、ビーズは、標的化されていない識別子を収集し、別の容器に洗浄して読み取ることができるプールの残りの部分からそれらを隔離することができる。親和性タグは、カラムに結合し得る。アクセスされる識別子は、取得のために列に結合することができる。列に結合した識別子は、その後、読み取り前に列から溶出または変性され得る。あるいは、ターゲット指定されていない識別子は、カラムに選択的にターゲット指定されてもよく、ターゲット指定された識別子は、カラムを通って流れてもよい。標的識別子にアクセスすることは、1またはそれを超えるプローブを識別子のプールに同時に適用すること、または1またはそれを超えるプローブを識別子のプールに順次適用することを含み得る。核酸捕捉に関する化学的方法のセクションFを参照されたい。
分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1またはそれを超える分解標的化プローブと相補性を共有し得る。プローブは、識別子上の異なる成分に結合またはハイブリダイズし得る。プローブは、エンドヌクレアーゼ等の分解酵素の標的であり得る。一例では、1またはそれを超える識別子ライブラリを組み合わせることができる。プローブセットは、識別子ライブラリの1つとハイブリダイズし得る。プローブセットはRNAを含み得、RNAはCas9酵素をガイドし得る。Cas9酵素は、1またはそれを超える識別子ライブラリに導入され得る。プローブとハイブリダイズした識別子は、Cas9酵素によって分解され得る。アクセスされる識別子は、分解酵素によって分解されなくてもよい。別の例では、識別子は一本鎖であり得、識別子ライブラリは、アクセスされない識別子を選択的に分解するS1ヌクレアーゼ等の一本鎖特異的エンドヌクレアーゼ(複数可)と組み合わされ得る。アクセスされる識別子は、一本鎖特異的エンドヌクレアーゼ(複数可)による分解からそれらを保護するために、識別子の相補的なセットとハイブリダイズされ得る。アクセスされる識別子は、サイズ選択クロマトグラフィー(例えば、アガロースゲル電気泳動)等のサイズ選択によって分解産物から分離され得る。代替的または追加的に、劣化していない識別子は、劣化生成物が増幅されないように選択的に増幅されてもよい(例えば、PCRを使用する)。分解されていない識別子は、分解されていない識別子の各末端にハイブリダイズし、したがって分解または切断された識別子の各末端にハイブリダイズしないプライマーを使用して増幅され得る。
図21Bは、ポリメラーゼ連鎖反応を使用して「OR」または「AND」演算を実行し、複数の成分を含む識別子にアクセスするための例示的な方法を示す。一例では、2つのフォワードプライマーが左末端で別個の識別子のセットに結合する場合、それらの識別子のセットの結合の「OR」増幅は、右末端で識別子の全てに結合するリバースプライマーを用いたマルチプレックスPCR反応において2つのフォワードプライマーを一緒に使用することによって達成され得る。別の例では、1つのフォワードプライマーが左末端に1組の識別子を結合し、1つのリバースプライマーが右末端に1組の識別子を結合する場合、それらの2組の識別子の交点の「AND」増幅は、PCR反応においてフォワードプライマーとリバースプライマーを一緒にプライマー対として使用することによって達成され得る。このプロセスは、共通の任意の数の成分を有する識別子サブプールにアクセスするために順次に(例えば、ネステッドPCR)繰り返すことができる。
識別子ライブラリに対するPCRベースのアクセスの各反復では、プライマーが各エッジからさらに内側に反復的に成分を結合するように設計されているので、識別子は短くなり得る。例えば、識別子ライブラリは、A-B-C-D-E-F-Gの形式の識別子を含むことができ、A、B、C、D、E、F、およびGは層である。特定の成分、例えば、それぞれ層AおよびGのAおよびGに結合するプライマーで増幅すると、識別子ライブラリの増幅部分は、A-B-C-D-E-F-Gの形態をとり得る。特定の成分、例えば、それぞれ層BおよびFのBおよびFを結合するプライマーでさらに増幅すると、識別子ライブラリの増幅部分は、B-C-D-E-Fの形をとることができ、これらのより短い増幅配列は、層Aの位置の成分Aおよび層Gの位置のGをさらに含む完全な識別子に対応すると仮定することができる。
図21Cは、親和性タグを使用して「OR」または「AND」演算を実行し、複数の成分を含む識別子にアクセスするための例示的な方法を示す。一例において、親和性プローブ「P1」が成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が成分「C2」を有する全ての識別子を捕捉する場合、C1またはC2を有する全ての識別子のセットは、P1およびP2を同時に使用することによって捕捉することができる(「OR」演算に対応する)。同じ成分をおよびプローブを有する別の例では、C1およびC2を有する全ての識別子のセットは、P1およびP2を順次使用することによって捕捉することができる(「AND」演算に相当する)。
核酸配列に格納された情報を読み取る方法
別の態様では、本開示は、核酸配列に符号化された情報を読み取るための方法を提供する。核酸配列に符号化された情報を読み取るための方法は、(a)識別子ライブラリを提供すること、(b)識別子ライブラリに存在する識別子を識別すること、(c)識別子ライブラリに存在する識別子から記号列を生成すること、および(d)記号列から情報をコンパイルすることを含み得る。識別子ライブラリは、組み合わせ空間からの複数の識別子のサブセットを含むことができる。識別子のサブセットの個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、1またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。
情報は、本明細書の他の箇所に記載されているように、1またはそれを超える識別子ライブラリに書き込まれてもよい。識別子は、本明細書の他の箇所に記載されている任意の方法を使用して構築することができる。格納されたデータは、本明細書の他の箇所に記載された任意の方法を使用してコピーおよびアクセスされてもよい。
識別子は、符号化記号の位置、符号化記号の値、または符号化記号の位置と値の両方に関する情報を含むことができる。識別子は、符号化された記号の位置に関する情報を含むことができ、識別子ライブラリにおける識別子の有無は、記号の値を示すことができる。識別子ライブラリ内の識別子の存在は、バイナリ文字列内の第1の記号値(例えば、第1のビット値)を示すことができ、識別子ライブラリ内の識別子の非存在は、バイナリ文字列内の第2の記号値(例えば、第2のビット値)を示すことができる。バイナリシステムでは、識別子ライブラリ内の識別子の有無に基づくビット値は、アセンブリされる識別子の数を減らすことができ、したがって書き込み時間を短縮することができる。一例では、識別子の存在は、マッピングされた位置で「1」のビット値を示すことができ、識別子の非存在は、マッピングされた位置で「0」のビット値を示すことができる。
情報のための記号(例えば、ビット値)を生成することは、記号(例えば、ビット)がマッピングまたは符号化され得る識別子の有無を識別することを含み得る。識別子の有無を判定することは、現在の識別子を配列決定すること、またはハイブリダイゼーションアレイを使用して識別子の存在を検出することを含み得る。一例では、符号化された配列の復号および読み取りは、配列決定プラットフォームを使用して実行され得る。配列決定プラットフォームの例は、2014年8月21日に出願された米国特許出願第14/465,685号;2013年5月2日に出願された米国特許出願第13/886,234号;および2009年3月9日に出願された米国特許出願第12/400,593号に記載され、その各々が参照により本明細書に完全に組み込まれる。
一例では、核酸符号化データの復号は、Illumina(登録商標)シーケンシング等の核酸鎖の塩基別配列決定によって、またはキャピラリー電気泳動による断片化分析等の特定の核酸配列の有無を示す配列決定技術を利用することによって達成され得る。配列決定は、可逆的ターミネーターの使用を使用し得る。配列決定は、天然または非天然(例えば、操作された)ヌクレオチドまたはヌクレオチド類縁体の使用を使用し得る。代替において、または、加えて、核酸配列を解読することが、様々な分析技術を使用して行われる場合があり、そのような分析技術には、光学的シグナル、電気化学的シグナルまたは化学的シグナルを生じさせる任意の方法が含まれるが、これらに限定されない。ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシーケンシング、ハイスループットシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ライゲーションによるシーケンシング、RNA-Seq(Illumina)、次世代シーケンシング、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガンシーケンシング、Maxim-Gilbertシーケンシング、または大規模並列シーケンシングを含むがこれらに限定されない様々な配列決定アプローチが使用され得る。
様々な読み出し方法を使用して、符号化された核酸から情報を引き出すことができる。一例では、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量PCR(qPCR)、および様々な配列決定プラットフォームをさらに使用して、符号化された配列を、そしてひいてはデジタル符号化されたデータを読み出すことができる。
識別子ライブラリは、情報に関するメタデータを提供する、情報を暗号化もしくはマスクする、またはメタデータを提供すると同時に情報をマスクする補足核酸配列をさらに含み得る。補助核酸は、識別子の識別と同時に識別され得る。あるいは、補助核酸は、識別子を同定する前または後に同定され得る。一例では、補足核酸は、符号化された情報の読み取り中に識別されない。補足核酸配列は、識別子と区別できない場合がある。識別子インデックスまたはキーを使用して、補助核酸分子を識別子と区別することができる。
より少ない核酸分子の使用を可能にするために入力ビット列を記録することによって、データを符号化および復号する効率を高めることができる。例えば、入力文字列が、符号化方法を用いて3つの核酸分子(例えば、識別子)にマッピングすることができる「111」部分文字列の高い発生で受信された場合、それは、核酸分子のヌルセットにマッピングすることができる「000」部分文字列に記録され得る。「000」の代替入力部分文字列もまた、「111」に記録され得る。この記録方法は、データセット内の「l」の数が減少する可能性があるため、データを符号化するために使用される核酸分子の総量を減少させることができる。この例では、データセットの合計サイズは、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化および復号効率を高めるための代替方法は、可変長を低減するために入力文字列を再符号化することであり得る。例えば、「111」は「00」に記録され、データセットのサイズを縮小し、データセット内の「1」の数を減らすことができる。
核酸符号化データを復号する速度および効率は、検出を容易にするために識別子を特に設計することによって制御され得る(例えば、増加)。例えば、検出を容易にするために設計された核酸配列(例えば、識別子)は、光学的、電気化学的、化学的または物理的特性に基づいて呼び出しおよび検出するのがより容易な大部分のヌクレオチドを含む核酸配列を含み得る。操作された核酸配列は、一本鎖または二本鎖のいずれかであり得る。操作された核酸配列は、核酸配列の検出可能な特性を改善する合成または非天然ヌクレオチドを含み得る。操作された核酸配列は、全ての天然ヌクレオチド、全ての合成もしくは非天然ヌクレオチド、または天然、合成、および非天然ヌクレオチドの組み合わせを含み得る。合成ヌクレオチドは、ペプチド核酸、ロックド核酸、グリコール核酸、およびトレオース核酸等のヌクレオチド類縁体を含み得る。非天然ヌクレオチドには、3-メトキシ-2-ナフトエ基を含有する人工ヌクレオシドであるdNaM、および6-メチルイソキノリン-1-チオン-2-イル基を含有する人工ヌクレオシドであるd5SICSが含まれ得る。操作された核酸配列は、増強された光学特性等の単一の増強された特性のために設計され得るか、または設計された核酸配列は、増強された光学特性および電気化学特性、または増強された光学特性および化学特性等の複数の増強された特性を有するように設計され得る。DNA設計に関する化学的方法のセクションHを参照されたい。
操作された核酸配列は、核酸配列の光学的、電気化学的、化学的または物理的特性を改善しない反応性の天然、合成および非天然ヌクレオチドを含み得る。核酸配列の反応性成分は、核酸配列に改善された特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含んでもよく、または複数の化学的部分を含んでもよい。例示的な化学部分には、蛍光部分、化学発光部分、酸性または塩基性部分、疎水性または親水性部分、および核酸配列の酸化状態または反応性を変化させる部分が含まれ得るが、これらに限定されない。
配列決定プラットフォームは、核酸配列に符号化された情報を復号および読み取りするために特に設計され得る。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用であり得る。配列決定プラットフォームは、個々の塩基を読み取ることによって(例えば、塩基ごとの配列決定)、または核酸分子内に組み込まれた核酸配列全体(例えば、成分)の存在もしくは非存在を検出することによって(例えば、識別子)、核酸符号化データを復号し得る。配列決定プラットフォームは、無差別試薬の使用、リード長の増加、および検出可能な化学部分の付加による特異的核酸配列の検出を含み得る。配列決定中のより乱雑な試薬の使用は、より速い塩基呼び出しを可能にすることによって読み取り効率を高めることができ、これは配列決定時間を短縮することができる。増加したリード長の使用は、符号化された核酸のより長い配列をリードごとに復号することを可能にし得る。検出可能な化学部分タグの付加は、化学部分の存在または非存在による核酸配列の存在または非存在の検出を可能にし得る。例えば、1ビットの情報を符号化する各核酸配列は、固有の光学的、電気化学的、または化学的シグナルを生成する化学部分でタグ付けされ得る。その固有の光学的、電気化学的、または化学的シグナルの有無は、「0」または「1」ビット値を示し得る。核酸配列は、単一の化学的部分または複数の化学的部分を含み得る。化学的部分は、データを符号化するために核酸配列を使用する前に核酸配列に付加され得る。代替において、または加えて、化学的部分は、データを符号化した後であるが、データを復号する前に、核酸配列に付加される場合がある。化学部分タグは核酸配列に直接付加されてもよく、または核酸配列は合成または非天然のヌクレオチドアンカーを含んでもよく、化学部分タグはそのアンカーに付加されてもよい。
一意のコードを適用して、符号化および復号エラーを最小化または検出することができる。符号化および復号エラーは、偽陰性(例えば、ランダムサンプリングに含まれない核酸分子または識別子)から発生する可能性がある。エラー検出コードの一例は、識別子ライブラリに含まれる可能な識別子の連続したセット内の識別子の数をカウントするチェックサム配列であり得る。識別子ライブラリを読み取る間、チェックサムは、取得することを期待する識別子のその連続したセットからの識別子の数を示すことができ、期待数が満たされるまで、識別子を読み取りのためにサンプリングし続けることができる。いくつかの実施形態では、チェックサム配列は、R識別子の全ての連続したセットに含まれてもよく、Rは、サイズが等しいか、または1、2、5、10、50、100、200、500、もしくは1000またはそれを超えてもよく、または1000、500、200、100、50、10、5、もしくは2もしくはそれ未満であってもよい。Rの値が小さいほど、エラー検出は良好である。いくつかの実施形態では、チェックサムは補足核酸配列であり得る。例えば、7つの核酸配列(例えば、成分)を含むセットは、2つのグループ、産物スキームで識別子を構築するための核酸配列(層Xの成分X1~X3および層Yの成分Y1~Y3)、および補足チェックサムのための核酸配列(X4~X7およびY4~Y7)に分割され得る。チェックサム配列X4~X7は、層Xの0、1、2、または3つの配列が層Yの各部材とアセンブリされるかどうかを示すことができる。あるいは、チェックサム配列Y4~Y7は、層Yの0、1、2、または3つの配列が層Xの各部材とアセンブリされているかどうかを示すことができる。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリは、以下のプールになるチェックサムを含むように補足され得る:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列は、エラー訂正にも使用され得る。例えば、上記データセットからX1Y1が存在しないこと、ならびにX1Y6およびX6Y1が存在することは、X1Y1核酸分子がデータセットから欠落していると推測することを可能にし得る。チェックサム配列は、識別子が識別子ライブラリのサンプリングまたは識別子ライブラリのアクセスされた部分から欠落しているかどうかを示すことができる。欠落したチェックサム配列の場合、PCRまたは親和性タグ付きプローブハイブリダイゼーション等のアクセス方法は、それを増幅および/または単離することができる。いくつかの実施形態では、チェックサムは補足核酸配列でなくてもよい。それらのチェックサムは、それらが識別子によって表されるように情報に直接符号化されてもよい。
データの符号化および復号におけるノイズは、例えば、産物スキームにおいて単一の成分ではなく成分の回文ペアを使用することによって、回文的に識別子を構築することによって低減され得る。次いで、異なる層からの成分の対は、回文的に(例えば、成分XおよびYのXYの代わりにYXY)互いにアセンブリされてもよい。この回文法は、より多数の層(例えば、XYZの代わりにZYXYZ)に拡張することができ、識別子間の誤った交差反応の検出を可能にすることができる。
過剰な(例えば、膨大な過剰)補足核酸配列を識別子に付加することは、配列決定が符号化された識別子を回復するのを妨げる可能性がある。情報を復号する前に、識別子を補足核酸配列から濃縮することができる。例えば、識別子は、識別子末端に特異的なプライマーを使用する核酸増幅反応によって濃縮され得る。代替的に、またはそれに加えて、情報は、特異的プライマーを使用して配列決定すること(例えば、合成による配列決定)によってサンプルプールを濃縮することなく復号され得る。両方の復号方法において、復号鍵を持たずに、または識別子の構成について何かを知らずに情報を強化または復号することは困難であり得る。親和性タグベースのプローブを使用する等、代替のアクセス方法を使用することもできる。
二進シーケンスデータを符号化するためのシステム
デジタル情報を核酸(例えば、DNA)にコード化するためのシステムは、ファイルおよびデータ(例えば、生データ、圧縮されたzipファイル、整数データ、および他の形式のデータ)をバイトに変換し、バイトを核酸、典型的にはDNA、またはそれらの組み合わせのセグメントまたは配列に符号化するためのシステム、方法およびデバイスを含むことができる。
一態様では、本開示は、核酸を使用して二進シーケンスデータを符号化するためのシステムを提供する。核酸を使用して二進シーケンスデータを符号化するためのシステムは、デバイスおよび1またはそれを超えるコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリを構築するように構成され得る。1またはそれを超えるコンピュータプロセッサは、(i)情報を記号の文字列に変換し、(ii)記号列を複数の識別子にマッピングし、(iii)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築するように、個別にまたは集合的にプログラムすることができる。複数の識別子の個々の識別子は、記号列の個々の記号に対応することができる。複数の識別子の個々の識別子は、1またはそれを超える成分を含むことができる。1またはそれを超える成分の個々の成分は、核酸配列を含み得る。
別の態様では、本開示は、核酸を使用して二進シーケンスデータを読み取るためのシステムを提供する。核酸を使用して二進シーケンスデータを読み取るためのシステムは、データベースおよび1またはそれを超えるコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリを格納することができる。1またはそれを超えるコンピュータプロセッサは、(i)識別子ライブラリ内の識別子を識別し、(ii)(i)で識別された識別子から複数の記号を生成し、(iii)複数の記号から情報をコンパイルするように、個別にまたは集合的にプログラムすることができる。識別子ライブラリは、複数の識別子のサブセットを含むことができる。複数の識別子の個々の識別子は、記号列内の個々の記号に対応し得る。識別子は、1またはそれを超える成分を含むことができる。成分は核酸配列を含み得る。
デジタルデータを符号化するためにシステムを使用するための方法の非限定的な実施形態は、バイトストリームの形態でデジタル情報を受信するための工程を含むことができる。バイトストリームを個々のバイトに解析し、核酸インデックス(または識別子ランク)を使用してバイト内のビットの位置をマッピングし、1のビット値または0のビット値のいずれかに対応するシ配列を識別子に符号化する。デジタルデータを検索する工程は、1またはそれを超えるビットにマッピングする核酸の配列(例えば、識別子)を含む核酸サンプルまたは核酸プールを配列決定することと、識別子が核酸プールに存在するかどうかを確認するために識別子ランクを参照することと、各配列の位置およびビット値情報をデジタル情報の配列を含むバイトに復号することとを含むことができる。
核酸分子に符号化され書き込まれた情報を符号化、書き込み、コピー、アクセス、読み取り、および復号するためのシステムは、単一の統合されたユニットであってもよく、または前述の動作の1またはそれを超えて実行するように構成された複数のユニットであってもよい。核酸分子(例えば、識別子)に情報を符号化および書き込むためのシステムは、デバイスおよび1またはそれを超えるコンピュータプロセッサを含み得る。1またはそれを超えるコンピュータプロセッサは、情報を記号列(例えば、ビットの文字列)に解析するようにプログラムされてもよい。コンピュータプロセッサは、識別子ランクを生成し得る。コンピュータプロセッサは、記号を2またはそれを超えるカテゴリに分類することができる。一方のカテゴリは、識別子ライブラリ内の対応する識別子の存在によって表される記号を含むことができ、他方のカテゴリは、識別子ライブラリ内の対応する識別子の非存在によって表される記号を含むことができる。コンピュータプロセッサは、識別子ライブラリ内の識別子の存在に対して表される記号に対応する識別子をアセンブリするようにデバイスに指示することができる。
デバイスは、複数の領域、セクション、またはパーティションを備えることができる。識別子をアセンブリするための試薬および成分は、デバイスの1またはそれを超える領域、セクション、またはパーティションに格納することができる。層は、デバイスのセクションの別々の領域に格納されてもよい。層は、1またはそれを超える固有の成分を含むことができる。1つの層内の成分は、別の層内の成分と固有であってもよい。領域または区画は容器を含むことができ、パーティションはウェルを含むことができる。各層は、別個の容器またはパーティションに格納されてもよい。各試薬または核酸配列は、別個の容器またはパーティションに格納され得る。代替的に、またはそれに加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成してもよい。デバイスは、デバイスの1つのセクションから試薬、成分および鋳型を移送して、別のセクションで組み合わせることができる。デバイスは、アセンブリ反応を完了するための条件を提供することができる。例えば、デバイスは、加熱、撹拌、および反応進行の検出を提供することができる。構築された識別子は、バーコード、共通配列、可変配列、またはタグを識別子の1またはそれを超える末端に付加するために1またはそれを超える後続の反応を受けるように指示され得る。次いで、識別子は、識別子ライブラリを生成するために領域またはパーティションに向けられてもよい。1またはそれを超える識別子ライブラリは、デバイスの各領域、セクション、または個々のパーティションに格納することができる。デバイスは、圧力、真空、または吸引を使用して流体(例えば、試薬、成分、鋳型)を移送することができる。
識別子ライブラリは、デバイスに格納されてもよく、または別個のデータベースに移動されてもよい。データベースは、1またはそれを超える識別子ライブラリを含むことができる。データベースは、識別子ライブラリの長期保存のための条件を提供することができる(例えば、識別子の劣化を低減するための条件)。識別子ライブラリは、粉末、液体、または固体の形態で保存することができる。識別子の水溶液は、より安定した保存のために凍結乾燥することができる(凍結乾燥についてのより多くの情報については、化学的方法のセクションGを参照されたい)。データベースは、Ultra-Violet光保護、低温(例えば、冷蔵または冷凍)、および分解化学物質および酵素からの保護を提供することができる。データベースに転送される前に、識別子ライブラリを凍結乾燥または凍結することができる。識別子ライブラリは、ヌクレアーゼを不活性化するためのエチレンジアミン四酢酸(EDTA)および/または核酸分子の安定性を維持するためのバッファーを含み得る。
データベースは、情報を識別子に書き込む、情報をコピーする、情報にアクセスする、または情報を読み取るデバイスに結合され、それを含み、またはそれとは別個であってもよい。識別子ライブラリの一部は、コピー、アクセス、または読み取りの前にデータベースから削除されてもよい。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じであっても異なっていてもよい。情報をコピーするデバイスは、デバイスから識別子ライブラリのアリコートを抽出し、そのアリコートを試薬および構成成分と組み合わせて識別子ライブラリの一部または全体を増幅することができる。デバイスは、増幅反応の温度、圧力、および撹拌を制御することができる。デバイスはパーティションを含んでもよく、識別子ライブラリを含むパーティションで1またはそれを超える増幅反応が行われてもよい。デバイスは、一度に2つ以上の識別子のプールをコピーし得る。
コピーされた識別子は、コピーデバイスからアクセスデバイスに転送されてもよい。アクセスデバイスは、コピーデバイスと同じデバイスであってもよい。アクセスデバイスは、別個の領域、セクション、またはパーティションを備えることができる。アクセスデバイスは、親和性タグに結合した識別子を分離するための1またはそれを超えるカラム、ビードリザーバー、または磁気領域を有し得る(核酸捕捉に関する化学的方法のセクションFを参照)。代替的に、またはそれに加えて、アクセスデバイスは、1またはそれを超えるサイズ選択ユニットを有してもよい。サイズ選択ユニットは、アガロースゲル電気泳動または核酸分子をサイズ選択するための任意の他の方法を含み得る(核酸サイズ選択についてのより多くの情報については化学的方法のセクションEを参照されたい)。コピーおよび抽出は、デバイスの同じ領域において、またはデバイスの異なる領域において行われ得る(核酸増幅についての化学的方法のセクションDを参照されたい)。
アクセスされたデータは、同じデバイスで読み出されてもよいし、アクセスされたデータが別のデバイスに転送されてもよい。読み取りデバイスは、識別子を検出および識別するための検出ユニットを備えることができる。検出ユニットは、シーケンサー、ハイブリダイゼーションアレイ、または識別子の有無を識別するための他のユニットの一部であり得る。配列決定プラットフォームは、核酸配列に符号化された情報を復号および読み取りするために特に設計され得る。配列決定プラットフォームは、一本鎖または二本鎖核酸分子の配列決定専用であり得る。配列決定プラットフォームは、個々の塩基を読み取ることによって(例えば、塩基ごとの配列決定)、または核酸分子内に組み込まれた核酸配列全体(例えば、成分)の存在もしくは非存在を検出することによって(例えば、識別子)、核酸符号化データを復号し得る。あるいは、配列決定プラットフォームは、Illumina(登録商標)シーケンシングまたはキャピラリー電気泳動による断片化分析等のシステムであり得る。代替において、または、加えて、核酸配列を解読することが、デバイスによって実施される様々な分析技術を使用して行われる場合があり、そのような分析技術には、光学的シグナル、電気化学的シグナルまたは化学的シグナルを生じさせる任意の方法が含まれるが、これらに限定されない。
核酸分子における情報記憶は、長期情報記憶、機密情報記憶、および医療情報の記憶を含むがこれらに限定されない様々な用途を有し得る。一例では、人の医療情報(例えば、病歴および記録)は、核酸分子に格納され、人に携帯され得る。情報は、身体の外部(例えば、ウェアラブルデバイスにおいて、)または身体の内部(例えば、皮下カプセル内)に格納することができる。患者が診療所または病院に運ばれると、デバイスまたはカプセルからサンプルが採取され、核酸シーケンサーを使用して情報が復号され得る。核酸分子における医療記録の個人ストーレージは、コンピュータおよびクラウドベースのストーレージシステムの代替を提供し得る。核酸分子における医療記録の個人ストーレージは、ハッキングされる医療記録の事例または広がりを減少させ得る。医療記録のカプセルベースストーレージに使用される核酸分子は、ヒトゲノム配列に由来し得る。ヒトゲノム配列の使用は、カプセル不全および漏出の場合に核酸配列の免疫原性を低下させ得る。
コンピュータシステム
本開示は、本開示の方法を実施するようにプログラムされたコンピュータシステムを提供する。図23は、デジタル情報を核酸配列に符号化し、および/または核酸配列に由来する情報を読み取る(例えば、復号)ようにプログラムまたは他の方法で構成されたコンピュータシステム1901を示す。コンピュータシステム1901は、例えば、符号化ビットストリームまたはバイトストリームからの所与のビットまたはバイトのビット値およびビット位置情報等、本開示の符号化および復号手順の様々な態様を調整することができる。
コンピュータシステム1901は、シングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサとすることができる中央処理装置(CPU、本明細書では「プロセッサ」および「コンピュータプロセッサ」)1905を含む。コンピュータシステム1901はまた、メモリまたはメモリ位置1910(例えば、ランダムアクセスメモリ、読み出し専用メモリ、フラッシュメモリ)と、電子ストーレージユニット1915(例えば、ハードディスク)と、1またはそれを超える他のシステムと通信するための通信インターフェース1920(例えば、ネットワークアダプタ)と、キャッシュ、他のメモリ、データストーレージ、および/または電子ディスプレイアダプタ等の周辺デバイス1925とを含む。メモリ1910、ストーレージユニット1915、インターフェース1920および周辺デバイス1925は、マザーボード等の通信バス(実線)を介してCPU1905と通信する。ストーレージユニット1915は、データを記憶するためのデータストーレージユニット(またはデータリポジトリ)とすることができる。コンピュータシステム1901は、通信インターフェース1920の助けを借りてコンピュータネットワーク(「ネットワーク」)1930に動作可能に結合することができる。ネットワーク1930は、インターネット、インターネットおよび/またはエクストラネット、またはインターネットと通信するイントラネットおよび/またはエクストラネットとすることができる。ネットワーク1930は、場合によっては、電気通信および/またはデータネットワークである。ネットワーク1930は、クラウドコンピューティング等の分散コンピューティングを可能にすることができる1またはそれを超えるコンピュータサーバを含むことができる。ネットワーク1930は、場合によっては、コンピュータシステム1901の助けを借りて、コンピュータシステム1901に結合されたデバイスがクライアントまたはサーバとして動作することを可能にすることができるピアツーピアネットワークを実装することができる。
CPU1905は、プログラムまたはソフトウェアで具現化することができる一連の機械可読命令を実行することができる。命令は、メモリ1910等のメモリ位置に格納することができる。命令は、CPU1905を対象とすることができ、その後、本開示の方法を実施するようにCPU1905をプログラムまたは構成することができる。CPU1905によって実行される動作の例は、フェッチ、復号、実行、およびライトバックを含むことができる。
CPU1905は、集積回路等の回路の一部とすることができる。システム1901の1またはそれを超える他の成分を回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。
ストーレージユニット1915は、ドライバ、ライブラリおよび保存されたプログラム等のファイルを格納することができる。ストーレージユニット1915は、ユーザデータ、例えば、ユーザプレファレンスおよびユーザプログラムを格納することができる。コンピュータシステム1901は、場合によっては、イントラネットまたはインターネットを介してコンピュータシステム1901と通信するリモートサーバ上に位置する等、コンピュータシステム1901の外部にある1またはそれを超える追加のデータ記憶装置を含むことができる。
コンピュータシステム1901は、ネットワーク1930を介して1またはそれを超えるリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム1901は、核酸の配列において符号化または復号されたデータを分析する過程でユーザによって使用され得るユーザまたは他のデバイスおよび/または機械のリモートコンピュータシステムと通信することができる(例えば、核酸配列中の窒素塩基の順序を化学的に決定するためのシーケンサーまたは他のシステム)。リモートコンピュータシステムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxyタブ)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android(登録商標)対応デバイス、Blackberry(登録商標))、または携帯情報端末が含まれる。ユーザは、ネットワーク1930を介してコンピュータシステム1901にアクセスすることができる。
本明細書に記載の方法は、例えばメモリ1910または電子ストーレージユニット1915等のコンピュータシステム1901の電子ストーレージ場所に格納された機械(例えば、コンピュータプロセッサ)実行可能コードによって実施することができる。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ1905によって実行することができる。場合によっては、コードは、ストーレージユニット1915から取得され、プロセッサ1905による容易なアクセスのためにメモリ1910に格納され得る。いくつかの状況では、電子ストーレージユニット1915を除外することができ、機械実行可能命令がメモリ1910に格納される。
コードは、コードを実行するように適合されたプロセッサを有する機械で使用するために事前コンパイルおよび構成することができ、またはランタイム中にコンパイルすることができる。コードは、コードが予めコンパイルされた方法またはコンパイルされた方法で実行することを可能にするように選択することができるプログラミング言語で供給することができる。
コンピュータシステム1901等、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具現化することができる。本技術の様々な態様は、典型的には機械(またはプロセッサ)実行可能コードおよび/またはある種の機械可読媒体上に担持されるかまたはそれに具体化される関連データの形態の「製品」または「製造品」と考えることができる。機械実行可能コードは、メモリ(例えば、読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク等の電子ストーレージユニットに格納することができる。「記憶」タイプの媒体は、コンピュータ、プロセッサ等の有形メモリ、または様々な半導体メモリ、テープドライブ、ディスクドライブ等の関連モジュールのいずれかまたは全てを含むことができ、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供することができる。ソフトウェアの全部または一部は、インターネットまたは様々な他の電気通信ネットワークを介して通信されることがある。そのような通信は、例えば、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへの、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にすることができる。したがって、ソフトウェア要素を担持することができる別のタイプの媒体は、ローカルデバイス間の物理インターフェースにわたって、有線および光の地上ネットワークを介して、および様々なエアリンクを介して使用されるような、光波、電気波、および電磁波を含む。有線または無線リンク、光リンク等、そのような波を搬送する物理的要素もまた、ソフトウェアを運ぶ媒体と考えることができる。本明細書で使用される場合、非一時的で有形の「記憶」媒体に限定されない限り、コンピュータまたは機械の「可読媒体」等の用語は、実行のためにプロセッサに命令を提供することに関与する任意の媒体を指す。
したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用され得る任意のコンピュータ(複数可)等の記憶デバイスのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル;コンピュータシステム内にバスを備えるワイヤを含む、銅ワイヤおよび光ファイバを含む。搬送波伝送媒体は、電気信号もしくは電磁信号、または無線周波数(RF)および赤外線(IR)データ通信中に生成されるような音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、そのような搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/またはデータを読み取ることができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のために1つまたは複数の命令の1またはそれを超える配列をプロセッサに搬送することに関与することができる。
コンピュータシステム1901は、例えば、DNA格納データに符号化または復号される核酸、生データ、ファイル、および圧縮または解凍されたzipファイルを符号化または復号する機械またはコンピュータシステムによって符号化または読み取りされるクロマトグラフ、配列、ならびにビット、バイト、またはビットストリームを含む配列出力データを提供するためのユーザインターフェース(UI)1940を含む電子ディスプレイ1935を含むか、またはそれと通信することができる。UIの例には、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースが含まれるが、これらに限定されない。
本開示の方法およびシステムは、1またはそれを超えるアルゴリズムによって実施することができる。アルゴリズムは、中央処理装置1905による実行時にソフトウェアによって実施することができる。アルゴリズムは、例えば、デジタル情報を符号化する前に、生データまたはzipファイル圧縮データからデジタル情報を符号化するためのカスタマイズされた方法を決定するために、DNAインデックスおよび生データまたはzipファイル圧縮データもしくは解凍データと共に使用することができる。
化学的方法のセクション
A.オーバーラップ伸長PCR(OEPCR)アセンブリ
OEPCRでは、ポリメラーゼおよびdNTP(dATP、dTTP、dCTP、dGTPまたはそれらの変異体もしくは類縁体を含むデオキシヌクレオチド三リン酸)を含む反応で成分がアセンブリされる。成分は、一本鎖または二本鎖核酸であり得る。互いに近接してアセンブリされる成分は、相補的な3’末端、相補的な5’末端、または1つの成分の5’末端と近接する成分の3’末端との間の相同性を有し得る。「ハイブリダイゼーション領域」と呼ばれるこれらの末端領域は、OEPCR中に成分間のハイブリダイズした接合部の形成を促進することを意図しており、1つの投入成分(またはその相補体)の3’末端がその意図する近接成分(またはその相補体)の3’末端にハイブリダイズする。次いで、アセンブリされた二本鎖生成物がポリメラーゼ伸長によって形成される。次いで、この生成物は、その後のハイブリダイゼーションおよび伸長によってより多くの成分にアセンブリされ得る。図11は、3つの核酸をアセンブリするためのOEPCRの例示的な概略図を示す。
いくつかの実施形態では、OEPCRは、融解温度、アニーリング温度、および伸長温度の3つの温度間のサイクルを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変換し、ならびに成分内または成分間の二次構造またはハイブリダイゼーションの形成を除去することを意図している。典型的には、溶融温度は高く、例えば摂氏95度を上回る。いくつかの実施形態では、溶融温度は、少なくとも摂氏96、97、98、99、100、101、102、103、104、または105度であってもよい。他の実施形態では、溶融温度は、最大95、94、93、92、91、または90℃であってもよい。より高い融解温度は、核酸およびそれらの二次構造の解離を改善するが、核酸またはポリメラーゼの分解等の副作用も引き起こし得る。溶融温度は、少なくとも1、2、3、4、5秒を上回って、例えば30秒、1分、2分、または3分にわたって反応に適用され得る。
アニーリング温度は、意図された近接成分(またはそれらの相補体)の相補的3’末端間のハイブリダイゼーションの形成を促進することを意図する。いくつかの実施形態では、アニーリング温度は、意図するハイブリダイズした核酸形成の計算された融解温度と一致し得る。他の実施形態では、アニーリング温度は、当該融解温度の摂氏10度またはそれを超えてもよい。いくつかの実施形態では、アニーリング温度は、少なくとも摂氏25、30、50、55、60、65、または70度であってもよい。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。より長いハイブリダイゼーション領域は、より高い融解温度を有し、より高いパーセント含有量のグアニンヌクレオチドまたはシトシンヌクレオチドを有するハイブリダイゼーション領域は、より高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に集合することを意図したOEPCR反応のための成分を設計することが可能であり得る。アニーリング温度は、少なくとも1、5、10、15、20、25、または30秒、またはそれを上回って反応に適用され得る。
伸長温度は、1またはそれを超えるポリメラーゼ酵素によって触媒されるハイブリダイズした3’末端の核酸鎖伸長を開始および促進することを意図する。いくつかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性または忠実度に関して最適に機能する温度に設定され得る。いくつかの実施形態では、伸長温度は、少なくとも摂氏30、40、50、60、または70度またはそれを上回ってもよい。アニーリング温度は、少なくとも1、5、10、15、20、25、30、40、50、または60秒またはそれを上回って反応に適用され得る。推奨される伸長時間は、予想伸長のキロベースあたり約15~45秒であり得る。
OEPCRのいくつかの実施形態では、アニーリング温度および伸長温度は同じであり得る。したがって、3段階の温度サイクルの代わりに2段階の温度サイクルを使用してもよい。アニーリング温度と伸長温度の組み合わせの例は、摂氏60、65、または72度を含む。
いくつかの実施形態では、OEPCRは、1つの温度サイクルで実行され得る。そのような実施形態は、2つの成分のみの意図されたアセンブリを含んでもよい。他の実施形態では、OEPCRは複数の温度サイクルで実行されてもよい。OEPCRにおける任意の所与の核酸は、1サイクルで最大1つの他の核酸にのみアセンブリされ得。これは、アセンブリ(または伸長もしくは伸長)が核酸の3’末端でのみ起こり得、各核酸が1つの3’末端のみを有し得るからである。したがって、複数の成分のアセンブリは、複数の温度サイクルを必要とする場合がある。例えば、4つの成分をアセンブリすることは、3つの温度サイクルを含み得る。6つの成分をアセンブリすることは、5つの温度サイクルを含み得る。10個の成分をアセンブリすることは、9回の温度サイクルを含み得る。いくつかの実施形態では、必要最小限よりも多くの温度サイクルを使用することにより、アセンブリ効率を高めることができる。例えば、2つの成分をアセンブリするために4つの温度サイクルを使用すると、1つの温度サイクルのみを使用するよりも多くの生成物を得ることができる。これは、成分のハイブリダイゼーションおよび伸長が、各サイクルにおける成分の総数の一部で生じる統計的事象であるためである。したがって、アセンブリされた成分の総割合は、サイクルの増加と共に増加し得る。
温度サイクルの考慮に加えて、OEPCRにおける核酸配列の設計は、それらの相互のアセンブリの効率に影響を及ぼし得る。長いハイブリダイゼーション領域を有する核酸は、短いハイブリダイゼーション領域を有する核酸と比較して、所与のアニーリング温度でより効率的にハイブリダイズし得る。これは、より長いハイブリッド生成物がより多数の安定な塩基対を含有し、したがって、より短いハイブリッド生成物よりも安定な全体的なハイブリッド生成物であり得るためである。ハイブリダイゼーション領域は、少なくとも1、2、3、4、5、6、7、8、9、10またはそれを超える塩基の長さを有し得る。
高いグアニンまたはシトシン含有量を有するハイブリダイゼーション領域は、低いグアニンまたはシトシン含有量を有するハイブリダイゼーション領域よりも所与の温度でより効率的にハイブリダイズし得る。これは、グアニンがシトシンと、アデニンがチミンとより安定な塩基対を形成するためである。ハイブリダイゼーション領域は、0%~100%のいずれかのグアニンまたはシトシン含有量(GC含有量としても知られる)を有し得る。
ハイブリダイゼーション領域の長さおよびGC含有量に加えて、OEPCRの効率に影響を及ぼし得る核酸配列設計のさらなる態様が存在する。例えば、成分内の望ましくない二次構造の形成は、その意図された近接する成分とのハイブリダイゼーション生成物を形成するその能力を妨げ得る。これらの二次構造はヘアピンループを含むことができる。核酸の可能な二次構造の種類およびそれらの安定性(例えば、計量温度)は、配列に基づいて予測することができる。設計空間探索アルゴリズムを使用して、潜在的に阻害性の二次構造を有する配列を回避しながら、効率的なOEPCRのための適切な長さおよびGC含有量基準を満たす核酸配列を決定することができる。設計空間探索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分岐限定探索アルゴリズム、動的プログラミングベースのアルゴリズム、制約付き組み合わせ最適化アルゴリズム、勾配降下ベースのアルゴリズム、ランダム化探索アルゴリズム、またはそれらの組み合わせを含み得る。
同様に、ホモ二量体(同じ配列の核酸分子とハイブリダイズする核酸分子)および望ましくないヘテロ二量体(それらの意図されたアセンブリパートナー以外の他の核酸配列とハイブリダイズする核酸配列)の形成は、OEPCRを妨害し得る。核酸内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、計算方法および設計空間探索アルゴリズムを使用して核酸設計中に予測および説明することができる。
より長い核酸配列またはより高いGC含有量は、OEPCRによる望ましくない二次構造、ホモ二量体およびヘテロ二量体の形成の増加をもたらし得る。したがって、いくつかの実施形態では、より短い核酸配列またはより低いGC含有量の使用は、より高いアセンブリ効率をもたらし得る。これらの設計原理は、より効率的なアセンブリのために長いハイブリダイゼーション領域または高いGC含有量を使用する設計戦略を妨げる可能性がある。したがって、いくつかの実施形態では、OEPCRは、高いGC含有量を有する長いハイブリダイゼーション領域を使用するが、低いGC含有量を有する短い非ハイブリダイゼーション領域を使用することによって最適化され得る。核酸の全長は、少なくとも10、20、30、40、50、60、70、80、90、もしくは100塩基、またはそれを上回ってもよい。いくつかの実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域に最適な長さおよび最適なGC含有量が存在し得る。
OEPCR反応におけるより多くの異なる核酸は、予想されるアセンブリ効率を妨害し得る。これは、より多数の異なる核酸配列が、特にヘテロ二量体の形態で、望ましくない分子相互作用の確率をより高くし得るためである。したがって、多数の成分をアセンブリするOEPCRのいくつかの実施形態では、核酸配列の制約は、効率的なアセンブリのためにより厳しくなり得る。
予想される最終的な組み合立てられた産物を増幅するためのプライマーをOEPCR反応に含めてもよい。次いで、構成成分間により多くのアセンブリを作製するだけでなく、従来のPCRの様式で完全に集合した生成物を指数関数的に増幅することによっても、OEPCR反応をより多くの温度サイクルで実施して、アセンブリされた生成物の収率を改善することができる(化学的方法のセクションDを参照されたい)。
添加剤は、アセンブリ効率を改善するためにOEPCR反応に含まれてもよい。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはそれらの組み合わせの添加。添加剤の含有量(体積当たりの重量)は、少なくとも0%、1%、5%、10%、20%、またはそれを超えてもよい。
OEPCRには様々なポリメラーゼが使用され得る。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される(すなわち、結合の形成を触媒する酵素)。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobest、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。異なるポリメラーゼは安定であり得、異なる温度で最適に機能し得る。さらに、異なるポリメラーゼは異なる特性を有する。例えば、Phusionポリメラーゼ等のいくつかのポリメラーゼは、3’から5’のエキソヌクレアーゼ活性を示し得、これは核酸伸長中のより高い忠実度に寄与し得る。一部のポリメラーゼは伸長中にリーディング配列を置換し得るが、他のポリメラーゼはそれらを分解するかまたは伸長を停止し得る。Taqのようないくつかのポリメラーゼは、核酸配列の3’末端にアデニン塩基を組み込む。このプロセスはA-テーリングと呼ばれ、アデニン塩基の添加が意図された近接成分間の設計された3’相補性を破壊し得るので、OEPCRに対して阻害性であり得る。
OEPCRは、ポリメラーゼサイクリングアセンブリ(またはPCA)とも呼ばれ得る。
B.ライゲーションアセンブリ
ライゲーションアセンブリでは、別個の核酸が、1またはそれを超えるリガーゼ酵素および追加の補因子を含む反応でアセンブリされる。補因子としては、アデノシン三リン酸(ATP)、ジチオスレイトール(DTT)またはマグネシウムイオン(Mg2+)が挙げられ得る。ライゲーションの間、1つの核酸鎖の3’末端は、別の核酸鎖の5’末端に共有結合しており、したがってアセンブリされた核酸を形成する。ライゲーション反応における成分は、平滑末端二本鎖DNA(dsDNA)、一本鎖DNA(ssDNA)、または部分的にハイブリダイズした一本鎖DNAであり得る。核酸の末端を一緒にする戦略は、リガーゼ酵素の生存可能な基質の頻度を増加させ、したがってリガーゼ反応の効率を改善するために使用され得る。平滑末端dsDNA分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を一緒にするためのより成功した戦略は、構築しようとする成分のオーバーハングに対して相補性を有する5’または3’一本鎖オーバーハングを有する核酸成分を使用することであり得る。後者の場合、塩基-塩基ハイブリダイゼーションにより、より安定な核酸二重鎖が形成され得る。
二本鎖核酸が一方の末端にオーバーハング鎖を有する場合、同じ末端の他方の鎖は「キャビティ」と称され得る。キャビティおよびオーバーハングは一緒になって、「密着末端」としても知られる「粘着末端」を形成する。粘着末端は、3’オーバーハングおよび5’キャビティ、または5’オーバーハングおよび3’キャビティのいずれかであり得る。2つの意図された近接する成分間の粘着末端は、両方の粘着末端のオーバーハングが、各オーバーハング末端が他方の成分上のキャビティの開始部に直接近接するようにハイブリダイズするような相補性を有するように設計され得る。これは、リガーゼの作用によって「封止」(ホスホジエステル結合を介して共有結合する)ことができる「ニック」(二本鎖DNA切断)を形成する。3つの核酸をアセンブリするための粘着末端ライゲーションの例示的な概略図については図12を参照されたい。一方のストランドまたは他方のストランドのいずれか、または両方のニックを密封することができる。熱力学的には、粘着末端を形成する分子のトップ鎖およびボトム鎖は、会合状態と解離状態との間を移動することができ、したがって、粘着末端は一時的な形成であり得る。しかしながら、一旦、2つの成分間の粘着末端二重鎖の一方の鎖に沿ったニックが密封されると、その共有結合は、反対の鎖のメンバーが解離しても残る。次いで、連結された鎖は、反対の鎖の意図された近接するメンバーが結合することができる鋳型になり、再び密封され得るニックを形成することができる。
粘着末端は、dsDNAを1またはそれを超えるエンドヌクレアーゼで消化することによって作製され得る。エンドヌクレアーゼ(制限酵素と呼ばれることもある)は、dsDNA分子の一方または両方の末端の特定の部位(制限部位と呼ばれることもある)を標的化し、互い違いの切断(消化と呼ばれることもある)を作り出し、それにより粘着末端を残し得る。制限消化物に関する化学的方法のセクションCを参照されたい。消化物は、回文オーバーハング(それ自体の逆相補体である配列を有するオーバーハング)を残し得る。そうである場合、同じエンドヌクレアーゼで消化された2つの成分は相補的な粘着末端を形成し得、それに沿ってリガーゼとアセンブリされ得る。エンドヌクレアーゼとリガーゼが適合性である場合、消化とライゲーションは同じ反応で一緒に行われ得る。反応は、4、10、16、25、または37℃等の均一な温度で起こり得る。または、反応は、16℃~37℃等の複数の温度間で循環してもよい。複数の温度間でのサイクルは、サイクルの異なる部分の間にそれぞれの最適温度で消化およびライゲーションをそれぞれ進行させることを可能にし得る。
消化およびライゲーションを別々の反応で行うことが有益であり得る。例えば、所望のリガーゼおよび所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。または、例えば、ライゲーションされた産物がエンドヌクレアーゼのための新しい制限部位を形成する場合。これらの例では、制限消化、次いでライゲーションを別々に行うことがより良好であり得、おそらくライゲーションの前に制限酵素を除去することがさらに有益であり得る。核酸は、フェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、および/またはシリカ膜吸着、洗浄、および溶出によって酵素から分離することができる。複数のエンドヌクレアーゼを同じ反応で使用してもよいが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするように注意すべきである。2つのエンドヌクレアーゼを使用して、dsDNA成分の両端に直交する(非相補的な)粘着末端を作製することができる。
エンドヌクレアーゼ消化は、リン酸化5’末端を有する粘着末端を残すことができる。リガーゼは、リン酸化5’末端でのみ機能し得、非リン酸化5’末端では機能し得ない。したがって、消化とライゲーションとの間に中間体5’リン酸化工程は必要ない場合がある。その粘着末端に回文オーバーハングを有する消化されたdsDNA成分は、それ自体にライゲーションし得る。自己ライゲーションを防止するために、ライゲーションの前に当該dsDNA成分を脱リン酸化することが有益であり得る。
複数のエンドヌクレアーゼは、異なる制限部位を標的とし得るが、適合するオーバーハング(互いの逆相補体であるオーバーハング)を残し得る。2つのそのようなエンドヌクレアーゼを用いて作製された粘着末端のライゲーション産物は、ライゲーション部位にいずれかのエンドヌクレアーゼに対する制限部位を含まない集合産物をもたらし得る。そのようなエンドヌクレアーゼは、反復消化-ライゲーションサイクルを実施することによって2つのエンドヌクレアーゼのみを使用して複数の成分をプログラム可能にアセンブリすることができるバイオブリックアセンブリ等のアセンブリ方法の基礎を形成する。図24は、適合するオーバーハングを有するエンドヌクレアーゼBamHIおよびBglIIを使用する消化-ライゲーションサイクルの一例を示す。
いくつかの実施形態では、粘着末端を作製するために使用されるエンドヌクレアーゼは、IIS型制限酵素であり得る。これらの酵素は、それらの制限部位から特定の方向に固定数の塩基を切断するので、それらが生成するオーバーハングの配列はカスタマイズされ得る。オーバーハング配列は回文配列である必要はない。同じタイプのIIS制限酵素を使用して、同じ反応で、または複数の反応で複数の異なる粘着末端を作製することができる。さらに、1つまたは複数のIIS型制限酵素を使用して、同じ反応で、または複数の反応で適合するオーバーハングを有する成分を作製することができる。IIS型制限酵素によって生成される2つの粘着末端間のライゲーション部位は、それが新たな制限部位を形成しないように設計され得る。加えて、IIS型制限酵素部位は、それが粘着末端を有する成分を生成するときに制限酵素がそれ自体の制限部位を切断するようにdsDNA上に配置され得る。したがって、IIS型制限酵素から生成された複数の成分間のライゲーション産物は、制限部位を含まなくてもよい。
IIS型制限酵素をリガーゼと共に反応中に混合して、成分消化およびライゲーションを一緒に行うことができる。最適な消化およびライゲーションを促進するために、反応の温度を2またはそれを超える値の間で循環させることができる。例えば、消化は、37℃で最適に実施されてもよく、ライゲーションは、16℃で最適に実施されてもよい。より一般的には、反応は、少なくとも0、5、10、15、20、25、30、35、40、45、50、55、60もしくは65℃またはそれを上回る温度値の間で循環してもよい。組み合わせた消化およびライゲーション反応を使用して、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、もしくは20個またはそれを超える成分をアセンブリすることができる。IIS型制限酵素を利用して粘着末端を生成するアセンブリ反応の例としては、ゴールデンゲートアセンブリ(ゴールデンゲートクローニングとしても知られる)またはモジュラークローニング(MoCloとしても知られる)が挙げられる。
ライゲーションのいくつかの実施形態では、エキソヌクレアーゼを使用して、粘着末端を有する成分を作製することができる。3’エキソヌクレアーゼを使用して、dsDNAから3’末端をフィードバック(chew back)することにより、5’オーバーハングを作製することができる。同様に、5’エキソヌクレアーゼを使用して、dsDNAから5’末端をフィードバック(chew back)することにより、3’オーバーハングを作製することができる。異なるエキソヌクレアーゼは、異なる特性を有し得る。例えば、エキソヌクレアーゼは、それらのヌクレアーゼ活性の方向(5’から3’または3’から5’)、それらがssDNAに作用するかどうか、それらがリン酸化5’末端もしくは非リン酸化5’末端に作用するかどうか、それらがニック上で開始することができるかどうか、またはそれらが5’キャビティ、3’キャビティ、5’オーバーハングもしくは3’オーバーハング上でそれらの活性を開始することができるかどうかにおいて異なり得る。様々なタイプのエキソヌクレアーゼには、ラムダエキソヌクレアーゼ、RecJ、エキソヌクレアーゼIII、エキソヌクレアーゼI、エキソヌクレアーゼT、エキソヌクレアーゼV、エキソヌクレアーゼVIII、エキソヌクレアーゼVII、ヌクレアーゼBAL_31、T5エキソヌクレアーゼ、およびT7エキソヌクレアーゼが含まれる。
エキソヌクレアーゼは、複数の成分をアセンブリするためにリガーゼと共に反応に使用され得る。反応は、それぞれリガーゼまたはエキソヌクレアーゼにとって理想的な複数の温度間の固定温度またはサイクルで起こり得る。ポリメラーゼは、リガーゼおよび5’から3’へのエキソヌクレアーゼとのアセンブリ反応に含まれ得る。そのような反応における成分は、互いに近接してアセンブリするように意図された成分がそれらのエッジで相同配列を共有するように設計され得る。例えば、成分Yとアセンブリされる成分Xは、形態5’-z-3’の3’エッジ配列を有し得、成分Yは、形態5’-z-3’の5’エッジ配列を有し得、ここで、zは任意の核酸配列である。そのような形態の相同なエッジ配列は、「ギブソンオーバーラップ」と呼ばれることがある。5’エキソヌクレアーゼがギブソンオーバーラップを有するdsDNA成分の5’末端を噛み返すと、それは互いにハイブリダイズする適合性の3’オーバーハングを形成する。次いで、ハイブリダイズした3’末端は、ポリメラーゼの作用によって鋳型成分の末端まで、または1つの成分の伸長した3’オーバーハングが近接する成分の5’キャビティと出会う点まで伸長され、それによってリガーゼによって密封され得るニックを形成し得る。ポリメラーゼ、リガーゼおよびエキソヌクレアーゼが一緒に使用されるこのようなアセンブリ反応は、「ギブソンアセンブリ」と呼ばれることが多い。ギブソンアセンブリは、T5エキソヌクレアーゼ、PhusionポリメラーゼおよびTaqリガーゼを使用し、反応物を50℃でインキュベートすることによって行うことができる。当該例では、好熱性リガーゼTaqの使用は、反応中の3種類全ての酵素に適した温度である摂氏50度で反応を進行させることを可能にする。
「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、およびエキソヌクレアーゼを含む任意のアセンブリ反応を指し得る。ギブソンアセンブリは、少なくとも2、3、4、5、6、7、8、9、10またはそれを超える成分をアセンブリするために使用されてもよい。ギブソンアセンブリは、1段階の等温反応として、または1もしくはそれを超える温度インキュベーションとの多段階反応として起こり得る。例えば、ギブソンアセンブリは、少なくとも30、40、50、60、または70℃またはそれ未満の温度で生じ得る。ギブソンアセンブリのインキュベーション時間は、少なくとも1、5、10、20、40、または80分であり得る。
ギブソンアセンブリ反応は、意図された近接成分間のギブソンオーバーラップが特定の長さであり、ヘアピン、ホモ二量体または望ましくないヘテロ二量体等の望ましくないハイブリダイゼーション事象を回避する配列等の配列特徴を有する場合に最適に起こり得る。一般に、少なくとも20塩基のギブソンオーバーラップが推奨される。しかし、ギブソンオーバーラップは、少なくとも1、2、3、5、10、20、30、40、50、60、100塩基長またはそれを超える塩基長であり得る。ギブソンオーバーラップのGC含有量は、0%~100%のいずれかであり得る。
ギブソンアセンブリは一般に5’エキソヌクレアーゼで記載されているが、反応は3’エキソヌクレアーゼでも起こり得る。3’エキソヌクレアーゼがdsDNA成分の3’末端を噛み返すと、ポリメラーゼは3’末端を伸長することによって作用に対抗する。この動的プロセスは、2つの成分(ギブソンオーバーラップを共有する)の5’オーバーハング(エキソヌクレアーゼによって生成される)がハイブリダイズし、ポリメラーゼが1つの成分の3’末端をその近接する成分の5’末端を満たすのに十分遠くまで伸長させ、それによってリガーゼによって密封され得るニックを残すまで継続し得る。
ライゲーションのいくつかの実施形態では、酵素的ではなく、完全な相補性を共有しない2つの一本鎖核酸またはオリゴを一緒に混合することによって、粘着末端を有する成分を合成的に作製することができる。例えば、2つのオリゴ、オリゴXおよびオリゴYは、一方または両方のオリゴの全体を構成するより大きな一連の塩基の部分文字列を形成する連続した一連の相補的塩基に沿ってのみ完全にハイブリダイズするように設計され得る。この相補的な塩基列は、「インデックス領域」と呼ばれる。インデックス領域がオリゴXの全体およびオリゴYの5’末端のみを占有する場合、オリゴは一緒になって、一方の側が平滑末端であり、他方の側が粘着末端であり、オリゴYから3’オーバーハングを有する成分を形成する(図25A)。インデックス領域がオリゴXの全体およびオリゴYの3’末端のみを占有する場合、オリゴは一緒になって、一方の側が平滑末端であり、他方の側が粘着末端であり、オリゴYから5’オーバーハングを有する成分を形成する(図25B)。インデックス領域がオリゴXの全体を占め、オリゴYのいずれの末端も占めない場合(インデックス領域がオリゴYの中央に埋め込まれていることを意味する)、オリゴは一緒になって、一方の側がオリゴYから3’オーバーハングし、他方の側がオリゴYから5’オーバーハングした粘着末端を有する成分を形成する(図25C)。インデックス領域がオリゴXの5’末端のみおよびオリゴYの5’末端のみを占有する場合、オリゴは一緒になって、一方の側がオリゴYから3’オーバーハングし、他方の側がオリゴXから3’オーバーハングした粘着末端を有する成分を形成する(図25D)。インデックス領域がオリゴXの3’末端のみおよびオリゴYの3’末端のみを占有する場合、オリゴは一緒になって、一方の側がオリゴYから5’オーバーハングし、他方の側がオリゴXから5’オーバーハングした粘着末端を有する成分を形成する(図25E)。上述の例では、オーバーハングの配列は、インデックス領域の外側のオリゴ配列によって定義される。これらのオーバーハング配列は、成分がライゲーションのためにハイブリダイズする領域であるので、ハイブリダイゼーション領域と呼ばれ得る。
粘着末端ライゲーションにおけるオリゴのインデックス領域およびハイブリダイゼーション領域(複数可)は、成分の適切なアセンブリを容易にするように設計され得る。長い突出部を有する成分は、短いオーバーハングを有する成分と比較して、所与のアニーリング温度でより効率的に互いにハイブリダイズすることができる。オーバーハングは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、30、またはそれを超える塩基の長さを有し得る。
高いグアニンまたはシストシン含有量を含むオーバーハングを有する成分は、低いグアニンまたはシトシン含有量を含むオーバーハングを有する成分よりも所与の温度でそれらの相補的成分に効率的にハイブリダイズし得る。これは、グアニンがシトシンと、アデニンがチミンとより安定な塩基対を形成するためである。オーバーハングは、0%~100%のいずれかのグアニンまたはシトシン含有量(GC含有量としても知られる)を有し得る。
オーバーハング配列と同様に、オリゴのGC含有量およびインデックス領域の長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上部ストランドおよび下部ストランドが安定して結合されている場合、粘着末端成分がより効率的にアセンブリされ得るからである。したがって、インデックス領域は、より高いGC含有量、より長い配列、およびより高い融解温度を促進する他の特徴を有するように設計され得る。しかしながら、インデックス領域およびオーバーハング配列(複数可)の両方について、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計のさらなる態様が存在する。例えば、成分内の望ましくない二次構造の形成は、意図された近接する成分とアセンブリされた製品を形成するその能力を妨げる可能性がある。これは、インデックス領域、オーバーハング配列、またはその両方の二次構造のいずれかに起因して起こり得る。これらの二次構造はヘアピンループを含むことができる。オリゴの可能な二次構造の種類およびそれらの安定性(例えば、計量温度)は、配列に基づいて予測することができる。設計空間探索アルゴリズムを使用して、潜在的に阻害性の二次構造を有する配列を回避しながら、有効成分の形成のための適切な長さおよびGC含有量基準を満たすオリゴ配列を決定することができる。設計空間探索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック探索アルゴリズム、タブー探索のようなメタヒューリスティック探索戦略、分岐限定探索アルゴリズム、動的プログラミングベースのアルゴリズム、制約付き組み合わせ最適化アルゴリズム、勾配降下ベースのアルゴリズム、ランダム化探索アルゴリズム、またはそれらの組み合わせを含み得る。
同様に、ホモ二量体(同じ配列のオリゴとハイブリダイズするオリゴ)および望ましくないヘテロ二量体(意図するアセンブリパートナー以外の他のオリゴとハイブリダイズするオリゴ)の形成は、ライゲーションを妨害し得る。成分内の二次構造と同様に、ホモ二量体およびヘテロ二量体の形成は、計算方法および設計空間探索アルゴリズムを使用してオリゴ設計中に予測および説明することができる。
より長いオリゴ配列またはより高いGC含有量は、ライゲーション反応内で望ましくない二次構造、ホモ二量体およびヘテロ二量体の形成の増加をもたらし得る。したがって、いくつかの実施形態では、より短いオリゴまたはより低いGC含有量の使用は、より高いアセンブリ効率をもたらし得る。これらの設計原理は、より効率的なアセンブリのために長いオリゴまたは高いGC含有量を使用する設計戦略を妨げる可能性がある。したがって、ライゲーションアセンブリ効率が最適化されるように、各成分を構成するオリゴの最適な長さおよび最適なGC含有量が存在し得る。ライゲーションに使用されるオリゴの全長は、少なくとも10、20、30、40、50、60、70、80、90、もしくは100塩基、またはそれを上回ってもよい。ライゲーションに使用されるオリゴの全GC含有量は、0%~100%のいずれかであり得る。
粘着末端ライゲーションに加えて、ライゲーションはまた、ステープル(または鋳型または架橋)鎖を使用して一本鎖核酸間で起こり得る。この方法は、ステープルストランドライゲーション(SSL)、鋳型指向性ライゲーション(TDL)、またはブリッジストランドライゲーションと呼ばれることがある。3つの核酸をアセンブリするためのTDLの例示的な概略図については図14Aを参照されたい。TDLでは、2つの一本鎖核酸が鋳型上に近接してハイブリダイズし、したがってリガーゼによって密封され得るニックを形成する。粘着末端ライゲーションのための同じ核酸設計の考慮事項がTDLにも適用される。鋳型とそれらの意図される相補的核酸配列との間のより強いハイブリダイゼーションは、ライゲーション効率の増加をもたらし得る。したがって、鋳型の両側のハイブリダイゼーション安定性(または融解温度)を改善する配列特徴は、ライゲーション効率を改善し得る。これらの特徴は、より長い配列長およびより高いGC含有量を含み得る。鋳型を含むTDL中の核酸の長さは、少なくとも5、10、20、30、40、50、60、70、80、90もしくは100塩基、またはそれを上回ってもよい。鋳型を含む核酸のGC含有量は、0%~100%のいずれかであり得る。
TDLでは、粘着末端ライゲーションと同様に、配列空間探索アルゴリズムを有する核酸構造予測ソフトウェアを使用することによって、望ましくない二次構造を回避する成分および鋳型配列を設計することに注意を払うことができる。TDL中の成分は二本鎖ではなく一本鎖であり得るため、露出した塩基に起因して(粘着末端ライゲーションと比較して)望ましくない二次構造の発生率がより高くなり得る。
TDLはまた、平滑末端dsDNA成分を用いて実施され得る。そのような反応では、ステープル鎖が2つの一本鎖核酸を適切に架橋するために、ステープルは最初に完全な一本鎖相補体を置換または部分的に置換する必要があり得る。dsDNA成分とのTDL反応を促進するために、dsDNAは、最初に高温でのインキュベーションによって融解され得る。次いで、反応物を冷却して、ステープルストランドをそれらの適切な核酸相補体にアニールさせることができる。このプロセスは、dsDNA成分と比較して比較的高濃度の鋳型を使用することによってさらに効率的にすることができ、したがって鋳型が結合のための適切な全長ssDNA相補体を打ち負かすことを可能にする。2つのssDNA鎖がそれらの鋳型およびリガーゼによって構築されると、その構築された核酸は、反対の全長ssDNA相補体の鋳型になり得る。したがって、平滑末端dsDNAとTDLとのライゲーションは、複数回の融解(高温でのインキュベーション)およびアニーリング(低温でのインキュベーション)によって改善され得る。このプロセスは、リガーゼサイリング反応またはLCRと呼ばれることがある。適切な融解温度およびアニーリング温度は、核酸配列に依存する。溶融およびアニーリング温度は、少なくとも4、10、20、20、30、40、50、60、70、80、90、または100℃であってもよい。温度サイクルの数は、少なくとも1、5、10、15、20、15、30、またはそれを超えてもよい。
全てのライゲーションは、固定温度反応または多温度反応で行うことができる。ライゲーション温度は、少なくとも0、4、10、20、20、30、40、50もしくは60℃、またはそれを上回ってもよい。リガーゼ活性のための最適温度は、リガーゼのタイプに応じて異なり得る。さらに、成分が反応において隣接またはハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度は、より速い拡散を促進し、したがって成分が一時的に隣接またはハイブリダイズする頻度を増加させ得る。しかしながら、温度の上昇はまた、塩基対結合を破壊し、したがって、それらの隣接またはハイブリダイズした成分二重鎖の安定性を低下させ得る。ライゲーションに最適な温度は、構築される核酸の数、それらの核酸の配列、リガーゼの種類、ならびに反応添加剤等の他の因子に依存し得る。例えば、4塩基相補的オーバーハングを有する2つの粘着末端成分は、T4リガーゼを用いた25℃よりもT4リガーゼを用いた4℃でより速く集合し得る。しかし、25塩基の相補的オーバーハングを有する2つの粘着末端成分は、T4リガーゼを用いた4℃よりもT4リガーゼを用いた25℃でより速く、おそらく任意の温度での4塩基オーバーハングを用いたライゲーションよりも速く集合することができる。ライゲーションのいくつかの実施形態では、リガーゼ添加の前にアニーリングのために成分を加熱し、ゆっくり冷却することが有益であり得る。
ライゲーションは、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれを超える核酸をアセンブリするために使用され得る。ライゲーションインキュベーション時間は、最大で30秒、1分、2分、5分、10分、20分、30分、1時間、またはそれより長くてもよい。より長いインキュベーション時間は、ライゲーション効率を改善し得る。
ライゲーションは、5’リン酸化末端を有する核酸を必要とし得る。5’リン酸化末端を有しない核酸成分は、T4ポリヌクレオチドキナーゼ(またはT4 PNK)等のポリヌクレオチドキナーゼとの反応においてリン酸化され得る。他の補因子、例えばATP、マグネシウムイオンまたはDTTが反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏37度で30分間起こり得る。ポリヌクレオチドキナーゼ反応温度は、少なくとも4、10、20、20、30、40、50、または60℃であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大でも1分、5分、10分、20分、30分、60分、またはそれを超えてもよい。あるいは、核酸成分は、改変された5’リン酸化を用いて(酵素的ではなく)合成的に設計および製造されてもよい。5’末端で構築されている核酸のみがリン酸化を必要とし得る。例えば、TDL中の鋳型は、それらがアセンブリされることを意図していないので、リン酸化されていなくてもよい。
ライゲーション効率を改善するために、添加剤をライゲーション反応に含めてもよい。例えば、ジメチルスルホキシド(DMSO)、ポリエチレングリコール(PEG)、1,2-プロパンジオール(1,2-Prd)、グリセロール、Tween(登録商標)-20またはそれらの組み合わせの添加。PEG6000は、特に有効なライゲーションエンハンサであり得る。PEG6000は、クラウディング剤として作用することによってライゲーション効率を高め得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占め、リガーゼおよび成分をより近接させる凝集した結節を形成し得る。添加剤の含有量(体積当たりの重量)は、少なくとも0%、1%、5%、10%、20%、またはそれを超えてもよい。
ライゲーションには様々なリガーゼが使用され得る。リガーゼは、天然に存在し得るか、または合成され得る。リガーゼの例としては、T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、Taq DNAリガーゼ、9°NTMDNAリガーゼ、大腸菌DNAリガーゼおよびSplintR DNAリガーゼが挙げられる。異なるリガーゼは安定であり得、異なる温度で最適に機能し得る。例えば、Taq DNAリガーゼは熱安定性であり、T4 DNAリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる特性を有する。例えば、T4 DNAリガーゼは平滑末端dsDNAをライゲーションし得るが、T7 DNAリガーゼはライゲーションし得ない。
ライゲーションは、配列決定アダプタを核酸のライブラリに結合させるために使用され得る。例えば、ライゲーションは、核酸ライブラリの各メンバーの末端に共通の粘着末端またはステープルを用いて実施され得る。核酸の一方の末端の粘着末端またはステープルが他方の末端の粘着末端またはステープルと異なる場合、シーケンシングアダプタは非対称的にライゲーションされ得る。例えば、順方向配列決定アダプタを核酸ライブラリのメンバーの一末端にライゲーションしてもよく、逆方向配列決定アダプタを核酸ライブラリのメンバーの他末端にライゲーションしてもよい。あるいは、平滑末端ライゲーションを使用して、平滑末端二本鎖核酸のライブラリにアダプタを取り付けることができる。フォーク型アダプタを使用して、各末端(A尾部等)が同等である平滑末端または粘着末端のいずれかを有する核酸ライブラリにアダプタを非対称に取り付けることができる。
ライゲーションは、熱不活性化(例えば、65℃で少なくとも20分間のインキュベーション)、変性剤の添加、またはEDTA等のキレート剤の添加によって阻害され得る。
C.制限消化物
制限消化物は、制限エンドヌクレアーゼ(または制限酵素)が核酸上のそれらの同族制限部位を認識し、続いて当該制限部位を含有する核酸を切断(または消化)する反応である。I型、II型、III型、またはIV型の制限酵素を制限消化物に使用することができる。II型制限酵素は、核酸消化のための最も効率的な制限酵素であり得る。II型制限酵素は、回文制限部位を認識し、認識部位内の核酸を切断し得る。当該制限酵素(およびその制限部位)の例としては、AatII(GACGTC)、AfeI(AGCGCT)、ApaI(GGGCCC)、DpnI(GATC)、EcoRI(GAATTC)、NgeI(GCTAGC)等が挙げられる。DpnIおよびAfeI等のいくつかの制限酵素は、それらの制限部位を中央で切断して、平滑末端dsDNA産物を残し得る。EcoRIおよびAatII等の他の制限酵素は、それらの制限部位を中心からずらして切断し、それにより、粘着末端(または互い違いの末端)を有するdsDNA産物を残す。いくつかの制限酵素は、不連続な制限部位を標的とし得る。例えば、制限酵素AlwNIは、制限部位CAGNNNCTGを認識し、Nは、A、T、CまたはGのいずれかであり得る。制限部位は、少なくとも2、4、6、8、10、またはそれを超える塩基長であり得る。
一部のII型制限酵素は、その制限部位の外側で核酸を切断する。酵素は、IIS型制限酵素またはIIG型制限酵素のいずれかとして下位分類され得る。当該酵素は、非パリンドロームである制限部位を認識し得る。当該制限酵素の例としては、GAAACを認識し、さらに下流で2(同じ鎖)および6(反対の鎖)塩基の互い違いの切断をもたらすBbsIが挙げられる。別の例としては、GGTCTCを認識し、さらに下流に、互い違いの切断1(同じ鎖)および5(反対の鎖)塩基を生成するBsaIが挙げられる。当該制限酵素は、ゴールデンゲートアセンブリまたはモジュラークローニング(MoClo)に使用され得る。BcgI(IIG型制限酵素)等のいくつかの制限酵素は、その認識部位の両末端に互い違いの切断を生じさせ得る。制限酵素は、核酸をその認識部位から少なくとも1、5、10、15、20、またはそれを超える塩基を切断し得る。当該制限酵素は、それらの認識部位の外側に互い違いの切断を生じ得るため、得られる核酸オーバーハングの配列は任意に設計され得る。これは、結果として生じる核酸オーバーハングの配列が制限部位の配列にカップリングされる、それらの認識部位内に互い違いの切断を生じる制限酵素とは対照的である。制限消化物によって作り出される核酸オーバーハングは、少なくとも1、2、3、4、5、6、7、8塩基長またはそれを超える塩基長であり得る。制限酵素が核酸を切断する場合、得られた5’末端はリン酸を含有する。
1またはそれを超える核酸配列が制限消化反応に含まれ得る。同様に、1またはそれを超える制限酵素が制限消化反応において一緒に使用され得る。制限消化物は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、BSA、S-アデノシル-L-メチオニン(SAM)、またはそれらの組み合わせを含む添加剤および補因子を含有し得る。制限消化反応物を37℃で1時間インキュベートすることができる。制限消化反応は、少なくとも0、10、20、30、40、50、または60℃の温度でインキュベートすることができる。最適な消化温度は酵素に依存し得る。制限消化反応は、最大で1、10、30、60、90、120分、またはそれを超えてインキュベートされ得る。より長いインキュベーション時間は、消化の増加をもたらし得る。
D.核酸増幅
核酸増幅は、ポリメラーゼ連鎖反応またはPCRを用いて実行され得る。PCRでは、核酸の出発プール(鋳型プールまたは鋳型と呼ばれる)を、ポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTPおよびそれらの類縁体または変異体)、ならびにベタイン、DMSO、およびマグネシウムイオン等の追加の補因子および添加剤と組み合わせてもよい。鋳型は、一本鎖または二本鎖核酸であり得る。プライマーは、鋳型プール中の標的配列を補完してハイブリダイズするように合成的に構築された短い核酸配列であり得る。典型的には、PCR反応には2つのプライマーが存在し、1つは標的鋳型のトップ鎖上のプライマー結合部位を補完するためのものであり、もう1つは第1の結合部位の下流の標的鋳型のボトム鎖上のプライマー結合部位を補完するためのものである。これらのプライマーがそれらの標的に結合する5’から3’への配向は、それらの間で核酸配列を首尾よく複製および指数関数的に増幅するために、互いに対向していなければならない。「PCR」は、典型的には当該形態の反応を特に指し得るが、任意の核酸増幅反応を指すためにより一般的に使用されてもよい。
いくつかの実施形態では、PCRは、融解温度、アニーリング温度、および伸長温度の3つの温度間のサイクルを含み得る。融解温度は、二本鎖核酸を一本鎖核酸に変換し、ハイブリダイゼーション生成物および二次構造の形成を除去することを意図している。典型的には、溶融温度は高く、例えば摂氏95度を上回る。いくつかの実施形態では、溶融温度は、少なくとも摂氏96、97、98、99、100、101、102、103、104、または105度であってもよい。他の実施形態では、溶融温度は、最大95、94、93、92、91、または90℃であってもよい。より高い融解温度は、核酸およびそれらの二次構造の解離を改善するが、核酸またはポリメラーゼの分解等の副作用も引き起こし得る。溶融温度は、少なくとも1、2、3、4、5秒を上回って、例えば30秒、1分、2分、または3分にわたって反応に適用され得る。複雑な鋳型または長い鋳型を用いたPCRには、より長い初期融解温度段階が推奨され得る。
アニーリング温度は、プライマーとそれらの標的鋳型との間のハイブリダイゼーションの形成を促進することを意図している。いくつかの実施形態では、アニーリング温度は、プライマーの計算された融解温度と一致し得る。他の実施形態では、アニーリング温度は、当該融解温度の摂氏10度またはそれを超えてもよい。いくつかの実施形態では、アニーリング温度は、少なくとも摂氏25、30、50、55、60、65、または70度であってもよい。融解温度は、プライマーの配列に依存し得る。より長いプライマーは、より高い融解温度を有し得、より高いパーセント含有量のグアニンヌクレオチドまたはシストシンヌクレオチドを有するプライマーは、より高い融解温度を有し得る。したがって、特定のアニーリング温度で最適に集合することを意図したプライマーを設計することが可能であり得る。アニーリング温度は、少なくとも1、5、10、15、20、25、または30秒、またはそれを上回って反応に適用され得る。アニーリングを確実にするのを助けるために、プライマー濃度は高量または飽和量であり得る。プライマー濃度は500ナノモル(nM)であり得る。プライマー濃度は、最大1nM、10nM、100nM、1000nMまたはそれを超えてもよい。
伸長温度は、1またはそれを超えるポリメラーゼ酵素によって触媒されるプライマーの3’末端核酸鎖伸長を開始および促進することを意図する。いくつかの実施形態では、伸長温度は、ポリメラーゼが核酸結合強度、伸長速度、伸長安定性または忠実度に関して最適に機能する温度に設定され得る。いくつかの実施形態では、伸長温度は、少なくとも摂氏30、40、50、60、または70度またはそれを上回ってもよい。アニーリング温度は、少なくとも1、5、10、15、20、25、30、40、50、または60秒またはそれを上回って反応に適用され得る。推奨される伸長時間は、予想伸長のキロベースあたりおよそ15~45秒であり得る。
PCRのいくつかの実施形態では、アニーリング温度および伸長温度は同じであり得る。したがって、3段階の温度サイクルの代わりに2段階の温度サイクルを使用してもよい。アニーリング温度と伸長温度の組み合わせの例は、摂氏60、65、または72度を含む。
いくつかの実施形態では、PCRは、1つの温度サイクルで実行され得る。そのような実施形態は、標的一本鎖鋳型核酸を二本鎖核酸に変換することを含み得る。他の実施形態では、PCRは複数の温度サイクルで実行されてもよい。PCRが効率的である場合、標的核酸分子の数は各サイクルで2倍になり、それによって元の鋳型プールからの標的核酸鋳型の数が指数関数的に増加すると予想される。PCRの効率は変動し得る。したがって、各回で複製される標的化核酸の実際の割合は、100%より大きくても小さくてもよい。各PCRサイクルは、突然変異核酸および組換え核酸等の望ましくないアーチファクトを導入する可能性がある。この潜在的な有害性を低減するために、高い忠実度および高い加工性を有するポリメラーゼを使用することができる。さらに、限られた数のPCRサイクルを使用することができる。PCRは、最大で1、5、10、15、20、25、30、35、40、45、またはそれを超えるサイクルを含み得る。
いくつかの実施形態では、複数の異なる標的核酸配列が1つのPCRで一緒に増幅され得る。各標的配列が共通のプライマー結合部位を有する場合、全ての核酸配列を同じプライマーセットで増幅することができる。あるいは、PCRは、それぞれの異なる核酸を標的とすることを意図した複数のプライマーを含み得る。当該PCRは、マルチプレックスPCRと称され得る。PCRは、最大で1、2、3、4、5、6、7、8、9、10またはそれを超える異なるプライマーを含み得る。複数の異なる核酸標的を用いるPCRでは、各PCRサイクルは標的核酸の相対分布を変化させ得る。例えば、均一な分布が歪んだり不均一に分布したりすることがある。この潜在的な有害性を低減するために、最適なポリメラーゼ(例えば、高い忠実度および配列ロバスト性を有す)および最適なPCR条件を使用することができる。アニーリングおよび伸長温度および時間等の要因を最適化することができる。さらに、限られた数のPCRサイクルを使用することができる。
PCRのいくつかの実施形態では、鋳型におけるその標的化されたプライマー結合部位に対する塩基ミスマッチを有するプライマーが、標的配列を変異させるために使用される場合がある。PCRのいくつかの実施形態では、その5’末端に余分な配列(オーバーハングとして知られる)を有するプライマーを使用して、その標的核酸に配列を結合させることができる。例えば、5’末端に配列決定アダプタを含むプライマーを使用して、配列決定のための核酸ライブラリを調製および/または増幅することができる。シーケンシングアダプタを標的とするプライマーを使用して、核酸ライブラリを増幅して特定の配列決定技術に十分に濃縮することができる。
いくつかの実施形態では、プライマーが鋳型の一方の鎖(両方の鎖ではない)のみを標的とする線形PCR(または非対称PCR)が使用される。線形PCRでは、各サイクルからの複製された核酸はプライマーに相補されないため、プライマーはそれに結合しない。したがって、プライマーは、各サイクルで元の標的鋳型を複製するだけであり、したがって線形(指数関数的とは対照的)増幅である。線形PCRからの増幅は従来の(指数関数的)PCRほど速くないかもしれないが、最大収率はより大きくなり得る。理論的には、線形PCRにおけるプライマー濃度は、従来のPCRの場合のように、サイクルの増加および収率の増加を伴う制限因子にならない可能性がある。線形指数関数的PCR(またはLATE-PCR)は、特に高収率が可能であり得る線形PCRの改変版である。
核酸増幅のいくつかの実施形態では、融解、アニーリングおよび伸長のプロセスは、単一の温度で起こり得る。このようなPCRは等温PCRと呼ばれることがある。等温PCRは、プライマー結合を優先して完全に相補された核酸鎖を互いに解離または置換するための温度に依存しない方法を活用し得る。戦略には、ループ媒介等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅、およびニッキング酵素増幅反応が含まれる。等温核酸増幅は、最大で摂氏20、30、40、50、60、もしくは70度またはそれを超える温度で起こり得る。
いくつかの実施形態では、PCRは、サンプル中の核酸の量を定量するための蛍光プローブまたは色素をさらに含み得る。例えば、色素は、二本鎖核酸に内挿され得る。当該染料の一例は、SYBR Greenである。蛍光プローブはまた、蛍光ユニットに結合した核酸配列であり得る。蛍光ユニットは、プローブの標的核酸へのハイブリダイゼーションおよびその後の伸長ポリメラーゼユニットからの修飾時に放出され得る。当該プローブの例としては、Taqmanプローブが挙げられる。そのようなプローブは、サンプル中の核酸濃度を定量するためにPCRおよび光学測定ツール(励起および検出用)と併せて使用され得る。このプロセスは、定量PCR(qPCR)またはリアルタイムPCR(rtPCR)と呼ばれることがある。
いくつかの実施形態では、PCRは、複数の鋳型分子のプールではなく、単一の分子鋳型で(単一分子PCRと呼ばれ得るプロセスで)実施され得る。例えば、エマルジョン-PCR(ePCR)を使用して、単一の核酸分子を油エマルジョン内の液滴内に封入することができる。液滴はまた、PCR試薬を含有してもよく、液滴は、PCRに必要な温度サイクルが可能な温度制御された環境に保持されてもよい。このようにして、複数の自己完結型PCR反応が高スループットで同時に起こり得る。油エマルジョンの安定性は、界面活性剤で改善され得る。液滴の移動は、マイクロ流体チャネルを通る圧力によって制御することができる。マイクロ流体デバイスを使用して、液滴を生成し、液滴を分割し、液滴を併合し、材料を液滴内に注入し、液滴をインキュベートすることができる。油エマルジョン中の液滴のサイズは、少なくとも1ピコリットル(pL)、10pL、100pL、1ナノリットル(nL)、10nL、100nL、またはそれを超えてもよい。
いくつかの実施形態では、単一分子PCRは、1つの固相基質に対して行われ得る。例えば、Illumina固相増幅法またはその変形例が挙げられる。鋳型プールは、固相基質に曝露され得、固相基質は、一定の空間分解能で鋳型を固定化し得る。次いで、ブリッジ増幅が各鋳型の空間的近傍内で起こり得、それにより、単一分子が基板上で高スループット様式で増幅される。
ハイスループット単一分子PCRは、互いに干渉し得る別個の核酸のプールを増幅するのに有用であり得る。例えば、複数の異なる核酸が共通の配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、新たな組換え核酸がもたらされ得る。単一分子PCRは、異なる核酸配列を互いに区画化して相互作用しない可能性があるため、この潜在的な増幅エラーを防ぐであろう。単一分子PCRは、配列決定のための核酸の調製に特に有用であり得る。単一分子PCRマットはまた、鋳型プール内のいくつかの標的の絶対定量にも有用である。例えば、デジタルPCR(またはdPCR)は、異なる単一分子PCR増幅シグナルの頻度を使用して、サンプル中の出発核酸分子の数を推定する。
PCRのいくつかの実施形態では、核酸の群は、全ての核酸に共通のプライマー結合部位のためのプライマーを使用して無差別に増幅され得る。例えば、プール中の全ての核酸に隣接するプライマー結合部位用のプライマー。合成核酸ライブラリは、一般的な増幅のためにこれらの共通部位を用いて作成または構築され得る。しかしながら、いくつかの実施形態では、PCRを使用して、プールから標的化された核酸サブセットを選択的に増幅することができる。例えば、当該標的化された核酸サブセット上にのみ現れるプライマー結合部位を有するプライマーを使用することによって。合成核酸ライブラリは、より一般的なライブラリからのサブライブラリの選択的増幅のために、目的の潜在的なサブライブラリに属する核酸が全てそれらのエッジに共通のプライマー結合部位を共有する(サブライブラリ内では共通であるが、他のサブライブラリとは異なる)ように作製または構築され得る。いくつかの実施形態では、PCRを核酸アセンブリ反応(ライゲーションまたはOEPCR等)と組み合わせて、部分的にアセンブリされたまたは誤ってアセンブリされた(または意図せずもしくは望ましくない)副生成物から完全にアセンブリされたまたは潜在的に完全にアセンブリされた核酸を選択的に増幅することができる。例えば、アセンブリは、完全にアセンブリされた核酸産物のみが増幅に必要な2つのプライマー結合部位を含むように、各エッジ配列上のプライマー結合部位を用いて核酸をアセンブリすることを含み得る。当該例では、部分的にアセンブリされた産物は、プライマー結合部位を有するエッジ配列のいずれも含まないか、または1つのみを含み得、したがって増幅されるべきではない。同様に、誤ってアセンブリされた(または意図せずもしくは望ましくない)生成物は、エッジ配列のいずれも含まないか、一方のみ含むか、または両方のエッジ配列を含むが、誤った向きであるか、または誤った量の塩基によって分離されている可能性がある。したがって、当該誤ってアセンブリされた生成物は、誤った長さの生成物を生成するために増幅または増幅されるべきではない。後者の場合、増幅された誤った長さの誤ってアセンブリされた生成物は、核酸サイズ選択法(例えば、アガロースゲルにおけるDNA電気泳動、その後のゲル抽出)によって、増幅された完全にアセンブリされた正しい長さの生成物から分離され得る(化学的方法のセクションEを参照されたい)。
核酸増幅の効率を改善するために、添加剤をPCRに含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、またはそれらの組み合わせの添加。添加剤の含有量(体積当たりの重量)は、少なくとも0%、1%、5%、10%、20%、またはそれを超えてもよい。
PCRには種々のポリメラーゼを使用することができる。ポリメラーゼは、天然に存在し得るか、または合成され得る。ポリメラーゼの例は、Φ29ポリメラーゼまたはその誘導体である。いくつかの場合、転写酵素またはリガーゼは、ポリメラーゼと共に、または新しい核酸配列を構築するためのポリメラーゼの代替として使用される(すなわち、結合の形成を触媒する酵素)。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼ、大腸菌DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、白金Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobest、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’のエキソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、ならびにその変異体、修飾生成物および誘導体が挙げられる。異なるポリメラーゼは安定であり得、異なる温度で最適に機能し得る。さらに、異なるポリメラーゼは異なる特性を有する。例えば、Phusionポリメラーゼ等のいくつかのポリメラーゼは、3’から5’のエキソヌクレアーゼ活性を示し得、これは核酸伸長中のより高い忠実度に寄与し得る。一部のポリメラーゼは伸長中にリーディング配列を置換し得るが、他のポリメラーゼはそれらを分解するかまたは伸長を停止し得る。Taqのようないくつかのポリメラーゼは、核酸配列の3’末端にアデニン塩基を組み込む。さらに、いくつかのポリメラーゼは、他のポリメラーゼよりも高い忠実度および加工性を有することができ、増幅された核酸収量が最小限の突然変異を有することが重要であり、異なる核酸の分布が増幅全体にわたって均一な分布を維持することが重要である場合、配列決定調製等のPCR用途により適していることができる。
E.サイズ選択
特定のサイズの核酸は、サイズ選択技術を使用してサンプルから選択され得る。いくつかの実施形態では、サイズ選択は、ゲル電気泳動またはクロマトグラフィーを使用して行われ得る。核酸の液体サンプルは、固定相またはゲル(またはマトリクス)の一方の末端にロードされ得る。電圧差は、ゲルの負の末端が核酸サンプルがロードされる末端であり、ゲルの正の末端が反対の末端であるように、ゲルを横切って配置され得る。核酸は負に帯電したリン酸骨格を有するので、それらはゲルを横切って正の末端に移動する。核酸のサイズは、ゲルを通る移動の相対速度を決定する。したがって、異なるサイズの核酸は、移動するにつれてゲル上で分解する。電圧差は、100Vまたは120Vであってもよい。電圧差は、最大で50V、100V、150V、200V、250V、またはそれを超えてもよい。より大きな電圧差は、核酸移動の速度およびサイズ分解能を増加させ得る。しかしながら、より大きな電圧差はまた、核酸またはゲルを損傷し得る。より大きなサイズの核酸を分割するために、より大きな電圧差が推奨され得る。典型的な泳動時間は、15分~60分であり得る。移行時間は、最大で10分、30分、60分、90分、120分、またはそれを超えてもよい。より長い移動時間は、より高い電圧と同様に、より良好な核酸分解をもたらし得るが、核酸損傷の増加をもたらし得る。より大きなサイズの核酸を分割するために、より長い移動時間が推奨され得る。例えば、120Vの電圧差および30分の泳動時間は、250塩基の核酸から200塩基の核酸を分割するのに十分であり得る。
ゲルまたはマトリクスの特性は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、典型的には、TAE(Tris-アセテート-EDTA)またはTBE(Tris-ボレート-EDTA)等の導電性バッファーに分散されたアガロースまたはポリアクリルアミド等のポリマー物質を含む。ゲル中の物質(例えば、アガロースまたはアクリルアミド)の含有量(体積当たりの重量)は、最大で5%、1%、2%、3%、5%、10%、15%、20%、25%、またはそれより高くてもよい。含有量が多いと、移動速度が低下する可能性がある。より小さい核酸を分解するためには、より高い含有量が好ましい場合がある。アガロースゲルは、二本鎖DNA(dsDNA)を分離するのにより良好であり得る。ポリアクリルアミドゲルは、一本鎖DNA(ssDNA)を分離するのにより良好であり得る。好ましいゲル組成物は、核酸の種類およびサイズ、添加剤の適合性(例えば、染料、染色剤、変性溶液またはローディングバッファー)ならびに予測される下流用途(例えば、ゲル抽出、次いでライゲーション、PCRまたは配列決定)に依存し得る。アガロースゲルは、ポリアクリルアミドゲルよりもゲル抽出が簡単であり得る。TAEは、TBEほど良好な導電体ではないが、抽出プロセスにおけるホウ酸塩(酵素阻害剤)のキャリーオーバが下流の酵素反応を阻害する可能性があるため、ゲル抽出にも良好であり得る。
ゲルは、SDS(ドデシル硫酸ナトリウム)または尿素等の変性溶液をさらに含んでもよい。SDSは、例えば、タンパク質を変性させるために、または潜在的に結合したタンパク質から核酸を分離するために使用され得る。尿素は、DNA中の二次構造を変性させるために使用され得る。例えば、尿素はdsDNAをssDNAに変換し得るか、または尿素は折り畳まれたssDNA(例えばヘアピン)を折り畳まれていないssDNAに変換し得る。尿素-ポリアクリルアミドゲル(さらにTBEを含む)は、ssDNAを正確に分割するために使用され得る。
サンプルは、異なるフォーマットのゲルに組み込むことができる。いくつかの実施形態では、ゲルは、サンプルが手動でロードされ得るウェルを含み得る。1つのゲルは、複数の核酸サンプルを実行するための複数のウェルを有し得る。他の実施形態では、ゲルは、核酸サンプル(複数可)を自動的にロードするマイクロ流体チャネルに取り付けられてもよい。各ゲルは、いくつかのマイクロ流体チャネルの下流にあってもよく、またはゲル自体がそれぞれ別個のマイクロ流体チャネルを占有してもよい。ゲルの寸法は、核酸検出(または視覚化)の感度に影響を及ぼし得る。例えば、マイクロ流体チャネル内の薄いゲルまたはゲル(例えば、バイオアナライザまたはタペステション内)は、核酸検出の感度を改善し得る。核酸検出工程は、正しいサイズの核酸断片を選択し抽出するために重要であり得る。
ラダーは、核酸サイズ参照のためにゲルにロードされ得る。ラダーは、核酸サンプルが比較され得る異なるサイズのマーカーを含み得る。異なるラダーは、異なるサイズ範囲および解像度を有することができる。例えば、50塩基ラダーは、50、100、150、200、250、300、350、400、450、500、550および600塩基のマーカーを有し得る。当該ラダーは、50塩基および600塩基のサイズ範囲内の核酸を検出および選択するのに有用であり得る。ラダーはまた、サンプル中の異なるサイズの核酸の濃度を推定するための標準として使用され得る。
核酸サンプルおよびラダーは、ゲル電気泳動(またはクロマトグラフィー)プロセスを容易にするためにローディングバッファーと混合され得る。ローディングバッファーは、核酸の移動を追跡するのを助ける色素およびマーカーを含み得る。ローディングバッファーは、核酸サンプルがサンプルローディングウェルの底部に確実に沈むようにするために(例えば、TAEまたはTBE)、ランニングバッファーよりも高密度の試薬(グリセロール等)をさらに含み得る(ランニングバッファーに浸漬され得る)。ローディングバッファーは、SDSまたは尿素等の変性剤をさらに含み得る。ローディングバッファーは、核酸の安定性を改善するための試薬をさらに含み得る。例えば、ローディングバッファーは、核酸をヌクレアーゼから保護するためにEDTAを含有し得る。
いくつかの実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用され得る染色剤を含み得る。染色は、dsDNA、ssDNA、またはその両方に特異的であり得る。異なる染色剤は、異なるゲル物質と適合し得る。一部の染色は、視覚化するために光源光(または電磁波)からの励起を必要とする場合がある。光源光は、UV(紫外線)または青色光であってもよい。いくつかの実施形態では、電気泳動の前に染色剤をゲルに添加することができる。他の実施形態では、電気泳動後に染色剤をゲルに添加してもよい。染色剤の例には、臭化エチジウム(EtBr)、SYBR Safe、SYBR Gold、銀染色剤、またはメチレンブルーが含まれる。特定のサイズのdsDNAを可視化するための信頼できる方法は、例えば、SYBR SafeまたはEtBr染色を含むアガロースTAEゲルを使用することであり得る。特定のサイズのssDNAを可視化するための信頼できる方法は、例えば、メチレンブルーまたは銀染色を有する尿素-ポリアクリルアミドTBEゲルを使用することであり得る。
いくつかの実施形態では、ゲルを通る核酸の移動は、電気泳動以外の他の方法によって駆動され得る。例えば、重力、遠心分離、真空または圧力を使用して、ゲルを通して核酸を駆動し、そのサイズに従って分解することができる。
特定のサイズの核酸を、ブレードまたはカミソリを使用してゲルから抽出して、核酸を含有するゲルのバンドを切除することができる。適切な光学検出技術およびDNAラダーを使用して、切除が特定のバンドで正確に行われ、切除が異なる望ましくないサイズバンドに属し得る核酸をうまく排除することを確実にすることができる。ゲルバンドをバッファーとインキュベートしてそれを溶解し、したがって核酸をバッファーに放出することができる。熱または物理的撹拌は溶解を促進し得る。あるいは、ゲルバンドは、ゲル溶解を必要とせずにバッファー中へのDNAの拡散を可能にするのに十分な長さでバッファー中でインキュベートされ得る。次いで、バッファーを、例えば吸引または遠心分離によって、残りの固相ゲルから分離することができる。次いで、フェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉および/またはシリカ膜吸着、洗浄および溶出等の標準的な精製またはバッファー交換技術を使用して、溶液から核酸を精製することができる。核酸はまた、この工程で濃縮され得る。
ゲル切除の代替として、特定のサイズの核酸をゲルから流出させることによってゲルから分離することができる。移動する核酸は、ゲルに埋め込まれているかまたはゲルの末端にあるかのいずれかのベイズン(またはウェル)を通過し得る。移動プロセスは、特定のサイズの核酸群がベイズンに入ると、サンプルがベイズンから収集されるように、時間を調整するかまたは光学的に監視することができる。収集は、例えば、吸引によって行うことができる。次いで、フェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉および/またはシリカ膜吸着、洗浄および溶出等の標準的な精製またはバッファー交換技術を使用して、収集した溶液から核酸を精製することができる。核酸はまた、この工程で濃縮され得る。
核酸サイズ選択のための他の方法は、質量分析または膜ベースの濾過を含み得る。膜ベースの濾過のいくつかの実施形態では、核酸は、dsDNA、ssDNA、またはその両方のいずれかに優先的に結合し得る膜(例えばシリカ膜)を通過する。膜は、少なくとも特定のサイズの核酸を優先的に捕捉するように設計され得る。例えば、膜は、20、30、40、50、70、90、またはそれを超える塩基よりも少ない核酸を濾別するように設計され得る。当該膜ベースのサイズ選択技術は、ゲル電気泳動またはクロマトグラフィーほど厳密でなくてもよい。
F.核酸捕捉
親和性タグ付き核酸は、核酸捕捉のための配列特異的プローブとして使用され得る。プローブは、核酸のプール内の標的配列を補完するように設計され得る。続いて、プローブを核酸プールとインキュベートし、その標的にハイブリダイズさせることができる。インキュベーション温度は、ハイブリダイゼーションを促進するためにプローブの融解温度より低くてもよい。インキュベーション温度は、プローブの融解温度より5、10、15、20、25℃まで、またはそれを超えて低くてもよい。ハイブリダイズした標的は、親和性タグに特異的に結合する固相基質に捕捉され得る。固相基板は、膜、ウェル、カラムまたはビーズであり得る。複数回の洗浄は、全ての非ハイブリダイズ核酸を標的から除去し得る。洗浄は、洗浄中の標的配列の安定な固定化を容易にするために、プローブの融解温度より低い温度で行われ得る。洗浄温度は、プローブの融解温度よりも5、10、15、20、25℃まで、またはそれを超えて低くてもよい。最終溶出工程は、固相-基質ならびに親和性タグ付きプローブから核酸標的を回収し得る。溶出工程は、核酸標的の溶出バッファーへの放出を促進するために、プローブの融解温度より高い温度で行われ得る。溶出温度は、プローブの融解温度より5、10、15、20、25℃まで、またはそれを超えて上回ってもよい。
いくつかの実施形態では、ビオチンは、固相基質上にストレプトアビジンによって固定化される親和性タグとして使用され得る。核酸捕捉プローブとして使用するためのビオチン化オリゴを設計および製造することができる。オリゴは、5’末端または3’末端がビオチン化されていてもよい。それらはまた、チミン残基上で内部的にビオチン化され得る。オリゴ上のビオチンの増加は、ストレプトアビジン基質上でのより強い捕捉をもたらし得る。オリゴの3’末端のビオチンは、PCR中にオリゴが伸長するのを阻止し得る。ビオチンタグは、標準的なビオチンの変異体であってもよい。例えば、ビオチン変異体は、ビオチン-TEG(トリエチレングリコール)、二重ビオチン、PCビオチン、デスチオビオチン-TEG、およびビオチンアジドであり得る。二重ビオチンは、ビオチン-ストレプトアビジン親和性を増加させ得る。ビオチン-TEGは、TEGリンカーによって分離された核酸上にビオチン基を結合させる。これにより、ビオチンが核酸プローブの機能、例えば標的へのそのハイブリダイゼーションを妨害するのを防ぐことができる。核酸ビオチンリンカーもまた、プローブに結合され得る。核酸リンカーは、標的にハイブリダイズすることを意図しない核酸配列を含み得る。
ビオチン化核酸プローブは、その標的にどれだけよくハイブリダイズし得るかを考慮して設計され得る。より高い設計融解温度を有する核酸プローブは、それらの標的により強くハイブリダイズし得る。より長い核酸プローブ、ならびにより高いGC含有量を有するプローブは、融解温度の上昇により、より強くハイブリダイズし得る。核酸プローブは、少なくとも5、10、15、20、30、40、50、または100塩基、またはそれを超える長さを有し得る。核酸プローブは、0~100%のいずれかのGC含有量を有し得る。プローブの融解温度がストレプトアビジン基質の温度許容範囲を超えないことを確実にするように注意してもよい。核酸プローブは、ヘアピン、ホモ二量体、およびオフターゲット核酸を有するヘテロ二量体等の阻害性二次構造を回避するように設計され得る。プローブ融解温度とオフターゲット結合との間にはトレードオフがあり得る。融解温度が高く、オフターゲット結合が低い最適なプローブ長およびGC含有量が存在し得る。合成核酸ライブラリは、その核酸が効率的なプローブ結合部位を含むように設計され得る。
固相ストレプトアビジン基質は磁性ビーズであってもよい。磁気ビーズは、磁気ストリップまたはプレートを使用して固定化され得る。磁気ストリップまたはプレートを容器と接触させて、磁気ビーズを容器に固定することができる。逆に、容器壁から溶液中に磁気ビーズを放出するために、容器から磁気ストリップまたはプレートを取り外してもよい。異なるビーズ特性がそれらの適用に影響を及ぼし得る。ビーズは様々なサイズを有し得る。例えば、ビーズは、直径1~3マイクロメートル(um)のいずれかであり得る。ビーズは、最大1、2、3、4、5、10、15、20マイクロメートル、またはそれを超える直径を有し得る。ビーズ表面は疎水性または親水性であり得る。ビーズは、ブロッキングタンパク質、例えばBSAでコーティングされ得る。使用前に、ビーズが核酸に非特異的に結合するのを防ぐために、ビーズを洗浄するか、またはブロッキング溶液等の添加剤で前処理することができる。
ビオチン化プローブは、核酸サンプルプールとのインキュベーションの前に磁性ストレプトアビジンビーズに結合され得る。このプロセスは、直接的捕捉と呼ばれることがある。あるいは、ビオチン化プローブは、磁性ストレプトアビジンビーズの添加前に核酸サンプルプールとインキュベートされ得る。このプロセスは、間接的捕捉と呼ばれることがある。間接的捕捉方法は、目標収率を改善することができる。より短い核酸プローブは、磁気ビーズに結合するのにより短い時間を必要とし得る。
核酸プローブと核酸サンプルとの最適なインキュベーションは、プローブの融解温度より1~10℃またはそれを超えて低い温度で行われ得る。インキュベーション温度は、最大で摂氏5、10、20、30、40、50、60、70、80度、またはそれを超えてもよい。推奨されるインキュベーション時間は1時間であり得る。インキュベーション時間は、最大で1、5、10、20、30、60、90、120分、またはそれを超えてもよい。より長いインキュベーション時間は、より良好な捕捉効率をもたらし得る。ビオチン-ストレプトアビジンカップリングを可能にするためにストレプトアビジンビーズを添加した後、さらに10分間のインキュベーションを行うことができる。この追加時間は、最大で1、5、10、20、30、60、90、120分、またはそれを超えてもよい。インキュベーションは、ナトリウムイオン等の添加剤を含む緩衝溶液中で行われ得る。
核酸プールが(二本鎖ではなく)一本鎖核酸である場合、その標的へのプローブのハイブリダイゼーションは改善され得る。dsDNAプールからssDNAプールを調製することは、プール中の全ての核酸配列のエッジに一般的に結合する1つのプライマーを用いて線形PCRを行うことを伴い得る。核酸プールが合成的に作製または構築される場合、この共通のプライマー結合部位は合成設計に含まれ得る。線形PCRの産物はssDNAとなる。より多くのサイクルの線形PCRを用いて、核酸捕捉のためのより多くの開始ssDNA鋳型を生成することができる。PCRについては、化学的方法のセクションDを参照されたい。
核酸プローブをそれらの標的にハイブリダイズさせ、磁気ストレプトアビジンビーズに結合させた後、ビーズを磁石によって固定化し、数回の洗浄を行うことができる。非標的核酸を除去するには3~5回の洗浄で十分であり得るが、より多いまたはより少ない回数の洗浄が使用され得る。各漸増洗浄は、非標的核酸をさらに減少させ得るが、標的核酸の収量も減少させ得る。洗浄工程中のプローブへの標的核酸の適切なハイブリダイゼーションを容易にするために、低いインキュベーション温度を使用することができる。60、50、40、30、20、10、もしくは5℃またはそれ未満低い温度を使用することができる。洗浄バッファーは、ナトリウムイオンを含むトリス緩衝溶液を含み得る。
磁気ビーズ結合プローブからのハイブリダイズした標的の最適な溶出は、プローブの融解温度と同等またはそれを超える温度で起こり得る。より高い温度は、プローブへの標的の解離を促進する。溶出温度は、最大で30、40、50、60、70、80、または90℃、またはそれを超えてもよい。溶出インキュベーション時間は、最大で1、2、5、10、30、60分またはそれを超えてもよい。典型的なインキュベーション時間はおよそ5分であり得るが、より長いインキュベーション時間は収率を改善し得る。溶出バッファーは、水またはEDTA等の添加剤を含むトリス緩衝溶液であり得る。
一組の異なる部位のうちの少なくとも1つ以上を含有する標的配列の核酸捕捉は、それらの部位の各々について複数の異なるプローブとの1回の反応で実施され得る。一組の別個の部位の全てのメンバーを含む標的配列の核酸捕捉は、一連の捕捉反応で行われ得、その特定の部位に対するプローブを使用して、各別個の部位に対して1つの反応が行われる。一連の捕捉反応後の標的収率は低くなり得るが、捕捉された標的はその後PCRで増幅され得る。核酸ライブラリが合成的に設計されている場合、標的は、PCRのための共通のプライマー結合部位を用いて設計され得る。
合成核酸ライブラリは、一般的な核酸捕捉のための共通のプローブ結合部位を用いて作成または構築され得る。これらの共通部位を使用して、完全にアセンブリされたまたは潜在的に完全にアセンブリされた核酸をアセンブリ反応から選択的に捕捉し、それによって部分的にアセンブリされたまたは誤ってアセンブリされた(または意図しないまたは望ましくない)副生成物を除去することができる。例えば、アセンブリは、完全にアセンブリされた核酸産物のみが、各プローブを使用して一連の2つの捕捉反応を通過するのに必要な必須の2つのプローブ結合部位を含むように、各エッジ配列上のプローブ結合部位と核酸をアセンブリすることを含み得る。当該例では、部分的にアセンブリされた産物は、プローブ部位のいずれも含まないか、または1つのみを含むことができ、したがって最終的に捕捉されるべきではない。同様に、誤ってアセンブリされた(または意図せずもしくは望ましくない)生成物は、エッジ配列のいずれも含まないか、またはいずれか1つのみを含み得る。したがって、当該誤ってアセンブリされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを高めるために、共通のプローブ結合部位をアセンブリの各成分に含めることができる。各成分に対するプローブを使用するその後の一連の核酸捕捉反応は、アセンブリ反応の任意の副生成物から完全にアセンブリされた生成物(各成分を含有する)のみを単離することができる。その後のPCRは標的濃縮を改善し得、その後のサイズ選択は標的ストリンジェンシーを改善し得る。
いくつかの実施形態では、核酸捕捉を使用して、プールから核酸の標的サブセットを選択的に捕捉することができる。例えば、当該標的化された核酸サブセット上にのみ現れる結合部位を有するプローブを使用することによって。合成核酸ライブラリは、より一般的なライブラリからのサブライブラリの選択的捕捉のために、目的の潜在的なサブライブラリに属する核酸が全て共通のプローブ結合部位(サブライブラリ内では共通であるが、他のサブライブラリとは異なる)を共有するように作成または構築され得る。
G.凍結乾燥
凍結乾燥は、脱水プロセスである。核酸および酵素の両方を凍結乾燥することができる。凍結乾燥物質は、より長い寿命を有し得る。化学的安定剤等の添加剤を使用して、凍結乾燥プロセスを通して機能性産物(例えば、活性酵素)を維持することができる。二糖類、例えばスクロースおよびトレハロースは、化学的安定剤として使用され得る。
H.DNA設計
合成ライブラリ(例えば、識別子ライブラリ)を構築するための核酸(例えば、成分)の配列は、合成、配列決定およびアセンブリの複雑さを回避するように設計され得る。さらに、それらは、合成ライブラリを構築するコストを低減し、合成ライブラリを格納することができる寿命を改善するように設計してもよい。
核酸は、合成が困難であり得るホモポリマーの長い文字列(または反復塩基配列)を回避するように設計され得る。核酸は、2、3、4、5、6、7またはそれを超える長さのホモポリマーを回避するように設計され得る。さらに、核酸は、それらの合成プロセスを阻害し得るヘアピンループ等の二次構造の形成を回避するように設計され得る。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成することができる。合成ライブラリを構築するための核酸は、短く設計され得る。より長い核酸は、合成がより困難で高価であり得る。より長い核酸はまた、合成中に突然変異の可能性がより高くなり得る。核酸(例えば、成分)は、最大で5、10、15、20、25、30、40、50、60またはそれを超える塩基であり得る。
アセンブリ反応において成分となる核酸は、そのアセンブリ反応を促進するように設計され得る。OEPCRおよびライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関するさらなる情報については、それぞれ付録AおよびBを参照されたい。効率的なアセンブリ反応は、典型的には、近接する成分間のハイブリダイゼーションを含む。配列は、潜在的なオフターゲットハイブリダイゼーションを回避しながら、これらのオンターゲットハイブリダイゼーション事象を促進するように設計され得る。核酸塩基修飾、例えばロックド核酸(LNA)は、オンターゲットハイブリダイゼーションを強化するために使用され得る。これらの修飾核酸は、例えば、ステープルストランドライゲーションにおけるステープルとして、または粘着性ストランドライゲーションにおける粘着末端として使用され得る。合成核酸ライブラリ(または識別子ライブラリ)を構築するために使用され得る他の修飾塩基としては、2,6-ジアミノプリン、5-ブロモdU、デオキシウリジン、逆dT、逆ジデオキシ-T、ジデオキシ-C、5-メチルdC、デオキシノシン、スーパーT、スーパーGまたは5-ニトロインドールが挙げられる。核酸は、1つまたは複数の同じまたは異なる修飾塩基を含み得る。当該修飾塩基のいくつかは、より高い融解温度を有する天然塩基類縁体(例えば、5-メチルdCおよび2,6-ジアミノプリン)であり、したがって、アセンブリ反応における特異的ハイブリダイゼーション事象を促進するために有用であり得る。当該修飾塩基のいくつかは、全ての天然塩基に結合することができるユニバーサル塩基(例えば、5-ニトロインドール)であり、したがって、望ましい結合部位内に可変配列を有し得る核酸とのハイブリダイゼーションを促進するのに有用であり得る。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、核酸プール内のそれらの標的核酸へのプライマーおよびプローブの特異的結合を促進し得るので、プライマー(例えば、PCR用)およびプローブ(例えば、核酸捕捉のために)において有用であり得る。それぞれ核酸増幅(またはPCR)および核酸捕捉に関するより多くの核酸設計の考慮事項については、化学的方法のセクションDおよびFを参照されたい。
核酸は、配列決定を容易にするように設計され得る。例えば、核酸は、二次構造、ホモポリマーのストレッチ、反復配列、およびGC含有量が高すぎるまたは低すぎる配列等の典型的な配列決定の複雑さを回避するように設計され得る。特定のシーケンサーまたは配列決定方法は、誤りやすい可能性がある。合成ライブラリ(例えば、識別子ライブラリ)を構成する核酸配列(または成分)は、互いに一定のハミング距離で設計され得る。このようにして、塩基分解能エラーが配列決定において高速で発生した場合でも、エラー含有配列のストレッチは依然として、それらの最も可能性の高い核酸(または成分)にマッピングし戻され得る。核酸配列は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15またはそれを超える塩基突然変異のハミング距離で設計され得る。ハミング距離からの代替的な距離メトリックを使用して、設計された核酸間の最小必要距離を定義することもできる。
いくつかの配列決定方法および装置は、アダプタ配列またはプライマー結合部位等の特定の配列を含む入力核酸を必要とし得る。これらの配列は、「方法固有配列」と称され得る。当該配列決定装置および方法の典型的な準備ワークフローは、方法特異的配列を核酸ライブラリにアセンブリすることを含み得る。しかしながら、合成核酸ライブラリ(例えば、識別子ライブラリ)が特定の機器または方法で配列決定されることが事前に分かっている場合、これらの方法特異的配列は、ライブラリ(例えば、識別子ライブラリ)を含む核酸(例えば、成分)に設計され得る。例えば、合成核酸ライブラリのメンバー自体が個々の核酸成分からアセンブリされる場合と同じ反応工程で、配列決定アダプタを合成核酸ライブラリのメンバー上にアセンブリすることができる。
核酸は、DNA損傷を促進し得る配列を回避するように設計され得る。例えば、部位特異的ヌクレアーゼのための部位を含む配列は、回避され得る。別の例として、UVB(紫外-B)光は、近接するチミンにピリミジン二量体を形成させ、次いで配列決定およびPCRを阻害し得る。したがって、合成核酸ライブラリがUVBに曝露された環境に格納されることを意図する場合、近接するチミン(すなわち、TT)または近接するシトシン(すなわち、CC)を回避するようにその核酸配列を設計することが有益であり得る。
化学的方法のセクションに含まれる全ての情報は、前述の技術、方法、プロトコル、システム、およびプロセスをサポートし、可能にすることを意図している。
実施例1:DNA分子中に1つのpoemを符号化、書き込みおよび読み取る。
符号化されるデータは、poemを含むテキストファイルである。データは、96個の成分の2つの層からのDNA成分を一緒に混合して、重複伸長PCRで実施される産物スキームを使用して識別子を構築するために、ピペットを用いて手動で符号化される。第1の層Xは、96個の全DNA成分を含む。第2の層Yも、合計96個の成分を含む。DNAを書き込む前に、データはバイナリにマッピングされ、次いで均一な重みフォーマットに記録され、元のデータの61ビットの全ての連続した(近接する不連続な)文字列は、正確に17ビット値の1を有する96ビット列に変換される。この均一な重みフォーマットは、自然なエラーチェック品質を有することができる。次いで、データは、96×96のテーブルにハッシュされて参照マップを形成する。
図22Aの中央パネルは、短冊を複数の識別子に符号化する96×96の表の二次元基準マップを示す。濃い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データは、96個の成分の2つの層を使用して識別子に符号化される。テーブルの各X値およびY値には成分が割り当てられ、XおよびY成分は、「1」値を有する各(X、Y)座標についてオーバーラップ拡張PCRを使用して識別子にアセンブリされる。各可能な(X、Y)アセンブリの存在または非存在を決定するために識別子ライブラリを配列決定することによって、データを読み取った(例えば、復号される)。
図の図22Aの右側のパネルは、配列決定によって決定された識別子ライブラリに存在する配列の存在量の二次元ヒートマップを示す。各ピクセルは、対応するXおよびY成分を含む分子を表し、そのピクセルでのグレースケール強度は、他の分子と比較したその分子の相対的存在量を表す。識別子は、各行において上位17個の最も豊富な(X、Y)集合とみなされる(均一重み符号化は、96ビットの各連続文字列が正確に17「1」個の値、したがって17個の対応する識別子を有し得ることを保証するため)。
実施例2:62824ビットのテキストファイルを符号化する。
符号化対象のデータは、合計62824ビットの3つのpoemのテキストファイルである。データは、Labcyte Echo(登録商標)Liquid Handlerを使用して符号化され、384成分の2つの層からのDNA成分を一緒に混合して、重複伸長PCRで実施される産物スキームを使用して識別子を構築する。第一の層Xは、384個の全DNA成分を含む。第2の層Yも、合計384個の成分を含む。DNAを書き込む前に、データはバイナリにマッピングされ、次いで、重み(’1’のビット値の数)を減少させ、チェックサムを含むように記録される。チェックサムは、192ビットのデータの連続文字列ごとにチェックサムに対応する識別子が存在するように確立される。再符号化されたデータは、構築される識別子の数に対応するおよそ10,100の重みを有する。次いで、データを384×384のテーブルにハッシュして、参照マップを形成することができる。
図22Bの中央パネルは、テキストファイルを複数の識別子に符号化する384×384テーブルの二次元参照マップを示す。各座標(X,Y)は、位置X+(Y-1)*192のデータのビットに対応する。黒点は「1」のビット値に対応し、白点は「0」のビット値に対応する。図の右側の黒い点はチェックサムであり、図の上部の黒い点のパターンはコードブック(例えば、データを復号するための辞書)である。テーブルの各X値およびY値には成分が割り当てられ得、XおよびY成分は、「1」値を有する各(X、Y)座標についてオーバーラップ拡張PCRを使用して識別子にアセンブリされる。各可能な(X、Y)アセンブリの存在または非存在を決定するために識別子ライブラリを配列決定することによって、データを読み取った(例えば、復号される)。
図22Bの右側のパネルは、配列決定によって決定された識別子ライブラリに存在する配列の存在量の二次元ヒートマップを示す。各ピクセルは、対応するXおよびY成分を含む分子を表し、そのピクセルでのグレースケール強度は、他の分子と比較したその分子の相対的存在量を表す。識別子は、各行の上位S個の最も豊富な(X、Y)アセンブリとみなされ、各行のSはチェックサム値であり得る。
実施例3:15片の粘着末端ライゲーションにおける5’対3’オーバーハングおよび4塩基対6塩基オーバーハングの比較
表1は、6/24/6 3’、6/24/6 5’、4/24/4 3’、および4/24/4 5’と標識された4つの異なる15個のDNA成分セットの測定されたライゲーション効率を示す。標識中の最初の3つの数字X/Y/Zは、一末端にX塩基オーバーハング、中央にY塩基二重鎖(またはバーコード)領域、他末端にZ塩基オーバーハングを有するセット中の各DNA成分の形態を示す。各ラベルの最後の数字(アポストロフィの前)は、セットのオーバーハングが5’であるか3’であるかを示している。ライゲーションを、0.067μMの各DNA成分、5CEU/μLのT4リガーゼ(CEU=凝集末端単位)、7.5%w/vのPEG6000、20%v/vのグリセロールおよび標準的なT4リガーゼバッファー部分を用いて37℃で行った。ライゲーション時間は2.5分であった。各可能なセットについて完全にライゲーションされた産物に相当する完全長対照(FLC)と比較してqPCRで効率を測定した。
表1.ライゲーション効率の測定
図26は、約450塩基の長さを有するそれぞれのFLCとともに、4つの異なる実験的ライゲーション反応の各々からのqPCR産物のゲル電気泳動画像を示す。表1と合わせて、結果は、6塩基オーバーハングが4塩基オーバーハングよりも高いライゲーション効率および全長産物の特異性をもたらしたことを示している。5’オーバーハング対3’オーバーハングの使用に関して、効率の明らかなパターンは観察されない。
図27Aおよび図27Bは、2、2.5、3、および1440分間ライゲーションした6/24/6 3’(図27B)および6/24/6 5’(図27A)DNA成分セットのライゲーション効率のデータを示す。図27Aおよび図27Bは、各セットについてFLCに対するqPCRによって測定されるライゲーション効率を示す。図27Cは、約450塩基の長さを有するそれらのFLCと共にqPCR産物のゲル電気泳動画像を示す。結果はまた、3’オーバーハング集合が5’オーバーハング集合よりも高い特異性を有し得ることを示している。
実施例4:粘着末端ライゲーション効率に対するオーバーハング長さ、オーバーハング融解温度およびオーバーハングGC含有量の効果の試験
表2は、異なる長さのオーバーハング(短=6塩基、中程度=8塩基、長=10塩基)、異なるGC含有量(低、中、高)、および異なる融解温度(Tm)を有するように設計された9つの異なる粘着末端(3’オーバーハングを有する)DNA成分対の特徴を示す。オーバーハング自体は、摂氏での予測溶融温度と共に表のセルに与えられる。0.067μMの各DNA成分、5CEU/μLのT4リガーゼ、7.5%w/vのPEG 6000、20%v/vのグリセロール、および標準的なT4リガーゼバッファー部を用いて、37℃で各DNA成分対に対してライゲーションを行った。ライゲーションを2.5分および60分で行った。各対について完全にライゲーションされた産物を表す完全長対照と比較して、qPCRを用いて効率を測定した。
表2.異なる粘着末端(3’オーバーハングを有する)DNA成分対の特徴
図28Aおよび図28Bは、オーバーハング長によってグループ化されたこれらのDNA成分対のライゲーション効率を示す。図28Aは、2.5分のライゲーション効率を示し、図28Bは、2.5分の時点と60分の時点との間の効率の比を示す。結果は、より短いオーバーハングが使用される場合、ライゲーション速度がより高くなり得ることを示している。
図29Aおよび図29Bは、GC含有量によってグループ分けされたこれらのDNA成分対のライゲーション効率を示す。図29Aは、2.5分のライゲーション効率を示し、図29Bは、2.5分の時点と60分の時点との間の効率の比を示す。結果は、異なるGC含有量(または融解温度)のオーバーハングについてはライゲーション速度に大きな差がない可能性があるが、より高いGC含有量(または融解温度)を有するオーバーハングが使用される場合、ライゲーション速度がわずかに高くなる可能性があることを示している。融解温度はGC含有量と相関する。
実施例5:ライゲーション効率に対する温度の影響の試験
図30は、様々な温度でT4リガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからのデータを示す。ライゲーションを、0.25μMの各DNA成分、5CEU/μLまたは20CEU/μLのT4リガーゼ、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準T4リガーゼバッファー部分を用いて行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、より高い温度およびより高いリガーゼ濃度がT4リガーゼによるライゲーション効率を増加させ得ることを示す。
図31は、様々な温度でT4リガーゼと一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分、5CEU/μLのT4リガーゼ(20μL、したがって合計100CEU)、7.5%w/vのPEG6000、20%v/vのグリセロール、および標準的なT4リガーゼバッファー部を用いて行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、より高い温度およびより高いリガーゼ濃度がT4リガーゼによるライゲーション効率を増加させ得ることを示す。結果は、図30で観察されたのと同様の傾向を示す。
実施例6:ライゲーション効率に対するリガーゼの種類の効果の試験
図32Aおよび図32Bは、T4 DNAリガーゼと比較した、T7(図32A)およびT3(図32B)DNAリガーゼのライゲーション効率についてのデータを提示する。ライゲーションを、0.125μMの各DNA成分を用いて25℃で4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分に対して行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。リガーゼ濃度は、10CEU/μLと100CEU/μLとの間で変動した。各プロット内で、5CEU/μLでT4 DNAリガーゼを用いて実施した同じライゲーションと効率を比較する。結果は、約100CEU/uLの濃度のT3リガーゼが室温ライゲーションに最適なリガーゼであり得ることを示している。
図33は、様々な濃度での大腸菌DNAリガーゼのライゲーション効率についてのデータを示す。ライゲーションを、0.125μMの各DNA成分を用いて25℃で4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分に対して行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。リガーゼ濃度は、1CEU/μLと100CEU/μLとの間で変動した。
表3は、4つの異なるタイプのリガーゼの平均ライゲーション効率測定値を示す。ライゲーションを、0.268μMの各DNA成分を用いて25℃で15の粘着末端(6塩基、3’オーバーハングを有する)DNA成分に対して行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。T4は20CEU/μLであり、T3およびT7はそれぞれ150CEU/μLであった。
表3.平均ライゲーション効率測定
図34Aおよび図34Bは、様々な温度でT7 DNAリガーゼ(図34A)またはT3 DNAリガーゼ(図34B)と一緒にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからのデータを示す。0.125μMの各DNA成分および150CEU/μLのT7またはT3 DNAリガーゼを用いてライゲーションを行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、T3およびT7が20℃~40℃の間で効率を失う可能性があり、T3はより速く低下するが、より低い温度(例えば、15から20℃)ではより高い効率を有することを示す。これは、より高い温度のインキュベーション(例えば、37℃)では、T4 DNAリガーゼ(例えば、図30および図31を参照されたい)がT3およびT7 DNAリガーゼよりも良好に機能し得ることを示している。
実施例7:ライゲーション効率に対するポリエチレングリコール(PEG)の効果の試験
図35A~Cは、様々な量のPEG8000(図35A)、PEG6000(図35B)およびPEG400(図35C)と共にライゲーションされた4つの粘着末端(10塩基、3’突出部あり)DNA成分のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分および5CEU/μLのT4リガーゼを用いて25℃で行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、ライゲーションに特定の量までPEGを添加すると効率を改善することができるが、特定の量を超えると効率を阻害することを示している。効率を改善するためにライゲーション反応に添加され得るPEGの量は、PEGの分子量に依存する。
図36は、低重量/体積濃度のPEG400またはPEG6000のいずれかの存在下で一緒にライゲーションされた4つの粘着末端(10塩基、3’オーバーハングあり)DNA成分のライゲーションからのデータを示す。0.125μMの各DNA成分、5CEU/μL T4 DNAリガーゼ、20%v/vグリセロールおよび標準T4リガーゼバッファー部分を用いて37℃でライゲーションを行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、これらの条件下で、PEG6000の添加が、PEG400の添加および等量(重量による)よりもライゲーション効率を改善し得ることを示している。
実施例8:ライゲーション不活性化方法の比較
図37は、バッファーQGまたはEDTAを使用してリガーゼを不活性化することに関するデータを示す。4つの粘着末端DNA成分に対してライゲーションを行った。バッファーQGとは、Qiagen製のバッファーQGまたは同様の成分(例えば、5.5Mグアニジンチオシアネート(GuSCN)、20mM Tris HCl pH6.6)を含むバッファーをいう。対照群では、T4リガーゼを標準バッファー条件下室温で横軸に示した所与の体積で使用した。実験群では、T4リガーゼ反応混合物を表示の添加剤で処理した後、DNA成分に添加して所与の体積の反応を行った。ライゲーション時間は2.5分であった。縦軸は、各ライゲーションの全長産物に対するqPCRから得られたCt結果を示す。なお、Ctは濃度のLog base-2スケールである。結果は、EDTAまたはバッファーQGを使用するとリガーゼが不活性化され得ることを示している。EDTAおよびバッファーQG不活性化リガーゼを用いたライゲーション群の結果は、リガーゼなし群の結果と同様に見える。
実施例9:DNA複製の研究
図38は、Q5、PhusionおよびTaq DNAポリメラーゼを使用した複製の線形性に関するデータを示す。横軸は理論上の目標DNA濃度(ng/μL)であり、縦軸は標準に対してqPCRを用いて測定した目標DNA濃度(ng/μL)である。PCR反応の異なるサイクルで測定を行った。完全な対角線上のドットは、完全な線形性(理論上)を表す。他のドットは、異なるリガーゼからの実験データ点を表す。結果は、標準的なPCR反応(リガーゼに関係なく)が10 ng/μLの標的までまたはそれを超えて線形であり得ることを示す。この実施例では、使用した標的DNAは約450塩基であった。
実施例10:DNAを乾燥させるための様々な方法の研究
図39は、室温で4日間保存したDNAサンプルのデータを示す。約450塩基長のDNAを含む異なる量(50ng、500ngおよび5000ng)のDNAサンプルを保存した。DNAサンプルを異なる条件で保存した:湿潤または乾燥、保存添加剤ありまたはなし(例えば、BMは生体安定化材料を表す)。結果を、それらの4日間にわたって凍結水中に保存された約450塩基長のDNAを含有する同じDNAサンプルと比較した。結果は、最小限のDNA分解が室温で起こり得ること、およびBM(生体安定化材料)のような保存添加剤の使用が分解の減少に寄与し得ることを示している。乾燥プロセスは、DNA保存添加剤の存在なしでDNA分解をもたらし得る。
図40は、室温で乾燥および再水和を繰り返したDNAのデータを示す。保存添加剤を含むDNAおよび含まないDNAについての結果を示す(例えば、BMは生体安定化材料を表す)。結果は、添加剤の有無にかかわらず、3~4回のDNAサンプルの乾燥/再水和が、かなりの量のDNAを失うことなく達成され得ることを示している。
実施例11:ライゲーションのための6つの塩基オーバーハングの設計および試験
表4は、コンピュータにより設計された32個の3’オーバーハングのセットを示す。オーバーハング(およびそれらの逆相補体)は、オーバーハングのいずれかのエッジ上の部分文字列について、6塩基の長さを有する、3塩基を超えるホモポリマーなし、互いに3塩基未満のハミング距離なし、互いに3塩基を超える等価部分文字列なし、および互いに2塩基を超える等価部分文字列なしとなるように設計された。
表4.コンピュータにより設計された32個の3’オーバーハングのセット
表5は、コンピュータにより設計された32個の3’オーバーハングの別のセットを示す。このセットの6塩基オーバーハング(およびそれらの逆相補体)は、表4のものよりも全体的にあまり制約されないが、表4のものと同等の制約を満たす範囲内で16個のオーバーハングのサブセットを含むように設計された。2つの太字の配列は、組み合わせ実験の対照として、互いに逆相補であるように設計された。
表5.コンピュータにより設計された32個の3’オーバーハングのセット
表4および表5の各オーバーハングおよびそれらの逆相補体の粘着末端DNA配列を構築した。各表の各オーバーハング(および逆相補体)の各配列は、同じ近位二重鎖領域を有していたが、その遠位末端に異なる3塩基5’オーバーハングで一意にバーコード化されていた。構築された粘着末端配列のスキームについては図41を参照されたい。合計で、逆相補体を用いて、各表に対して64個の配列を構築した。これらの配列を等モル濃度でプールし、標準的なリガーゼバッファー中37℃でT4リガーゼとライゲーションした。ライゲーションを2.5分間行った後、EDTAでクエンチした。ライゲーションした配列をゲル抽出によって精製し、次いで、クレノウポリメラーゼを使用して5’末端を充填し、dAテール化した。その後、配列決定アダプタを産物の末端にライゲーションし、増幅および精製して、Illumina iSeq上での配列決定のために調製した。各可能なライゲーション産物の相対コピー数を、バーコードの各可能な組み合わせについて配列リードの数を数えることによって推測した。オーバーハングの各セットについて合計64×(64+1)/2=2080の可能性のある生成物があり(表4および表5)、そのうちの64個はそれぞれ、それらの正しい逆相補体パートナーにライゲーションされたオーバーハングに対応する。
図42は、表4(図42A)および表5(図42B)のオーバーハング配列のセットのライゲーションからのデータを示す。各ヒートマップ内の各画素は、その画素の行および列を表すオーバーハングによって形成されるライゲーション産物に対応する。ピクセルのグレースケール(または「熱」)は、そのライゲーション産物の相対量(logベース-2スケール)を表す。各行および各列は、表4(図42A)または表5(図42B)のオーバーハング1~32に対応し、次いでそれらのオーバーハングの逆相補に対応する。結果は、各オーバーハングライゲーションがその逆相補体と最も強くライゲーションするが、ライゲーションにおいて複数の非特異的産物も形成され得ることを示唆している。
これらのデータを使用して、32個のオーバーハングの各セットからのオーバーハングのサブセットのペナルティスコアを計算した。オーバーハングのサブセットについて、データセット内の(正しい産物の量と比較した)サブセット内の可能なオーバーハングごとに形成されたオフターゲット産物の相対量を加算することによって、ペナルティスコアを計算した。
図43は、表4および表5のオーバーハングの各セットからの15個のオーバーハングの2Mサブセットからのペナルティスコアを示す。ペナルティスコアを使用して、16成分のライゲーションで使用される15オーバーハングの高効率、高特異性セットを予測することができる。最も低いペナルティスコアで上位の候補を見つけることができる。X+1個のオーバーハングを一緒にライゲーションするための上部オーバーハング候補を見つけるために、X個のオーバーハングのサブセットを用いて同様の分析を行うことができる。この分析に基づいて、表6は、16個のDNA成分を一緒にライゲーションするための15個のオーバーハング(表4のセットから得られる)の推定される高効率、高特異性サブセットを示す。同様に、表7は、16個のDNA成分を一緒に連結するための15個のオーバーハング(表5のセットから得た)の推定サブセットを示す。
表6.15個のオーバーハングの推定される高効率、高特異性サブセット
表7.15個のオーバーハングの推定サブセット
図44は、表7の最終(網掛け)行からのオーバーハングと、プリントヘッドからの分注に最適化され得るライゲーションミックスの特定の配合物とを使用した、16個のDNA成分のライゲーション効率のデータを示す。混合物は、グリセロールの形態の湿潤剤、Orange Gの形態の染料、およびNipacideの形態の殺生物剤を含有する。ライゲーションは、-0.1Weiss単位/μLおよび0.2Weiss単位/μLの2つのリガーゼ濃度で行った。さらに、ライゲーションを、37℃にて、0625μMの各DNA成分、22.5%v/vのグリセロール、3.1%w/vのPEG 6000、1.25%w/vのオレンジG色素、0.1%w/vのNipacide、および標準T4リガーゼバッファー部を用いて行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。
実施例12:60kbのデジタル情報への符号化、その複製、およびそれからのアクセス
長さ68,800ビット(エラー保護後73,440ビット)のデジタル化されたオーディオクリップ(「メッセージ」)を、372個のDNA成分の成分ライブラリを使用して、8層積スキームで符号化した(産物スキームの概要については図20Bを参照されたい)。3つの成分の7つの層(「ベース層」)および351個の成分の1つの層(「多重層」)があり、したがって767637個の可能な識別子があったが、符号化されたメッセージは組み合わせ空間からの119353個の識別子のみを使用した。書き込みは、Labcyte Echo 555アクセスシステムで行った。このプロセスを2回繰り返した。DNA成分をコンピュータにより設計し、製造されたオリゴを二重鎖化することによって構築した。
書き込みプロセスは4つの段階で発生した:(1)コンピュータによる符号化、(2)DNA成分の並置、(3)ライゲーション、および(4)統合。(1)コンピュータによる符号化の間、誤り訂正されたメッセージは、長さ13および重み3の連続した符号語に符号化された。したがって、符号語は13個の辞書式順序の識別子によって表され、そのうち3個は存在することが意図されており(「真の識別子」)、残りの10個は存在しないことが意図されていた(「偽の識別子」)。符号語は合計9181個あった。(2)DNA並置では、Labcyte Echo 555を使用して、372個のDNA成分を(384ウェルプレートの)341個の反応ウェルで一緒に混合した。各反応は、ただ1つの符号語(合計3つの真の識別子)を作成することを意図した1つの反応を除いて、27個の連続した符号語(合計81個の真の識別子)を作成することを意図した。反応は、ベース層の各々からの1つのDNA成分および多重層からの複数の成分(各符号語について3)を含むように設定した。さらに、完全に形成された識別子の各末端にライゲーションするための配列決定アダプタを反応ウェルに加えた。(3)ライゲーションにおいて、4uLのT4リガーゼ反応ミックス(5CEU/μLのT4リガーゼおよび7.5%PEG6000を含む)を各反応ウェルに添加し、37℃で1時間インキュベートした。各反応が各層からおよそ4nMの凝集DNA成分を含むように濃度を設定した。続いて、(4)統合では、およそ50nLの全ての反応物を、リガーゼ活性を失活させるためにEDTA溶液を含む1つの容器内に統合した。統合された識別子のプール(識別子ライブラリ)をPCRを用いて増幅し、ゲル精製して配列決定のために全長識別子を抽出した。
図45A~図45Bは、メッセージを符号化する識別子ライブラリの配列決定から復元されたデータを提示する。図45Aは、(コンピュータによる符号化後の)符号化されたメッセージの341×351参照マップを示す。濃い点は「1」ビット値に対応し、白い点は「0」ビット値に対応する。データは、「1」ビット値の位置に対応する識別子を構築することによってDNAに書き込まれる(これは、識別子が辞書式順序を有するために可能である)。図45Bは、配列決定によって決定された、識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。各行の識別子は同じ反応で構築される。最大グレースケール(濃)強度は、各行の識別子の平均コピー数に設定される。識別子は、(マップの行に沿って)連続した13個の識別子の列の中で最も多い上位3つの識別子内にある場合、真の識別子(「1」のビット値を表す識別子)として解釈され得る。他の全ては、偽の識別子(「0」のビット値を表す識別子)であると解釈される。この復号化処理工程をデータに適用すると、0個の識別子エラー(符号語内で、偽の識別子が真の識別子よりも多くのリードを有するイベント)および0個の識別子消去(上位3個の最も豊富な識別子を区別できないイベント)が生じる。したがって、復号されたメッセージは、符号化されたメッセージと正確に一致する(図45A)。図46は、符号化、書き込み、配列決定、および復号プロセス全体の重複実行からのデータを提示する。この場合も、メッセージは正常に書き込まれ、0のエラーまたは消去で読み取られた。
図47A~図47Cは、メッセージを含む元の識別子ライブラリの複数のコピーの作成からのデータを提示する(図45A~図45Bより)。ライブラリを1000倍希釈し、次いで、Phusionポリメラーゼおよびアダプタ配列の外側エッジに結合したプライマー(ライブラリ中の全ての配列に共通)を用いて10サイクルのPCRで増幅した。10サイクルのPCRにより、ライブラリを元の濃度まで約1024倍に増幅した。図47Aは、配列決定によって決定された、複製された識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール(濃)強度は、各行の識別子の平均コピー数に設定される。識別子は、(マップの行に沿って)連続した13個の識別子の列内の上位3個の最も豊富な識別子内にある場合、「1」のビット値を表すと解釈され得る。他の全ては、「0」のビット値を表すと解釈される。この復号処理工程をデータに適用すると、識別子エラーが0になる。小さい配列決定サンプルサイズによって説明され得る1つの識別子消去があった(表8を参照されたい)。これは、全ての偽の識別子が0リードを有する符号語であったが、真の識別子のうちの1つも0リードを有していた。図47Bは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の相関関係を示し、図47Cは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、識別子ライブラリ複製中にバイアスがほとんどまたは全く発生し得ないことを示している。
図48A~図48Cは、元のメッセージを含む識別子ライブラリの一部へのアクセスからのデータを提示する(図45A~図45Bより)。アクセス方法は、図21Bに記載されるような「AND」演算であった。識別子ライブラリを約32000倍に希釈し、次いで、各エッジ層の特定のDNA成分に結合したプライマーを用いてPCRを使用して増幅し、ライブラリのおよそ1/9にアクセスした(各層は3つの可能な成分を有していたため)。PCRはPhusionポリメラーゼを用いて15サイクル行った。配列決定アダプタを、得られたサブライブラリの末端にライゲーションし、Illumina iSeqで配列決定した。図48Aは、配列決定によって決定された、アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール(濃)強度は、各行の識別子の平均コピー数に設定される。識別子は、(マップの行に沿って)連続した13個の識別子の列内の上位3個の最も豊富な識別子内にある場合、「1」のビット値を表すと解釈され得る。他の全ては、「0」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、0個の識別子エラーおよび0個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するデータセットが生じる(図45A)。図48Bは、元のライブラリとアクセスされた識別子ライブラリとの間の識別子コピー数の相関関係を示し、図48Cは、元の識別子ライブラリとアクセスされた識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、識別子ライブラリアクセス中にバイアスがほとんどまたは全く発生し得ないことを示している。
図49A~図49Cは、アクセスされた識別子ライブラリの下位部分にさらにアクセスすることからのデータを提示する(図49A~図49Cより)。元の識別子ライブラリからのアクセス方法は、2つのネステッド「AND」演算であった(ここで、各「AND」は図21Bで説明したとおりであった)。元の識別子ライブラリを約32000倍に希釈し、次いで、各エッジ層の特定のDNA成分に結合したプライマーを用いてPCRを使用して増幅し、ライブラリのおよそ1/9にアクセスした(各層は3つの可能な成分を有していたため)。得られたアクセスされた識別子ライブラリを再び約32000倍に希釈し、次いで、各エッジから除去された層上の特定のDNA成分に結合するプライマーを用いてPCRを使用して増幅し、アクセスされたライブラリのおよそ1/9(各層は3つの可能な成分を有していたため)、または元のライブラリ全体のおよそ1/81(1/9の1/9)にアクセスした。本発明者らは、得られたサブライブラリを「2回アクセスした」識別子ライブラリと呼ぶ。PCRはPhusionポリメラーゼを用いて15サイクル行った。配列決定アダプタを、得られたサブライブラリの末端にライゲーションし、Illumina iSeqで配列決定した。図49Aは、配列決定によって決定された、2回アクセスした識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール(濃)強度は、各行の識別子の平均コピー数に設定される。識別子は、(マップの行に沿って)連続した13個の識別子の列内の上位3個の最も豊富な識別子内にある場合、「1」のビット値を表すと解釈され得る。他の全ては、「0」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、0個の識別子エラーおよび0個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するデータセットが生じる(図45A)。図49Bは、元のライブラリと2回アクセスされた識別子ライブラリとの間の識別子コピー数の相関関係を示し、図49Cは、元の識別子ライブラリと2回アクセスされた識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、ネステッド識別子アクセス方法の間にバイアスがほとんどまたは全く発生し得ないことを示している。
図50A~図50Cは、メッセージ(図45より)を表す元の識別子ライブラリを100℃で4日間保存した後のデータを提示する。元の識別子ライブラリを保存添加剤(生体安定化材料)で乾燥させ、100℃に保持されたサーモサイクラーに4日間保持した。図50Aは、配列決定によって決定された、格納された識別子ライブラリに存在する配列の存在量のヒートマップ(341×351)を示す。各ピクセルは識別子を表し、そのピクセルにおけるグレースケール強度は、行内の他の識別子と比較したその識別子の相対的存在量を表す。最大グレースケール(濃)強度は、各行の識別子の平均コピー数に設定される。識別子は、(マップの行に沿って)連続した13個の識別子の列内の上位3個の最も豊富な識別子内にある場合、「1」のビット値を表すと解釈され得る。他の全ては、「0」のビット値を表すと解釈される。この復号化処理工程をデータに適用すると、0個の識別子エラーおよび0個の識別子消去が生じ、したがって、符号化されたメッセージと正確に一致するマップが生じる(図45A)。図50Bは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の相関関係を示し、図50Cは、元の識別子ライブラリと複製された識別子ライブラリとの間の識別子コピー数の分布を示す。結果は、長期間にわたる識別子ライブラリの極端な加熱中にバイアスがほとんどまたは全く発生し得ないことを示している。さらに、二本鎖DNA定量(Qubit蛍光定量)は、元の識別子ライブラリ(36.4ng/mL)と格納された識別子ライブラリ(41.2ng/mL)との間で同様の値をもたらし、インキュベーション中にDNAの損失がほとんどまたは全くなかった可能性があることを示している。
表8は、メッセージおよびメッセージのアクセスされた部分を表す識別子ライブラリの書き込みおよび読み出しからの統計を提示する(図45~50より)。各ライブラリについて、本発明者らは、「0」のビット値を表す識別子のリードの総数(偽の識別子)、「1」のビット値を表す識別子のリードの総数(真の識別子)、配列決定された偽の識別子の割合(「識別子エラー率」)、符号語の総数、符号語消去の数、および符号語エラーの数を報告する。各符号語における識別子の分布は、偽の識別子の各々が同一に分布し、真の識別子の各々が同一に分布し、偽の識別子を読み取る(サンプリングする)確率が識別子誤り率と等価である多項分布としてモデル化された。各ライブラリで表される符号語の数、および各符号語から読み取られる識別子の数を各符号語のサンプルサイズとして使用して、本発明者らはモデルを使用して、符号語消去および符号語エラーの予想数を計算した。大きいサンプルサイズで符号語消去または符号語誤りの確率を計算する計算上の扱いやすさのために、40リードを超えるサンプルサイズはいずれも40に制限された。したがって、期待値は上限とみなされるべきである。結果は、複製されたライブラリ内の消去された符号語(図47A、図47B、図47C)が、固有のサンプリングノイズに起因して予期された可能性があることを示している。
表8.識別子ライブラリの書き込みおよび読み取りからの統計


実施例13:DNAの安定性の研究
図51A~図51Dは、4つの異なる温度で8日間インキュベートしたDNAサンプルのデータを示す。およそ250ngの約450塩基のDNA(標的)のそれぞれの複数のサンプルを保存添加剤(BMは生体安定化材料を表す)と共に乾燥させ、75.1℃(図51A)、84.4℃(図51B)、90.2℃(図51C)または95.0℃(図51D)で8日間加熱した。8日間にわたる異なる時点で、サンプルを取り出し、8日間の最後の最終測定まで室温で保存した。最終測定時に、各サンプル中の標的DNAの相対量をqPCRで定量した。定量値を、加熱しなかった0時点のサンプルに対して正規化する。結果は、高温での長時間のインキュベーションであっても、最小限のDNA分解が起こり得ることを示している。
実施例14:ライゲーションに対するグリセロールの効果の研究
図52は、様々な量の(体積当たりの体積パーセントに関して)グリセロールと共にライゲーションされた4つの粘着末端(6塩基、3’オーバーハングを有する)DNA成分のライゲーションからのデータを示す。ライゲーションを、0.125μMの各DNA成分および5CEU/μLのT4リガーゼ(全体で100CEU)を用いて25℃で行った。ライゲーション時間は2.5分であった。完全にライゲーションされた産物を表す完全長対照と比較してqPCRを用いて効率を測定した。結果は、20%またはそれを超えるグリセロールの添加はライゲーションに影響を与えない可能性があるが、40%以上のグリセロールの添加は阻害性であり得ることを示している。
態様では、本開示は、核酸配列に情報を書き込むための方法であって、(a)情報を表す記号列を生成することと;(b)複数の成分を構築することであって、複数の成分の個々の各成分が核酸配列を含むことと;(c)複数の成分の個々の成分の少なくとも1つの粘着末端を生成することと;(d)複数の成分のうちの2またはそれを超える成分を、2またはそれを超える成分の個々の成分の少なくとも1つの粘着末端を介して化学的に連結させ、それによって、複数の識別子を生成することであって、複数の識別子の各識別子が2またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成することと;(e)複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に取得または増幅することと、を含む方法を提供する。
いくつかの実施形態では、記号列の各記号は、1またはそれを超える可能な記号値のうちの1つである。いくつかの実施形態では、記号列内の各記号は、2つの可能な記号値のうちの1つである。いくつかの実施形態では、記号列の各位置における1つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、2つの可能な記号値は0および1のビット値であり、記号列内のビット値が0の個々の記号は、識別子ライブラリ内の別個の識別子の非存在によって表され得、記号列内の前記ビット値が1の個々の記号は、識別子ライブラリ内の別個の識別子の存在によって表され得、またはその逆も同様である。いくつかの実施形態では、(d)は、2またはそれを超える層からの2またはそれを超える成分を化学的に結合することを含み、2またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、識別子ライブラリからの個々の識別子は、2またはそれを超える層の各層からの1つの成分を含む。いくつかの実施形態では、2またはそれを超える成分は、固定された順序でアセンブリされる。いくつかの実施形態では、2またはそれを超える成分は、任意の順序でアセンブリされる。いくつかの実施形態では、2またはそれを超える成分は、2またはそれを超える層の異なる層からの2つの成分の間に配置された1またはそれを超えるパーティション成分と共にアセンブリされる。いくつかの実施形態では、個々の識別子は、2またはそれを超える層のサブセットの各層からの1つの成分を含む。いくつかの実施形態では、個々の識別子は、2またはそれを超える層の各々からの少なくとも1つの成分を含む。いくつかの実施形態では、(c)は、エンドヌクレアーゼを使用して、複数の成分の個々の成分の少なくとも1つの粘着末端を生成することを含む。いくつかの実施形態では、少なくとも1つの粘着末端は、個々の成分の5’末端にある。いくつかの実施形態では、少なくとも1つの粘着末端は、個々の成分の3’末端にある。いくつかの実施形態では、(c)は、個々の成分の2つの粘着末端を生成することを含む。いくつかの実施形態では、少なくとも1つの粘着末端は、少なくとも1ヌクレオチド長である。いくつかの実施形態では、少なくとも1つの粘着末端は、6ヌクレオチド長である。いくつかの実施形態では、少なくとも1つの粘着末端は、表4または表5に列挙された配列からなる群から選択される核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、または情報を秘匿化する。いくつかの実施形態では、2またはそれを超える識別子ライブラリが組み合わされ、2またはそれを超える識別子ライブラリの各識別子ライブラリは別個のバーコードでタグ付けされる。いくつかの実施形態では、識別子ライブラリ内の各個々の識別子は、別個のバーコードを含むか、または識別子ライブラリのサブセット識別子は、別個のバーコードを含む。いくつかの実施形態では、複数の識別子、または識別子を含む複数の成分は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために選択される。いくつかの実施形態では、化学的に連結することは、リガーゼを含む試薬を使用して複数の成分のうちの2またはそれを超える成分を一緒にライゲーションすることを含む。いくつかの実施形態では、リガーゼはT4リガーゼ、T7リガーゼ、T3リガーゼまたは大腸菌リガーゼである。いくつかの実施形態では、試薬は添加剤をさらに含む。いくつかの実施形態では、添加剤はリガーゼの効率を高める。いくつかの実施形態では、添加剤はポリエチレングリコール(PEG)を含む。いくつかの実施形態では、PEGは、PEG400、PEG6000、PEG8000またはそれらの任意の組み合わせである。いくつかの実施形態では、PEG分子の最終濃度は、少なくとも約1%重量/体積(w/v)である。いくつかの実施形態では、ライゲーションの反応時間は少なくとも1分である。いくつかの実施形態では、ライゲーションは摂氏30度またはそれよりも高い。いくつかの実施形態では、ライゲーションの反応効率は、少なくとも約20%である。いくつかの実施形態では、本方法は、EDTAまたはチオシアン酸グアニジンを含有するバッファーを使用してリガーゼを不活性化することをさらに含む。いくつかの実施形態では、リガーゼの最終濃度は少なくとも約5CEU/μLである。いくつかの実施形態では、試薬はグリセロール分子をさらに含む。いくつかの実施形態では、(d)における化学的連結は、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)を使用することを含む。いくつかの実施形態では、個々の成分は、デオキシリボ核酸(DNA)またはリボ核酸である。いくつかの実施形態では、個々の成分は再水和されている。いくつかの実施形態では、個々の成分は、脱水された成分から再水和される。いくつかの実施形態では、本方法は、複数の識別子の少なくともサブセットの各個々の識別子を脱水することによって識別子ライブラリを脱水することをさらに含む。いくつかの実施形態では、複数の識別子の少なくともサブセットの各個々の識別子が脱水される。いくつかの実施形態では、本方法は、複数の識別子の少なくともサブセットの各個々の識別子を再水和することをさらに含む。いくつかの実施形態では、本方法は、識別子の劣化を防ぐために識別子ライブラリに保存添加剤を添加することをさらに含む。いくつかの実施形態では、複数の識別子はPCRでコピーされる。いくつかの実施形態では、PCRは少なくとも10サイクルを有する。いくつかの実施形態では、複数の識別子は、10ナノグラム/マイクロリットルの濃度までPCRで増幅される。いくつかの実施形態では、PCRはエマルジョンPCRである。いくつかの実施形態では、複数の識別子は線形増幅でコピーされる。いくつかの実施形態では、PCRの後、線形増幅を使用して複数の識別子のより多くのコピーを作成する。いくつかの実施形態では、複数の識別子のサブセットは、1またはそれを超えるPCR反応でアクセスされる。いくつかの実施形態では、複数の識別子のサブセットは、1またはそれを超える親和性タグ付きプローブを用いてアクセスされる。いくつかの実施形態では、複数の識別子のサブセットの識別子は、共通の成分のセットを有する。いくつかの実施形態では、識別子はゲル電気泳動によって精製される。いくつかの実施形態では、識別子は親和性タグ付きプローブによって精製される。いくつかの実施形態では、識別子はPCRを使用して増幅される。いくつかの実施形態では、識別子は、チミン-チミンジヌクレオチドまたはシトシン-シトシンジヌクレオチドを回避するように設計される。
別の態様では、本開示は、核酸配列に情報を書き込むための方法であって、情報を表す記号列を生成することと;複数の成分を構築することであって、複数の成分の個々の各成分が核酸配列を含むことと;複数の成分の個々の成分の少なくとも1つの粘着末端を生成することであって、少なくとも1つの粘着末端が少なくとも6ヌクレオチド長である、複数の成分の個々の成分の少なくとも1つの粘着末端を生成することと;複数の成分のうちの2またはそれを超える成分を、2またはそれを超える成分の個々の成分の少なくとも1つの粘着末端を介して化学的に連結させ、それによって、複数の識別子を生成することであって、複数の識別子の各識別子が2またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成することと;複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に取得または増幅することと、を含む方法を提供する。
いくつかの実施形態では、少なくとも1つの粘着末端は、個々の成分の3’末端にある。いくつかの実施形態では、連結は、複数の成分のうちの少なくとも15個またはそれを超える成分を連結することを含む。いくつかの実施形態では、少なくとも1つの粘着末端は、表4または表5に列挙された配列からなる群から選択される核酸配列を含む。
別の態様では、核酸配列に情報を書き込む方法であって、(a)情報を表す記号列を生成すること;(b)複数の粘着末端成分を構築することであって、該複数の成分の個々の各成分が核酸配列および少なくとも1つの粘着末端を含む、複数の粘着末端成分を構築すること;(c)複数の成分のうちの2またはそれを超える成分を、2またはそれを超える成分の個々の成分の少なくとも1つの粘着端を介して化学的に結合し、それによって複数の識別子を生成することであって、複数の識別子の各識別子が、2またはそれを超える成分を含み、複数の識別子の個々の識別子が、記号列内の個々の記号に対応する、複数の識別子を生成すること;ならびに(d)前記複数の識別子の少なくともサブセットを含む識別子ライブラリを選択的に捕捉または増幅すること、を含む方法が本明細書で提供される。いくつかの実施形態では、(b)は、2つのオリゴヌクレオチドをアニーリングして、各個々の成分が少なくとも1つの粘着末端を有するように、各個々の成分を構築することを含む。
一態様では、本開示は、情報を核酸配列(複数可)に書き込むための方法であって、(a)情報を記号列に変換すること;(b)記号列を複数の識別子にマッピングすることであって、複数の識別子の個々の識別子が1またはそれを超える成分を含み、1またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個別の識別子が、記号列の個別の記号に対応する、記号列を複数の識別子にマッピングすること;ならびに(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築すること、を含む方法を提供する。
いくつかの実施形態では、当該記号列内の各記号は、2つの可能な記号値のうちの1つである。いくつかの実施形態では、当該記号列の各位置における1つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、当該2つの可能な記号値は0および1のビット値であり、当該記号列内の当該ビット値が0の当該個々の記号は、当該識別子ライブラリ内の別個の識別子の非存在によって表され得、当該記号列内の当該ビット値が1の当該個々の記号は、当該識別子ライブラリ内の当該別個の識別子の存在によって表され得、その逆も同様である。いくつかの実施形態では、記号列の各記号は、1またはそれを超える可能な記号値のうちの1つである。いくつかの実施形態では、識別子ライブラリ内の個々の識別子の存在は、バイナリ文字列内の第1の記号値に対応し、個々の識別子の非存在は、バイナリ文字列内の第2の記号値に対応する。いくつかの実施形態では、第1の記号値は1のビット値であり、第2の記号値は0のビット値である。いくつかの実施形態では、第1の記号値は0のビット値であり、第2の記号値は1のビット値である。
いくつかの実施形態では、識別子ライブラリ内に個々の識別子を構築することは、1またはそれを超える層から1またはそれを超える成分をアセンブリすることを含み、1またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、識別子ライブラリからの個々の識別子は、1またはそれを超える層の各層からの1つの成分を含む。いくつかの実施形態では、1またはそれを超える成分は、固定された順序でアセンブリされる。いくつかの実施形態では、1またはそれを超える成分は、ランダムな順序でアセンブリされる。いくつかの実施形態では、1またはそれを超える成分は、1またはそれを超える層の異なる層からの2つの成分の間に配置された1またはそれを超えるパーティション成分と共にアセンブリされる。いくつかの実施形態では、個々の識別子は、1またはそれを超える層のサブセットの各層からの1つの成分を含む。いくつかの実施形態では、個々の識別子は、1またはそれを超える層の各々からの少なくとも1つの成分を含む。いくつかの実施形態では、1またはそれを超える成分は、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)、ポリメラーゼサイクリングアセンブリ、粘着末端ライゲーション、バイオブリックアセンブリ、ゴールデンゲートアセンブリ、ギブソンアセンブリ、リコンビナーゼアセンブリ、リガーゼサイクリング反応、または鋳型指向ライゲーションを使用してアセンブリされる。
いくつかの実施形態では、識別子ライブラリ内に個体識別子を構築することは、核酸編集酵素を親識別子に適用することによって、親識別子内の少なくとも1つの成分を削除、置換、または挿入することを含む。いくつかの実施形態では、親識別子は、ヌクレアーゼ特異的標的部位、リコンビナーゼ認識部位または別個のスペーサー配列に隣接する複数の成分を含む。いくつかの実施形態では、核酸編集酵素は、CRISPR-Cas、TALEN、ジンクフィンガーヌクレアーゼ、リコンビナーゼおよびそれらの機能的変異体からなる群から選択される。
いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、および/または情報を秘匿化する。いくつかの実施形態では、メタデータは、情報のソース、情報の意図された受取人、情報の元のフォーマット、情報を符号化するために使用される機器および方法、情報を識別子ライブラリに書き込む日付および時間、情報に対して行われた修正、および/または他の情報への参照に対応する二次情報を含む。
いくつかの実施形態では、1またはそれを超える識別子ライブラリが組み合わされ、1またはそれを超える識別子ライブラリの各識別子ライブラリは別個のバーコードでタグ付けされる。いくつかの実施形態では、識別子ライブラリ内の各個々の識別子は、別個のバーコードを含む。いくつかの実施形態では、複数の識別子は、読み取り、書き込み、アクセス、コピー、および削除操作を容易にするために選択される。いくつかの実施形態では、複数の識別子は、書き込みエラー、突然変異、劣化、および読み出しエラーを最小限に抑えるように選択される。
別の態様において、本開示は、核酸配列(複数可)に符号化された情報にコピーするための方法であって、(a)記号列を符号化する識別子ライブラリを提供することであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が1またはそれを超える成分含み、1またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個々の識別子が記号列の個々の記号に対応する、記号列を符号化する識別子ライブラリを提供することと、(b)識別子ライブラリの1つまたは複数のコピーを構築することと、を含む方法を提供する。
いくつかの実施形態では、複数の識別子は、1またはそれを超えるプライマー結合部位を含む。いくつかの実施形態では、識別子ライブラリは、ポリメラーゼ連鎖反応(PCR)等の核酸増幅を使用してコピーされる(化学的方法のセクションDを参照されたい)。いくつかの実施形態では、PCRは従来のPCRまたは線形PCRであり、識別子ライブラリのコピー数は、各PCRサイクルでそれぞれ倍増するかまたは線形に増加する。いくつかの実施形態では、PCRの前に、識別子ライブラリ中の個々の識別子を環状ベクターにライゲーションし、ここで、円ベクターは、個々の識別子の各末端に相関バーコードを含み、それにより、PCR中に何らかの意図しないDNAクロスオーバー事象が生じた場合、得られた誤って形成された分子が配列決定において検出可能になる。いくつかの実施形態では、PCRは等温である。いくつかの実施形態では、PCRはローリングサークル増幅の一形態である。いくつかの実施形態では、PCRはエマルジョンPCR(ePCR)である。
いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列がコピーされる。いくつかの実施形態では、コピーの前に1またはそれを超える識別子ライブラリが組み合わされ、1またはそれを超える識別子ライブラリの各ライブラリは別個のバーコードを含む。
別の態様において、本開示は、核酸配列(複数可)に符号化された情報にアクセスするための方法であって、(a)記号列を符号化する識別子ライブラリを提供することであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が1またはそれを超える成分含み、1またはそれを超える成分の個々の成分が核酸配列を含み、複数の識別子の個々の識別子が記号列の個々の記号に対応する、記号列を符号化する識別子ライブラリを提供することと、(b)識別子ライブラリから複数の識別子の標的サブセットを抽出することと、を含む方法を提供する。
いくつかの実施形態では、複数のプローブが識別子ライブラリと組み合わされる。いくつかの実施形態では、複数のプローブは、識別子ライブラリからの複数の識別子の標的サブセットと相補性を共有する。いくつかの実施形態では、複数のプローブは、識別子ライブラリ内の複数の識別子の標的サブセットにハイブリダイズする。いくつかの実施形態では、複数のプローブは、1またはそれを超える親和性タグを含み、1またはそれを超える親和性タグは、核酸捕捉と呼ばれ得るプロセスにおいて、親和性ビーズまたは親和性カラムによって捕捉される(核酸捕捉に関する化学的方法のセクションFを参照されたい)。
いくつかの実施形態では、識別子ライブラリは、複数のプローブの1またはそれを超えるサブセットと順次組み合わされ、識別子ライブラリの一部は、複数のプローブの1またはそれを超えるサブセットに結合する。いくつかの実施形態では、複数のプローブの1またはそれを超えるサブセットに結合する識別子ライブラリの部分は、複数のプローブの別のサブセットを識別子ライブラリに追加する前に除去される。核酸捕捉のこれらの実施形態では、捕捉された核酸は、保存される代わりに識別子プールから除去されてもよい。
いくつかの実施形態では、複数の識別子の個々の識別子は、1もしくはそれを超える共通プライマー結合領域、1もしくはそれを超える可変プライマー結合領域、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、識別子ライブラリは、1もしくはそれを超える共通プライマー結合領域、または1もしくはそれを超える可変プライマー結合領域に結合するプライマーと組み合わされる。いくつかの実施形態では、1またはそれを超える可変プライマー結合領域に結合するプライマーは、識別子ライブラリの標的サブセットを選択的に増幅するために使用される(化学的方法のセクションDを参照されたい)。
いくつかの実施形態では、識別子の一部は、選択的ヌクレアーゼ切断によって識別子ライブラリから除去される。いくつかの実施形態では、識別子ライブラリはCas9およびガイドプローブと組み合わされ、ガイドプローブはCas9をガイドして識別子ライブラリから指定された識別子を除去する。いくつかの実施形態では、個々の識別子は一本鎖であり、識別子ライブラリは一本鎖特異的エンドヌクレアーゼ(複数可)と組み合わされる。いくつかの実施形態では、識別子ライブラリは、一本鎖特異的エンドヌクレアーゼ(複数可)の添加前に標的個体識別子を分解から保護する個体識別子の相補的なセットと混合される。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子は、サイズ選択的クロマトグラフィーによって分離される(核酸サイズ選択に関する化学的方法のセクションEを参照されたい)。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子は増幅され、選択的ヌクレアーゼ切断によって切断される個々の識別子は増幅されない(核酸増幅に関する化学的方法のセクションDを参照されたい)。いくつかの実施形態では、選択的ヌクレアーゼ切断によって切断されない個々の識別子が捕捉され、選択的ヌクレアーゼ切断によって切断される個々の識別子は捕捉されない(核酸捕捉に関する化学的方法のセクションFを参照されたい)。いくつかの実施形態では、識別子ライブラリは、複数の核酸配列を含み、複数の核酸配列は、識別子ライブラリ内の複数の識別子の標的サブセットで抽出される。
別の態様では、本開示は、核酸配列(複数可)に符号化された情報を読み取るための方法であって、(a)複数の識別子を含む識別子ライブラリを提供することであって、複数の識別子の個々の識別子が1またはそれを超える成分を含み、1またはそれを超える成分の個々の成分が核酸配列を含む、複数の識別子を含む識別子ライブラリを提供することと、(b)識別子ライブラリ内の複数の識別子を識別することと、(c)(b)で識別された複数の識別子から複数の記号を生成することであって、複数の記号の個々の記号が、複数の識別子の個々の識別子に対応する、(b)で識別された複数の識別子から複数の記号を生成することと、(d)複数の記号から情報をコンパイルすることと、を含む方法を提供する。
いくつかの実施形態では、当該記号列内の各記号は、2つの可能な記号値のうちの1つである。いくつかの実施形態では、当該記号列の各位置における1つの記号値は、識別子ライブラリ内に別個の識別子が存在しないことによって表され得る。いくつかの実施形態では、当該2つの可能な記号値は0および1のビット値であり、当該記号列内の当該ビット値が0の当該個々の記号は、当該識別子ライブラリ内の別個の識別子の非存在によって表され得、当該記号列内の当該ビット値が1の当該個々の記号は、当該識別子ライブラリ内の当該別個の識別子の存在によって表され得、その逆も同様である。いくつかの実施形態では、識別子ライブラリ内の個々の識別子の存在は、バイナリ文字列内の第1の記号値に対応し、識別子ライブラリ内の個々の識別子の非存在は、バイナリ文字列内の第2の記号値に対応する。いくつかの実施形態では、第1の記号値は1のビット値であり、第2の記号値は0のビット値である。いくつかの実施形態では、第1の記号値は0のビット値であり、第2の記号値は1のビット値である。
いくつかの実施形態では、複数の識別子を識別することは、識別子ライブラリ内の複数の識別子を配列決定することを含む。いくつかの実施形態では、配列決定は、デジタルポリメラーゼ連鎖反応(PCR)、定量的PCR、マイクロアレイ、合成による配列決定、または超並列配列決定を含む。いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、複数の核酸配列は、情報のメタデータを格納するか、および/または情報を秘匿化する。いくつかの実施形態では、1またはそれを超える識別子ライブラリが組み合わされ、1またはそれを超える識別子ライブラリ内の各識別子ライブラリは別個のバーコードを含む。いくつかの実施形態では、バーコードは情報のメタデータを格納する。
別の態様では、本開示は、核酸ベースのコンピュータデータストーレージのための方法であって、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成することであって、コンピュータデータが、合成された核酸分子の少なくともサブセットに符号化され、核酸分子の各々の配列にはコードされていない、コンピュータデータをコードする核酸配列を含む核酸分子を合成することと、(c)核酸配列を有する核酸分子を格納することとを含む方法を提供する。
いくつかの実施形態では、核酸分子の少なくともサブセットは一緒にグループ化される。いくつかの実施形態では、本方法は、核酸配列(複数可)を決定するために核酸分子(複数可)を配列決定し、それによってコンピュータデータを検索することをさらに含む。いくつかの実施形態では、(b)は、約1日未満の期間で行われる。いくつかの実施形態では、(b)は、少なくとも約90%の精度で行われる。
別の態様では、本開示は、核酸ベースのコンピュータデータ記憶のための方法であって、(a)コンピュータデータを受信することと、(b)コンピュータデータをコードする少なくとも1つの核酸配列を含む核酸分子を合成することであって、核酸分子を合成することが塩基ごとの核酸合成の非存在下である、コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成することと、(c)少なくとも1つの核酸配列を含む核酸分子を格納することとを含む方法を提供する。
いくつかの実施形態では、本方法は、核酸配列を決定するために核酸分子を配列決定し、それによってコンピュータデータを検索することをさらに含む。いくつかの実施形態では、(b)は、約1日未満の期間で行われる。いくつかの実施形態では、(b)は、少なくとも約90%の精度で行われる。
別の態様では、本開示は、核酸を使用して二進シーケンスデータを符号化するためのシステムであって、識別子ライブラリを構築するように構成されたデバイスであって、識別子ライブラリが複数の識別子を含み、複数の識別子の個々の識別子が1またはそれを超える成分を含み、1またはそれを超える成分の個々の成分が核酸配列である、デバイスと、1またはそれを超えるコンピュータプロセッサであって、該デバイスに動作可能に結合されており、(i)情報を記号列に変換し、(ii)記号列を複数の識別子にマッピングするように個別にまたは集合的にプログラムされており、複数の識別子の個々の識別子が、記号列の個々の記号に対応し、(iii)複数の識別子を含む識別子ライブラリを構築する、1またはそれを超えるコンピュータプロセッサと、を備える、システムを提供する。
いくつかの実施形態では、デバイスは複数のパーティションを含み、識別子ライブラリは1またはそれを超える複数のパーティションで生成される。いくつかの実施形態では、複数のパーティションはウェルを含む。いくつかの実施形態では、識別子ライブラリ内に個々の識別子を構築することは、1またはそれを超える層から1またはそれを超える成分をアセンブリすることを含み、1またはそれを超える層の各層は、成分の別個のセットを含む。いくつかの実施形態では、1またはそれを超える層の各層は、デバイスの別個の部分に格納され、デバイスは、1またはそれを超える層からの1つまたは複数の成分を組み合わせるように構成される。いくつかの実施形態では、識別子ライブラリは複数の核酸配列を含む。いくつかの実施形態では、1またはそれを超える識別子ライブラリは、デバイスの単一の領域内で組み合わされ、1またはそれを超える識別子ライブラリの各識別子ライブラリは、別個のバーコードを含む。
別の態様では、本開示は、核酸配列(複数可)に符号化された情報を読み取るためのシステムであって、複数の識別子を含む識別子ライブラリを格納するデータベースであって、複数の識別子の個々の識別子が1またはそれを超える成分を含み、1またはそれを超える成分の個々の成分が核酸配列を含む、データベースと、データベースに動作可能に結合された1またはそれを超えるコンピュータプロセッサであって、1またはそれを超えるコンピュータプロセッサが、(i)識別子ライブラリ内の複数の識別子を識別し、(ii)(i)で識別された複数の識別子から複数の記号を生成し、複数の記号の個々の記号が、複数の識別子の個々の識別子に対応し、(iii)複数の記号から情報をコンパイルするように、個別にまたは集合的にプログラムされる、1またはそれを超えるコンピュータプロセッサとを備える、システムを提供する。
いくつかの実施形態では、システムは、複数のパーティションをさらに備える。いくつかの実施形態では、パーティションはウェルである。いくつかの実施形態では、複数のパーティションの所与のパーティションは、1またはそれを超える識別子ライブラリを含み、1またはそれを超える識別子ライブラリの各識別子ライブラリは、別個のバーコードを含む。いくつかの実施形態では、システムは、識別子ライブラリ内の複数の識別子を識別するように構成された検出ユニットをさらに備える。
本発明の好ましい実施形態を本明細書に示し説明してきたが、そのような実施形態が例としてのみ提供されることは当業者には明らかであろう。本発明は、本明細書内で提供される特定の例によって限定されることを意図しない。本発明を前述の明細書を参照して説明してきたが、本明細書の実施形態の説明および例示は、限定的な意味で解釈されることを意味しない。当業者であれば、現在、本発明から逸脱することなく、多数の変形、変更、および置換を行うことができる。さらに、本発明の全ての態様は、様々な条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことを理解されたい。本明細書に記載の本発明の実施形態に対する様々な代替形態が、本発明を実施する際に使用され得ることを理解されたい。したがって、本発明は、任意のそのような代替形態、修正形態、変形形態または均等物も包含すると考えられる。以下の特許請求の範囲が本発明の範囲を定義し、これらの特許請求の範囲内の方法および構造ならびにそれらの均等物がそれによって包含されることが意図される。

Claims (54)

  1. 化学反応を実行するためのシステムであって、
    供給源リザーバと、
    前記供給源リザーバおよび主チャネルと流体連通する投入チャネルであって、前記投入チャネルが、前記供給源リザーバからの反応体積を主チャネルに分配するように構成され、前記主チャネルが、エレクトロウェッティングを介して複数の液滴として前記反応体積を搬送するように構成された前記主チャネルの内面上に複数のパッドを備える、投入チャネルと、
    前記複数の液滴を前記主チャネルからプールに受け入れるように構成された宛先リザーバと、
    を備える、化学反応を実行するためのシステム。
  2. 前記複数のパッドの各パッドが、電極、誘電材料、および疎水性表面を含む、請求項1に記載のシステム。
  3. 前記複数のパッドが、前記内面上にアレイとして配置され、前記アレイが、前記アレイのパッド列に沿って前記複数の液滴の個々の液滴を搬送するように構成され、前記アレイが、複数のパッド列を備え、各パッド列が、前記主チャネルの長さに沿って延在する、請求項1または2のいずれかに記載のシステム。
  4. 前記複数のパッド列が、複数の液滴を並行して搬送するように構成される、請求項3に記載のシステム。
  5. 前記主チャネルの前記内面の上方の高さhに位置するカバープレートをさらに備え、前記高さhが、前記主チャネルを一次元で画定する、請求項3および4のいずれかに記載のシステム。
  6. 前記主チャネルの前記高さh、前記主チャネルの幅w、前記主チャネルを通る前記複数の液滴の液滴速度v、および前記複数の液滴によって占有される前記主チャネルの平均部分体積oのうちの少なくとも1つが、h*w*v*oに等しい前記システムの有効流量が、目標時間量で前記主チャネルを通って前記供給源リザーバ内の初期反応体積を移動させるのに十分であるように構成される、請求項5に記載のシステム。
  7. 前記初期反応体積が約1リットル以上であり、前記目標時間量が約2時間以下である、請求項6に記載のシステム。
  8. 前記液滴速度vが、前記液滴速度がx*fに等しくなるようにパッド長さxおよびパッドスイッチング周波数fによって決定される、請求項6~7のいずれかに記載のシステム。
  9. 前記複数のパッドが、目標温度に設定されたパッド行を含む、請求項3~8のいずれかに記載のシステム。
  10. 前記アレイが、複数の目標温度に設定された複数のパッド行を備え、各パッド列が、複数の目標温度に設定された前記複数のパッド行の各パッド行からのパッドを備え、それにより、液滴が、前記アレイの個々のパッド列に沿って搬送される際に前記複数の目標温度に曝される、請求項9に記載のシステム。
  11. 前記アレイが、前記主チャネルの前記長さに沿って周期的な温度パターンを有するパッド行のパターン備える、請求項10に記載のシステム。
  12. 前記パターンが温度サイクルを規定し、前記アレイが前記パターンの複数のインスタンスを含む、請求項11に記載のシステム。
  13. 前記反応体積がポリメラーゼ連鎖反応(PCR)処方であり、個々のサイクルの前記複数の標的温度が、二本鎖DNA、アニーリングプライマーおよび伸長プライマーを溶融するために構成される、請求項11~12のいずれかに記載のシステム。
  14. 前記温度サイクルの個々の温度に対するパッドスイッチング周波数およびパッド行の数が、個々の液滴が前記個々の温度で目標時間を費やすように設定される、請求項12~13のいずれかに記載のシステム。
  15. 前記主チャネルの前記長さが、前記パターンのインスタンスの数×パターン長と少なくとも同じ長さである、請求項12~14のいずれかに記載のシステム。
  16. 前記複数のパッドのうちの1つのパッドが酵素とコンジュゲートされる、請求項1~15のいずれかに記載のシステム。
  17. 前記複数のパッドのうちの1つのパッドが酵素を捕捉するように構成される、請求項1~15のいずれかに記載のシステム。
  18. 前記複数の液滴の各液滴が磁気ビーズを含有し、前記酵素が前記磁気ビーズに結合しており、前記パッドが、前記酵素が結合している前記磁気ビーズを捕捉するように構成された電磁石を備える、請求項17に記載のシステム。
  19. 前記酵素がポリメラーゼである、請求項16~18のいずれかに記載のシステム。
  20. 前記複数の液滴を前記供給源リザーバから前記投入チャネルを介して前記主チャネルに搬送するように構成された投入ポンプをさらに備える、請求項1~19のいずれかに記載のシステム。
  21. 前記主チャネルから前記宛先リザーバに液滴を吸引するように構成された排出ポンプをさらに備える、請求項1~20のいずれかに記載のシステム。
  22. 前記投入ポンプおよび前記排出ポンプのうちの少なくとも1つが、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの1つである、請求項20~21のいずれかに記載のシステム。
  23. 前記供給源リザーバが加圧される、請求項1~22のいずれかに記載のシステム。
  24. 前記宛先リザーバが減圧される、請求項1~23のいずれかに記載のシステム。
  25. 前記宛先リザーバが、反応を阻害するように構成された試薬をさらに含む、請求項1~24のいずれかに記載のシステム。
  26. 前記試薬がEDTAである、請求項25に記載のシステム。
  27. 前記主チャネルが空気を含む、請求項1~26のいずれかに記載のシステム。
  28. 前記主チャネルが油を含む、請求項1~26のいずれかに記載のシステム。
  29. 前記反応体積が、デジタル情報を符号化するDNA分子のライブラリを含む、請求項1~28のいずれかに記載のシステム。
  30. 前記反応体積がゲノムDNAのライブラリを含む、請求項1~28のいずれかに記載のシステム。
  31. 前記反応体積が、スクリーニングのためのDNA変異体のライブラリを含む、請求項1~28のいずれかに記載のシステム。
  32. 前記宛先リザーバが、前記プールの少なくとも一部を容器内または基板上に分注するように構成されたディスペンサを備える、請求項1~31のいずれかに記載のシステム。
  33. 前記主チャネルおよび前記宛先リザーバと流体連通する排出チャネルをさらに備え、前記排出チャネルが、前記複数の液滴を前記主チャネルから前記宛先リザーバに搬送するように構成される、請求項1~32のいずれかに記載のシステム。
  34. 請求項1~33のいずれかに記載の主チャネルを備えるデバイス。
  35. 化学反応を実行するためのデバイスであって、
    底面と、
    前記底面に配置された複数のパッドと、
    前記底面の第1の末端にある入口と
    前記第1の末端の反対側の前記底面の第2の末端にある出口と
    前記底面の上方のチャネル高さに位置するカバーとを備え、
    前記底面および前記カバーが、前記チャネル高さによって特徴付けられるチャネルを規定する、化学反応を実行するためのデバイス。
  36. 前記複数のパッドの各パッドが、電極、誘電材料、および疎水性表面を備える、請求項35に記載のデバイス。
  37. 各パッドが、前記底面と前記カバーとの間に電界を発生させるように構成されている、請求項36に記載のデバイス。
  38. 前記複数のパッドが、前記底面上にアレイとして配置され、前記アレイが、複数のパッド行および複数のパッド列を備え、各パッド列が各パッド行と交差し、その逆も同様であり、各パッド列が各パッド行からのパッドを備え、その逆も同様である、請求項35~37のいずれかに記載のデバイス。
  39. 各パッド行が目標温度にある、請求項38に記載のデバイス。
  40. 前記アレイが、複数のセットのパッド行を備え、各セットが目標温度にあり、1またはそれを超えるパッド行を備える、請求項38に記載のデバイス。
  41. 前記アレイが温度サイクルのパターンを含み、各温度サイクルが複数のセットを備え、前記温度サイクルにおける前記複数のセットの各セットが異なる目標温度を有する、請求項40に記載のデバイス。
  42. 前記チャネルが、複数の液滴として凝集反応体積を含有する、請求項35~38のいずれかに記載のデバイス。
  43. 前記複数のパッドが、前記入口から前記出口に前記液滴を搬送するように配置され、前記入口から前記出口への方向が、前記チャネル高さに直交する、請求項39に記載のデバイス。
  44. 前記凝集反応体積が、デジタル情報を符号化するDNA分子のライブラリ、ゲノムDNA分子のライブラリ、スクリーニング用のDNA変異体のライブラリ、またはRNAのライブラリのうちの1つまたは複数を含む、請求項42および43のいずれかに記載のデバイス。
  45. 前記チャネル高さh、前記チャネルの幅w、前記チャネルを通る前記複数の液滴の液滴速度v、および前記複数の液滴によって占められる前記チャネルの平均部分体積oのうちの少なくとも1つが、h*w*v*oに等しい前記デバイスの有効流量が、前記凝集反応体積を目標時間量で前記入口から前記出口まで前記チャネルを通って移動させるのに十分であるように構成される、請求項39および40のいずれかに記載のデバイス。
  46. 前記複数のパッドのうちの1つのパッドが酵素とコンジュゲートされる、請求項35~45のいずれかに記載のデバイス。
  47. 前記複数のパッドのうちの1つのパッドが酵素を捕捉するように構成される、請求項35~45のいずれかに記載のデバイス。
  48. 前記パッドが、前記酵素が結合している磁気ビーズを捕捉するように構成された電磁石を備える、請求項47に記載のデバイス。
  49. 前記酵素がポリメラーゼである、請求項46~48のいずれかに記載のデバイス。
  50. 前記供給源リザーバおよび前記チャネルの前記入口の各々と流体連通する投入チャネルを介して、供給源リザーバから前記チャネル内に初期反応体積を搬送するように構成された投入ポンプをさらに備える、請求項35~49のいずれかに記載のデバイス。
  51. 前記チャネルの前記出口および前記宛先リザーバのそれぞれと流体連通する排出チャネルを介して、前記チャネルから前記宛先リザーバに流体または粒子を搬送するように構成された排出ポンプをさらに備える、請求項35~50のいずれかに記載のデバイス。
  52. 前記投入ポンプおよび前記排出ポンプのうちの少なくとも1つが、ダイアフラムポンプ、圧力ポンプ、または蠕動ポンプのうちの1つである、請求項50~51のいずれかに記載のデバイス。
  53. 前記チャネルが、前記底面と前記カバーとの間に空気を含む、請求項1~26のいずれかに記載のシステム。
  54. 前記チャネルが、前記底面と前記カバーとの間に油を含む、請求項1~26のいずれかに記載のシステム。
JP2023518164A 2020-09-22 2021-09-21 温度制御流体反応システム Pending JP2023546330A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063081666P 2020-09-22 2020-09-22
US63/081,666 2020-09-22
PCT/US2021/051301 WO2022066637A1 (en) 2020-09-22 2021-09-21 Temperature-controlled fluidic reactions system

Publications (1)

Publication Number Publication Date
JP2023546330A true JP2023546330A (ja) 2023-11-02

Family

ID=78135196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023518164A Pending JP2023546330A (ja) 2020-09-22 2021-09-21 温度制御流体反応システム

Country Status (6)

Country Link
EP (1) EP4217112A1 (ja)
JP (1) JP2023546330A (ja)
KR (1) KR20230074153A (ja)
AU (1) AU2021347675A1 (ja)
CA (1) CA3195364A1 (ja)
WO (1) WO2022066637A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7439014B2 (en) * 2006-04-18 2008-10-21 Advanced Liquid Logic, Inc. Droplet-based surface modification and washing
EP2776165A2 (en) * 2011-11-07 2014-09-17 Illumina, Inc. Integrated sequencing apparatuses and methods of use
JP7107956B2 (ja) 2016-11-16 2022-07-27 カタログ テクノロジーズ, インコーポレイテッド 核酸ベースのデータ記憶のためのシステム
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
WO2019222562A1 (en) 2018-05-16 2019-11-21 Catalog Technologies, Inc. Printer-finisher system for data storage in dna
EP3794598A1 (en) 2018-05-16 2021-03-24 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
JP2021532799A (ja) 2018-08-03 2021-12-02 カタログ テクノロジーズ, インコーポレイテッド 誤り保護とともに核酸に基づくデータを記憶および読むためのシステムおよび方法

Also Published As

Publication number Publication date
KR20230074153A (ko) 2023-05-26
AU2021347675A1 (en) 2023-04-20
WO2022066637A1 (en) 2022-03-31
EP4217112A1 (en) 2023-08-02
CA3195364A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
US11379729B2 (en) Nucleic acid-based data storage
US20230376787A1 (en) Nucleic acid-based data storage
JP7364604B2 (ja) 核酸ベースのデータ記憶のための化学的方法
US11227219B2 (en) Compositions and methods for nucleic acid-based data storage
JP2023546330A (ja) 温度制御流体反応システム
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing
JP2024514430A (ja) 固定小数点数表現及び計算回路
WO2023177864A1 (en) Combinatorial enumeration and search for nucleic acid-based data storage

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230713

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230816