JP2024500105A - ポリヌクレオチドの改善されたインビトロアセンブリーのための組成物及び方法 - Google Patents

ポリヌクレオチドの改善されたインビトロアセンブリーのための組成物及び方法 Download PDF

Info

Publication number
JP2024500105A
JP2024500105A JP2023536435A JP2023536435A JP2024500105A JP 2024500105 A JP2024500105 A JP 2024500105A JP 2023536435 A JP2023536435 A JP 2023536435A JP 2023536435 A JP2023536435 A JP 2023536435A JP 2024500105 A JP2024500105 A JP 2024500105A
Authority
JP
Japan
Prior art keywords
ligation
dna
ligase
overhangs
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023536435A
Other languages
English (en)
Inventor
ローマン,グレゴリー
ポタポフ,ブラジーミル
プライアー,ジョン・エム
クセラ,レベッカ
ビロッティ,カタリーナ
モーガン,リチャード・ディー
Original Assignee
ニユー・イングランド・バイオレイブス・インコーポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニユー・イングランド・バイオレイブス・インコーポレイテツド filed Critical ニユー・イングランド・バイオレイブス・インコーポレイテツド
Publication of JP2024500105A publication Critical patent/JP2024500105A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1031Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

多数の断片の、単一の大きいDNAへの規則的アセンブリーは、アセンブリーされた生成物の頻度と忠実度との両方において改善された。これは、複数の供給源に由来する包括的ライゲーションデータを統合して、最適化された合成突出部又はライゲーションによるアセンブリーのためのDNA断片上の制限エンドヌクレアーゼ切断に由来する突出部を提供するコンピュータシステムにおいて使用される新規組成物及び方法によって達成された。遺伝子内切断部位は、合成アクチベーターオリゴヌクレオチドを援用して、7ヌクレオチド(塩基)を認識し、DNAを切断して、4塩基突出部を作出する新規制限エンドヌクレアーゼの使用によって回避される。異なるリガーゼによるリガーゼ優先性の変化は、アセンブリー反応における追加の正確性を提供する。改善された方法の使用は、ウイルスゲノムの52個の断片からのアセンブリーの成功及びまた、細菌オペロンの52個の断片の規則的アセンブリーによって例示される。

Description

より小さい構成要素のDNA分子から得られる大きいDNA分子のインビトロの規則的アセンブリーは、合成生物学の重要な特色である。配列及びライゲーション非依存性クローニング(SLIC)(Liら、Nat.Methods Res4巻、251~256(2007))、Golden Gate法(Englerら、PLOS one 3、e3647(2007)、Englerら、PlosOne e5553(2009))、環状ポリメラーゼ伸長クローニング(CPEG)(Quanら、PlosOne 4、e6441(2009))、NEBuilder(登録商標)(New England Biolabs、Ipswich、MA)、シームレスライゲーションクローニング抽出(SLICE)(Zhangら、NAR 40、e55(2012))及びバチルス・サブティリス(Bacillus subtilis)における規則的遺伝子アセンブリー(OGAB)(Tsugeら、Scientific Reports、5、10655(2015))を含む様々な方法が開発されている。これらの方法は、インビトロ及びインビボのアセンブリー方法、相同組換えアプローチ、並びにエキソヌクレアーゼ及びリガーゼの異なる使用に関して相違する。いずれのアセンブリー方法も、アセンブリーされた断片の頻度及び忠実度によって成功が決まるが、これらのパラメータが依存する基準の体系的な分析はほとんどなされていない。
Golden Gateアセンブリーと呼ばれる方法では、二本鎖DNA上に一本鎖突出部を生成する制限エンドヌクレアーゼを使用してDNAの断片が作製される。その後、複数の異なる断片の突出部間でライゲーションが起こり、断片から単一の二本鎖分子をアセンブリーさせる。所望の断片数について特定の基準下でポリヌクレオチド断片アセンブリーの好ましい突出部を同定する方法が、WO2020/081768に記載されている。T4 DNAリガーゼを使用した最適化された突出部の選択は、突出部の配列を変化させることに基づき、アセンブリーされた断片の大規模な配列決定に基づいてコンピュータソフトウェアを使用して照合されている。インキュベーションの温度及び時間を含む他の因子を変化させ、これらの結果をコンピュータ解析に組み入れる。断片アセンブリーの忠実度及び効率、並びにユーザフレンドリーなフォーマットで得られたデータのアクセシビリティの体系的な分析は、時間効率の良い様式で所望の順序における多数の断片の忠実なアセンブリーを容易にさせることが示されている。
Golden Gateアセンブリー方法の一側面は、IIS型制限エンドヌクレアーゼ及びリガーゼへの依存である。5塩基又は6塩基を認識するIIS型エンドヌクレアーゼは、望ましくない内部切断部位を生じ得る。これは、部位特異的変異誘発によって、又は認識配列内のアセンブリージャンクションの設計によって除去することができるが、その除去戦略は時間を要し、コストを増加させる。内部部位は、完成した構築物がアセンブリー反応に存在する制限酵素によって消化されやすくなり、誤った望ましくないアセンブリーが導かれるため、アセンブリー効率を著しく低下させる。したがって、切断のために、7ヌクレオチドを認識するIIS型エンドヌクレアーゼを用いることが望ましい。そのような酵素は、アセンブリーが複雑で、最大の効率が所望される多断片アセンブリーのために特に有用である。さらに、完全に切断することができ、検出可能なスター活性を有しないエンドヌクレアーゼが好ましい。
Grigaiteら、Nucleic Acid Research 2002、30巻、e123は、7ヌクレオチド認識配列を有するIIS型エンドヌクレアーゼであるAarIを記載している。残念ながら、このエンドヌクレアーゼはスター活性を有し、DNAを完全に切断しない。AarIのDNA若しくはタンパク質配列又は緩衝液要件のいずれも知られていないため、この酵素を改善するという選択肢は利用できない。したがって、7ヌクレオチドを認識して4塩基突出部を生成し、完全に切断可能な、さらなる改善された制限エンドヌクレアーゼが必要である。
Golden Gateアセンブリー方法の別の側面は、T4リガーゼへの依存である。様々な相補的突出部のライゲーションにおける偏りが、T4 DNAリガーゼで検出されている(Potapovら、ACS Synthetic Biology、7、2665~2674(2018);Nilssonら、Nucleic Acids Res.10:1425~1437(1982);Goffinら、Nucleic Acids Res.15:8755~8771(1987);Wuら、Gene、76:245~254(1989);Haradaら、Nucleic Acids Res.、21、2287~2291(1993);Showalterら、Chem Rev.106:340~360(2006);Englerら、PlosOne e5553(2009);Englerら、Methods Mol.Biol.、729:167~181(2011);Englerら、Methods Mol.Biol.、1116、119~131(2014))。ライゲーションされたDNA内のミスマッチ配列のライゲーションに起因する完璧でない忠実度を伴うこの偏りは、規則的アセンブリー反応における多数の断片にとって重要な問題となる。大規模な断片アセンブリーについて突出部セットを選択するための一般的法則は同定されていない。代わりに、アセンブリー設計は、アニーリングされた突出部データを比較して、最適化された突出部セットを提供する又は既存の突出部セットを評価することができるコンピュータツールを使用して、個々のケースごとに最良に達成され得る。断片の大規模なセットのアセンブリーの使用が増加するにつれて、データが最適化されたアセンブリー設計のために利用可能なコンピュータツールを改良する必要性も増している。
国際公開第2020/081768号
Liら、Nat.Methods Res4巻、251~256(2007) Englerら、PLOS one 3、e3647(2007) Englerら、PlosOne e5553(2009) Quanら、PlosOne 4、e6441(2009) Zhangら、NAR 40、e55(2012) Tsugeら、Scientific Reports、5、10655(2015) Grigaiteら、Nucleic Acid Research 2002、30巻、e123 Potapovら、ACS Synthetic Biology、7、2665~2674(2018) Nilssonら、Nucleic Acids Res.10:1425~1437(1982) Goffinら、Nucleic Acids Res.15:8755~8771(1987) Wuら、Gene、76:245~254(1989) Haradaら、Nucleic Acids Res.、21、2287~2291(1993) Showalterら、Chem Rev.106:340~360(2006) Englerら、Methods Mol.Biol.、729:167~181(2011) Englerら、Methods Mol.Biol.、1116、119~131(2014)
二本鎖領域及び一本鎖ループを特徴とする合成自己相補性オリゴヌクレオチドであって、二本鎖領域が、PaqCI(登録商標)(New England Biolabs,Inc.)のための認識配列を含有し、ライゲーションできない3’及び5’末端を有し、PaqCIによって切断できない、合成自己相補性オリゴヌクレオチドが提供される。PaqCIは、本明細書では、野生型と比較して10%以下のアミノ酸改変を有し、DNA認識特異性及び切断特性を保持するバリアントを含むと定義される。オリゴヌクレオチドは、以下の特徴のいずれか1つ以上によってさらに定義され得る:10~50塩基対の長さを有する二本鎖領域;110ヌクレオチド未満のオリゴヌクレオチドの長さ;3’ヒドロキシルではないオリゴヌクレオチドの3’末端;5’ホスフェートではないオリゴヌクレオチドの5’末端及び/又はCACCTGCである認識配列;並びにオリゴヌクレオチド中に一度だけ存在する。
上記の合成自己相補性オリゴヌクレオチド及びPaqCI制限エンドヌクレアーゼ又は配列番号1との少なくとも90%のアミノ酸配列同一性を有するアミノ酸配列を有するそのバリアントを含む反応混合物であって、PaqCIが、野生型と比較して10%以下のアミノ酸改変を有し、DNA認識特異性及び切断特性を保持するバリアントを含むと本明細書で定義される、反応混合物が提供される。反応混合物の特徴は、以下の特徴のうちの1つ以上を含んでもよい:PaqCIと合成自己相補性オリゴヌクレオチドの比が、1ユニットのPaqCI:0.75ピコモル~9ピコモルのオリゴヌクレオチドの範囲である;二本鎖DNA基質及び/又はリガーゼを含む;DNA基質が、PaqCIのための1つ以上の認識配列を含有し、PaqCIによって切断されて、4塩基突出部をもたらすことができる;DNA基質中の認識配列が、CACCTGCである;DNAリガーゼが、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1 DNAリガーゼ及びhLig3からなる群から選択される;PaqCIとリガーゼの比が、2.5~20のPaqCIユニット対200~800のリガーゼユニットである;反応混合物が、PaqCIのための結合部位によってそれぞれ挟まれた断片を含有し、PaqCI又はそのバリアントによるプラスミド又はPCR産物の切断が、異なる4塩基突出部を有する断片を生じる、複数のプラスミド又はPCR産物を含む。
以下のステップ:(a)(i)上記の合成オリゴヌクレオチド;(ii)PaqCI;(iii)リガーゼ;及び(iv)少なくとも1つのPaqCI認識配列及び切断部位をそれぞれ有するDNA基質のライブラリーを含む反応混合物を取得するステップ;(b)DNA基質のライブラリーをPaqCIにより切断して、4塩基突出部を有する断片を生成するステップ;並びに(c)相補的な4塩基突出部を互いにライゲーションして、断片の規則的アセンブリーを生産するステップを含む方法が提供される。
方法は、以下の特徴を含んでもよい:ライブラリー中のDNA基質が、PCR産物、プラスミド、ゲノム又は染色体からなる群の1つ以上から選択される;ステップ(c)が、規則的アセンブリーをデスティネーションベクター又はウイルスゲノム中でライゲーションすることをさらに含んでもよい;デスティネーションベクターが、プラスミド又は染色体である;リガーゼが、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1及びヒトリガーゼ3からなる群から選択され得る;ユニークな配列を有する10~100個のDNA基質が存在し、規則的アセンブリーが、ステップ(c)において互いにライゲーションされる10~100個の断片を含む;ユニークな配列を有する少なくとも20個のDNA基質が、反応混合物に含まれ、規則的アセンブリーが、ステップ(c)において互いにライゲーションされる少なくとも20個の断片を含む;並びに反応混合物が、DNA修復酵素、例えば、EndoMS、デアデニラーゼ、例えば、酵母デアデニラーゼ、及び/又はクラウディング剤、例えば、600~8000の範囲の分子量を有するポリエチレングリコール(PEG)をさらに含んでもよい。
方法は、ステップ(a)において、(i)コンピュータツールが、データセットから、DNAのライブラリーに関する4塩基突出部のセットに関する最適化された忠実度及び/若しくは頻度スコアであって、相補配列のアニーリングに関するデータ、及び異なる4塩基突出部に対するリガーゼ活性に由来するデータから導出される、最適化された忠実度及び/若しくは頻度スコアを生成する;並びに/又は(ii)コンピュータツールが、最適化された4塩基突出部を介して規則的アセンブリーに加わるための断片配列を生成するためにインシリコ配列中の切断点を提供する、コンピュータツールを使用して反応混合物のための4塩基突出部のセットを同定することをさらに含んでもよい。
上記の合成自己相補性オリゴヌクレオチド及び上で定義されたバリアントを包含するPaqCIを含有するキットが提供される。キットの追加成分は、以下の1つ以上を含んでもよい:リガーゼ;EndoMSなどのミスマッチ特異的エンドヌクレアーゼである修復酵素、デアデニラーゼ及び600~8000の範囲の分子量を有するポリエチレングリコール(PEG)などのクラウディング剤からなる群から選択されるコファクター;並びに4塩基突出部を有する成分断片から大きいDNAを合成するための使用説明書。キット中の試薬は、組み合わせられている又は2つ以上の容器中にあってもよい。一実施形態では、オリゴヌクレオチド、リガーゼ及びPaqCIバリアントのうちの少なくとも1つは、凍結乾燥されている又は2次元若しくは3次元表面などの固体基質上に固定されている。
選択されたライゲーション条件下で実施される規則的アセンブリー反応のための突出部のセットを選択するためのコンピュータ実装方法であって、(a)(i)アセンブリー反応のための突出部の所望の数及び(ii)突出部の長さを受け取るステップ;(b)突出部テーブルから突出部のセットを選択するステップ、ここで、選択された突出部のセットが、(i)において受け取った突出部の所望の数及び(ii)において受け取った突出部の長さを有する;(c)減少した偏りで突出部をライゲーションするための複数の異なるリガーゼからリガーゼを選択するステップ;(d)セット中のそれぞれ個々の突出部について、選択されたリガーゼのライゲーション忠実度スコアを算出するステップ、ここで、それぞれ個々の突出部のライゲーション忠実度スコアが、個々の突出部及びその相補体が、セット中の全ての突出部及びその相補体と比較して完全に相補的な突出部に独立にライゲーションする頻度を表す;(e)ステップ(d)において出力された、個々の突出部のそれぞれに関する算出されたライゲーション忠実度スコアに基づいて、突出部のセットに関する全体ライゲーション忠実度スコアを算出するステップ;(f)複数の全体ライゲーション忠実度スコアがそれぞれ、突出部の異なるセットについて算出されるまで、ステップ(b)~(e)を反復するステップ;並びに(g)選択されたリガーゼに関して好適な全体ライゲーション忠実度スコアを有する突出部のセットを提供するステップを含む、方法が提供される。
コンピュータ実装方法の1つ以上の特徴は、ステップ(b)において選択された突出部のセット中の個々の突出部のそれぞれが、セット内でユニークであり、セット中の別の突出部と相補的ではなく、パリンドロームではないこと;ステップ(c)におけるライゲーション忠実度スコアの算出が、ライゲーション事象及び/又はミスマッチ事象の数の個々の実験により定義された測定を含む、異なるリガーゼに関するライゲーション頻度テーブル及び偏りテーブルを参照することをさらに含むこと;個々の突出部及びセット中の全ての突出部と、それらの相補体との間並びに個々の突出部の相補体及びセット中の全ての突出部と、それらの相補体との間で起こるライゲーション事象の総数と比較した、それぞれ個々の突出部とその相補体との間で起こるライゲーション事象及び/又はミスマッチ事象の数を算出すること;突出部のセットが、標的ポリヌクレオチド中の規則的アセンブリーの複数の二本鎖ポリヌクレオチド断片のそれぞれの末端上の個々の突出部に対応し、個々の突出部が、それぞれのポリヌクレオチド断片のそれぞれの末端が異なる突出部を有するような2~5個のヌクレオチドからなる一本鎖配列であり、断片アセンブリーの規則化が、ポリヌクレオチドの一方の末端の突出部と、隣接ポリヌクレオチドの一方の末端上の相補的突出部とのアニーリングの生成物であること、を含む。
方法の別の特徴は、ステップ(a)において、(iv)アセンブリーのヌクレオチド配列;及び(v)(iv)のヌクレオチド配列を酵素的に切断することができる間隔のセットを受け取るステップ、並びにそれぞれのサブ配列が突出物を有する、(ii)において入力された突出部の長さと同じ長さである間隔でサブ配列の非冗長セットを同定するステップを含んでもよく;方法は、(h)好適な全体忠実度スコアを有する突出部のセットを有するサブ配列の非冗長セットを保存するステップをさらに含む。
別の特徴は、アセンブリーのヌクレオチド配列中の開始及び終結座標によって(v)のそれぞれの間隔を定義するステップを含んでもよい。
別の特徴は、ステップ(e)において、ステップ(b)~(d)を少なくとも1000回反復することを含んでもよい。
別の特徴は、ステップ(a)において、ポリヌクレオチド断片の規則的アセンブリーのための酵素的切断及びライゲーションに関する選択された実験条件を受け取るステップを含んでもよい。
別の特徴は、選択されたリガーゼを用いたアニーリング及びライゲーションのための好適な忠実度及び/又は頻度スコアを有する、ステップ(g)における突出部のセットを提供するための選択された実験条件を受け取るステップを含んでもよい。
別の特徴は、上記のコンピュータ実装方法を実行させるステップ並びにステップ(g)において同定された突出部のセットを含有する出力を受け取るステップ及び/又は(iv)及び(v)が入力である場合、規則的アセンブリーのポリヌクレオチド断片のセットの配列を受け取るステップを含んでもよく、断片の末端はステップ(g)において同定された突出部によって定義される。
コンピュータ実装方法は、酵素的に切断して、同定された突出部を生産することができる間隔でサブ配列の同定された非冗長セットを有するポリヌクレオチド断片のセットの配列を取得するステップを含んでもよい。方法の別の特徴は、選択された実験条件及びコンピュータにより生成された突出部のセットが、セット中の断片の数に関する相補的アニーリング及びリガーゼ依存的ライゲーションの有効量の忠実度及び頻度での、選択されたポリヌクレオチド断片のセットの規則的アセンブリーにとって好適であることを確立することを含んでもよい。実験条件(ライゲーション条件)は、例えば、リガーゼが、野生型T4 DNAリガーゼ、又は熱安定性T4 DNAリガーゼ及び耐塩性T4 DNAリガーゼから選択されるそのバリアントであり、リガーゼが、T4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1 DNAリガーゼ、T4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ、又はPBCV-1 DNAリガーゼのいずれかの温度安定性バリアント及びT4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1 DNAリガーゼのいずれかの高塩安定性バリアントからなる群から選択される、4塩基突出部を含有するポリヌクレオチド断片のセットをライゲーションするための、好適な忠実度及び頻度スコアを有する、DNAリガーゼを選択すること;及び/又はそのように切断されたそれぞれのポリヌクレオチド断片が、突出部配列のセットに由来する突出部配列を含有するような認識配列を含有するポリヌクレオチド断片のセットの酵素的切断のための、特徴的なDNA認識配列を有する、IIS型制限エンドヌクレアーゼであって、7塩基認識配列を有する、例えば、IIS型制限エンドヌクレアーゼ、例えば、PaqCIを選択することを含んでもよい。
ポリヌクレオチド断片のセットに由来する標的ポリヌクレオチドの規則的アセンブリーのための選択される実験条件の他の例は、塩濃度、DNA修復酵素、温度範囲並びに/又は切断及びライゲーションのための熱サイクリング条件のうちの1つ以上を含むライゲーション条件を含む。例えば、塩濃度は、50mM~150mMの塩の範囲であり、DNA修復酵素は、EndoMS又はT7 EndoIであり、温度範囲は、37℃~50℃であり、熱サイクリング条件は、ドロップダウン式、タッチダウン式及びタッチアップ式温度サイクリングから選択される。
方法のさらなる実施形態では、さらなる特徴は、ウイルスゲノム、原核ゲノム、オペロン及び代謝経路から選択されるアセンブリーのヌクレオチド配列を含んでもよく、アセンブリーを生産するためのポリヌクレオチド断片の数は、2~100個の断片の範囲である。
好適なソフトウェアによって記載の方法を実施するためのコンピュータ読み取り可能な媒体が提供される。
標的ポリヌクレオチドを合成するための方法であって、(a)のコンピュータ実装方法を使用してリガーゼの選択を含む実験条件のセットの下で好適な全体忠実度スコアを有する突出部のセットを取得するステップ、ここで、上記コンピュータは、ユーザによって少なくとも一部決定された、選択された実験条件のセットの下で、酵素的に得られた、又は化学的に合成された、コンピュータ又はユーザによって任意選択的に決定された配列を有するポリヌクレオチド断片のセットをアセンブリーさせるように、自動化された機器又はユーザに指示する;(b)機器内又は反応チューブ中の選択された実験条件下で、リガーゼ、制限エンドヌクレアーゼ及びポリヌクレオチド断片を組み合わせることによって、標的ポリヌクレオチドの任意選択的に自動化された規則的アセンブリーを可能にするステップ;並びに(c)任意選択的に、遺伝子又は複数の遺伝子の発現のために、(i)細菌細胞又は(ii)インビトロ系に標的ポリヌクレオチドを導入するステップを含む、方法が提供される。
この方法は、ステップ(a)及び(b)を繰り返すことによって、標的ポリヌクレオチドのアセンブリーを可能にし、ここで、最初のラウンドにおいて、ポリヌクレオチド断片が1000塩基長未満であり、アセンブリーされた断片が、上記暫定標的ポリヌクレオチドを形成し、暫定標的ポリヌクレオチドが、規則的アセンブリーの次のラウンドのためのポリヌクレオチド断片を形成して、最終的な標的ポリヌクレオチドを形成する。ステップ(a)におけるポリヌクレオチド断片のセットは、2~100個の断片、より具体的には、20~100個の断片又は少なくとも20個の断片である。方法は、ステップ(b)の前にポリヌクレオチド断片のセットの多重増幅を実施するステップをさらに含んでもよい。方法において、標的ポリヌクレオチドは、転写されて標的RNAを形成し得るDNAであってもよい。標的ポリヌクレオチドは、DNAであってもよく、DNAは細胞中で発現されて、1つ以上のタンパク質を産生する。例えば、標的タンパク質は、代謝経路、ウイルスゲノム又は免疫細胞遺伝子の一部又は全部であってもよい。
20~100個のDNA断片から規則的DNAアセンブリーを実施して、大きいDNAを作出する方法であって、任意の順序で実施することができる以下のステップ:(a)規則的アセンブリー反応において20~100個の断片を連結するための4塩基突出部配列の最適なセットに関してコンピュータ設計ツールからの指示を取得するステップ、ここで、上記コンピュータ設計ツールが、1つ以上のセットのデータから、突出部の最適なセットを計算し、それぞれのセットのデータが、4塩基突出部の全ての組合せに関する個々のリガーゼ優先性の頻度及び忠実度分析から得られる;及び(b)大きいDNAを作出するための規則的アセンブリー反応において、選択されたリガーゼを用いるライゲーションのための4塩基突出部の最適なセットを有する20~100個の断片を取得するステップを有する、方法が提供される。
方法は、ポリメラーゼ連鎖反応(PCR)を使用して20~100個の断片にIIS型制限エンドヌクレアーゼ認識配列を付加すること、又は断片のそれぞれの末端の挿入部位にIIS型制限エンドヌクレアーゼ認識配列を有する20~100個のプラスミド中に20~100個の断片を挿入すること、又は最適化された4塩基突出部を有する20~100個の断片を合成することを含んでもよい。
5’CACCTGC3’の認識配列を有し、4塩基突出部の最適化されたセットを作出するための切断部位が、5’CACCTGC(N4)3’(配列番号2)及び3’GTGGACG(N8)5’(配列番号3)である、IIS型制限エンドヌクレアーゼを選択することができる。例えば、制限エンドヌクレアーゼは、PaqCIである。他の特徴では、リガーゼは、T4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ又はPBCV-1 DNAリガーゼのうちの1つ以上から選択することができる。
カスタマイズされたT細胞の高効率アセンブリーのための方法であって、(a)患者に由来する腫瘍細胞上の表面抗原を同定するステップ、ここで、タンパク質は腫瘍細胞に特異的である;(b)患者からT細胞を収集するステップ;(c)4塩基突出部を有するDNA断片の規則的アセンブリーを引き起こして、腫瘍抗原特異的であるキメラ抗原受容体をコードする大きいDNAを形成させるステップ;及び(d)部位特異的CrispRによって切断されたT細胞のゲノム中に大きいDNAを導入するステップを含む、方法が提供される。
ステップ(d)における大きいDNAは、保存された複数のDNA断片、及び少なくとも保存されたDNA断片が、カスタマイズされたT細胞の高効率アセンブリーのために細菌細胞中のプラスミド中で個別に保存されるような複数の可変DNA断片配列、の規則的アセンブリーの生成物であってよい。
変異を有するウイルスゲノムを作出するための方法であって、(a)ウイルスゲノム中での規則的アセンブリーのための複数の断片を生成するステップ;(b)リガーゼによる複数のミスマッチのライゲーションを可能にする4塩基突出部を選択するステップ;及び(c)抗生物質活性について、又はワクチン生産のための基質として生成物ウイルスゲノムを試験するステップを含む、方法が提供される。この方法の例は、リガーゼが、比較的低い忠実度のリガーゼ、例えば、hLig3である場合である。上記方法は、DNAの小さい断片から任意のサイズのDNAを作出するために断片を連結する反復サイクルにおいて複数の試料を取り扱うためのマイクロ流体デバイス又はロボットデバイスを使用する高効率ワークフローにおいて達成され得る。
図1A~図1Bは、50ulの成長(総成長の1/20)あたりの正しいLacL/lLacZアセンブリーを示す青色表現型を有するコロニーの数によって決定される、24断片アセンブリーについてのPaqCI性能比較(効率)を示す。パウシバクター・アクアティル(Paucibacter aquatile)由来のPaqCIは、AarIと比較して、合成アクチベーターオリゴヌクレオチド(「アクチベーター」又は「オリゴヌクレオチド」とも称する)及びT4 DNAリガーゼと一緒となって、24断片からのアセンブリーされた大きいDNAにおけるコロニー形成の効率及び配列の忠実度を大幅に向上させた。図1A:PaqCIは、30サイクルにわたって、AarIで観察されたものの10倍を超える大きい数で、正確なアセンブリーを有するコロニーをもたらした。1μgのラムダDNAを、8ユニットのPaqCI(New England Biolabs、Ipswich、MA)又はAarI(Thermo Fisher Scientific、Waltham、MA)のいずれかを用いて、製造業者の推奨プロトコールに従って消化した。消化物を1%アガロースゲル上で分析した。 図1A~図1Bは、50ulの成長(総成長の1/20)あたりの正しいLacL/lLacZアセンブリーを示す青色表現型を有するコロニーの数によって決定される、24断片アセンブリーについてのPaqCI性能比較(効率)を示す。パウシバクター・アクアティル(Paucibacter aquatile)由来のPaqCIは、AarIと比較して、合成アクチベーターオリゴヌクレオチド(「アクチベーター」又は「オリゴヌクレオチド」とも称する)及びT4 DNAリガーゼと一緒となって、24断片からのアセンブリーされた大きいDNAにおけるコロニー形成の効率及び配列の忠実度を大幅に向上させた。図1B:PaqCIは、青色コロニーによって決定されるLacl/LacZカセットの24個の断片のアセンブリー反応について、30サイクル(5分37℃~5分16℃)で、Aar1より少なくとも15%大きい忠実度をもたらした。1μgのラムダDNAを、8ユニットのPaqCI(New England Biolabs、Ipswich、MA)又はAarI(Thermo Fisher Scientific、Waltham、MA)のいずれかを用いて、製造業者の推奨プロトコールに従って消化した。消化物を1%アガロースゲル上で分析した。 図1Cは、4塩基突出部を生成するためのPaqCIについての認識配列及び非対称的切断部位を示す。1μgのラムダDNAを、8ユニットのPaqCI(New England Biolabs、Ipswich、MA)又はAarI(Thermo Fisher Scientific、Waltham、MA)のいずれかを用いて、製造業者の推奨プロトコールに従って消化した。消化物を1%アガロースゲル上で分析した。 図1Dは、PaqCIが、AarIとは異なり、完全に切断され、スター活性を示さないことを示す。1μgのラムダDNAを、8ユニットのPaqCI(New England Biolabs、Ipswich、MA)又はAarI(Thermo Fisher Scientific、Waltham、MA)のいずれかを用いて、製造業者の推奨プロトコールに従って消化した。消化物を1%アガロースゲル上で分析した。 図2A~図2Cは、異なる配列突出部を有する断片が、ライゲーション偏り及びライゲーション事象の忠実度によってどのように影響されるかを決定するためのアッセイの概略を提供する。図2A:ランダム化された4つの塩基突出部を含むライブラリーを合成した。試料のランダム化された突出部対を概略的に表す。 図2A~図2Cは、異なる配列突出部を有する断片が、ライゲーション偏り及びライゲーション事象の忠実度によってどのように影響されるかを決定するためのアッセイの概略を提供する。図2B:ライゲーション基質が、特定のDNAリガーゼを用いてライゲーションされ、正しい(同じ突出部シェーディング)及びミスマッチ含有(異なる突出部シェーディング)生成物が形成される。SMRT(登録商標)配列決定(Pacific Biosciences、Menlo Park、CA)を使用して、正しい又はミスマッチを分析した。 図2A~図2Cは、異なる配列突出部を有する断片が、ライゲーション偏り及びライゲーション事象の忠実度によってどのように影響されるかを決定するためのアッセイの概略を提供する。図2C:ライゲーション忠実度は、正しいライゲーションの割合として定義される。ライゲーション偏りは、突出部ごとに形成されるライゲーション生成物の総数の違いによって検出される。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ai及び図3Aiiは、T4 DNAリガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ai及び図3Aiiは、T4 DNAリガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Bi及び図3Biiは、T7リガーゼである。多くの4塩基突出部は十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Bi及び図3Biiは、T7リガーゼである。多くの4塩基突出部は十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ci及び図3Ciiは、ヒトリガーゼ3(hLig3)である。CAAG、CCAG、CGAG、CTAG、TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ci及び図3Ciiは、ヒトリガーゼ3(hLig3)である。CAAG、CCAG、CGAG、CTAG、TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Di及び図3Diiは、T3リガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Di及び図3Diiは、T3リガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ei及び図3Fiiは、PBVC-1リガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Ei及び図3Fiiは、PBVC-1リガーゼである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Fi及び図3Fiiは、T4リガーゼ+PEGである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Fi及び図3Fiiは、T4リガーゼ+PEGである。TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Gi及び図3Giiは、T7 DNAリガーゼを使用したライゲーションに有益な効果を示す、T7リガーゼ+PEGである。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Gi及び図3Giiは、T7 DNAリガーゼを使用したライゲーションに有益な効果を示す、T7リガーゼ+PEGである。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Hi及び図3Hiiは、hlig3+PEGである。CAAG、CCAG、CGAG、CTAG、TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図3Ai/3Aii-3Hi/3Hii)は、正しいライゲーションとミスマッチライゲーションとの間で観察された変動を伴う、配列の優先性に関する異なるリガーゼ間の有意な変動を示す。十分に提示されない4塩基配列の数及び種類も、リガーゼ間で異なる。これは、少なくとも2つのタイプの偏り、つまり、特定の4塩基突出部についてのライゲーション事象に従う又は逆らう偏り、並びにミスマッチのライゲーションに従う及び完全マッチに逆らう偏りを明らかにし、その逆も同様である。3Ai-3Hiは、全てのライゲーション事象のライゲーション頻度ヒートマップ行列(対数スケール)を示す。突出部は、アルファベット順に左から右(AAAA、AAAC、AAAG...TTTG、TTTT)及び下から上に列挙され、ワトソン-クリックの対合が対角線上に示される。行列は、Y軸上の256×4塩基突出部に対する、X軸上の256×4塩基突出部のそれぞれについてのライゲーション頻度を示す。4塩基突出部の各塩基は、Tが赤色、Cが青色、Gが黄色、Aが緑色(異なる色合いの灰色で表される色)で色分けされている。100nMの多重化された4塩基突出部基質を、標準ライゲーション緩衝液中の1.75μM T4 DNAリガーゼを用いて、25℃で1時間のインキュベーションの間にライゲーションし、SMRT配列決定によって配列決定した。突出部配列を100,000個のライゲーション事象に対して正規化した。3Ai-3Hiiは、(A)のヒートマップの各カラムに対応する、各突出部を含むライゲーション生成物の頻度の積み上げ棒プロットを示す。完全なワトソン-クリック対のライゲーション結果は青色で示され、1つ以上のミスマッチを含有するライゲーション生成物はオレンジ色である(2つの色合いの灰色で表される)。ある特定の突出部は、矢印で示されるように、十分に提示されない。図3Hi及び図3Hiiは、hlig3+PEGである。CAAG、CCAG、CGAG、CTAG、TAAA、TCAA、TGAA及びTTAAは、十分に提示されない。 図4Aは、各リガーゼについての配列決定ライブラリーからの256個の異なる突出部の組合せごとのライゲーションの頻度によって決定されるように、突出部の塩基含有量に応じたライゲーション中央値及び偏りの広がりが、異なるリガーゼに対してどのように変化するかを示す。T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、及びPBCV-1 DNAリガーゼは、類似の偏り中央値(黒色の水平線によって示される)を有し、GCリッチ突出部については、正の偏りの類似の分布を有するが、ATリッチ突出部については、負の偏りの量及び程度に若干のばらつきがある。T7リガーゼは、他のリガーゼよりもライゲーション偏り中央値が大きく、非常に効率的にライゲーションされた突出部はほとんどなく、突出部の大部分は、はるかに低い効率でライゲーションされた。ここで、ライゲーションの頻度(y軸)が、ライゲーションの効率の尺度である。ここでは色で示されていないが、各ドットは、そのGC含有率の割合に従って、0%、25%、50%、及び75%並びに100%について異なる色で着色された。ドットの分布は、GCリッチ突出部が、ATリッチ突出部と比較して、より効率的にライゲーションする傾向があることを示す。標準ライゲーション緩衝液中25℃で1時間インキュベートした1.75μMのT4 DNAリガーゼ、T7 DNAリガーゼ、ヒトDNAリガーゼ3、T3 DNAリガーゼ、又はPBCV-1 DNAリガーゼを用いた100nMの多重化4塩基突出部基質を用いたライゲーション反応のSMRT配列決定によって、示される結果を生成した。 図4Bは、T4 DNAリガーゼ、T7 DNAリガーゼ、ヒトDNAリガーゼ3、T3 DNAリガーゼ、及びPBCV-1のライゲーション忠実度中央値(黒色の線を参照)が変化し、ライゲーション忠実度プロファイルにわたって、GCリッチ及びATリッチ突出部の広がりも、酵素間で変化することを示す。T7 DNAリガーゼは、最も高いライゲーション忠実度を示す。hLig3は、最も低いライゲーション忠実度、及び中央値線より下のデータ点の最も広い広がりを示す。試験した全てのリガーゼについて、ライゲーション忠実度を計算し、プロットした。ライゲーション忠実度は、正しい(ワトソン-クリック)ライゲーション事象対誤った(ミスマッチ)ライゲーション事象のパーセンテージとして定義される。 図5A~5Fは、ポリエチレングリコール(PEG)が、比較的低いGC(PEGの非存在下でより低いライゲーション頻度を一般的に示す突出部の群)を有する突出部のライゲーション頻度に対して有意にプラスの効果を有するが、ライゲーション忠実度に対してわずかにマイナスの効果を有することを示す。突出部のライゲーション頻度及びライゲーション忠実度は、GC含有量によってグループ化される。中央値は、水平線(PEGを含まない緩衝液中で完了したライゲーション反応について点線、PEG含有緩衝液中で完了したライゲーション反応について黒色)によって示される。図5Aは、T4 DNAリガーゼ(頻度)+/-PEGである。図5Bは、T7 DNAリガーゼ(頻度)+/-PEGである。図5Cは、hLig3 DNAリガーゼ(頻度)+/-PEGである。図5Dは、T4 DNAリガーゼ(忠実度)+/-PEGである。図5Eは、T7 DNAリガーゼ(忠実度)+/-PEGである。図5Fは、hLig3 DNAリガーゼ(忠実度)+/-PEGである。 図6は、高レベルのブロック図によって、ユーザ指定の突出部配列セットの推定される全体ライゲーション忠実度、及び所望の結果を達成するための実験条件を生成するためのシステムを示す。システムは、サーバ804との双方向データ通信803を有するクライアント802を利用し、サーバ804は、次いで、808を介してストレージ806にアクセスすることができ、ここで806は、4塩基5’-3’ライゲーション忠実度のデータベースを含んでいる。これは、2塩基、3塩基、又は5塩基のデータベースでも可能である。双方向データ通信803は、ローカルエリアネットワーク(LAN)又はワイドエリアネットワークなどのローカルコネクタを使用して実装されてもよい。サーバ804は、専用の常駐サーバであってもよく、又はクラウドに実装されてもよい。データストレージ806は、サーバ804と共に搭載されていてもよい。ユーザは、ブラウザインターフェースを含み得るクライアント802にデータを入力する。ブラウザを実行することに加えて、クライアント802は、5’-3’4塩基古典的形態AGCTのセット又は他の突出部セットの入力に使用するために、又は選択された制限エンドヌクレアーゼ、選択されたリガーゼ、PEGを含む緩衝液、反応の温度及び時間、他の実験の詳細などのライゲーションのための実験条件を選択するために、グラフィカルユーザインターフェースのホストとなってもよい。 図7は、図8に概説されるシステムを使用してアセンブリー反応を実行するための高レベルのフロー図の入出力ステップを示す。ユーザは、任意の所望の長さの突出部配列のセットを入力する。例えば、突出部配列のセットは、5’-3’の4塩基の突出部配列のセットである902である。セットは、セットの各メンバーがセットの他の全てのメンバーと異なるように、2つ以上の4塩基突出部配列を含む。各突出部配列は、ユーザが、好ましくは、複数の二本鎖核酸断片を順番に連結するために実験で使用することを望む単一の突出部対のメンバーを表す。4塩基の突出部は、ワトソン-クリック突出部対として表されてもよい。セット内の単一の突出部対は、特定の配列が5’配列である、又はその相補体であるかに応じて、ライゲーション忠実度に関して変化し得る。各メンバー対は、セット内の他のメンバー対とは別個に検討される。ユーザは、902で入力された配列に対応する突出部を有する断片のライゲーションのための実験条件を選択してもよい。これらの実験条件としては、例えば、リガーゼとのインキュベーション時間、インキュベーション温度、及び選択したリガーゼのライゲーション頻度及び忠実度等が挙げられる904。個々の突出部又は突出部対についてライゲーション忠実度のデータベースにアクセスすることによって、システムは、セット内の、入力された全体的な突出部配列セット及び/又は個々の突出部対についてのライゲーション忠実度を記述する出力を生成する906。システムは、さらに、選択された突出部配列対についてライゲーション忠実度のグラフィカルな行列表示を出力し得る。ユーザによって入力された4塩基突出部配列のセットの同定された忠実度効率がユーザによって拒否される場合、ユーザは、異なる選択された実験条件下での同一の4塩基突出部セットのライゲーションを評価する、又は同じ若しくは異なる実験条件下での4塩基突出部配列の修飾されたセットを入力して、規則的アセンブリーにおける二本鎖核酸断片のセットの連結方法を決定することが可能である。 図8は、システム出力ステップに追加する入力を示すハイレベルなフロー図である。個々の例は、出力1308~1312を生成する入力のユーザエントリー(1302~1306)を示す。しかしながら、1302~1306における入力パラメータは、以下:(a)標的核酸配列、(b)ポリヌクレオチド断片のセット、(c)ユーザによって提供されるポリヌクレオチド断片の部分的なセット、及びシステムから出力される部分的なセット、(d)特定のジャンクション配列を有するベクターのセット、(e)好ましい突出部の長さ、(f)除外された突出部、(g)特定された長さの突出部のセット、(h)ユーザによって提供される特定された長さの突出部の部分的なセット、及びシステムによって出力される突出部の部分的なセット、(i)リガーゼ、例えば、T4 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1、T3リガーゼ、hLig3、又はTaq DNAリガーゼ等の任意の他のATP依存性DNAリガーゼ若しくはNAD+依存性リガーゼの選択、(j)制限エンドヌクレアーゼ、例えば、Esp3I、SapI、BbsI-HF;BspQI、HgaI、BsaBI、BsaJI、BsaI、BsaI-HFv2、BsiI、BsmAI、BsmBI、BsmFI、BsmI、Bsr DI、BsrI、BtgZI、BtsCI、BtsMutI、Btsv2、BspQI、BpiI、BfuI、BspMI、PaqCI、及びそれらのイソシゾマーのうちの1つ以上、の選択、(k)好ましい数の断片、(l)好ましいインキュベーション時間;例えば、1時間、5時間、一晩、(m)好ましいインキュベーション温度、例えば、37℃又は45℃、(n)時間及び温度に加えて好ましい反応条件、(o)好ましい全体ライゲーション効率、(p)最小の許容されるライゲーション効率、(q)最大GC含有量、(r)最大AT含有量、(s)許容される偏り、のうちのいずれか1つ以上又は2つ以上によって置換又は追加されてもよい。出力は、以下:(a)ユーザによって特定されていない上記パラメータのいずれか;(b)ユーザ入力パラメータから決定されたライゲーション忠実度が、特定のパラメータのマニュアル入力に基づいて低すぎる場合の警告。警告には、内部のRE部位、個々の突出部対から形成された低効率のジャンクション部位、他を上回る一部のライゲーション事象の過剰な偏りが含まれ得る;(c)色分けされた発生頻度で、強くライゲーションしたワトソン・クリック対及びミスマッチ突出部対を示す全ての特定された突出部対についての行列又は表形式;(d)選択されたセットの予測される忠実度を示すリガーゼ忠実度ビューアグリッド;(e)改変された特定の実験パラメータを有する代替の解決策の提供;(f)全配列を使用している場合は注釈付きの、アセンブリー設計のグラフィカルディスプレイ;(g)シンセサイザー用のエクスポート可能な断片/プライマー配列のうちの1つ以上を含み得る。次いで、システムは、ユーザによって提供されない上記パラメータのいずれかを計算し、様々な反応パラメータの下で、n塩基突出部及び5’-3’ライゲーション効率のデータベースを使用して、要求された出力を達成し、ユーザが、定義されたライゲーション効率を有するX個の断片の規則的アセンブリーを作成することを可能にする。 図9A~9Dは、図3Ai/3Aii~3Hi/3Hii)から図5A~図5Fにおいて提示されるデータが、どのようにコンピュータへ統合され得るかを示す。WO2020/081768におけるリガーゼ忠実度ビューア、並びに突出部の長さのため、及び頻度及び忠実度パラメータの評価のための突出部の所定の選択のユーザ入力のためのドロップダウンメニューを含むバージョンに加えて、追加のパラメータには、緩衝液選択におけるPEG及び/又はアプラタキシンの使用が含まれる。 図9A~9Dは、図3Ai/3Aii~3Hi/3Hii)から図5A~図5Fにおいて提示されるデータが、どのようにコンピュータへ統合され得るかを示す。WO2020/081768におけるリガーゼ忠実度ビューア、並びに突出部の長さのため、及び頻度及び忠実度パラメータの評価のための突出部の所定の選択のユーザ入力のためのドロップダウンメニューを含むバージョンに加えて、追加のパラメータには、緩衝液選択におけるPEG及び/又はアプラタキシンの使用が含まれる。図9B(リガーゼ忠実度ビューア)のユーザインターフェースページに追加するためのさらなるドロップダウンメニューは、リガーゼの選択を可能にするドロップダウンメニューであり、これは、本明細書に記載されている頻度、偏り、及び忠実度データに基づいた突出部の選択に影響を与える。 図9A~9Dは、図3Ai/3Aii~3Hi/3Hii)から図5A~図5Fにおいて提示されるデータが、どのようにコンピュータへ統合され得るかを示す。WO2020/081768におけるリガーゼ忠実度ビューア、並びに突出部の長さのため、及び頻度及び忠実度パラメータの評価のための突出部の所定の選択のユーザ入力のためのドロップダウンメニューを含むバージョンに加えて、追加のパラメータには、緩衝液選択におけるPEG及び/又はアプラタキシンの使用が含まれる。図9Cは、GetSetのドロップダウンメニューを示す。GetSetは、選択された突出部のセットが、特定されたライゲーションアセンブリー反応においてどの程度良好に実行されるか、及び特定の突出部をセットに含めるべきか、セットから除外すべきかをユーザに通知するインターフェースである。 図9A~9Dは、図3Ai/3Aii~3Hi/3Hii)から図5A~図5Fにおいて提示されるデータが、どのようにコンピュータへ統合され得るかを示す。WO2020/081768におけるリガーゼ忠実度ビューア、並びに突出部の長さのため、及び頻度及び忠実度パラメータの評価のための突出部の所定の選択のユーザ入力のためのドロップダウンメニューを含むバージョンに加えて、追加のパラメータには、緩衝液選択におけるPEG及び/又はアプラタキシンの使用が含まれる。図9Dは、SPLITSETのドロップダウンメニューを示し、これは、どの部位が含まれるべきか、及び、どの部位が、標的切断又はDNA合成によって対応するDNAからの断片の生成のためのインシリコ配列において除外されるべきであるかを、ビューアに通知する。 図10は、PEGが、特定の濃度のDNAについて得られたT4 DNAリガーゼ及びBbsI-HF制限エンドヌクレアーゼを用いた多断片アセンブリーから得られたコロニーの頻度を、PEGの非存在下で同じDNAの場合と比較して増加させることを示す。全てのPEGのサイズが、いくらかの改善を示した。好ましい実施形態には、PEG3350及びPEG6000が含まれた。 図11は、PEG6000が、T4 DNAリガーゼ及びBbsI-HFを使用してDNAの24個の断片をアセンブリーした後の実質的なコロニー提示を達成するために、10分の1倍の少ないDNAの使用を可能にすることを示す。 図12A及び図12Bは、T4 DNAリガーゼのライゲーション優先順位の調整を含む、図9A~図9Dに記載のコンピュータツールによって決定される突出部を有する50個のDNA断片が、細菌の菌叢上のプラークによって決定されるように、50個の断片からのT7ウイルスゲノムのアセンブリーの改善された効率を可能にしたことを示す。 図12A及び図12Bは、T4 DNAリガーゼのライゲーション優先順位の調整を含む、図9A~図9Dに記載のコンピュータツールによって決定される突出部を有する50個のDNA断片が、細菌の菌叢上のプラークによって決定されるように、50個の断片からのT7ウイルスゲノムのアセンブリーの改善された効率を可能にしたことを示す。 図13A及び図13Bは、細菌の菌叢で得られたプラークが、インタクトのファージT7 DNAを実際に含有することを示す。 図13A及び図13Bは、細菌の菌叢で得られたプラークが、インタクトのファージT7 DNAを実際に含有することを示す。 図14は、正しくアセンブリーされた構築物を含むコロニーの割合が、本明細書に記載のツールを使用して52個の断片に対して少なくとも50%維持され、正しい末端連結のための突出部を設計することを示す。これらの結果は、ワンポット断片アセンブリー反応から得られる。 図15は、数千人の個々の患者についてのCar-T細胞療法のスケールアップのために、改善された多断片アセンブリー方法がどのように使用され得るかを示す模式図を示す。個々の患者由来の腫瘍細胞を、それらの独自の腫瘍特異的抗原及びこれらの変異を含む新生抗原をコードする遺伝子のDNA配列を見出すために分析する。患者自身のT細胞を取り出し、CRispRによって認識され、切断されたゲノム内の標的部位にアセンブリーされた遺伝子を挿入するように遺伝子操作する。次いで、T細胞を患者に再導入して、腫瘍細胞を破壊することができる。ここで、腫瘍抗原を合成するために必要な複数の構成要素のサブセットは保存され、構成要素のサブセットは保存されない。目的の領域全体が、即時使用可能なプラスミドライブラリーに維持されてもよく、変異が同定された個々の非保存断片が、アセンブリー反応に使用されてもよい。このように、遺伝子全体を各患者に対して新規に作成する必要はなく、ワークフローにおいて試料のより高度なスループットを可能にする。 図16は、見込まれる抗生物質溶液についての薬剤耐性細菌感染症を処置するためのファージ遺伝子操作の模式図を示す。ここでファージゲノムは、小片に分割され、様々な変異が任意の1つ以上の断片に導入される。本明細書に記載の多断片システムを使用してアセンブリーされると、遺伝子操作されたファージは、標的細菌に侵入して破壊する能力についてアッセイされることができる。
別途定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、本発明が属する当業者に一般に理解される意味と同じ意味を有する。Singletonら、DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOGY、第2版、John Wiley and Sons、New York(1994)及びHale&Markham、THE HARPER COLLINS DICTIONARY OF BIOLOGY、Harper Perennial、N.Y.(1991)は、本明細書で使用される多くの分子生物学関連用語の一般的な意味を当業者に提供する。本明細書において、特定の用語が使用され、そのための説明が以下に提供される。
本明細書で使用される場合、用語「標的ポリヌクレオチド」(又は「大きいDNA」)は、DNA、RNA又はそれらの混合物であり得る断片のライゲーションベースの規則的アセンブリーの最終生成物を指す。
本明細書で使用される場合、用語「ポリヌクレオチド断片」(又は「DNA断片」)は、アセンブリーされた場合に標的ポリヌクレオチドを生成するビルディングブロックを指す。これらのビルディングブロックは、配列データベースから誘導されてもよく、プロモーター配列、エンハンサー配列、コード配列などを含有してもよい。ポリヌクレオチド断片は、化学合成(IDT、Coralville、IA)によって作製されてもよく、又は例えば、末端トランスフェラーゼベースの合成を使用する酵素合成によって作製されてもよい。このようにして作製された断片は、予備ステップにおいて化学合成及び/又は酵素合成の生成物からアセンブリーされて、遺伝子へのアセンブリーに好適なより大きいポリヌクレオチド断片を形成してもよい。個々のポリヌクレオチド断片が、鋳型から、例えば、PCRによって増幅される場合、その長さは、増幅に使用されるポリメラーゼの処理能力を超えない。例えば、Taqポリメラーゼの場合、アンプリコンが5kb~10kbを超えることはほとんどなく、15ヌクレオチド長の最小長を有し得る。
本明細書で使用される場合、用語「オリゴヌクレオチド」は、意図される文脈において、少なくとも10、例えば、少なくとも15又は少なくとも30ヌクレオチドの多量体を指す。一部の実施形態において、オリゴヌクレオチドは、15~500ヌクレオチド長又はそれを超える範囲であってもよい。本明細書で使用される任意のオリゴヌクレオチドは、G、A、T及びC、又は相補的ヌクレオチドと確実に塩基対合することができる塩基で構成されていてもよい。
本明細書で使用される場合、用語「配列」は、各文字が塩基に対応する一連の文字、例えば、A=アデニン、T=チミン、U=ウラシル、G=グアニン、及びC=シトシンを指す。修飾ヌクレオチド(ヌクレオシド(塩基及びデオキシリボース)及びホスフェート)は、任意選択的に、突出部配列に含まれ、したがってライゲーション効率データベースに含まれてもよい。特定の順序の複数の文字は、分子の塩基(ヌクレオチドとも呼する)組成を表象的に説明する。
本明細書で使用される場合、「完全マッチ」、「相補的」、及びワトソン・クリック対という用語は、それぞれ、二本鎖DNAの別個の鎖上の塩基の水素結合による対合を指し、Aは、T又はUにマッチし、GはCにマッチする。
本明細書で使用される場合、用語「ジャンクション」は、構成要素のポリヌクレオチド断片がリガーゼによって連結されている標的ポリヌクレオチド内の位置を指す。用語「ジャンクション」はまた、最適化された断片セットからの標的ポリヌクレオチドのアセンブリーのために断片化が推奨される、データベース内の標的ポリヌクレオチドの配列内の位置を指す。語句「ジャンクション」に関する文脈により、2つの意味のうちのどちらが意図されているかは明確である。本明細書に記載されているアセンブリー方法を使用して、標的ポリヌクレオチド内に無傷のジャンクションを作製してもよい。標的ポリヌクレオチド内の無傷のジャンクションとは、標的ポリヌクレオチド内のジャンクションが元のポリヌクレオチド配列内の対応する位置と区別できないことを意味する。
本明細書で使用される場合、「突出部」という用語は、例えば、DNAなどの二本鎖断片ポリヌクレオチドの末端にある一本鎖領域を指す。突出部は、好ましくは、認識領域の外側の二本鎖の両方の鎖上に核酸の交錯切断(staggered cleavage)を生成する酵素によって形成される。突出部は、通常、5’突出部である。突出部は、その長さ及びその配列によって定義することができる。例えば、256個の異なる、可能な4塩基突出部(4)がある。制限エンドヌクレアーゼ切断によって生成される、2塩基、3塩基、4塩基、及び5塩基の突出部を本明細書に例示している。突出部は、2~8塩基を含むことができるが、3又は4塩基の突出部が一般に好ましい。優先性は、認識部位の外側で二本鎖DNAを切断して3又は4塩基突出部を生成する制限エンドヌクレアーゼの利用可能性、及び標的ポリヌクレオチドを形成するために複数のポリヌクレオチド断片のライゲーションを最適化するのに十分なセット内の可能な突出部対の数に由来する。
1つのポリヌクレオチド断片からの突出部を第2のポリヌクレオチド断片の第2の相補的突出部とマッチングさせることは、リガーゼが混合物に添加され、突出部配列及びその相補体に対するリガーゼの優先性に応じてライゲーションが生じる場合、ジャンクションをもたらす。第1の突出部及び第2の相補的な突出部は、突出部対又は相補的突出部と称される。理論によって制限されることを望まないが、単一のアセンブリー反応混合物中でリガーゼを制限エンドヌクレアーゼと組み合わせることにより、不適切なハイブリダイゼーション及びライゲーション事象の有意な減少がもたらされることが本明細書において提案される。これらの不適切な事象は、突出部及び制限エンドヌクレアーゼ認識配列からなる切断生成物が、切断されたアセンブリー断片と再結合する、又は別の切断生成物と再結合するときに生じる。両方のシナリオにおいて、配列は、反応混合物中の制限エンドヌクレアーゼによって再び切断され、適合するポリヌクレオチド断片パートナーへの適切なライゲーションのためにポリヌクレオチド突出部を遊離する。他の不適切な事象は、非相補的突出部がアニーリングする場合に生じ、ミスマッチを生じる可能性がある。これは、一般に、1つ又は2つのミスマッチのみ発生し、アニーリングされた突出部のミスマッチの発生がアセンブリー戦略に考慮されていない限り、アセンブリーの順序に影響を与える可能性がある。
本明細書で使用される場合、用語「入力」は、ユーザがコンピュータに入力する情報を指す。これには、指定の反応条件、ポリヌクレオチド断片に分割することができる標的ポリヌクレオチド配列、除外される突出部、含まれる突出部、及び所望の断片又は突出部の数が含まれ得る。入力パラメータはコンピュータによって受け取られる。
本明細書で使用される場合、用語「出力」は、ユーザが所望の標的ポリヌクレオチドを作製することを可能にするコンピュータからの命令を指す。これには、特定の数のジャンクションについて好ましいライゲーション忠実度スコアを有する突出部セット、及び/又は標的ポリヌクレオチドの入力に基づく完全なポリヌクレオチド断片配列を含み得る。ポリヌクレオチド断片配列がユーザによって入力される場合、コンピュータ出力は、内部部位、回文構造、及び繰り返しの突出部を回避し、サイクリング条件、インキュベーション時間及び温度、並びにライゲーション忠実度を最適化するための推奨酵素を含む特定の反応条件について高い全体忠実度スコアを提供する突出部の対を含み得る。コンピュータ出力は、さらに、断片アセンブリー設計及び断片配列のグラフィカル表示を提供してもよく、又はそれらへのリンクを提供してもよい。コンピュータ出力はまた、選択された突出部のセット及びその相補体についての予測された忠実度及びそれらへのリンクをグラフィック表示するために、選択された突出部の全ての組合せについてライゲーション頻度の行列を提供してもよい。
デフォルトでは、ツールは、各連結の一般的な効率を示すグラフィカルな出力でライゲーションデータを提供することができる。例えば、図11A~図11Bでは、チェックボックスを切り替えて、正規化されたライゲーションカウントを表示させることができる。多重ライゲーションアッセイでは、相対的ライゲーション頻度を、単一実験における256個全ての4塩基突出部について実験的に決定した。各実験の合計ライゲーション事象を100,000に正規化した。この場合、任意の単一のワトソン-クリック対の典型的な頻度は、100,000ライゲーション事象当たり300~400観察であった。さらなる詳細は、Potapovら、Nucleic Acid Research、46、e79(2018);Potapovら、Cold Spring Harbor Laboratory、bioRxiv、doi:https://doi.org/10.1101/322297(2018);及びPotapovら、ACS Synthetic Biology 711、2665-2675(2018)に記載されている。
本明細書で使用される場合、用語「実験条件」とは、ワークフロー及びそのユニット比について所望されるリガーゼ、エンドヌクレアーゼ及び/又は他の酵素の選択を指す。条件は、緩衝液、及び緩衝液中の補因子も指す。例えば、制限エンドヌクレアーゼに対するリガーゼのユニット比は、選択されたDNAリガーゼ又はIIS型制限エンドヌクレアーゼの種類にかかわらず、1:10~1:1000の範囲内であってもよい。実験条件は、突出部のライゲーションを完了するために使用される塩濃度、温度及び時間を含んでもよく、ライゲーション反応のためのサイクリング条件をさらに含んでもよい。多数の断片のアセンブリー時間を短縮し、選択された突出部のセットの忠実度スコアを改善し、リガーゼ活性及び性能を保持しながら切断エンドヌクレアーゼの活性を改善し、及び/又は誤ったアセンブリーのバックグラウンドを低減するために、実験条件を選択してもよい。実験条件は、標的ポリヌクレオチド内のミスマッチの除去に影響を及ぼすものでもよい。ワトソン/クリックの完全マッチが好ましい場合があるが、場合によっては、突出部内の単一塩基のミスマッチが、ライゲーション頻度テーブルから推定されるように容易にハイブリダイズしない塩基の完全マッチよりも、規則的アセンブリーに対して高い忠実度スコアを提供し得る。また代替的スプライシングが、アセンブリー中に生じる場合もあり、ジャンクションにおけるミスマッチをもたらし得る。ミスマッチが、EndoMS又はT7 Endo I、又はミスマッチを特定する他の修復酵素を使用して除去され、ミスマッチにおいてDNAが切断されてもよい。「実験条件」という用語は、ライゲーション条件を含み、これらの用語が交換可能であるかどうかは文脈による。
本明細書で使用される場合、「ライゲーション頻度」は、突出部がライゲーションの総数のうちの別の突出部にライゲーションされる回数(例えば、100,000ライゲーション)を指す。
本明細書で使用される場合、「ライゲーション忠実度」という用語は、ミスマッチ塩基対の偏りを含む、基質のライゲーションに対する区別(他を上回る特定の配列の優先的なライゲーション)の数値評価を指す。ライゲーション忠実度はまた、正しいライゲーション事象(ワトソン-クリックライゲーション生成物)対誤ったライゲーション事象(ミスマッチ生成物)の割合を指す。4塩基突出部では、塩基がミスマッチしていない(ワトソン-クリックライゲーション生成物)、1塩基のミスマッチがある、2塩基のミスマッチがある、3塩基のミスマッチがある、又は4塩基全てがミスマッチしている、という可能性がある。
本明細書で使用される場合、「突出部によるライゲーション忠実度」又は「個々の突出部に対するライゲーション忠実度スコア」という用語は、個々の突出部とその相補体が、セット内の全ての突出部とその相補体と比較して、完全に相補的な突出部に独立してライゲーションする頻度を指す。忠実度スコアは、同じ長さの全ての突出部(それ自体を含む)に対する各突出部のライゲーション事象の数の個々の実験的に定義された測定値を含むライゲーション頻度テーブルを参照することによって計算することができる。個々の突出部のライゲーション忠実度スコアは、(i)個々の突出部並びにセット内の全ての突出部及びその相補体と、(ii)個々の突出部並びにセット内の全ての突出部及びその相補体に対する相補体との間で生じるライゲーション事象の総数と比較した、個々の突出部とその相補体との間で生じるライゲーション事象の数として計算される。
本明細書で使用される場合、「セット全体のライゲーション忠実度」及び「全体忠実度スコア」という用語は、所与の突出部のセットの各メンバーの個々のライゲーション忠実度スコアに基づいた、誤ってライゲーションされたアセンブリーに対する正しくライゲーションされたアセンブリーの予測される比率を指す。突出部のセットの全体忠実度スコアは、セット内の突出部の個々のライゲーション忠実度スコアを一緒に乗じて算出することができる。
本明細書で使用される場合、「全体アセンブリー忠実度」という用語は、正しくアセンブリーされた標的核酸の予測される数と比較した、正しくアセンブリーされた標的核酸の実際の数を指す。例えば、突出部を有する10個のポリヌクレオチドのアセンブリー効率は、標的ポリヌクレオチドの集団において10個のジャンクション全てが正しく規則付けられた回数によって決定することができる。アセンブリー忠実度は、20%、30%、40%、50%、60%、60%、70%、80%、又は90%を上回ってもよい。
「ライゲーション効率」という用語は、時間の関数としての正しいアセンブリーの数を指す。本明細書で使用される場合、「アセンブリー効率」という用語は、特定の期間の後に特定のアセンブリー反応において、全長ライゲーション生成物(サイズ又はコロニー形成又は配列決定によって決定される完全な標的核酸)が蓄積する速度を指す。標的ポリヌクレオチドの規則的アセンブリーについて全体的な平均/単位時間を提供する任意の時間単位が選択され得る。しかしながら、ライゲーション効率は、選択されたインキュベーション期間にわたって直線的でない場合がある。
「ライゲーション収率」という用語は、正しいアセンブリーの数を指す。
「ライゲーション精度」という用語は、総アセンブリー数に対する断片の正しい末端連結の数を指す。これは、配列決定によって決定され得る。
上記の「ライゲーション」という用語の使用は、断片を連結するためにDNAリガーゼを必要とするアセンブリーの生成物を指す。以下の「ライゲーション」という用語の使用は、計画されたアセンブリーに対して有用又は有害であり得る様式で可変性があることが見出された、異なるリガーゼに対するライゲーション事象の偏り及び/又は忠実度の特定の特徴に起因し得る。
「リガーゼ」という用語は、2つのポリヌクレオチドを共有結合することができる酵素を指す。多くの異なるリガーゼが、当該技術分野において記述されてきており、広く公知である(Ellenbergerら、Annual Review in Biochemistry、77、313-338(2008);Bauerら、PLOS ONE、10、12:e0145046(2017)を参照のこと。)。アセンブリー反応で使用するためのリガーゼとしては、T4 DNAリガーゼ、T7 DNAリガーゼ、Taq DNAリガーゼ等のATPリガーゼ及びNAD+リガーゼ、クロレラウイルスDNAリガーゼ等のウイルスリガーゼ(例えば、PBVC-1リガーゼ)、細菌LigA(例えば、E.コリ(E.coli)DNAリガーゼ)及びLigD等の細菌リガーゼ、サーマス・サーモフィルス(Thermus thermophilus)(Tth)リガーゼ等の古細菌(archeal)リガーゼ、並びに哺乳動物Lig1及びhLig3等の真核生物リガーゼが挙げられ得る。
「多断片アセンブリー」という用語は、化学的に合成された、又は異なるインサートを有するプラスミドを含む細菌のライブラリーにおけるプラスミド内の、約15ヌクレオチドを超える任意のサイズの複数のDNA断片又はDNA断片のセットを示す。断片は、全て類似若しくは同一のサイズであってもよく、又は様々なサイズを有していてもよい。
「PaqCI」という用語は、パウシバクター・アクアティルに由来する7塩基カッター制限エンドヌクレアーゼを示す。本明細書でPaqCIとして特定されるエンドヌクレアーゼは、配列番号1に対して少なくとも80%、85%、90%、又は95%の配列同一性を有する任意のバリアントを含む。
一実施形態では、単一のDNAへの複数のポリヌクレオチド断片の規則付けられたアセンブリーは、2つの異なる酵素、すなわち、IIS型制限エンドヌクレアーゼ及びリガーゼの使用に依存する。IIS型制限エンドヌクレアーゼは、DNA内の4、5、6、又は7塩基を認識し、認識配列の外側で切断して、2塩基、3塩基、4塩基、又は5塩基の長さであり得る突出部を有するポリヌクレオチド断片を提供する。これらの断片は、相補的な突出部がアニーリングするときに連結し、リガーゼが連結を封着する。
最大6塩基を認識し、認識配列の外側でDNAを切断して2~4塩基の突出部を生成する、様々なIIS型制限エンドヌクレアーゼが益々多く記載されている。現在のエンドヌクレアーゼの多くは、切断によって生成される認識配列及び突出部の長さを含め、New England Biolabs(NEB)、Ipswich、MAによって提供される商業文献(www.neb.comを含む)において見られる。新しいエンドヌクレアーゼは、定期的に更新されるデータベースに記載されている(New England Biolabsのwww.neb.comのREBASE(登録商標)を参照のこと。)。例えば、これには、以下が含まれる:AcuI、AlwI、BaeI、BbsI、BbnI、BccI、BcgI、BciVI、BcoDI、BspMI、BfuAI、BmrI、BpmI、BpuEI、BsaI、BsaXI、BseRI、BsgI、BsmAI、BsmBI、BsmFI、BspCNI、BspMI、BspQI、BsrDI、BsrI、BtgZI、BtsCI、BtsIMutl、CspCI、EarI、EciI、Esp3I、FauI、FokI、HgaI、HpHI、HpyAv、MboII、MlyI、MmeI、MnII、NmeAIII、PleI、SapI、及びSfaNI。SapIのみが7塩基の認識配列を有し、DNAを切断して3塩基の突出部を生成する。これらのエンドヌクレアーゼは全て、New England Biolabs、Ipswich、MAから入手可能である。認識配列及び突出部は、反応緩衝液、反応温度及び保存条件と共に、NEBに記載されている。また、イソシゾマー情報も提供されている。
本明細書に記載されているのは、7塩基特異的認識配列を有し、二本鎖DNAを完全に切断し、好ましくは合成オリゴヌクレオチドの助けを借りて、スター活性を有さずに(図1C及び図1Dを参照のこと。)、4塩基突出部を生成する、新規のIIS型制限エンドヌクレアーゼ(PaqCI)である。ポリヌクレオチドアセンブリー反応に対するPaqCIの有意な利点は、ポリヌクレオチド断片配列内部の7塩基認識配列の可能性が低減されていることである。内部認識配列は、ポリヌクレオチド断片が切断され、それによって断片のセットの規則的アセンブリーが破壊されるため、望ましくない。
PaqCIの認識配列は、プライマー依存性増幅又は化学核酸合成によって断片の末端に加えられる。制限エンドヌクレアーゼ認識配列に隣接する配列は、突出部を形成する。好ましくは、これらは、標的ポリヌクレオチド又は大きいDNAを含む断片の規則的セットの連結を最適化するように選択される。
PaqCIの使用は、規則的ポリヌクレオチド断片アセンブリーの文脈において本明細書に記載されているが、この酵素は、6塩基以上の認識配列を有するエンドヌクレアーゼが好ましい、クロマチンを含むゲノムDNAの種々の他の生体遺伝子工学方法及び分析にも使用され得る。
本発明の一実施形態では、単一のDNAへの複数のポリヌクレオチド断片の規則的アセンブリーは、リガーゼの使用に依存している場合があるが、制限エンドヌクレアーゼは必要とされない。設計された突出部を有するポリヌクレオチド断片が、エンドヌクレアーゼ切断の代わりに化学合成によって生成される場合、制限エンドヌクレアーゼは必要とされない。しかしながら、2つの酵素系の利点は、ポリヌクレオチド断片を、細菌中に保持されるプラスミドに挿入することができ、将来的使用のために無期限に保存することができることである。任意選択的に、細菌を容易に増殖させて、エンドヌクレアーゼ切断及びライゲーションのために所望の量の基質を作製することができる。
アニーリングされた突出部のライゲーションに依存する複数のポリヌクレオチド断片の規則的アセンブリーは、突出部ライゲーションの頻度、偏り及び忠実度の系統的分析によって大幅に改善されている。特定される因子としては、突出部の長さ、突出部のセット内の異なる突出部の数、突出部のGC含有量、突出部配列の端部に生じる塩基、ライゲーション反応条件、及び突出部を生成する制限エンドヌクレアーゼの種類が挙げられる(WO2020/081768を参照のこと。)。
本実施形態では、驚くべきことに、堅牢な末端連結活性を有する様々なリガーゼの配列の優先性が特定され、ライゲーション生成物の頻度及び忠実度に著しく寄与することが見出された。アニーリングされた突出部間で許容されるミスマッチの程度、及び突出部におけるA、T、G、及びC塩基の特定のパターンの優先性を含む、種々のリガーゼの相違点差異及び類似性が同定された。
実施例に記載のリガーゼは全て、1つのDNA鎖の3’-ヒドロキシルと、別のDNA鎖の5’-リン酸化末端との間のホスホジエステル結合の形成を触媒する末端連結リガーゼである。これらは全て、触媒リシン残基を有するヌクレオチジルトランスフェラーゼドメイン(NTアーゼ)、及びDNA結合表面を有するオリゴヌクレオチド結合ドメイン(OBD)に対応する少なくとも2つのドメインを含む。リガーゼは任意選択的に第3のドメインも含む。例えば、T4 DNAリガーゼ及びT3 DNAリガーゼの両方が、N末端DNA結合ドメインを含み、一方、ヒトリガーゼ3(hLig3)は、N末端ポリADP-リボースポリメラーゼ様ジンクフィンガードメインを含み、クロレラウイルスDNAリガーゼ(PBCV-1)は、ラッチドメインを含む。しかしながら、T7 DNAリガーゼは、第3のドメインを含まない。理論によって制限されることを望まないが、第3のドメインの存在又は非存在は、ライゲーションの偏り、乱交雑及び/又は忠実度において役割を果たし得る。
4塩基突出部の256の組合せ及び順列のそれぞれについて、末端連結活性を分析した。図2A及び図2Bに概略的に記載されているアッセイを使用して、ライゲーションされた突出部から得られた配列決定データから、256×256配列の行列を構築した。(図3Ai/3Aii~3Hi/3Hiiを参照のこと。)これらのアッセイからのデータを、ポリヌクレオチド断片のセットの規則的アセンブリーのための最適化された突出部配列のセットをユーザが選択することを可能にする図6、図7、図8、及び図9A及び図9Bに記載のコンピュータ設計ツールに加えた。
WO2020/081768に記載のコンピュータツールは、それらのアニーリングパターンに基づいて最適化された突出部のセットへのアクセスを提供する。制限エンドヌクレアーゼは、突出部を生成するための切断についてのオプションメニューから選択され得る。ライゲーション頻度及び忠実度の測定基準は、緩衝液オプション並びに温度及びインキュベーション時間オプションを含めてドロップダウンメニューから選択され得るアセンブリー条件下で、単一のリガーゼ、すなわちT4 DNAリガーゼを使用して、様々な突出部について提供される。
本明細書及びWO2020/081768に記載されているライゲーションデータは、リガーゼ基質の優先性を把握し、前述のアセンブリーオプションの正確性をさらに高める。これは、多数のポリヌクレオチド断片(約20個を超える断片)が、大きいDNAの規則的アセンブリーのために使用される場合に特に重要である。コンピュータツールは、様々な実験条件下での任意の断片突出部又は断片突出部のセットについて、予測される効率(頻度)及び忠実度プロファイルについてユーザに通知するための適切なユーザインターフェースを提供する。異なるリガーゼのライゲーションの優先性について得られるデータは、実験条件のメニューを拡張する。ドロップダウンメニューを含む、ライゲーション忠実度ビューア、GetSet、及びSplitSetについてのインターフェースは、ユーザが、大きいDNA配列から突出部を有する断片をインシリコで設計するために適したリガーゼを選択することを可能にする。代替的に、ユーザは、突出部の一定のセットについて適切なリガーゼを選択することができる。ライゲーション頻度及びミスマッチ頻度をもたらすライゲーションについての異なる配列優先性並びに異なる忠実度プロファイルは、多断片アセンブリーについて精緻化及び効率のさらなる層を加える。ポリエチレングリコール等の、リガーゼ活性に影響を与える標準的なリガーゼ緩衝液に対する改変も、本明細書に記載されている。
アセンブリーされた配列においてより高い忠実度を有するより多くの数の断片のアセンブリー、及び細菌の菌叢に感染するアセンブリーされたDNA又はパッケージングされたウイルスを含むデスティネーションベクターで形質転換された細菌コロニーのより高い頻度を可能にするためのツール及び方法が提供される。改善の恩恵を受けて、インタクトのT7ウイルスゲノムが、50個の断片からアセンブリーされた。新たに合成されたウイルスは、細菌の菌叢にウイルスプラークを生成することが示された。リガーゼデータが利用可能であることは、利用可能でない場合に起こり得るよりも、24個の断片及び50個の断片のアセンブリーにおいて、少なくとも10%、20%、30%、40%、又は50%多いコロニーの改善を提供する。
少数のポリヌクレオチド断片(例えば、10個未満の断片)をより大きいDNAにアセンブリーする能力は、追加の精緻化を行うことなく、比較的効率的に行うことができる。しかしながら、類似のサイズのDNAを作製するために、より多数のより小さい断片(例えば、10個を超える断片、又は最大20個の断片、又は最大50個の断片、又は最大100個の断片、又はそれを超える断片など)をアセンブリーすることに関連して利点がある。そのような利点としては、大きい合成オリゴヌクレオチドよりも、小さい合成オリゴヌクレオチドで発生するエラー率が低いこと、並びに小さいサイズのプラスミドインサートを有する細菌クローンを安定して維持することが容易であり、これらのクローンを保存し、様々なアセンブリープロジェクトへ必要に応じて使用して、大きいDNAを作製することができることが挙げられる。これにより、より大きい断片が細菌クローンで発現され、クローンの生存率に影響を及ぼし、それによって保存された断片のライブラリーの質の低下を生じさせ得る毒性の問題が回避される。さらに、多数の断片を含むアセンブリー反応は、図15及び図16並びに実施例に概説されるように、ワクチン開発、car-T療法及びファージを用いた抗生物質開発に有用となり得るバリアントポリヌクレオチドライブラリーを作製する能力を提供する。
新規IIS型制限エンドヌクレアーゼ-PaqCI
PaqCIは、配列番号1に対する少なくとも80%の配列同一性を有するタンパク質を特徴とする。本明細書で使用される場合、PaqCIは、配列番号1に対する少なくとも90%、少なくとも92%、少なくとも95%、少なくとも99%の配列同一性を有するバリアントを包含することが意図される。PaqCIは、DNA二重鎖のそれぞれの鎖上の単一の標的部位を切断するために2つの認識部位と相互作用する複数のサブユニットに依拠する。
PaqCI配列、510aa(配列番号1):
Figure 2024500105000001
PaqCIの認識配列は、(5’-CACCTGC-3’/3’-GCAGGTG-5’)であり、それは、3’方向に認識配列に由来する4塩基及び5’方向に認識配列の相補体に由来する8塩基を非対称的に切断し、4塩基突出部を得る(図1Cを参照されたい。)。
また、PaqCIの活性を改善することが見出されたPaqCIアクチベーターオリゴヌクレオチドも本明細書に記載される。アクチベーターオリゴヌクレオチドは、二本鎖DNA領域及び一本鎖DNAループ、例えば、ヘアピン構造を含むようにフォールディングされた、合成自己相補性一本鎖オリゴヌクレオチドである。2つの一本鎖を超えるヘアピンの利点は、単一の合成されたDNA鎖の2つの末端が正確に同じ濃度であるため、より完全なアニーリングを含む。
アクチベーターオリゴヌクレオチドの二本鎖領域は、PaqCIのための結合(認識)配列を含有し、オリゴヌクレオチドは、ライゲーションできない3’及び5’末端を含み、PaqCIによって切断できず、これは、オリゴヌクレオチドの二本鎖部分がPaqCIのための切断部位を提供するために認識部位を超えて十分に遠くに広がっていないことを意味する。二本鎖領域及びループを含む自己相補性オリゴヌクレオチドは、好ましくは、100ヌクレオチド未満の長さであり、PaqCIのための認識配列(5’CACCTGC/3’GTGGACCG)を含有し、5’認識配列から0~4塩基又は1~4塩基以下下流に広がっている。切断する酵素のための二本鎖領域中に正しく配置されたホスホジエステル結合が存在しないように、それぞれの鎖上のブロッキング部分の1つの非天然の伸長物を付加することができる。代替的に、アクチベーターオリゴヌクレオチドは、切断不可能な連結を含有してもよい。オリゴヌクレオチドの5’及び3’末端は、平坦であってよい又は1、2、3、4、5、6個以上のヌクレオチドによって中断されていてもよく、3’末端又は5’末端のいずれかは中断されていてもよい。オリゴヌクレオチドのループは、重要ではなく、一部の場合、4~20ヌクレオチドであってもよい。二本鎖領域は、10~50塩基対の長さ、例えば、10~30塩基対の長さ、例えば、15~30塩基であってもよい。
アクチベーターオリゴヌクレオチドは、T4 DNAライゲーション緩衝液又は他の好適なリガーゼ緩衝液中でT4 DNAリガーゼ又は他のリガーゼによって別の基質(ポリヌクレオチド断片又はアクチベーターオリゴヌクレオチド)にライゲーションすることができない、ライゲーションできない3’又は5’末端を有する。ライゲーションできない3’及び5’末端の例は、3’ヒドロキシルを含有しない3’末端及び5’ホスフェートを含有しない5’末端;3’ホスフェートを含有する3’末端及びC3スペーサーを含有する5’末端;又は代替的に、3’ジデオキシ-C、3’C3スペーサー(C3-OH)、C6スペーサー若しくは3’アミノリンカー(C6-NH2)などの3’末端のライゲーションブロック及び逆方向ジデオキシチミン(invddT)などの5’末端のライゲーション阻害改変塩基である。したがって、互いへの、又はポリヌクレオチド断片へのアクチベーターのライゲーションは防止される。
PaqCIを含有する反応混合物は、切断を意図された標的二本鎖DNAに付加するための1つ以上のアクチベーターオリゴヌクレオチドも含む。
1つ以上のアクチベーターオリゴヌクレオチドを含む同じ反応混合物中でPaqCIとPaqCIの1つ以上のバリアントとの混合物を使用することは、これらの実施形態の範囲内である。ある特定の実施形態では、1つ以上のリガーゼをさらに含む方法が提供される。ある特定の実施形態では、異なる又は同じ特異性を有する他の制限エンドヌクレアーゼとの混合物中でPaqCIを使用することができる。
PaqCI及びアクチベーターの量は、PaqCIによるDNA基質の実質的に完全な切断をもたらすが、スター活性をもたらさない範囲内となるように最適化された。PaqCIとアクチベーターの比は、アクチベーターと標的オリゴヌクレオチド上の認識部位の比よりも、酵素活性の最適化にとってより有意であることが見出された。PaqCIに対して不十分な濃度のアクチベーターは、標的DNAの不完全な切断及びスター活性をもたらした。多すぎるアクチベーターは、不完全な切断をもたらした。理論によって制限されることを望むものではないが、不完全な切断は、標的DNAの代わりに専らアクチベーター分子へのPaqCIの結合の結果であったと考えられる。
ある特定の量のPaqCIのためのアクチベーターの最適量は、その意図される使用に応じて変化し得る。同じチューブ中に複雑なアセンブリー反応を含まないPaqCIによる標準的な制限消化は、1μlの酵素(10U)及び1μlのアクチベーター(20ピコモル)を使用して達成することができる。これらの反応では、DNA基質が切断されたら、それは容易に再集合しない。
しかしながら、PaqCIが多断片アセンブリー法において使用される場合、エンドヌクレアーゼ切断によって生成された突出部は、再アニーリング及びライゲーションし、元の認識部位を再構築することができる場合がある。この動的状況では、いずれか1つのDNA切断部位は、アセンブリー反応を通して2回以上切断されることを必要とし得る。結果として、エンドヌクレアーゼとアクチベーターの比は、アセンブリー反応中の断片の数に従って改変された。
結果として、1ユニットのPaqCIあたり0.75ピコモル未満のアクチベーターで、いくらかの少量のスター活性が観察され得るが、1ユニットのPaqCIあたり10ピコモルのアクチベーターでは、阻害活性の開始が観察され得る場合、1ユニットのPaqCIエンドヌクレアーゼあたり0.75ピコモル~9ピコモルのアクチベーター(標準的な50μlの反応体積で15nM~180nM)が好ましいと決定された。ある特定の実施形態では、範囲は、1ユニットのPaqCIあたり0.75ピコモル~9ピコモルのアクチベーター、1ユニットのPaqCIあたり1ピコモル~7.5ピコモルのアクチベーター、1ユニットのPaqCIあたり1ピコモル~5ピコモルのアクチベーター、1ユニットのPaqCIあたり1.5ピコモル~7.5ピコモルのアクチベーター、1ユニットのPaqCIあたり1.5ピコモル~5ピコモルのアクチベーター、1ユニットのPaqCIあたり1.5ピコモル~4ピコモルのアクチベーター、1ユニットのPaqCIあたり2ピコモル~5ピコモルのアクチベーター又は1ユニットのPaqCIあたり2ピコモル~4ピコモルのアクチベーターのいずれかから選択され得る。
1ユニットは、1× rCutSmart(商標)緩衝液(50mM酢酸カリウム、20mM Tris酢酸、10mM酢酸マグネシウム、100μg/ml組換えアルブミン(25℃でpH7.9))中、50μlの合計反応体積中、37℃で1時間、1μgのλDNAを消化するのに必要とされる酵素の量としてこの比について定義される。ユニットの定義及び緩衝液の説明は、限定を意図するものではなく、むしろ、アクチベーター/PaqCIの適切な比を開発するための指針として役立つものである。選択されたリガーゼを含む使用に応じて、他の緩衝液を使用することができる。例えば、DNA断片アセンブリー法にとっては、市販のT4 DNAリガーゼ緩衝液が好ましい場合がある。アセンブリー法の一実施形態では、標準的な反応体積は、50ulであり、1ユニットのPaqCIエンドヌクレアーゼあたり1ピコモル~8ピコモルのアクチベーター(20nM~160nM)又は10ユニットの酵素あたり10ピコモル~80ピコモル(200nM~1600nM)のアクチベーターを含有する。反応ミックス中のDNAは、1ugのラムダDNAであった。別の実施形態では、50ulの反応液中の最適な酵素及びアクチベーターが、それぞれ1ulを使用して1:1の比をもたらすように、アクチベーター濃度は、20uMであり、酵素濃度は10ユニット/ulである。典型的なPaqCI反応条件については、基質部位の濃度が切断されるDNAに応じて変化する場合であっても、これは、DNA基質認識部位の完全な切断をもたらす。ポリヌクレオチドのアセンブリーのための多断片のライゲーションのために、基質部位の濃度が典型的な反応条件と比較して高い場合、アクチベーターの酵素に対するより低い比(例えば、1:2、1:3、1:4、又は1:5)を使用することができる。アクチベーターの量を低下させることによって、酵素の総認識部位(基質プラスアクチベーター部位)に対する最適比を維持することができる。
本明細書に記載される推奨成分濃度範囲は、単純なアセンブリーから複雑なアセンブリーまでをもたらす異なる数の挿入クローンを含有する多断片アセンブリー法についても決定された。
例えば、PaqCI又はそのバリアントは、反応ミックス中でアクチベーター、リガーゼ及び複数のDNA基質と組み合わせられ得る。一実施形態では、DNA基質は、基質のライゲーションアセンブリーのために設計された隣接プラスミド配列と共に挿入部位にPaqCI認識配列を含有するプラスミド中に含まれる。多断片アセンブリーの間に、全ての挿入物及び全てのデスティネーションプラスミドは、2つの部位によって挟まれたアセンブリー活性DNA断片を有する。反応ミックスは、断片のエンドヌクレアーゼ切断及びライゲーションにとって好適な時間及び温度でインキュベートされ得る(例えば、各サイクルがミックス中の断片の数に応じて1~5分である場合、30~60回のライゲーションサイクルについて37℃及び60℃)。所望の反応生成物は、複数のDNA基質から形成される大きいDNA分子である。異なるレベルの複雑性の断片アセンブリーは、異なるレベルの上記のPaqCI及びDNAリガーゼを要求する。アセンブリー反応が複雑性を増すにつれて、最大の性能のために、より多くのユニットの酵素が必要とされる;例えば、T4 DNAリガーゼを使用して、2.5~20UのPaqCIを、200~800Uのリガーゼと共に使用することができ、20個以上の断片のアセンブリーのためには、10~20UのPaqCI及び400~800のDNAリガーゼの上限が好ましい。
PaqCIは完了まで切断し、アクチベーターと組み合わせた場合、スターアクチベーターを有しない(図1Dを参照されたい。)。それは、AarIと比較した場合、大きく改善された性能を有する(図1A及び図1Bを参照されたい。)。
実施形態では、混合物又は1つ以上の容器中の試薬であって、PaqCI又はそのバリアント(「PaqCI」)及びアクチベーター分子を含む、試薬を含有するキットが提供される。キットは、リガーゼをさらに含んでもよい。キットは、反応緩衝液中の試薬を含んでもよい、又は1つ以上の試薬は、ビーズ又はポリマーマトリックスなどの好適な基質上に一緒に又は別々に凍結乾燥及び/又は固定されてもよい。キットはさらに、試薬に添加するために別々の容器中に反応緩衝液を含有してもよい。
種々のリガーゼに関するライゲーション頻度及び忠実度
多断片アセンブリーは、PaqCIと、選択されたリガーゼとを組み合わせて、4塩基突出部を有する断片を生成することによって達成され得る。規則的アセンブリーは、突出部のアニーリングの忠実度及び全てのアニーリングした突出部のリガーゼによるライゲーションの雑多性に依存し、次いで、無傷の連続的DNAを形成する断片の数を含むライゲーションの条件に依存する。本発明の実施形態は、ライゲーション関連アニーリングに対する固有のリガーゼ優先性における種々のリガーゼの役割を確立する。
T4 DNAリガーゼは、末端ライゲーション及び大きいDNAアセンブリーのための標準的なリガーゼである。しかしながら、このリガーゼが、ある特定の4塩基突出部を有する末端結合断片について観察された可変性ライゲーションプロファイルに寄与する配列優先性を有するかどうかは不明であった。さらに、T4 DNAリガーゼがこれに関して他のリガーゼとどのように比較されたかは不明であった。
この疑問を分析し、分析の結果を使用して、突出部の選択を改善し、偏りを最小化し、必要に応じてアセンブリーされた断片の収率を増強し、忠実度を最適化するための方法が、ここで開発された。5つのリガーゼの特性の詳細な分析は、図面及び実施例において提供される(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ及びPBCV-1 DNAリガーゼ)。さらに、PEG及び/又はアプラタキシンをライゲーション緩衝液に添加することによって観察されたある特定の改善が、実施例に記載される。
実施例1では、ライゲーションの頻度、DNAリガーゼであるT4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1 DNAリガーゼ、及びhLig3の偏り及び忠実度プロファイルは、縮重5’-4塩基突出部末端を含有する末端結合ヘアピンDNA基質のライブラリーを使用して決定された。これらのライブラリーのライゲーション生成物は、配列決定によって分析された。それぞれの突出部に関するリードの数は、ライゲーション効率の値を提供した;それぞれのリガーゼに関する配列の偏りは、全てのライゲーション生成物にわたって出現するそれぞれの突出部の相対頻度から推測された。
アッセイにおけるヘアピン基質は、ライゲーションが、断片の相補的末端を見出すリガーゼを必要とする多断片の実際のアセンブリーを模倣する複雑な平衡系を提示する。反応中にわずか2つのワトソン-クリック結合パートナーが存在する場合、ライゲーションした生成物への迅速な変換が予測される。アッセイ法は、個々の突出部を別々に検査することによっては利用可能とならない情報の深さを提供し、それぞれの対を同時に試験することによって可能であったものよりも迅速な忠実度及び偏りの評価を可能にした。全ての相補的4塩基突出部のそれぞれのライゲーションの頻度に関する生データは、同じアッセイ条件下の異なるリガーゼに関して図3Ai/図3Aii~図3Hi/図3Hii中のヒートマップ(マトリックス)中に提示される。このデータは、ライブラリーのライゲーション頻度及び忠実度が、試験したリガーゼ間で有意に変化することを示した。T4 DNAリガーゼ、T3 DNAリガーゼ、及びhLig3は全て、55%より高いライゲーション生成物をもたらした。PBCV-1リガーゼは、わずかにより低い収率(50%)を有していた。T7 DNAリガーゼは、圧倒的に最も低い収率を有し、20%のライゲーション生成物に達するに過ぎなかった。
全体的な偏りの程度の変化、及びリガーゼ間の本質的に異なる好ましい配列が観察された(図3Ai/図3Aii~図3Hi/図3Hiiを参照されたい。)。T7 DNAリガーゼは、4塩基突出部における塩基の完全な一致とライゲーションするのを優先する最も高い程度の配列の偏りを示した。検査した他のリガーゼは全て、ライゲーション頻度のはるかにより緊密な分布を有していたが、データポイントがどれぐらい緊密に平均の周辺にクラスター化しているかには差異があった(図4Aを参照されたい。)。T4 DNAリガーゼ及びhLig3は両方とも、最小量の偏りを示し、T7 DNAリガーゼと比較して、1/2未満の小さい値の範囲であった。PBCV-1及びT3は、類似する平均ライゲーション頻度を有していたが、わずかにより大きい範囲のライゲーション頻度が観察された。
ここで検査されたリガーゼは、T7 DNAリガーゼに関する極端な忠実度を示し、最も高い忠実度(89%正確なライゲーション生成物)を示したが、hLig3は最も低い忠実度(56%正確なライゲーション生成物)を有していた。T4 DNAリガーゼは、中程度の忠実度(72%正確なライゲーション生成物)を示した。T4 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1リガーゼ及びhLig3は、個々の突出部配列に関する広範囲の忠実度を有し、一部の突出部は非常に少ないミスマッチライゲーション事象を有し、他のものは頻繁なミスマッチライゲーションを有していた(図4B)。多くの突出部について、あらゆる可能なパートナーと共に提示された場合であっても、ライゲーション生成物は、ほぼ例外なくワトソン・クリックのパートナーと共にあった。それぞれのリガーゼによって許容された特異的ミスマッチ塩基対が生じた場合、これらのものは、突出部の中央(「中央」)よりも5’末端ヌクレオチド(「端部」)でより一般的であった。一部の頻繁なミスマッチ、とりわけ、G:Tミスマッチは、全ての試験したリガーゼの間で一般的であったが、それぞれのリガーゼのライゲーション生成物間で観察された異なるミスマッチ対も存在していた。
例えば、T4 DNAリガーゼが全ての可能なライゲーションパートナーと共に提示された場合、いくつかの突出部は、90%を超えるライゲーション生成物においてそのワトソン・クリックパートナーと対合した(例えば、AAAA、AAGA、ACAA、GAAA)。他の突出部は、少なくとも1個のミスマッチを含有するパートナーにライゲーションした;いくつかの突出部は、60%を超える時間でミスマッチ含有パートナーと対合した(例えば、GGCG、GGCC、GGGC、GGGG)。
ある特定の多断片アセンブリーについて、完全に正確な配列を提供するためにはワトソン-クリックの一致を最大化することが望ましいが、他の状況では、可変性の大きいDNAを確立するために断片アセンブリー中にエラーを導入することが望ましい場合がある。例えば、hlig3は、断片のセットにおける断片が、リガーゼの乱雑さのため、誤った順序で別の断片にライゲーションする機会を増加させるように選択され得る。代替的に、アセンブリーの最大忠実度が望ましく、ライゲーションの頻度がそれほど重要ではない場合、T7 DNAリガーゼが最適な酵素であってもよい。しかしながら、以下に示されるように、PEGなどのライゲーション緩衝液に対する添加剤は、T7 DNAリガーゼが、そうでなければこのリガーゼがあまり望ましくない場合に、20+の断片アセンブリーワークフローのための最適なリガーゼであり得るように、忠実度を有意に失うことなく、ライゲーションの頻度をいくらか増強することができる。
ライゲーション増強剤PEGの添加は、ライゲーションの偏りを低減するだけでなく、忠実度も低下させる
ポリエチレングリコール(PEG)(Millipore Sigma、Burlington、MA)を使用して、ライゲーションを増強することもできる。実施例は、600~6000の範囲の分子量を有するPEGがDNAアセンブリーを増強することを示す。例えば、PEG MWは、500、600、800、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000及び10,000から選択され得る。実施例4は、6.8%w/vのPEG600、PEG3350及びPEG6000に関する結果を示す。
PEGの添加は、T4 DNAリガーゼとT7 DNAリガーゼとの両方について全体のライブラリー収率を増加させ(それぞれ61%~73%及び20%~45%)、hLig3の収率においてはわずかに減少した(77%~72%まで)。PEGの添加は、T4 DNAリガーゼに関する多重ライゲーション反応の全体忠実度を、PEGの非存在下での72%正確なライゲーション事象から、PEGの存在下での67%まで中程度に低下させた(表2、図5A~5Eを参照されたい。)。PEGの添加は、平均忠実度の変化を見なかった100%のGC含有量を有する突出部を除いて、GC含有量に関係なく同じ量ずつ忠実度を低下させた。T7 DNAリガーゼの忠実度はまた、PEGの存在下では89%~78%まで有意に低下し、hLig3の全体ライゲーション忠実度は、PEGの添加時にわずかに低下した(それぞれ、56%及び51%)(表2)。とりわけ、PEGの添加は、試験したいずれのリガーゼについても許容された特異的ミスマッチの同一性を変化させなかった。PEGの添加はまた、T4 DNAリガーゼの偏りの中程度の変化をもたらした。50%未満のGC含有量を有する突出部のライゲーションについては、効率のブーストが観察された。興味深いことに、T7 DNAリガーゼの極端な偏りは、PEGの添加によって低減され、以前には全くライゲーションしなかった突出部は、有意な生成物蓄積を有していた(図5A~5E)。異なるサイズのPEGから得られた結果が、表6に提供される。
典型的な反応条件及び添加剤は、異なるDNAリガーゼに影響し、特定の適用結果を改善し得る改変に関する洞察を提供し得る。例えば、クローニング又はアダプターライゲーションなどの適用について、PEGの添加に由来するライゲーション生成物収率のブーストは、T4 DNAリガーゼ及びT7 DNAリガーゼに関する忠実度の中程度の喪失を上回る可能性が高い。しかしながら、非常に複雑な多断片アセンブリーを含む適用については、PEGを添加する場合に観察された忠実度の喪失は、特定の突出部セット間で潜在的なミスマッチライゲーションを制限するために使用される特定の突出部のより多くの配慮を必要とし得る。PEGの添加は、T7 DNAリガーゼを、大きい多断片アセンブリーのためのより魅力的な候補にする。追加の突出部に関する効率の観察された増加は、効率的な潜在的な突出部配列のプールを拡大するが、この酵素の高い全体忠実度のため、忠実度のわずかな喪失が許容される。
データ最適化されたアセンブリー設計
Ligase Fidelity Viewer、GetSet及びSplitSetツールは、本明細書及びWO2020/0181768に記載されており、断片の規則的アセンブリーの成功を大きく改善するデータ最適化されたアセンブリー設計を提供する。これらのツールは、ユーザを支援するためのメニュー選択に依拠する。以下に記載される実験条件はそれぞれ、ライゲーション頻度及び忠実度の256×256のデータマトリックスから得られる。コンピュータツールは、このデータを使用して、断片の所望の数及び突出部の型に関して最適化された突出部を生成することができる。
選択された数のポリヌクレオチド断片を標的ポリヌクレオチド中にアセンブリーさせるのに好適な突出部のセットの選択は、精神的な行為によっては達成することができない有用な突出部を、好適な順序で試験及び配置するためのこれらのツールによって達成され得る。一実施形態では、好適な突出部の同定は、1つ以上のステップを含む。パリンドローム突出部を含まない、複製突出部を含まない、連続して3塩基を有する突出部を含まない、例えば、ACCA及びACCGを含む;同じ位置に2個を超える塩基を含まない、例えば、(C及びG)を含み、0%のGCの突出部及び100%のGCの突出部を有する突出部を回避する、ある特定の規則が適用された(Nilssonら、Nucleic Acids Res.、10、1425~1437(1982);Goffinら、Nucleic Acids Res.、15、8755~8771(1987);及びWuら、Gene、76、245~254(1989))。しかしながら、本明細書に例示されるデータ最適化されたアセンブリー設計によって決定された最適化されたデータセットは、そのような規則に基づく制限を有せず、突出部の選択においてより高い可撓性を提供する。例えば、温度は、AT及びGC含有量による突出部のアニーリングの全体的な程度において役割を果たす。突出部におけるA、T、G又はC塩基の好ましい位置は、使用されるリガーゼに応じて変化することが見出された。ごくわずかなミスマッチが4塩基突出部内に存在するが、様々なリガーゼに対する異なる優先性が、突出部のいずれかの端部の塩基について認められる。
実施形態は、末端結合ハイブリダイゼーション及びライゲーション忠実度及び偏りをプロファイリングして、ライゲーションに基づくDNAアセンブリー法のための接続の非常に正確なセットを予測することによって最適化されたデータセットを取得する方法を記載する。これは、特に、配列を任意に選択することができない場合(例えば、アセンブリーがコード配列内で切断しなければならない場合)に制約的である、限定された数の4塩基突出部にユーザを制限する先行技術の規則を超える有意な改善を提示する。ライゲーション忠実度プロファイルの適用は、情報に基づいた結合部の選択を可能にし、単一の反応において20個を超える断片を使用する非常に可撓性のアセンブリー設計を可能にした。
一実施形態では、コンピュータ設計ツールは、ユーザが様々な要求を入力した後に突出部の選択を提供する。例えば、コンピュータツールは、アセンブリー反応が起こると予想される実験条件の選択又は入力を受け取る(例えば、表1を参照されたい。)。実験条件は、コンピュータによってアクセスされる、ライゲーション頻度テーブルの選択及び個々の突出部のライゲーション忠実度の決定を変化させる。
コンピュータツールはまた、数、例えば、(i)アセンブリー反応のための突出部の所望の数、(ii)突出部の長さ、(iii)アセンブリーのヌクレオチド配列、(iv)(iii)のヌクレオチド配列を切断することができる間隔のセットを受け取り、方法を実行させた後、同定された突出部のセットを出力として受け取る、及び/又は断片の末端が、インターフェースに入力される情報に応じて、同定された突出部のセットによって定義される、アセンブリーのための断片のセットを受け取る。
この方法は、突出部又はそれを含有する断片のセットをライゲーションするためのライゲーション条件に関する指示を受け取ることをさらに含んでもよい。ライゲーション条件は、所望のリガーゼ、緩衝液条件、例えば、塩濃度、温度、温度範囲並びに/又は熱サイクリングの時間及び温度(切断及びライゲーションのために使用することができる)並びに突出部を生成するために使用される場合、制限エンドヌクレアーゼのうちの1つ以上を含んでもよい。ライゲーション条件(アセンブリー反応のための突出部の所望の数及び突出部の長さに加えて)がインターフェースで受け取られる場合、全体忠実度スコアは、特定のライゲーション条件で実施されたライゲーションにおける突出部について算出される。したがって、特定の条件に対応するライゲーション頻度テーブルは、それぞれ異なるライゲーション条件について、複数のライゲーション頻度テーブルから選択され得る。ライゲーション頻度テーブルを選択した後、ライゲーション忠実度スコアを、そのテーブルにおけるデータを使用して算出することができる。
一部の実施形態では、突出部の数は、5~200、例えば、10~100、例えば、10~50個の領域中にあってよいが、突出部の数は、一部の状況ではこれらの範囲の外側にあってもよい。突出部の長さは、2、3、4又は5ヌクレオチドであってよく、突出部の長さは、制限エンドヌクレアーゼ又は突出部を生成するためのその他の手段の選択並びにあり得るライゲーション反応の頻度及び忠実度によってのみ制限される。突出部の好ましい長さに関する選択は、突出部におけるヌクレオチドの任意の組合せについてあり得る突出部の数の影響下にあってよく、この数は、結合させようとする断片の数を超えるべきである。アセンブリー反応のための突出部の所望の数及び突出部の長さを受け取った後、コンピュータは、選択された長さ(例えば、2、3、4又は5塩基)の、突出部テーブルに由来する突出部のセットを提供する。例えば、ユーザが、コンピュータに、それぞれ4塩基長の20個の突出部を入力した場合、コンピュータは、複製、相補体、パリンドローム(例えば、GATC)又は除外された配列を含まなかった20個のユニークな突出部のセットを出力する。GATCは、その逆相補体がGATCであるため、パリンドローム配列の例である。パリンドローム末端を有するいずれか1つの断片は、別の同一の分子にアニーリングし、規則的アセンブリーの破壊をもたらし得るため、パリンドロームは回避されるべきである。インターフェースは、除外又は含有されるべき1つ以上の突出部の一覧を受け取ることを可能にしてもよい。ライゲーションプロファイルの低い忠実度若しくは頻度のため、又は突出部が反応の他の場所で使用されたため、除外される突出部が選択され得る。含有される突出部は、その高い忠実度及び/又は頻度値の実験的知見に基づいて選択され得る。
明らかなように、突出部ライゲーション頻度テーブルは、コンピュータメモリに保存され、所望の長さの全てのあり得る突出部又はそのサブセットを含んでもよい。例えば、4塩基突出部については、突出部テーブルは、256個の4塩基配列を含有し、3塩基突出部については、突出部テーブルは、64個の3塩基配列を含有してもよい。突出部は、任意の特定の順序で選択され得る。例えば、一部の実施形態では、突出部は、無作為に選択され得るが、他の実施形態では、突出部は、規定の順序で選択され得る。
メニューからのユーザの選択に基づいて、コンピュータは、セット中のそれぞれ個々の突出部及びその相補体に関するライゲーション忠実度スコアを算出する。例えば、セット中に20個の突出部が存在する場合、20個のライゲーション忠実度スコアが存在するべきであり、それぞれ個々の突出部のライゲーション忠実度スコアは、個々の突出部及びその相補体が、セット中の全ての突出部及びそれらの相補体に対して、完全に相補的な突出部に独立にライゲーションする頻度を表す。例えば、特定の突出部及びその相補体が、セット中の全ての突出部及びそれらの相補体に対して、90%の時間で完全な相補性をもって互いにライゲーションする場合、突出部は、0.9の算出されたライゲーション忠実度スコアを有してもよい。特定の突出部及びその相補体が95%の時間でライゲーションする場合、相違は、ライゲーション可能なミスマッチの計算可能な速度を示唆する。これらの値は、本明細書に記載の方法によって得られた、記載されたライゲーション忠実度/頻度テーブルから得られ、それぞれのエントリーは、異なる実験条件において考慮に入れるライゲーション事象の数の、個々の実験的に定義された測定値からなる。
ライゲーション条件
ライゲーション条件は、ドロップダウンメニューを使用して選択することができ、ここでドロップダウンメニューにレイアウトされたリガーゼオプションには、様々なライゲーション頻度テーブルが含まれる。ライゲーション効率、忠実度及び収率に影響を与えることが見出された実験条件にリガーゼの選択が追加される例は、断片の規則的アセンブリーのための突出部ライゲーションの頻度及び忠実度について実験的に決定された値に影響を与える。
静的温度、及びドロップダウンサイクリング又はタッチダウンサイクリングを使用する高温と低温の間のサイクリングを含む、ライゲーションのための温度条件。これらの用語は、実施例2で説明されている。
(a)規則的アセンブリーのための断片の数、
(b)突出部の長さ、
(c)制限エンドヌクレアーゼ/ライゲーション反応のインキュベーション時間、
(d)制限エンドヌクレアーゼ及びリガーゼの種類、
(e)塩分濃度を含む緩衝液の種類、
(f)クラウディング剤、修復酵素及び/又はデアデニラーゼ等の補因子(表4及び表5も参照のこと。)、
(g)リガーゼの選択、
(h)特定の4塩基配列、ミスマッチの許容度、及び忠実度プロファイルに従う又は逆らう、許容され得るリガーゼ偏り、
(i)特定の4塩基配列、ミスマッチの許容度、及び忠実度プロファイルに従う又は逆らう許容されないリガーゼ偏り。
一実施形態において、図9B~図9Dにおけるライゲーション忠実度ビューア、GetSet、及びSplitSetのユーザインターフェースにおける実験条件のプルダウンメニューを表1に示す。
Figure 2024500105000002
各エントリーは、最適な突出部の計算に統合するために、データツールに入力された256×256のデータセットを有していた。実施例1は、5つのリガーゼの比較研究のためにデータをどのように収集したかを詳細に説明する。
4塩基突出部のライゲーション頻度テーブルは、突出部の全ての可能な組合せ、すなわち、256×256/2データポイントの各々についての実験値を有するべきであり、各々の値は、定義された実験条件下での2つの突出部のライゲーションの頻度を示す。このデータを得る方法の詳細は、実施例1及びPotapov,V.ら(2018)、ACS Synth.Biol.、7巻、2665~2674頁;Potapovら、Nucleic Acid Res 2018、46 e79;Potapovら(2018)BioRxiv;Pryor,J.M.ら(2020)PLoS One、e8592;Pryor,J.M.ら(2020)BioRxiv、e4019に記載されている。個々の突出部のライゲーション忠実度スコアは、(i)個々の突出部並びにセット内の全ての突出部及びその相補体と、(ii)個々の突出部並びにセット内の全ての突出部及びその相補体に対する相補体との間で生じるライゲーション事象の総数と比較した、個々の突出部とその相補体との間で生じるライゲーション事象の数として計算することができる。
次いで、突出部のセットについての全体忠実度スコアを、個々の突出部のそれぞれについて計算されたライゲーション忠実度スコアに基づいて、上記出力として、生成することができる。一部の実施形態において、個々のライゲーション忠実度スコアは、全体忠実度スコアを得るために一緒に乗算されてもよい。例えば、それぞれが0.950の忠実度を有する20の突出部が存在する場合、その突出部のセットの全体忠実度スコアは、0.36(すなわち、0.9520)であり得る。一部の実施形態では、この計算は、加えて、突出部がその相補体にライゲーションする際にどの程度効率的であるかによって、突出部に重み付けし得る。例えば、一部の場合では、2つの突出部が等しい忠実度を有し得るが、使用される条件下で、一方は他方よりも効率的にその相補体にライゲーションする。この場合、より高い効率でライゲーションする突出部は、他の突出部よりも高い重みを有し得る。したがって、一部の実施形態において、全体忠実度スコアは、(i)個々の突出部の各々について計算されたライゲーション忠実度スコア、及び(ii)個々の突出部の各々が完全に相補的な突出部にライゲーションする収率を使用して計算されてもよい。
選択されたセットの突出部の全体忠実度スコアを計算した後、工程を、別のセットの突出部に対して繰り返して、異なるセットの突出部のそれぞれについて、複数の全体忠実度スコアを計算してもよい。このステップにおいて、反復ステップで選択される突出部のセットは互いに異なる(及び第1の突出部のセットとは異なる)。また反復ステップにおいて、選択は、ランダムであっても又は規定された順序であってもよい。一部の実施形態において、これらのステップは、モンテカルロシミュレーションを使用して反復されてもよい。この方法において、少なくとも100、少なくとも1,000、又は少なくとも10,000の全体忠実度スコアが、それぞれ異なるセットの突出部のために生成されてもよい。全体忠実度スコアが突出部の全ての可能な組合せに割り当てられるまで、又は1つ以上の突出部が閾値を上回る全体忠実度スコアであることが特定されるまで、方法のこの部分を繰り返した。
全体忠実度スコアが計算された後、方法は、適切な全体忠実度スコアを有する突出部のセットを特定することを含んでもよい(突出部のセットの例は、表7及び実施例5において提供されている。)。一部の実施形態において、特定された突出部のセットは、全体忠実度スコアの上位50%、上位20%、上位10%、又は上位5%にある全体忠実度スコアを有してもよい。一部の実施形態において、特定された突出部のセットは、最高の全体忠実度スコア又は上位10%若しくは上位5%の最高忠実度スコア内にあるスコアを有してもよい。選択された突出部のセットは、コンピュータから、例えば、ディスプレイに出力されてもよい(実施例5及び図9B~図9Dを参照のこと。)。
さらなる実施形態では、方法は、以下:(i)アセンブリー反応のための所望の数の突出部、(ii)突出部の長さ;任意選択で(iii)アセンブリーのヌクレオチド配列、(iv)(iii)のヌクレオチド配列が切断され得る間隔のセット、のうちの1つ以上をユーザがインターフェースに入力し、方法を実行させ、特定された突出部のセットを出力として受け取ること、及び/又はアセンブリーのために断片のセットを受け取ることを含んでもよく、ここで断片の末端は、どの情報がインターフェースに入力されるかに応じて、同定された突出部のセットによって定義される。この方法は、突出部又はそれを含む断片のセットをライゲーションするためのライゲーション条件、及び任意選択的に、断片を生成してそれらを一緒にライゲーションするための熱サイクリング条件に関する指示を受け取ることをさらに含み得る。これらの実施形態において、方法は、閾値以上の全体ライゲーションスコア及びそれらの相補体を有する突出部のセットを有する二本鎖核酸のセットを作製することと、次いで、単一の反応において断片を一緒にライゲーションしてアセンブリーを作製することとを含んでもよく、反応において、突出部は、アセンブリー中の断片の順序を決定する。ライゲーションは、上記及び/又は下記でより詳細に説明されている突出部指向性ライゲーションによって行われてもよい。明らかなように、方法は、ライゲーションのために選択された実験条件を受け取ることをさらに含んでもよい。
上記の実施形態の実装は、WO2020/081768に詳細に記載されているライゲーション忠実度ビューア、GetSet、及びSplitSetによって例示される。これらの適用のそれぞれについてのユーザインターフェースは、図9A~図9Dに示されている。実施例で提供されているリガーゼデータは、最適化された突出部のセットの精緻化を可能にする、上述したような実験条件の追加的特徴である。これは、規則的アセンブリーのための対応する大きい断片セットを有する大きい突出部セットのために特に有用である。
GetSet(図9Cを参照のこと。)では、突出部の長さを選択し、突出部の総数を入力し、必要とされる突出部を入力する。また除外された突出部を追加してもよく、PaqCIの使用及びリガーゼの選択を含む実験条件を選択してもよい。その後、GetSetは、特定されたライゲーション条件に最適な突出部のセットを提供する。
SplitSetにおいて、第1のステップは、目的のアセンブリーのヌクレオチド配列と、(アセンブリー反応のための所望の数の突出部及び突出部の長さに加えて)ヌクレオチド配列を切断することができる間隔のセット(例えば、少なくとも5、少なくとも10、少なくとも20、又は少なくとも30で、最大50の間隔)を受け取ることを含んでもよい。入力配列は、例えば、少なくとも500塩基の長さの任意の配列であってもよいが、IIS型制限エンドヌクレアーゼ認識配列がその間隔の開始及び終結において存在することを条件に、25ヌクレオチドほどの短い配列を選択することができる。例えば、方法は、配列並びに開始座標及び終結座標の複数のセットを受け取ることを含んでもよく、ここで、開始座標及び終結座標の各セットは、配列が切断され得る間隔を定義する。これらの状況では、間隔内にある突出部のみが、各区間が選択された突出部によって共に表されるように、突出部テーブルから選択されてもよい。次いで、サブ配列の非冗長セットが、受け取った突出部の長さと同じ長さの間隔で同定される。これらのサブ配列は、突出部テーブル自体として保存されてもよく、又はサブ配列の非冗長セットからの配列のみが突出部テーブルから選択されてもよい(表8及び表9を参照されたい。)。間隔は、例えば、間隔をインターフェースに入力することによって、ユーザによってコンピュータに入力されてもよい(図9Dを参照のこと。)。あるいは、ユーザは、配列を入力し、所望される断片の数を特定してもよい。これらの実施形態では、アルゴリズムは、所望の数の断片を生成するために入力配列が分割され得るおよその位置を決定し、次いで、およその位置を含む間隔(例えば、10~50又は10~100ヌクレオチド長であってもよい)を特定してもよい。間隔は、上記のように処理されてもよい。これらの実施形態では、方法は、同定された突出部でアセンブリーのヌクレオチド配列を分割し、それによってアセンブリーの断片のセットを生成することをさらに含んでもよく、ここで断片の末端は、同定された突出部によって定義される。SplitSetインターフェースを図9Dに示す。メニュー内のアイテムを選択することによって所望の突出部の長さが提供される。次に、ライゲーション忠実度ビューアと同様に、ライゲーション条件を選択し、ヌクレオチド配列を入力し、断片数を入力する。次いで、コンピュータは、規則的アセンブリーのための最適化された断片のセットの結果を提供する。
本明細書に提供される実施形態は、コンピュータのユーザが、選択された実験条件下で、所定の断片突出部のセットから予測されるライゲーション忠実度プロファイルをグラフィカル表現によって確認できるようにするためのものである。これらの特徴のそれぞれは、本明細書に記載のパラメータのいずれかを調節して、修正されたグラフィカル表現を提供し、選択された数の突出部配列のライゲーション忠実度プロファイルを変更が改善したかどうかを、突出部配列のセットについて得られた完全スコアからの偏差のグラフィカル表現を用いて判定することによって、修正されてもよい。
コンピュータのユーザが、複数の核酸断片を標的ポリヌクレオチドにアセンブリーするのに適した突出部配列の最適化されたセットをコンピュータから迅速かつ効率的に得ることを可能にするための他の実施形態が、本明細書において提供される。最適化は、選択された実験条件下で単一の長さを有する突出部の全ての可能な配列組合せの完全なセットについての全ての可能な突出部配列についてのライゲーション忠実度及びライゲーション効率(頻度)値の2つ以上のデータベースに依存し得る。第1のデータベースは、アッセイの例が図2A~図2C及び実施例1に提供されている、アニーリングされた突出部の分析産物であってもよい。第2のデータベースは、異なる4塩基突出部を認識し、異なる又は類似の偏りを有する様々なリガーゼによるライゲーションの頻度及び忠実度に関するデータを提供するために同じアッセイを使用して導出されてもよい。突出部の完全なセットは、様々なサイズの突出部を含み得る。核酸としては、DNA、RNA、又はDNA/RNAハイブリッド、又はキメラが挙げられる。便宜上、DNAが、本明細書の説明、実施例、及び特許請求の範囲において詳述されている場合があるが、本明細書の実施形態は、DNAに限定されるものではなく、上記のような任意の種類の核酸に適用され得る。
突出部の適切な長さを決定するための因子には、突出部が長いほど、可能な組合せのセットが大きくなる場合、いくつの断片を連結することが望ましいかということが挙げられる。これにより、隣接する断片突出部に相補的な固有の突出部をそれぞれ有する、より多くの断片が連結して標的ポリヌクレオチドを形成することができる。他の因子には、より短い突出部がより速く融解及びアニーリングし、より長い突出部がより高い融解温度を必要とする場合の融解/アニーリングの効率が含まれる。ライゲーション効率は、より長い突出部が、より短い突出部よりも効率的にライゲーションし得る別の因子である。ライゲーション効率はまた、突出部における単独又はまとまったヌクレオチドの特性にも依存し、一部の配列は、他の配列よりも効率的にハイブリダイゼーション及び/又はライゲーションされてジャンクションを形成し、偏りが低減され、ミスマッチを好まない又は誘導しない。
一実施形態では、システムからの出力は、ライゲーション忠実度のために最適化された、又は選択したライゲーション忠実度に従って選ばれた配列を有する突出部を生成するために、どの制限エンドヌクレアーゼを使用して核酸を切断すべきかをユーザに指示する。しかしながら、ウラシル特異的切除試薬(USER(登録商標)、New England Biolabs、Ipswich、MA)、アルゴノート、クラスター化した規則的な配置の短い回文配列リピート(CRISPR)などの他の切断酵素系を使用してもよく、又は他の切断酵素を使用して、突出部を生成してもよい。
上述の実験条件は、コンピュータインターフェースからユーザに、メニューによって提供され、次いでユーザによって選択される、又はアセンブリーのための全ての様々なパラメータを計算し、セット内の全ての断片を効率的に正しく結合するための最良の条件を提供するコンピュータによって選択される。IIS型制限酵素の使用は、DNAが破壊される部位の正確な選択を可能にし、最終構築物からの制限酵素認識配列の除外(したがって、シームレスな1つのチューブアセンブリー反応を可能にする)又はある種の核酸アセンブリーの除外を可能にする。例えば、遺伝子コード領域については、DNA配列を変化させない無傷のジャンクションが重要である。他の用途、例えばシストロン形成では、アセンブリー反応から残り得る追加の又は改変されたヌクレオチドは、標的核酸の遺伝子発現に干渉しない場合がある。一実施形態において、突出部及び無傷のジャンクションの生成に使用するのに好適なエンドヌクレアーゼとしては、以下が挙げられる:
2塩基突出部ジェネレータ(例えば、BtsI及びそのイソシゾマー、AcuI及びそのイソシゾマー)、
3塩基突出部ジェネレータ(例えば、SapI及びそのイソシゾマー、並びにBspQI及びそのイソシゾマー(両方とも7塩基認識))、
4塩基突出部ジェネレータ(例えば、BsaI-HFv2及びそのイソシゾマー(6塩基認識)、BbsI及びそのイソシゾマー(6塩基認識)、BsmBI及びそのイソシゾマー(6塩基認識)、PaqCI(7塩基認識)、並びに
5塩基突出部ジェネレータ(例えば、5塩基認識部位を有するHgaI及びそのイソシゾマー)。
New England Biolabs 2017/2018カタログに記載されている他の制限エンドヌクレアーゼ及びそのイソシゾマーは、無傷であることを必要としないそれらのアセンブリー反応のために使用され得る。
2塩基突出部は、16×16行列データ表を生成し、3塩基突出部は、64×64行列データ表を生成し、4塩基突出部は、256×256行列データ表を生成し、5塩基突出部は、1024×1024行列データ表を生成し、6塩基突出部は、4096×4096行列データ表を生成する。IIS型制限エンドヌクレアーゼを使用した突出部の長さの上限は、5、6、7、又は8塩基長であり得る。USERなどのニッキング剤の場合、突出部内の塩基数は、ウラシルの位置決めに基づいて、ユーザが望む程度であってもよい。最適化されたワトソン・クリック対の突出部のセットには、正しい相補的パートナーと効率的にライゲーションすることができ、回文構造ではなく、セット内で固有である、突出部対が含まれている。他の突出部対は、好ましくは、個々の突出部が、1つ以上のミスマッチ、好ましくは1つを超えないミスマッチを含む突出部パートナーとライゲーション生成物を形成しない限り、許容される。良好なライゲーション忠実度を有する突出部の最高忠実度セットが、任意の選択された数のジャンクション(例えば、10ジャンクション、12ジャンクション、15ジャンクション、20ジャンクション等)について、コンピュータによって提供され得る。ジャンクションの数が多いほど、突出部対のセットの平均最大ライゲーション忠実度が低くなる。
一部の実施形態において、突出部は、代替酵素、例えば、ニッキング剤、例えば、USER(例えば、US7,435,572も参照されたい。)、又はDNA断片中の突出部を生成するのに好適なEndoMS、並びにDNA及びRNA中の突出部に好適なアルゴノート及びCas切断酵素を使用して生成され、これらの酵素は、ガイドDNA又はRNAを利用する。
本方法の実施形態は、切断酵素及び1つ以上のリガーゼの特定の組合せについての切断、融解、アニーリング、及びライゲーションの正味の効果の尺度に基づいて、これらの特徴の一部又は全てがユーザによって提供される所与のサイクリング条件のセット下で、最適化された突出部のセットを提供する計算出力を、ユーザが受け取ることを可能にする。次いで、出力は、各突出部対合に対して相対的なライゲーション効率及び/又はライゲーション忠実度値を提供することができる。
計算出力は、追加的に、温度、ハイブリダイゼーションの時間、ライゲーションのためのサイクリング条件、及び緩衝液のうちの少なくとも1つを詳述する所望の全体ライゲーション忠実度を得るために、アセンブリーを実行するための最適化されたプロトコールを、ユーザに提供し得る。
計算出力は、以下:(1)ジャンクション部位が強調表示されたアセンブリーされた配列全体、(2)断片上に示された個々の切断部位を有する入力断片のマップであって、断片アセンブリーが所望の生成物を形成するための最適な突出部のセットを得るために切断部位のセットが計算的に決定されている、入力断片のマップ、(3)ユーザ指定条件又はコンピュータ最適化実験条件における、選択された突出部のライゲーション忠実度の行列、並びに(4)自動オリゴヌクレオチド合成を指示するための、選択されたIIS型制限エンドヌクレアーゼ認識配列及び突出部配列プラス任意の追加の標的断片配列を含むプライマーシーケンサーのセット、のうちの1つ以上を含むグラフィカルな特徴出力を含んでもよい。プライマー配列のセットは、DNA合成装置にそのようなプライマーを作製させるように指示するための受け取り位置に電子的に転送されてもよい。
一実施形態では、ユーザが選択した突出部のセットの結果は、ユーザが効率的かつ正確なハイブリダイゼーションを達成するために好ましい条件のセットを提供することによって最適化することができる。任意の配列の短いリンカーは、多数の断片(例えば、≧20)にとって好ましい。様々な条件下で突出部最適値を提供する複数のデータセットにアクセスしてもよい。そのようなアッセイは、選択された突出部のセットについて可能な限り最高の忠実度及び効率を与える酵素のセット及び反応条件をユーザが選択することを可能にする。
別の実施形態において、部分的な突出部対の反応パラメータ及びデータセットが、ユーザによって選択されてもよく、部分的突出部反応パラメータ及び任意選択的にデータセットが、コンピュータによって選択されて、所望の数のライゲーション断片を作製するために可能な最適なライゲーション効率及び忠実度が提供されてもよい。例えば、二本鎖核酸断片の16断片を連結するために、合計15のジャンクション対が必要とされ得る。ここで、6つの突出部対がユーザによって選択され、残りの突出部は、リガーゼの選択を含む好ましい実験条件を任意選択的に伴って、コンピュータ生成出力で提供される。次いで、ユーザは、制限酵素、リガーゼなどの任意選択的な反応成分の選択、並びに他の反応条件、例えば、15メンバーの最終セットに対して可能な限り高いライゲーション忠実度及び効率を提供するサイクリング時間及び温度などの任意選択的な選択を用いて、追加の最適化された9つの突出部対を受け取ることができる。
別の実施形態では、ユーザは、最適化された突出部のセットを使用して、高忠実度で効率的なアセンブリーに適した断片に分割するために、遺伝子、遺伝子経路、プラスミド又は染色体配列を、コンピュータに入力する。ユーザは、標的核酸及び所望の断片数を特定してもよい。ウェブツール又はグラフィカルインターフェースは、ライゲーションされると無傷のジャンクションを形成する関連突出部のハイブリダイゼーションパラメータを満たす最適なジャンクションでの所望の数の断片の配列を提供し、したがって、ユーザが所望の方法で標的ポリヌクレオチドを作製することを可能にする。ユーザが最小の許容される忠実度を追加的に特定する場合、所望の数の断片についての配列の仕様は変更される場合があり、実際、ユーザに提供される断片の数は、特定された最小の許容される忠実度を提供するジャンクションで可能な最大数の配列を提供するように変更され得る。
別の実施形態において、ユーザが、標的配列を提供してもよく、さらに、所定の突出部を有する構成断片の設計に含まれる一部のジャンクション、及び反応条件の一部のサブセット(又は全ての反応条件)を特定してもよい。コンピュータは、最良の追加のジャンクション及び/又は反応条件を供給する効率的なライゲーションのための突出部のリストを、ユーザに提供する。
アセンブリーは、反応に使用される全ての種類の酵素活性(例えば、切断酵素及びライゲーション酵素)又は最適な切断/融解温度と最適なアニーリング/ライゲーション温度との間で変化する任意の数のサイクリング条件のいずれかに適した単一の温度で進行する。そのように、突出部が生成され、1つのポットに密封され、多断片が1つの実験で一緒に連結され得る。
コンピュータプログラム及び汎用コンピュータシステムを使用した核酸アセンブリーの実装
本明細書に記載されている様々なシステムの様々な構成要素は、汎用コンピュータシステムを使用してコンピュータプログラムとして実装されてもよい。そのようなコンピュータシステムは、典型的には、ユーザに情報を表示する出力デバイスと、ユーザからの入力を受け取る入力デバイスとの両方に接続されたメインユニットを含む。本体ユニットは、一般に、相互接続機構を介してメモリシステムに接続されたプロセッサを含む。また入力デバイス及び出力デバイスが、相互接続機構を介してプロセッサ及びメモリシステムに接続されている。
1つ以上の出力デバイスが、コンピュータシステムに接続されてもよい。例示的な出力デバイスとしては、液晶ディスプレイ(LCD)、プラズマディスプレイ、カソード光線管、ビデオ投影システム、及び他のビデオ出力デバイス、プリンタ、並びにネットワークインターフェースデバイス、ケーブルモデム、及びディスク若しくはテープ等のストレージデバイスを含む、低又は高帯域幅のネットワークを介して通信するためのデバイスが挙げられるが、これらに限定されない。1つ以上の入力デバイスが、コンピュータシステムに接続されてもよい。例示的な入力デバイスとしては、キーボード、キーパッド、トラックボール、マウス、ペン、タブレット、タッチスクリーン、カメラ、通信デバイス、及びデータ入力デバイスが挙げられるが、これらに限定されない。本発明は、コンピュータシステムと組み合わせて使用される特定の入力若しくは出力デバイス又は本明細書に記載されている入力若しくは出力デバイスに限定されない。
コンピュータシステムは、コンピュータプログラミング言語、スクリプト言語、又はアセンブリー言語を使用してプログラム可能な汎用コンピュータシステムであってもよい。コンピュータシステムはまた、特別にプログラムされた、特別目的のハードウェアであってもよい。汎用コンピュータシステムにおいて、プロセッサは、典型的には、市販のプロセッサである。また汎用コンピュータは、他のコンピュータプログラムの実行を制御し、スケジューリング、デバッグ、入/出力制御、アカウンティング、コンパイル、ストレージ割り当て、データ管理及びメモリ管理、並びに通信制御及び関連サービスを提供するオペレーティングシステムを典型的に有する。コンピュータシステムは、ローカルネットワーク、及び/又はインターネットなどのワイドエリアネットワークに接続されてもよい。接続されたネットワークは、コンピュータ上で実行するためのコンピュータシステムプログラム命令、ビデオデータ、静止画像データ、又はオーディオデータなどのメディアデータ、メタデータ、メディア構成物のレビュー及び承認情報、メディアアノテーション、及び他のデータへと転送されてもよく、又はそれらから転送されてもよい。
メモリシステムは、典型的には、コンピュータ読み取り可能な媒体を含む。媒体は、揮発性であっても不揮発性であってもよく、書き込み可能であっても書き込み不可であってもよく、及び/又は書き換え可能であっても書き換え不可であってもよい。メモリシステムは、典型的には、バイナリ形式でデータを保存する。そのようなデータは、マイクロプロセッサによって実行されるアプリケーションプログラム、又はアプリケーションプログラムによって処理されるディスクに保存される情報を定義してもよい。本発明は、特定のメモリシステムに限定されるものではない。時間ベースの媒体は、ローカルの又はネットワークに接続されたディスクのアレイを含み得る磁気、光学、又はソリッドステートドライブに保存されてもよく、それらから入力されてもよい。
本明細書に記載されているものなどのシステムは、ソフトウェア、ハードウェア、ファームウェア、又は3つの組合せで実装され得る。システムの様々な要素は、個別に又は組合せで、コンピュータプログラム命令がコンピュータによって実行されるためにコンピュータ読み取り可能な媒体に保存される、又は接続されたローカルエリア若しくはワイドエリアネットワークを介してコンピュータシステムに転送される、1つ以上のコンピュータプログラム製品として、実装されてもよい。プロセスの様々なステップは、そのようなコンピュータプログラム命令を実行するコンピュータによって実行され得る。コンピュータシステムは、マルチプロセッサコンピュータシステムであってもよく、又はコンピュータネットワークを介して接続された複数のコンピュータを含んでいてもよい。本明細書に記載された構成要素は、コンピュータプログラムの別個のモジュールであってもよく、又は別個のコンピュータ上で動作可能な別個のコンピュータプログラムであってもよい。これらの構成要素によって生成されたデータは、メモリストレージシステムに保存されてもよく、又はキャリア信号などの様々な通信媒体によってコンピュータシステム間で伝送されてもよい。
ポリヌクレオチド規則的アセンブリーの使用
改善された方法、組成物及びキットは、いくつかの診断及び医学的状況において使用されてもよい。一部の例を以下に示す。
実施例5は、新規ビリオン配列をRNAへの転写へ遺伝子操作することができ、ワクチン開発のための潜在的な基盤として試験することができるコロナウイルスの構成要素配列について多断片アセンブリー方法の使用を記載している。図14及び図15は、CarT細胞療法及びファージ抗生物質の設計のための、本明細書に記載の改善された多断片アセンブリーを示す。これらの方法は、ワンポット反応で25~50個の断片の大きなアレイを作製することに依拠する。次いでこれらのアレイを使用して、単一のワンポット反応で複数の遺伝子を標的としてもよい。代替的に、単一の遺伝子を複数回及び/又は複数の位置で標的化して、相同性指向修復を介して編集の効率を高めてもよい。アレイの別の用途は、例えば、代謝経路のための遺伝子経路を作製又は改変することである。この代謝経路を、次いで、dcas9によって制御させ、オフにすることが望ましいそれらの遺伝子に結合させてもよい。バイオセンサアレイを、例えば、マルチパソジェンセンサシステムにおいて広範囲の核酸を一度に感知するように、(例えば、Cas13を使用して)設計してもよい。
上に列挙した適用において、コンピュータによって提供され、図9A~図9Dに要約されている全体的な設計ルールは、25~50個の断片アレイをほぼ瞬時に作成することを容易にする。コンピュータツールを使用して、相対的に低い忠実度を有する断片のアレイを作成することが可能である(hlig3を参照されたい。)。hlig3は、含まれるgRNA鋳型配列の数が、ミスマッチライゲーションを介する制御された欠失によって変化したライブラリーの作製を容易にする。
小さい断片(例えば、30~70ヌクレオチド)を利用するアレイの場合、これらは、ライゲーションのみに依存する後続のアセンブリーに最適に作用する突出部についてのコンピュータツールからの情報を使用して、オリゴヌクレオチドファウンドリーによって容易に合成することができる。設計者は、正しくアセンブリーされた断片の最適な頻度及びアセンブリーされた断片の所望の忠実度について、最適なリガーゼ及び好ましい突出部の長さを、単一ステップの反応で選択することができる。
本明細書で言及されている全ての刊行物、特許、及び特許出願は、各個々の刊行物、特許又は特許出願が、米国仮特許出願第63/125,530号(2020年12月15日出願);米国仮特許出願第63/213,807号(2021年6月23日出願);及び米国仮特許出願第63/213,859号(2021年6月23日出願)を含め、参照により組み込まれて具体的かつ個別に示されているかのように、参照により本明細書に組み込む。
[実施例1]
異なる4塩基配列によって引き起こされる異なるリガーゼについてのライゲーションの頻度の差
全ての酵素(hLig3を除く)及び緩衝液を、New England Biolabs(NEB、Ipswich、MA)から得た。T4 DNAリガーゼ反応緩衝液(1×)は、50mMのTris-HCl(pH7.5)、10mMのMgCl、1mMのATP、10mMのDTTである。NEBNext(登録商標)クイックライゲーション反応緩衝液(1×)は、25℃で66mMのTris pH7.6、10mMのMgCl、1mMのDTT、1mMのATP、6%のポリエチレングリコール(PEG6000)である。NEBuffer2(1×)は、10mMのTris-HCl(pH7.9)、50mMのNaCl、10mMのMgCl、1mMのDTTである。CutSmart(登録商標)緩衝液(1×)は、20mMのTris-アセテート(pH7.9)、50mMの酢酸カリウム、10mMの酢酸マグネシウム、100μg/mlのBSAである。ThermoPol(登録商標)緩衝液は、20mMのTris-HCl(pH8.8)、10mMの(NHSO、10mMのKCl、2mMのMgSO、0.1%のTriton-X-100である。標準Taqポリメラーゼ緩衝液は、10mMのTris-HCl(pH8.3)、50mMのKCl、1.5mMのMgClである。オリゴヌクレオチド及びライゲーションライブラリーの全てのカラムクリーンアップは、オリゴヌクレオチドクリーンアッププロトコールに従って、Monarch(登録商標)PCR&DNA Cleanup Kitカラム(New England Biolabs、Ipswich、MA)を使用して行った。オリゴヌクレオチドの純度及びサイジングを、Agilent Bioanalyzer(登録商標)2100(Agilent、Santa Clara CA)を使用して、DNA1000アッセイを用いて標準的なプロトコールに従って行った。
hLig3ベータ遺伝子をBiomatik(Ontario、Canada)によって合成し、N末端Hisタグを有するフレーム内のpET28プラスミドにサブクローニングした。構築物を、T7 Express lysY/I E.コリ細胞(New England Biolabs、Ipswich、MA)で発現させた。
4塩基突出部ライゲーション忠実度アッセイの基質は、WO2020/081768及びPotapovら(2018)ACS Synthetic Biology、7、2665-2674に従って作製した。簡潔に述べると、初期PAGE精製基質前駆体オリゴヌクレオチドは、5’末端領域、ランダム化4塩基領域、BsaI-HFv2結合部位、定常領域、合成偏りの対照として内部6塩基ランダム化領域、及びPacific Biosciences SMRT配列決定用のSMRTベル配列決定アダプタに対応する領域を含有していた。前駆体オリゴヌクレオチドを、前述のように伸長させ、Monarch PCR&DNA Cleanup Kitを使用して精製した。伸長させたDNAをBsaI-HFv2を使用して切断して、4塩基突出部を生成した。
各ライゲーション反応について、基質(100nM)を、1×T4 DNAリガーゼ緩衝液(又はPEG含有と記されている、反応用NEBNext(登録商標)Quick Ligation反応緩衝液)中のDNAリガーゼ(終濃度1.75μMのT4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1 DNAリガーゼ、又はhLig3のいずれか)と50μLの全反応体積で組み合わせ、25℃で1時間インキュベートした。反応を、2.5μLのリガーゼ反応クエンチ(500mM EDTA+2.5%v/v プロテイナーゼK)でクエンチし、試料を、37℃へ30分間加熱して、プロテイナーゼK DNAによりリガーゼ切断させた。次いで、反応物を、Monarch PCR&DNA Cleanup Kitキットを使用して、オリゴヌクレオチドクリーンアッププロトコールに従って精製した。各ライゲーションを最小限の複製で実施し、ライゲーション収率をAgilent Bioanalyzer(DNA1000)によって決定し、エラーを一標準偏差として報告した。ライゲーションライブラリーを、37℃で1時間インキュベートした、50μL体積の1×標準Taqポリメラーゼ緩衝液中で、エキソヌクレアーゼIII(50U)及びエキソヌクレアーゼVII(5U)を用いて処理した。ライブラリーを、Monarch PCR&DNA Cleanupキット、第2の洗浄工程を含むオリゴヌクレオチドクリーンアッププロトコールを使用して精製し、次いで、Agilent Bioanalyzer(DNA1000)によって定量した。最終ライブラリーの典型的な濃度は、0.5~2ng/μLの間であった。各リガーゼについて2つの反復実験を行った。配列決定及び配列決定データの分析は、WO2020/081768及びPotapovら(2018)Nucleic Acids Research、46、e79-e79において先に記載されているように行った。ライゲーション生成物の上部及び下部の鎖のコンセンサス配列を生成し、各鎖における実際の突出部配列を抽出した。ライゲーション生成物中で観察された全ての突出部対の頻度を集計し、それを使用して結果を導出した。反復からのデータを組み合わせた後に、その後の分析を行った。各実験からの完全な結果を図3Ai/3Aii-3Hi/3Hiiに示す。
末端連結におけるDNAリガーゼの忠実度プロファイル及び偏りプロファイルを決定するために、各DNAリガーゼ(T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1 DNAリガーゼ、及びhLig3)を、縮退した5’-4塩基突出部末端を含有するDNAヘアピン基質と混合することによって、配列決定ライブラリーを調製し、各リガーゼについて、単一反応においてあらゆる可能な配列コンテキストを観察することを可能にした(Potapovら(2018)Nucleic Acids Research、46、e79-e79)。リガーゼは、短い付着末端の迅速なライゲーションを可能にするために、DNA基質と比較して大過剰で存在させた。ライゲーション反応の後、ライブラリーを、PacBio SMRT配列決定を使用して配列決定した。ライゲーション事象の総数、正しい(ワトソン-クリック)ライゲーションvs誤った(ミスマッチ)ライゲーションの割合、及び得られたライゲーション生成物の収率を含む各リガーゼについての多重ライゲーションデータの要約を表2に示す。
Figure 2024500105000003
DNAヘアピン基質の集団が、複雑な平衡系を提示し、ライゲーションは、適合性のある末端を見つける必要があったため、競合するアニーリングパートナーが、低効率でライゲーションするアニーリングされた対合の存在によって、ライゲーション収率を制限していることが予測された。1時間でのライブラリーライゲーション収率は、試験したリガーゼ間で有意に異なった。T4 DNAリガーゼ、T3 DNAリガーゼ、及びhLig3は全て、55%を超えるライゲーション生成物をもたらし、概して、最も効率的な末端連結リガーゼの部類である。PBCV-1リガーゼは、やや低い収率(50%)を有し、それほど強固ではない末端連結活性を反映していた。T7 DNAリガーゼは、はるかに低い収率を有し、20%のライゲーション生成物にしか到達しなかった。
多重ライゲーションデータは、好ましい突出部配列におけるライゲーション配列偏りを明らかにした。本アッセイにおいて、各突出部についてのリードの数は、そのライゲーション効率のプロキシであった、各リガーゼについての配列偏りは、全てのライゲーション生成物にわたって現れる各突出部の相対的頻度から推定された。変動のある全体偏り度、及び本質的に異なる好ましい配列が、リガーゼ間で検出された(図4A)。T7 DNAリガーゼは、最も高い配列偏り度を示した。試験した他の全てのリガーゼは、ライゲーション頻度のはるかに近接した分布を有したが、データポイントが平均の周りにどれほど緊密にクラスター化されているかにおいて相違があった。T4 DNAリガーゼ及びhLig3の両方が、T7 DNAリガーゼと比較して2分の1倍より小さい値の範囲で最小量の偏りを示した。PBCV-1及びT3は、類似の平均ライゲーション頻度を有したが、わずかに大きい範囲の観察されたライゲーション頻度を有した。
個々の突出部のライゲーション頻度を分析した場合、好ましい又は好ましくない特異的配列は、酵素間で変動した。ほとんどのリガーゼについて、より高いGC含有量の突出部をより効率的なライゲーションに配置する弱い全体的な傾向が観察された(図4A)。高いGC対合を好む偏りは、ワトソン-クリックライゲーション及び少なくとも1つのミスマッチを含む対合の両方について見られ、両方の場合において、より強くアニーリングされた配列の優先性が示された。T7 DNAリガーゼは、この偏りに対して最も脆弱であり、低いGC突出部(0%又は25%のGC含有量)はめったにライゲーションされず、高いGC含有量(50%超)の場合は、ライゲーションされた生成物の96%を占めた。これらのデータは、T7 DNAリガーゼについて、末端連結ライゲーション効率が突出部のGC含有量によって支配されることを示す。T4 DNAリガーゼ、T3 DNAリガーゼ、及びPBCV-1は、それほど顕著ではなかったが、依然としてGC含有量への依存性を観察することができた。逆に、hLig3ライゲーションは、GC含有量とは無関係であるようである。しかしながら、明らかに、GC含有量は、偏りの差に寄与する唯一の要因ではない。各個々の酵素の実験的複製は、好ましい突出部配列において一貫しているが、異なるDNAリガーゼ間の配列優先性の比較は、GC含有量又は他の単純な傾向によっては容易に説明することができない相加的な複雑な差異を明らかにする。
正しく塩基対合したライゲーションパートナーの大部分は、T4 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1リガーゼ、及びhLig3について、類似の全体的頻度で観察された。TNNA配列を有する突出部は、非効率的にライゲーションし、中央値と比較して低下していた(表2)。対応するANNT突出部は、基質プールに同じ割合で存在すると予測されるにもかかわらず、セット内の他の突出部と比較して低下した発生率を示さなかった。データは、両方が5’-Tを含有する突出部対のライゲーションに根本的な非効率性があることを示した。さらに、5’-Cを含有する突出部は、hlig3によって、大幅に低下した効率でライゲーションした(図3Aii)。
ここで検討したリガーゼは、T7 DNAリガーゼとの極端な忠実度を示し、最も高い忠実度(89%の正しいライゲーション生成物)を示したが、hLig3は最も低い忠実度(56%の正しいライゲーション生成物)を有した。T4 DNAリガーゼは、中程度の忠実度(72%の正しいライゲーション生成物)を示した。T4 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1リガーゼ及びhLig3は、個々の突出部配列について広範囲の忠実度を有し、一部の突出部は、ミスマッチライゲーション事象が非常に少なく、他は、ミスマッチのライゲーションが頻繁であった(図4b)。多くの突出部では、可能性のある全てのパートナーを提示しても、ライゲーション生成物は、ほとんどワトソン・クリックパートナーのみであった。各リガーゼによって許容される特異的ミスマッチ塩基対が生じた場合、これらは、突出部の中間(「中間」)ではなく、5’末端ヌクレオチド(「端部」)においてより多く見られた。一部の頻繁なミスマッチ、特にG:Tミスマッチは、全ての試験されたリガーゼの中でよく見られたが、各リガーゼのライゲーション生成物の間で違ったミスマッチ対合も観察された。
例えば、T4 DNAリガーゼに全ての可能なライゲーションパートナーを提示した場合、いくつかの突出部が、ライゲーション生成物の90%超において、ワトソン・クリックパートナーと対合した(例えば、AAAA、AAGA、ACAA、GAAA)。他の突出部は、少なくとも1つのミスマッチを含むパートナーにライゲーションした;いくつかの突出部は、時間の60%を超えて、ミスマッチを含むパートナーと対合した(例えば、GGCG、GGCC、GGGC、GGGG)。
全体忠実度が72%のT4 DNAリガーゼは、0%のGC含有量を有する突出部について90%の忠実度中央値を有し、GC含有量の各増分増加に伴って平均忠実度が低下し、最終的には、100%のGC含有量を有する突出部に対する52%の忠実度に低下した(図5A)。全体の28%のミスマッチを含有する全てのライゲーション生成物のうち、98%のライゲーション生成物が、単一のミスマッチのみを有した。4塩基突出部の端部の位置(N1)におけるミスマッチライゲーションは、G:T及びT:Gミスマッチが優勢であり、端部における全てのミスマッチライゲーションの65%を占めた。突出部の中間位置(N2及びN3)におけるミスマッチの存在は、T4 DNAリガーゼによってそれほど許容されなかったが、依然としてG:Tミスマッチが優勢であった。
対照的に、hLig3は、広範囲のライゲーション忠実度を示した。ほとんどの突出部は、50%未満の忠実度でライゲーションし、いくつかの突出部(TAAG、AATA、TTAC、CCAA)は、80%超の忠実度でライゲーションした。GC含有量の影響は、hLig3についてはより弱く、0%のGC含有量を有する突出部に対して平均忠実度は72%であり、100%のGC含有量を有する突出部に対して平均忠実度は32%であった(図5C)。ライゲーション生成物の半数超(56%)は、ミスマッチ塩基対を含有する。hLig3は、単一塩基対超のミスマッチを伴うミスマッチ生成物の有意な蓄積を有し、ライゲーション生成物の8%が2つのミスマッチを含む。これらの二重ミスマッチのうち、大部分(97%)は、端部の位置に少なくとも1つのミスマッチを含み、典型的には、少なくとも1つのG:Tミスマッチを含む。加えて、G:T及びT:Gミスマッチは十分に許容されたが、hLig3、T3 DNAリガーゼ、及びPBCV-1リガーゼはまた、端部及び中間の位置の両方で、プリン:プリンミスマッチにより寛容であり、G:A及びG:GのミスマッチがG:Tのミスマッチとほぼ同じ頻度でライゲーションされた。
対照的に、T7 DNAリガーゼは、ライゲーション忠実度のより狭い範囲を有し、80%未満の忠実度でライゲーションしたのは少数の突出部のみであった。T7 DNAリガーゼは、GC含有量にかかわらず、86%を超える平均忠実度を示した。T7 DNAリガーゼは、ミスマッチライゲーションに対する全体的な許容度が低く、ライゲーション生成物の12%のみがミスマッチを含む。T4 DNAリガーゼと同様に、単一塩基対ミスマッチが、ほぼ全て(98%)のT7 DNAリガーゼミスマッチライゲーション生成物を占め、優勢なミスマッチは、端部位置でのG:T及びT:G、並びに4塩基配列の中間位置でのG:Tである。
[実施例2]
Golden Gateアセンブリーを設計するためのバイオインフォマティックツール
図9Aのライゲーション忠実度を最適化するために突出部を決定するためのコンピュータ設計ツールは、ライゲーション忠実度ツールを一緒に形成する3つの構成要素、つまり、リガーゼ忠実度ビューア(図9Bを参照のこと。)、GetSetビューア(図9Cを参照のこと。)、及びSplitSetインターフェース(図9Dを参照のこと。)を有する(例えば、WO2020/081768を参照のこと。)。3つのコンピュータ設計ツールは全て、単一のリガーゼ(T4 DNAリガーゼ)に依拠している。ここで得られたデータは、ライゲーション条件のメニューの下で優先性の選択を提供することによって、これら3つのツールに追加される。突出部の選択に影響を与える異なる塩基配列優先性を有するリガーゼを選択することができる。この追加データの利点は、多断片の規則的アセンブリーのためのツールの精度を向上させる。データは4塩基突出部から取得されるが、2塩基、3塩基、5塩基の突出部についても簡単に繰り返すことができる。
データはまた、所与のユーザ供給突出部のセットに対するアセンブリー忠実度の洗練された推定値をユーザに提供し、これが望ましくない場合、ミスマッチライゲーションの可能性が高い、問題のある突出部の対合を同定する。
GetSetツールは、ユーザが、自動化された突出部選択を使用して、最大アセンブリー忠実度で突出部セットを生成することを可能にする。GetSetは、突出部の数、突出部の長さ、及びライゲーション条件の入力基準に一致する高忠実度突出部セットを戻す。ユーザは、結果に含めるか結果から除外する必要がある突出部配列を指定することができる。重要なことに、GetSetは事前に計算された結果を使用せず、代わりに確率的検索アルゴリズムを使用して、デノボ高忠実度突出部セットを同定する。結果として、確率的検索アルゴリズムは、同じ入力基準から異なる推奨突出部セットを返すことができ、つまり、検索を繰り返すことは、類似の予測される忠実度を有する異なるジャンクションをもたらし得る。したがって、以前のGetSet検索結果を保存してリコールする機能が含まれている。一例として、GetSetツールを使用して、植物合成生物学で使用される標準的な突出部セットを拡張した:セットサイズは、11個の突出部から20個の突出部に増やすことができ、予測されるアセンブリー忠実度は81%~80%にわずかに低下したに過ぎなかった。
SplitSetツールは、所望の標的DNA配列から高忠実度アセンブリー断片を設計する。このツールを使用するために、ユーザは、DNA配列、所望の数の断片、ライゲーション条件、及び融合部位のおよその検索ウィンドウを入力する(デフォルトでは、プログラムは等間隔の検索間隔を選択する。)。SplitSetツールは、選択したパラメータ内の最高忠実度のジャンクションセットで入力DNA配列を分割する。さらに、ユーザは、既存のモジュラークローニングシステムとの互換性を確保するために特定の融合部位配列を除外したり、使用する必要がある部位を範囲に含めるために狭い検索ウィンドウを設定することによって固定部位を含めたりすることができる。
追加の機能には、アセンブリーに指向するためのIIS型制限酵素の選択に影響を与える可能性のある任意の内部部位の存在について断片をチェックすること、又はドメスティケーションを介してそのような内部部位を削除するようにユーザに警告することが含まれる。プログラムはまた、DNA断片のためのプライマーのセットを自動的に生成して、直接使用されるインサートのアンプリコン生成のため又はプレクローニング目的のためのいずれかに必要な隣接塩基及び認識部位を付加することができる。最後に、色分けされたグラフィカルな読み出し、最終的なアセンブリー配列、及びインサート間の各ジャンクションの説明を含む全アセンブリーを説明するレポートを生成することができる。
[実施例3]
Golden Gateアセンブリーにおけるアプラタキシン/5’デアデニラーゼ及びPEG
以下に規定されている表に記載された反応において、規則的アセンブリー反応は、プレクローニングされたDNA断片(各3nM)又はPCR断片(各3nM)、並びにT4 DNAリガーゼ緩衝液又はBlunt T/Aリガーゼ緩衝液(New England Biolabs、Ipswich、MA)中の示された量の制限酵素及びリガーゼからなる。アセンブリー反応を、3つの異なるライゲーションプロトコールのうちの1つを使用して、実施例3に記載されているようにインキュベートし、続いて、5分間の最終インキュベーションステップを60℃で行い、次いで、最終で4℃で保持した後、形質転換した。形質転換は、適切な増殖培地にプレーティングした50μlのコンピテントT7 Express化学的コンピテントE.コリ(New England Biolabs、Ipswich、MA)に加えた2μlの各アセンブリー反応物を用いて行い、37℃でインキュベートしてコロニーを形成させた。
正しくアセンブリーされた標的ポリヌクレオチドは、lacオペロンのカセット(約5kb)をコードしていたため、正しくアセンブリーされた断片の青色コロニーと、誤ったアセンブリーを含む白色コロニーとを、IPTG/Xgal/クロラムフェニコールプレート上で区別することができた。
概して、5’デアデニラーゼ酵素又はPEG600-6000の添加が、正しいアセンブリーの収率を増加させることが分かった。
Figure 2024500105000004
Figure 2024500105000005
Figure 2024500105000006
Figure 2024500105000007
[実施例4]
多断片アセンブリー忠実度に対する反応温度の影響の試験、及び52個の断片からのlacオペロンカセットのアセンブリー
2つの酵素混合物(制限エンドヌクレアーゼ及びリガーゼ)に依拠する多断片アセンブリーは、典型的に、DNAライゲーション効率を最大化するための16℃インキュベーションステップと、断片消化効率を最大化するための37~42℃インキュベーションステップとの間で交互に行われる、2ステップサイクリングプロトコールを用いる。より高い反応温度がDNAリガーゼの忠実度を改善することが示されているので、16℃インキュベーションの省略を試験して、多断片アセンブリーの忠実度への影響を決定した。37℃又は42℃における多断片アセンブリーエラーの頻度を、マルチプレックスハイスループットDNAシーケンシングアッセイで定量化し、結果を、37/16℃又は42/16℃の従来の熱サイクリングプロトコールを使用した反応と比較した。一定のインキュベーション温度で実施した反応を、低下したライゲーション効率を埋め合わせるために、16時間の長期間でインキュベーションした。結果は、16℃のインキュベーションステップが省略されたときに、ライゲーションエラーの頻度が2分の1倍未満に減少し、全てのミスマッチ対がより少ない頻度で現れることを示した。
多断片アセンブリー反応は、単一の温度インキュベーション(静的)を使用して、1反応あたり50個の断片を超えることができた。BsaI又はBsmBI制限エンドヌクレアーゼを使用するこの実施例では、従来の37/16℃又は42/16℃のサイクリング条件について、推定アセンブリー忠実度が、50断片で10%未満に低下したが、37℃又は42℃の静的インキュベーションプロトコールでは、50個を超える断片で、40%を超える精度でアセンブリーすることを可能にした。静的な37℃又は42℃の静的温度では、16℃のインキュベーションステップを省略することによって引き起こされる効率の損失を埋め合わせるために、より長いインキュベーション時間を用いた。
アセンブリー反応のミスマッチ頻度を、ヌクレオチドのミスペアに従ってグループ化した(A:A、A:C、A:G、C:C、C:T、G:G、G:T、T:T)。アセンブリー反応は、T4 DNAリガーゼを用いて、37℃でのBsaI-HFv2又は42℃でのBsmBI-v2のいずれかにより実施した。比較のために、T4 DNAリガーゼを用い、37℃及び16℃でのBsaI-HFv2又は42℃及び16℃でのBsmBI-v2のいずれかにより従来の熱サイクリングプロトコールを使用したアセンブリー反応のミスマッチ頻度を示す。BsaI-HF-v2(37℃)又はBsmBI-v2(42℃)を単一の温度で使用した場合のミスマッチ頻度は、サイクリングで観察されたよりも有意に低かった。
本明細書でなされた予測を試験するために、lacオペロンの4.9kbのカセットを、単一のアセンブリーラウンドにおける52個の構成要素パーツからのE.コリのデスティネーションベクターにクローニングした。重要なことに、ここで使用されるlacオペロンカセットシステムは、従来のクローニング反応を模倣したものであり、アセンブリー反応物をE.コリ細胞に形質転換させると、正しく又は誤ってアセンブリーされた構築物を保有するコロニーを容易に観察することができる。この試験系は、正しくアセンブリーされた生成物を保有する形質転換体と誤ってアセンブリーされた生成物を保有する形質転換体とを区別するための比色読み出しを提供する。
クロノゲンアッセイ
lacオペロンカセットを再構築するためのアセンブリー反応物を、化学的にコンピテントなE.コリ細胞に形質転換し、コロニー形成単位を、前述のように青色-白色のリバース表示によって、正しく又は誤ってアセンブリーされた構築物の保有としてスコア付けした。簡潔に説明すると、形質転換は、50μLのT7発現コンピテント細胞に添加した2μLの各アセンブリー反応物を使用して、製造業者の使用説明書に従って実施した。得られた成長物を、寒天プレート(1mg/mLのデキストロース、1mg/mLのMgCl2、30μg/mLのクロラムフェニコール、200μMのIPTG及び80μg/mLのX-galを添加したLuria-Bertaniブロス)にプレーティングした。重要なことに、正しくアセンブリーされた構築物を保有する形質転換体は、IPTG及びX-Galを含有する培地でインキュベーションした後に青色になるが、アセンブリーエラーを有する構築物を保有する形質転換体は白色コロニーを形成する。
52断片lacオペロンカセットアセンブリーの検証
プラスミドDNAを、Monarch Plasmid Miniprepキット(New England Biolabs、Ipswich、MA)を使用して、18個の青色コロニーから単離した。得られた構築物のうちの12個を、所望の挿入部位に隣接する増幅プライマーを用いたPCRにかけた。全ての構築物が、52個全ての断片のアセンブリーと一致するアンプリコンサイズをもたらし、青色コロニーが所望の数のインサートを含有することを示した。単離した構築物のうちの6個を、4.9kbの予測されるインサート全体を範囲に含む9つの異なる配列決定プライマーを使用して、配列決定した。6つの構築物は全て、52個のインサート全ての、規則的な、エラーのないアセンブリーを含んでいた。
52断片Lacアセンブリー:4塩基突出部(BsaI-HFv2):
突出部:
Figure 2024500105000008
(断片サイズ(塩基対):83、125、103、45、114、83、122、81、89、139、81、119、62、96、92、92、107、113、85、82、113、95、110、78、96、78、101、103、115、75、113、98、115、63、99、126、93、69、102、86、139、56、121、73、128、110、67、93、144、90、96、77)
観察された形質転換体の49%は、40%の予測された忠実度に近接して一致し、正しくアセンブリーされた構築物を保有していることが分かった。52個のインサート全てのアセンブリーが成功したことをさらに確認するために、コロニーのサブセットから構築物を精製し、PCR及びSanger配列決定によってインサートを分析した:追加のスクリーニングに供した全てのコロニーが、予想されるサイズ及び配列のインサートを有する構築物を保有していることが分かった。
プラスミドDNAを、Monarch Plasmid Miniprepキット(New England Biolabs、Ipswich、MA)を使用して、18個の青色コロニーから単離した。得られた構築物のうちの12個を、所望の挿入部位に隣接する増幅プライマーを用いたPCRにかけた。全ての構築物が、52個全ての断片のアセンブリーと一致するアンプリコンサイズをもたらし、青色コロニーが所望の数のインサートを含有することを示した。単離した構築物のうちの6個を、4.9kbの予測されるインサート全体を範囲に含む9つの異なる配列決定プライマーを使用して、配列決定した。6つの構築物は全て、52個のインサート全ての、規則的な、エラーのないアセンブリーを含んでいた。
まとめると、ファージT7 DNA及びlacオペロンカセットのワンステップアセンブリーは、現行のクローニング及び遺伝子合成方法によって取得及び操作することが困難な大型/複雑なDNA構築物のバリアントを作製及び遺伝子操作するための効率的かつ費用対効果の高い手段であることを実証する。ここで多断片アセンブリーは、標準的な分子生物学的技術を用いて容易に操作及び増殖される数十のより小さい構成要素パーツからの毒性及び/又は高分子量のDNA構築物の迅速なアセンブリーのために示される。これらの知見は、インビトロアセンブリーによって大きい構築物を生成するために必要な階層的アセンブリーラウンドの数を劇的に減少させ、単一の反応で全代謝経路、さらには小さいゲノムをアセンブリーするために利用することができる。
[実施例5]
40Kb T7ファージDNAの50個の断片からの迅速なワンポットDNA分子構築
酵素、緩衝液、及び培地は、特に明記しない限り、New England Biolabs、Ipswich、MA(NEB、Ipswich、MA)から得た。合成オリゴヌクレオチドは、Integrated DNA Technologies(IDT、Coralville、IA)又はSigma Aldrich(Sigma、St.Louis、MO)のいずれかから得た。ファージゲノムは、E.コリ細胞に毒性である多くの遺伝子を含むため、毒性遺伝子のサブクローニングを回避するために、ファージgDNAをPCR生成DNA断片から再構築した。この戦略を使用して、16個のサイレント変異をファージゲノムに導入し、ゲノム内の既存のBsmBI IIS型制限部位を除去した。これらの変更は、IIS型アセンブリーを可能にし、アセンブリー検証のためのマーカー変異として機能するという二重の目的を果たした。
多くの小断片から単一ラウンドで大きい標的をアセンブリーすることを、以下のように試験した。52個の断片を使用して、38kbのT7バクテリオファージゲノムを構築した。52個の異なる最適化された4塩基突出部を、SplitSetによってインタクトのT7ウイルスゲノムから選択し、選択された4塩基突出部のセットを、以下に特定される条件についてドロップダウンメニューにおけるライゲーション条件を使用して、GetSetによって検証した。
データ最適化アセンブル設計によって得られた突出部配列
52断片 T7ファージアセンブリー(BsmBI)
突出部:
Figure 2024500105000009
(断片サイズ(塩基対):779、918、512、465、810、756、731、820、690、759、813、743、644、1043、494、887、526、918、854、837、540、880、678、812、732、802、976、530、745、568、885、1130、148、1008、847、667、748、831、842、753、947、428、928、411、301、1383、424、1056、893、653、815、1735)
多断片アセンブリー反応
アセンブリー断片を、オリゴヌクレオチドプライマー(IDT)を用いPCR(Q5(登録商標)Hot-Start High-Fidelity 2X Master Mix(New England Biolabs、Ipswich、MA))によって生成し、Monarch PCR&DNAクリーンアップキットを使用して精製した。断片の品質をAgilent Bioanalyzer 2100を使用して評価し、各アセンブリー部分をQubit Assay(Thermo Fisher Scientific、Waltham、MA)を使用して定量化した。多断片アセンブリー反応(5μLの最終体積)を、1× T4 DNAリガーゼ緩衝液中、3nMの各DNA断片及び0.5μLの適切な多断片アセンブリーミックス(NEB(登録商標)Golden Gate Assembly Mix(New England Biolabs、Ipswich、MA)を用いて実施した。BsmBI-v2ミックスを使用して、T7ファージゲノムをアセンブリーした。T7バクテリオファージゲノムを作製する反応は、42℃と16℃との間の、各温度で5分間のサイクルを96サイクル行い、次いで、60℃で5分間インキュベーションし、最後に4℃で保持して、E.コリへの形質転換を行った。
プラークアッセイ
アセンブリーされたT7ファージゲノムを、25μLのコンピテント細胞に入れた1μLの反応混合物を使用して、製造業者の使用説明書に従い、NEB 10ベータ電気的コンピテント細胞に形質転換した。トランスフェクション混合物を、975μLのNEB 10-ベータ/安定成長培地中に回収し、次いで、3mLの50℃溶融トップ寒天(0.7%寒天を含有するLuriaブロス)と組み合わせた。得られたプレートを反転させ、E.コリ菌叢及びファージプラークが目で見えるまで、37℃で約5時間インキュベーションした。形質転換すると、アセンブリー反応物1ulあたり約20バクテリオファージプラークが得られ、ファージゲノムのアセンブリーが成功したことを示した。
52断片T7ファージgDNAアセンブリーの検証
いくつかのファージプラークを、プラークPCR及び制限酵素消化による追加のスクリーニングのために選択して、それらがT7ファージゲノムの完全かつ正しく規則化されたコピーを含有することを確かめた。追加のスクリーニングに供された全てのプラークは、予測されたゲノム配置を含み、意図されたサイレント変異を保有していた。プラークPCRは、共に40kbのファージゲノムにまたがる4セットの増幅プライマーを使用して実施した。アンプリコンの長さは、DNA 12000アッセイを使用して、Agilient Bioanalyzer 2100によって解明した。5つのファージプラークからのアンプリコンを、NdeIで制限酵素消化した後の又は未消化の親wt T7ファージゲノムと比較した。いずれの場合も、ファージプラークは、親wt T7 gDNAと同一のパターンを生成した。アセンブリーされたゲノムは、天然のBsmBI制限部位を除去する所望のサイレント変異を保有しており、観察されたプラークが、BsmBIを用いた親T7ファージゲノム及びプラークのアンプリコン消化による親T7ファージ gDNAからのキャリーオーバー混入の結果ではないことが確認された。親T7ファージゲノムからのアンプリコンをBsmBIによって消化すると、予測されるサイズのバンドを生じたが、アセンブリーされたファージゲノムからのアンプリコンは、BsmBIによる切断に対して不活性であった。
さらに、観察されたファージプラークが、細胞DNA修復機構によるE.コリ内のDNA断片のアセンブリーの結果ではなく、インビトロアセンブリーの結果であることを確証するために、T4 DNAリガーゼを欠く対照反応を行ったが、これらの対照反応の形質転換時にファージプラークは観察されなかった。これらの結果は、高いストリンジェンシースクリーニングを使用することにより、データ最適化アセンブリー設計を使用して、規則的アセンブリー条件下で、50個を超えるDNA断片の迅速なアセンブリーが可能であることを実証する。
高温アセンブリープロトコールのバリエーションは、感染性ファージプラークを作製するために必要ではないことに留意されたい。これは、T7ファージゲノムの不適切にアセンブリーされたバリアントは、生存可能なファージを生成する可能性が低く、したがって、誤ってアセンブリーされた生成物からのバックグラウンドが存在しないため、プラーク形成アッセイがより厳格に選択されていることに起因すると推測される。これは、サイクリングが使用された52個の断片からのlacオペロンカセット試験系の別の成功したアセンブリーとは対照的である。まとめると、これらの結果は、ファージゲノムの迅速なアセンブリーを実証し、ここで開発された方法が他の大規模及び/又は複雑なDNA標的に適用され得ることを示唆する。
Figure 2024500105000010
Figure 2024500105000011
突出部は、BsaI-HFv2、BsmBI又はBspQIを用いたデータを使用して生成した。
以下は、表8で使用される突出部である。
ここで突出部は、5’から3’方向に書かれ、リン酸塩は省略されている。
24断片Lacアセンブリー:4塩基突出部(BsaI-HFv2;BsmBI):
突出部:
Figure 2024500105000012
(断片サイズ(塩基対):118、222、222、199、137、217、197、244、293、173、127、208、287、310、291、259、176、217、135、176、184、133、203、119)
24断片T4ファージアセンブリー(BsmBI):
突出部:
Figure 2024500105000013
(断片サイズ:8kb)
24断片T4ファージアセンブリー(BsmBI):
突出部:
Figure 2024500105000014
(断片サイズ(塩基対):4631、9473、7031、7465、10181、1595、8807、3851、4152、10945、11254、7290、1680、10213、7152、6898、7162、7104、6967、6827、8052、8947、4304、7018)
30断片万能突出部セット(任意の4カッター):
突出部:
Figure 2024500105000015
52断片T7ファージアセンブリー(BsmBI)
突出部:
Figure 2024500105000016
(断片サイズ(塩基対):779、918、512、465、810、756、731、820、690、759、813、743、644、1043、494、887、526、918、854、837、540、880、678、812、732、802、976、530、745、568、885、1130、148、1008、847、667、748、831、842、753、947、428、928、411、301、1383、424、1056、893、653、815、1735)
52断片Lacアセンブリー:4塩基突出部(BsaI-HFv2):
突出部:
Figure 2024500105000017
(断片サイズ(塩基対):83、125、103、45、114、83、122、81、89、139、81、119、62、96、92、92、107、113、85、82、113、95、110、78、96、78、101、103、115、75、113、98、115、63、99、126、93、69、102、86、139、56、121、73、128、110、67、93、144、90、96、77)
100断片T4ファージアセンブリー(BsmBI):
突出部:
Figure 2024500105000018
(断片サイズ(塩基対):395、383、424、367、451、506、287、411、352、355、419、357、519、208、448、379、412、380、422、475、337、481、242、537、320、450、522、149、562、329、312、567、389、328、456、301、390、479、282、402、494、340、450、287、569、380、396、334、390、412、295、487、199、627、290、557、382、409、296、418、906、143、193、296、436、412、465、295、511、312、341、369、448、451、421、297、380、425、479、150、679、320、356、495、223、562、399、319、317、268、628、435、368、355、451、308、555、336、357、1074)
[実施例6]
コロナウイルスなどの研究及びワクチン開発のためのウイルスゲノムの合成及び遺伝子操作
インビトロライゲーションに依存する逆遺伝子系は、研究目的及びワクチン開発努力のためにRNAウイルスのバリアントを生成する比較的高速/効率的な方法を研究者に提供する。この方法論は、いくつかのウイルスを操作するためには機能してきたが、コロナウイルスを含む多くの高価値標的に対しては、(いくつかの試みにもかかわらず)未だうまく適用されていない。一部のウイルスゲノムのサイズが大きく、本質的に毒性/複製性があることにより、従来の技術によるE.コリ細胞内のウイルスゲノムDNAの維持が妨げられている可能性が高い。しかしながら、多くのパーツからウイルスゲノムを効率的にアセンブリーすることは、本明細書に記載の方法を使用して達成することができる。有毒ウイルスゲノムは、E.コリ細胞内での操作を容易にするために小さい断片に細分化することができ、数時間でのウイルスcDNAのワンチューブアセンブリーを可能にする。一例として、以下では、12断片、24断片、及び50断片の線形ウイルスゲノムアセンブリー(Genbank ID:NC_045512、重症急性呼吸器症候群コロナウイルス2単離株 武漢-Hu-1、完全ゲノム由来)の設計を実証する。これらの断片は、挿入部位で選択された制限エンドヌクレアーゼの認識配列を有するプラスミドに含有されてもよい。例えば、制限エンドヌクレアーゼは、BsaI-HFv2、BsmBI-v2、BbsI-HF、SapI、BspQI及びPaqCIから選択されてもよい。PaqCIがウイルスアセンブリーのために選択される場合、上記のような活性化分子が反応混合物に含まれるべきである。これらの制限エンドヌクレアーゼのいずれかを用いた切断の生成物は、突出部をもたらす。突出部配列の最適化が、PaqCI(表8)に関するデータの追加と、WO2020/081768に記載され、参照により組み込むコンピュータツールの使用により、WO2020/081768による様々な制限エンドヌクレアーゼに対して提供される。PaqCI切断及びT4 DNAライゲーションのための反応条件。75ng/ulの目的プラスミドを用いて、反応のための1ulに、2ulのT4 DNAリガーゼ緩衝液(10×)、0.5~2ulのPaqCI(10u/ul)、0.25~0.5ulのPaqCI活性化剤(20uM)、0.50~2ulのT4 DNAリガーゼ(400u/ul)、及びヌクレアーゼフリー水を20ulに添加する。アセンブリープロトコールは(37℃、5分→16℃、5分)×30~60サイクル→37℃、5分→60℃、5分である。
Figure 2024500105000019
Figure 2024500105000020
Figure 2024500105000021
Figure 2024500105000022
Figure 2024500105000023
Figure 2024500105000024
Figure 2024500105000025
多断片アセンブリー法を使用したコロナウイルスゲノムのアセンブリーに使用するためのセグメントオプション。
Figure 2024500105000026
Figure 2024500105000027
Figure 2024500105000028
Figure 2024500105000029
Figure 2024500105000030
[実施例7]
標的ポリヌクレオチドへのポリヌクレオチドの規則的アセンブリーを生成するための自動化されたワークフロー
ワークフローは、様々な構成要素の入力が一緒に又は順次提示される単一の機械で、大規模に又は完全に達成することができた。仮定のワークフローにおいて、所望の配列がコンピュータに入力される。次いで、コンピュータは、好適な断片、及び所望の配列の規則的アセンブリーのために規則のセットが付加されたライゲーション頻度テーブルに由来する突出部を説明する出力を提供する。
コンピュータ出力は、チップ上のラボ又は複数の試薬コンパートメントを含む他の機器とインターフェースしてもよい。反応ステップの調節は、エレクトロウェッティングベースの液体輸送によってチップ上で制御されてもよい。例えば、AQdrop(登録商標)プラットフォーム(Sharp Life Sciences、Oxford、UK)は、「lab-on-a-chip」デバイス上でマイクロスケールの液滴を電子的に操作することを可能にする。別のプラットフォームは、音響ベースの液体輸送である(Beckman Coulter、Brea、CA)。代替的に、ワークフローを、磁気ビーズを使用して行い、必要に応じて異なる段階で反応容器から不要の酵素/プライマーを除去してもよい。
したがって、断片は、インサイチュで合成されてもよく、コンピュータ出力に従って二次ソースから合成されてもよい。合成された断片は、クローニングによって、又はPCRなどの増幅方法によって増幅することができる。後者は、単一の混合物中の全ての別個の合成断片を組み合わせ、マルチプレックスPCRを実施することによって達成され得る。ポリメラーゼを不活性化し、リガーゼ及び制限エンドヌクレアーゼを添加して、本明細書に記載の方法を使用した規則的DNAアセンブリーを達成してもよい。後続のアセンブリーされた標的DNAは、(i)ベクターに組み込まれ、次いでベクターの形質転換によって宿主細胞に導入されて、(ii)ウイルスに封入され、感染によって宿主細胞に導入されて、(iii)裸のDNAの形態で、又はシャペロン分子と共に、真核細胞に直接導入されて、又は(iv)インビトロ発現系に導入されて、アセンブリーされたDNAの転写産物が機能的であるかどうかについて決定されてもよい。任意選択的に、アセンブリーの生成物をプラットフォーム位置に移動させて、例えば全分子シーケンサー(Oxford Nanopore又はPacific Biosystems)によって、配列決定を行ってもよい。
本明細書に記載された方法を使用したDNA分子の規則的アセンブリーは、個々の遺伝子又は代謝経路を合成するための、及び潜在的に真核細胞を遺伝的に修飾するための強力なツールである。また、新規ヌクレアーゼなどの毒性タンパク質を合成し、その特異性やその他の機能を決定するための手段を提供する。毒性タンパク質をコードする規則的アセンブリーは、インビトロ転写システム(New England Biolabs、Ipswich、MA)を使用して転写されてもよく、次いで、所望の機能が達成されるかどうかを決定するためにDNA切断について試験されてもよい。次いで、選択された陽性タンパク質を、特定の条件下で細胞内において製造してもよい。
大きい分子が小さい断片から構築される自動ワークフローの一例では、第1のステップは、少なくとも20塩基長の断片のセットを酵素的に(例えば、末端トランスフェラーゼを使用して)合成する、又は化学合成によって合成する、又はより大きい基質若しくは重複する断片のセットからのPCR産物として合成する。
これらの断片は、本明細書に記載のプロトコールを使用してアセンブリーすることができる。25塩基の50個の断片のアセンブリーは、1000塩基の標的ポリヌクレオチドを生成する。制限エンドヌクレアーゼ及びリガーゼは、任意選択的に、次のアセンブリーステップの前に60℃で熱不活化されてもよい。
アセンブリープロセスは、新しく生成されたポリヌクレオチド断片を用いて再び繰り返されてもよい。例えば、前のステップから新たに形成されたポリヌクレオチド断片を増幅するためのプライマー、アプタマー及びポリメラーゼを、次いで、マルチプレックスPCRによって生成してもよい。その後、増幅されたポリヌクレオチド断片を、制限エンドヌクレアーゼ切断及びライゲーションにかけて、50×250bpのポリヌクレオチドから12,500bpの断片、又は50×1000bpの断片から50,000bpのポリヌクレオチドを生成する。
次いで、例えば、50×12,500(625Kb)断片又は50×50,000bp断片(2.5Mb)を組み合わせ、続いて切断及びライゲーションを行うことによって、アセンブリーを繰り返し、625kb又は2.5Mbの標的ポリヌクレオチドを生成してもよい。
ワークフローの別の例は、200~1000bpの範囲のサイズの多数のDNA断片を使用するワンステップDNAアセンブリーである。
断片のライゲーションの効率は、突出部、酵素及び実験条件に依存するが、少なくとも最大1kbまでのアセンブリーにおいて使用されるポリヌクレオチド断片の長さには依存しない。24個を超える断片のアセンブリーにおいて使用される多数の断片のアセンブリーは、延長されたインキュベーション期間によって優先的に達成され得る。これらのインキュベーション期間が24時間を超える場合、タッチダウン又はドロップダウンプロトコールの代わりに静的ライゲーションプロトコールを使用することが好ましい場合がある。wt T4リガーゼが、42℃/16℃のドロップダウン条件によって定義される温度までの熱サイクリングにおいて使用され得る。42℃を超える場合、熱安定性リガーゼが好ましい。
本明細書に記載されたワークフローの提案される使用
1つのチューブ、複数の構築物:乳化された規則的アセンブリーワークフローにより、ユーザは、「陽性」の液滴をFACSによって下流の用途のために選別することができる小さい液滴ベースのフォーマットで、多断片から様々な構築物を生成することができる。規則的アセンブリー中のミスマッチ接続により、ユーザは、複数のパートナーとうまく対合する突出部(複数可)を意図的に使用することによって、1つのチューブ内に様々なバリエーションの構築物を生成することができる。例えば、ユーザは、いくつかの異なるプロモーターを有する同じ遺伝子回路を1つのチューブ内に生成し、遺伝子スクリーニングを通じて最良の構築物を同定することができる。
高次DNA構造のアセンブリー(非標準DNAパーツを使用)。DNAオリガミは、アセンブリーされた分子の形状を制御することによって、ユーザが、トランスフェクション及び一貫した遺伝子調節を容易にするためにDNA構造をアセンブリーすることを可能にすることができる。分岐した構築物の生成は、ユーザが、並列制御のための分岐構成を有する未来的構築物を作製することを可能にすることができる。例えば、非標準パーツアセンブリー断片(1デュプレックスから2デュプレックスのコネクタなど)の使用により、同じインシュレータ要素に近いコーディング配列に配置することができる。
複数のIIS型酵素の使用に起因する規則的アセンブリーのための混合された突出部の長さは、アセンブリーのための断片数を最大化することを可能にし、異なる長さの突出部の直交セットを混合することによって、ユーザが、単一の反応において可能な突出部の数を増加させることを可能にする。このアプローチはまた、下流の用途(例えば、ヌクレアーゼ(例えば、T7エンドI)による生成物の鎖浸潤又は切断)を容易にするためにバブルを有する最終構築物を生成することもできる。
ここで例示的な実施形態を説明したが、上記は単なる例示であって、限定的なものではなく、例として提示されているに過ぎないことは、当業者にとって明らかである。多数の改変及び他の実施形態は、当業者の範囲内であり、本発明の範囲内に入るものとして企図されている。

Claims (72)

  1. 二本鎖領域及び一本鎖ループを含む合成自己相補性オリゴヌクレオチドであって、前記二本鎖領域が、PaqCIのための認識配列を含有し、ライゲーションできない3’及び5’末端を有し、PaqCIによって切断できない、合成自己相補性オリゴヌクレオチド。
  2. 二本鎖領域が、10~50塩基対の長さである、請求項1に記載のオリゴヌクレオチド。
  3. 110ヌクレオチド未満の長さである、請求項1~2のいずれかに記載のオリゴヌクレオチド。
  4. オリゴヌクレオチドの3’末端が、3’ヒドロキシルではない、請求項1~3のいずれかに記載のオリゴヌクレオチド。
  5. オリゴヌクレオチドの5’末端が、5’ホスフェートではない、請求項1~4のいずれかに記載のオリゴヌクレオチド。
  6. 認識配列が、(5’-CACCTGC-3’/3’-GCAGGTG-5’)である、請求項1~5のいずれかに記載のオリゴヌクレオチド。
  7. (a)請求項1~6のいずれかに記載の合成自己相補性オリゴヌクレオチド;及び
    (b)PaqCI、又は配列番号1との少なくとも90%のアミノ酸配列同一性を有するアミノ酸配列を有するそのバリアント
    を含む、反応混合物。
  8. PaqCIと合成自己相補性オリゴヌクレオチドの比が、1ユニットのPaqCI:0.75ピコモル~9ピコモルのオリゴヌクレオチドの範囲である、請求項7に記載の反応混合物。
  9. 二本鎖DNA基質をさらに含み、前記基質が、PaqCIのための認識配列を含有し、PaqCIによって切断されて、4塩基突出部をもたらすことができる、請求項7又は8に記載の反応混合物。
  10. DNA基質中の認識配列が、(5’-CACCTGC-3’/3’-GCAGGTG-5’)である、請求項9に記載の反応混合物。
  11. DNAリガーゼをさらに含む、請求項7~10のいずれかに記載の反応混合物。
  12. DNAリガーゼが、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1 DNAリガーゼ及びヒトリガーゼ3(hLig3)からなる群から選択される、請求項11に記載の反応混合物。
  13. PaqCIのための結合部位によってそれぞれ挟まれた断片を含有する複数のプラスミド又はPCR産物をさらに含み、PaqCI又はそのバリアントによる前記プラスミド又はPCR産物の切断が、異なる4塩基突出部を有する断片を生じる、請求項7~12のいずれかに記載の反応混合物。
  14. PaqCIとリガーゼの比が、2.5~20のPaqCIユニット対200~800のリガーゼユニットである、請求項7~13のいずれかに記載の反応混合物。
  15. (a)
    (i)請求項1~6のいずれかに記載の合成オリゴヌクレオチド;
    (ii)PaqCI;
    (iii)リガーゼ;並びに
    (iv)少なくとも1つのPaqCI認識配列及び切断部位をそれぞれ有するDNA基質のライブラリー
    を含む反応混合物を取得するステップ;
    (b)DNA基質のライブラリーをPaqCIにより切断して、4塩基突出部を有する断片を生成するステップ;及び
    (c)相補的な4塩基突出部を互いにライゲーションして、断片の規則的アセンブリーを生産するステップ
    を含む、方法。
  16. ライブラリー中のDNA基質が、PCR産物、プラスミド、ゲノム又は染色体からなる群のうちの1つ以上から選択される、請求項15に記載の方法。
  17. (c)が、規則的アセンブリーを、デスティネーションベクター又はウイルスゲノム中でライゲーションすることをさらに含む、請求項15又は16に記載の方法。
  18. デスティネーションベクターが、プラスミド又は染色体である、請求項17に記載の方法。
  19. リガーゼが、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、PBCV-1及びヒトリガーゼ3(hLig3)からなる群から選択される、請求項15~18のいずれかに記載の方法。
  20. ユニークな配列を有する10~100個のDNA基質が存在し、規則的アセンブリーが、ステップ(c)において互いにライゲーションされる10~100個の断片を含む、請求項15~19のいずれかに記載の方法。
  21. ユニークな配列を有する少なくとも20個のDNA基質が存在し、規則的アセンブリーが、ステップ(c)において互いにライゲーションされる少なくとも20個の断片を含む、請求項20に記載の方法。
  22. 反応混合物が、DNA修復酵素、デアデニラーゼ、及び/又はクラウディング剤のうちの1つ以上をさらに含む、請求項15~21のいずれかに記載の方法。
  23. クラウディング剤が、600~8000の範囲の分子量を有するポリエチレングリコール(PEG)である、請求項22に記載の方法。
  24. デアデニラーゼが、酵母デアデニラーゼである、請求項22に記載の方法。
  25. DNA修復酵素が、EndoMSである、請求項22に記載の方法。
  26. ステップ(a)が、コンピュータツールを使用して反応混合物に関する4塩基突出部のセットを同定することをさらに含み、
    (i)前記コンピュータツールが、データセットから、DNAのライブラリーに関する4塩基突出部のセットに関する最適化された忠実度及び/若しくは頻度スコアを生成し、ここで、前記最適化された忠実度及び/若しくは頻度スコアは、相補配列のアニーリングに関するデータ、及び異なる4塩基突出部に対するリガーゼ活性に由来するデータから導出される、;並びに/又は
    (ii)コンピュータツールが、最適化された4塩基突出部を介して規則的アセンブリーにおいて連結するための断片配列を生成するためにインシリコ配列中の切断点を提供する、
    請求項15~25のいずれかに記載の方法。
  27. 請求項1に記載の合成自己相補性オリゴヌクレオチド及びPaqCIを含むキット。
  28. リガーゼをさらに含む、請求項27に記載のキット。
  29. 修復酵素、デアデニラーゼ及びクラウディング剤からなる群から選択されるコファクターをさらに含む、請求項27又は28に記載のキット。
  30. 4塩基突出部を有する成分断片から大きいDNAを合成するための使用説明書を含む、請求項27~29のいずれかに記載のキット。
  31. PaqCI及びアクチベーターが、単一の容器中でリガーゼと組み合わせられている又は別々の容器中に存在する、請求項27~30のいずれかに記載のキット。
  32. オリゴヌクレオチド、リガーゼ及びPaqCIバリアントの少なくとも1つが、凍結乾燥されている、又は2次元若しくは3次元表面などの固体基質上に固定されている、請求項27~31のいずれかに記載のキット。
  33. クラウディング剤が、ポリエチレングリコール(PEG)であり、600~8000の範囲の分子量を有する、請求項27~32のいずれかに記載のキット。
  34. 修復酵素が、ミスマッチ特異的エンドヌクレアーゼを含む、請求項27~33のいずれかに記載のキット。
  35. 選択されたライゲーション条件下で実施される規則的アセンブリー反応のための突出部のセットを選択するためのコンピュータ実装方法であって、
    (a)(i)アセンブリー反応のための突出部の所望の数及び(ii)突出部の長さを受け取るステップ;
    (b)突出部テーブルから突出部のセットを選択するステップ、ここで、選択された突出部のセットが、(i)において受け取った突出部の前記所望の数及び(ii)において受け取った突出部の前記長さを有する;
    (c)減少した偏りで前記突出部をライゲーションするための複数の異なるリガーゼからリガーゼを選択するステップ;
    (d)前記セット中のそれぞれ個々の突出部について、選択された前記リガーゼのライゲーション忠実度スコアを算出するステップ、ここで、それぞれ個々の突出部の前記ライゲーション忠実度スコアは、前記個々の突出部及びその相補体が、前記セット中の全ての突出部及びその相補体と比較して完全に相補的な突出部に独立にライゲーションする頻度を表す;
    (e)ステップ(d)において出力された、前記個々の突出部のそれぞれに関する算出された前記ライゲーション忠実度スコアに基づいて、突出部のセットに関する全体ライゲーション忠実度スコアを算出するステップ;
    (f)複数の全体ライゲーション忠実度スコアがそれぞれ、突出部の異なるセットについて算出されるまで、ステップ(b)~(e)を反復するステップ;並びに
    (g)選択されたリガーゼに関して好適な全体ライゲーション忠実度スコアを有する突出部のセットを提供するステップ
    を含む、方法。
  36. ステップ(b)において選択された突出部のセット中の個々の突出部のそれぞれが、セット内でユニークであり、前記セット中の別の突出部と相補的ではなく、パリンドロームではない、請求項35に記載の方法。
  37. ステップ(c)におけるライゲーション忠実度スコアの算出が、ライゲーション事象及び/又はミスマッチ事象の数の個々の実験により定義された測定を含む、異なるリガーゼに関するライゲーション頻度テーブル及び偏りテーブルを参照することをさらに含む、請求項35又は36に記載の方法。
  38. 個々の突出部及びセット中の全ての突出部と、それらの相補体との間、並びに個々の突出部の相補体及びセット中の全ての突出部と、それらの相補体との間で起こるライゲーション事象の総数と比較した、それぞれ個々の突出部とその相補体との間で起こるライゲーション事象及び/又はミスマッチ事象の数を算出するステップをさらに含む、請求項35~37のいずれかに記載の方法。
  39. 突出部のセットが、標的ポリヌクレオチド中の規則的アセンブリーの複数の二本鎖ポリヌクレオチド断片のそれぞれの末端上の個々の突出部に対応し、前記個々の突出部が、それぞれのポリヌクレオチド断片のそれぞれの末端が異なる突出部を有するような2~5個のヌクレオチドからなる一本鎖配列であり、断片アセンブリーの規則化が、ポリヌクレオチドの一方の末端の突出部と、隣接ポリヌクレオチドの一方の末端上の相補的突出部とのアニーリングの生成物である、請求項35~38のいずれかに記載の方法。
  40. ステップ(a)が、(iv)アセンブリーのヌクレオチド配列;及び(v)(iv)のヌクレオチド配列を酵素的に切断することができる間隔のセットを受け取るステップ、並びにそれぞれのサブ配列が突出物を有する、(ii)において入力された突出部の長さと同じ長さである間隔でサブ配列の非冗長セットを同定するステップをさらに含み;方法が、
    (h)好適な全体忠実度スコアを有する突出部のセットを有するサブ配列の非冗長セットを保存するステップ
    をさらに含む、請求項35~39のいずれかに記載の方法。
  41. アセンブリーのヌクレオチド配列中の開始及び終結座標によって(v)のそれぞれの間隔を定義するステップをさらに含む、請求項40に記載の方法。
  42. ステップ(e)において、ステップ(b)~(d)を少なくとも1000回反復することをさらに含む、請求項35~41のいずれかに記載の方法。
  43. ステップ(a)が、ポリヌクレオチド断片の規則的アセンブリーのための酵素的切断及びライゲーションに関する選択された実験条件を受け取るステップをさらに含む、請求項35~42のいずれかに記載の方法。
  44. 選択されたリガーゼを用いたアニーリング及びライゲーションのための好適な忠実度及び/又は頻度スコアを有する、ステップ(g)における突出部のセットを提供するための選択された実験条件を受け取るステップをさらに含む、請求項35~43のいずれかに記載の方法。
  45. 請求項35~44のいずれかに記載のコンピュータ実装方法を実行させるステップ;並びにステップ(g)において同定された突出部のセットを含有する出力を受け取るステップ及び/又は(iv)及び(v)が入力である場合、規則的アセンブリーのポリヌクレオチド断片のセットの配列を受け取るステップを含み、断片の末端がステップ(g)において同定された突出部によって定義される、請求項35~44のいずれかに記載の方法。
  46. 酵素的に切断して、同定された突出部を生産することができる間隔でサブ配列の同定された非冗長セットを有するポリヌクレオチド断片のセットの配列を取得するステップをさらに含む、請求項35~45のいずれかに記載の方法。
  47. 選択された実験条件及びコンピュータにより生成された突出部のセットが、セット中の断片の数に関する相補的アニーリング及びリガーゼ依存的ライゲーションの有効量の忠実度及び頻度での、選択されたポリヌクレオチド断片のセットの規則的アセンブリーにとって好適である、請求項43~46のいずれかに記載の方法。
  48. 選択された実験条件が、4塩基突出部を含有するポリヌクレオチド断片のセットをライゲーションするための、好適な忠実度及び頻度スコアを有する、DNAリガーゼを選択することを含む、請求項43~47のいずれかに記載の方法。
  49. 選択された実験条件が、そのように切断されたそれぞれのポリヌクレオチド断片が、突出部配列のセットに由来する突出部配列を含有するような認識配列を含有するポリヌクレオチド断片のセットの酵素的切断のための、特徴的なDNA認識配列を有する、IIS型制限エンドヌクレアーゼを選択することを含む、請求項43~48のいずれかに記載の方法。
  50. IIS型制限エンドヌクレアーゼ、例えば、PaqCIが、7塩基認識配列を有する、請求項49に記載の方法。
  51. リガーゼが、野生型T4 DNAリガーゼ、又は熱安定性T4 DNAリガーゼ及び耐塩性T4 DNAリガーゼから選択されるそのバリアントであり、リガーゼが、T4 DNAリガーゼ、T7 DNAリガーゼ、ヒトリガーゼ3(hLig3)DNAリガーゼ、T3 DNAリガーゼ、PBCV-1 DNAリガーゼ;T4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ、又はPBCV-1 DNAリガーゼのいずれかの温度安定性バリアント及びT4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ、PBCV-1 DNAリガーゼのいずれかの高塩安定性バリアントからなる群から選択される、請求項48に記載の方法。
  52. ポリヌクレオチド断片のセットに由来する標的ポリヌクレオチドの規則的アセンブリーのための選択された実験条件が、塩濃度、DNA修復酵素、温度範囲並びに/又は切断及びライゲーションのための熱サイクリング条件のうちの1つ以上を含むライゲーション条件をさらに含む、請求項43~51のいずれかに記載の方法。
  53. 塩濃度が、50mM~150mMの塩の範囲であり、DNA修復酵素が、EndoMS又はT7 EndoIであり、温度範囲が、37℃~50℃であり、熱サイクリング条件が、ドロップダウン式、タッチダウン式及びタッチアップ式温度サイクリングから選択される、請求項52に記載の方法。
  54. アセンブリーのヌクレオチド配列が、ウイルスゲノム、原核ゲノム、オペロン及び代謝経路から選択される、請求項35~53のいずれかに記載の方法。
  55. アセンブリーを生産するためのポリヌクレオチド断片の数が、2~100個の断片の範囲である、請求項39~52のいずれかに記載の方法。
  56. 請求項35~55のいずれかに記載の方法を実施するためのプログラムを備える、コンピュータ読み取り可能な媒体。
  57. 標的ポリヌクレオチドを合成するための方法であって、
    a.請求項35~55のいずれかに記載のコンピュータ実装方法を使用してリガーゼの選択を含む実験条件のセットの下で好適な全体忠実度スコアを有する突出部のセットを取得するステップ、ここで、前記コンピュータは、ユーザによって少なくとも一部決定された、選択された実験条件のセットの下で、酵素的に得られた、又は化学的に合成された、コンピュータ又はユーザによって任意選択的に決定された配列を有するポリヌクレオチド断片のセットをアセンブリーさせるように、自動化された機器又はユーザに指示する;
    b.機器内又は反応チューブ中の選択された実験条件下で、リガーゼ、制限エンドヌクレアーゼ及びポリヌクレオチド断片を混合することによって、標的ポリヌクレオチドの任意選択的に自動化された規則的アセンブリーを可能にするステップ;及び
    c.任意選択的に、遺伝子又は複数の遺伝子の発現のために、(i)細菌細胞又は(ii)インビトロ系に標的ポリヌクレオチドを導入するステップ
    を含む、方法。
  58. ステップ(a)及び(b)が繰り返され標的ポリヌクレオチドをアセンブリーし、ここで、最初のラウンドにおいて、ポリヌクレオチド断片が1000塩基長未満であり、アセンブリーされた断片が、暫定標的ポリヌクレオチドを形成し、前記暫定標的ポリヌクレオチドが、規則的アセンブリーの次のラウンドのためのポリヌクレオチド断片を形成して、最終的な標的ポリヌクレオチドを形成する、請求項57に記載の方法。
  59. ポリヌクレオチド断片のセットが、2~100個の断片である、請求項57又は58に記載の方法。
  60. ステップ(b)の前にポリヌクレオチド断片のセットの多重増幅を実施するステップをさらに含む、請求項57~59のいずれかに記載の方法。
  61. 標的ポリヌクレオチドがDNAであり、前記DNAが転写されて標的RNAを形成する、請求項57~60のいずれかに記載の方法。
  62. 標的ポリヌクレオチドがDNAであり、前記DNAが細胞中で発現されて、1つ以上のタンパク質を産生する、請求項57~61のいずれかに記載の方法。
  63. 標的タンパク質が、代謝経路、ウイルスゲノム又は免疫細胞遺伝子の一部又は全部である、請求項57~62のいずれかに記載の方法。
  64. 20~100個のDNA断片から規則的DNAアセンブリーを実施して、大きいDNAを作出する方法であって、
    (a)規則的アセンブリー反応において20~100個の断片を連結するための4塩基突出部の最適なセットに関してコンピュータ設計ツールからの指示を取得するステップ、ここで、前記コンピュータ設計ツールが、1つ以上のセットのデータから、突出部の最適なセットを計算し、それぞれのセットのデータが、4塩基突出部の全ての組合せに関する個々のリガーゼ優先性の頻度及び忠実度分析から得られる、及び
    (b)大きいDNAを作出するための規則的アセンブリー反応において、選択されたリガーゼを用いるライゲーションのための4塩基突出部の最適なセットを有する20~100個の断片を取得するステップ
    を含む、方法。
  65. ステップ(b)が、ポリメラーゼ連鎖反応(PCR)を使用して20~100個の断片にIIS型制限エンドヌクレアーゼ認識配列を付加すること、又は断片のそれぞれの末端の挿入部位にIIS型制限エンドヌクレアーゼ認識配列を有する20~100個のプラスミド中に20~100個の断片を挿入すること、又は最適化された4塩基突出部を有する20~100個の断片を合成することをさらに含む、請求項64に記載の方法。
  66. IIS型制限エンドヌクレアーゼ認識配列が、5’CACCTGC3’であり、4塩基突出部の最適化されたセットを作出するための切断部位が、5’CACCTGC(N4)3’(配列番号2)及び3’GTGGACG(N8)5’(配列番号3)である、請求項65に記載の方法。
  67. 制限エンドヌクレアーゼがPaqCIである、請求項65又は66に記載の方法。
  68. リガーゼが、T4 DNAリガーゼ、T7 DNAリガーゼ、hLig3 DNAリガーゼ、T3 DNAリガーゼ又はPBCV-1 DNAリガーゼのうちの1つ以上から選択される、請求項65~67のいずれかに記載の方法。
  69. カスタマイズされたT細胞の高効率アセンブリーのための方法であって、
    (a)患者に由来する腫瘍細胞上の表面抗原を同定するステップ、ここで、タンパク質は腫瘍細胞に特異的である;
    (b)患者からT細胞を収集するステップ;
    (c)4塩基突出部を有するDNA断片の規則的アセンブリーを引き起こして、腫瘍抗原特異的であるキメラ抗原受容体をコードする大きいDNAを形成させるステップ;及び
    (d)部位特異的CrispRによって切断された前記T細胞のゲノム中に前記大きいDNAを導入するステップ
    を含む、方法。
  70. 大きいDNAが、保存された複数のDNA断片、及び少なくとも前記保存されたDNA断片が、カスタマイズされたT細胞の高効率アセンブリーのために細菌細胞中のプラスミド中で個別に保存されるような複数の可変DNA断片配列、の規則的アセンブリーの生成物である、請求項69に記載の方法。
  71. 変異を有するウイルスゲノムを作出するための方法であって、
    (a)ウイルスゲノム中での規則的アセンブリーのための複数の断片を生成するステップ;
    (b)リガーゼによる複数のミスマッチのライゲーションを可能にする4塩基突出部を選択するステップ;及び
    (c)抗生物質活性について、又はワクチン生産のための基質として生成物ウイルスゲノムを試験するステップ
    を含む、方法。
  72. リガーゼが、低忠実度リガーゼ、例えば、ヒトリガーゼ3(hLig3)である、請求項71に記載の方法。
JP2023536435A 2020-12-15 2021-12-15 ポリヌクレオチドの改善されたインビトロアセンブリーのための組成物及び方法 Pending JP2024500105A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202063125530P 2020-12-15 2020-12-15
US63/125,530 2020-12-15
US202163213859P 2021-06-23 2021-06-23
US202163213807P 2021-06-23 2021-06-23
US63/213,807 2021-06-23
US63/213,859 2021-06-23
PCT/US2021/010063 WO2022132198A2 (en) 2020-12-15 2021-12-15 Compositions and methods for improved in vitro assembly of polynucleotides

Publications (1)

Publication Number Publication Date
JP2024500105A true JP2024500105A (ja) 2024-01-04

Family

ID=80682842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023536435A Pending JP2024500105A (ja) 2020-12-15 2021-12-15 ポリヌクレオチドの改善されたインビトロアセンブリーのための組成物及び方法

Country Status (4)

Country Link
EP (1) EP4263827A2 (ja)
JP (1) JP2024500105A (ja)
KR (1) KR20230121625A (ja)
WO (1) WO2022132198A2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003087301A2 (en) 2002-04-12 2003-10-23 New England Biolabs, Inc. Methods and compositions for dna manipulation
WO2020081768A1 (en) * 2018-10-19 2020-04-23 New England Biolabs, Inc. Improved ordered assembly of multiple dna fragments
CN209999070U (zh) 2019-03-14 2020-01-31 南京德朔实业有限公司 电动螺丝批

Also Published As

Publication number Publication date
WO2022132198A2 (en) 2022-06-23
EP4263827A2 (en) 2023-10-25
WO2022132198A3 (en) 2022-08-18
KR20230121625A (ko) 2023-08-18

Similar Documents

Publication Publication Date Title
Pryor et al. Enabling one-pot Golden Gate assemblies of unprecedented complexity using data-optimized assembly design
Karvelis et al. Rapid characterization of CRISPR-Cas9 protospacer adjacent motif sequence elements
JP6784601B2 (ja) シークエンシングによって評価されるゲノムワイドでバイアスのないDSBの同定(GUIDE−Seq)
JP2020005658A (ja) シントン形成
EP1817413B1 (en) Oligonucleotide ladder assembly and system for generating molecular diversity
RU2766717C1 (ru) Способ редактирования днк в бесклеточной системе
JP2020505924A (ja) 競合的鎖置換を利用する次世代シーケンシング(ngs)ライブラリーの構築
EP3867373A1 (en) Improved ordered assembly of multiple dna fragments
US20130123117A1 (en) Capture probe and assay for analysis of fragmented nucleic acids
US11371095B2 (en) High-throughput method for characterizing the genome-wide activity of editing nucleases in vitro (Change-Seq)
Struhl Subcloning of DNA fragments
US20160340670A1 (en) Novel oligo-linker-mediated dna assembly method and applications thereof
Liu et al. The terminal 5′ phosphate and proximate phosphorothioate promote ligation‐independent cloning
US20200255823A1 (en) Guide strand library construction and methods of use thereof
US20220177875A1 (en) Compositions and Methods for Improved In Vitro Assembly of Polynucleotides
US10385334B2 (en) Molecular identity tags and uses thereof in identifying intermolecular ligation products
Bitinaite et al. DNA cloning and engineering by uracil excision
Finney et al. Molecular cloning of PCR products
CN116848244A (zh) 用于改进多核苷酸体外组装的组合物和方法
Vladimir et al. Optimization of Golden Gate assembly through application of ligation sequence-dependent fidelity and bias profiling
Kalva et al. Gibson Deletion: a novel application of isothermal in vitro recombination
JP2024500105A (ja) ポリヌクレオチドの改善されたインビトロアセンブリーのための組成物及び方法
US20210355519A1 (en) Demand synthesis of polynucleotide sequences
WO2022212330A1 (en) Improved methods of isothermal complementary dna and library preparation
Tee et al. Back to basics: Creating genetic diversity