開示の詳細な説明
本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態が単に例として提供されていることは当業者には明白であろう。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。本明細書に記載の発明の実施形態に対する種々の代替を、本発明の実施において使用することができることが理解されるべきである。
複雑な表現型を最適化および探究するための高度に複雑なコンビナトリアル操作戦略を可能にするための方法および組成物が本明細書で提供される。基礎研究およびバイオテクノロジーで興味深い多くの表現型は、遠位の遺伝子座において生じる変異の組合せの結果である。例えば、がんは、多くの場合、単一の染色体編集ではなく多数のホールマーク遺伝子機能に影響を及ぼす変異に関連付けられる。同様に、継続的な操作の試みの標的である多くの代謝および調節プロセスでは、目的の表現型アウトプットをもたらすために協同して作用する多くのタンパク質の活性が必要とされる。本明細書に開示されている方法および組成物は、多くの部位における変異による影響に関する迅速な構築および正確な報告を並行してもたらすことができるので、そのような機能の迅速な操作およびプロトタイピングのやり方をもたらすことができる。
本明細書に記載の方法および組成物は、原核細胞、真核細胞、または古細菌細胞を含めた、CRISPRもしくはアルゴノートなどの、核酸誘導型ヌクレアーゼ系、またはTALEN、ZFN、もしくはメガヌクレアーゼなどの他のターゲティング可能なヌクレアーゼ系が機能する(例えば、DNAを標的化および切断する)ことができる任意の細胞型において実行または使用することができる。細胞は、Escherichia spp.(例えば、E.coli)などの細菌細胞であってよい。細胞は、酵母細胞、例えば、Saccharomyces spp.などの真菌細胞であってよい。細胞は、ヒト細胞であってよい。細胞は、藻類細胞、植物細胞、昆虫細胞、またはヒト細胞を含めた哺乳動物細胞であってよい。それに加えてまたはその代わりに、本明細書に記載の方法は、in vitroにおいて、またはCRISPRもしくはアルゴノートなどの、核酸誘導型ヌクレアーゼ系、またはTALEN、ZFN、もしくはメガヌクレアーゼなどの他のヌクレアーゼ系が機能する(例えば、DNAを標的化および切断する)ことができる無細胞系において実行することができる。
遺伝子操作のための組成物および方法が本明細書に開示される。追跡可能なまたは反復的遺伝子操作に適した方法および組成物が開示される。開示されている方法および組成物では、全ゲノム規模で一ヌクレオチド分解能での忠実度が高く、追跡可能な、多重化されたゲノム編集を可能にするための、大規模に多重化されたオリゴヌクレオチド合成およびクローニングを使用することができる。
追跡可能なプラスミド
方法および組成物を、忠実度が高く追跡可能な編集を例えば一ヌクレオチド分解能で実施するために使用することができ、また、編集を全ゲノム規模でまたはエピソーム核酸分子に対して実施するために使用することができる。大規模に多重化されたオリゴヌクレオチド合成および/またはクローニングを、編集のために、CRISPR系、MAD2系、MAD7系、または他の核酸誘導型ヌクレアーゼ系などのターゲティング可能なヌクレアーゼ系と組み合わせて使用することができる。
本明細書で使用される場合、「カセット」とは、多くの場合、単一分子ポリヌクレオチドを指す。カセットは、DNAを含み得る。カセットは、RNAを含み得る。カセットは、DNAとRNAの組合せを含み得る。カセットは、天然に存在しないヌクレオチドまたは改変されたヌクレオチドを含み得る。カセットは、一本鎖であってよい。カセットは、二本鎖であってよい。カセットは、単一分子として合成されてよい。カセットは、他のカセット、オリゴヌクレオチド、または他の核酸分子からアセンブルされてよい。カセットは、1つまたは複数のエレメントを含み得る。そのようなエレメントとしては、非限定的な例として、編集配列、レコーダー配列、ガイド核酸、プロモーター、調節エレメント、変異PAM配列、ホモロジーアーム、プライマー部位、リンカー領域、独特のランディング部位、カセット、および本明細書に開示されている任意の他のエレメントのいずれかのうちの1つまたは複数を挙げることができる。そのようなエレメントは、任意の順序または組合せであってよい。任意の2つまたはそれよりも多くのエレメントは連続していてもよく連続していなくてもよい。カセットは、より大きなポリ核酸に含まれていてよい。そのようなより大きなポリ核酸は、プラスミドまたはウイルスベクターなど、直鎖状であっても環状であってもよい。カセットは、合成されたカセットであってよい。カセットは、追跡可能なカセットであってよい。
カセットは、多重操作方法および追跡可能な操作方法を含めた、本明細書に開示されている任意の方法または組成物において使用するために設計することができる。例示的なカセットでは、2つまたはそれよりも多くのエレメント、例えば、1)使用者により指定されるゲノム内の標的配列を標的化するように設計されたガイド核酸(例えば、gRNAまたはgDNA)と2)本明細書に開示されている編集配列および/またはレコーダー配列などをカップリングすることができる(例えば、図1Bおよび図5A)。編集配列およびガイド核酸を含むカセットは、編集カセットと称することができる。編集配列を含むカセットは、編集カセットと称することができる。レコーダー配列およびガイド核酸を含むカセットは、レコーダーカセットと称することができる。レコーダー配列を含むカセットは、レコーダーカセットと称することができる。好ましい実施形態では、編集カセットおよびレコーダーカセットを細胞に同時に送達する。さらに、編集カセットおよびレコーダーカセットは、共有結合により連結していてよい。さらに、これらのエレメントは、多重化オリゴヌクレオチド合成によって一緒に合成することができる。
カセットは、1つまたは複数のガイド核酸および編集カセットを連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸および編集カセットは連続している。他の例では、1つまたは複数のガイド核酸および編集カセットは連続していない。他の例では、2つまたはそれよりも多くのガイド核酸および編集カセットは連続していない。
カセットは、1つまたは複数のガイド核酸、編集カセット、およびレコーダーカセットを連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸、編集カセット、およびレコーダーカセットは連続している。他の例では、2つまたはそれよりも多くのガイド核酸、編集カセット、およびレコーダーカセットは連続している。他の例では、1つまたは複数のガイド核酸、編集カセット、およびレコーダーカセットは連続していない。他の例では、2つまたはそれよりも多くのガイド核酸、編集カセット、およびレコーダーカセットは連続していない。
カセットは、1つまたは複数のガイド核酸、1つまたは複数の編集カセット、および1つまたは複数のレコーダーカセットを連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸、1つまたは複数の編集カセット、および1つまたは複数のレコーダーカセットは連続している。他の例では、2つまたはそれよりも多くのガイド核酸、2つまたはそれよりも多くの編集カセット、および2つまたはそれよりも多くのレコーダーカセットは連続している。他の例では、1つまたは複数のガイド核酸、1つまたは複数の編集カセット、および1つまたは複数のレコーダーカセットは連続していない。他の例では、2つまたはそれよりも多くのガイド核酸、2つまたはそれよりも多くの編集カセット、および2つまたはそれよりも多くのレコーダーカセットは連続していない。
カセットは、1つまたは複数のガイド核酸および編集配列を連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸および編集配列は連続している。他の例では、1つまたは複数のガイド核酸および編集配列は連続していない。他の例では、2つまたはそれよりも多くのガイド核酸および編集配列は連続していない。
カセットは、1つまたは複数のガイド核酸、編集配列、およびレコーダー配列を連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸、編集配列、およびレコーダー配列は連続している。他の例では、2つまたはそれよりも多くのガイド核酸、編集配列、およびレコーダー配列は連続している。他の例では、1つまたは複数のガイド核酸、編集配列、およびレコーダー配列は連続していない。他の例では、2つまたはそれよりも多くのガイド核酸、編集配列、およびレコーダー配列は連続していない。
カセットは、1つまたは複数のガイド核酸、1つまたは複数の編集配列、および1つまたは複数のレコーダー配列を連続したポリヌクレオチドとして含み得る。他の例では、1つまたは複数のガイド核酸、1つまたは複数の編集配列、および1つまたは複数のレコーダー配列は連続している。他の例では、2つまたはそれよりも多くのガイド核酸、2つまたはそれよりも多くの編集配列、および2つまたはそれよりも多くのレコーダー配列は連続している。他の例では、1つまたは複数のガイド核酸、1つまたは複数の編集配列、および1つまたは複数のレコーダー配列は連続していない。他の例では、2つまたはそれよりも多くのガイド核酸、2つまたはそれよりも多くの編集配列、および2つまたはそれよりも多くのレコーダー配列は連続していない。
編集カセットは、編集配列を含み得る。編集配列は、同義または非同義変異などの変異、およびホモロジーアーム(HA)を含み得る。編集配列は、同義または非同義変異などの変異、および、核酸誘導型ヌクレアーゼ媒介性二本鎖切断の部位において標的配列との相同組換えが起こるように設計されたホモロジーアーム(HA)を含み得る(例えば、図1B)。
レコーダーカセットは、レコーダー配列を含み得る。レコーダー配列は、バーコードまたはマーカーなどの追跡可能な配列、およびホモロジーアーム(HA)を含み得る。レコーダー配列は、バーコードまたはマーカーなどの追跡可能な配列、および核酸誘導型ヌクレアーゼ媒介性二本鎖切断の部位において染色体との相同組換えが起こるように設計されたホモロジーアーム(HA)を含み得る(例えば、図1B)。
カセットは、鎖の切断ならびに細胞において選択的に濃縮および/または追跡することができる設計された修復を誘導するために必要な機構(例えば、本明細書に開示されているターゲティング可能なヌクレアーゼ、ガイド核酸、編集カセット、および/またはレコーダーカセット)をコードし得る。細胞は、真核細胞、古細菌細胞、原核細胞、またはE.coliなどの微生物などの任意の細胞であってよい(例えば、図2A〜2D)。
カセットは、編集カセットを含み得る。カセットは、レコーダーカセットを含み得る。カセットは、ガイド核酸および編集カセットを含み得る。カセットは、ガイド核酸およびレコーダーカセットを含み得る。カセットは、ガイド核酸、編集カセット、およびレコーダーカセットを含み得る。カセットは、2つのガイド核酸、編集カセット、およびレコーダーカセットを含み得る。カセットは、2つよりも多くのガイド核酸、1つまたは複数の編集カセット、および1つまたは複数のレコーダーカセットを含み得る。カセットのこれらのエレメントは、共有結合により連結していてよい。カセットのこれらのエレメントは連続していてよい。カセットのこれらのエレメントは連続していてよい。
カセットは、編集配列を含み得る。カセットは、レコーダー配列を含み得る。カセットは、ガイド核酸および編集配列を含み得る。カセットは、ガイド核酸およびレコーダー配列を含み得る。カセットは、ガイド核酸、編集配列、およびレコーダー配列を含み得る。カセットは、2つのガイド核酸、編集配列、およびレコーダー配列を含み得る。カセットは、2つよりも多くのガイド核酸、1つまたは複数の編集配列、および1つまたは複数のレコーダー配列を含み得る。カセットのこれらのエレメントは、共有結合により連結していてよい。カセットのこれらのエレメントは連続していてよい。カセットのこれらのエレメントは連続していてよい。
単一のゲノム編集は、配列決定技術、例えば、ショートリード配列決定技術(例えば、図1C)、ロングリード配列決定技術、または当技術分野で公知の任意の他の配列決定技術を使用して追跡することができる。
一部の実施形態では、形質転換が起こると、各編集カセットにより、形質転換された細胞内で設計された遺伝子改変が生じる。一部の例では、編集カセットは、編集カセットにより導入された遺伝子変異のバーコードとしてトランスに作用し得、複雑な集団におけるこの変異の頻度を経時的におよび多くの異なる成長条件にわたって追跡することを可能にすることができる(例えば、図2A〜2Dおよび図1C)。
一部の例では、レコーディングカセットにより、マーカーまたはバーコード配列などの設計された追跡可能な配列が、形質転換される細胞内に挿入される。一部の例では、レコーダーカセットは、染色体変異のバーコードとしてシスに作用し得、複雑な集団におけるこの変異の頻度を経時的におよび多くの異なる成長条件にわたって追跡することを可能にすることができる。
本明細書で提供される方法は、設計されたゲノム変異のシスおよび/またはトランス追跡をもたらすことにより、ゲノムワイドな多様性をマッピングするための試料の調製およびカバレッジの深度を単純化し、ゲノム規模での操作のための強力なツールをもたらす(例えば、図1C)。
複数のカセットをカセットのライブラリーにプールすることができる。カセットのライブラリーは、少なくとも2つのカセットを含み得る。カセットのライブラリーは、5個から百万個までのカセットを含み得る。カセットのライブラリーは、少なくとも百万個のカセットを含み得る。カセットのライブラリーは、任意の数のカセットを含み得ることが理解されるべきである。
カセットのライブラリーは、プール内の他のカセットと比較して共通するエレメントおよび共通しないまたは独特のエレメントの任意の組合せを有するカセットを含み得る。例えば、カセットのライブラリーは、共通するプライミング部位または共通するホモロジーアームを含むと同時に、共通しないまたは独特のバーコードも含有し得る。共通のエレメントは、カセットのライブラリー内のカセットの複数、大多数、または全てに共有されてよい。共通しないエレメントは、カセットのライブラリー内のカセットの複数、少数、または亜集団に共有されてよい。独特のエレメントは、カセットのライブラリー内のカセットの1つ、数個、または亜集団に共有されてよく、したがって、独特のエレメントにより、カセットの1つ、数個、もしくは亜集団を同定する、またはカセットのライブラリー内の他のカセットから区別することができる。そのような共通するものと共通しないものの組合せは、本明細書に開示されている多重化技法にとって有利である。
本明細書に開示されているカセットにより、設計された遺伝子改変を生じさせること、または設計されたマーカーまたはバーコード配列を高効率で、形質転換される細胞に挿入することができる。多くの例において、効率は50%を超える。一部の例では、効率は、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、または100%である(例えば、図32A、32B、および33)。
一部の例では、形質転換、編集、および/または記録効率は、核酸誘導型ヌクレアーゼなどの、本明細書に開示されている1つまたは複数の構成成分の発現を調節することによって上昇させることができる。構成成分を調節するための方法は、本明細書に開示されており、当技術分野で公知である。そのような方法は、核酸誘導型ヌクレアーゼまたはCRISPR酵素などの、主題の系の構成成分を、実験計画に応じて低または高コピープラスミド上に発現させるステップを含み得る。
カセットを生成するための方法および組成物が本明細書に開示される。カセットは、本明細書に開示されているカセットを含み得る。例えば、カセットは、本明細書に開示されている編集カセットおよび/またはレコーダーカセットの任意の組合せを含み得る。そのようなカセットは、より大きなポリ核酸分子上に含まれていてよい。そのようなより大きなポリ核酸分子は、例えば、プラスミドまたはウイルスベクターなど、直鎖状であっても環状であってもよい。
編集カセットは、標的核酸配列と比べた変異を含み得る。編集カセットは、所望の変異または編集配列に隣接する標的配列と相同な配列を含み得る。編集カセットは、細胞または細胞の集団内の核酸の標的配列を認識する、またはそれとハイブリダイズし、細胞の核酸の標的配列と相同であり、標的配列に対する少なくとも1つのヌクレオチドの変異、または所望の変異を含む領域を含み得る。
編集カセットは、標的配列に対する第1の変異を含む第1の編集配列を含み得る。第1の変異は、非編集標的配列と比較して少なくとも1つのヌクレオチドの挿入、欠失、または置換などの変異を含み得る。変異は、コード領域または非コード領域に組み入れることができる。
編集カセットは、標的配列に対する第2の変異を含む第2の編集配列を含み得る。第2の変異は、PAM配列が変異するまたは他のやり方でサイレンシングされ、その結果、対応する核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼが標的配列を切断することができなくなるように設計することができる。そのような場合では、PAMのこの変異またはサイレンシングは、第1の編集配列が取り込まれている形質転換体を選択するための方法としての機能を果たし得る。
一部の例では、編集カセットは、少なくとも2つの変異を含み、ここで、1つの変異は、PAM変異である。一部の例では、PAM変異は、第2の編集カセットに存在し得る。そのような第2の編集カセットは、カセット内の他のエレメントと共有結合により連結していてよく、また、連続していても連続していなくてもよい。
編集カセットは、場合によってプロモーターに作動可能に連結した遺伝子をコードするgRNAなどのガイド核酸を含み得る。ガイド核酸は、編集配列が組み入れられる標的核酸配列とハイブリダイズするように設計することができる。
レコーディングカセットは、レコーディング配列を含み得る。レコーダー配列は、バーコーディング配列、または他のスクリーニング可能または選択可能なマーカーまたはその断片を含み得る。レコーディング配列は、レコーダーカセット内に含まれていてよい。レコーダーカセットは、標的核酸配列内の挿入部位と相同な領域を含んでよく、したがって、レコーディング配列が相同組換えまたは相同性駆動型修復(homology−driven repair)系によって組み入れられる。レコーディングカセットの組み入れ部位は、編集カセットによって編集される標的核酸と同じDNA分子上に含まれていてよい。レコーダー配列は、バーコード、独特のDNA配列、および/または選択可能もしくはスクリーニング可能なエレメントもしくはマーカーの完全なコピーもしくは断片を含み得る。
レコーダーカセットは、標的配列と比べた変異を含み得る。変異は、PAM配列が変異するまたは他のやり方でサイレンシングされ、その結果、対応する核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼが標的配列を切断することができなくなるように設計することができる。そのような場合では、PAM部位のこの変異またはサイレンシングは、第1のレコーディング配列が取り込まれている形質転換体を選択するための方法としての機能を果たし得る。レコーダーカセットは、PAM変異を含み得る。PAM変異は、PAM部位が変異するまたは他のやり方でサイレンシングされ、その結果、対応するCRISPRヌクレアーゼが標的配列を切断することができなくなるように設計することができる。そのような場合では、PAM部位のこの変異またはサイレンシングは、レコーダー配列が取り込まれている形質転換体を選択するための方法としての機能を果たし得る。
レコーダーカセットは、gRNAをコードする遺伝子などのガイド核酸を含み得る。プロモーターは、核酸誘導型ヌクレアーゼを所望の標的配列にターゲティングすることができるガイド核酸をコードする核酸配列に作動可能に連結していてよい。ガイド核酸は、標的部位内の独特の部位を標的とし得る。一部の場合では、ガイド核酸は、操作の前のラウンドで組み入れられた独特のランディング部位を標的とする。一部の場合では、ガイド核酸は、操作の前のラウンドにおいてレコーダーカセットによって組み入れられた独特のランディング部位を標的とする。
レコーダーカセットは、バーコードを含み得る。バーコードは、対応する変異をバーコードに基づいて同定することができるような独特のバーコードまたは比較的独特なものであってよい。一部の例では、バーコードは、天然には見出されない、天然に存在しない配列である。大多数の例では、編集カセット内の所望の変異とバーコードの組合せは、天然に存在せず、天然には見出されない。バーコードは、任意のヌクレオチド数の長さであってよい。バーコードは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または30ヌクレオチドを超える長さであってよい。一部の場合では、バーコードは、30ヌクレオチドを超える長さである。バーコードは、縮重オリゴヌクレオチド合成によって生成することができる。バーコードは、合理的に設計することもでき、使用者が指定することもできる。
レコーダーカセットは、ランディング部位を含み得る。ランディング部位は、連続的な操作ラウンドのためのレコーダーカセットの標的部位としての機能を果たし得る。ランディング部位は、PAMを含み得る。ランディング部位は、独特の配列であってよい。ランディング部位は、少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50ヌクレオチドの長さであってよい。一部の場合では、ランディング部位は、50ヌクレオチドを超える長さである。
レコーダーカセットは、選択可能なもしくはスクリーニング可能なマーカー、または選択可能もしくはスクリーニング可能なマーカーをオンもしくはオフにする調節配列もしくは変異を含み得る。そのような場合では、選択可能なマーカーをオンまたはオフにすることは、それぞれ、操作の繰り返しラウンドの選択または対抗選択に使用することができる。調節配列の例としてはリボソーム結合性部位(RBS)が挙げられるが、他のそのような調節配列が構想される。選択可能またはスクリーニング可能なマーカーをオンにする変異は、宿主転写機構によって認識される任意の可能性のある開始コドンを含み得る。選択可能またはスクリーニング可能なマーカーをオフにする変異は、開始コドンを欠失させる変異または中途終止コドンもしくは読み枠シフト変異を挿入する変異を含む。
レコーダーカセットは、レコーダー配列が組み入れられる標的部位を標的とするガイド核酸、ガイドRNAによって使用されるPAMをサイレンシングするためのPAM変異、編集カセットに対応するバーコード、操作のその後のラウンドのレコーダーカセットのランディング部位として機能する独特の部位、スクリーニング可能または選択可能なマーカーをオンまたはオフにする調節配列または変異のうちの1つまたは複数を含んでよく、これらの1つまたは複数のエレメントには、ガイドRNAにより標的とされる切断された標的部位へのこれらの1つまたは複数のエレメントの組換えが促進されるように設計されたホモロジーアームが隣接する。
レコーダーカセットは、第1のホモロジーアーム、PAM変異、バーコード、独特のランディング部位、スクリーニング可能または選択可能なマーカーに対する調節配列または変異、第2のホモロジーアーム、およびガイドRNAを含み得る。第1のホモロジーアームは上流のホモロジーアームであってよい。第2のホモロジーアームは下流のホモロジーアームであってよい。ホモロジーアームは、ガイドRNAにより標的とされる切断部位に隣接する配列と相同であってよい。
カセットは、2つの別個の標的核酸配列を標的とするように設計された2つのガイド核酸を含み得る。いずれの場合でも、ガイド核酸は、単一のgRNAまたはcrRNAおよびtrRNA配列からなるキメラgRNAを含んでよく、あるいは、gRNAは分離されたcrRNAおよびtrRNAを含み得る、または、ガイド核酸はcrRNAを含み得る。他の例では、ガイド核酸を追跡可能なポリ核酸または編集カセットを含むプラスミドおよび/またはレコーダーカセットと同時に導入することができる。これらの場合には、ガイド核酸は、別々のプラスミド上にコードさせることもでき、RNA形態で、当技術分野で周知の送達方法によって送達することもできる。
カセットは、選択されたガイド核酸と共に機能する、核酸誘導型ヌクレアーゼ、例えばCRISPRヌクレアーゼなどをコードする遺伝子を含み得る。核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼ遺伝子は、別々のプラスミド上にもたらすことができる。核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼは、追跡可能なポリ核酸またはプラスミドが導入される宿主生物体のゲノムまたはエピソームプラスミド上にもたらすことができる。これらの例のいずれにおいても、核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼ遺伝子は、構成的または誘導性プロモーターに作動可能に連結していてよい。適切な構成的および誘導性プロモーターの例は当技術分野で周知である。核酸誘導型ヌクレアーゼまたはCRISPRヌクレアーゼは、当技術分野で周知の送達系を使用してmRNAまたはポリペプチドとしてもたらすことができる。そのようなmRNAまたはポリペプチド送達系としては、これらに限定されないが、ナノ粒子、ウイルスベクター、または他の細胞透過技術を挙げることができる。
カセットは、例えば、レコーダーカセット内に含まれるものなどの、選択可能またはスクリーニング可能なマーカーを含み得る。例えば、レコーダーカセットは、対応する編集カセットの遺伝子変異と一意的に相関付けることができるまたはそのような遺伝子変異と同定可能に相関付けることができ、したがって、バーコードについて配列決定することにより、編集カセットにより導入された対応する遺伝子変異を同定することが可能になる、追跡可能な核酸配列などのバーコードを含み得る。他の例では、レコーダーカセットは、抗生物質抵抗性遺伝子、栄養要求性マーカー、蛍光タンパク質、または他の公知の選択可能もしくはスクリーニング可能なマーカーをコードする遺伝子の完全なコピーまたは断片を含み得る。
追跡可能なプラスミドライブラリー
追跡可能なライブラリーは、本明細書に開示されている複数のカセットを含み得る。追跡可能なライブラリーは、本明細書に開示されているカセットを含む複数の追跡可能なポリ核酸またはプラスミドを含み得る。本明細書に開示されているレコーダー配列またはレコーダーカセットを含むカセット、ポリヌクレオチド、またはプラスミドは、追跡可能なカセット、ポリヌクレオチド、またはプラスミドと称することができる。本明細書に開示されている編集配列または編集カセットを含むカセット、ポリヌクレオチド、またはプラスミドは、追跡可能なカセット、ポリヌクレオチド、またはプラスミドと称することができる。
一部の場合では、カセット内に含まれる所与のマーカーまたはバーコード配列に対応する編集配列を決定するために配列決定される別個の編集カセットとレコーダーカセットの組合せが、追跡可能なライブラリー内に存在する。したがって、編集およびレコーダー配列が標的配列内に組み入れられたら、レコーダー配列について配列決定することによって組み入れられた編集を決定することができる。レコーダー配列またはバーコードについて配列決定することにより、配列決定の時間および費用を有意に削減することができる。
ライブラリーサイズは、実験設計に依存し得る。例えば、目的のタンパク質内の各アミノ酸を編集することが目的であれば、ライブラリーサイズは、目的のタンパク質内のアミノ酸の数(N)に依存し得、完全飽和ライブラリー(各位置において全部で20種のアミノ酸または天然に存在しないアミノ酸)は19(またはそれよりも多く)×Nの規模になり、アラニン−マッピングライブラリーは1×Nの規模になる。したがって、1,000よりも多くのアミノ酸の非常に大きなタンパク質のスクリーニングでさえ、現在の多重化オリゴ合成能(例えば、120,000オリゴ)を考えれば扱いやすいものであり得る。活性スクリーニングに加えてまたはその代わりに、より一般的な性質を、開発されたハイスループットなスクリーニングおよび選択を用い、本明細書に開示されているライブラリーを使用して効率的に試験することができる。ライブラリーを、1個、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個など、最大で標的タンパク質内のアミノ酸の総数を含めた、標的タンパク質内の任意の数のアミノ酸が変異するように設計することができることは容易に理解されるはずである。さらに、触媒として活性なアミノ酸、またはタンパク質間相互作用に関与するものなどの選択されたアミノ酸を標的とすることができる。変異の標的とされた各アミノ酸を、任意の数の代替のアミノ酸、例えば、任意の他の天然のまたは天然に存在しないアミノ酸またはアミノ酸類似体などに変異させることができる。一部の例では、標的とされたアミノ酸を全て同じアミノ酸、例えばアラニンなどに変異させる。他の場合では、標的とされたアミノ酸を、独立に、任意の他のアミノ酸に、任意の組合せまたは順列で変異させる。
追跡可能なライブラリーは、個々の目的の残基または配列内の追跡可能な変異を含み得る。追跡可能なライブラリーは、特注の合成オリゴヌクレオチドアレイを使用して生成することができる。追跡可能なプラスミドは、当技術分野で公知の任意のクローニングまたはアセンブリ方法を使用して生成することができる。例えば、CREATE−レコーダープラスミドを、化学合成、ギブソン・アセンブリ、SLIC、CPEC、PCA、ライゲーションフリークローニング、他のin vitroオリゴアセンブリ技法、従来のライゲーションに基づくクローニング、またはそれらの任意の組合せによって生成することができる。
バーコードなどのレコーダー配列は、in silicoにおいて、標的コドンにおける縮重変異を用いて標準のコードによって設計することができる。縮重変異は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または30よりも多くの核酸残基を含み得る。一部の例では、縮重変異は、15の核酸残基(N15)を含み得る。
レコーダーおよび/または編集配列を所望の場所に相同組換えまたは相同性駆動型修復によって組み入れることを可能にするために、レコーダー配列および/または編集配列にホモロジーアームを付加することができる。ホモロジーアームは、合成、in vitroアセンブリ、PCR、または当技術分野で公知の他の方法によって付加することができる。例えば、ホモロジーアームは、オーバーラップオリゴ伸長、ギブソン・アセンブリ、または本明細書に開示されている任意の他の方法によってアセンブルすることができる。ホモロジーアームをレコーダーおよび/または編集配列の両末端に付加し、それにより、当該配列に2つの別個のホモロジーアーム、例えば、5’ホモロジーアームおよび3’ホモロジーアームを隣接させることができる。
同じ5’および3’ホモロジーアームを複数の別個のレコーダー配列に付加し、それにより、それぞれが同じスペーサー標的または標的とされる挿入部位を有する独特のレコーダー配列のライブラリーを生成することができる。同じ5’および3’ホモロジーアームを複数の別個の編集配列に付加し、それにより、それぞれが同じスペーサー標的または標的とされる挿入部位を有する独特の編集配列のライブラリーを生成することができる。代替の例では、異なるまたは種々の5’または3’ホモロジーアームを複数のレコーダー配列または編集配列に付加することができる。
隣接するホモロジーアームを含むレコーダー配列ライブラリーをベクター骨格にクローニングすることができる。一部の例では、レコーダー配列およびホモロジーアームをレコーダーカセットにクローニングする。レコーダーカセットは、一部の場合では、所望のレコーダー配列挿入部位を標的とするように操作されたガイド核酸またはgRNAをコードする核酸配列をさらに含み得る。多くの場合、CRISPR/Cas媒介性切断部位に隣接する核酸配列は、レコーダーカセット内に含まれるホモロジーアームと相同であるまたは実質的に相同である。
隣接するホモロジーアームを含む編集配列ライブラリーをベクター骨格にクローニングすることができる。一部の例では、編集配列およびホモロジーアームを編集カセットにクローニングする。編集カセットは、一部の場合では、所望の編集配列挿入部位を標的とするように操作されたガイド核酸またはgRNAをコードする核酸配列をさらに含み得る。多くの場合、CRISPR/Cas媒介性切断部位に隣接する核酸配列は、編集カセット内に含まれるホモロジーアームと相同であるまたは実質的に相同である。
全遺伝子または全ゲノム編集ライブラリーをベクター骨格にサブクローニングすることができる。一部の場合では、ベクター骨格は、本明細書に開示されているレコーダーカセットを含む。編集配列ライブラリーを第2の部位に挿入またはアセンブルして、バーコードを固定された遺伝子座に埋め込むと同時に編集ライブラリーを多種多様な使用者により規定される部位に組み込むことができるコンピテントな追跡可能なプラスミドを生成することができる。
最初にレコーダー配列および/またはカセットをベクター骨格にアセンブルまたは挿入し、その後、編集配列および/またはカセットを挿入することができる。他の場合では、最初に編集配列および/またはカセットをベクター骨格に挿入またはアセンブルし、その後、レコーダー配列および/またはカセットを挿入することができる。他の場合では、レコーダー配列および/またはカセットならびに編集配列および/またはカセットを同時にベクターに挿入またはアセンブルすることができる。他の場合では、レコーダー配列および/またはカセットならびに編集配列および/またはカセットを、同じカセット上に含めた後、ベクターに同時に挿入またはアセンブルする。他の場合では、レコーダー配列および/またはカセットならびに編集配列および/またはカセットを連結した後、ベクターに同時に挿入またはアセンブルする。他の場合では、レコーダー配列および/またはカセットならびに編集配列および/またはカセットを共有結合により連結した後、ベクターに同時に挿入またはアセンブルする。これらの場合のいずれにおいても、追跡可能なプラスミドまたはプラスミドライブラリーを生成することができる。
本明細書に開示される1つまたは複数のエレメントを含むカセットまたは核酸分子を合成することができる。例えば、編集カセットおよびガイド核酸を含む核酸分子を合成することができる。編集カセットおよびレコーダーカセットを含む核酸分子を合成することができる。編集カセット、ガイド核酸、およびレコーダーカセットを含む核酸分子を合成することができる。編集カセット、レコーダーカセット、および2つのガイド核酸を含む核酸分子を合成することができる。レコーダーカセットおよびガイド核酸を含む核酸分子を合成することができる。レコーダーカセットを含む核酸分子を合成することができる。編集カセットを含む核酸分子を合成することができる。これらの場合のいずれにおいても、ガイド核酸は、場合によって、プロモーターに作動可能に連結していてよい。これらの場合のいずれにおいても、核酸分子は、1つまたは複数のバーコードをさらに含み得る。
合成されたカセットまたは合成された核酸分子は、当技術分野で公知の任意のオリゴヌクレオチド合成方法を使用して合成することができる。例えば、カセットをアレイに基づくオリゴヌクレオチド合成によって合成することができる。そのような例では、オリゴヌクレオチドの合成後、オリゴヌクレオチドをアレイから切断することができる。アレイからオリゴヌクレオチドを切断することにより、オリゴヌクレオチドのプールを創出することができる。
多重化合成および生成のためにソフトウェアおよび自動化方法を使用することができる。例えば、ソフトウェアおよび自動化を使用して、10種、102種、103種、104種、105種、106種、またはそれよりも多くのカセット、例えば追跡可能なカセットなどを創出することができる。自動化方法により、追跡可能なプラスミドを迅速に生成することができる。追跡可能なカセットを、最小のステップを伴うワークフローによって処理して、正確に定義された全ゲノムライブラリーを作製することができる。
前述のエレメントのいずれかの1つまたは複数の組合せを含めた、レコーダー配列、編集配列、ガイド核酸、および任意選択のバーコードの本明細書に開示されている任意の組合せを含む2つまたはそれよりも多くの核酸分子またはプラスミドを含む、追跡可能なカセットライブラリーなどのカセットライブラリーを生成することができる。例えば、そのようなライブラリーは、少なくとも2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、104、105、106、107、108、109、1010、またはそれよりも多くの本開示の核酸分子またはプラスミドを含み得る。そのようなライブラリーは、上に特定の数が明示的に列挙されていなくても、任意の数の核酸分子またはプラスミドを含み得ることが理解されるべきである。
各カセットに含まれるレコーダー配列と編集配列の対を決定するために、カセットまたはカセットライブラリーについて配列決定することができる。他の場合では、ライブラリー生成プロセスの間に公知のレコーダー配列と公知の編集配列を対にする。共通する核酸分子またはプラスミド上に含まれるレコーダー配列と編集配列の関連を決定する他の方法は、編集配列をレコーダー配列の同定または配列決定によって同定することができるように構想される。
E.coliと他の生物体/細胞株の間でシャトルされる編集されたエピソームのライブラリーを追跡するための方法および組成物が本明細書で提供される。ライブラリーは、プラスミド、細菌人工染色体(BAC)、酵母人工染色体(YAC)、合成染色体、またはウイルスもしくはファージゲノム上に含まれていてよい。これらの方法および組成物を使用して、E.coliなどの宿主生物体におけるポータブルのバーコードが付されたライブラリーを生成することができる。そのような生物体におけるライブラリー生成により、相同組換えを実施するための確立された技法の利点がもたらされ得る。バーコードが付されたプラスミドライブラリーについて1つの部位において深層配列決定して、ライブラリーカバレッジの深度の劇的な改善を可能にするプラスミドの残りの部分を標的とする変異による多様性を追跡することができる(例えば、図3A)。
追跡可能な操作方法
追跡可能な操作ワークフローの例を図3Aに示す。各プラスミドは、標的DNA内の部位が編集されるように設計されたレコーダーカセットをコードし得る(例えば、図3A、黒色のカセット)。標的とされる部位は、機能的に中性の部位であってもよく、スクリーニング可能または選択可能なマーカー遺伝子であってもよい。レコーダーカセットのホモロジーアーム(HA)は、リコンビニアリングの間にレコーディング部位に挿入されるレコーダー配列を含有し得る(例えば、図3B)。リコンビニアリングは、核酸誘導型ヌクレアーゼ媒介性DNA切断などのDNA切断、および相同組換えによる修復を含み得る。レコーダー配列は、バーコード、独特のDNA配列、またはスクリーニング可能もしくは選択可能なマーカーの完全なコピーもしくは断片を含み得る。一部の例では、レコーダー配列は、15ヌクレオチドである。レコーダー配列は、10ヌクレオチド未満、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、88、90、100、110、120、130、140、150、160、170、180、190、200ヌクレオチド、または200よりも多くのヌクレオチドを含み得る。
多重化クローニング手法により、レコーダーカセットをプラスミド内の少なくとも1つの編集カセット(例えば、図3A、緑色のカセット)と共有結合によりカップリングして、独特のレコーダーカセットと編集カセットの組合せを有する追跡可能なプラスミドライブラリーを生成することができる。この追跡可能なライブラリーについて配列決定してレコーダー/編集マッピングを生成することができ、これを使用して編集ライブラリーを標的DNAの大きなセグメントにわたって追跡することができる(例えば、図3C)。レコーダーおよび編集配列は、同じポリヌクレオチド上に含まれていてよく、この場合、これらは両方が同じ組換え事象によって、ゲノムまたはプラスミドなどの標的核酸配列に組み入れられる。他の例では、レコーダーおよび編集配列は、同じ追跡可能なプラスミド内の別々のカセット上に含まれていてよく、この場合、レコーダーおよび編集配列は、別々の組換え事象によって、同時にまたは逐次的に標的核酸配列に組み入れられる。
特異的に設計された、追跡可能な変異のライブラリーを創出するために、多重化オリゴヌクレオチド合成とリコンビニアリングを組み合わせる方法が本明細書で提供される。スクリーニングおよび/または選択、その後のハイスループットな配列決定および/またはバーコードマイクロアレイ法により、目的の表現型をもたらす変異の迅速なマッピングを可能にすることができる。
本明細書に開示されている方法および組成物を使用して、標的核酸配列における操作事象を同時に操作し、追跡することができる。
追跡可能なプラスミドは、in vitroアセンブリまたはクローニング技法を使用して生成することができる。例えば、CREATE−レコーダープラスミドを、化学合成、ギブソン・アセンブリ、SLIC、CPEC、PCA、ライゲーションフリークローニング、他のin vitroオリゴアセンブリ技法、従来のライゲーションに基づくクローニング、またはそれらの任意の組合せを使用して生成することができる。
追跡可能なプラスミドは、少なくとも1つのレコーディング配列、例えばバーコードなど、および少なくとも1つの編集配列を含み得る。ほとんどの場合、レコーディング配列は、操作事象を記録および追跡するために使用される。編集配列はそれぞれ、所望の編集を標的核酸配列に組み入れるために使用することができる。所望の編集は、標的核酸配列の挿入、欠失、置換、または変化を含む。一部の例では、1つまたは複数のレコーディング配列および編集配列は、追跡可能なプラスミド内に含まれる単一のカセット上に含まれ、したがって、同じ操作事象によって標的核酸配列に組み入れられる。他の例では、レコーディングおよび編集配列は、追跡可能なプラスミド内の別々のカセット上に含まれ、したがって、それぞれが別個の操作事象によって標的核酸に組み入れられる。一部の例では、追跡可能なプラスミドは、2つまたはそれよりも多くの編集配列を含む。例えば、1つの編集配列を使用してPAM配列を変化させるまたはサイレンシングすることができると同時に、第2の編集配列を使用して別個の配列に変異を組み入れることができる。
レコーダー配列は、編集配列挿入部位から分離された部位に挿入することができる。挿入されたレコーダー配列は、編集配列から1bpまたは任意の塩基対の数だけ分離されていてよい。例えば、分離距離は、約1bp、10bp、50bp、100bp、500bp、1kp、2kb、5kb、10kb、またはそれを超える距離であってよい。分離距離は、任意の別個の整数の塩基対であってよい。2つの挿入部位を分離する塩基対の数の限定は、挿入が行われるゲノム、染色体、またはポリヌクレオチドのサイズによって限定され得ることは容易に理解されるはずである。一部の例では、分離の最大距離は、標的核酸またはゲノムのサイズに依存する。
レコーダー配列は、編集配列に隣接させて、または編集配列の近傍に挿入することができる。例えば、レコーダー配列は、編集配列が挿入されるオープンリーディングフレームの外側に挿入することができる。レコーダー配列は、編集配列が挿入されているオープンリーディングフレームに隣接する非翻訳領域に挿入することができる。レコーダー配列は、機能的に中性または非機能性の部位に挿入することができる。レコーダー配列は、スクリーニング可能または選択可能なマーカー遺伝子に挿入することができる。
一部の例では、標的核酸配列は、ゲノム、人工染色体、合成染色体、またはエピソームプラスミド内に含まれる。種々の例では、標的核酸配列は、in vitroにあってもin vivoにあってもよい。標的核酸配列がin vivoにある場合、CREATE−レコーダープラスミドを宿主生物体に形質転換、トランスフェクション、コンジュゲーション、微粒子銃、ナノ粒子、細胞透過技術、または他の公知のDNA送達のための方法、またはそれらの任意の組合せによって導入することができる。そのような例では、宿主生物体は、真核生物、原核生物、細菌、古細菌、酵母、または他の真菌であり得る。
操作事象は、リコンビニアリング、非相同末端結合、相同組換え、または相同性駆動型修復を含み得る。一部の例では、操作事象をin vitroまたはin vivoで実施する。
本明細書に記載の方法は、原核および真核細胞を含めた、核酸誘導型ヌクレアーゼ系が機能する(例えば、DNAを標的化および切断する)ことができる任意の細胞型において実行することもでき、in vitroにおいて実行することもできる。一部の実施形態では、細胞は、Escherichia spp.(例えば、E.coli)などの細菌細胞である。他の実施形態では、細胞は、酵母細胞、例えば、Saccharomyces spp.などの真菌細胞である。他の実施形態では、細胞は、藻類細胞、植物細胞、昆虫細胞、またはヒト細胞を含めた哺乳動物細胞である。
一部の例では、細胞は、組換え生物体である。例えば、細胞は、非ネイティブな核酸誘導型ヌクレアーゼ系を含み得る。それに加えてまたはその代わりに、細胞は、組換え系機構を含み得る。そのような組換え系としては、ラムダレッド組換え系、Cre/Lox、attB/attP、または他のインテグラーゼ系を挙げることができる。適切な場合には、追跡可能なプラスミドは、選択された組換え系が正確にかつ効率的に機能するために必要な相補的な構成成分または機構を有してよい。
ゲノム編集のための方法は、(a)少なくとも1つの編集カセットおよび少なくとも1つのガイド核酸をコードするベクターを第1の細胞の集団に導入するステップであって、それにより、当該ベクターを含む第2の細胞の集団を作製するステップと、(b)第2の細胞の集団を、核酸誘導型ヌクレアーゼが発現するまたは維持される条件下で維持するステップであって、核酸誘導型ヌクレアーゼが、ベクター上、第2のベクター上、第2の細胞の集団の細胞のゲノム上にコードされている、または他のやり方で細胞に導入され、その結果、DNA切断および編集カセットの組み入れがもたらされるステップと、(c)生存細胞を得るステップとを含み得る。そのような方法は、場合によって、(d)第2の細胞の集団の少なくとも1つの細胞内の標的DNA分子について配列決定して、少なくとも1つのコドンの変異を同定するステップをさらに含み得る。
ゲノム編集のための方法は、(a)本明細書に開示されているPAM変異を含む少なくとも1つの編集カセットおよび少なくとも1つのガイド核酸をコードするベクターを第1の細胞の集団に導入するステップであって、それにより、当該ベクターを含む第2の細胞の集団を作製するステップと、(b)第2の細胞の集団を、核酸誘導型ヌクレアーゼが発現するまたは維持される条件下で維持するステップであって、核酸誘導型ヌクレアーゼが、ベクター上、第2のベクター上、第2の細胞の集団の細胞のゲノム上にコードされている、または他のやり方で細胞に導入され、その結果、DNA切断、編集カセットの組み入れ、およびPAM変異を含む第2の細胞の集団の細胞は生存可能であるが、PAM変異を含まない第2の細胞の集団の細胞の死がもたらされるステップと、(c)生存細胞を得るステップとを含み得る。そのような方法は、場合によって、(d)第2の細胞の集団の少なくとも1つの細胞内の標的DNAについて配列決定して、少なくとも1つのコドンの変異を同定するステップをさらに含み得る。
追跡可能なゲノム編集のための方法は、(a)少なくとも1つの編集カセット、少なくとも1つのレコーダーカセット、および少なくとも2つのgRNAをコードするベクターを第1の細胞の集団に導入するステップであって、それにより、当該ベクターを含む第2の細胞の集団を作製するステップと、(b)第2の細胞の集団を、核酸誘導型ヌクレアーゼが発現するまたは維持される条件下で維持するステップであって、核酸誘導型ヌクレアーゼが、ベクター上、第2のベクター上、第2の細胞の集団の細胞のゲノム上にコードされている、または他のやり方で細胞に導入され、その結果、DNA切断ならびに編集およびレコーダーカセットの組み入れがもたらされるステップと、(c)生存細胞を得るステップとを含み得る。そのような方法は、場合によって、(d)第2の細胞の集団の少なくとも1つの細胞内の標的DNA分子のレコーダー配列について配列決定して、少なくとも1つのコドンの変異を同定するステップをさらに含み得る。
追跡可能なプラスミドが、PAM部位がサイレンシングされるように設計された編集カセットを含む一部の例では、追跡可能なゲノム編集のための方法は、(a)少なくとも1つの編集カセット、レコーダーカセット、および少なくとも2つのgRNAをコードするベクターを第1の細胞の集団に導入するステップであって、それにより、当該ベクターを含む第2の細胞の集団を作製するステップと、(b)第2の細胞の集団を、核酸誘導型ヌクレアーゼが発現するまたは維持される条件下で維持するステップであって、核酸誘導型ヌクレアーゼが、ベクター上、第2のベクター上、第2の細胞の集団の細胞のゲノム上にコードされている、または他のやり方で細胞に導入され、その結果、DNA切断、編集カセットおよびレコーダーカセットの組み入れ、ならびにPAM変異を含む第2の細胞の集団の細胞は生存可能であるが、PAM変異を含まない第2の細胞の集団の細胞の死がもたらされるステップと、(c)生存細胞を得るステップとを含み得る。そのような方法は、場合によって、(d)第2の細胞の集団の少なくとも1つの細胞内の標的DNAのレコーダー配列について配列決定して、少なくとも1つのコドンの変異を同定するステップをさらに含み得る。そのような方法は、第2のPAM変異を含むレコーダーカセットもさらに含み得、したがって、細胞死を免れるために、両方のPAMが編集カセットPAM変異およびレコーダーカセットPAM変異によってサイレンシングされなければならない。
一部の例では、形質転換効率を、リコンビニアリング手順の検証およびCFU/ngの算出を可能にする非ターゲティングガイド核酸対照を使用することによって決定する。一部の場合では、絶対的な効率を、各形質転換プレート上のコロニーの総数を計数することによって、例えば、galK対照に由来する赤色コロニーおよび白色コロニーの両方を計数することによって得る。一部の例では、相対的な効率を、対照(例えば、galK対照)に由来する全てのコロニーのうちの上首尾の形質転換体(例えば、白色コロニー)の総数によって算出する。
本開示の方法は、例えば、コンビナトリアルライブラリーを生成する効率、規模、費用、および/またはそのようなライブラリー生成の精度の、1000×よりも大きな改善をもたらすことができる。
本開示の方法は、ゲノムまたはコンビナトリアルライブラリーの生成の効率の、例えば、10×よりも大きな、50×よりも大きな、100×よりも大きな、200×よりも大きな、300×よりも大きな、400×よりも大きな、500×よりも大きな、600×よりも大きな、700×よりも大きな、800×よりも大きな、900×よりも大きな、1000×よりも大きな、1100×よりも大きな、1200×よりも大きな、1300×よりも大きな、1400×よりも大きな、1500×よりも大きな、1600×よりも大きな、1700×よりも大きな、1800×よりも大きな、1900×よりも大きな、2000×よりも大きな、またはそれよりも大きな改善をもたらすことができる。
本開示の方法は、ゲノムまたはコンビナトリアルライブラリーの生成の規模の、例えば、10×よりも大きな、50×よりも大きな、100×よりも大きな、200×よりも大きな、300×よりも大きな、400×よりも大きな、500×よりも大きな、600×よりも大きな、700×よりも大きな、800×よりも大きな、900×よりも大きな、1000×よりも大きな、1100×よりも大きな、1200×よりも大きな、1300×よりも大きな、1400×よりも大きな、1500×よりも大きな、1600×よりも大きな、1700×よりも大きな、1800×よりも大きな、1900×よりも大きな、2000×よりも大きな、またはそれよりも大きな改善をもたらすことができる。
本開示の方法は、ゲノムまたはコンビナトリアルライブラリーの生成の費用の、例えば、10分の1よりも大きな、50分の1よりも大きな、100分の1よりも大きな、200分の1よりも大きな、300分の1よりも大きな、400分の1よりも大きな、500分の1よりも大きな、600分の1よりも大きな、700分の1よりも大きな、800分の1よりも大きな、900分の1よりも大きな、1000分の1よりも大きな、1100分の1よりも大きな、1200分の1よりも大きな、1300分の1よりも大きな、1400分の1よりも大きな、1500分の1よりも大きな、1600分の1よりも大きな、1700分の1よりも大きな、1800分の1よりも大きな、1900分の1よりも大きな、2000分の1よりも大きな、またはそれよりも大きな低減をもたらすことができる。
本開示の方法は、ゲノムまたはコンビナトリアルライブラリー生成の精度の、例えば、10×よりも大きな、50×よりも大きな、100×よりも大きな、200×よりも大きな、300×よりも大きな、400×よりも大きな、500×よりも大きな、600×よりも大きな、700×よりも大きな、800×よりも大きな、900×よりも大きな、1000×よりも大きな、1100×よりも大きな、1200×よりも大きな、1300×よりも大きな、1400×よりも大きな、1500×よりも大きな、1600×よりも大きな、1700×よりも大きな、1800×よりも大きな、1900×よりも大きな、2000×よりも大きな、またはそれよりも大きな改善をもたらすことができる。
コンビナトリアル操作の反復的追跡
操作の繰り返しラウンドのための方法および組成物が本明細書に開示される。単一細胞レベルでの追跡可能な操作をいくつかの段階的な操作サイクルで実行することを可能にする反復的操作戦略が本明細書に開示される(例えば、図3Dまたは図6)。これらの開示されている方法および組成物により、複雑な遺伝子型空間を有効に構築および探究することができる検索に基づく技術を可能にすることができる。反復的および繰り返し的という用語は、互換的に使用することができる。
コンビナトリアル操作方法は、多数ラウンドの操作を含み得る。本明細書に開示されている方法は、2ラウンドまたはそれよりも多くの操作を含み得る。例えば、方法は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、または30ラウンドよりも多くの操作を含み得る。
一部の例では、操作の各ラウンドの間に、新しいレコーダー配列、例えばバーコードなどが標的部位内の同じまたは近傍の遺伝子座に組み入れられ(例えば、図3D、緑色の棒または図6、黒色の棒)、したがって、ゲノム全体を通してコンビナトリアル多様性を構築するための多数の操作サイクル後に(例えば、図3E、緑色の棒または図6、灰色の棒)、各コンビナトリアル遺伝子型を再構築するため、各ラウンドからの操作された編集が標的部位に組み入れられたことを確認するために、レコーディング遺伝子座のPCR、または同様の反応を使用することができる。
操作の連続的なラウンドを選択するための方法が本明細書に開示される。選択は、編集カセットによって組み入れられたPAM変異により行うことができる。選択は、レコーダーカセットによって組み入れられたPAM変異により行うことができる。選択は、スクリーニング可能な、選択可能な、または対抗選択可能なマーカーを使用して行うことができる。選択は、操作の前のラウンドによって組み入れられた編集またはレコーディングのための部位を標的とし、それにより、操作の両方のラウンドまたは前の全てのラウンドに由来する、編集およびレコーダー配列が首尾よく組み入れられたバリアントを選択することによって行うことができる。
これらの遺伝子型の定量化を、大集団に対するコンビナトリアルな変異による影響を理解するためおよびエピスタシスなどの重要な生物現象を調査するために使用することができる。
段階的な編集およびコンビナトリアルな追跡は、本明細書に開示されている反復的ベクター系を使用して実行することができる。これらの反復的ベクター系を使用して、形質転換手順を迅速に進めることができる(例えば、図7A)。一部の例では、これらの系は、直交性の複製開始点、抗生物質マーカー、およびgRNAを含有する2つまたはそれよりも多くのプラスミドからなる。各ベクター内のgRNAは、核酸誘導型ヌクレアーゼ媒介性切断による破壊に対する他の耐性マーカーの1つを標的とするように設計することができる。これらの系は、一部の例では、抗生物質選択圧が、前のプラスミドが除去され、次のラウンドの操作されたゲノムの濃縮が駆動されるように切り換わる形質転換を実施するために使用することができる。形質転換ループを通じて2回またはそれよりも多くの継代を実施することができる、または言い換えれば、多数ラウンドの操作を実施することができる。必要なレコーディングカセットおよび編集カセットの本明細書に開示されている反復的ベクターへの導入を、各形質転換ステップにおける高効率での同時のゲノム編集およびプラスミドキュアリングに使用することができる。
一部の例では、本明細書に開示されている反復的ベクター系は、2種、3種、4種、5種、6種、7種、8種、9種、10種、または10種より多くの独特のプラスミドを含む。一部の例では、反復的ベクター系では、特定のプラスミドを、前のラウンドおよび後のラウンドにおいて別個のプラスミドが使用されるのであれば、1回よりも多く使用することができる。
本明細書に開示されている反復的方法および組成物を使用して、標的化されたゲノムまたはプラスミドにおける選択可能またはスクリーニング可能なエレメントの機能を回復させることができる。選択可能またはスクリーニング可能なエレメントとしては、抗生物質抵抗性遺伝子、蛍光遺伝子、独特のDNA配列またはウォーターマーク、または他の公知のレポーター、スクリーニング可能な、または選択可能な遺伝子を挙げることができる。一部の例では、操作の連続的なラウンドそれぞれは選択可能またはスクリーニング可能なエレメントの断片を組み入れることができ、したがって、操作ラウンドの最後には、選択可能またはスクリーニング可能なエレメント全体が標的ゲノムまたはプラスミドに組み入れられている。そのような例では、断片の全て、したがって、所望の対応する変異の全てが首尾よく組み入れられたゲノムまたはプラスミドのみを選択またはスクリーニングすることができる。このように、選択またはスクリーニングされた細胞は、操作の繰り返しラウンドの1回1回で編集を組み入れたものが濃縮される。
反復的方法を使用して、操作の連続的なラウンドそれぞれで選択可能またはスクリーニング可能なマーカーをオンの位置とオフの位置で、またはオフの位置とオンの位置で切り換えることができる。そのような方法を使用することにより、例えば、たった1つのスクリーニング可能または選択可能なマーカーの使用が必要になることにより、入手可能な選択可能またはスクリーニング可能なマーカーの保存が可能になる。さらに、短い調節配列または開始コドンまたは非開始コドンを使用して、スクリーニング可能または選択可能なマーカーをオンおよびオフにすることができる。そのような短い配列は、合成されたカセットなどのカセットまたはポリヌクレオチド内に容易に適合させることができる。
本明細書に開示されている方法および組成物を使用して操作の1回または複数回のラウンドを実施することができる。一部の例では、操作の各ラウンドを使用して、前のラウンドの編集と比べて独特の編集を組み入れる。操作の各ラウンドにより、独特のレコーディング配列を組み入れることができる。操作の各ラウンドにより、操作の前のラウンドで使用したCREATEプラスミドの除去またはキュアリングをもたらすことができる。一部の例では、操作の各ラウンドのレコーディング配列の上首尾の組み入れにより、完全かつ機能的な、スクリーニング可能または選択可能なマーカーまたは独特の配列組合せがもたらされる。
バーコードまたはスクリーニング可能もしくは選択可能なマーカーなどのレコーディング配列を含む独特のレコーダーカセットを操作の各ラウンドで挿入し、それにより、実施された編集または操作ステップの組合せを示すレコーダー配列を生成することができる。連続的なレコーディング配列を互いに隣接させて挿入することができる。連続的なレコーディング配列を互いとの近傍に挿入することができる。連続的な配列を互いから少し離して挿入することができる。
連続的な配列を互いから少し離して挿入することができる。例えば、連続的なレコーダー配列を挿入し、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、または100bpよりも大きく離すことができる。一部の例では、連続的なレコーダー配列は、約10、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、または1500bpよりも大きく離れている。
連続的なレコーダー配列を任意の所望の塩基対の数だけ離すことができ、これは、挿入される連続的なレコーダー配列の数、標的核酸もしくは標的ゲノムのサイズ、および/または所望の最終的なレコーダー配列の設計に依存し、それにより限定され得る。例えば、収集されたレコーダー配列が機能的なスクリーニング可能または選択可能なマーカーである場合、連続的なレコーディング配列を互いと近傍におよび同じ読み枠内に挿入することができる。収集されたレコーダー配列が配列決定によって同定されるバーコードの独特のセットであり、コード配列エレメントを有さない場合には、連続的なレコーダー配列を、任意の所望の塩基対の数だけそれらを離して挿入することができる。これらの場合には、分離距離は、使用される配列決定技術および読み取り長の限界に依存し得る。
一部の例では、レコーダーカセットは、操作の次のラウンドのレコーダーカセットの標的部位として使用されるランディング部位を含む。そのような方法を使用することにより、前のラウンドのレコーダーカセットが首尾よく組み入れられ、それにより、今の操作ラウンドのための標的部位がもたらされれば、連続的なラウンドのレコーダーカセットを標的部位にのみ導入することができる(例えば、図28)。
ガイド核酸
ガイド核酸は、適合する、核酸誘導型ヌクレアーゼと複合体を形成することができ、かつ、標的配列とハイブリダイズし、それにより、ヌクレアーゼを標的配列に導くことができる。ガイド核酸と複合体を形成することができる主題の核酸誘導型ヌクレアーゼは、ガイド核酸に適合する核酸誘導型ヌクレアーゼと称することができる。同様に、核酸誘導型ヌクレアーゼと複合体形成することができるガイド核酸は、核酸誘導型ヌクレアーゼに適合するガイド核酸と称することができる。
ガイド核酸は、DNAであってよい。ガイド核酸は、RNAであってよい。ガイド核酸は、DNAとRNAの両方を含み得る。ガイド核酸は、改変されたまたは天然に存在しないヌクレオチドを含み得る。ガイド核酸がRNAを含む場合では、RNAガイド核酸は、本明細書に開示されているプラスミド、直鎖状構築物、または編集カセットなどのポリヌクレオチド分子上のDNA配列によりコードされてよい。
ガイド核酸は、ガイド配列を含み得る。ガイド配列は、標的ポリヌクレオチド配列に対して、標的配列にハイブリダイズし、複合体を形成した核酸誘導型ヌクレアーゼの標的配列への配列特異的結合を導くのに十分な相補性を有するポリヌクレオチド配列である。ガイド配列とその対応する標的配列の相補性の程度は、適切なアラインメントアルゴリズムを使用して最適にアラインメントした場合、約50%もしくはそれよりも大きい、約60%もしくはそれよりも大きい、約75%もしくはそれよりも大きい、約80%もしくはそれよりも大きい、約85%もしくはそれよりも大きい、約90%もしくはそれよりも大きい、約95%もしくはそれよりも大きい、約97.5%もしくはそれよりも大きい、約99%もしくはそれよりも大きい、またはそれよりも大きい。最適なアラインメントは、配列をアラインメントするための任意の適切なアルゴリズムを使用して決定することができる。一部の実施形態では、ガイド配列は、約5ヌクレオチドもしくはそれを超える、約10ヌクレオチドもしくはそれを超える、約11ヌクレオチドもしくはそれを超える、約12ヌクレオチドもしくはそれを超える、約13ヌクレオチドもしくはそれを超える、約14ヌクレオチドもしくはそれを超える、約15ヌクレオチドもしくはそれを超える、約16ヌクレオチドもしくはそれを超える、約17ヌクレオチドもしくはそれを超える、約18ヌクレオチドもしくはそれを超える、約19ヌクレオチドもしくはそれを超える、約20ヌクレオチドもしくはそれを超える、約21ヌクレオチドもしくはそれを超える、約22ヌクレオチドもしくはそれを超える、約23ヌクレオチドもしくはそれを超える、約24ヌクレオチドもしくはそれを超える、約25ヌクレオチドもしくはそれを超える、約26ヌクレオチドもしくはそれを超える、約27ヌクレオチドもしくはそれを超える、約28ヌクレオチドもしくはそれを超える、約29ヌクレオチドもしくはそれを超える、約30ヌクレオチドもしくはそれを超える、約35ヌクレオチドもしくはそれを超える、約40ヌクレオチドもしくはそれを超える、約45ヌクレオチドもしくはそれを超える、約50ヌクレオチドもしくはそれを超える、約75ヌクレオチドもしくはそれを超える、またはそれを超える長さである。一部の実施形態では、ガイド配列は、約75ヌクレオチド未満、約50ヌクレオチド未満、約45ヌクレオチド未満、約40ヌクレオチド未満、約35ヌクレオチド未満、約30ヌクレオチド未満、約25ヌクレオチド未満、約20ヌクレオチド未満の長さである。ガイド配列は、10〜30ヌクレオチド長であることが好ましい。ガイド配列は15〜20ヌクレオチドの長さであってよい。ガイド配列は15ヌクレオチドの長さであってよい。ガイド配列は16ヌクレオチドの長さであってよい。ガイド配列は17ヌクレオチドの長さであってよい。ガイド配列は18ヌクレオチドの長さであってよい。ガイド配列は19ヌクレオチドの長さであってよい。ガイド配列は20ヌクレオチドの長さであってよい。
ガイド核酸は、足場配列を含み得る。一般に、「足場配列」は、ターゲティング可能なヌクレアーゼ複合体の形成を促進するのに十分な配列を有する任意の配列を含み、ここで、ターゲティング可能なヌクレアーゼ複合体は、核酸誘導型ヌクレアーゼならびに足場配列およびガイド配列を含むガイド核酸を含む。ターゲティング可能なヌクレアーゼ複合体の形成を促進するのに十分な足場配列内の配列は、足場配列内の2つの配列領域、例えば二次構造の形成に関与する1つまたは2つの配列領域などの長さに沿ってある程度の相補性を含み得る。一部の場合では、1つまたは2つの配列領域は、同じポリヌクレオチド上に含まれるまたはコードされる。一部の場合では、1つまたは2つの配列領域は、別々のポリヌクレオチド上に含まれるまたはコードされる。最適なアラインメントは、任意の適切なアラインメントアルゴリズムによって決定することができ、1つまたは2つの配列領域のいずれか内の自己相補性などの二次構造をさらに説明することができる。一部の実施形態では、1つまたは2つの配列領域間の、2つのうちの短い方の長さに沿った相補性の程度は、最適にアラインメントした場合、約25%もしくはそれを超える、約30%もしくはそれを超える、約40%もしくはそれを超える、約50%もしくはそれを超える、約60%もしくはそれを超える、約70%もしくはそれを超える、約80%もしくはそれを超える、約90%もしくはそれを超える、約95%もしくはそれを超える、約97.5%もしくはそれを超える、約99%もしくはそれを超える、またはそれよりも高い。一部の実施形態では、2つの配列領域の少なくとも一方は、約5ヌクレオチドもしくはそれを超える、約6ヌクレオチドもしくはそれを超える、約7ヌクレオチドもしくはそれを超える、約8ヌクレオチドもしくはそれを超える、約9ヌクレオチドもしくはそれを超える、約10ヌクレオチドもしくはそれを超える、約11ヌクレオチドもしくはそれを超える、約12ヌクレオチドもしくはそれを超える、約13ヌクレオチドもしくはそれを超える、約14ヌクレオチドもしくはそれを超える、約15ヌクレオチドもしくはそれを超える、約16ヌクレオチドもしくはそれを超える、約17ヌクレオチドもしくはそれを超える、約18ヌクレオチドもしくはそれを超える、約19ヌクレオチドもしくはそれを超える、約20ヌクレオチドもしくはそれを超える、約25ヌクレオチドもしくはそれを超える、約30ヌクレオチドもしくはそれを超える、約40ヌクレオチドもしくはそれを超える、約50ヌクレオチドもしくはそれを超える、またはそれを超える長さである。
主題のガイド核酸の足場配列は、二次構造を含み得る。二次構造は、シュードノット領域を含み得る。一部の例では、ガイド核酸と核酸誘導型ヌクレアーゼの適合性は、ガイドRNAのシュードノット領域内またはそれに隣接する配列によって少なくとも部分的に決定される。一部の場合では、ガイド核酸の核酸誘導型ヌクレアーゼに対する結合カイネティクスは、一部において、足場配列内の二次構造によって決定される。一部の場合では、ガイド核酸の核酸誘導型ヌクレアーゼに対する結合カイネティクスは、一部において、足場配列内の核酸配列によって決定される。
本発明の態様では、「ガイド核酸」という用語は、1)標的配列にハイブリダイズすることができるガイド配列および2)本明細書に記載の核酸誘導型ヌクレアーゼと相互作用するまたは複合体を形成することができる足場配列を含むポリヌクレオチドを指す。
ガイド核酸と、核酸誘導型ヌクレアーゼは、この2つのエレメントが、標的配列を切断することができる機能的なターゲティング可能なヌクレアーゼ複合体を形成することができれば、適合し得る。多くの場合、適合するガイド核酸に対する適合する足場配列は、ネイティブな核酸誘導型ヌクレアーゼ遺伝子座に隣接する配列をスキャンすることによって見出すことができる。言い換えれば、ネイティブな核酸誘導型ヌクレアーゼは、対応する適合するガイド核酸または足場配列の近傍にあるゲノム上にコードされ得る。
核酸誘導型ヌクレアーゼは、ヌクレアーゼが内在する宿主内には見出されないガイド核酸に適合し得る。そのような直交性のガイド核酸は、経験的試験によって決定することができる。直交性のガイド核酸は、異なる細菌種に由来するものであってもよく、合成されたまたは他のやり方で操作されて天然に存在しないものであってもよい。
共通する核酸誘導型ヌクレアーゼに適合する直交性のガイド核酸は、1つまたは複数の共通する特徴を含み得る。共通する特徴は、シュードノット領域の外側の配列を含み得る。共通する特徴は、シュードノット領域を含み得る。共通する特徴は、一次配列または二次構造を含み得る。
ガイド核酸は、ガイド配列を、ガイド配列が標的配列と相補的であり、それにより、ガイド配列と標的配列のハイブリダイゼーションが可能になるように変化させることにより、所望の標的配列を標的とするように操作することができる。操作されたガイド配列を有するガイド核酸は、操作されたガイド核酸と称することができる。操作されたガイド核酸は、多くの場合、天然に存在せず、天然には見出されない。
さらなる方法
定向ゲノム進化を実施する/DNAまたはRNA、例えば、ゲノムDNAまたはエピソームDNAなどの標的配列に変化(欠失、置換、付加)を生じさせるために、核酸誘導型ヌクレアーゼなどのヌクレアーゼを使用する、ゲノム操作のための方法が本明細書に開示される。適切なヌクレアーゼとしては、例えば、RNAをガイドとするヌクレアーゼ、例えば、Cas9、Cpf1、MAD2、もしくはMAD7など、DNAをガイドとするヌクレアーゼ、例えば、アルゴノートなど、または他のヌクレアーゼ、例えば、ジンクフィンガーヌクレアーゼ、TALEN、もしくはメガヌクレアーゼなどを挙げることができる。ヌクレアーゼ遺伝子は、任意の供給源から、例えば、細菌、古細菌、原核生物、真核生物、またはウイルスなどから得ることができる。例えば、Cas9遺伝子は、細菌S.pyogenesなどの、対応するII型CRISPR系を有する細菌から得ることができる(配列番号110)。ヌクレアーゼの核酸配列および/またはアミノ酸配列を、天然に存在するヌクレアーゼの配列に対して変異させることができる。変異は、例えば、1つまたは複数の挿入、欠失、置換または前述のうちの2つもしくは3つの任意の組合せであってよい。一部の場合では、得られる変異したヌクレアーゼは、天然に存在するヌクレアーゼと比べて増強されたまたは低下したヌクレアーゼ活性を有してよい。一部の場合では、得られる変異したヌクレアーゼは、天然に存在するヌクレアーゼと比べてヌクレアーゼ活性を有さなくてよい。
核酸誘導型ヌクレアーゼ媒介性ゲノム編集のための方法が本明細書で提供される。一部の開示されている方法は、編集カセットに由来する定向変異をゲノム、エピソーム核酸分子、または単離された核酸分子に直接組み入れるカセットライブラリーの生成に依拠する二段階構築プロセスを含み得る。一部の例では、カセットライブラリー構築の第1の段階の間に、合理的に設計された編集カセットを、標的DNA配列にハイブリダイズするまたはそれを標的とするガイド核酸(例えば、ガイドRNA)を有する細胞に同時に入れて形質転換することができる。一部の例では、ガイド核酸は、RNA分子として導入される、またはDNA分子上にコードされる。
編集カセットは、PAM部位の欠失または変異と、隣接する核酸配列内の1つまたは複数の所望のコドンまたは核酸残基の変異とがカップリングされるように設計することができる。欠失または変異したPAM部位は、一部の場合では、もはや選択された核酸誘導型ヌクレアーゼによって認識され得ない。一部の例では、例えば、2つ、3つ、4つ、またはそれよりも多くのPAMなど、少なくとも1つのPAMまたは1つよりも多くのPAMを欠失または変異させることができる。
本明細書に開示されている方法により、単一の形質転換でカセットライブラリー全体の生成を可能にすることができる。カセットライブラリーは、一部の場合では、組換え染色体の増幅によって、例えば、PCR反応によって、編集カセットに由来する合成特徴またはプライミング部位を使用して検索することができる。一部の例では、第2のPAM欠失または変異を同時に組み入れる。この手法により、コドン標的化変異とPAM欠失を直接共有結合によりカップリングすることができる。
一部の例では、カセットライブラリーを構築するための第2の段階がある。第2の段階の間に、目的のPAM欠失/変異および標的化変異、例えば、1つまたは複数のコドン内の1つまたは複数のヌクレオチドなどの1つまたは複数のヌクレオチドの所望の変異などを有するPCR増幅されたカセットライブラリーを、ナイーブな細胞に同時に入れて形質転換することができる。細胞は、真核細胞、古細菌細胞、または原核細胞であってよい。カセットライブラリーを、ガイド核酸またはそれをコードするプラスミドで同時形質転換して、合理的に設計されたタンパク質ライブラリーを発現する細胞の集団を生成することができる。ライブラリーを、gRNA、キメラgRNA、スプリットgRNA、またはcrRNAおよびtrRNAセットなどのガイド核酸で同時形質転換することができる。カセットライブラリーは、複数のカセットを含んでよく、各カセットは、編集カセットおよびガイド核酸を含む。カセットライブラリーは、複数のカセットを含んでよく、各カセットは、編集カセット、レコーダーカセットおよび2つのガイド核酸を含む。
一部のターゲティング可能なヌクレアーゼ系では、ガイド核酸により、標的配列の選択をガイドすることができる。本明細書で使用される場合、標的配列とは、in vitroもしくはin vivoにおける、または細胞もしくは細胞の集団の核酸における、少なくとも1つのヌクレオチドの変異、例えば、少なくとも1つのコドン内の少なくとも1つのヌクレオチドの変異などが望まれる任意の遺伝子座を指す。標的配列は、例えば、ゲノム遺伝子座、標的ゲノム配列、または染色体外の遺伝子座であり得る。ガイド核酸は、ガイドDNAと称されるDNA分子、またはガイドRNAと称されるRNA分子として発現させることができる。ガイド核酸は、標的領域の領域と相補的なガイド配列を含み得る。ガイド核酸は、適合する核酸誘導型ヌクレアーゼと相互作用することができ、場合によって二次構造を形成することができる足場配列を含み得る。ガイド核酸は、核酸誘導型ヌクレアーゼが標的部位に動員されるように機能し得る。ガイド配列は、標的部位の上流の領域と相補的であってよい。ガイド配列は、標的部位の少なくとも一部分と相補的であってよい。ガイド配列は、標的部位と完全に相補的(100%相補的)であってもよく、ヌクレアーゼに特異的にハイブリダイズする/それをガイドし、動員するのに十分に標的部位と相補的であれば、1つまたは複数のミスマッチを含んでもよい。適切な核酸誘導型ヌクレアーゼは、非限定的な例として、CRISPRヌクレアーゼ、Cas9またはCpf1などのCasヌクレアーゼ、MAD2、およびMAD7を含む。
一部のCRISPR系では、CRISPR RNA(crRNAまたはスペーサーを含有するRNA)およびトランス活性化CRISPR RNA(tracrRNAまたはtrRNA)により、標的配列の選択をガイドすることができる。本明細書で使用される場合、標的配列とは、in vitroもしくはin vivoにおける、または細胞もしくは細胞の集団の核酸における、少なくとも1つのヌクレオチドの変異、例えば、少なくとも1つのコドン内の少なくとも1つのヌクレオチドの変異などが望まれる任意の遺伝子座を指す。標的配列は、例えば、ゲノム遺伝子座、標的ゲノム配列、または染色体外の遺伝子座であり得る。tracrRNAおよびcrRNAは、単一ガイドRNAと称される単一のキメラRNA分子、ガイドRNA、またはgRNAとして発現させることができる。gRNAの核酸配列は、標的領域の領域と相補的な、第1の領域とも称される第1の核酸配列、および、ステムループ構造を形成し、CRISPRヌクレアーゼが標的領域に動員されるように機能する、第2の領域とも称される第2の核酸配列を含む。gRNAの第1の領域は、標的ゲノム配列の上流の領域と相補的であってよい。gRNAの第1の領域は、標的領域の少なくとも一部分と相補的であってよい。gRNAの第1の領域は、標的ゲノム配列と完全に相補的(100%相補的)であってもよく、Cas9またはCpf1などのCRISPRヌクレアーゼと特異的にハイブリダイズする/それをガイドするおよび動員するのに十分に標的ゲノム配列と相補的であれば、1つまたは複数のミスマッチを含んでもよい。
ガイド配列またはgRNAの第1の領域は、少なくとも15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または少なくとも30ヌクレオチドの長さであってよい。ガイド配列またはgRNAの第1の領域は、少なくとも20ヌクレオチドの長さであってよい。
足場配列またはgRNAの第2の核酸配列によって形成することができるステムループ構造は、少なくとも50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、7、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、または100ヌクレオチドの長さであってよい。ステムループ構造は、80〜90または82〜85ヌクレオチドの長さであってよい。ステムループ構造を形成する足場配列またgRNAの第2の領域は83ヌクレオチドの長さであってよい。
本明細書に開示されている方法を使用して第1の細胞に導入されるカセットのガイド核酸は、第2の細胞に導入される第2のカセットのガイド核酸と同じであってよい。1つよりも多くのガイド核酸を第1の細胞の集団および/または第2の細胞の集団に導入することができる。1つよりも多くのガイド核酸は、1つよりも多くの標的領域に相補的なガイド配列を含み得る。
本明細書に開示されている方法は、オリゴヌクレオチドを使用するステップを含み得る。そのようなオリゴヌクレオチドは、多くの供給源から得ることができるまたはそれに由来するものであってよい。例えば、オリゴヌクレオチドは、非相同ランダム組換え(NRR)によって多様化された核酸ライブラリーに由来するものであってよく、そのようなライブラリーは、NRRライブラリーと称される。オリゴヌクレオチドは、例えば、アレイに基づく合成または他の公知の化学合成方法によって合成することができる。オリゴヌクレオチドの長さは、オリゴヌクレオチドを得るのに使用される方法に依存し得る。オリゴヌクレオチドは、およそ50〜200ヌクレオチド、75〜150ヌクレオチド、または80〜120ヌクレオチドの間の長さであってよい。オリゴヌクレオチドは任意の整数、例えば、51、52、53、54、201、202などを含め、約10、20、30、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200ヌクレオチド、またはそれを超える長さであってよい。オリゴヌクレオチドは、任意の整数、例えば、101、203、1001、2001、2010などを含め、約100、200、300、400、500、600、700、800、900、1000、1250、1500、1750、2000ヌクレオチド、またはそれを超える長さであってよい。
オリゴヌクレオチドおよび/または他の核酸分子を組み合わせてまたはアセンブルして、カセットを生成することができる。そのようなカセットは、(a)細胞の核酸の標的領域と相同であり、標的領域と比べて少なくとも1つのヌクレオチドまたは1つのコドンの所望の変異を含む領域、および(b)プロトスペーサー隣接モチーフ(PAM)変異を含み得る。PAM変異は、PAMの配列を、核酸誘導型ヌクレアーゼ系またはCRISPRヌクレアーゼ系によって認識されなくなるように変異させる1つまたは複数のヌクレオチドの任意の挿入、欠失または置換であってよい。そのようなPAM変異を含む細胞は、ヌクレアーゼ媒介性死滅に対して「免疫性である」といえる。標的領域の配列と比べた所望の変異は、1つまたは複数のヌクレオチドの挿入、欠失、および/または置換であってよい。一部の例では、1つまたは複数のヌクレオチドの挿入、欠失、および/または置換は、標的領域の少なくとも1つのコドンにおけるものである。あるいは、(a)細胞の核酸の標的領域と相同であり、標的領域と比べて少なくとも1つのヌクレオチドまたは1つのコドンの所望の変異を含む領域、(b)プロトスペーサー隣接モチーフ(PAM)変異、および場合によって(c)細胞の核酸の第2の標的領域と相同であり、レコーダー配列を含む領域を含むカセットを単一の合成で合成することができる。
本明細書に開示されている方法は、細菌および古細菌を含めた任意の原核生物、または酵母、哺乳動物、およびヒト遺伝子を含めた任意の真核生物、または任意のウイルス粒子に由来する任意の目的の標的核酸分子に適用することができる。核酸モジュールは、非コード核酸配列、遺伝子、ゲノム、染色体、プラスミド、エピソーム核酸分子、人工染色体、合成染色体、またはウイルス核酸であってよい。
ドナー株ライブラリーの回収効率を評価するための方法が本明細書に開示されている。回収効率は、PCR産物の存在または選択された標的遺伝子座を対象とするプライマーを用いて得られるアンプリコンもしくはPCR産物のサイズもしくは配列の変化に基づいて検証することができる。プライマーは、ドナー核酸分子に含有される内在性配列または異種配列とハイブリダイズするように設計することができる。例えば、PCRプライマーは、異種配列とハイブリダイズするように設計することができ、したがって、ドナー核酸が組み入れられた場合にのみPCRが可能になる。回収されたライブラリーからのPCR産物の配列決定により、dsDNAカセットまたはドナー配列に由来する異種配列または合成プライミング部位を約90〜100%の効率で組み入れることができることが示される。他の例では、効率は、約5%、10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、99%または100%であり得る。
一部の場合では、本明細書に開示されている方法の最終的な編集効率を改善する能力を、ドナー構築相の間の変異の喪失を防ぐために、野生型ドナー株への移入前に遺伝子欠損株におけるカセット構築を行うことによって評価することができる。それに加えてまたはその代わりに、開示されている方法の効率は、必須の遺伝子を標的とすることによって評価することができる。必須の遺伝子には、ウイルス粒子、細胞、または生物体の生存または複製に必要な任意の遺伝子が含まれ得る。一部の例では、必須の遺伝子として、dxs、metA、およびfolAが挙げられる。必須の遺伝子は、記載されているガイド核酸設計戦略を使用して有効に標的とされている。他の適切な必須の遺伝子は当技術分野で周知である。
核酸誘導型ヌクレアーゼのレベルを調節することによって編集効率を上昇させる方法が本明細書で提供される。これは、高コピー数プラスミドまたは低コピー数プラスミドなどのコピー制御プラスミドを使用することによって行うことができる。細胞当たり約1000コピーを有し得る高コピー数プラスミドとは対照的に、低コピー数プラスミドは、細胞当たり約20またはそれ未満のコピーを有し得るプラスミドであってよい。高コピー数プラスミドおよび低コピー数プラスミドは当技術分野で周知であり、プラスミドを高または低コピー数と特徴付けるために細胞当たりの正確なプラスミドコピーが分かっている必要はないことが理解される。
一部の場合では、Cas9、Cpf1、MAD2、またはMAD7などの、核酸誘導型ヌクレアーゼの発現レベルの低下により、形質転換、編集、および/または記録効率を上昇させることができる。一部の場合では、核酸誘導型ヌクレアーゼの発現レベルの低下を、核酸誘導型ヌクレアーゼを低コピー数プラスミド上に発現させることによって行う。
一部の場合では、Cas9、Cpf1、MAD2、またはMAD7などの、核酸誘導型ヌクレアーゼの発現レベルの上昇により、形質転換、編集、および/または記録効率を上昇させることができる。一部の場合では、核酸誘導型ヌクレアーゼの発現レベルの上昇を、核酸誘導型ヌクレアーゼを高コピー数プラスミド上に発現させることによって行う。
タンパク質の発現レベルを調節する他の方法も構想され、当技術分野で公知である。そのような方法としては、誘導性もしくは構成的プロモーターを使用すること、エンハンサーもしくは他の発現調節エレメントを発現プラスミドに組み入れること、RNAi、amiRNAi、または他のRNAサイレンシング技法を使用して転写レベルを調節すること、目的のタンパク質を分解ドメインと融合すること、または当技術分野で公知の任意の他の方法が挙げられる。
変異体ライブラリーを生成するための方法が本明細書で提供される。一部の例では、変異体ライブラリーを有効に構築し、リコンビニアリング後1〜3時間以内に検索することができる。一部の例では、リコンビニアリング後0.5、1、2、3、4、5、6、7、8、9、10、12、または24時間以内に変異体ライブラリーを構築する。一部の例では、リコンビニアリング後および/またはリコンビニアリングによる構築後0.5、1、2、3、4、5、6、7、8、9、10、12、24、36、または48時間以内に変異体ライブラリーを検索することができる。
本明細書に開示されている一部の方法を、追跡可能な、高精度のゲノム編集に使用することができる。一部の例では、本明細書に開示されている方法により、編集カセットおよびガイド核酸の両方、ならびに場合によってレコーダーカセットおよび第2のガイド核酸をコードする単一のカセットを使用した高効率の編集/変異を実現することができる。あるいは、単一のベクターが編集カセットをコードしてよく、ガイド核酸は逐次的にまたは同時にもたらされる。本明細書に開示されている方法は、アレイに基づくDNA合成などの並行DNA合成と共に使用される場合、何百または何千もの高精度の編集/変異の単一ステップでの生成をもたらすことができる。変異は、細胞または生物体のゲノムまたはゲノムの切片の配列決定ではなく、ベクター上の編集カセットの配列決定によってマッピングすることができる。
本明細書に開示されている方法には、タンパク質およびゲノム操作適用において、ならびに実験室進化実験において同定された変異などの変異の再構築において、広範な有用性があり得る。一部の例では、本明細書に開示される方法および組成物により、所望の変異およびPAM変異を含めることができる編集カセットとガイド核酸をコードする遺伝子を単一のベクター上で組み合わせることができる。
一部の例では、追跡可能な変異体ライブラリーを単一の形質転換または単一の反応で生成することができる。
本明細書に開示されている方法は、所望の変異およびPAM変異を含む編集カセットを含むカセットを細胞または細胞の集団に導入するステップを含み得る。一部の実施形態では、カセットまたはベクターが導入される細胞は、Cas9、Cpf1、MAD2、またはMAD7などの、核酸誘導型ヌクレアーゼも含む。一部の実施形態では、核酸誘導型ヌクレアーゼをコードする遺伝子またはmRNAを細胞または細胞の集団に同時に、逐次的に、または続けて導入する。核酸誘導型ヌクレアーゼおよびガイド核酸を含むターゲティング可能なヌクレアーゼ系の細胞または細胞集団における発現を活性化することができ、したがって、ガイド核酸により、核酸誘導型ヌクレアーゼをdsDNA切断が起こる標的領域に動員する。
一部の例では、いかなる特定の理論にも制約されることなく、標的配列と相補的な編集カセットの相同領域により、PAMおよび標的配列の1つまたは複数のコドンが変異する。PAM変異が組み込まれなかった細胞の集団の細胞は、核酸誘導型ヌクレアーゼ媒介性dsDNA切断に起因して、編集されていない細胞死を受け得る。一部の例では、PAM変異が組み込まれた細胞の集団の細胞は細胞死を受けず、生存可能なままであり、選択的に濃縮されて存在量が高くなる。生存細胞を得ることができ、追跡可能なまたは標的化変異のライブラリーをもたらすことができる。
一部の例では、いかなる特定の理論にも制約されることなく、標的配列と相補的なレコーダーカセットの相同領域により、PAMが変異し、バーコードが標的配列に導入される。PAM変異が組み込まれなかった細胞の集団の細胞は、核酸誘導型ヌクレアーゼ媒介性dsDNA切断に起因して、編集されていない細胞死を受け得る。一部の例では、PAM変異が組み込まれた細胞の集団の細胞は細胞死を受けず、生存可能なままであり、選択的に濃縮されて存在量が高くなる。生存細胞を得ることができ、追跡可能な変異のライブラリーをもたらすことができる。
核酸誘導型ヌクレアーゼをコードする別々のベクターまたはmRNAを細胞または細胞の集団に導入することができる。ベクターまたはmRNAの細胞または細胞の集団への導入は、当技術分野で公知の任意の方法または技法を使用して実施することができる。例えば、ベクターを、化学的形質転換および電気穿孔を含めた形質転換、形質導入ならびに粒子衝撃などの標準のプロトコールによって導入することができる。それに加えてまたはその代わりに、mRNAを、本明細書に開示されている形質転換などの標準のプロトコールによって、および/または細胞透過性ペプチドもしくはナノ粒子を伴う技法によって導入することができる。
編集カセットは、(a)細胞または細胞の集団内の核酸の標的領域を認識し(それとハイブリダイズし)、細胞の核酸の標的領域と相同であり、標的領域と比べて少なくとも1つのコドンに存在し得る、少なくとも1つのヌクレオチドの所望の変異と称される変異を含む領域、および(b)プロトスペーサー隣接モチーフ(PAM)変異を含み得る。一部の例では、編集カセットは、バーコードも含む。バーコードは、対応する変異をバーコードに基づいて同定することができるような独特のバーコードまたは比較的独特なものであってよい。PAM変異は、PAMの配列を変異させ、したがって、変異したPAM(PAM変異)が選択された核酸誘導型ヌクレアーゼ系によって認識されないようにする1つまたは複数のヌクレオチドの任意の挿入、欠失または置換であってよい。例えばPAM変異などを含む細胞は、核酸誘導型ヌクレアーゼ媒介性死滅に対して「免疫性である]といえる。標的領域の配列と比べた所望の変異は、1つまたは複数のヌクレオチドの挿入、欠失、および/または置換であってよく、標的領域の少なくとも1つのコドンであってよい。一部の実施形態では、PAM変異と所望の変異の間の距離は、編集カセット上で、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、または100ヌクレオチドである。一部の実施形態では、PAM変異は、編集カセットの終わりから少なくとも9ヌクレオチドのところに位置する。一部の実施形態では、所望の変異は、編集カセットの終わりから少なくとも9ヌクレオチドのところに位置する。
所望の変異は、標的配列の配列と比べた核酸配列の挿入であってよい。標的配列に挿入される核酸配列は、任意の長さであってよい。一部の実施形態では、挿入される核酸配列は、少なくとも1、2、3、4、5、10、20、30、40、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、または少なくとも2000ヌクレオチドの長さである。標的配列に核酸配列が挿入される実施形態では、編集カセットは、少なくとも10、15、20、25、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、または少なくとも60ヌクレオチドの長さであり、標的配列と相同な領域を含む。ホモロジーアームまたは相同領域は、間の任意の整数を含め、約10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200ヌクレオチド、またはそれを超える長さであってよい。ホモロジーアームまたは相同領域は、200ヌクレオチドを超える長さであってよい。
バーコードは、対応する変異をバーコードに基づいて同定することができるような独特のバーコードまたは比較的独特なものであってよい。一部の例では、バーコードは、天然には見出されない、天然に存在しない配列である。大多数の例では、編集カセット内の所望の変異とバーコードの組合せは、天然に存在せず、天然には見出されない。バーコードは、任意のヌクレオチド数の長さであってよい。バーコードは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30または30ヌクレオチドを超える長さであってよい。一部の場合では、バーコードは、30ヌクレオチドを超える長さである。
編集カセットまたはレコーダーカセットは、ガイド核酸をコードする遺伝子の少なくとも一部分、および場合によってコードされるガイド核酸に作動可能に連結したプロモーターを含み得る。一部の実施形態では、ガイド核酸をコードする遺伝子の一部分は、標的配列と相補的なガイド核酸の部分をコードする。標的配列と相補的なガイド核酸の部分、またはガイド配列は、少なくとも15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または少なくとも30ヌクレオチドの長さであってよい。一部の実施形態では、ガイド配列は、24ヌクレオチドの長さである。一部の実施形態では、ガイド配列は、18ヌクレオチドの長さである。
一部の実施形態では、編集カセットまたはレコーダーカセットは、少なくとも2つのプライミング部位をさらに含む。プライミング部位は、カセットを例えばPCRによって増幅するために使用することができる。一部の実施形態では、ガイド配列の一部をプライミング部位として使用する。
記載されている方法において使用するための編集カセットまたはレコーダーカセットは、多くの供給源から得ることができるまたはそれに由来するものであってよい。例えば、カセットは、例えば、アレイに基づく合成、多重化合成、多重並行合成、PCRアセンブリ、in vitroアセンブリ、ギブソン・アセンブリ、または当技術分野で公知の任意の他の合成方法によって合成することができる。一部の実施形態では、編集カセットまたはレコーダーカセットを、例えば、アレイに基づく合成、多重化合成、多重並行合成、PCRアセンブリ、in vitroアセンブリ、ギブソン・アセンブリ、または当技術分野で公知の任意の他の合成方法によって合成する。編集カセットまたはレコーダーカセットの長さは、前記カセットを得るのに使用される方法に依存し得る。
編集カセットは、およそ50〜300ヌクレオチド、75〜200ヌクレオチド、または80〜120ヌクレオチドの間の長さであってよい。一部の実施形態では、編集カセットは、50クレオチドから1Mbの間の任意のばらばらの長さであってよい。
レコーダーカセットは、およそ50〜300ヌクレオチド、75〜200ヌクレオチド、または80〜120ヌクレオチドの間の長さであってよい。一部の実施形態では、レコーダーカセットは、50クレオチドから1Mbの間の任意のばらばらの長さであってよい。
本明細書に開示されている方法は、編集カセットおよびレコーダーカセットを得るステップおよび追跡可能なプラスミドまたはベクターを構築するステップも伴い得る。ベクターを構築する方法は当業者には公知であり、カセットをベクター骨格にライゲーションするステップを伴い得る。一部の例では、プラスミド構築を、in vitroにおけるDNAアセンブリ方法、オリゴヌクレオチドアセンブリ、PCRに基づくアセンブリ、SLIC、CPEC、または当技術分野で周知の他のアセンブリ方法によって行う。一部の実施形態では、ベクターの構築前に、カセットまたはカセットのサブセット(プール)を例えばPCRによって増幅することができる。
核酸誘導型ヌクレアーゼをコードするポリヌクレオチドを含む細胞または細胞の集団を、ヌクレアーゼが発現する条件下で維持または培養することができる。核酸誘導型ヌクレアーゼの発現は、制御されてもよく、構成的にオンになっていてもよい。本明細書に記載の方法は、ヌクレアーゼの発現が活性化され、その結果、ヌクレアーゼ、例えば、Cas9、Cpf1、MAD2、またはMAD7が産生される条件下で細胞を維持するステップを伴い得る。核酸誘導型ヌクレアーゼが発現する特定の条件は、ヌクレアーゼの発現を調節するために使用されるプロモーターの性質などの因子に依存し得る。核酸誘導型ヌクレアーゼの発現は、アラビノースなどのインデューサー分子の存在下で誘導することができる。核酸誘導型ヌクレアーゼをコードするDNAを含む細胞または細胞の集団がインデューサー分子の存在下にあると、ヌクレアーゼの発現が起こり得る。CRISPR−ヌクレアーゼの発現は、リプレッサー分子の存在下で抑制され得る。核酸誘導型ヌクレアーゼをコードするDNAを含む細胞または細胞の集団がヌクレアーゼの発現を抑制する分子の不在下にあると、ヌクレアーゼの発現が起こり得る。
生存可能なままの細胞または細胞の集団を、核酸誘導型ヌクレアーゼ媒介性死滅の結果として編集されていない細胞死を受ける細胞から得るまたは分離することができ、これは例えば、細胞の集団を培養表面に広げ、生存細胞を成長させることによって行うことができ、次いで、これらは評価のために利用可能である。
細胞のゲノムまたはゲノムの大きな部分について配列決定することを必要とせずに変異を同定するための方法が本明細書に開示される。当該方法は、編集カセット、レコーダーカセット、またはバーコードについて配列決定して、1つまたは複数のコドンの変異を同定するステップを伴い得る。編集カセットの配列決定は、ベクターの構成成分として実施することもでき、ベクターから分離し、場合によって増幅した後に実施することもできる。配列決定は、例えばサンガーシーケンシングまたは次世代シーケンシング法によって、当技術分野で公知の任意の配列決定方法を使用して実施することができる。
本明細書に記載の一部の方法は、原核および真核細胞を含め、ターゲティング可能なヌクレアーゼ系が機能する、またはDNAを標的とし、切断することができる任意の細胞型において実行することができる。一部の実施形態では、細胞は、Escherichia spp.、例えば、E.coliなどの細菌細胞である。他の実施形態では、細胞は、酵母細胞、例えば、Saccharomyces spp.などの真菌細胞である。他の実施形態では、細胞は、藻類細胞、植物細胞、昆虫細胞、またはヒト細胞を含めた哺乳動物細胞である。
「ベクター」は、細胞に送達するまたは細胞において発現させる所望の配列または配列を含む、種々の核酸のいずれかである。所望の配列は、例えば制限およびライゲーションによって、または当技術分野で公知の組換えもしくはアセンブリ方法によってベクターに含めることができる。ベクターは、一般にはDNAで構成されるが、RNAベクターも利用可能である。ベクターとしては、これらに限定されないが、プラスミド、フォスミド、ファージミド、ウイルスゲノム、人工染色体、および合成核酸分子が挙げられる。
本明細書に開示されている方法において有用なベクターは、本明細書に記載の少なくとも1つの編集カセット、gRNAをコードする少なくとも1つの遺伝子、ならびに場合によってプロモーターおよび/またはバーコードを含み得る。1つよりも多くの編集カセット、例えば、2種、3種、4種、5種、6種、7種、8種、9種、10種またはそれよりも多くの編集カセットをベクターに含めることができる。1つよりも多くの編集カセットは、異なる標的領域を標的とするように設計することができ、例えば、それぞれが異なる標的領域と相同な少なくとも1つの領域を含有する異なる編集カセットが存在してよい。他の例では、各編集カセットは、同じ標的領域を標的とするが、各編集カセットは、標的領域と比べた異なる所望の変異を含む。他の例では、複数の編集カセットは、同じ標的領域を標的とする編集カセットと異なる標的領域を標的とする編集カセットの組合せを含み得る。各編集カセットは、同定用バーコードを含み得る。その代わりにまたはそれに加えて、ベクターは、1種よりも多くのgRNA、例えば、2種、3種、4種、5種、6種、7種、8種、9種、10種またはそれよりも多くのgRNAをコードする1つまたは複数の遺伝子を含み得る。1種よりも多くのgRNAは、異なる標的領域の一部と相補的な領域を含有してよく、例えば、異なるgRNAが存在する場合、そのそれぞれが、異なる標的領域の一部と相補的であってよい。他の例では、1種よりも多くのgRNAは、それぞれ同じ標的領域を標的としてよい。他の例では、1種よりも多くのgRNAは、同じ標的領域を標的とするgRNAと異なる標的領域を標的とするgRNAの組合せであってよい。
ガイド核酸の一部をコードする遺伝子を含むカセットを、ガイド核酸の別の部分をコードするベクターにライゲーションまたはアセンブルすることができる。ライゲーションまたはアセンブルすると、カセットに由来するガイド核酸の部分とガイド核酸の他の部分が機能的なガイド核酸を形成し得る。プロモーターと、ガイド核酸をコードする遺伝子を作動可能に連結することができる。
一部の実施形態では、方法は、Cas9、Cpf1、MAD2、またはMAD7などの、核酸誘導型ヌクレアーゼをコードする第2のベクターの導入を伴う。ベクターは、核酸誘導型ヌクレアーゼをコードする遺伝子に作動可能に連結した1つまたは複数のプロモーターをさらに含み得る。
本明細書で使用される場合、「作動可能に」連結したとは、gRNAをコードする遺伝子またはCRISPRヌクレアーゼをコードする遺伝子などの遺伝子をコードするDNAの転写に影響を及ぼすまたはそれを調節するプロモーターを意味し得る。
プロモーターは、ベクターが導入される細胞内に存在するプロモーターなどのネイティブなプロモーターであってよい。プロモーターは、誘導性または抑制可能なプロモーターであってよく、例えば、プロモーターを、ガイド核酸をコードする遺伝子または核酸誘導型ヌクレアーゼをコードする遺伝子などの遺伝子の誘導性または抑制可能な転写が可能になるように調節することができる。分子の存在または非存在によって調節されるそのようなプロモーターは、それぞれインデューサーまたはリプレッサーと称することができる。ガイド核酸または核酸誘導型ヌクレアーゼを発現させるために必要なプロモーターの性質は、種または細胞型に基づいて変動し得、当業者によって認識され得る。
核酸誘導型ヌクレアーゼをコードする別々のベクターを、細胞または細胞の集団に、本明細書に開示されている追跡可能なプラスミドの導入の前にまたはそれと同時に導入することができる。核酸誘導型ヌクレアーゼをコードする遺伝子を細胞または細胞の集団のゲノムに組み込むこともでき、遺伝子をエピソームとして維持することもできる。核酸誘導型ヌクレアーゼをコードするDNAを細胞のゲノムに、追跡可能なプラスミドの導入前、または追跡可能なプラスミドの導入後に組み込むことができる。一部の例では、核酸誘導型ヌクレアーゼをコードするDNAなどの核酸分子を、ゲノムに組み込まれたDNAから発現させることができる。一部の実施形態では、Cas9、Cpf1、MAD2、またはMAD7をコードする遺伝子を細胞のゲノムに組み込む。
本明細書に記載の方法において有用なベクターまたはカセットは、2つまたはそれよりも多くのプライミング部位をさらに含み得る。一部の実施形態では、隣接するプライミング部位の存在により、ベクターまたはカセットの増幅が可能になる。
一部の実施形態では、カセットまたはベクターは、1種または複数の核局在化配列(NLS)、例えば、約1種もしくはそれよりも多く、約2種もしくはそれよりも多く、約3種もしくはそれよりも多く、約4種もしくはそれよりも多く、約5種もしくはそれよりも多く、約6種もしくはそれよりも多く、約7種もしくはそれよりも多く、約8種もしくはそれよりも多く、約9種もしくはそれよりも多く、約10種もしくはそれよりも多く、またはそれよりも多くのNLSを含む、核酸誘導型ヌクレアーゼをコードする。一部の実施形態では、操作されたヌクレアーゼは、アミノ末端またはその近傍に、約1種もしくはそれよりも多く、約2種もしくはそれよりも多く、約3種もしくはそれよりも多く、約4種もしくはそれよりも多く、約5種もしくはそれよりも多く、約6種もしくはそれよりも多く、約7種もしくはそれよりも多く、約8種もしくはそれよりも多く、約9種もしくはそれよりも多く、約10種もしくはそれよりも多く、またはそれよりも多くのNLSを含み、カルボキシ末端またはその近傍に、約1種もしくはそれよりも多く、約2種もしくはそれよりも多く、約3種もしくはそれよりも多く、約4種もしくはそれよりも多く、約5種もしくはそれよりも多く、約6種もしくはそれよりも多く、約7種もしくはそれよりも多く、約8種もしくはそれよりも多く、約9種もしくはそれよりも多く、約10種もしくはそれよりも多く、またはそれよりも多くのNLSを含む、あるいはこれらの組合せを含む(例えば、アミノ末端に1種または複数のNLSおよびカルボキシ末端に1種または複数のNLS)。1種よりも多くのNLSが存在する場合、それぞれを他のNLSとは独立して選択することができ、したがって、単一のNLSが1つよりも多くのコピー内に存在してよく、かつ/または1つもしくは複数のコピー内に存在する1つもしくは複数の他のNLSとの組合せで存在してよい。本発明の好ましい実施形態では、操作されたヌクレアーゼは、最大で6種のNLSを含む。一部の実施形態では、NLSは、NLSの最も近傍のアミノ酸が、NまたはC末端からポリペプチド鎖に沿って約1、2、3、4、5、10、15、20、25、30、40、50、またはそれよりも多くのアミノ酸の範囲内であれば、NまたはC末端に近いとみなされる。NLSの非限定的な例としては、アミノ酸配列PKKKRKV(配列番号111)を有するSV40ウイルスラージT−抗原のNLSに由来するNLS配列;ヌクレオプラスミン(例えば、配列KRPAATKKAGQAKKKK(配列番号112)を有するヌクレオプラスミンバイパータイトNLS)由来のNLSに由来するNLS配列;アミノ酸配列PAAKRVKLD(配列番号113)またはRQRRNELKRSP(配列番号114)を有するc−myc NLSに由来するNLS配列;配列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(配列番号115)を有するhRNPA1 M9 NLSに由来するNLS配列;インポーチン−アルファ由来のIBBドメインの配列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(配列番号1 116)に由来するNLS配列;筋腫Tタンパク質の配列VSRKRPRP(配列番号117)およびPPKKARED(配列番号115)に由来するNLS配列;ヒトp53の配列PQPKKKPL(配列番号119)に由来するNLS配列;マウスc−abl IVの配列SALIKKKKKMAP(配列番号120)に由来するNLS配列;インフルエンザウイルスNS1の配列DRLRR(配列番号121)およびPKQKKRK(配列番号122)に由来するNLS配列;肝炎ウイルスデルタ抗原の配列RKLKKKIKKL(配列番号123)に由来するNLS配列;マウスMx1タンパク質の配列REKKKFLKRR(配列番号124)に由来するNLS配列;ヒトポリ(ADP−リボース)ポリメラーゼの配列KRKGDEVDGVDEVAKKKSKK(配列番号125)に由来するNLS配列;ならびにステロイドホルモン受容体(ヒト)グルココルチコイドの配列RKCLQAGMNLEARKTKK(配列番号126)に由来するNLS配列が挙げられる。
一般に、1種または複数のNLSは、真核細胞の核内への核酸誘導型ヌクレアーゼの検出可能な量での蓄積を駆動するのに十分な強度のものである。一般に、核局在化活性の強度は、NLSの数、使用される特定のNLS(複数可)、またはこれらの因子の組合せから引き出すことができる。核内への蓄積の検出は、任意の適切な技法によって実施することができる。例えば、検出可能なマーカーを、核酸誘導型ヌクレアーゼと融合させることがき、したがって、例えば、核の場所を検出するための手段(例えば、DAPIなどの核に特異的な染色)と組み合わせて、細胞内の場所を可視化することができる。細胞核を細胞から単離することもでき、次いで、その内容物を、免疫組織化学、ウエスタンブロット、または酵素活性アッセイなどの、タンパク質を検出するための任意の適切なプロセスによって分析することができる。核内の蓄積は、例えば、核酸誘導型ヌクレアーゼ複合体の形成の影響につてのアッセイ(例えば標的配列におけるDNA切断もしくは変異についてのアッセイ、またはターゲティング可能なヌクレアーゼ複合体の形成および/もしくは核酸誘導型ヌクレアーゼ活性による影響を受ける遺伝子発現活性の変化についてのアッセイ)によって、核酸誘導型ヌクレアーゼもしくはターゲティング可能なヌクレアーゼ複合体に曝露していない、または1種もしくは複数のNLSを欠く核酸誘導型ヌクレアーゼに曝露した対照と比較して間接的に決定することもできる。
ProSAR
本明細書に開示されている方法は、数種から数百種までの遺伝子配列またはタンパク質を同時に操作することができる。これらの方法により、単一の実験において、多くのまたは全ての可能性のある残基変化を、所望のタンパク質の集合にわたって、個々の目的のタンパク質の一部としてまたは経路の一部として、目的の形質にマッピングすることを可能にすることができる。この手法は、少なくとも以下:i)特定の生化学的経路内のもしくは同様の反応を触媒する任意の数の目的のタンパク質についての任意の数の残基変化、またはii)特定のレギュロンを有する任意の数の目的のタンパク質の調節部位内の任意の数の残基、またはiii)健康状態を処置するために使用される生物学的作用物質の任意の数の残基のマッピングのために使用することができる。
一部の実施形態では、本明細書に記載の方法は、1種または複数の標的タンパク質の任意の数の残基、例えば、1つもしくは複数、または全ての残基などに影響を及ぼす1種または複数の標的遺伝子の遺伝的変異を同定するステップを含む。これらの実施形態によると、本明細書に開示されている組成物および方法により、2種またはそれよりも多くの標的タンパク質または形質に寄与するタンパク質の並行分析が可能になる。記載されている単一の実験による多数のタンパク質の並行分析により、例えば、真核生物または原核生物による副産物を産生させるため、真核生物による副産物、例えば、増殖因子などの生物学的作用物質、または原核生物において抗体などを産生させるための優れた系の同定、改変および設計を容易にすることができる。疾患の分析および処置に使用される関連する生物製剤を、製造者および消費者のコストを減らすと同時に、産生時間を短縮し、品質を向上させ得るこれらの遺伝子工学により操作された環境で産生することができる。
本明細書に開示されている一部の実施形態は、遺伝子または遺伝子セグメントの遺伝的変異を試験するために有用な構築物を含み、ここで、遺伝子または遺伝子セグメントは、タンパク質を生成することができる。バーコードなどの追跡可能な作用物質と連結した、標的タンパク質の任意の数の残基、例えば1つ、2つ、2つよりも多く、または全ての残基改変に対する構築物を生成することができる。標的タンパク質の遺伝子の遺伝的変異を示すバーコードは、遺伝子のオープンリーディングフレームの外側に位置してよい。一部の実施形態では、そのようなバーコードは、遺伝子から何百または何千塩基も離れたところに位置してよい。本明細書では、これらの方法をin vivoにおいて実施することができることが意図されている。一部の例では、そのような構築物は、本明細書に開示されている追跡可能なポリ核酸またはプラスミドを含む。
本明細書に記載の構築物を使用して、1つの標的タンパク質、1つよりも多くの標的タンパク質または形質に寄与する標的タンパク質の全ての残基変化を包含する遺伝的変異の包括的なライブラリーをコンパイルすることができる。ある特定の実施形態では、本明細書に開示されているライブラリーを使用して、例えば、化学薬品、バイオ燃料、生物学的作用物質、医薬品、またはバイオマス、または生物学的製剤などの副産物を産生させるための、非選択的な系と比較して改善された単一のまたは多数のタンパク質系を創出するための、品質が改善されたタンパク質を選択することができる。
タンパク質配列と活性の関係(ProSAR)のマッピング
タンパク質のアミノ酸構造とその全体的な機能の関係を理解することには、生物学者および技術者にとって大きな実用的、臨床的、および科学的意義があり続けている。指向性進化法は、強力な操作および発見ツールであり得るが、ランダムかつ多くの場合にコンビナトリアルであるという変異の性質により、それらの個々の影響を定量することは難しく、したがって、さらなる操作は課題である。個々の残基または飽和変異誘発の寄与に関するより系統的な分析は、タンパク質全体について依然として多大な労力および時間を要するものであり、単純に、標準の方法を使用して妥当な時間尺度で多数のタンパク質、例えば代謝経路または多タンパク質複合体などについて並行してより系統的な分析を行うことは不可能である。
ウイルス、微生物、または真核生物のゲノムにおける遺伝子の一部または全部の役割を、バーコードが付されたオリゴヌクレオチドの混合物を使用して迅速かつ効率的に試験するために使用することができる方法が本明細書で提供される。一部の実施形態では、これらの組成物および方法を使用して、タンパク質の構造と活性の関係(ProSAR)を包括的にマッピングするための強力な新しい技術を開発することができる。
本明細書に開示されている方法および組成物を使用すると、多重化カセット合成をリコンビニアリングと組み合わせて、1種または複数の目的の遺伝子にわたって並行した、特異的に設計されバーコードが付された変異の変異体ライブラリーを創出することができる。スクリーニングおよび/または選択、その後のハイスループットな配列決定および/またはバーコードマイクロアレイ法により、タンパク質配列と活性の関係(ProSAR)の迅速なマッピングを可能にすることができる。一部の実施形態では、系統的なProSARマッピングにより、機能および/または活性および/または安定性などの改善のための個々のアミノ酸変異を解明することができる。
方法を繰り返して、機能、活性、または安定性をコンビナトリアルに改善することができる。カセットは、オリゴヌクレオチド合成によって生成することができる。多重化オリゴヌクレオチド合成の既存の能力は、リコンビニアリングと組み合わせて、アレイ当たり120,000を超えるオリゴヌクレオチドに到達し得ることを考慮して、本明細書に開示されている方法の規模を拡大して、単一の実験において数十種から数百種までのタンパク質の変異体ライブラリーを構築することができる。一部の例では、本明細書に開示されている方法によって生成された変異体ライブラリーによって少なくとも1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、15種、25種、50種、75種、100種、150種、200種、250種、300種、400種、500種、600種、700種、800種、900種、1000種、またはそれよりも多くのタンパク質を部分的に、または完全に網羅することができる。
いくつかの異なるタンパク質についてのバーコードが付された置換ライブラリーを同時に構築するための戦略が本明細書に開示される。既存の多重化DNA合成技術を使用すると、開示されている通り、1種または複数のタンパク質構築物についての部分的なまたは完全な置換ライブラリーは、1種または数百種のタンパク質に関して同時に、バーコードが付されていてもよく、所望であればバーコードが付されていなくてもよい。一部の例では、そのようなライブラリーは、本明細書に開示されている追跡可能なプラスミドを含む。
本明細書の一部の実施形態は、任意のタンパク質の分析および構造/機能/安定性ライブラリー構築に、活性に関する対応するスクリーニングまたは選択と共に適用される。カセットライブラリーサイズは、目的のタンパク質内のアミノ酸の数(N)に依存し得、各位置において全部で20種のアミノ酸および場合によって天然に存在しないアミノ酸を含む完全飽和ライブラリーは19(またはそれよりも多く)×Nの規模になりアラニン−マッピングライブラリーは1×Nの規模になる。したがって、一部の例では、1,000よりも多くのアミノ酸の非常に大きなタンパク質のスクリーニングでさえ、アレイ当たり少なくとも120,000オリゴという現在の多重化オリゴ合成能を考えれば扱いやすいものであり得る。
活性スクリーニングに加えてまたはその代わりに、開発されたハイスループットなスクリーニングおよび選択を用いたより一般的な性質を、本明細書に開示されている方法およびカセットを使用して効率的に試験することができる。例えば、普遍的なタンパク質フォールディングおよび溶解性のレポーターを、細胞質、ペリプラズム、および内膜において発現させるために操作することができる。一部の例では、タンパク質ライブラリーを、種々の形質の発現に必要な残基変化を同定するために、異なる温度、異なる基質または補因子などの異なる条件下でスクリーニングすることができる。他の実施形態では、残基を一度に1つずつ分析することができるので、熱安定性、環境圧力に対する抵抗性、または機能性もしくは産生の増大もしくは低減などの特定の形質に重要な残基における変異を触媒活性などの種々の他の形質に重要な変異と多重化リコンビニアリングによって組み合わせて、多形質最適化のためのコンビナトリアルライブラリーを創出することができる。
本明細書に開示されている方法により、1種または複数の標的タンパク質の包括的なin vivoにおける変異ライブラリーの創出および/または評価をもたらすことができる。これらの手法をレコーダーカセットまたはバーコーディング技術によって拡張して、タンパク質内の任意の数の残基またはあらゆる残基についての追跡可能な変異ライブラリーを生成することができる。この手法は、選択される技術に応じて、in vivoにおいて機能するように拡張された、1種または数種から数百種までのタンパク質に対して同時に機能することができるタンパク質配列と活性の関係のマッピング方法に基づき得る。例えば、これらの方法により、単一の実験において、任意の数の、大多数の、または全ての可能性のある残基変化を、所望のタンパク質の集合にわたって、個々の目的のタンパク質の一部としてまたは経路の一部として、目的の形質にマッピングすることを可能にする。
一部の例では、これらの手法を、少なくとも以下i)リコペン産生などの特定の生化学的経路内の、もしくは、所望の効果を生じるもしくは産物を産生する有用な経路のデヒドロゲナーゼもしくは他の酵素などの同様の反応を触媒する任意の数のもしくは全てのタンパク質についての任意の数のもしくは全ての残基変化、またはii)熱ショック応答などの特定の調節機構を有する任意の数のもしくは全てのタンパク質の調節部位内の任意の数のもしくは全ての残基、またはiii)インスリン、増殖因子(HCG)、抗がん生物学的製剤、もしくは欠損集団に対する補充用タンパク質などの、健康状態を処置するために使用される生物学的作用物質の任意の数のもしくは全ての残基のマッピングのために使用することができる。
ゲノム的に操作された生物体または系を設計するための1つまたは複数の複合スコアを生成するために、種々のインプットパラメータに関連するスコアを割り当てることができる。これらのスコアは、生物体または所定の産生のための生物体の設計、形質(複数可)の選択に関するので、遺伝子または遺伝子遺伝子座の遺伝的変異の質を反映し得る。ある特定の生物体または系を、バイオリファイニング(biorefining)、作物、木、イネ科植物、作物残渣、もしくは森林残留物などのバイオマス、バイオ燃料産生、ならびに化合物を生成し、使用するための、生物的変換、発酵、化学変換および触媒作用の使用、バイオ医薬品産生および生物学的産生のための改善された生物体の必要性に基づいて設計することができる。ある特定の実施形態では、これは、微生物の成長または産生を本明細書に開示されている遺伝子操作方法によって調節することによって実現することができる。
タンパク質をコードする遺伝子の本明細書に開示されている方法による遺伝子操作を使用して、所望の表現型をもたらすことができ、これらに限定されないが、所望の表現型の変化を伴う所望の遺伝子変化をもたらす、i)新しい遺伝子材料の導入、ii)遺伝子挿入、既存の遺伝子材料の破壊または除去、ならびに、iii)点変異などの遺伝子材料の変異、またはi、ii、およびiiiの任意の組合せを含めた多数の技法によって実現することができる、所望の遺伝子変化を行うことができる。変異は、これらに限定されないが、PCRによるエラープローンまたは定向変異誘発、変異誘発株、およびランダム変異誘発を含めたものに加えて、定向であってもランダムであってもよい。変異は、本明細書に開示されている追跡可能なプラスミドおよび方法を使用して組み入れることができる。
開示されている方法は、高次の改変を微生物のゲノムまたは標的タンパク質に挿入し、蓄積させるために使用することができる;例えば、1種を超える、5種を超える、10種を超える、15種を超える、20種を超える、25種を超える、30種を超える、40種を超える、50種を超える、60種を超える、70種を超える、80種を超える、90種を超える、100種を超える、150種を超える、200種を超える、250種を超える、300種を超える、またはそれよりも多くの標的化改変を伴うゲノムのライブラリーを生成するための、高効率での、同じゲノム内の多数の異なる部位特異的変異が記載されている。一部の例では、これらの変異は、調節モジュール、調節エレメント、タンパク質コード領域、または非コード領域内のものである。タンパク質コーディング改変としては、これらに限定されないが、アミノ酸の変化、コドン最適化、および翻訳調整を挙げることができる。
一部の例では、単一の生体細胞に試薬を共送達するための方法が提供される。当該方法は、一般に、2つまたはそれよりも多くのカセットの付着または連結、その後の、連結したカセットの単一細胞への送達を伴う。一般に、本明細書で提供される方法は、2つまたはそれよりも多くのカセットの単一細胞への送達を伴う。多くの場合、個々の細胞それぞれが2つまたはそれよりも多くのカセットを受け取ることが望ましい。試薬送達の伝統的な方法は、多くの場合、非効率的かつ/または相反する可能性があり、これにより、一部の細胞がただ1つのカセットを受け取る状況が導かれる。本明細書で提供される方法は、細胞集団内の大多数の細胞がそれぞれ2つまたはそれよりも多くのカセットを受け取るように、試薬送達の効率および/または一貫性を改善することができる。例えば、細胞集団内の細胞の50%よりも多く、55%よりも多く、60%よりも多く、65%よりも多く、70%よりも多く、75%よりも多く、80%よりも多く、85%よりも多く、90%よりも多く、95%よりも多く、96%よりも多く、97%よりも多く、98%よりも多く、99%よりも多くが2つまたはそれよりも多くのカセットを受け取ることができる。
2つまたはそれよりも多くのカセットは、当技術分野における任意の公知の方法によって連結することができ、一般に、選択される方法は、カセットの化学的性質に見合うものになる。一般に、2つまたはそれよりも多くのカセットは共有結合によって連結される(すなわち、共有結合により連結される)が、水素結合、イオン結合、および金属結合などの他の型の非共有結合性の化学結合が構想される。このように、編集カセットおよびレコーダーカセットを連結し、単一細胞に送達することができる。次いで、既知の編集をその細胞についての既知のレコーダーまたはバーコード配列と関連付ける。
一例では、2つまたはそれよりも多くのカセットは、2つまたはそれよりも多くの核酸などの核酸である。核酸は、RNA、DNA、または両方の組合せであってよく、任意の数の化学的に改変されたヌクレオチドまたはヌクレオチド類似体を含有してよい。一部の場合では、2つまたはそれよりも多くのRNAカセットを、単一細胞への送達のために連結する。他の場合では、2つまたはそれよりも多くのDNAカセットを、単一細胞への送達のために連結する。さらに他の場合では、DNAカセットとRNAカセットを、単一細胞への送達のために連結する。核酸は、ゲノムRNA、相補DNA(cDNA)、または化学的にもしくは酵素的に合成されたDNAに由来するものであってよい。
カセットは、最大で全長タンパク質をコードするまたは調節性の遺伝子エレメントまで3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、約110、約120、約130、約140、約150、約160、約170、約180、約190、約200、約210、約220、約230、約240、約250、約275、約300、約325、約350、約375、約400、約425、約450、約475、約500、約525、約550、約575、約600、約625、約650、約675、約700、約725、約750、約775、約800、約825、約850、約875、約900、約925、約950、約975、約1000、約1100、約1200、約1300、約1400、約1500、約1750、約2000、約2500、約3000、約4000、約5000、約6000、約7000、約8000、約9000、約10,000ヌクレオチド残基またはそれを超える長さであってよい。
2つまたはそれよりも多くのカセットを直鎖状核酸分子上で連結することもでき、プラスミドまたは環状核酸分子上で連結することもできる。2つまたはそれよりも多くのカセットを互いと直接連結することもでき、1つまたは複数のヌクレオチドスペーサーまたはリンカーによって分離することもできる。
2つまたはそれよりも多くのカセットを直鎖状カセット上で共有結合により連結することもでき、プラスミドまたは環状核酸分子上で共有結合により連結することもできる。2つまたはそれよりも多くのカセットを互いと直接共有結合により連結することもでき、1つまたは複数のヌクレオチドスペーサーまたはリンカーによって分離することもできる。
任意の数および種類のカセットを共送達のために連結することができる。例えば、2つまたはそれよりも多くのカセットは、核酸、脂質、タンパク質、ペプチド、小分子、またはそれらの任意の組合せを含み得る。2つまたはそれよりも多くのカセットは、連結に適する本質的に任意のカセットであってよい。
好ましい例では、2つまたはそれよりも多くのカセットを共有結合により(例えば、化学結合により)連結する。共有結合による連結は、2つまたはそれよりも多くのカセットが単一細胞に共送達されることを確実にするために役立ち得る。一般に、2つまたはそれよりも多くのカセットを、細胞への送達前に共有結合により連結する。2つまたはそれよりも多くの分子を共有結合により連結する任意の方法を利用することができ、使用される方法は、少なくとも部分的に、連結されるカセットの型によって決定されることが理解されるべきである。
一部の例では、単一の生体細胞に試薬を共送達するための方法が提供される。当該方法は、一般に、2つまたはそれよりも多くのカセットの共有結合による付着または連結、その後の、共有結合により連結したカセットの単一細胞への送達を伴う。提供される方法は、個々の細胞が2つまたはそれよりも多くのカセットを受け取ることを確実にするために役立ち得る。試薬送達の任意の公知の方法は、連結したカセットを細胞に送達するために利用することができ、送達されるカセットの化学的性質に少なくとも部分的に依存する。試薬送達方法の非限定的な例としては、形質転換、リポフェクション、電気穿孔、トランスフェクション、ナノ粒子などを挙げることができる。
種々の実施形態では、カセット、または単離されたドナー、または編集核酸を細胞または微生物に導入して、細胞または微生物の一面、例えば、本明細書に開示されている微生物の生存または成長を変化させるまたは調節することができる。単離された核酸は、ゲノムRNA、相補DNA(cDNA)、化学的にまたは酵素的に合成されたDNAに由来してよい。それに加えてまたはその代わりに、単離された核酸は、捕捉用プローブ、プライマー、標識された検出用オリゴヌクレオチド、またはDNAアセンブリ用の断片に有用であり得る。
「核酸」は、一本鎖および/または二本鎖分子、ならびにDNA、RNA、化学修飾された核酸および核酸類似体を含み得る。核酸は、最大で全長タンパク質をコードするまたは調節性遺伝子エレメントまで、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、約110、約120、約130、約140、約150、約160、約170、約180、約190、約200、約210、約220、約230、約240、約250、約275、約300、約325、約350、約375、約400、約425、約450、約475、約500、約525、約550、約575、約600、約625、約650、約675、約700、約725、約750、約775、約800、約825、約850、約875、約900、約925、約950、約975、約1000、約1100、約1200、約1300、約1400、約1500、約1750、約2000、約2500、約3000、約4000、約5000、約6000、約7000、約8000、約9000、約10,000またはそれを超えるヌクレオチド残基の長さであってよいことが意図されている。
単離された核酸は、当技術分野で公知の任意の方法によって、例えば、標準の組換え方法、アセンブリ方法、合成技法、またはこれらの組合せを使用して作出することができる。一部の実施形態では、核酸をクローニング、増幅、アセンブル、または他のやり方で構築することができる。
核酸は、好都合に、リシンリボスイッチの一部に加えて配列を含み得る。例えば、1つまたは複数のエンドヌクレアーゼ制限部位を含むマルチクローニング部位を付加することができる。核酸を、核酸のクローニングのために、ベクター、アダプター、またはリンカーに付着させることができる。核酸の単離を補助するそれらの機能を最適化するため、または細胞への核酸の導入を改善するために、そのようなクローニングおよび配列に追加的な配列を付加することができる。クローニングベクター、発現ベクター、アダプター、およびリンカーの使用は当技術分野において周知である。
単離された核酸は、当技術分野で公知の任意の数のクローニング方法論を使用して、細胞、細菌、または他の供給源から得ることができる。一部の実施形態では、ストリンジェントな条件下で生物体または細胞の他のオリゴヌクレオチドまたは核酸に選択的にハイブリダイズするオリゴヌクレオチドプローブ。核酸ライブラリーを構築するための方法は公知であり、任意のそのような公知の方法を使用することができる。
細胞のゲノムDNA、RNA、またはcDNAを、同定された目的の遺伝子エレメントの存在について、プローブを使用し、1つまたは複数の配列に基づいてスクリーニングすることができる。種々の程度のストリンジェンシーのハイブリダイゼーションをアッセイに使用することができる。
核酸ハイブリダイゼーションのための高ストリンジェンシー条件は当技術分野で周知である。例えば、条件は、約50℃〜約70℃の温度で約0.02M〜約0.15MのNaClによってもたらされるものなどの低塩および/または高温条件を含み得る。所望のストリンジェンシーの温度およびイオン強度は、一部において、特定の核酸(複数可)の長さ、標的配列(複数可)の長さおよびヌクレオチド含有量、核酸(複数可)の電荷組成によって、およびハイブリダイゼーション混合物中のホルムアミド、塩化テトラメチルアンモニウムまたは他の溶媒(複数可)の存在または濃度によって決定されることが理解される。核酸は、標的配列と完全に相補的であってもよく、1つまたは複数のミスマッチを示してもよい。
目的の核酸を、種々の公知の増幅技法を使用して増幅することもできる。例えば、ポリメラーゼ連鎖反応(PCR)技術を使用して、標的配列をDNA、RNA、またはcDNAから直接増幅することができる。PCRおよび他のin vitro増幅方法は、例えば、核酸配列をクローニングするため、試料中の標的核酸の存在を検出するためのプローブとして使用するための核酸を作出するため、核酸配列決定のため、または他の目的のためにも有用であり得る。
単離された核酸は、ホスホトリエステル法などの方法による直接化学合成によって、または自動合成機を使用して調製することができる。化学合成では、一般に、一本鎖オリゴヌクレオチドが生成する。これを、相補配列とのハイブリダイゼーションによって、または、一本鎖を鋳型として使用し、DNAポリメラーゼを用いた重合によって二本鎖DNAに変換することができる。
本明細書において意図されている標的タンパク質の活性を同定、単離、精製、使用およびアッセイするための、当技術分野で公知の任意の方法が意図されている。本明細書において意図されている標的タンパク質は、ヒトの状態を処置するためまたはヒトもしくは非ヒト哺乳動物の疾患に関与するプロセス(例えば、酵素などの経路の一部)を調節するために使用されるタンパク質薬剤を含む。抗体または抗体断片の選択および産生で知られている任意の方法も意図されている。それに加えてまたはその代わりに、標的タンパク質は、ウイルス、細胞、または生物体における経路またはプロセスに関与するタンパク質または酵素であり得る。
ターゲティング可能な核酸切断系
本明細書で提供される一部の方法は、特異的な核酸配列の切断を、部位特異的、ターゲティング可能、および/または操作されたヌクレアーゼまたはヌクレアーゼ系を使用して標的化するステップを含む。そのようなヌクレアーゼにより、ゲノムまたは核酸分子内の所望の場所に二本鎖切断(DSB)を創出することができる。他の例では、ヌクレアーゼにより、一本鎖切断を創出することができる。一部の場合では、2種のヌクレアーゼを使用し、そのそれぞれにより一本鎖切断を生成する。
1つまたは複数の二本鎖切断または一本鎖切断を、細胞の内在性機構を使用して相同組換え(HR)および非相同末端結合(NHEJ)の天然のプロセスによって修復することができる。それに加えてまたはその代わりに、内在性または異種性組換え機構を使用して、誘導された切断(複数可)を修復することができる。
ジンクフィンガーヌクレアーゼ(ZFN)、転写活性化因子様エフェクターヌクレアーゼ(TALEN)、操作されたホーミングエンドヌクレアーゼ、ならびに、Cas9もしくはCPF1などのCRISPR/Cas、および/またはアルゴノート系などのRNAまたはDNAをガイドとするエンドヌクレアーゼなどの操作されたヌクレアーゼが、本発明の方法のいくつかの実施に特に適する。それに加えてまたはその代わりに、c2c2ヌクレアーゼを含むCRISPR/Cas系などのRNA標的化系を使用することができる。
本明細書に開示されている方法は、I型、II型、III型、IV型、V型、またはVI型CRISPR系などのCRISPR系を使用して標的核酸を切断するステップを含み得る。CRISPR/Cas系は、多タンパク質系であっても単一のエフェクタータンパク質系であってもよい。多タンパク質またはクラス1CRISPR系として、I型、III型、およびIV型系が挙げられる。あるいは、クラス2系として、単一のエフェクター分子が挙げられ、II型、VI型、およびVI型が含まれる。
本明細書に開示されている方法において使用されるCRISPR系は、単一または多数のエフェクタータンパク質を含み得る。エフェクタータンパク質は、1つまたは多数のヌクレアーゼドメインを含み得る。エフェクタータンパク質は、DNAを標的とするものであってもRNAを標的とするものであってもよく、DNAまたはRNAは、一本鎖であっても二本鎖であってもよい。エフェクタータンパク質は、二本鎖または一本鎖切断を生成することができる。エフェクタータンパク質は、ヌクレアーゼドメインに変異を含み得、それにより、ニッカーゼタンパク質が生成される。エフェクタータンパク質は、1つまたは複数のヌクレアーゼドメインに変異を含み得、それにより、標的配列に結合することはできるが、それを切断することはできない、触媒として機能しないヌクレアーゼが生成される。CRISPR系は、単一のまたは多数の、ガイドとなるRNAを含み得る。gRNAは、crRNAを含み得る。gRNAは、crRNAおよびtracrRNA配列を有するキメラRNAを含み得る。gRNAは、crRNAおよびtracrRNAを別々に含み得る。標的核酸配列は、プロトスペーサー隣接モチーフ(PAM)またはプロトスペーサー隣接部位(PFS)を含み得る。PAMまたはPFSは、標的またはプロトスペーサー部位に対して3’側にあっても5’側にあってもよい。標的配列の切断により、平滑末端、3’突出部、または5’突出部が生成し得る。
gRNAは、スペーサー配列を含み得る。スペーサー配列は、標的配列またはプロトスペーサー配列と相補的であってよい。スペーサー配列は、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、または36ヌクレオチドの長さであってよい。一部の例では、スペーサー配列は、10ヌクレオチド未満または36ヌクレオチドを超える長さであってよい。
gRNAは、反復配列を含み得る。一部の場合では、反復配列は、gRNAの二本鎖部分の一部である。反復配列は、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチドの長さであってよい。一部の例では、スペーサー配列は10ヌクレオチド未満または50ヌクレオチドを超える長さであってよい。
gRNAは、1つまたは複数の合成のヌクレオチド、天然に存在しないヌクレオチド、改変を伴うヌクレオチド、デオキシリボヌクレオチド、またはそれらの任意の組合せを含み得る。それに加えてまたはその代わりに、gRNAは、ヘアピン、リンカー領域、一本鎖領域、二本鎖領域、またはそれらの任意の組合せを含み得る。それに加えてまたはその代わりに、gRNAは、シグナル伝達またはレポーター分子を含み得る。
CRISPRヌクレアーゼは、細胞内で内因的にまたは組換えによって発現させることができる。CRISPRヌクレアーゼは、染色体上、染色体外に、またはプラスミド、合成染色体、もしくは人工染色体上にコードされるものであってよい。CRISPRヌクレアーゼは、細胞にポリペプチドまたはポリペプチドをコードするmRNAとしてもたらすまたは送達することができる。そのような例では、ポリペプチドまたはmRNAを、当技術分野で公知の標準の機構によって、例えば、細胞透過性ペプチド、ナノ粒子、またはウイルス粒子を使用することによって送達することができる。
gRNAは、細胞内の遺伝子DNAによりコードされるものであってもエピソームDNAによりコードされるものであってもよい。一部の例では、gRNAを、CRISPRヌクレアーゼを発現する細胞にもたらすまたは送達することができる。gRNAは、CRISPRヌクレアーゼと同時にまたは逐次的にもたらすまたは送達することができる。ガイドRNAは、化学的に合成すること、in vitroで転写させること、または当技術分野で公知の標準のRNA生成技法を使用して他のやり方で生成することができる。
CRISPR系は、II型CRISPR系、例えば、Cas9系であってよい。II型ヌクレアーゼは、一部の場合ではRuvCおよびHNHヌクレアーゼドメインを含む単一のエフェクタータンパク質を含み得る。一部の場合では、機能的なII型ヌクレアーゼは、2つまたはそれよりも多くのポリペプチドを含んでよく、そのそれぞれが、ヌクレアーゼドメインまたはその断片を含む。標的核酸配列は、3’プロトスペーサー隣接モチーフ(PAM)を含み得る。一部の例では、PAMは標的核酸に対して5’にあってよい。ガイドRNA(gRNA)は単一のキメラgRNAを含んでよく、当該キメラgRNAはcrRNA配列とtracrRNA配列の両方を含有する。あるいは、gRNAは、2つのRNAのセット、例えば、crRNAおよびtracrRNAを含み得る。II型ヌクレアーゼは、二本鎖切断を生成することができ、それにより、一部の場合では、2つの平滑末端が創出される。一部の場合では、II型CRISPRヌクレアーゼを、ニッカーゼになるように操作し、したがって、当該ヌクレアーゼにより、一本鎖切断のみが生成される。そのような場合では、2つの別個の核酸配列をgRNAにより標的とすることができ、したがって、ニッカーゼによって2つの一本鎖切断が生成される。一部の例では、2つの一本鎖切断により二本鎖切断が有効に創出される。II型ニッカーゼを使用して2つの一本鎖切断を生成する一部の場合では、得られる核酸遊離末端は、平滑末端であるか、3’突出部を有するか、または5’突出部を有するものであり得る。一部の例では、II型ヌクレアーゼは、触媒として機能しないものであってよく、したがって、標的配列に結合するが、それを切断しない。例えば、II型ヌクレアーゼは、RuvCドメインおよびHNHドメインの両方に変異を有してよく、それにより、どちらのヌクレアーゼドメインも非機能性になる。II型CRISPR系は、3つの亜型、すなわち、II−A型、II−B型、またはII−C型のうちの1つであってよい。
CRISPR系は、V型CRISPR系、例えば、Cpf1、C2c1、またはC2c3システムであってよい。V型ヌクレアーゼは、一部の場合では単一のRuvCヌクレアーゼドメインを含む単一のエフェクタータンパク質を含み得る。他の場合では、機能的V型ヌクレアーゼは、2つまたはそれよりも多くのポリペプチドを分割するRuvCドメインを含む。そのような場合では、標的核酸配列は、5’PAMまたは3’PAMを含み得る。ガイドRNA(gRNA)は、例えばCpf1を用いる場合など、単一のgRNAまたは単一のcrRNAを含み得る。一部の場合では、tracrRNAは必要ない。C2c1を使用するなどの他の例では、gRNAは、crRNA配列およびtracrRNA配列の両方を含有する単一のキメラgRNAを含んでもよく、または2つのRNAのセット、例えば、crRNAおよびtracrRNAを含んでもよい。V型CRISPRヌクレアーゼは、二本鎖切断を生成することができ、これにより、一部の場合では、5’突出部が生成する。一部の場合では、V型CRISPRヌクレアーゼを、ニッカーゼになるように操作し、したがって、当該ヌクレアーゼにより、一本鎖切断のみが生成される。そのような場合では、2つの別個の核酸配列をgRNAにより標的とすることができ、したがって、ニッカーゼによって2つの一本鎖切断が生成される。一部の例では、2つの一本鎖切断により二本鎖切断が有効に創出される。V型ニッカーゼを使用して2つの一本鎖切断を生成する一部の場合では、得られる核酸遊離末端は、平滑末端であるか、3’突出部を有するか、または5’突出部を有するものであり得る。一部の例では、V型ヌクレアーゼは、触媒として機能しないものであってよく、したがって、標的配列に結合するが、それを切断しない。例えば、V型ヌクレアーゼは、RuvCドメインに変異を有してよく、それにより、ヌクレアーゼドメインが非機能性になる。
CRISPR系は、VI型CRISPR系、例えば、C2c2系であってよい。VI型ヌクレアーゼは、HEPNドメインを含み得る。一部の例では、VI型ヌクレアーゼは、2つまたはそれよりも多くのポリペプチドを含み、そのそれぞれが、HEPNヌクレアーゼドメインまたはその断片を含む。そのような場合では、標的核酸配列は、一本鎖RNAなどのRNAであってよい。VI型CRISPR系を使用する場合、標的核酸は、プロトスペーサー隣接部位(PFS)を含み得る。PFSは、標的またはプロトスペーサー配列に対して3’側にあっても5’側にあってもよい。ガイドRNA(gRNA)は、単一のgRNAまたは単一のcrRNAを含み得る。一部の場合では、tracrRNAは必要ない。他の例では、gRNAは、crRNAおよびtracrRNA配列の両方を含有する単一のキメラgRNAを含んでもよく、または2つのRNAのセット、例えば、crRNAおよびtracrRNAを含んでもよい。一部の例では、VI型ヌクレアーゼは、触媒として機能しないものであってよく、したがって、標的配列に結合するが、それを切断しない。例えば、VI型ヌクレアーゼは、HEPNドメインに変異を有してよく、それにより、ヌクレアーゼドメインが非機能性になる。
本開示において使用するための、核酸誘導型ヌクレアーゼを含めた適切なヌクレアーゼの非限定的な例としては、C2c1、C2c2、C2c3、Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(Csn1およびCsx12としても公知)、Cas10、Cpf1、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx100、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、そのホモログ、そのオルソログ、またはその改変バージョンが挙げられる。適切な核酸誘導型ヌクレアーゼは、これらに限定されないが、Thiomicrospira、Succinivibrio、Candidatus、Porphyromonas、Acidomonococcus、Prevotella、Smithella、Moraxella、Synergistes、Francisella、Leptospira、Catenibacterium、Kandleria、Clostridium、Dorea、Coprococcus、Enterococcus、Fructobacillus、Weissella、Pediococcus、Corynebacter、Sutterella、Legionella、Treponema、Roseburia、Filifactor、Eubacterium、Streptococcus、Lactobacillus、Mycoplasma、Bacteroides、Flaviivola、Flavobacterium、Sphaerochaeta、Azospirillum、Gluconacetobacter、Neisseria、Roseburia、Parvibaculum、Staphylococcus、Nitratifractor、Mycoplasma、Alicyclobacillus、Brevibacilus、Bacillus、Bacteroidetes、Brevibacilus、Carnobacterium、Clostridiaridium、Clostridium、Desulfonatronum、Desulfovibrio、Helcococcus、Leptotrichia、Listeria、Methanomethyophilus、Methylobacterium、Opitutaceae、Paludibacter、Rhodobacter、Sphaerochaeta、Tuberibacillus、およびCampylobacterを含む属の生物体に由来するものであってよい。そのような属の生物体の種は、本明細書において他で論じられているものであってよい。適切な核酸誘導型ヌクレアーゼは、これらに限定されないが、Firmicute、Actinobacteria、Bacteroidetes、Proteobacteria、Spirochates、およびTenericutesを含む界内の属または未分類属の生物体に由来するものであってよい。適切な核酸誘導型ヌクレアーゼは、これらに限定されないが、Erysipelotrichia、Clostridia、Bacilli、Actinobacteria、Bacteroidetes、Flavobacteria、Alphaproteobacteria、Betaproteobacteria、Gammaproteobacteria、Deltaproteobacteria、Epsilonproteobacteria、Spirochaetes、およびMollicutesを含む門内の属または未分類の属の生物体に由来するものであってよい。適切な核酸誘導型ヌクレアーゼは、これらに限定されないが、Clostridiales、Lactobacillales、Actinomycetales、Bacteroidales、Flavobacteriales、Rhizobiales、Rhodospirillales、Burkholderiales、Neisseriales、Legionellales、Nautiliales、Campylobacterales、Spirochaetales、Mycoplasmatales、およびThiotrichalesを含む目内の属または未分類の属の生物体に由来するものであってよい。適切な核酸誘導型ヌクレアーゼは、これらに限定されないが、Lachnospiraceae、Enterococcaceae、Leuconostocaceae、Lactobacillaceae、Streptococcaceae、Peptostreptococcaceae、Staphylococcaceae、Eubacteriaceae、Corynebacterineae、Bacteroidaceae、Flavobacterium、Cryomoorphaceae、Rhodobiaceae、Rhodospirillaceae、Acetobacteraceae、Sutterellaceae、Neisseriaceae、Legionellaceae、Nautiliaceae、Campylobacteraceae、Spirochaetaceae、Mycoplasmataceae、Pisciririckettsiaceae、およびFrancisellaceaeを含む科内の属または未分類の属の生物体に由来するものであってよい。
本開示の方法、系、および組成物における使用に適した他の核酸誘導型ヌクレアーゼとしては、例えば、これらに限定されないが、Thiomicrospira sp.XS5、Eubacterium rectale、Succinivibrio dextrinosolvens、Candidatus Methanoplasma termitum、Candidatus Methanomethylophilus alvus、Porphyromonas crevioricanis、Flavobacterium branchiophilum、Acidomonococcus sp.、Lachnospiraceae bacterium COE1、Prevotella brevis ATCC 19188、Smithella sp.SCADC、Moraxella bovoculi、Synergistes jonesii、Bacteroidetes oral taxon 274、Francisella tularensis、Leptospira inadai serovar Lyme str.10、Acidomonococcus sp.結晶構造(5B43)、S.mutans、S.agalactiae、S.equisimilis、S.sanguinis、S.pneumonia;C.jejuni、C.coli;N.salsuginis、N.tergarcus;S.auricularis、S.carnosus;N.meningitides、N.gonorrhoeae;L.monocytogenes、L.ivanovii;C.botulinum、C.difficile、C.tetani、C.sordellii;Francisella tularensis 1、Prevotella albensis、Lachnospiraceae bacterium MC2017 1、Butyrivibrio proteoclasticus、Peregrinibacteria bacterium GW2011_GWA2_33_10、Parcubacteria bacterium GW2011_GWC2_44_17、Smithella sp.SCADC、Acidaminococcus sp.BV3L6、Lachnospiraceae bacterium MA2020、Candidatus Methanoplasma termitum、Eubacterium eligens、Moraxella bovoculi 237、Leptospira inadai、Lachnospiraceae bacterium ND2006、Porphyromonas crevioricanis 3、Prevotella disiens、Porphyromonas macacae、Catenibacterium sp.CAG:290、Kandleria vitulina、Clostridiales bacterium KA00274、Lachnospiraceae bacterium 3−2、Dorea longicatena、Coprococcus catus GD/7、Enterococcus columbae DSM 7374、Fructobacillus sp.EFB−N1、Weissella halotolerans、Pediococcus acidilactici、Lactobacillus curvatus、Streptococcus pyogenes、Lactobacillus versmoldensis、およびFilifactor alocis ATCC 35896などの生物体に由来するものが挙げられる。
本明細書に開示されている方法のいずれかにおいて使用するための適切なヌクレアーゼとしては、これらに限定されないが、表1に列挙されている配列を有するヌクレアーゼ、または表1に列挙されているヌクレアーゼのいずれかに対して少なくとも10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、もしくは99%の配列同一性を有するホモログが挙げられる。
本明細書に開示されている一部の方法では、アルゴノート(Ago)系を使用して標的核酸配列を切断することができる。Agoタンパク質は、原核生物、真核生物、または古細菌に由来するものであってよい。標的核酸は、RNAであってもDNAであってもよい。DNA標的は、一本鎖であっても二本鎖であってもよい。一部の例では、標的核酸は、プロトスペーサー隣接モチーフまたはプロトスペーサー隣接配列と同等の配列などの特定の標的隣接配列を必要としない。Agoタンパク質により、二本鎖切断または一本鎖切断を創出することができる。一部の例では、Agoタンパク質が一本鎖切断を形成する場合、2つのAgoタンパク質を組み合わせて使用して二本鎖切断を生成することができる。一部の例では、Agoタンパク質は、1つ、2つ、またはそれよりも多くのヌクレアーゼドメインを含む。一部の例では、Agoタンパク質は、1つ、2つ、またはそれよりも多くの触媒ドメインを含む。Agoタンパク質の1つまたは複数のヌクレアーゼまたは触媒ドメインを変異させ、それにより、一本鎖切断を生成することができるニッカーゼタンパク質を生成することができる。他の例では、Agoタンパク質の1つまたは複数のヌクレアーゼまたは触媒ドメインにおける変異により、標的核酸に結合することはできるが、それを切断することはできない触媒として機能しないAgoタンパク質を生成する。
Agoタンパク質は、ガイドとなる核酸によって標的核酸配列にターゲティングすることができる。多くの例では、ガイドとなる核酸は、ガイドDNA(gDNA)である。gDNAは、5’リン酸化末端を有してよい。gDNAは、一本鎖であっても二本鎖であってもよい。一本鎖gDNAは、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチドの長さであってよい。一部の例では、gDNAは、10ヌクレオチド未満の長さであってよい。一部の例では、gDNAは、50ヌクレオチドを超える長さであってよい。
アルゴノート媒介性切断により、平滑末端、5’突出部、または3’突出部が生成し得る。一部の例では、切断の間または切断後に1つまたは複数のヌクレオチドが標的部位から取り除かれる。
アルゴノートタンパク質は、細胞内で内因的にまたは組換えによって発現させることができる。アルゴノートは、染色体上、染色体外に、またはプラスミド、合成染色体、もしくは人工染色体上にコードされるものであってよい。それに加えてまたはその代わりに、アルゴノートタンパク質は、細胞にポリペプチドまたはポリペプチドをコードするmRNAとしてもたらすまたは送達することができる。そのような例では、ポリペプチドまたはmRNAを、当技術分野で公知の標準の機構によって、例えば、細胞透過性ペプチド、ナノ粒子、またはウイルス粒子を使用することによって送達することができる。
ガイドDNAは、細胞内の遺伝子またはエピソームDNAによってもたらすことができる。一部の例では、gDNAを細胞内のRNAまたはmRNAから逆転写する。一部の例では、gDNAを、Agoタンパク質を発現する細胞にもたらすまたは送達することができる。ガイドDNAは、Agoタンパク質と同時にもたらすまたは送達することもでき、逐次的にもたらすまたは送達することもできる。ガイドDNAは、化学的に合成、アセンブル、または、当技術分野で公知の標準のDNA生成技法を使用して他のやり方で生成することができる。ガイドDNAは、ゲノムDNA、エピソームDNA分子、単離された核酸分子、または任意の他の核酸分子の供給源から切断、放出、または他のやり方で得ることができる。
一部の例では、クロマチン−リモデリング酵素と連結した、核酸誘導型ヌクレアーゼ(例えば、Cas9、Cpf1、MAD2、もしくはMAD7)またはDNAをガイドとするヌクレアーゼ(例えば、Ago)などのヌクレアーゼを含む組成物が提供される。理論に束縛されることを望むものではないが、本明細書に記載のヌクレアーゼ融合タンパク質により、高度に構造化されたDNAの領域への接近可能性の改善をもたらすことができる。核酸誘導型ヌクレアーゼに連結することができるクロマチン−リモデリング酵素の非限定的な例としては、ヒストンアセチルトランスフェラーゼ(HAT)、ヒストン脱アセチル化酵素(HDAC)、ヒストンメチルトランスフェラーゼ(HMT)、クロマチンリモデリング複合体、および転写活性化因子様(Tal)エフェクタータンパク質を挙げることができる。ヒストン脱アセチル化酵素としては、HDAC1、HDAC2、HDAC3、HDAC4、HDAC5、HDAC6、HDAC7、HDAC8、HDAC9、HDAC10、HDAC11、sirtuin1、sirtuin2、sirtuin3、sirtuin4、sirtuin5、sirtuin6およびsirtuin7を挙げることができる。ヒストンアセチルトランスフェラーゼとしては、GCN5、PCAF、Hat1、Elp3、Hpa2、Hpa3、ATF−2、Nut1、Esa1、Sas2、Sas3、Tip60、MOF、MOZ、MORF、HBO1、p300、CBP、SRC−1、ACTR、TIF−2、SRC−3、TAFII250、TFIIIC、Rtt109およびCLOCKを挙げることができる。ヒストンメチルトランスフェラーゼとしては、ASH1L、DOT1L、EHMT1、EHMT2、EZH1、EZH2、MLL、MLL2、MLL3、MLL4、MLL5、NSD1、PRDM2、SET、SETBP1、SETD1A、SETD1B、SETD2、SETD3、SETD4、SETD5、SETD6、SETD7、SETD8、SETD9、SETDB1、SETDB2、SETMAR、SMYD1、SMYD2、SMYD3、SMYD4、SMYD5、SUV39H1、SUV39H2、SUV420H1、およびSUV420H2を挙げることができる。クロマチン−リモデリング複合体としては、SWI/SNF、ISWI、NuRD/Mi−2/CHD、INO80およびSWR1を挙げることができる。
一部の例では、ヌクレアーゼは、野生型ヌクレアーゼである。他の場合では、ヌクレアーゼは、操作されたキメラヌクレアーゼである。本明細書に開示されている操作されたキメラヌクレアーゼは、1つまたは複数の断片またはドメインを含んでよく、当該断片またはドメインは、核酸誘導型ヌクレアーゼなどのヌクレアーゼ、本明細書に開示されている属、種、または他の系統学的群の生物体のオルソログのものであってよい;断片は異なる種のヌクレアーゼオルソログに由来するものであることが有利である。操作されたキメラヌクレアーゼは、少なくとも2種の異なるヌクレアーゼに由来する断片またはドメインで構成されるものであってよい。操作されたキメラヌクレアーゼは、少なくとも2つの異なる種に由来する断片またはドメインで構成されるものであってよい。操作されたキメラヌクレアーゼは、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれよりも多くの異なるヌクレアーゼまたは異なる種に由来する断片またはドメインで構成されるものであってよい。一部の場合では、1種のヌクレアーゼまたは種に由来する1つよりも多くの断片またはドメイン、ここで、1つよりも多くの断片またはドメインは、第2のヌクレアーゼまたは種に由来する断片またはドメインによって分離している。一部の例では、操作されたキメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する2つの断片を含む。一部の例では、操作されたキメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する3つの断片を含む。一部の例では、操作されたキメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する4つの断片を含む。一部の例では、操作されたキメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する5つの断片を含む。
ヌクレアーゼ融合タンパク質を細胞内で組換えによって発現させることができる。ヌクレアーゼ融合タンパク質は、染色体上、染色体外に、またはプラスミド、合成染色体、もしくは人工染色体上にコードされるものであってよい。ヌクレアーゼおよびクロマチン−リモデリング酵素を別々に操作し、次いで、共有結合により連結した後、細胞に送達することができる。ヌクレアーゼ融合タンパク質は、細胞にポリペプチドまたはポリペプチドをコードするmRNAとしてもたらすまたは送達することができる。そのような例では、ポリペプチドまたはmRNAを、当技術分野で公知の標準の機構によって、例えば、細胞透過性ペプチド、ナノ粒子、またはウイルス粒子を使用することによって送達することができる。
ターゲティングされたヌクレアーゼの細胞周期依存性発現
一部の例では、細胞周期依存性ヌクレアーゼを含む組成物が提供される。細胞周期依存性ヌクレアーゼは、一般に、細胞周期のG1期に、ターゲティングされたヌクレアーゼの分解、および、細胞周期のG2/M期に、ターゲティングされたヌクレアーゼの発現を導く酵素と連結した、本明細書に記載のターゲティングされたヌクレアーゼを含む。そのような細胞周期依存性発現により、例えば、相同組換え修復(HDR)が最も活性である(例えば、G2/M期の)細胞におけるヌクレアーゼの発現が偏り得る。一部の場合では、ヌクレアーゼを、細胞周期のG1期に活発に分解され、細胞周期のG2/M期に活発に発現するものなどの、細胞周期調節タンパク質と共有結合させる。非限定的な例では、細胞周期調節タンパク質は、ジェミニン(Geminin)である。細胞周期調節タンパク質の他の非限定的な例としては、サイクリンA、サイクリンB、Hsll、Cdc6、Finl、p21およびSkp2を挙げることができる。
一部の例では、ヌクレアーゼは、野生型ヌクレアーゼである。
他の場合では、ヌクレアーゼは、操作されたヌクレアーゼである。操作されたヌクレアーゼは、天然に存在しないものであってよい。
天然に存在しないターゲティング可能なヌクレアーゼおよび天然に存在しないターゲティング可能なヌクレアーゼ系は、これらの難題および限定の多くに対処することができる。
天然に存在しないターゲティング可能なヌクレアーゼ系が本明細書に開示される。そのようなターゲティング可能なヌクレアーゼ系は、上記の難題の1つまたは複数に取り組むために操作され、操作されたヌクレアーゼ系と称することができる。操作されたヌクレアーゼ系は、操作された核酸誘導型ヌクレアーゼなどの操作されたヌクレアーゼ、操作されたガイド核酸、前記ヌクレアーゼをコードする操作されたポリヌクレオチド、または前記ガイド核酸をコードする操作されたポリヌクレオチドなどの1つまたは複数を含み得る。操作されたヌクレアーゼ、操作されたガイド核酸、および操作されたヌクレアーゼまたは操作されたガイド核酸をコードする操作されたポリヌクレオチドは、天然には存在せず、天然には見出されない。これらのエレメントの1つまたは複数を含む操作されたヌクレアーゼ系は天然に存在しないということになる。
天然に存在しないヌクレアーゼ系を得るために行うことができる操作の型の非限定的な例は以下の通りである。操作は、異種宿主細胞などの宿主細胞における発現を容易にするまたは発現を改善するためのコドン最適化を含み得る。発現または送達を容易にするために、操作によりヌクレアーゼのサイズまたは分子量を低減することができる。PAM特異性を変化させるためまたは認識されるPAMの範囲を広げるために、操作によりPAM選択を変化させることができる。操作により、ターゲティング可能なヌクレアーゼ系の安定性、処理能力、特異性、または効率を変化させる、増大させる、または低減することができる。操作により、タンパク質安定性を変化させる、増大させる、または低減することができる。操作により、核酸スキャニングの処理能力を変化させる、増大させる、または低減することができる。操作により、標的配列特異性を変化させる、増大させる、または低減することができる。操作により、ヌクレアーゼ活性を変化させる、増大させる、または低減することができる。操作により、編集効率を変化させる、増大させる、または低減することができる。操作により、形質転換効率を変化させる、増大させる、または低減することができる。操作により、ヌクレアーゼまたはガイド核酸の発現を変化させる、増大させる、または低減することができる。
本明細書に開示されている天然に存在しない核酸配列の例としては、E.coliなどの細菌における発現についてコドン最適化された配列(例えば、配列番号41〜60)、酵母などの単細胞真核生物における発現についてコドン最適化された配列(例えば、配列番号127〜146)、ヒト細胞などの多細胞真核生物における発現についてコドン最適化された配列(例えば、配列番号147〜166)、本明細書に開示されている任意の配列のクローニングもしくは発現のために使用されるポリヌクレオチド(例えば、配列番号61〜80)、異種プロモーターもしくは核局在化シグナルもしくは他の異種エレメントに作動可能に連結した、核酸配列を含むプラスミド(例えば、配列番号21〜40)、操作されたもしくはコドン最適化された核酸配列から生成されるタンパク質(例えば、配列番号1〜20)、または配列番号84〜107のうちのいずれか1つを含む操作されたガイド核酸が挙げられる。そのような天然に存在しない核酸配列は、合成オリゴヌクレオチドまたはdNTPから増幅させる、クローニングする、アセンブルする、合成する、生成すること、または当業者に公知の方法を使用して他のやり方で得ることができる。
本明細書に開示されている天然に存在しない核酸配列のさらなる例としては、E.coliなどの細菌における発現についてコドン最適化された配列(例えば、配列番号168)、酵母などの単細胞真核生物における発現についてコドン最適化された配列(例えば、配列番号169)、ヒト細胞などの多細胞真核生物における発現についてコドン最適化された配列(例えば、配列番号170)、本明細書に開示されている任意の配列のクローニングもしくは発現のために使用されるポリヌクレオチド(例えば、配列番号171)、異種プロモーターもしくは核局在化シグナルもしくは他の異種エレメントに作動可能に連結した、核酸配列を含むプラスミド(例えば、配列番号167)、操作されたもしくはコドン最適化された核酸配列から生成されるタンパク質(例えば、配列番号108〜110)、または本明細書に開示されている任意のターゲティング可能なヌクレアーゼに適合する操作されたガイド核酸が挙げられる。そのような天然に存在しない核酸配列は、合成オリゴヌクレオチドまたはdNTPから増幅させる、クローニングする、アセンブルする、合成する、生成すること、または当業者に公知の方法を使用して他のやり方で得ることができる。
ガイド核酸は、DNAであってよい。ガイド核酸は、RNAであってよい。ガイド核酸は、DNAとRNAの両方を含み得る。ガイド核酸は、改変されたまたは天然に存在しないヌクレオチドを含み得る。ガイド核酸がRNAを含む場合では、RNAガイド核酸は、本明細書に開示されているプラスミド、直鎖状構築物、または編集カセットなどのポリヌクレオチド分子上のDNA配列によりコードされるものであってよい。
核酸誘導型ヌクレアーゼは、ヌクレアーゼが内在する宿主内には見出されないガイド核酸に適合し得る。そのような直交性のガイド核酸は、経験的試験によって決定することができる。直交性のガイド核酸は、異なる細菌種に由来するものであってよくまたは合成されたもしくは他のやり方で操作されて天然に存在しないものであってよい。
共通する核酸誘導型ヌクレアーゼに適合する直交性のガイド核酸は、1つまたは複数の共通する特徴を含み得る。共通する特徴は、シュードノット領域の外側の配列を含み得る。共通する特徴は、シュードノット領域を含み得る(例えば、172〜181)。共通する特徴は、一次配列または二次構造を含み得る。
ガイド核酸は、ガイド配列を、ガイド配列が標的配列と相補的であり、それにより、ガイド配列と標的配列のハイブリダイゼーションが可能になるように変化させることにより、所望の標的配列を標的とするように操作することができる。操作されたガイド配列を有するガイド核酸は、操作されたガイド核酸と称することができる。操作されたガイド核酸は、多くの場合、天然に存在せず、天然には見出されない。
他の例では、ヌクレアーゼは、キメラヌクレアーゼである。キメラヌクレアーゼは、操作されたヌクレアーゼであってよい。本明細書に開示されているキメラヌクレアーゼは、1つまたは複数の断片またはドメインを含んでよく、当該断片またはドメインは、核酸誘導型ヌクレアーゼなどのヌクレアーゼ、属、種、または他の系統学的群の生物体のオルソログのものであってよい;断片は異なる種のヌクレアーゼオルソログに由来するものであることが有利である。キメラヌクレアーゼは、少なくとも2種の異なるヌクレアーゼに由来する断片またはドメインで構成され得る。キメラヌクレアーゼは、少なくとも2つの異なる種に由来する断片またはドメインで構成され得る。キメラヌクレアーゼは、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、またはそれよりも多くの異なるヌクレアーゼまたは異なる種に由来する断片またはドメインで構成され得る。一部の場合では、1種のヌクレアーゼまたは種に由来する1つよりも多くの断片またはドメイン、ここで、1つよりも多くの断片またはドメインは、第2のヌクレアーゼまたは種に由来する断片またはドメインによって分離している。一部の例では、キメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する2つの断片を含む。一部の例では、キメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する3つの断片を含む。一部の例では、キメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する4つの断片を含む。一部の例では、キメラヌクレアーゼは、それぞれが異なるタンパク質またはヌクレアーゼに由来する5つの断片を含む。
(実施例1)
CREATE−プラスミドおよびライブラリー
図1A〜Cは、CRISPR EnAbled Trackable genome Engineering(CREATE)設計およびワークフローの概要の例を示す。図1Aは、プログラムによるゲノム改変の焦点をゲノム全体にわたって重要なアミノ酸残基またはプロモーターを標的にすることを可能にするCREATE方法論の例を示す。したがって、そのようなライブラリーにより、多種多様なゲノム標的の配列/活性関係を並行して系統的に評価することが可能になる。図1Bは、E.coliゲノムにおける特定の遺伝子座を標的とするために、ホモロジーアーム(HA)およびガイドRNA(gRNA)配列の両方をコードするように設計したCREATEカセットの例を示す。同義のPAM変異によって選択的に濃縮して、配列をCas9による切断からレスキューし、高度に効率的な変異誘発を可能にすることができる特定のコドン変異(標的コドン)を導入するために、100bpのホモロジーアームを設計した。P1およびP2部位(黒色)は、多くのライブラリーの多重化増幅、クローニングおよび配列決定を並行して行うことを可能にする一般的なプライミング部位としての機能を果たす。プロモーター(J23119、緑色)は、gRNAの発現を駆動する構成的プロモーターである。galK遺伝子座内の残基145に終止コドンを導入するためのHA設計の詳細な例も図1Bの下部に示されている。上の配列は野生型ゲノム配列を示し、PAM(CCG;その逆相補物はCGGであり、これは、S.pyogenes Cas9によって認識される)および標的コドン(TAT、Yをコードする)が強調表示されている。HA設計により、PAM部位(CgG、その逆相補物はCCGであり、これは、S.pyogenes Cas9によって認識されない)に「サイレントスカー(silent scar)」が導入され、コドン145に一ヌクレオチドTAT>TAA変異が導入される(STOPがもたらされる)。この設計戦略を、ゲノム全体にわたってコード領域に対してプログラムにより実行した。図1Cは、CREATEワークフローの例の概要を示す。CREATEカセットを、大きなオリゴプール(個々のライブラリーメンバー104〜106種)として送達されるマイクロアレイ上に合成する。並行クローニングおよびリコンビニアリングにより、一部の場合では、23日でこれらのプールをゲノムライブラリーに加工することが可能になった。変異体ライブラリーの選択またはスクリーニング後に、CREATEプラスミドのディープシーケンシングを使用して、何千もの高精度の全ゲノム変異の適応度を追跡することができる。
(実施例2)
CREATEプラスミドの検証
図2A〜Dは、形質転換および編集効率に対するCas9活性の影響の例を示す。galK遺伝子のコドン145を標的とするgalK 120/17 CREATEカセット(120bpのHAおよび17bpのPAM/コドン間隔)または対照非標的化gRNAベクターを、dCas9(例えば、図2Aの左側の棒のセット)またはCas9(例えば、図2Aの右側の棒のセット)プラスミドと一緒にpSIM5を有する細胞に入れて形質転換した。pSIM5プラスミドは、ラムダレッド組換え機構を有する。アラビノースの添加によって切断活性の制御を可能にするために、cas9遺伝子をpBADプロモーターの制御下でpBTBX−2骨格にクローニングした。各ベクターの形質転換効率が濃い灰色の棒で示されている。組換え細胞の総数(薄い灰色の棒)を、マッコンキー寒天上での赤色/白色コロニースクリーニングに基づいて算出した。プレートに基づくスクリーニングにより白色コロニーが検出不可能であった場合、編集効率を104と仮定した。Cas9バックグラウンドに入れて形質転換したCREATEカセットについては、非標的化gRNA対照と比較して、形質転換効率の102分の1の低下も観察された。
図2Bは、編集効率に対するCREATEカセットHAの長さおよびPAM/コドン間隔の特徴付けの例を示す。全てのカセットを、PAMを、標的コドンおよび可変性のホモロジーアームの長さ(HA、底部)からの示されている距離(PAM/コドン、下部)で使用し、遺伝子内のコドン145にTAA停止が導入されるように設計した。濃い灰色および薄い灰色の棒は、pBADプロモーターの下、0.2%アラビノースを使用したCas9の非誘導性または誘導性発現に対応する。大多数の場合、編集効率は、誘導による影響を受けないと思われ、これにより、漏出性(leaky)発現に起因する少量のCas9が高効率の編集のために十分であることが示唆される。
図2Cは、CREATEリコンビニアリング反応からのゲノム遺伝子座の配列決定からのデータの例を示す。図2BのgalKカセットをHAの長さおよびPAMコドン間隔に応じて標識する。示されている他の遺伝子座は、多重化ライブラリークローニング反応から単離されたカセットであった。棒グラフ(図2C)は、各CREATEカセットを用いたリコンビニアリング後のゲノムコロニー配列決定によって各遺伝子型が観察された回数を示す。下部の+および標識は、各クローンにおける、2つの関連する部位における設計された変異の有無を示す。円形の挿入図は、E.coliゲノム上の各遺伝子の相対的な位置を示す。
図2Dは、CREATEプラスミドの多重化クローニングからのライブラリーカバレッジの例を示す。各バリアントのディープシーケンシング計数がそれらのゲノム上の位置に対して示されている。挿入図は、ライブラリー全体についてのこれらのプラスミド計数のヒストグラムを示す。分布は、低平均計数に関して予測されるポアソン分布に従う。
(実施例3)
追跡可能なエピソームDNAライブラリーを操作するために使用されるCREATE−レコーディング
図3Aは、追跡可能なエピソームDNAライブラリーを生成するために使用される方法の概要の例を示す。CREATEレコーダープラスミドによる形質転換により、標的DNAの改変が2つの部位で生成される。1つの編集は、所望の標的遺伝子(灰色)に生じ、特定の操作の目的を試験するために設計されたコドンまたはプロモーター変異が導入される。第2の編集は、機能的に中性の部位を標的とし、15ヌクレオチドのバーコード(BC、黒色)を導入する。これらのライブラリーを単一のCREATEプラスミド上にカップリングすることにより、標的DNAが両方の部位において編集され、各独特のバーコードを使用して、プラスミドの残り全体を通して編集を追跡することができる。
図2Bは、CREATEバーコード設計の例を示す。重複するオリゴから縮重ライブラリーを構築し、CREATEベクターの別々の部位にクローニングして、デザイナー編集ライブラリーにカップリングすることができるCREATEレコーダーカセットのライブラリーを作出する。
図2Cは、例示的なCREATE記録マッピング戦略を示す。標的DNA(左側)およびCREATEプラスミドの両方のディープシーケンシングにより、各編集カセットをバーコード配列によって一意的に割り当てることが可能になることによって単純な配列マッピング戦略が可能になる。これは、各バーコード(したがって、編集)の相対的な適応度を選択またはスクリーニングプロセス中に追跡することを可能にし、また、標準のベクターを使用して異なる生物体間でシャトルすることができる。
(実施例4)
エピソームDNAのCREATE媒介性編集
本明細書に開示されている方法および組成物を使用して、CREATEプロセスに使用されるcas9遺伝子の重要な残基を変異させた(例えば、図4A〜4B)。Cas9タンパク質にR1335K変異が生じるようにカセットを設計した。このカセットをCREATEプラスミドにクローニングし、pSIM5およびX2−Cas9ベクターを有するMG1655 E.coliに入れて形質転換した。pSIM5ベクターは、ラムダレッド組換え機構を含む。X2−Cas9ベクターは、アラビノース誘導性Cas9発現カセットを含む。Cas9発現を誘導するために0.4%アラビノースを補充したLB中に3時間回収した後、細胞をX2−Cas9およびCREATEプラスミドの両方の複製に対する選択圧を維持する抗生物質を含有する寒天上にプレーティングした。ランダムなクローンのコロニーPCRにより、CREATEプラスミドに由来する設計された編集がX2−Cas9プラスミドに効率的に移入されたことが明らかになった(例えば、図4B)。配列決定したクローンのうち、100%がX2Cas9にサイレントPAM変異を含有し、6/14(43%)は所望のコーディング編集も含有した。これは、CREATEを使用するプラスミドに基づく編集が、以前のゲノム操作の試みと比較して、プラスミド標的により高いコピー数が付随したにもかかわらず、頑強なものであることの最初の実証である。
(実施例5)
E.coliゲノムのCREATE媒介性編集および追跡−二重のカセット
ゲノムとの関連での記録戦略の性能を試験するために、E.coliゲノムにおける2つの遠位のゲノム遺伝子座を編集する能力を試験した(例えば、図5A)。これを行うために、15ヌクレオチドのバーコードがgalK遺伝子座に埋め込まれるように設計したCREATEレコーディングカセットライブラリーをクローニングした。クローニング後、数種の独特のバーコードを単離し、抗生物質トリメトプリムに対する耐性を付与することが本発明者らの以前のCREATE試験によって同定されたF153R変異がジヒドロ葉酸レダクターゼ(DHFR)/folA遺伝子に組み入れられるように設計した第2の編集カセットをクローニングした。以前に記載されたプロトコールに従った、二重CREATEレコーディングベクターの形質転換後のE.coli株の遺伝子型決定により、図5Aのデータがもたらされた。バーコーディングの効率(100%)は、標的ゲノム編集(80〜90%)よりも高く、これにより、編集されたゲノムを追跡できることが保証される。赤色・白色コロニースクリーニングによって決定したところ、観察された形質転換された集団のうち、コロニーの>80%が、galK遺伝子座にバーコード編集を含有した(例えば、図5B)。バーコードが付されたコロニーから、コロニーの85%でDHFR F153R変異もコードされることが見出され、これにより、バーコードとコドン編集の間の強力な追跡が得られたことが示される。図5Bは、2連の実験における、編集され、かつ/またはバーコードが付されたコロニーの総数(CFU)を示す。編集されたCFU数は、図5Aのデータをプレート上のCFUの総数に外挿することによって算出した。バーコードが付されたCFU数は、galKスクリーニングにおいて白色コロニーの数を計数することによって算出した(バーコードが組み込まれた部位)。これらのデータから、バーコードが付されたコロニーの大多数が、設計されたゲノム編集を含有したことが示される。
(実施例6)
コンビナトリアル操作のためのプラスミドキュアリング
図6は、コンビナトリアルなゲノム操作および追跡の例を示す。3種の反復的CREATEプラスミドを使用し、そのそれぞれが、このシリーズの他のマーカーのうちの1種を標的とするgRNAを有する(Tの線によって示される)。各形質転換の間に、編集およびバーコードがゲノムに組み入れられ、前のCREATEプラスミドがキュアリングされる。このように迅速な繰り返し形質転換を実施して、改善された表現型を検索するための、変異の定義された組合せまたはコンビナトリアルライブラリーのいずれかを構築することができる。レコーディング部位は、集団にわたって組合せの適応度を追跡することを可能にするショートリード配列決定技術と適合する。そのような手法により、遺伝子エピスタシスの迅速な調査および基礎研究に関連するまたは商業的な生物学的適用のための表現型の最適化が可能になる。
図3Dおよび図3Eは、コンビナトリアルなゲノム操作の別の例を示す。操作の各ラウンドにより、編集カセット(図3Dの青色の長方形)をゲノム内の標的配列(青色の星印)に組み入れ、レコーダーカセット(図3Dの緑色の長方形)をゲノムの異なる標的配列(図3Dの中央のパネル中の緑色のダッシュ)に組み入れる。本実施例では、各レコーダー配列は、15ヌクレオチドのバーコードを含む。図3Dの右側のパネルに示されている通り、編集カセットを挿入する場所にかかわらず、レコーダー配列をそれぞれ最後のレコーダー配列に隣接させて挿入する。各レコーダーカセットにより、PAM部位を同時に欠失させることができる。操作の各ラウンドの完了後、操作された細胞を選択することができ、次いで、挿入されたレコーダーカセットの全てを含むレコーダー領域について配列決定することにより、挿入された変異を追跡することができる。出発プラスミドライブラリーについて配列決定することにより、各編集カセットをレコーダーカセット内の1つまたは複数の独特のバーコードと連結するまたはそれに付随させることができる。各レコーダーカセットは付随する編集カセットに対応するので、次いで、編集カセットによって組み入れられた変異をレコーダーカセットの配列、またはレコーダーカセット内のバーコードの配列によって追跡または同定することができる。図3Eにおいて実証されている通り、レコーダーカセットまたはレコーダーカセット内のバーコードの全てについて配列決定することにより、挿入された変異のそれぞれを同定し、追跡することができる。挿入されたレコーダー配列は、レコーダー部位、レコーダーアレイ、またはバーコードアレイと称することができる。結果として、操作の反復的ラウンドの後、バーコードアレイまたはレコーダー部位について配列決定することにより、当該株におけるゲノム編集事象の履歴を追跡することが可能になる。レコーダーカセットを例えば図3Dに示されている順序で挿入する場合、バーコードアレイまたはレコーダー部位により、変異が挿入された順序ならびに変異がどのようなものであるかを同定することができる。
(実施例7)
繰り返しCREATE−レコーディング操作事象を使用した反復的操作
図7Aに示されている反復的操作の例をプラスミドキュアリングに使用して、前のベクターの排除に関して当該設計が非常に効率的であることを実証した(図7B)。各CREATEプラスミドは、示されている抗生物質(Trimeth:トリメトプリム、Carb:カルベニシリン、Tet:テトラサイクリン)に基づいて正に選択することができ、かつ、他の抗生物質マーカーのうちの1種を標的とするgRNAを含有する。例えば、reCREATE1プラスミドは、カルベニシリンに関して選択することができ、かつ、破壊のためにトリメトプリム抵抗性遺伝子を選択的に標的とするgRNAをコードする。一連のcarb/テトラサイクリン/トリメトプリム抗生物質マーカーを通過するものには、最大で3つの標的化編集を選択的に組み入れることが可能である。レコーディング機能は、図5に例示されている通り実行されるが、本明細書では簡単にするために省略する。
図7Bは、CREATE操作の繰り返しラウンドからのデータの例を示す。段階的な一連の形質転換を、X2cas9(kan)およびreCREATE1ベクターで形質転換された細胞を用いて開始した。スポットプレーティングの結果から、キュアリングが各形質転換ステップにおいて99.99%有効であることが示され、これにより、形質転換の各ラウンドにおける高度に効率的な操作が保証される。各形質転換ステップにおける効率の高い同時のゲノム編集およびプラスミドキュアリングは、本明細書に開示されている反復的ベクターに必要なレコーディングおよび編集CREATEカセットを導入することによって実現された(例えば、図7B)。
(実施例8)
CREATE設計およびワークフロー
CRISPR EnAbled Trackable genome Engineering(CREATE)設計ワークフローの概要の例を図8A〜8Bに示す。図8Aは、タンパク質操作のために設計されたCREATEカセットの解剖学的構造の例を示す。カセットは、スペーサー(赤色)を、ガイドRNA(gRNA)配列の一部およびゲノムの切断部位における相同組換えを鋳型にし得るデザイナーホモロジーアーム(HA)と共にコードする。タンパク質操作の目的に関して、HAを、変異を指定のコドンまたは標的部位(TS、青色)に、配列をCas9による切断からレスキューし、高度に効率的な変異誘発を可能にするために、同義のPAM変異(SPM、赤色)の近傍に、系統的にカップリングするように設計する。プライミング部位(P1およびP2、黒色)を、大規模並列処理のアレイに基づく合成に由来する特定のサブプールの多重化増幅およびクローニングが可能になるように設計する。構成的プロモーター(緑色)は、gRNAの発現を駆動する。図8Aは、galK遺伝子座内の残基145に終止コドンを導入するためのHA設計の詳細な例をさらに示す。上の配列はwtゲノムを示し、PAMおよびTSコドンが強調表示されている。翻訳配列は、得られる変異体が標的部位に単一の非同義の変異を含有することを例示するために示されている。図8Bは、CREATEワークフローの概要の例を示す。CREATEオリゴをマイクロアレイ上に合成し、大きなプール(104〜106種の個々のライブラリーメンバー)として送達する。これらのカセットを増幅し多重にクローニングし、これで設計をサブプールすることができる。Cas9を発現する細胞にCREATEプラスミドが導入された後、変異がゲノムに高効率で移行する。ディープシーケンシングによる選択前の各プラスミドの頻度(fi、t1)および選択後の各プラスミドの頻度(fi、t2)の測定により、各CREATEカセットについての濃縮スコア(Ei)がもたらされる。これらのスコアにより、適応するバリアントを、最大一ヌクレオチドまたはアミノ酸の分解能で、何千もの遺伝子座について並行して迅速に同定することが可能になる。
(実施例9)
CREATE設計の検証
図9Aは、スペーサーおよびgalK(galK_Y145*_120/17)にターゲティングされる120bpのHAを有するカセットを使用して測定した、形質転換および編集効率に対するCas9活性の影響の例を示す。このCREATEベクターによって生じる総形質転換体(TT、白色)が白色で示されており、組換え体の総数(TR)が濃い青色で示されている。TRは、編集効率とTtの積として算出される。アスタリスクは、プレートに基づくスクリーニングによって組換え体を観察することができなかった実験を示す。図9Bは、編集効率に対するCREATEカセットHAの長さおよびPAM/コドン間隔の特徴付けの例を示す。全てのカセットを、PAMを、標的コドンおよび可変性のホモロジーアームの長さ(HA、底部)からの示されている距離(PAM/コドン、下部)で使用し、遺伝子内のコドン145にTAA停止が導入されるように設計した。白色および青色の棒は、pBADプロモーターの下、0.2%アラビノースを使用したCas9の非誘導性または誘導性発現に対応する。大多数の場合、編集効率は、誘導による影響を受けないと思われ、これにより、漏出性発現に起因する少量のCas9が高効率の編集のために十分であることが示唆される。図9Cは、ゲノム遺伝子座について配列決定することによるオリゴ由来のカセットについての編集効率の決定の例を示す。参照として図9Aおよび9BのgalK_Y145*_120/17カセットが白色で示されている。棒グラフは、各CREATEカセットを用いたリコンビニアリング後のゲノムコロニー配列決定によって各遺伝子型が観察された回数を示す。円形の挿入図は、E.coliゲノム上の各遺伝子の相対的な位置を示す。図9Dは、SPMとTSの距離(図8Aにおいて例証されている)が編集効率(正確な編集/サンプリングされた総配列)と強力に相関することを示す。図9Bの44bpのgalKカセットおよび59bpのgalKカセットはこの分析では省略した。示されているエラーバーは、示されている実験のN=3の独立した反復実験から導かれたものである。
(実施例10)
必須の染色体遺伝子のスキャニング飽和変異誘発
図10A〜10Cは、CREATEを使用して、TMPへの抵抗性を付与することができる変異を同定するためのfolA遺伝子の完全なスキャニング飽和変異誘発ライブラリーを生成した例を示す。2回の選択試験からの計数重み付けされた平均濃縮スコアが残基の関数としてプロットされている(右側)。非同義の変異をコードするカセットが灰色で示されており、同義の変異をコードするカセットが黒色で示されている。濃縮スコアが1.8よりも大きいカセットが赤色で強調表示されており、以前報告された部位に影響を及ぼす変異が参照のために標識されている。破線は、濃縮値を示し、これは、信頼区間のブートストラッピングによって決定される通り、同義のデータセットとは有意に異なる(p<0.05)。これらの値が参照のためにヒストグラムとして示されている(中央)。DHFR抵抗性に有意に影響を及ぼすと思われる変異が右端で赤色の球体として強調表示されている。図10D〜10Fは、示されているTMP濃度の範囲(右側に示されている)でのwt(左側)F153W(中央)およびF153R(右側)バリアントの成長分析の例を示す。
(実施例11)
熱耐性遺伝子型のALE変異セットおよびフォワード操作の再構築
図11Aは、42.2℃、最小培地条件で成長するCREATEライブラリーについての濃縮スコアのゲノムプロットの例を示す。最も内側のプロットは、上位20種の代表についての、標識を用いた選択前のプラスミドライブラリーの計数を例示する。外側の円は、最小培地中、高温(42.2℃)で成長させた後のプールされたライブラリーバリアントの適応度を示す。棒には、log2濃縮に応じて色が付されている。青色の棒は、有害な変異を表し、赤色の棒は、有意に濃縮された変異を表し、灰色の棒は、このアッセイでは中性だと思われる変異を示す。20種の最も濃縮されたバリアントが参照のために標識されており、ALE由来のバリアントに対応する標識は赤色である。図11Bは、42.2℃の成長条件下における、全てのライブラリーバリアント(灰色)、ALE由来の変異体(赤色)および同義の変異体(黒色)の濃縮スコアのヒストグラムを示す。灰色の破線は、同義の集団と比較した有意な濃縮スコアを示す。ヒストグラムは、計数閾値(括弧内に示されている数字)を通るバリアントの総数の割合として正規化されている。この実験によってサンプリングされた独特の非同義ALEカセット251種のうち231種が、有意な成長利益をもたらすと思われることに留意されたい。図11Cは、変異の濃縮をwtからの変異距離に基づいて示す。2および3ヌクレオチド(nt)転移が必要な変異は、ALE手法では極めて稀であるまたは存在しないが、プールされたライブラリー選択(Crp調節因子を標的とする)による2種の最も濃縮されたクローンが2ヌクレオチド置換を必要とすることに注目し、右端に強調表示した。
(実施例12)
抗生物質抵抗性および耐性の試験のためのアミノ酸置換のゲノム規模マッピング
図12Aは、エリスロマイシンの存在下(外側)およびリファンピシンの存在下(中央)でのライブラリーバリアントの濃縮(log2)のゲノムプロットの例を示す。最内側のプロットは、参照のためにインプットプラスミドの計数分布を例示する。クローニングおよび標識は図11A〜11Cの通りである。図12Bは、個々のアミノ酸レベルでのCREATE変異マッピングを示す。RNAポリメラーゼβサブユニット(rpoB)のアミノ酸I572、S531およびL533(赤色)にかさのある側鎖を導入するCREATEカセットは、全ゲノムを標的とするライブラリーからのリファンピシンの存在下で高度に濃縮される。図11Cは、参照として示されているその同族DNA標的と結合したMarA転写因子の領域を拡大したものを示す(PDB ID 1BL0)。wt Q89残基は、この側鎖とDNAの間の好ましくない立体および静電相互作用に起因してDNA結合界面から突出している。選択によって同定されたQ89N置換は、H−ドナーを導入し、側鎖を短縮し、したがって、この残基とDNA骨格の間で増殖性H結合が生じ得る。そのような相互作用には、より強力なDNA結合および下流の抵抗性遺伝子の誘導が有利である可能性が高い。図12Dは、それぞれ10g/Lの酢酸または2g/Lのフルフラールを用いた全ゲノムを標的とするライブラリーの濃縮プロットを示す。色付けは図11Aと同じである。図12Eは、遺伝子レベルでのCREATEマッピングにより、遺伝子レベルにおける傾向が明らかになることを示す。図12Eに示されているフルフラール選択と同じく、図12Fに示されている通り、酢酸における強力な濃縮fis metAおよびfadRを標的とする変異により、これらの遺伝子の酢酸耐性における重要な役割が示唆される。
(実施例13)
CREATEにより柔軟な設計戦略が可能になった
CREATE戦略に適合する設計の例の図解が図13A〜13Dに示されている。図13Aは、サイレントコドン手法がとられるタンパク質操作適用を示す(上、図8A〜8Bも参照されたい)。この変異戦略により、DNA結合、タンパク質間相互作用、触媒作用、またはアロステリック調節などの特徴を変化させるための重要なタンパク質領域の標的化変異誘発が可能になる。DNA結合飽和変異誘発の図解の上に、この試験のために設計された、全体的な転写因子Fisに対して設計されたライブラリーが例示されている。図13Bは、ヌクレオチドの置き換えまたは組み込みカセットにより破壊することができる指定の転写開始部位(TSS)の近傍にあるプロモーター変異PAM部位を示す。この試験において使用されるこの設計手順を単純化するために、コンセンサスCAPまたはUPエレメントを、これらの変異が近位の遺伝子に対して有し得る可能性のある影響を考慮に入れずに、TSSに対して固定された場所における組み込みのために設計した。図13Cは、リボソーム結合性部位(RBS)の変異誘発のためのカセット設計の例を示す。図13Dは、単純な欠失設計の例を示す。a点およびb点は、遺伝子欠失遺伝子座における2つの部位間の距離を例示するために含まれる。全ての場合において、カセット設計により標的化PAMを破壊して、設計された変異体の選択的な濃縮が可能になる。
(実施例14)
リコペン経路の操作
図14A〜14Bは、E.coliにおいて、リコペンの前駆体であるDMAPP経路に行った編集を示す。11種の遺伝子のORFに対して編集を行った。活性を改善するために8つの編集を設計し、競合する酵素の活性を低下させるために3つの編集を設計した。リコペン経路内でおよそ10,000バリアントを構築し、スクリーニングした。
(実施例15)
Cas9編集効率の制御
図15は、Cas9編集制御実験を示す。CREATEプラスミドと標的ゲノムの間の相同組換えの効率を評価するために、CREATE galK_120/17オフカセット(下部に赤色で示されている関連する編集)を異なるバックグラウンドに入れて形質転換した。赤色コロニーは編集されていない(wt)ゲノムバリアントを表し、白色コロニーは編集されたバリアントを表す。pSIM5のみまたはpSIM5/X2およびdCas9プラスミドを含有する細胞の形質転換では、白色コロニーの欠如によって示される通り、検出可能な組換えは示されなかった。活性なCas9の存在下では(右のX2−Cas9)、高効率の編集(>80%)が観察され、これにより、高効率の編集およびライブラリーカバレッジを実現するためにはdsDNA切断が必要であることが示される。
(実施例16)
E.coliにおけるgRNA dsDNA切断の毒性
図16A〜16Cは、E.coliにおける二本鎖破壊生成の毒性を試験する実験を示す。galK(スペーサー配列TTAACTTTGCGTAACAACGC)またはfolA(スペーサー配列GTAATTTTGTATAGAATTTA)を標的とするgRNAを用いた対照実験において観察されたE.coliにおける単一のgRNA切断の毒性。修復鋳型の不在下では、gRNAによる強力な死滅が観察される。一本鎖ドナーオリゴの同時形質転換の際に103〜104のレスキュー効率が観察され、これにより、この毒性を緩和するためには相同な修復鋳型が必要であることが示される。b)多数のCREATE編集の毒性。左側および棒グラフの下部に標的化部位が図で例示されている。編集なし(左端、標的部位なし)に基づいて形質転換効率を推定するために非標的化gRNA対照を使用した。folA(緑色)またはgalK(赤色)またはこの2つの組合せを標的とするCREATEカセット。同じプラスミドから発現する追加のgRNAを有するE.coliにおける倍加的毒性に注目されたい。このシナリオでは、各部位に対して相同修復が存在し、これにより、オフターゲットのgRNA切断が高度に致死的になることが示唆される。これらのデータから、CREATEカセットによるオフターゲットの切断がライブラリー構築相の初期に集団から選択的に除去されることが示唆される。
図16D〜16Eは、別のそのような細胞生存アッセイからのデータを示す。編集カセットは、folA遺伝子の温度感受性をもたらすF153R変異を含有した。レコーダーカセットは、マッコンキー寒天プレート上でのコロニーのスクリーニングを可能にする、galK遺伝子を破壊するように設計した15ヌクレオチドのバーコードを含有した。本実施例では、2カ所の切断を生成することにより、ゼロまたは1カ所の切断を生成するのと比較して細胞生存が低減した。
図16Fは、Cas9を発現する低コピー数プラスミド(Ec23)とCas9を発現する高コピー数プラスミド(MG)を比較する形質転換および生存アッセイからのデータを示す。別個の編集カセットを有する異なるベクターを使用して、異なる遺伝子標的部位(folA、lacZ、xylA、およびrhaA)を標的とした。レコーダーカセットを、galK遺伝子内の異なる配列、部位S1、S2、またはS3のいずれかを標的とするように設計した。使用した反復的ベクターは、他のベクターと比較して異なるベクター骨格を有し、また、前のラウンドベクターの細胞をキュアリングする繰り返し操作のために設計された3−ベクター系の一部である。データから、より低いCas9発現(Ec23ベクター)により生存および/または形質転換効率が上昇することが示される。2カ所のゲノムの切断(編集カセットおよびレコーディングカセット)を受けた細胞では、Cas9発現の低減により、形質転換効率が数桁上昇した。
図16Gは、Cas9を発現する低コピー数プラスミド(Ec23)で形質転換された細胞およびCas9を発現する高コピー数プラスミド(MG)で形質転換された細胞における編集効率と記録効率の相関を示す。編集および記録効率はcas9の高発現(MG)および低発現(Ec23)で同様であった。Ec23では、より多くのコロニーがもたらされ、生存がより良好であった(図16Eに示されている通り)と同時に、高効率の二重編集(編集カセットおよびレコーダーカセットの組み入れ)が維持された。
(実施例17)
遺伝子欠失のためのCREATE戦略
図17A〜Dは、遺伝子欠失のためのCREATE戦略の例を示す。図17Aは、galK ORFから100bpを欠失させるためのカセット設計の例を示す。HAを、相同性領域が指定の間隔で組み換えられるように設計し、CREATE HAの50bp側それぞれが指定の部位(青色)で組み換えられるように設計した。PAM/スペーサーの場所(赤色)は、ホモロジーアームの一方の近位であり、組換えの間に欠失し、それにより、欠失したセグメントの選択可能な濃縮が可能になる。図17Bは、このカセットを用いてリコンビニアリングされたクローンに由来する染色体PCRアンプリコンの電気泳動を示す。図17Cは、a)と同様の700bp欠失のための設計を示す。図17Dは、図17B)と同様の700bp欠失カセットのコロニーPCRを示す。図17Bおよび17Dのアスタリスクは、設計された欠失を有すると思われるコロニーを示す。一部のクローンはwtおよび欠失サイズの両方に関するバンドを有すると思われ、これにより、コロニーの一部ではリコンビニアリングの3時間後にプレーティングした際の染色体分離が不完全であることが示されることに留意されたい。
(実施例18)
gRNAおよび直鎖状dsDNAカセットの同時形質転換による編集効率の制御
図18は、直鎖状dsDNA PCRアンプリコンおよびgRNAとの同時形質転換を使用した編集効率に対するPAM距離の影響を示す。左側は、下流のgalK PAM部位を標的とするgRNAで同時形質転換した、一方の側に二重(TAATAA)終止コドン(アスタリスク)および他方の側にgalK遺伝子のすぐ下流のPAM変異(灰色の四角)を含有するPCRアンプリコンを使用した実験の図である。組換えのための十分な相同性を確実にするために、変異がアンプリコンの末端から40ntになるようにプライマーを設計した。これらの実験からのデータを赤色/白色コロニースクリーニングによって得た。データへの線形当てはめが下部に示されている。アッセイ対照として含めた、PAM変異のみが存在するカセットはGalK不活化の率が非常に低いことが観察された。これらの実験を、二本鎖DNA鋳型を用いた高効率の編集を可能にするためにmutS遺伝子がノックアウトされたE.coliのBW25113株において実施した。MG1655におけるこの手法では、活性なmutS対立遺伝子に起因して高効率の編集は実現されなかった。
(実施例19)
ライブラリークローニング分析および統計値
図19Aは、読み取りと標的設計配列の間のミスマッチの総数に応じて示された、クローニング後のプラスミドライブラリーの例からの読み取りを示す。大多数のプラスミドは、正確な設計にマッチする。しかし、このクローニングされた集団で観察された多数の4塩基対インデル/ミスマッチ変異体がある。図19Bは、プラスミドプールについての変異プロファイルのカセットの位置の関数としてのプロットを示す。ホモロジーアーム(HA)の中心近傍で変異の頻度の増大が観察され、これにより、この領域の配列決定または合成における小さな誤差による偏りが示される。これは、gRNA内にスペーサーエレメントと相補的な配列が存在することに起因するものと疑われる。図19Cは、本試験において設計されたCREATEカセットについてのPAMとコドンの間の距離のヒストグラムを示す。大多数(>95%)が図9A〜9Dにおいて試験された設計の制約内であった。同義のPAM変異がより近傍内に存在しない場合には、60bpを超える小さな画分を作出した。図19Dは、CREATEプラスミドの多重化クローニングによるライブラリーカバレッジを示す。各バリアントのディープシーケンシング計数がそれらのゲノム上の位置に対して示されている。挿入図は、クローニングされたライブラリー内の示されているプラスミド計数を有するバリアントの数のヒストグラムを示す。
(実施例20)
リコンビニアリングされた集団のCREATEカセット追跡の精度
図20Aは、Cas9曝露前(x軸)およびCas9バックグラウンドの形質転換の3時間後のプラスミド集団におけるCREATEカセット読み取り頻度の相関プロットを示す。図20Bは、一晩で回収後の複製リコンビニアリング反応間の相関プロットを示す。灰色の線は、参照として完全な相関の線を示す。R2およびp値を、データに対する線形当てはめから、Python SciPy統計値パッケージを使用して算出した。各複製実験について計数閾値5をデータに適用して、各データセットからノイズを除去した。
(実施例21)
M9最小培地におけるfolA変異の成長特性
図21は、M9最小培地におけるfolA変異の成長特性を示す。F153Rは正常な成長特性を維持すると思われるが、一方、F153W変異の成長速度は、これらの条件下で有意に遅く、これにより、同じ部位におけるこれらの2つのアミノ酸置換が、おそらくこのタンパク質の安定性/ダイナミクスにおいて引き起こされた異なる変化に起因して、生物体の適応度に対して全く異なる影響を有することが示唆される。
(実施例22)
最小培地におけるfolA CREATEカセットの濃縮プロファイル
図22は、最小培地におけるfolA CREATEカセットの濃縮プロファイルを示す。同義のHAをコードするカセットが黒色で示されており、非同義のカセットが灰色で示されており、破線は、ブートストラップ分析から推定される同義の集団平均と比較してp<0.05の有意性を有する濃縮スコアを示す。タンパク質配列内の各位置における各変異体カセットについての観察された濃縮スコアが左側に示されており、総バリアントの画分としてのこれらの濃縮スコアのヒストグラムが右側に示されている。2つの集団は、大きく類似していると思われる。参照のために高度に有害な保存された残基が青色で示されている。
(実施例23)
溶媒および抗生物質耐性の改善に関して新規に同定されたacrB変異の検証
図23Aの左側は、AcrB流出ポンプの全体的な概要を示す。基質がペリプラズム空間内の開口部を通ってポンプに進入し、AcrB/AcrA/TolC複合体を介して外膜を渡って細胞外空間に押し出される。ライブラリーの標的とされる残基が参照のために青色の球体によって強調表示されており、赤色のドットは、濃縮されたバリアントの多くが密集する領域を示す。右側は、イソブタノールにおける濃縮された変異が同定され(赤色および青緑色の球体)、おそらくペリプラズム空間からの溶質輸送に影響を及ぼす中心の漏斗に接するループ−へリックスモチーフを引き伸ばしたものである。T60位を標的とする変異体(青緑色の球体)もエリスロマイシンの存在下で濃縮された。図23Bは、イソブタノールに対する耐性のためのN70DおよびD73L変異の確認を示す。特に、N70D変異により、最終的なODが有意な程度まで改善されると思われる。再構築された株を、蓋付きの1.5mLエッペンドルフチューブ中、48時間のインキュベーション後に最終的なODについて測定した。エラーバーはN=3の試験から導かれたものであり、p値は片側T検定から導かれたものである。図23Cは、振とう96ウェルプレート中、阻害性濃度のエリスロマイシン(200μg/mL)およびイソブタノール(1.2%)で観察されたAcrB T60N変異体の成長の改善を示し、これにより、この変異により、多くの化合物に対するこのポンプの流出活性が増強され得ることが示される。これらの実験のために、CREATEカセット設計を個々に合成し、クローニングし、配列検証した後に、E.coli MG1655にリコンビニアリングして変異を再構築し、ゲノム改変についてコロニーPCRによって配列検証して遺伝子型−表現型関連性を確認した。
(実施例24)
新規の適応性遺伝子型をサンプリングするための合理的な変異誘発の利益
図24A〜24Dは、500μg/mLのリファンピシン(図24A)、500μg/mLのエリスロマイシン(図24B)、10g/Lの酢酸(図24C)、および2g/Lのフルフラール(図24D)を伴うCREATE実験において検出されたバリアントの数を示す。自然進化系またはエラープローンPCRは、一ヌクレオチド多型(例えば、1nt変異、赤色)のサンプリングに向かって高度に偏るが、これらのヒストグラムにより、稀なまたは容易にアクセス可能でない変異(2および3nt、それぞれ緑色および青色)を同定することができる合理的設計手法の潜在的な利点が例示される。例えば、適応度が最も高い溶液はリファンピシン、エリスロマイシンおよびフルフラール選択において種々の程度でこれらの稀な変異に偏ると思われる。これらの結果から、CREATEなどの手順により、コンピュータによる手法を使用してタンパク質操作の指向性進化法を改善するのとほとんど同じように、変異を改善する適応度のより迅速かつ詳細な分析が可能になるはずであることが示される。
(実施例25)
エリスロマイシン選択によって同定された変異の再構築
図25は、200μg/mLのエリスロマイシンの存在下で48時間インキュベートし、最終的なOD測定値を評価した後の、蓋付きの1.5mLエッペンドルフチューブ中、0.5mLで成長させた再構築された株を示す。エラーバーはN=3の試験から導かれたものである。測定値の各セットに対して片側T検定を実施してp値を決定し、これにより、成長利益の有意性が示された。
(実施例26)
フルフラールまたは熱耐性についてのCrp S28P変異の検証
図26Aは、Crp調節タンパク質の結晶構造を示し、フルフラール選択によって同定されたバリアントが赤色で強調表示されている(PDB ID 3N4M)。この調節因子のサイクリックAMP結合性部位(aa.28〜30、65)付近の残基を標的とするいくつかのCREATE設計が最小培地中フルフラールまたは熱耐性に対する選択で高度に濃縮され、これにより、これらの変異により、最小培地中、種々のストレス条件下でのE.coli成長が増強され得ることが示唆される。図26Bは、M9培地中、2g/Lのフルフラール選択で同定されたCrp S28P変異体の検証を示す。この変異体を、実施例23においてAcrB T60Sについて記載されている通り再構築した。
(実施例27)
一ヌクレオチド分解能でのゲノム規模での配列と活性の関係のマッピング
DNA合成および配列決定の進歩により、実験室時間尺度でゲノム改変を合理的にプログラムするためのますます複雑な試みが動機付けられている。そのような試みの実現には、多数の変異体設計を正確にかつ効率的に生成するだけでなく、これらの変異の影響を同様のスループットでマッピングすることによる、デザイン・ビルド・テストフォワード・エンジニアリング(design−build−test forward−engineering)サイクルにわたる戦略が必要である。CRISPR EnAbled Trackable genome Engineering(CREATE)は、高度に効率的なCRISPR編集と大規模並列処理によるオリゴマー合成をカップリングして、全ゲノム規模での追跡可能な高精度の編集を可能にする。これは、標的化ガイドRNAと、ゲノムにわたる遺伝子座を編集し、それらの表現型への影響を追跡するために系統的に設計することができる合理的にプログラム可能な相同修復カセットを連結する合成カセットを使用して実現することができる。本発明者らは、部位飽和変異誘発、合理的なタンパク質操作、完全な残基置換ライブラリーおよび前の適応性実験室進化実験の再構築にわたる適用のための配列−活性関係の並行マッピングにより、ゲノム操作に対するCREATEの柔軟性および使いやすさを実証した。
CREATEカセット設計の検証
本発明者らの操作の目的を実現するために、編集効率を最大にするとともに複雑な設計プロセスを容易に実行可能なワークフローに変換するためのいくつかの重要な設計考察を考慮に入れた。例えば、各CREATEカセットを、染色体切断部位に合理的な変異を導入する標的化ガイドRNA(gRNA)およびホモロジーアーム(HA)の両方が含まれるように設計する(例えば、図8A)。HAは、修復後のCas9による切断を抑止するために設計された同義のPAM変異とカップリングした目的のゲノム編集の両方をコードする(例えば、図8B)。この配置により、所望の編集をCas9によって高レベルまで選択的に濃縮できることだけでなく、切断をガイドするために必要な配列とHRが合成の間に共有結合によりカップリングし、したがって、形質転換の間に同じ細胞に同時に送達されることも確実になる。E.coliにおけるCRISPRに基づく選択の高効率の編集によりまた、CREATEプラスミドとゲノム配列の強力な相関も確実になり、プラスミド配列がトランス作用性バーコードまたはゲノム編集の代理としての機能を果たすことも可能になるはずである(例えば、図8C)。異なる選択圧下でのプラスミドの頻度の変化が、それらの関連するゲノム編集と相関があると仮定すると、それにより、多くの遺伝子座における的確なゲノム改変の影響を、単純な下流の配列決定手法を使用して並行してモニターして、濃縮された遺伝子型を以前のゲノム追跡方法論と同様に集団規模でマッピングすることが可能になる。
この概念を試験するために、まず、120bpのHAを使用し、単一の点変異を導入してコドン145をTATからTAA終止コドンに変換することにより(例えば、図8B)galK遺伝子が不活化されるように設計したCREATEカセットを使用した対照実験を実施した。Cas9およびヌクレアーゼ欠損dCas9対照を使用したこのカセットの編集効率を、赤色/白色コロニースクリーニングアッセイを使用して評価した(例えば、図8A〜B、図15A〜15C)。これらの実験により、組換えが活性な酵素の不在下では観察されないので(例えば、図15A〜15D)、環状二本鎖プラスミドと染色体の間のHRがCas9による切断に強力に依存することも示された。これは、複製フォークのラギング鎖においてオリゴヌクレオチドが高効率でアニーリングする一本鎖リコンビニアリング手法とは対照的である。Cas9はまた、E.coliにおけるdsDNA切断の毒性に起因して全体的な形質転換効率に不利な影響を及ぼす(例えば、図9A〜9D)。この毒性は、CREATEを同じ細胞内の2つの部位で同時に実施する場合にさらに悪化する(例えば、図16A〜16E);このことは、有効な非相同末端結合経路が存在しないことと組み合わせると、リコンビニアリングされたライブラリー内でオフターゲットの編集事象は稀であるはずという事実を強力に支持する。さらに、毒性によりライブラリー構築のサイズおよびカバレッジが限定されるが、本発明者らは、観察されたDNA1μg当たり104〜105種のバリアント(例えば、図9A)は、現在のオリゴ合成能(注文当たり104〜5のオリゴ)に適合する規模であることに注目する。したがって、CREATE合成オリゴ設計を使用すると、ゲノム内の任意の場所で約105またはそれよりも多くのデザイナー変異を同時に生成し、そのような変異を標的化された表現型に正確にマッピングすることができると予測した。
CREATEカセット設計の変化が編集効率にどのように影響するかをさらに特徴付けるために、HAの長さ(80〜120bp)およびPAM−コドン/TS間の距離(17〜59bp)を変動させた(例えば、図9B)。Cas9の誘導により、これらのカセットバリアントの全てが、高効率のHRを支持することができることが明らかになった。Cas9誘導の不在下でも高効率の変換が観察され、これにより、誘導性プロモーターの漏れに起因するCas9の低レベルの発現が切断およびHRを駆動するのに十分であることが示される(例えば、図9B)。本発明者らの意図する設計にマッチする編集を検証するために、ランダムに選択したクローンの染色体について配列決定し、71%(27/38)がCREATE設計との完全なマッチを含有するが、26%(10/38)はPAM編集のみを含有し、残りの3%(1/38)は、wtエスケーパーであると思われることが見出された。設計の柔軟性に関する追加の試験として、異なるサイズの欠失を導入する欠失カセット(例えば、図17A〜17D)を使用して同様の実験を実施し、同様の効率(>70%)が観察され、これにより、同じ設計の自動化および追跡能が種々の設計目的に容易に拡張されるはずであることが示される(例えば、図13A〜13D)。
ハイスループットな設計および多重化ライブラリー構築
CREATEプロセスを全ゲノム適用の規模にするために、目的の標的部位(TS)に最も近いPAM配列を系統的に同定し、それを改変して同義のPAM変異を創出するための上記の基準を考慮に入れる、カセット設計を自動化するためのカスタムソフトウェアを開発した。この設計ソフトウェアは、E.coliに関して実行することができる、ウェブに基づく設計ツール一式の一部であり、他の生物体ならびにCRISPR−Cas系の拡張セットに関してさらに開発中である。このソフトウェアプラットフォームにより、ライブラリー構築のためにバッチで実施することができる並行化されたアレイに基づくオリゴ合成および単純な相同性に基づくクローニング方法と適合する形式での、ゲノムライブラリーのハイスループットな合理的設計が可能になる(例えば、図8B)。
この設計ソフトウェアを使用して、伝統的な方法による活性マッピングのための配列決定では時間がかかり、法外に費用がかかる適用の範囲で、合計52,356種のCREATEカセットを生成した。簡単に述べると、ライブラリー設計は、1)その染色体に関連して必須の遺伝子の変異ランドスケープ全体をマッピングするためのfolA遺伝子の完全飽和、2)E.coliにおける広範囲の耐性および表現型の産生に関係付けられる35種の包括的な調節因子、流出ポンプおよび代謝酵素における機能的な残基の飽和変異誘発、3)熱耐性に関する最近の適応実験室進化(ALE)試験によって同定された非同義の変異の完全なセットの再構築、ならびに4)UPエレメントまたはCAP結合エレメントがレギュロンDBにアノテートされた転写開始部位に組み入れられるように設計したプロモーター操作ライブラリー(例えば、図13A〜13D)を含んだ。
異なる遺伝子座における編集効率をさらに特徴付けるために、プールされたオリゴライブラリーを増幅し、並行してクローニングし、単一のバリアントのサブセットを単離した(例えば、図9C)。CREATEプラスミドを用いた形質転換後のゲノム遺伝子座の増幅および配列決定により、編集効率が平均70%であり(7つの異なる遺伝子座でサンプリングされた144クローンのうち106クローン)、metA_V20Lカセットの30%からrpoH_V179Hカセットの100%までにわたることが明らかになった。興味深いことに、各カセットについての編集効率の差異は、PAMと標的コドンの間の距離と高度に相関し(例えば、図9D)、これも、直鎖DNA鋳型の標的化変異を有効に導入する能力に影響を及ぼすと思われる特徴である(例えば、図18A〜18B)。この関係により、その後のCREATE設計では、PAM選択基準を最適化することにより編集効率が容易に上昇するはずであることが示唆される。本発明者らは、編集効率の差異が、生物体の適応度に対する一部の変異の有害な影響を反映し得ること(metAは、大多数の培地条件において必須の遺伝子と考えられる)、および特定のタンパク質について観察することができる変異の数には上限があり得ることにも注目する。最後に、これらのデータは、目的の染色体変異体を濃縮する任意の特定の選択またはスクリーニングステップの外で得られ、したがって、この手法の変異ライブラリーを構築する能力を実証する。
多重化合成およびクローニング手順の忠実度をさらに特徴付けるために、プールされたライブラリーに対してディープシーケンシングを実施した(例えば、図19A〜D)。クローニングされたCREATEカセットライブラリーの594,998の総読み取りから、550,152(92%)が品質フィルタリングを通過し、設計データベースに対するヒットを生じた。これらのうち、可能性のある独特のバリアントの34,291(65%)について完全なマッチが観察され、この最初のプールに入らなかった多くのカセットが後の選択で観察され、これにより、クローニング段階で大多数の意図された設計空間を容易に包含できることが示唆されることに注目する。これらの読み取りの深度分析により、品質フィルターを通過する読み取りの46%がそれらの意図された設計に正確にマッチし、残りは、主に設計された変異部位の近傍のHA領域に1〜4bpのインデルまたはミスマッチを含有することが明らかになった(例えば、図19A)。この領域における変異の偏りにより、カセットのHAおよびgRNA部分の繰り返しスペーサーエレメントが、配列決定または合成に悪影響を及ぼす二次構造を形成し得ることが示唆される(例えば、図19B)。これらのバリアント設計は、CREATEプラスミド−バーコーディング戦略によって容易に同定されること、および、一部の場合では、生成されたライブラリーにこの付加された多様性があることが望ましい可能性があることに注目する。クローニングされたプールからのバリアントの頻度とリコンビニアリング後に一晩で回収した後のバリアントの頻度の間、ならびにリコンビニアリング反復実験間に有意な(p<0.05)相関も観察された(例えば、図20A〜20B)。これらの結果から、よく表されるバリアントは、本発明者らの方法論により、単一の遺伝子座で実施される以前のCRISPRに基づく飽和変異誘発手順と同様の精度で容易に追跡されるはずであることが示唆される。
CREATEに基づくタンパク質操作
単一の遺伝子レベルでのタンパク質操作のためのCREATE方法論の頑強性を試験するために、必須のfolA遺伝子のディープスキャニング変異誘発を実施した。この遺伝子は、テトラヒドロ葉酸の産生ならびにピリミジン、プリンおよび核酸の生合成に関与するジヒドロ葉酸レダクターゼ(DHFR)酵素をコードする。DHFRは、抗生物質または化学療法薬として使用される抗生物質トリメトプリム(TMP)および他の葉酸代謝拮抗薬の主要な標的でもある。DHFRの機能および抗生物質抵抗性に関する構造的および生化学的データが豊富であることにより、DHFRは当該手法を検証するための理想的なモデルになる。
DHFR酵素の2〜158のあらゆるコドンが飽和するように設計したCREATEライブラリーをE.coli MG1655にリコンビニアリングし、一晩で回収した。回収後、約109個の細胞(飽和培養物1mL)を、阻害性TMP濃度を含有する培地に移し、48時間成長させた。次いで、得られたプラスミド集団について配列決定して、TMP抵抗性を付与することができる単一のアミノ酸置換のレベルで情報を捕捉する本発明者らの能力を評価した(例えば、図10A〜10B)。変異の影響についてのブートストラップされた信頼区間を、本実験に含めた158の同義の変異に関する濃縮データを使用して導き出した(例えば、図10A〜10B)。この基準を使用して、タンパク質内の49のaa位を包含する74の置換(設計空間の2.3%)について有意な(P<0.05)レベルの濃縮が観察された。必須の酵素のこの変異柔軟性の程度は、反直観的に見える可能性があるが、これは、この酵素がその進化的最適に達していないという、および、多くの変異により内在性酵素活性の増強またはこの酵素の動的フォールディングランドスケープの変化によってTMP耐性を改善することができるという以前の結論を支持する。
これらの結果により、合理的な変異誘発戦略を使用して、適応度が改善されたバリアントの変異空間により深くプロービングしているという事実も支持される。例えば、F153位において7つの有意に濃縮された置換が観察され(例えば、図10A〜10B)、これらのうち、以前にエラープローンPCRおよび適応実験室進化(ALE)によって同定されたものはなかった。これらの特定の変異を検証するために、以前に文献で報告されておらず、また、この位置で測定された濃縮規模が大きな範囲にわたるF153RおよびF153Wバリアントを再構築した(例えば、図10D〜10F)。高度に濃縮されたF153R変異体は大きな範囲のTMP濃度で急速に成長するが、一方、F153W変異体は選択に使用された中等度のTMP濃度でのみ成長を示すことが確認され、これは、それらのそれぞれの濃縮スコアと一致した(例えば、図10A〜10F)。さらに、CREATEを使用して同定された7つの変異のうち6つが、wt TTTコドンを観察されたアミノ酸のうちの1つに変換するために2ヌクレオチドの変化を必要とする(I:1nt、W:2nt、D:2nt、R:2nt、P:2nt、M:2nt、H:2nt)。F153RおよびF153W変異はまた、別個のやり方でネイティブな酵素活性に影響を及ぼすと思われ(例えば、図21)、これは、これらの置換により、この酵素の酵素的サイクルが別個の様式で変化することによって耐性が付与され得ることを意味する。
TMP抵抗性を付与する置換のマッピングに加えて、DHFRのネイティブな活性に影響を及ぼす置換を同定することも試みた。これを行うために、M9中で一晩成長させた後の各プラスミドバリアントの頻度を比較した(例えば、図22A〜22C)。この場合、同義および非同義の変異セットのどちらでも同様の全体的な濃縮プロファイルが観察され、非常に少ない変異が成長に対して有意な影響を及ぼすことが観察された。この予想外の結果により、より深い配列決定の深度および/または低適応度バリアントに高い信頼度を割り当てる代替の選択戦略の必要性が示唆される。
タンパク質操作適用の別の検証として、E.coliにおいてAcrB多剤流出ポンプを標的とする4,240種のバリアントライブラリーを生成した(例えば、図23A〜23F)。このタンパク質は、次世代バイオ燃料として探求されており、多数の操作の試みの動機付けとなっている、抗生物質、化学的変異原、および短鎖アルコールを含めた多種多様な化学物質を移出するプロトン交換ポンプとして作用する。ライブラリーを、内部チャンバー、基質をAcrB/AcrA/TolC複合体の外膜構成成分にチャネルで通す出口の漏斗、ならびにイソブタノールおよびより長鎖のアルコールに対する耐性を付与する変異が同定されている膜貫通ドメインの重要な領域を標的とするように設計した(例えば、図23A〜23C)。次いで、AcrB CREATEライブラリーをFolAライブラリーと同一に構築し、ライブラリーを1.2%イソブタノールの存在下で成長させた。配列決定により、有意に濃縮された、中心の流出漏斗に隣接するループ−へリックスモチーフに対する多数の変異が同定され、これにより、この下部構造により、流出活性の増強を操作するための新規の標的がもたらされ得ることが示唆される。AcrB N70DおよびD73L変異の再構築により、これらの変異の、この溶媒ストレスの存在下で全体的な成長を増強する能力も確認された(例えば、図23D)。
大規模適応試験からの遺伝子型適応度の並行評価
次に、本発明者らの試みを単一のタンパク質規模から拡大し、ゲノム規模でCREATEの使用を検証することを試みた。これを行うために、前のE.coli熱耐性の適応実験室進化試験から得られた変異を再構築し、マッピングすることを選んだ。ALEは、広範囲の環境ストレス要因に応答した細菌の適応を試験するためのツールとして広範囲にわたって使用されている。しかし、大多数の場合、ゲノムは多数の変異を受け、それにより、問題の表現型に対する各変異の寄与を評価することが難しくなっている。ここで、CREATEライブラリーを、TenaillonらのALE実験からの645種の非同義の変異体全てを含むように設計し、構築し、次いで、このライブラリーを最小培地中、42.2℃で成長選択に供した。同義のPAM変異から生じる可能性があるあらゆる可能性のある影響を評価するために、このライブラリーの設計に重複性を含め、したがって、各標的コドンを2つの異なるPAM変異にカップリングして、非同義の変異それぞれについて4倍の設計重複性をもたらした。較正のために、ALEライブラリーを、ライブラリーを標的とするタンパク質と共にプールして、ベンチマークとしての非ALE由来ライブラリーからの相対的な濃縮比較を可能にした(例えば、図11A〜11C)。本実験における50,000よりも多くのカセットのうち、ALE由来ライブラリーから、最小の計数閾値を上回る405種のカセットが観察され、252種が独特のバリアントに属するものであった(例えば、図11B)。これらの346種のカセット(231の非同義の変化をコードする)は同義の対照と比較して有意に濃縮され(例えば、図11B)、これにより、サンプリングされた変異の92%(231/252)により有意な選択的成長利点が個々の染色体変異として付与されることが示唆され、これは、適応成長中のそれらの固定と一致する。さらに、本発明者らは、追加のCREATEライブラリーに由来する141種の変異も有意に濃縮され、これらの標的化残基のうちの86種が、炭素代謝の中心的な調節因子であるCrpのcAMP結合性部位またはその周囲にあることを見出した。そのような多数のCrp変異体の同定は、以前の所見と一致して、熱耐性におけるCrpの役割を高度に示唆するものである。
各変異体について、wtコドンを他の19種のアミノ酸のそれぞれに変換するために必要な変異の数も算出した(例えば、図11C)。folAと同様に、本発明者らは、crp S28PおよびL30Y変異などの高度に影響の大きい変異には、一ヌクレオチド置換よりも多くが必要であり、したがって、実験室時間尺度の下での自然進化系では容易に得られないまたは極めて稀であることを見出した。実際、これは、本発明者らが実施した選択の多くにわたって繰り返されるテーマであると思われ(例えば、図24A〜24D)、これにより、ゲノム操作適用のための、合成DNAに駆動される検索戦略の価値が再度強調される。
全ゲノム規模での選択可能な高精度の編集のハイスループットなマッピング
ゲノム規模でのマッピングおよび探究のための方法をさらに検証するために、全ゲノムを標的とするライブラリーを、バイオプロダクションに関連する抗生物質または溶媒を用いて挑戦した(例えば、図12A〜12F)。RNAポリメラーゼによる転写を阻害する抗生物質であるリファンピシンを用いて実施した選択の場合では、(例えば、図12A、内側の円)、原子分解能マッピングのためのCREATE手法の頑強性を強調するいくつかの濃縮されたバリアントが観察された。例えば、上位50のヒットのうち10のヒットで、リファンピシン結合性部位の一部を形成するバリアントを含めた、RNAポリメラーゼβサブユニット(rpoBによりコードされる)の残基I572、L533およびS531に対する変異が同定された(例えば、図12B)。濃縮されたバリアント7種のうち6種において、データから、7リファンピシン結合を立体的に妨げるために、かさのある置換が必要であることが示唆される。β−サブユニット変異に加えて、リファンピシン選択により、marRノックアウトに起因する過剰発現がE.coliにおける多数の抗生物質抵抗性(MAR)表現型の十分に試験されている態様であるMarA転写活性化因子に対するいくつかの変異が濃縮された。MarAのDNA結合結晶構造では、Q89はDNA骨格の近傍に位置するが、他の可能性のある回転異性体とDNA骨格上の最も近傍のリン酸基の間の立体的衝突に起因して溶液中に向けられる(例えば、図12C)。この選択によって同定されたMarA Q89NおよびQ89D変異のモデリングにより、側鎖を単一の炭素単位だけ短縮することにより、新しいタンパク質−DNA H結合相互作用が可能になり、それにより、全体的なMAR誘導応答が改善できることが示唆される。
これらの結果を、翻訳に干渉する抗生物質と比較するために、別のラウンドの選択をエリスロマイシンの存在下で実施した(例えば、外側の円、図12A)。この選択からの濃縮プロファイルにより、以前にこの抗生物質に対する抵抗性に関係付けられた遺伝子座が再度強調された。例えば、この薬物のペリプラズム空間からの主要な移出体として作用するAcrB流出ポンプに対する4つの異なる変異の強力な濃縮が観察された(例えば、図12A)。興味深いことに、バリアントの1つ(AcrB T60N)が、イソブタノール選択から同定された同じ残基に現れる(例えば、図23A〜23F)。他の変異と同様に、再構築により、これらの変異のうち少なくとも2つ(例えば、図23E〜23FのT60Nおよび図25のD73L)は、エリスロマイシンならびにイソブタノールの両方に対する耐性を有意に改善できることが検証され、これにより、このモチーフにより、広範な耐性表現型に関する有用な操作標的がもたらされ得るという観念がさらに支持される。AcrBに加えて、多数のsoxRおよびrpoS変異体の濃縮も観察され、これらはどちらも、以前にストレス耐性に関係付けられており、また、一般的な抗生物質抵抗性表現型である。全体で、有意に濃縮された変異341種のうち136種(40%)がRpoB、MarA、MarR、SoxR、AcrB、またはdxsタンパク質内で同定されたことが観察され、そのそれぞれが以前に抗生物質抵抗性遺伝子として広範囲にわたって検証されている。
最後に、工業的な発酵条件下で細菌の成長を阻害し、したがって、多くの株の操作の試みの標的であるセルロース系加水分解産物の一般的な構成成分であるフルフラールまたは酢酸を使用して選択を実施した(例えば、図12D〜12F)。高酢酸濃度の存在下では(10g/L、例えば、内側のプロット、図12D)、上位100種の変異が、それぞれfis、fadR、rhoおよびfnr遺伝子を標的とするカセットにより優性であった(例えば、図12E)。Fis、FnrおよびFadR調節因子は全て、主要な酢酸利用遺伝子acsの転写調節に関与し、細胞が酢酸を有効に除去することを可能にする、いわゆる「酢酸スイッチ」に関係付けられる。これらの調節因子のノックアウトにより、酢酸利用経路の構成的発現および酢酸成長表現型の改善が導かれ、これにより、本試験において同定された変異(例えば、図12E〜12F)により、それらのそれぞれのタンパク質標的を不安定化することによってこれらの調節機能が阻害される可能性が高いことが示唆される。
酢酸の弱酸耐性とは対照的に、成長阻害濃度のフルフラール(2g/L)の存在下で得られた濃縮プロファイルは有意に異なり、酸化ストレス応答調節因子rpoSを標的とする変異が最も頻繁に観察された(例えば、図12F)。フルフラールによる成長阻害は、酸化ストレスの防止および細胞成長の同化経路の重要な補助因子である細胞のNADPHプールの枯渇によって起こると考えられている。本発明者らの発見と一致して、以前のRpoSに関する試験により、そのような栄養分が枯渇したシナリオでは不活性対立遺伝子が有利であることが実証されている。興味深いことに、42.2℃での選択で観察されたものと同じcrpの変異のいくつかも観察され(例えば、図11Aおよび11C)、再構築の際に、Crp S28P変異体により、フルフラールの存在下での成長を実質的に改善できることが確認された(例えば、図26A〜26B)。この選択が、水素化物イオンをNADHからNADP+に移行させて同化作用のための十分なプールを維持する膜結合トランスヒドロゲナーゼであるPntAトランスヒドロゲナーゼのバリアントについて一意的に濃縮されることも見出した。したがって、基質結合性の裂け目の極めて近傍でのI258Aの変異により、NADPH生成の増強が付与され得る。
集合的に、これらの選択により、既知の関連性をマッピングする能力が実証されること、ならびに新規の変異を目的の形質に迅速にマッピングすることに関するこの方法の力が強調されることによってCREATE戦略が検証される。機能変異の喪失を主に同定する他の大多数の機能的なゲノミクス技術とは対照的に、そのような広範な規模のスキャニング変異誘発を実施する能力により、機能変異の新規獲得も同定することができる、より一般的なゲノム検索のドアが開かれることに留意することも重要である。
この研究において、本発明者らは、CREATEにより、何万ものアミノ酸およびプロモーター変異を単一の実験で並行マッピングすることが可能になることを実証した。一部の実施例では、>50,000の全ゲノム変異の構築、選択、およびマッピング(例えば、図11A〜11Cおよび12A〜12F)を単一の研究者が1〜2週間で実現することができ、合成生物学の現行の最先端の方法と比べて、経済的側面、スループット、および標的規模に数桁の改善がもたらされる。重要なことに、ライブラリーバリアントの濃縮を追跡する能力により、数十の遺伝子座に限られる、より複雑な下流の配列決定手法とは対照的に、単一のプライマーのセットだけを使用する単純なPCRに基づくワークフローによる活性マッピングのための多重化配列決定が可能になる。さらに、CREATEは、コード領域またはプロモーターにおける一ヌクレオチドまたはアミノ酸レベルのバリエーションの影響をマッピングする能力により、追跡可能な多重化リコンビニアリング(TRMR)または遺伝子分解能分析に限られるTn−seq手法などの以前のハイスループットなゲノムの技術よりも相当に多様性の大きな設計目的のセットに取り組むことが可能になる。そのような能力により、CREATEの繰り返しラウンドを実行して設計により駆動されるゲノム操作を実施し、広範囲の大望に対処し得るワークフローを含めた、遺伝子機能を解読し、細胞形質を操作するための新しいパラダイムが可能になる。
とりわけ、以前の手法とのさらなる違いとして、この研究において報告された高効率の変異誘発(例えば、図9A〜9D)は、1桁の改善だけでなく、ネイティブなDNA修復経路が全てインタクトである野生型MG1655株においても実現された。大多数の以前報告されたE.coliにおけるリコンビニアリングの試みでは、変異誘発を1〜30%の効率で実現するためにミスマッチ修復遺伝子または化学修飾されたオリゴヌクレオチドの欠失が必要な一本鎖オリゴ操作が使用されている。プラスミドに基づく相同組換え基質とCas9によるdsDNA切断の組合せにより、これらの要件が回避されると思われ(例えば、図13A〜13Dおよび図9A〜9D)、これにより、集団規模で効率的な編集および追跡を実施するためのCas9およびλ−RED遺伝子の外側の特殊化された遺伝子改変の必要が排除される(例えば、図9A〜9D)。この事実は、CRISPR編集の広範な有用性と並んで、CREATE手法がSaccharomyces cerevisiaeおよび高効率の形質転換プロトコールが利用可能な他の組換えにより生成された細菌などの広範囲の微生物に容易にポートされることを示唆する。CREATE戦略はまた、設計および追跡のために同様の自動化手法を使用する広範囲のCRISPR/Cas系とも適合するべきである。しかし、この方法論を高等真核生物に拡張するには、非相同末端結合を克服するための戦略ならびに安定に再現され得る代替の追跡系を開発する必要がある。
CREATE戦略により、多重化オリゴ合成の組み込み、CRISPR−CAS編集、およびハイスループットな配列決定による活性マッピングおよび指向性進化法のための配列決定の合理化された手法がもたらされる。
(実施例28)
一ヌクレオチド分解能でのゲノム規模での配列と活性の関係のマッピングのさらなる例
プラスミドバーコードのゲノム編集への相反するマッピングの可能性のある影響
本発明者らは、最初のCREATEライブラリーが、プラスミドバーコードとゲノム編集の間に低信頼度マッピング(主にCREATEカセットにおけるPAMと標的変異の間の距離によって説明される、図2d参照)を有すると予測した設計を含んだことを注記する。以下に、プラスミド追跡によりゲノムバリアントに関する誤った結論が導かれ得る場合の一部において生じる可能性がある種々のシナリオを記載する。これらのシナリオの評価において留意すべきいくつかの事項として、i)プラスミドカセットによるゲノム編集に対する機能的影響は最小であるまたは全くないはずであること、ii)ゲノム遺伝子座はWT配列または本発明者らが配列決定によって得た編集カセットに由来する配列のいずれかのみであること、およびiii)多数の部位における(例えば、図16A〜16E)または編集−修復鋳型の添加の不在下で実施した場合のCRISPR−Cas編集の毒性を考慮すると、オフサイトの編集は非常に可能性が低いことが挙げられる。最後に、本発明者らは、反復実験およびより進んだディープシーケンシングの使用によっても、これらの問題に対処できることに注目する。
適応度の高いバリアントの追跡(陽性濃縮追跡)
ゲノム改変(したがって、関連するプラスミド)に関して強力な選択的利点が存在する場合、単に、選択後に、染色体に編集を有する細胞を観察する。したがって、これは、特に、選択時間が短い場合に、大抵が真陽性であり、したがって、集団をスイープする複製誤差に起因するランダムな変異の可能性が限定される。この現象により、改変およびwt適応度のコンボリューションを表す濃縮プロファイルに起因して、変異の真の適応度に関して定量的な過小評価が導かれる可能性があるが、偽陽性は生じない。さらに、反復実験および/またはより長い選択の使用によっても、この潜在的な問題に対処し、適応度に対する変異の影響に関する誤った結論を排除することができる。
適応度の低いバリアントの追跡の(陰性濃縮追跡)
コードされる変異が陰性適応度寄与を有するが、PAMのみまたは改変されていない染色体に関連付けられる場合、特に、より長い選択時間に関して、変異体の適応度が不正確に過大評価され、wtに近いと仮定される(例えば、図22A〜22Cを参照されたい)。しかし、ディープシーケンシング手法はいずれも、選択後のそのような変異に関する情報の欠如に起因する同様の限定およびこれらのシナリオにおける統計値の計数に関連する問題に対処するものであるにちがいない。さらに、本発明者らは、このシナリオが、編集されていない画分(約30%)内の真に陰性である適応度変異体のサブセット(歴史的指向性進化法およびALEデータに基づいて、10〜20%であるはずである)にのみ関連すること、ならびに多数の反復形質転換において編集されていない画分に留まることに注目する。言い換えれば、WT適応度で時々現れる特定の変異体において不一致が観察される場合に、反復形質転換によって検出および/または対処することができるのは小さな百分率(4〜5%)のシナリオである。
不完全なカバレッジ
最初の集団内にバリアントが存在しない場合(形質転換効率が低いことおよび編集効率が低いことの両方に起因して)、いくつかのシナリオが生じ得る。上記の点により暗示される通り、変異が有益である場合に、適応度の利点を付与するものではないと誤って結論付けられる可能性があり、変異が真に有害である場合にも、中性の適応度スコアに不正確に割り当てられる可能性がある。これは、この研究において時に生じると思われ、また、反復測定に関連する誤差および適応度の低いバリアントを同義の対照から区別する本発明者らの能力の両方に影響を及ぼす。しかし、新規のおよび以前検証された変異を容易に同定する本発明者らの能力によって証明される通り、これらの問題にもかかわらず、有益な変異体を同定する本発明者らの能力は頑強である。Cas9の毒性を克服することおよびリコンビニアリング効率を改善することによってこれに取り組むための戦略は、そのような問題がほとんど排除される見込みを保持する。さらに、反復実験の数を増やす、配列決定の深度を増大させる、かつ/または、より大きな規模の形質転換を実施することによってライブラリーカバレッジを改善することも、これらの問題に取り組むために役立ち得る。
オフターゲットのgRNA切断
オフターゲットのgRNA切断は、E.coliでは、そのゲノムのサイズが比較的小さく(4Mb)、したがって、CREATEカセットに対する相同性領域がない(標的化されない)ことに起因して稀なはずである。さらに、Cas9の存在下でのgRNAの毒性(例えば、図9A)により、E.coliではdsDNA切断に起因して細胞生存が損なわれることが確実になる。E.coliに導入される追加の切断はそれぞれ、相同な修復鋳型が各切断部位にもたらされる場合であっても、倍加的な毒性の影響を招くと思われる(例えば、図16A〜16E)。この毒性の影響は、2つの部位を標的とするが、単一のHAのみを含有する単一のgRNAによるオフターゲットの切断事象の場合にそうなるように、ガイドHRに対する修復鋳型が存在しないことによってさらに悪化する(例えば、図16A〜16E)。
ランダムなオフターゲットの変異誘発(進化)
オフターゲットの変異に起因してCREATEバリアントが強力に濃縮される確率は、高度に起こりそうになくても、2つの因子:1)上で述べられた理由による毒性の影響および2)特に選択の多数の反復実験においてCREATEの変異誘発率と比較してMG1655の変異率が低いまたは他の変異修復能力が高い株に起因する。プラスミドプールをナイーブな親バックグラウンドに移行し戻し、適応度を改善するCREATEプラスミドの最初の集団からの濃縮を迅速に検証できることも検証した。反復実験データと同様に、これにより、各CREATEプラスミドを本発明者らの分析に干渉するバックグラウンド変異の潜在性からデカップリングすることが可能になる。これらの因子により、本発明者らの分析中になされる仮定が単純化され、その妥当性は、本研究の間に同定された外部および内部で検証された遺伝子型の両方により支持される。
同義の変異の可能性のある影響
同義の変異(例えば、PAM領域内)により、表現型に予想外の影響が付与され得る。これをいくつかの様式で制御した。あらゆる実験において、同義の変異のライブラリーからなる内部標準を含め(各コドンに1/20または総インプットの5%)、そのそれぞれから異なるPAMとコドンの組合せがサンプリングされ、したがって、多くの同義の変化の濃縮プロファイルを測定することによって遺伝子に対して有し得る可能性のある影響の範囲に関する知識がもたらされる。研究により示唆される通り、この集団を対照として使用して、有意な適応度の変化を単一のアミノ酸の分解能で正確に同定することができる。この影響を、本明細書に記載のALE試験のために行ったものと同様の、部位を多数のPAM変異とカップリングさせる重複性のサンプリング手法を利用することによって制御することもできる。
CREATEライブラリー設計の考察
種々の設計原理を、本明細書に開示されているいくつかの研究に記載されているライブラリーを標的とする遺伝子において実行した。例えば、folAライブラリー(3140種のカセット)を、完全な単一の部位飽和変異誘発および配列活性のための不偏の探索的ライブラリーになるように設計した。しかし、大多数の遺伝子については、標的タンパク質に対する機能的影響を有する可能性が最も高い部位(例えば、DNA結合性部位、活性部位、以前の選択によって変異ホットスポットであると同定された領域)の多様性に焦点を当てるように選択することにより、興味深い遺伝子型の確率を最大にしようとした。これらのライブラリー設計に含めた部位は、Ecocyc(biocyc.org/)、Uniprot(uniprot.org/)、およびPDB(rcsb.org/pdb)を含めたデータベースに寄託された情報、ならびに指向性進化法手法を使用して目的の残基または領域を同定した関連する文献引用に基づいて選択した。UniprotおよびEcocycデータベースでは、変異による影響および各タンパク質の重要なドメインを示す、手動で精選された配列特徴がもたらされる。リガンドまたはDNA結合性部位をモデリングするのに十分な構造情報が存在する場合、関連する結晶構造をPymolにローディングし、手動の残基選択を行い、数値一覧としてエクスポートした。プロモーターライブラリーに関しては、転写開始部位に対するこれらの部位の間隔およびCRP結合性部位(転写開始部位に対して−72から−40の間に位置するAAATGTGAtctagaTCACATTT)またはRNAポリメラーゼのアルファサブユニットを直接動員するUPエレメント(AAAATTTTTTTTCAAAAGTA−転写開始部位から60)のいずれかの正準認識配列を考慮に入れた。これらの配列を、タンパク質標的化のために設計された自動化CREATE設計ソフトウェアのバリエーションを使用して、レギュロンDBにおける公的に入手可能な転写開始部位アノテーションに対してこれらの位置に組み込むように設計した(例えば、図13A〜13D)。これらのカセットは、遺伝子量の影響および適応度に対する調節を評価する意図で作出した。最後に、高温(例えば、42.2℃)での成長に1年間適応させた後、115種の単離株の完全なゲノムについて配列決定した包括的なALE実験によって同定された197種の遺伝子を標的とする645種の非同義の変異の全てを再構築するためのライブラリーを設計した。全体で、52,356種のオリゴマーを設計し、48,080種は35種の遺伝子にわたって2404のコドン位置を飽和させることを意図したものであり、2,550種のオリゴは、ALE変異、379種のUPプロモーター変異体および772種のCAPプロモーター変異を同時の配列と活性の関係のマッピングを可能にする様式で再生させるために作出した。
カセット設計および自動化原理
galKを用いた対照実験(例えば、図9A〜9D)および現行の最大の商業的合成の長さの制約(Agilentからの200bp)に基づいて、各CREATEカセットについての一般的な設計を開発した(例えば、図8A〜8B)。
CREATEカセットの設計を、カスタムPythonスクリプトを使用して自動化した。基本アルゴリズムにより、遺伝子配列、標的残基の一覧、およびコドンの一覧をインプットとして取得する。遺伝子配列を、対応するスペーサー配列を有する入手可能な全てのPAM部位について検索する。次いで、この一覧を標的化されるコドン位置の相対的近傍に応じて選別する。最初の一覧内の各PAM部位について、アルゴリズムにより、同じくPAM部位を直接破壊する、インフレームで作出することができる同義の変異が確認され、この条件がアルゴリズムに適合する場合には、指定のコドン変化の作出および付随的なスペーサーを有する完全なCREATEカセットの設計を進行させ、各インプットコドンおよび位置についてそれぞれ繰り返す。各PAM変異について、次のPAM部位に進む前に、可能性のある全ての同義のコドン置換を確認する。本試験におけるコドン飽和ライブラリーに関して、E.coli使用統計値に応じて、設計されたアミノ酸置換それぞれについて最も頻度の高いコドンを選択する(genscript.com/cgi−bin/tools/codon_freq_table)。ラップトップコンピュータでスクリプトを急速に実行することができ、それを使用してこれらのライブラリーの完全な設計を<10分で生成した。この試験において使用するアルゴリズムは、時には選択可能な変異マーカーとしてPAMのみを使用して、可能性のある最も保存的な変異が作出されるように設計した。
プラスミド
X2−cas9の広範な宿主域ベクターを、ゲノムS.pyogenes DNA由来のcas9遺伝子をpBTBX2骨格(Lucigen)に入れ増幅することによって構築した。このベクターのベクターマップおよび配列ならびにgalK_Y145*_120/17CREATEカセットが以下の場所で提供される:benchling.com/s/3c941j/edit;benchling.com/s/xRBDwcMy/edit。
この研究の一部で実施された編集実験では、X2−cas9ベクターをpSIM5ベクター(redrecombineering.ncifcrf.gov/strains−− plasmids.html)と組み合わせて使用して、報告した効率を実現した。
CREATEライブラリーのリコンビニアリング
CREATEプラスミドライブラリーを、温度感受性pSIM5プラスミド(ラムダレッド)、および、pBTBX−2骨格にクローニングされたS.pyogenesゲノムDNAに由来する誘導性cas9遺伝子(X2cas9、例えば、図15A〜15D)を含有する広宿主域のプラスミドを有する野生型E.coli MG1655株に入れて形質転換することによってゲノムライブラリーを調製した。pSIM5を42℃で15分にわたって誘導し、その後、氷上で15分にわたって冷却した。細胞を最初の培養物体積の1/5のddH2Oで3回洗浄した(例えば、50mLの培養物については10mLでの洗浄)。電気穿孔後、細胞をLB+0.4%アラビノース中に回収してCas9を誘導した。細胞をスポットプレーティングの1〜2時間前に回収して、ライブラリーカバレッジを決定し、LB+0.4%アラビノース+50μg/mLのカナマイシン+100μg/mLのカルベニシリン中に一晩で回収するために10×体積に移した。飽和した一晩培養物をペレット化し、LB5mLに再懸濁させた。1mLを使用してグリセロールストックを作出し、他の1mLを適切な選択培地で洗浄した後、選択を進行させた。
galKを用いた対照実験のために、この位置における単一の点変異および標的化されたPAM部位を消滅させる同義の変異を作出するための第2の点変異を伴う、Y145(TAT)が終止コドン(TAA)に変換されるように設計したCREATEカセットを使用した(例えば、図8Bおよび図13A〜13D)。編集効率(例えば、図13A〜13Dおよび図9A〜9B)を、以前に記載されている通り、1%ガラクトースを補充したマッコンキー寒天上での赤色/白色プレートに基づくスクリーニングを使用して推定した。
選択手順
一晩で回収した後、細胞を、ペレット化することによって採取し、新鮮な選択培地に再懸濁させた。全ての選択を振とうフラスコ中で実施し、最初のOD600を0.1として接種した。各選択について、培養物が定常期に達した後、培地体積の1/100を移すことによって3段階希釈(標的条件での成長速度に応じて48〜96時間)を行った。最初の適応から低炭素利用可能性を模倣するために、M9培地+0.2%グルコース中、42℃での選択を実施した。ストリンジェントな選択を確実にするために、LB+500μg/mLのリファンピシンまたはエリスロマイシン中、抗生物質による選択を行った。M9+0.4%グルコースおよび10g/Lの酢酸(非緩衝)または2g/Lのフルフラールのいずれかの中で溶媒選択を実施した。選択物を、最終的な培養物1mLをペレット化することによって採取し、細胞ペレットをTE緩衝液100μL中で煮沸して、プラスミドおよびゲノムDNAの両方をさらなる所望の分析のために保存した。
ライブラリー調製および配列決定
CREATEプラスミドからの単一の増幅ステップおよびバーコードを使用した実験読み取りの割り当てを可能にするために、カスタムIllumina適合プライマーを設計した。CREATEカセットを、Phusion(NEB)ポリメラーゼを用い、60℃でのアニーリングおよび1:30分の伸長時間を使用した20サイクルのPCRを使用して、煮沸した細胞溶解物のプラスミド配列から直接増幅した。クローニング手順と同様に、過剰数のPCRサイクル(例えば、>25〜30)を実行した場合に観察された変異の蓄積およびCREATEカセットの組み換えを防止するために、最小数のPCRサイクルを維持した。増幅した断片を検証し、1%アガロースゲル電気泳動によって定量し、各試料についての所望の読み取り深度に応じてプールした。プールされたライブラリーを、Qiaquick PCR清浄化キットを使用して清浄化し、標準のIllumina調製キットを使用してNGSのために処理した。Illumina配列決定および試料の調製を、プライマーを用いて実施した。
ハイスループットな配列決定の予備処理および計数の生成
ペアエンドIllumina配列決定読み取りを、最大3つのミスマッチの許容度でgolayバーコード指数に応じて選別し、次いで、usearch−fastq_mergeアルゴリズムを使用して統合した。次いで、選別された読み取りを、設計されたCREATEカセットのデータベースに対して、usearch_globalアルゴリズムを同一性閾値90%で使用してマッチングし、各読み取りについて最大60の可能性のあるヒットを可能にした。得られたヒットを、パーセント同一性に応じてさらに選別し、最良にマッチするCREATEカセット設計を最終的なカットオフを最初の設計に対する98%同一性として使用して読み取りの割り当てを行った。この読み取りの割り当て戦略は、設計された遺伝子型間の相関を同定しようとするものであり、したがって、実験手順の間に生じる可能性がある変異に起因して生じる他の重要な特徴が見落とされる可能性があることに留意するべきである。この手法は、データ解析を単純化するため、ならびに「フォワード」設計およびアノテーション手順および意味のある遺伝学的現象を正確に同定するその能力を評価するために取られた。
データ解析および適応度の算出
濃縮スコア(または絶対的な適応度スコア)を、以下の方程式を使用してlog2濃縮スコアとして算出した:
(式中、Fx,fは、最終時点におけるカセットXの頻度であり、Fx,iは、カセットXの最初の頻度であり、Wは各バリアントの絶対的な適応度である)。頻度は、各バリアントについての読み取り計数を、フィルタリングで失われたものを含めた総実験計数で割ることによって決定した。各選択を2連で実施し、2回の測定の計数重み付け平均を使用して、各変異の平均適応度スコアを以下の通り推定した:
これらのスコアを使用して、調査した種々の選択圧下での各変異の適応度寄与を順位付けし、評価した。全ての選択について、平均成長速度の複合尺度として、同義の変異体の全てについての絶対的な適応度スコアの平均を取得した。絶対的な濃縮スコアは、変異体の濃縮が野生型値の少なくとも+/−2*σ(例えば、正規分布を仮定してp=0.05)であれば、有意であるとみなした。これらの数値を導き出すために、本試験において報告した各選択に関して2回の反復実験を実施し、各分析に含めるために、反復実験にわたってカットオフ閾値10を適用した。
本発明者らの設計で標的化されたあらゆるコドンは、内部実験対照をもたらすために同義のバリアントも含んだ。したがって、タンパク質標的化カセットの5%は、カスタムPythonブートストラッピングスクリプトを使用して変異の影響についての信頼区間を推定することを可能にする同義の変異をコードした。各実験についての濃縮データを、20000を置き換えて再サンプリングして、95%信頼区間の推定を得、それを使用して、本原稿に示されている各分析について濃縮スコアの統計的有意性を推定した。
変異体の再構築および成長測定
AcrB T60NおよびCrp S28PおよびFolA F153R/W CREATEカセットを、別々のgblocksとしてIDTに注文し、クローニングし、配列検証した。各カセットをMG1655に入れて形質転換し、コロニースクリーニングして、設計されたゲノム編集を有するクローンを同定した。次いで、これらの株(例えば、図21および図22A〜22C)を、示されている通り、プールされたライブラリー選択から成長条件に供した。各条件について、600nmにおける吸光度が測定されるように設定した96ウェルプレートリーダー中、100μLで、成長曲線を3連で取得した。プレートを覆い、空のウェルに水を添加して成長中の蒸発を低減した。
ソフトウェアおよび図の生成
Circos v0.67を使用して円形プロットを生成した。Python 2.7でmatplotlibプロッティングライブラリーを使用してプロットを生成し、Adobe Illustrator CS5を使用して図を作成した。ProDy PythonパッケージおよびPfam accession PF00186 representative proteome alignment RP35を使用してFolAについてのエントロピースコア(図10A)を決定した。
タンパク質ライブラリーおよび適応度の高い変異に関する図を、PyMol Molecular Graphics System、Schrodinger、LLCを使用して作成した。以下は、図の生成に使用したタンパク質およびPDBである:AcrB(3W9H、4K7Q、3AOC)、Fis(3JR9)、Ihf(1IHF)、RNAポリメラーゼ(4KMU、4IGC)、Crp(3N4M)、MarA(1BLO)、およびSoxR(2ZHG)。
(実施例29)
編集−バーコード相関の試験
Cas9−pSIM5二重ベクターである、低コピー数プラスミド(Ec23)を発現する株を、異なる遺伝子編集カセット(lacZ、xylA、およびrhaA)ならびに異なるバーコードおよび挿入部位(galK部位1、galK部位2、およびgalK部位3)を有するレコーダーカセットを使用して試験した(図27Aに要約されている)。可能性のある転帰が図27Bに示されている。選択前には、全ての編集/バーコード/WTの組合せが可能である。選択後には、編集細胞を、この実験計画においてバーコード付けされているか否かにかかわらず濃縮することができる。
形質転換物を、遺伝子編集を含有する細胞の濃縮を可能にする選択培地にプレーティングした。各組合せ形質転換からの30コロニーについて配列決定して、それらが所望のバーコードを含有するかどうかを決定した。
図27Cは、配列決定データからの結果を示す。編集/バーコード組合せのうちの2つが試験したコロニーの100%で見出され(30/30コロニー)、他の編集/バーコード組合せ形質転換は、試験したコロニーのおよそ97%で見出された(29/30コロニー)。適正に操作されなかった単一のコロニーは、遺伝子編集を含有したが、バーコードは含有しなかった。
全体的に、試験したコロニー90種のうち89種が、設計された遺伝子編集およびバーコードを有する。
(実施例30)
選択可能なレコーディング
バーコードを選択しない場合、対応する遺伝子編集が組み入れられ、選択されたとしても、それはバーコードが付されていない細胞の濃縮を可能にする。図28は、編集カセットの組み入れの選択に加えて、レコーディング事象(例えば、レコーダーカセットによるバーコードの組み入れ)を選択し、それにより、編集されかつバーコードが付された細胞の回収効率を上昇させる戦略の例を示す。
図28に示されている通り、配列S0、S1、S2などは、次のラウンドのレコーダーカセットに付随するガイドRNAにより標的とされるように設計されている。示されている例では、操作の第1ラウンドにおいて、選択可能なマーカーをオンにするために必要なPAM変異、バーコード、S1部位、および調節エレメントを標的領域のS0部位に組み入れる。これにより、TetR選択可能なマーカーがオンになり、第1ラウンドPAM部位が欠失したS1部位を有する、バーコードが付された変異バリアントの濃縮が可能になる。操作の第2ラウンドにおいて、第2のPAM変異を含む新しいレコーダーカセット、第2のバーコード、S2部位、および選択可能なマーカーをオフにする変異を前のラウンドからのS1部位に組み入れる。これにより、第2のバーコードおよびS2部位が組み入れられたバリアントの対抗選択が可能になる。その後のラウンドを続けて、選択可能なマーカーをオンの状態とオフの状態の間で反転させ、選択または対抗選択をそれぞれ使用して所望のバリアントを濃縮する。各ラウンドからのレコーダーカセットを、前のラウンドで組み入れられた独特の配列(例えば、S0、S1など)に組み入れられるように設計する。これにより、バーコーディングの最後のラウンドが上首尾になり、したがって、所望の操作ステップの全てが最終産物に含有されることが確実になる。各ステップにおけるPAM変異の組み入れも、改変されていないPAM配列を有する細胞は、CRISPR酵素切断から逃れられないために死滅するので、所望のバーコードが付されたバリアントが選択されることを確実にするのに役立つ。
この戦略では、操作の各ラウンドから操作された編集の全てを含有する所望のバリアントを単離する効率を上昇させるために多数の方法を使用する。各ラウンドで組み入れられたPAM変異、選択可能マーカースイッチ、および独特のランディング部位は、効率を別々に上昇させるだけでなく、一緒になっても効率を上昇させる。これらのツールは、各レコーディングラウンドの選択を可能にし、高度に活性なレコーディングガイドRNAの設計を可能にする。等しい間隔をあけた(または設計に応じて、等しい間隔をあけていない)バーコードのアレイを生成し、ゲノム全体を通していずれの対応する編集が組み入れられたかを決定するためにバーコードアレイについて配列決定することなどの下流の分析を容易にする。
図29は、上記の選択可能なレコーダー戦略を試験するための実験計画を示す。編集カセットおよびレコーダーカセットを含有するプラスミド(pREC1)を細胞に入れて形質転換した。編集カセットは、非標的化編集カセット、または変異(TSではない)もしくは温度感受性変異(TS)を標的遺伝子に組み入れた変異のいずれかを含有した。レコーダーカセットを、最初にtetR選択可能なマーカーがオフになった標的遺伝子のS0部位に組み入れるために設計した。レコーダーカセットは、S0 PAM部位が欠失したPAM変異、第1のバーコード(BC1)、その後の操作ラウンドのための、レコーディングカセットが組み入れられる独特のS1部位、およびTetR選択可能なマーカーをオンにする補正変異も含有した。S0部位内のPAM部位を標的とするレコーダーカセット上のガイドRNA(S0−gRNA)により、CRISPR酵素、この場合はCas9が、S0部位を切断することが可能になる。レコーダーカセットを切断されたS0部位に組み換える。PAM変異が組み入れられ、これは、S0−gRNAがもはやS0部位を標的とすることができないことを意味し、それにより、WT細胞が死滅し、バーコードを受け取った細胞が濃縮される。TetR選択可能なマーカーもオンになり、それにより、バーコードが付されたバリアントのさらなる選択が可能になる。
図30Aおよび30Bのデータは、上で記載され、図29に示されている実験からの結果を示す。形質転換および操作ラウンドから回収されたTet抵抗性コロニーのうち、16種を配列決定し、全てが、設計されたバーコードを含有することが決定された(図30A)。図30Bは、レコーダー標的部位を含有しない対照細胞(非標的)はTetの存在下で生存しなかったが、標的部位を含有する細胞では、TetRがオンになったことにより証明される通り、首尾よくバーコードが付され、これにより当該細胞がTet含有培地で選択されることが可能になったことを示す。Tet抵抗性コロニーは、TetR遺伝子がオンになったゲノムの部位において確認された。これらのデータから、選択可能なレコーディングが上首尾であったことが示された。
(実施例31)
MADヌクレアーゼの発現
MAD1−MAD20の野生型核酸配列は、それぞれ配列番号21〜40を含む。これらのMADヌクレアーゼを、E.coliにおける発現についてコドン最適化し、コドン最適化された配列はそれぞれ配列番号41〜60として列挙されている(表2に要約)。コドン最適化されたMAD1−MAD20を、構成的または誘導性プロモーター(例えば、T7プロモーター配列番号83、またはpBADプロモーター配列番号81もしくは配列番号82)および任意選択の6×−Hisタグを含む発現構築物にクローニングした。生成したMAD1−MAD20発現構築物はそれぞれ配列番号61〜80として提供される。
(実施例32)
MAD2およびMAD7ヌクレアーゼ
MAD2およびMAD7ヌクレアーゼは、本明細書に開示されている方法において使用することができる核酸誘導型ヌクレアーゼである。ヌクレアーゼMad2(配列番号2)およびMad7(配列番号7)をクローニングし、細胞に入れて形質転換する。galK遺伝子の標的部位を変異させるために設計した編集カセットを、変異を用いて設計し、これにより、首尾よく編集されるコロニーの白色/赤色スクリーニングが可能になる。編集カセットは、galKを標的とするように設計したガイド核酸もコードした。編集カセットを、MAD2、MAD7、またはCas9を発現するE.coli細胞に入れて形質転換した。図31Aは、Cas9と比較したMad2およびMad7の編集効率を示す(配列番号110)。図31Bは、細胞生存率によって証明される形質転換効率を示す。本実施例では、MAD2およびMAD7と共に使用したガイド核酸は、足場−12配列およびgalKを標的とするガイド配列を含んだ。Cas9と共に使用したガイド核酸は、S.pyogenes Cas9と適合する配列を含んだ。
図32および表3は、MAD2ヌクレアーゼを使用した遺伝子編集のさらなる例を示す。本実験では、異なるガイド核酸配列を試験した。ガイド核酸のガイド配列は、上記の通りgalK遺伝子を標的とした。ガイド核酸の足場配列は、示されている通り種々の試験される配列のうちの1つであった。足場−5、足場−10、足場−11、および足場−12を伴うガイド核酸がMAD2との機能的な複合体を形成することができた。
図33および表4は、MAD7ヌクレアーゼを使用した遺伝子編集のさらなる例を示す。本実験では、異なるガイド核酸配列を試験した。ガイド核酸のガイド配列は、上記の通りgalK遺伝子を標的とした。ガイド核酸の足場配列は、示されている通り種々の試験される配列のうちの1つであった。足場−10、足場−11、および足場−12を伴うガイド核酸(例えば、図31A)がMAD7との機能的な複合体を形成することができた。アミノ酸配列が表2で提供され、足場配列が表3および表4で提供される。表3および表4は、galK標的遺伝子を変異させるために使用した編集カセットにおいて設計された変異も提供される。
MAD2、MAD7、および他のMADヌクレアーゼのさらなる詳細および特徴付けは、それぞれの全体が本明細書に組み込まれる、米国特許出願第15/631,989号、2017年6月23日出願、および米国特許出願第15/632,001号、2017年6月23日出願に記載されている。
本発明の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態が単に例として提供されていることは当業者には明白であろう。当業者は、本発明から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。本明細書に記載の発明の実施形態に対する種々の代替を、本発明の実施において使用できることが理解されるべきである。以下の特許請求の範囲により本発明の範囲が定義され、それによって、これらの特許請求の範囲の範囲内の方法および構造ならびにそれらの等価物が包含されるものとする。