JP7646552B2

JP7646552B2 - 低減された非標的脱アミノ化を有する核酸塩基エディターおよび核酸塩基エディターの特徴づけのためのアッセイ

Info

Publication number: JP7646552B2
Application number: JP2021544294A
Authority: JP
Inventors: イアンスレイメイカー、; ジェイソンマイケルゲールケ、; ニコルゴーデッリ、; イユ、
Original assignee: ビームセラピューティクスインク．
Priority date: 2019-01-31
Filing date: 2020-01-31
Publication date: 2025-03-17
Anticipated expiration: 2040-01-31
Also published as: CN114040977A; US20220098572A1; EP3918078A1; JP2025102784A; CN114040977B; US12612618B2; EP3918078A4; KR20210121113A; JP2022519507A; AU2020215730A1; WO2020160514A1; CA3127493A1

Description

クロスリファレンス
本出願は、2019年1月31日に出願された米国仮特許出願第62/799,702号の利益を主張し、その内容はその全体が参照により本明細書に組み込まれる。

CRISPR-Casタンパク質の正確な標的指向化と組み合わされたデアミナーゼは、核酸塩基エディターと呼ばれ、標的ポリヌクレオチドに特異的な点突然変異を導入する能力を有する。核酸塩基エディターは、二本鎖DNA切断を導入することなく塩基変化を誘導し、標的A・TをG・Cに変換するアデノシン塩基エディターおよび標的C・GをT・Aに変換するシチジン塩基エディターを含む。しかしながら、細胞への核酸塩基エディターの導入は、ゲノム全体に渡る目的外（spurious）の脱アミノ化、バイスタンダー（bystander）変異、および標的近傍編集を含む、望ましくない塩基エディター関連編集を生じる可能性がある。目的外の脱アミノ化事象はゲノム全体にわたって起こり得、ガイドRNAによるCRISPR-Casドメインのプログラミングを介した標的化塩基編集とは独立して作用する塩基エディター脱アミノ化ドメインによって触媒される。理論に縛られるものではないが、ゲノム全体にわたる目的外脱アミノ化事象は、例えば「DNA呼吸（DNA breathing）」によるものやDNA複製フォークにおけるものなど、一本鎖DNA基質が形成される場所で起こる可能性がある。標的近傍編集は、オン・ターゲット配列の外側で起こるが、標的領域の上流または下流の約200 bp以内にある塩基編集事象である。バイスタンダー変異は、Cas9/sgRNAでガイドされたオン・ターゲットの塩基編集ウィンドウ内で起こるが、所望の標的核酸塩基ではない変異である。バイスタンダー変異は、サイレント変異（アミノ酸変化なし）または非同義変異（アミノ酸変化）のいずれかをもたらし得る。従って、非標的脱アミノ化が低減された塩基エディターに対する必要性がある。

以下に記述するように、本発明は、核酸塩基エディターの組成物および方法、ならびに、（例えばプログラムされたオン・ターゲット脱アミノ化と比較して）低減された非標的脱アミノ化を有するものとして核酸塩基エディターを特徴付けるためのアッセイを提示する。

本発明によって定義される組成物および物品は、下記に提供される例に関連して、単離されあるいは他の方法で製造された。本発明の他の特徴および利点は、詳細な説明および特許請求の範囲から明らかであろう。

1つの態様において、本明細書で提供されるのは、Cas9ポリペプチドの可撓性（flexible）ループ内に挿入されたデアミナーゼを含む融合タンパク質であって、その融合タンパク質は、以下の構造：
NH2-[Cas9のN末端断片]-[ デアミナーゼ]-[Cas9のC末端断片]-COOH
を含み、ここで、“]-[”の各記載は任意のリンカーである。

一態様において本明細書で提供されるのは、Cas9ポリペプチドのN末端断片とC末端断片とに隣接するデアミナーゼを含む融合タンパク質であって、ここで、上記N末端断片のC末端または上記C末端断片のN末端断片は、Cas9ポリペプチドの可撓性ループの一部を含む。

ある実施形態において、融合タンパク質のデアミナーゼは、標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化する。いくつかの実施形態において、可撓性ループは、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。いくつかの実施形態において、可撓性ループは、Cas9ポリペプチドのαヘリックス構造の一部を含む。いくつかの実施形態において、標的核酸塩基は、配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化をもって脱アミノ化される。

ある実施形態において、標的核酸塩基は、標的ポリヌクレオチド配列におけるプロトスペーサー隣接モチーフ（PAM：Protospacer Adjacent Motif）配列から1～20核酸塩基離れている。いくつかの実施形態において、標的核酸塩基は、PAM配列の2～12核酸塩基上流である。いくつかの実施形態において、可撓性ループは、配列番号1における番号付けで位置530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248、および1298-1300にあるアミノ酸残基からなる群から選択される領域、またはそれに対応する領域を含む。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、または1248-1249の間、またはそれに対応するアミノ酸位置の間に挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069、または1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置1016-1017、1023-1024、1029-1030、1040-1041、1069-1070または1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。

いくつかの実施形態において、N末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、および／または1248-1297、またはそれに対応する残基を含む。いくつかの実施形態において、C末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368、1248-1297、1078-1231、1026-1051、948-1001、692-942、580-685、および／または538-568、またはそれに対応する残基を含む。いくつかの実施形態において、Cas9ポリペプチドのN末端断片またはC末端断片は、標的ポリヌクレオチド配列に結合する。

いくつかの実施形態において、Cas9ポリペプチドのN末端断片またはC末端断片は、DNA結合ドメインを含む。ある実施形態において、N末端断片またはC末端断片は、RuvCドメインを含む。いくつかの実施形態において、N末端断片またはC末端断片は、HNHドメインを含む。いくつかの実施形態において、N末端断片およびC末端断片のいずれもHNHドメインを含まない。いくつかの実施形態において、N末端断片およびC末端断片のいずれもRuvCドメインを含まない。ある実施形態において、Cas9ポリペプチドは、1つまたは複数の構造的ドメインにおける部分的または完全な欠失を含む。ある実施形態において、デアミナーゼは、Cas9ポリペプチドの部分的または完全な欠失の位置に挿入される。

いくつかの実施形態において、欠失はRuvCドメイン内にある。いくつかの実施形態において、欠失はHNHドメイン内にある。いくつかの実施形態において、欠失は、RuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインとを架橋する。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1おける番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む。

1つの態様において、Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質が本明細書で提供され、ここで、融合タンパク質は、以下の構造：
NH2-[Cas9のN末端断片]-[ デアミナーゼ]-[Cas9のC末端断片]-COOH
を含み、ここで、“]-[”の各記載は任意のリンカーであり、Cas9ポリペプチドはHNHドメインの完全な欠失を含み、デアミナーゼはその欠失位置に挿入される。

いくつかの実施形態において、N末端断片のC末端アミノ酸は、配列番号1における番号付けでアミノ酸791である。いくつかの実施形態において、C末端断片のN末端アミノ酸は、配列番号1における番号付けでアミノ酸907である。いくつかの実施形態において、C末端断片のN末端アミノ酸は、配列番号1における番号付けでアミノ酸873である。

本明細書で提供される1つの態様において、Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質が提供され、ここで、融合タンパク質は、以下の構造：
NH2-[Cas9のN末端断片]-[ デアミナーゼ]-[Cas9のC末端断片]-COOH
を含み、ここで、“]-[”の各記載は任意のリンカーであり、Cas9はRuvCドメインの完全な欠失を含み、デアミナーゼはその欠失位置に挿入される。

ある実施形態において、デアミナーゼは、シチジンデアミナーゼまたはアデノシンデアミナーゼである。ある実施形態において、シチジンデアミナーゼは、APOBECシチジンデアミナーゼ、活性化誘導（activation induced）シチジンデアミナーゼ（AID）、またはCDAである。ある実施形態において、APOBECデアミナーゼは、APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、またはAPOBEC4である。いくつかの実施形態において、APOBECデアミナーゼは、rAPOBEC1である。ある実施形態において、上記態様のいずれか1つの融合タンパク質は、UGIドメインをさらに含む。

ある実施形態において、アデノシンデアミナーゼは、TadAデアミナーゼである。いくつかの実施形態において、TadAデアミナーゼは改変TadAである。いくつかの実施形態において、TadAデアミナーゼはTadA7.10である。ある実施形態において、アデノシンデアミナーゼは、TadA二量体である。いくつかの実施形態において、TadA二量体は、TadA7.10および野生型TadAを含む。いくつかの実施形態において、任意のリンカーは、(SGGS)n、(GGGS)n、(GGGGS) n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES、もしくは(XP)nモチーフまたはその組み合わせを含み、ここで、nは独立して1～30の間の整数である。

ある実施形態において、Cas9ポリペプチドのN末端断片は、リンカーなしでデアミナーゼに融合される。いくつかの実施形態において、Cas9のC末端断片は、リンカーなしでデアミナーゼに融合される。ある実施形態において、上記態様のいずれか1つの融合タンパク質は、追加的な触媒ドメインをさらに含む。

ある実施形態において、追加の触媒ドメインは、第2のデアミナーゼである。ある実施形態において、第2のデアミナーゼは、融合タンパク質のN末端またはC末端に融合される。ある実施形態において、デアミナーゼは、シチジンデアミナーゼまたはアデノシンデアミナーゼである。ある実施形態において、上記態様のいずれか1つの融合タンパク質は、核局在化シグナルをさらに含む。ある実施形態において、核局在化シグナルは、二部分（bipartite）核局在化シグナルである。ある実施形態において、Cas9ポリペプチドは、Streptococcus pyogenes Cas9（SpCas9）、Staphylococcus aureus Cas9（SaCas9）、Streptococcus thermophilus 1 Cas9（St1Cas9）、またはそれらのバリアントである。ある実施形態において、Cas9ポリペプチドは、改変されたCas9であり、改変されたPAMに対する特異性を有する。ある実施形態において、Cas9ポリペプチドはニッカーゼである。ある実施形態において、Cas9ポリペプチドはヌクレアーゼ不活性である。いくつかの実施形態において、上記態様のいずれか1つの融合タンパク質は、ガイド核酸配列と複合体を形成して、標的核酸塩基の脱アミノ化をもたらす。ある実施形態において、融合タンパク質は、さらに標的ポリヌクレオチドと複合体化されている。

本明細書では、上記の態様のいずれか1つの融合タンパク質をコードするポリヌクレオチドが提供される。

本明細書では、上記ポリヌクレオチドを含む発現ベクターが提供される。

ある実施形態において、発現ベクターは哺乳動物発現ベクターである。ある実施形態において、ベクターは、アデノ随伴ウイルス (AAV) 、レトロウイルスベクター、アデノウイルスベクター、レンチウイルスベクター、センダイウイルスベクター、およびヘルペスウイルスベクターからなる群より選択されるウイルスベクターである。ある実施形態において、ベクターはプロモーターを含む。

本明細書では、上記の態様のいずれか1つの融合タンパク質、上記のポリヌクレオチド、または上記のベクターを含む、細胞が提供される。

ある実施形態において、細胞は、細菌細胞、植物細胞、昆虫細胞、ヒト細胞、または哺乳動物細胞である。

本明細書では、上記の態様のいずれか1つの融合タンパク質、上記のポリヌクレオチド、または上記のベクターを含む、キットが提供される。

本明細書では、上記のいずれか1つの態様の融合タンパク質にポリヌクレオチド配列を接触させることを含む、塩基編集のための方法が提供され、ここで、融合タンパク質のデアミナーゼは、ポリヌクレオチド中の核酸塩基を脱アミノ化し、それによってポリヌクレオチド配列を編集する。

いくつかの実施形態において、この方法は、標的ポリヌクレオチド配列をガイド核酸配列と接触させて、標的核酸塩基の脱アミノ化を行うことをさらに含む。

1つの態様において、標的ポリヌクレオチド配列中の標的核酸塩基を編集するための方法が本明細書において提供され、この方法は、該標的ポリヌクレオチド配列を、Cas9ポリペプチドのN末端断片およびC末端断片に隣接されたデアミナーゼを含む融合タンパク質と接触させることを含み、ここで、融合タンパク質のデアミナーゼは、標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、そしてN末端断片のC末端またはC末端断片のN末端は、Cas9ポリペプチドの可撓性ループの一部を含む。

本明細書において、標的ポリヌクレオチド配列中の標的核酸塩基を編集するための方法が提供され、この方法は、該標的ポリヌクレオチド配列を、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質と接触させることを含み、ここで、融合タンパク質は、NH2-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOHという構造を含み、“]-[”の各記載は任意のリンカーであり、融合タンパク質のデアミナーゼが標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化する。

いくつかの実施形態において、この方法は、標的ポリヌクレオチド配列をガイド核酸配列と接触させて、標的核酸塩基の脱アミノ化を行うことをさらに含む。いくつかの実施形態において、ガイド核酸配列は、標的ポリヌクレオチド配列のプロトスペーサー配列に相補的なスペーサー配列を含み、それによってRループを形成する。いくつかの実施形態において、標的核酸塩基は、配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端方法と比較してより低いオフターゲット脱アミノ化をもって、脱アミノ化される。いくつかの実施形態において、融合タンパク質のデアミナーゼは、Rループの範囲内で2つを超える核酸塩基を脱アミノ化しない。ある実施形態において、標的核酸塩基は、標的ポリヌクレオチド配列中のPAM配列から1～20核酸塩基だけ離れている。いくつかの実施形態において、標的核酸塩基は、PAM配列の2～12核酸塩基上流である。

いくつかの実施形態において、可撓性ループは、融合タンパク質のデアミナーゼが標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。いくつかの実施形態において、可撓性ループは、配列番号1における番号付けで位置530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248、および1298-1300におけるアミノ酸残基からなる群から選択される領域、またはそれに対応する領域を含む。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、もしくは1248-1249の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069、もしくは1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置1016-1017、1023-1024、1029-1030、1040-1041、1069-1070 もしくは1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。

いくつかの実施形態において、N末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、および／または1248-1297、またはそれに対応する残基を含む。いくつかの実施形態において、C末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368、1248-1297、1078-1231、1026-1051、948-1001、692-942、580-685、および／または538-568、またはそれに対応する残基を含む。いくつかの実施形態において、Cas9ポリペプチドのN末端断片またはC末端断片は、標的ポリヌクレオチド配列に結合する。ある実施形態において、N末端断片またはC末端断片は、RuvCドメインを含む。いくつかの実施形態において、N末端断片またはC末端断片は、HNHドメインを含む。いくつかの実施形態において、N末端断片およびC末端断片のいずれもHNHドメインを含まない。いくつかの実施形態において、N末端断片およびC末端断片のいずれもRuvCドメインを含まない。

ある実施形態において、Cas9ポリペプチドは、1つまたは複数の構造的ドメインにおける部分的または完全な欠失を含む。ある実施形態において、デアミナーゼは、Cas9ポリペプチドのその部分的または完全な欠失の位置に挿入される。いくつかの実施形態において、欠失はRuvCドメイン内にある。いくつかの実施形態において、欠失はHNHドメイン内にある。いくつかの実施形態において、欠失は、RuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインとを架橋する。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む。

いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む。ある実施形態において、デアミナーゼは、シチジンデアミナーゼである。ある実施形態において、デアミナーゼは、アデノシンデアミナーゼである。ある実施形態において、Cas9ポリペプチドは、改変されたCas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する。ある実施形態において、Cas9ポリペプチドはニッカーゼである。ある実施形態において、Cas9ポリペプチドはヌクレアーゼ不活性である。

いくつかの実施形態において、接触させることは、細胞内で行われる。ある実施形態において、細胞は、哺乳動物細胞またはヒト細胞である。ある実施形態において、細胞は多能性細胞である。ある実施形態において、細胞は、インビボまたはエクスビボである。いくつかの実施形態において、接触させることは、細胞の集団において行われる。ある実施形態において、細胞の集団は、哺乳動物細胞またはヒト細胞である。

1つの態様において、対象における遺伝的状態を処置するための方法が本明細書中で提供され、該方法は、Cas9ポリペプチドのN-末端断片およびC-末端断片によって隣接されるデアミナーゼを含む融合タンパク質、または該融合タンパク質をコードするポリヌクレオチドと、ガイド核酸配列または該ガイド核酸配列をコードするポリヌクレオチドとを該対象に投与することを含み、ここで、該ガイド核酸配列は、該融合タンパク質に、該対象の標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化させることにより、該遺伝的状態を処置する。

対象における遺伝的状態を処置するための方法が本明細書中で提供され、該方法は、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質を対象に投与することを含み、ここで、融合タンパク質は、以下の構造：
NH2-[Cas9のN-末端断片]-[デアミナーゼ]-[Cas9のC-末端断片]-COOH
を含み、“]-[”の各記載は任意のリンカーであり、融合タンパク質のデアミナーゼが対象の標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、それによって遺伝的状態を処置する。

いくつかの実施形態において、N末端断片のC末端またはC末端断片のN末端は、Cas9ポリペプチドの可撓性ループの一部を含む。いくつかの実施形態において、本方法は、対象にガイド核酸配列を投与して標的核酸塩基の脱アミノ化を行うことをさらに含む。ある実施形態において、標的核酸塩基は、遺伝的状態と関連する変異を含む。ある実施形態において、標的核酸塩基の脱アミノ化は、標的核酸塩基を野生型核酸塩基で置換する。いくつかの実施形態において、標的核酸塩基の脱アミノ化は、標的核酸塩基を非野生型核酸塩基で置換し、標的核酸塩基のこの脱アミノ化が、遺伝的状態の症状を改善させる。

いくつかの実施形態において、標的ポリヌクレオチド配列は、標的核酸塩基以外の核酸塩基において、遺伝的状態に関連する変異を含む。ある実施形態において、標的核酸塩基の脱アミノ化は、遺伝的状態の症状を改善させる。ある実施形態において、標的核酸塩基は、標的ポリヌクレオチド配列中のPAM配列から1～20の核酸塩基離れている。いくつかの実施形態において、標的核酸塩基は、PAM配列の2～12核酸塩基上流である。いくつかの実施形態において、可撓性ループは、融合タンパク質のデアミナーゼが標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。

いくつかの実施形態において、可撓性ループは、配列番号1における番号付けで位置530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248、および1298-1300におけるアミノ酸残基からなる群から選択される領域、またはそれに対応する領域を含む。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、もしくは1248-1249の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069、もしくは1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸位置1016-1017、1023-1024、1029-1030、1040-1041、1069-1070 もしくは1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。

いくつかの実施形態において、N末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、および／または1248-1297、またはそれに対応する残基を含む。いくつかの実施形態において、C末端断片は、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368、1248-1297、1078-1231、1026-1051、948-1001、692-942、580-685、および／または538-568、またはそれに対応する残基を含む。いくつかの実施形態において、Cas9ポリペプチドのN末端断片またはC末端断片は、標的ポリヌクレオチド配列に結合する。ある実施形態において、N末端断片またはC末端断片は、RuvCドメインを含む。いくつかの実施形態において、N末端断片またはC末端断片は、HNHドメインを含む。

いくつかの実施形態において、N末端断片およびC末端断片のいずれもHNHドメインを含まない。いくつかの実施形態において、N末端断片およびC末端断片のいずれもRuvCドメインを含まない。ある実施形態において、Cas9ポリペプチドは、1つまたは複数の構造的ドメインにおける部分的または完全な欠失を含む。ある実施形態において、デアミナーゼは、Cas9ポリペプチドのその部分的または完全な欠失位置に挿入される。いくつかの実施形態において、欠失はRuvCドメイン内にある。いくつかの実施形態において、欠失はHNHドメイン内にある。いくつかの実施形態において、欠失は、RuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインとを架橋する。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む。

いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む。いくつかの実施形態において、Cas9ポリペプチドは、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む。ある実施形態において、デアミナーゼは、シチジンデアミナーゼである。ある実施形態において、デアミナーゼは、アデノシンデアミナーゼである。ある実施形態において、Cas9ポリペプチドは、改変されたCas9であり、改変されたPAMに対する特異性を有する。ある実施形態において、Cas9ポリペプチドはニッカーゼである。ある実施形態において、Cas9ポリペプチドはヌクレアーゼ不活性である。いくつかの実施形態において、対象は哺乳動物である。ある実施形態において、対象はヒトである。

複数の融合タンパク質を含む、最適化された塩基編集のためのタンパク質ライブラリーが本明細書で提供され、ここで、その複数の融合タンパク質の各々が、Cas9ポリペプチドのN末端断片とC末端断片とに隣接するデアミナーゼを含み、融合タンパク質の各々のN末端断片が、複数の融合タンパク質の残りの部分のN末端断片と異なっているか、または、融合タンパク質の各々のC末端断片が、複数の融合タンパク質の残りの部分のC末端断片と異なっており、融合タンパク質の各々のデアミナーゼが、標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（PAM）配列に近接した標的核酸塩基を脱アミノ化し、上記N末端断片または上記C末端断片が標的ポリヌクレオチド配列に結合する。

いくつかの実施形態において、PAM配列から1～20核酸塩基離れた各核酸塩基について、複数の融合タンパク質のうちの少なくとも1つが核酸塩基を脱アミノ化する。いくつかの実施形態において、複数の融合タンパク質の各々のCas9ポリペプチドのN末端断片のC末端またはC末端断片のN末端は、Cas9ポリペプチドの可撓性ループの一部を含む。いくつかの実施形態において、複数の融合タンパク質のうちの少なくとも1つは、配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化をもって標的核酸塩基を脱アミノ化する。いくつかの実施形態において、複数の融合タンパク質のうちの少なくとも1つは、PAM配列の2～12核酸塩基上流の標的核酸塩基を脱アミノ化する。いくつかの実施形態において、複数の融合タンパク質のN末端断片のC末端またはC末端断片のN末端は、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。

いくつかの実施形態において、複数の融合タンパク質の少なくとも1つのデアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、もしくは1248-1249またはそれに対応するアミノ酸位置の間にある。いくつかの実施形態において、融合タンパク質の少なくとも1つのデアミナーゼは、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1040-1041、1068-1069、もしくは1247-1248またはそれに対応するアミノ酸位置の間にある。いくつかの実施形態において、融合タンパク質の少なくとも1つのデアミナーゼは、配列番号1における番号付けでアミノ酸位置1016-1017、1023-1024、1029-1030、1040-1041、1069-1070もしくは1247-1248またはそれに対応するアミノ酸位置の間にある。ある実施形態において、デアミナーゼは、アデノシンデアミナーゼである。ある実施形態において、デアミナーゼは、シチジンデアミナーゼである。

ある実施形態において、Cas9ポリペプチドは、Streptococcus pyogenes Cas9 (SpCas9) 、Staphylococcus aureus Cas9 (SaCas9) 、Streptococcus thermophilus 1 Cas9 (St1Cas9) 、またはそれらのバリアントである。ある実施形態において、Cas9ポリペプチドは、改変されたCas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する。ある態様において、Cas9ポリペプチドはニッカーゼである。ある態様において、Cas9ポリペプチドはヌクレアーゼ不活性である。

［定義］
特に別段の定義がされない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野の当業者によって一般に理解される意味を有する。以下の参考文献は、本発明において使用される用語の多くの一般的な定義を当業者に提供する：Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); およびHale & Marham, The Harper Collins Dictionary of Biology (1991)。本明細書中で使用される場合、以下の用語は、別段の指定がない限り、下記においてそれらに規定される意味を有する。

特に別段の定義がされない限り、本明細書で使用されるすべての技術的および科学的用語は、本発明が属する技術分野の当業者によって一般に理解される意味を有する。以下の参考文献は、本発明において使用される用語の多くの一般的な定義を当業者に提供する：Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); およびHale & Marham, The Harper Collins Dictionary of Biology (1991)。本明細書中で使用される場合、以下の用語は、別段の指定がない限り、下記においてそれらに規定される意味を有する。

「アデノシンデアミナーゼ」とは、アデニンまたはアデノシンの加水分解的脱アミノ化を触媒することができるポリペプチドまたはその断片を意味する。ある実施形態において、デアミナーゼまたはデアミナーゼドメインは、アデノシンからイノシンへ、またはデオキシアデノシンからデオキシイノシンへの加水分解的脱アミノ化を触媒するアデノシンデアミナーゼである。ある実施形態において、アデノシンデアミナーゼは、デオキシリボ核酸 (DNA) におけるアデニンまたはアデノシンの加水分解的脱アミノ化を触媒する。本明細書で提供されるアデノシンデアミナーゼ（例えば、遺伝子操作されたアデノシンデアミナーゼ、進化されたアデノシンデアミナーゼ）は、細菌などの任意の生物に由来するものであってよい。ある実施形態において、デアミナーゼまたはデアミナーゼドメインは、生物からの天然に存在するデアミナーゼのバリアントである。いくつかの実施形態において、デアミナーゼまたはデアミナーゼドメインは、天然には存在しないものである。例えば、いくつかの実施形態において、デアミナーゼまたはデアミナーゼのドメインは、天然に存在するデアミナーゼに対して少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75% 少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有する。ある実施形態において、アデノシンデアミナーゼは、E. coli、S. aureus、S. typhi、S. putrefaciens、H. influenzae、またはC. crescentusなどの細菌に由来する。ある実施形態において、アデノシンデアミナーゼはTadAデアミナーゼである。ある実施形態において、TadAデアミナーゼは、E. coli TadA（ecTadA）デアミナーゼまたはその断片である。

例えば、切り詰め型（truncated）ecTadAは、全長ecTadAと比較して1つ以上のN末端アミノ酸を欠失していてもよい。いくつかの実施形態において、切り詰め型ecTadAは、全長ecTadAに対して1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、または20個のN末端アミノ酸残基を欠いていてもよい。いくつかの実施形態において、切り詰め型ecTadAは、全長ecTadAに対して1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、または20個のC末端アミノ酸残基を欠いていてもよい。いくつかの実施形態において、ecTadAデアミナーゼはN末端メチオニンを含まない。いくつかの実施形態において、TadAデアミナーゼは、N末端が切り詰められたTadAである。特定の実施形態では、TadAは、PCT/US2017/045381（その全体が参照により本明細書に組み込まれる）に記載されたTadAのいずれかである。

特定の実施形態では、アデノシンデアミナーゼは、以下のアミノ酸配列を含み：
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPT AHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKT GAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
これは「TadA参照配列」と呼ばれる。

或る実施態様では、TadAデアミナーゼは全長のE. coli（大腸菌）TadAデアミナーゼである。例えば、特定の実施形態において、アデノシンデアミナーゼは、以下のアミノ酸配列を含む。
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEG WNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIG RVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEI KAQKKAQSSTD

しかしながら、本願において有用なさらなるアデノシンデアミナーゼは当業者には明らかであり、本開示の範囲内であることを理解されたい。例えば、アデノシンデアミナーゼは、tRNAに作用するアデノシンデアミナーゼ（AD AT）のホモログであり得る。例示的なAD ATホモログには、限定されるものではないが、以下のものが含まれる。

Staphylococcus aureus TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAH AEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCS GS LMNLLQQS NFNHRAIVDKG VLKE AC S TLLTTFFKNLRANKKS TN

Bacillus subtilis TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEML VIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGC S GTLMN LLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE

Salmonella typhimurium (S. typhimurium) TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEG WNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIG RVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIK ALKKADRAEGAGPAV

Shewanella putrefaciens (S. putrefaciens) TadA:
MDE YWMQVAMQM AEKAEAAGE VPVGA VLVKDGQQIATGYNLS IS QHDPT AHAEI LCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGT VVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE

Haemophilus influenzae F3031 (H. influenzae) TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQS DPT ΑΗ AEIIALRNG AKNIQN YRLLNS TLY VTLEPCTMC AG AILHS RIKRLVFG AS D YK TGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSD K

Caulobacter crescentus (C. crescentus) TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAH DPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADD PKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI

Geobacter sulfurreducens (G. sulfurreducens) TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSN DPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDP KGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALF IDERKVPPEP

TadA7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD

TadA7.10またはTadA7.10バリアントを含有する例示的配列としては、以下のものが挙げられる。
GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD

TadA7.10 CP65
TAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVF
GVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQ
VFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTL
AKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDP

TadA7.10 CP83
YRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLH
YPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGS
ETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVL
NNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQN

TadA7.10 CP136
MNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETP
GTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNR
VIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG

TadA7.10 C-truncate
GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQVFN

TadA7.10 C-truncate 2
GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQ

TadA7.10 delta59-66+C-truncate
GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQVFN

TadA7.10 delta 59-66
GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQVFNAQKKAQSSTD

「剤」とは、任意の小分子化合物、抗体、核酸分子、もしくはポリペプチド、またはそれらの断片を意味する。

「変異を改変する」とは

「改変」とは、本明細書中に記載されるもののような技術分野で公知の標準的な方法によって検出される、遺伝子またはポリペプチドの構造、発現レベルまたは活性の変化を意味する。本明細書において使用される場合、改変（例えば増加または減少）は、発現レベルにおける10%の変化、25%の変化、40%の変化、および50%以上の変化を含む。

「アナログ」とは、同一ではないが類似の機能的または構造的特徴を有する分子を意味する。例えば、ポリヌクレオチドアナログは、天然ポリヌクレオチドと比べてアナログの機能を増強させるある種の改変を有しながら、対応する天然ポリヌクレオチドの生物学的活性を保持する。そのような改変は、ポリヌクレオチドのDNAに対する親和性、半減期、および／またはヌクレアーゼ耐性を増加させ得る。アナログは、非天然のヌクレオチドまたはアミノ酸を含み得る。

本開示において、「含む（comprises）」、「含む（comprising）」、「含有する（containing）」、および「有する（having）」等は米国特許法に規定される意味を有することができ、「含む（includes）」、「含む（including）」等を意味し得、「～から本質的に成る（consisting essentially of）」または「本質的に成る（consists essentially）」も同様に、米国特許法に規定される意味を有し、該用語はオープンエンドであって、記載されたものの基本的または新規な特性が、その記載されたものより他の存在によって変えられない限り、記載されたものより他の存在を許容するが、ただし先行技術の実施態様を除外する。

「塩基エディター（BE）」あるいは「核酸塩基エディター（NBE）」とは、ポリヌクレオチドに結合して核酸塩基修飾活性を有する薬剤を意味する。一実施形態において、該薬剤は、塩基編集活性を有するドメイン、すなわち、核酸分子（例えばDNA）内の塩基（例えばA、T、C、G、U）を改変することができるドメインを含む融合タンパク質である。いくつかの実施形態において、塩基編集活性を有するドメインは、核酸分子内の塩基を脱アミノ化することができる。ある実施形態において、塩基エディターは、DNA分子内の塩基を脱アミノ化することができる。ある実施形態において、塩基エディターは、DNA内のシトシン (C) またはアデノシンを脱アミノ化することができる。ある実施形態において、塩基エディターは、シチジン塩基エディター (CBE) である。一部の実施形態では、塩基エディターはアデノシン塩基エディター (ABE) である。いくつかの実施形態において、塩基エディターは、アデノシン塩基エディター (ABE) およびシチジン塩基エディター (CBE) である。ある実施形態において、塩基エディターは、アデノシンデアミナーゼに融合されたヌクレアーゼ不活Cas9（dCas9）である。いくつかの実施形態において、Cas9は、循環置換体（circular permutant）のCas9（例えばspCas9またはsaCas9）である。循環置換体Cas9は当該分野で公知であり、例えば、Oakes et al., Cell 176, 254-267, 2019に記載されている。いくつかの実施形態において、塩基エディターは、塩基除去修復の阻害因子、例えばUGIドメインに融合される。ある実施形態において、融合タンパク質は、デアミナーゼと、UGIドメインのような塩基除去修復の阻害因子に融合されたCas9ニッカーゼを含む。他の実施形態では、塩基エディターは脱塩基型（abasic）塩基エディターである。

ある実施形態において、アデノシンデアミナーゼは、TadAから進化される（evolved）。いくつかの実施形態において、ポリヌクレオチドによりプログラミング可能なDNA結合ドメインは、CRISPR関連（例えばCasまたはCpf1）酵素である。いくつかの実施形態において、塩基エディターは、触媒的に不活（dead）なCas9（dCas9）がデアミナーゼドメインに融合されたものである。いくつかの実施形態において、塩基エディターは、Cas9ニッカーゼ（nCas9）がデアミナーゼドメインに融合されたものである。いくつかの実施形態において、デアミナーゼドメインは、ポリヌクレオチドによりプログラミング可能なDNA結合ドメインのN末端またはC末端断片である。いくつかの実施形態において、デアミナーゼは、ポリヌクレオチドプログラミング可能なDNA結合ドメインのN末端とC末端断片とによって隣接される。いくつかの実施形態において、デアミナーゼドメインは、ポリヌクレオチドプログラミング可能なDNA結合ドメインの部位に挿入される。いくつかの実施形態において、この塩基エディターは、塩基除去修復（BER）の阻害因子に融合される。ある実施形態において、塩基除去修復の阻害因子は、ウラシルDNAグリコシラーゼ阻害因子（UGI）である。ある実施形態において、塩基除去修復の阻害因子は、イノシン塩基除去修復阻害因子である。塩基エディターの詳細は、国際PCT出願PCT/2017/045381 (WO2018/027078) およびPCT/US2016/058344 (WO2017/070632)に記載されており、その各々は、その全体が参照により本明細書に組み込まれる。また、その全内容が参照により本明細書に組み込まれるKomor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programmable base editing of A・T to G・C in genomic DNA without DNA cleavage” Nature 551, 464-471 (2017); Komor, A.C., et al., “Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity” Science Advances 3:eaao4774 (2017), およびRees, H.A., et al., “Base editing: precision chemistry on the genome and transcriptome of living cells.” Nat Rev Genet. 2018 Dec;19(12):770-788. doi: 10.1038/s41576-018-0059-1も参照されたい。

いくつかの実施形態において、デアミナーゼドメインは、ポリヌクレオチドによりプログラミング可能なDNA結合ドメインの領域に挿入される。いくつかの実施形態において、挿入（insertion）部位は、napDNAbpの構造解析によって決定される。いくつかの実施形態において、挿入部位は、可撓性ループである。いくつかの実施形態において、デアミナーゼドメインは、ポリヌクレオチドプログラミング可能なDNA結合ドメイン内の部位に挿入され、その部位は、1029、1026、1054、1022、1015、1068、1247、1040、1248、および768からなるアミノ酸位置の群からの少なくとも1つから選択される。ある実施形態において、デアミナーゼドメインは、ポリヌクレオチドプログラミング可能なDNA結合ドメインのドメインの代わりに挿入される。いくつかの実施形態において、そのドメインは、RuvC、Rec1、Rec2、およびHNHからなる群から選択される。いくつかの実施形態において、デアミナーゼドメインは、ポリヌクレオチドプログラミング可能なDNA結合ドメイン中のアミノ酸残基のある範囲に代わって挿入され、そのアミノ酸残基の範囲は、配列番号1における番号付けでCas9の残基530-537、569-579、686-691、768-793、943-947、1002-1040、1052-1077、1232-1248、および1298-1300またはそれに対応する位置からなる群より選択される。Cas9アミノ酸配列を比較することによって、異なるポリヌクレオチドプログラミング可能DNA結合ドメインにおける相同的領域をいかに同定するかは、当業者には明らかであろう。いくつかの実施形態において、塩基エディターは、ポリヌクレオチドプログラミング可能DNA結合ドメインの2つ以上の部位に挿入された2つ以上のデアミナーゼドメインを含み、これらの部位は上述されている。

いくつかの実施形態において、塩基エディターは、アデノシンデアミナーゼバリアント（例えばTadA*7.10）を、循環置換体Cas9（例えばspCAS9）および二部分核局在化配列を含む足場にクローニングすることによって生成される。循環置換体Cas9は当技術分野で公知であり、例えばOakes et al., Cell 176, 254-267, 2019に記載されている。例示的な循環置換体配列を以下に記載するが、ここで太字の配列はCas9に由来する配列を示し、斜体の配列はリンカー配列を示し、下線が引かれた配列は二部分核局在化配列を示す。

塩基エディター系の核酸塩基成分およびポリヌクレオチドプログラミング可能なヌクレオチド結合成分は、互いに共有結合的または非共有結合的により結合され得る。例えば、いくつかの実施形態において、デアミナーゼドメインが、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインによって標的ヌクレオチド配列にターゲティングされ得る。ある実施形態において、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインは、デアミナーゼドメインに融合または連結され得る。いくつかの実施形態において、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインは、デアミナーゼドメインと非共有結合的に相互作用または結合することによって、デアミナーゼドメインを標的ヌクレオチド配列にターゲティングすることができる。例えば、いくつかの実施形態において、核酸塩基編集成分、例えばデアミナーゼ成分は、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインの一部をなすさらなる異種部分またはドメインと相互作用し、会合し、または複合体を形成することができる、さらなる異種部分またはドメインを含むことができる。いくつかの実施形態において、追加の異種部分は、ポリペプチドと結合し、相互作用し、会合し、または複合体を形成することができる。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドと結合し、相互作用し、会合し、または複合体を形成することができる。いくつかの実施形態において、追加の異種部分は、ガイドポリヌクレオチドに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリペプチドリンカーに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドリンカーに結合することができる。追加の異種部分は、タンパク質ドメインであってもよい。いくつかの実施形態において、追加の異種部分は、K相同(KH) ドメイン、MS2コートタンパク質ドメイン、PP7コートタンパク質ドメイン、SfMu Comコートタンパク質ドメイン、ステリルαモチーフ、テロメラーゼKu結合モチーフおよびKuタンパク質、テロメラーゼSm7結合モチーフおよびSm7タンパク質、またはRNA認識モチーフであり得る。

塩基エディターシステムは、ガイドポリヌクレオチド成分をさらに含むことができる。塩基エディターシステムの構成要素は、共有結合、非共有結合的相互作用、またはそれらの結合および相互作用の任意の組合せを介して互いに結合され得ることが理解されるべきである。ある態様において、デアミナーゼドメインは、ガイドポリヌクレオチドによって標的ヌクレオチド配列にターゲティングされ得る。例えば、いくつかの実施形態において、塩基エディター系の核酸塩基編集成分、例えばデアミナーゼ成分は、ガイドポリヌクレオチドの一部またはセグメント(例えばポリヌクレオチドモチーフ) と相互作用し、結合し、または複合体を形成し得るさらなる異種部分またはドメイン(例えばRNAまたはDNA結合タンパク質のようなポリヌクレオチド結合ドメイン)を含み得る。いくつかの実施形態において、追加の異種部分またはドメイン(例えばRNAまたはDNA結合タンパク質などのポリヌクレオチド結合ドメイン)は、デアミナーゼドメインに融合または連結され得る。いくつかの実施形態において、追加の異種部分は、ポリペプチドと結合し、相互作用し、会合し、またはポリペプチドと複合体を形成することができる。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドと結合し、相互作用し、会合し、またはポリヌクレオチドと複合体を形成することができる。いくつかの実施形態において、追加の異種部分は、ガイドポリヌクレオチドに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリペプチドリンカーに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドリンカーに結合することができる。追加の異種部分は、タンパク質ドメインであってもよい。いくつかの実施形態において、追加の異種部分は、K相同（KH）ドメイン、MS2コートタンパク質ドメイン、PP7コートタンパク質ドメイン、SfMu Comコートタンパク質ドメイン、無菌アルファモチーフ、テロメラーゼKu結合モチーフおよびKuタンパク質、テロメラーゼSm7結合モチーフおよびSm7タンパク質、またはRNA認識モチーフであり得る。

ある実施形態において、塩基エディターシステムは、塩基除去修復（BER）の阻害因子コンポーネントをさらに含むことができる。塩基エディターシステムの構成要素は、共有結合、非共有結合的相互作用、またはそれらの結合および相互作用の任意の組み合わせを介して互いに結合され得ることが理解されるべきである。BER成分の阻害因子は、塩基除去修復阻害因子を含み得る。ある実施形態において、塩基除去修復の阻害因子は、ウラシルDNAグリコシラーゼ阻害因子 (UGI) であり得る。ある実施形態において、塩基除去修復の阻害因子は、イノシン塩基除去修復阻害因子であり得る。ある実施形態において、塩基除去修復の阻害因子は、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインにより標的ヌクレオチド配列にターゲティングされ得る。ある実施形態において、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインは、塩基除去修復の阻害因子に融合または連結され得る。ある実施形態において、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインは、デアミナーゼドメインおよび塩基除去修復の阻害因子に融合または連結され得る。いくつかの実施形態において、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインは、塩基除去修復の阻害因子と非共有結合的に相互作用するか、または塩基除去修復の阻害因子と会合することによって、塩基除去修復の阻害因子を標的ヌクレオチド配列へとターゲティングすることができる。例えば、いくつかの実施形態において、塩基除去修復成分の阻害因子は、ポリヌクレオチドプログラミング可能なヌクレオチド結合ドメインの一部であるさらなる異種部分またはドメインと相互作用、会合、または複合体形成し得るさらなる異種部分またはドメインを含み得る。ある実施形態において、塩基除去修復の阻害因子は、ガイドポリヌクレオチドにより標的ヌクレオチド配列にターゲティングされ得る。例えば、いくつかの実施形態において、塩基除去修復の阻害因子は、ガイドポリヌクレオチドの一部またはセグメント(例えば、ポリヌクレオチドモチーフ)と相互作用、会合、または複合体形成し得るさらなる異種部分またはドメイン(例えば、RNAまたはDNA結合タンパク質のようなポリヌクレオチド結合ドメイン)を含み得る。いくつかの実施形態において、ガイドポリヌクレオチドのさらなる異種部分またはドメイン(例えば、RNAまたはDNA結合タンパク質のようなポリヌクレオチド結合ドメイン)は、塩基除去修復の阻害因子に融合または連結され得る。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドと結合、相互作用、会合、または複合体形成することができる。いくつかの実施形態において、追加の異種部分は、ガイドポリヌクレオチドに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリペプチドリンカーに結合することができる。いくつかの実施形態において、追加の異種部分は、ポリヌクレオチドリンカーに結合することができる。追加の異種部分は、タンパク質ドメインであってもよい。いくつかの実施形態において、追加の異種部分は、K相同(KH) ドメイン、MS2コートタンパク質ドメイン、PP7コートタンパク質ドメイン、SfMu Comコートタンパク質ドメイン、無菌アルファモチーフ、テロメラーゼKu結合モチーフおよびKuタンパク質、テロメラーゼSm7結合モチーフおよびSm7タンパク質、またはRNA認識モチーフであり得る。

「塩基編集活性」とは、ポリヌクレオチド内の塩基を化学的に変化させるように作用することを意味する。一実施形態では、第1の塩基が第2の塩基に変換される。一実施形態において、塩基編集活性は、シチジンデアミナーゼ活性であり、例えば、標的C・GをT・Aに変換する活性である。別の実施形態において、塩基編集活性は、アデノシンデアミナーゼ活性であり、例えば、A・TをG・Cに変換する活性である。

用語「Cas9」または「Cas9ドメイン」は、Cas9タンパク質またはその断片（例えばCas9の活性、不活性、または部分的に活性なDNA切断ドメイン、および/またはCas9のgRNA結合ドメインを含むタンパク質）を含むRNA誘導ヌクレアーゼを指す。Cas9ヌクレアーゼは、casn1ヌクレアーゼまたはCRISPR（clustered regularly interspaced short palindromic repeat）関連ヌクレアーゼと呼ばれることもある。CRISPRは、可動遺伝要素（ウイルス、転移因子、接合プラスミド）に対する防御を提供する適応免疫系である。CRISPRクラスターは、スペーサー、先行する可動要素に相補的な配列、および標的侵入核酸を含む。CRISPRクラスターは転写され、CRISPR RNA（crRNA）にプロセシングされる。II型CRISPRシステムでは、pre‐crRNAの正しいプロセシングはトランスコード小RNA（tracrRNA）、内因性リボヌクレアーゼ3（rnc）、およびCas9タンパク質を必要とする。tracrRNAはリボヌクレアーゼ3によるpre-crRNAのプロセシングのガイドとなる。続いて、Cas9/crRNA/tracrRNAが、スペーサーに相補的な線状または環状のdsDNA標的をエンドヌクレアーゼ的に切断する。crRNAに相補的でない標的鎖は、最初にエンドヌクレアーゼ的に切断され、次にエキソヌクレアーゼ的に3’-5’にトリムされる。自然界では、DNA結合および切断はタンパク質と両方のRNAとを典型的に要する。しかしながら、crRNAおよびtracrRNAの両方の側面を単一のRNA種に組み込むように、単一ガイドRNA（「sgRNA」、あるいは単に「gRNA」）を作製することができる。例えばJinek M., Chylinski K., Fonfara I., Hauer M., Doudna J. A., Charpentier E. Science 337:816-821(2012)を参照されたい（その内容全体が参照により本明細書に組み入れられる）。Cas9は、CRISPR反復配列中の短いモチーフ（PAMあるいはプロトスペーサー隣接モチーフ）を認識して、自己と非自己を区別することを助ける。Cas9ヌクレアーゼの配列および構造は、当業者によく知られている（例えば“Complete genome sequence of an Ml strain of Streptococcus pyogenes.” Ferretti et al., J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); “CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.” Deltcheva E., Chylinski K., Sharma CM., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011); および “A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-821(2012)参照。その内容全体が参照により本明細書に組み入れられる。）。Cas9オーソログは、限定されるものではないが、S. pyogenesおよびS. thermophilusを含む種々の種において記述されてきた。さらなる適切なCas9ヌクレアーゼおよび配列は、本開示に基づいて当業者に明らかとなり、そのようなCas9ヌクレアーゼおよび配列は、Chylinski, Rhun, and Charpentier, “The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems” (2013) RNA Biology 10:5, 726-737に開示されている生物および遺伝子座由来のCas9配列を含む。その全内容は参照により本明細書に組み込まれる。

ヌクレアーゼ不活性化Cas9タンパク質は、互換的に「dCas9」タンパク質（nuclease-“dead” Cas9の意）または触媒的に不活なCas9とも称され得る。不活性なDNA切断ドメインを有するCas9タンパク質（又はその断片）を生成する方法は公知である（例えばJinek et al, Science. 337:816-821(2012); Qi et al, “Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013) Cell. 28; 152(5): 1173-83参照（各内容は参照により本明細書に組み込まれる））。例えば、Cas9のDNA切断ドメインは、HNHヌクレアーゼサブドメインとRuvC1サブドメインという2つのサブドメインを含むことが知られている。HNHサブドメインはgRNAに相補的な鎖を切断し、RuvC1サブドメインは非相補的な鎖を切断する。これらのサブドメイン内の変異はCas9のヌクレアーゼ活性を抑制し得る。例えば、変異D10AおよびH840Aは、S. pyogenes Cas9 のヌクレアーゼ活性を完全に不活性化する（Jinek et al, Science. 337:816-821(2012); Qi et al, Cell. 28;152(5): 1173-83 (2013)）。ある態様において、Cas9ヌクレアーゼは、不活性な（例えば不活化された）DNA切断ドメインを有し、すなわち、Cas9は、「nCas9」タンパク質（「nickase」Cas9の意）と呼ばれるニッカーゼである。ある態様において、Cas9の断片を含むタンパク質が提供される。例えば、いくつかの実施形態において、タンパク質は、以下の2つのCas9ドメインのうちの1つを含む：(1) Cas9のgRNA結合ドメイン;(2) Cas9のDNA切断ドメイン。ある態様において、Cas9またはその断片を含むタンパク質は、「Cas9バリアント」と称される。Cas9バリアントは、Cas9またはその断片と相同性を共有する。例えば、Cas9バリアントは、野生型Cas9と少なくとも約70%の同一性、少なくとも約80%の同一性、少なくとも約90%の同一性、少なくとも約95%の同一性、少なくとも約96%の同一性、少なくとも約97%の同一性、少なくとも約98%の同一性、少なくとも約99%の同一性、少なくとも約99.5%の同一性、または少なくとも約99.9%の同一性を有する。いくつかの実施形態において、Cas9変異体は、野生型Cas9と比較して、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれ以上のアミノ酸変化を有し得る。いくつかの実施形態において、Cas9バリアントは、Cas9の断片 (例えばgRNA結合ドメインまたはDNA切断ドメイン)を含み、その断片は、野生型Cas9の対応する断片と少なくとも約70%の同一性を有し、少なくとも約80%の同一性を有し、少なくとも約90%の同一性を有し、少なくとも約95%の同一性を有し、少なくとも約96%の同一性を有し、少なくとも約97%の同一性を有し、少なくとも約98%の同一性を有し、少なくとも約99%の同一性を有し、少なくとも約99.5%の同一性を有し、または少なくとも約99.9%の同一性を有する。ある態様において、断片は、対応する野生型Cas9のアミノ酸長の少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%同一、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%である。

ある実施形態において、断片は、長さが少なくとも100アミノ酸である。ある実施形態において、断片は、少なくとも100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、または少なくとも1300アミノ酸の長さである。ある態様において、野生型Cas9は、Streptococcus pyogenes由来のCas9に対応する（NCBI参照配列：NC_17053.1、ヌクレオチド配列およびアミノ酸配列は以下の通り）。

ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA

（一重下線：HNHドメイン；二重下線:RuvCドメイン）

ある実施形態において、野生型Cas9は、以下のヌクレオチドおよび／またはアミノ酸配列に対応するか、またはこれらを含む：
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA

（一重下線：HNHドメイン；二重下線：RuvCドメイン）

いくつかの実施形態において、野生型Cas9は、Streptococcus pyogenesからのCas9（NCBI参照配列：NC_002737.2（下記のヌクレオチド配列）及びUniprot参照配列：Q99ZW2（下記のアミノ酸配列）に対応する。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA

（配列番号1。一重下線：HNHドメイン；二重下線：RuvCドメイン）

ある実施形態において、Cas9は、Corynebacterium ulcerans (NCBI Refs: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (NCBI Refs: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (NCBI Ref: NC_021284.1); Prevotella intermedia (NCBI Ref: NC_017861.1); Spiroplasma taiwanense (NCBI Ref: NC_021846.1); Streptococcus iniae (NCBI Ref: NC_021314.1); Belliella baltica (NCBI Ref: NC_018010.1); Psychroflexus torquisI (NCBI Ref: NC_018721.1); Streptococcus thermophilus (NCBI Ref: YP_820832.1), Listeria innocua (NCBI Ref: NP_472073.1), Campylobacter jejuni (NCBI Ref: YP_002344900.1) もしくはNeisseria. meningitidis (NCBI Ref: YP_002342100.1)からのCas9、または任意の他の生物からのCas9を指す。

いくつかの実施形態において、dCas9は、Cas9ヌクレアーゼ活性を不活性化する1以上の変異を有するCas9アミノ酸配列に対応するか、またはその一部もしくは全体を含む。例えば、いくつかの実施形態において、dCas9ドメインは、D10AおよびH840A変異または別のCas9における対応する変異を含む。いくつかの実施形態において、dCas9は、dCas9 (D10AおよびH840A) のアミノ酸配列を含む：

（一重下線:HNHドメイン；二重下線：RuvCドメイン）

いくつかの実施形態において、Cas9ドメインはD10A突然変異を含み、一方、上記で提供したアミノ酸配列における位置840における残基、または本明細書で提供されるアミノ酸配列のいずれかにおける対応する位置における残基は、ヒスチジンのままである。

他の実施形態において、例えばヌクレアーゼ不活性化Cas9 (dCas9) をもたらす、D10AおよびH840A以外の突然変異を有するdCas9バリアントが提供される。このような突然変異は、例えば、D10およびH840における他のアミノ酸置換、またはCas9のヌクレアーゼドメイン内の他の置換（例えば、HNHヌクレアーゼサブドメインおよび／またはRuvC1サブドメインにおける置換）を含む。ある態様において、dCas9のバリアントまたはホモログであって、少なくとも約70%の同一性、少なくとも約80%の同一性、少なくとも約90%の同一性、少なくとも約95%の同一性、少なくとも約98%の同一性、少なくとも約99%の同一性、少なくとも約99.5%の同一性、または少なくとも約99.9%の同一性を有するものが提供される。ある態様において、約5アミノ酸、約10アミノ酸、約15アミノ酸、約20アミノ酸、約25アミノ酸、約30アミノ酸、約40アミノ酸、約50アミノ酸、約75アミノ酸、約100アミノ酸またはそれ以上だけ短いまたは長いアミノ酸配列を有するdCas9のバリアントが提供される。

いくつかの実施形態において、本明細書に提供されるCas9融合タンパク質は、Cas9タンパク質の全長アミノ酸配列、例えば、本明細書に提供されるCas9配列の1つを含む。しかしながら、他の実施形態において、本明細書に提供される融合タンパク質は、全長Cas9配列を含まず、その1つ以上の断片のみを含む。好適なCas9ドメインおよびCas9断片の例示的アミノ酸配列が本明細書に提供され、Cas9ドメインおよび断片のさらなる好適な配列は、当業者には明らかであろう。

いくつかの実施態様において、Cas9は、Corynebacterium ulcerans (NCBI Refs: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (NCBI Refs: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (NCBI Ref: NC_021284.1); Prevotella intermedia (NCBI Ref: NC_017861.1); Spiroplasma taiwanense(NCBI Ref: NC_021846.1); Streptococcus iniae (NCBI Ref: NC_021314.1); Belliella baltica (NCBI Ref: NC_018010.1); Psychroflexus torquisI (NCBI Ref: NC_018721.1); Streptococcus thermophilus (NCBI Ref: YP_820832.1); Listeria innocua (NCBI Ref: NP_472073.1); Campylobacter jejuni (NCBI Ref: YP_002344900.1); またはNeisseria. meningitidis (NCBI Ref: YP_002342100.1)由来のCas9を指す。

追加的なCas9タンパク質（例えば、ヌクレアーゼ不活（dead）Cas9（dCas9）、Cas9ニッカーゼ（nCas9）、またはヌクレアーゼ活性Cas9）は、そのバリアントおよびホモログを含めて、本開示の範囲内にあることが理解されるべきである。例示的なCas9タンパク質は、限定されるものではないが、下記に提供されるものを含む。ある態様において、Cas9タンパク質は、ヌクレアーゼ不活Cas9（dCas9）である。ある態様において、Cas9タンパク質は、Cas9ニッカーゼ（nCas9）である。いくつかの実施形態において、Cas9タンパク質はヌクレアーゼ活性Cas9である。

例示的な触媒不活性Cas9 (dCas9)：
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

例示的な触媒的Cas9ニッカーゼ (nCas9)：
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

例示的な触媒活性Cas9：
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

ある実施形態において、Cas9は、単細胞原核微生物のドメインおよび界を構成する古細菌（例えばナノアーキア）由来のCas9を指す。ある実施形態において、Cas9質は、例えば、Burstein et al., "New CRISPR-Cas systems from uncultivated microbes." Cell Res. 2017 Feb 21. doi: 10.1038/cr.2017.21に記載されているCasXまたはCasYを指し、その全体の内容は参照により本明細書に組み込まれる。ゲノム分解メタゲノミクスを用いて、生命の古細菌ドメインにおいて最初に報告されたCas9を含め、多くのCRISPR‐Cas系が同定された。この分岐Cas9タンパク質は、ほとんど研究されていないナノアーキアにおいて、活性CRISPR‐Cas系の一部として発見された。細菌では、それまで知られていなかった二つの系、CRISPR-CasXとCRISPR-CasYが発見され、それらは、これまでに発見された中でも最もコンパクトな系に入る。いくつかの実施形態において、Cas9は、CasXまたはCasXのバリアントを表す。いくつかの実施形態において、Cas9は、CasYまたはCasYのバリアントを表す。核酸プログラミング可能DNA結合タンパク質（napDNAbp：nucleic acid programmable DNA binding protein）として他のRNA誘導DNA結合タンパク質も使用され得、本開示の範囲内であることが理解されるべきである。

いくつかの実施形態において、本明細書で提供される融合タンパク質のいずれかの核酸プログラム可能DNA結合タンパク質（napDNAbp）は、CasXまたはCasYタンパク質であり得る。いくつかの実施形態において、napDNAbpはCasXタンパク質である。いくつかの実施形態において、napDNAbpはCasYタンパク質である。いくつかの実施形態において、napDNAbpは、天然に存在するCasXまたはCasYタンパク質に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含む。いくつかの実施形態において、napDNAbpは、天然に存在するCasXまたはCasYタンパク質である。いくつかの実施形態において、napDNAbpは、本明細書に記載されるいずれかのCasXまたはCasYタンパク質に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含む。他の細菌種由来のCasXおよびCasYもまた、本開示に従って使用され得ることを理解されたい。

CasX (uniprot.org/uniprot/F0NN87; uniprot.org/uniprot/F0NH53)
>tr|F0NN87|F0NN87_SULIH CRISPR-associated Casx protein OS = Sulfolobus islandicus (strain HVE10/4) GN = SiH_0402 PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG

>tr|F0NH53|F0NH53_SULIR CRISPR associated protein, Casx OS = Sulfolobus islandicus (strain REY15A) GN=SiRe_0771 PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG

CasY (ncbi.nlm.nih.gov/protein/APG80656.1)
>APG80656.1 CRISPR-associated protein CasY [uncultured Parcubacteria group bacterium]
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKN IKVLGQMKKI

「シチジンデアミナーゼ」とは、アミノ基をカルボニル基に変換する脱アミノ化反応を触媒することができるポリペプチドまたはその断片を意味する。1つの実施形態において、シチジンデアミナーゼは、シトシンをウラシルに、または5-メチルシトシンをチミンに変換する。Petromyzon marinus由来のPmCDA1（Petromyzon marinus cytosine deaminase 1、「PmCDA1」）、哺乳動物（例えば、ヒト、ブタ、ウシ、ウマ、サル等）由来のAID（活性化誘導シチジンデアミナーゼ; AICDA）、およびAPOBECは、例示的シチジンデアミナーゼである。

PmCDA1の塩基配列およびアミノ酸配列、ならびにヒトAIDのCDSの塩基配列およびアミノ酸配列を以下に示す。

>tr|A5H718|A5H718_PETMA Cytosine deaminase OS=Petromyzon marinus OX=7757 PE=2 SV=1
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSG
TERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLK
IWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKT
LKRAEKRRSELSIMIQVKILHTTKSPAV

>EF094822.1 Petromyzon marinus isolate PmCDA.21 cytosine deaminase mRNA, complete cds
TGACACGACACAGCCGTGTATATGAGGAAGGGTAGCTGGATGGGGGGGGGGGGAATACGTTCAGAGAGGA
CATTAGCGAGCGTCTTGTTGGTGGCCTTGAGTCTAGACACCTGCAGACATGACCGACGCTGAGTACGTGA
GAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCA
TAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTG
AATAAACCACAGAGCGGGACAGAACGTGGAATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAAT
ACCTGCGCGACAACCCCGGACAATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGC
TGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGC
AAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAACCTCAGAGATAACGGGGTTGGGT
TGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATT
GAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATG
ATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAGAGGCTATGCGGATGGTTTTC

>tr|Q6QJ80|Q6QJ80_HUMAN Activation-induced cytidine deaminase OS=Homo sapiens OX=9606 GN=AICDA PE=2 SV=1
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELL
FLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRK
AEPEGLRRLHRAGVQIAIMTFKAPV

>NG_011588.1:5001-15681 Homo sapiens activation induced cytidine deaminase (AICDA), RefSeqGene (LRG_17) on chromosome 12
AGAGAACCATCATTAATTGAAGTGAGATTTTTCTGGCCTGAGACTTGCAGGGAGGCAAGAAGACACTCTG
GACACCACTATGGACAGGTAAAGAGGCAGTCTTCTCGTGGGTGATTGCACTGGCCTTCCTCTCAGAGCAA
ATCTGAGTAATGAGACTGGTAGCTATCCCTTTCTCTCATGTAACTGTCTGACTGATAAGATCAGCTTGAT
CAATATGCATATATATTTTTTGATCTGTCTCCTTTTCTTCTATTCAGATCTTATACGCTGTCAGCCCAAT
TCTTTCTGTTTCAGACTTCTCTTGATTTCCCTCTTTTTCATGTGGCAAAAGAAGTAGTGCGTACAATGTA
CTGATTCGTCCTGAGATTTGTACCATGGTTGAAACTAATTTATGGTAATAATATTAACATAGCAAATCTT
TAGAGACTCAAATCATGAAAAGGTAATAGCAGTACTGTACTAAAAACGGTAGTGCTAATTTTCGTAATAA
TTTTGTAAATATTCAACAGTAAAACAACTTGAAGACACACTTTCCTAGGGAGGCGTTACTGAAATAATTT
AGCTATAGTAAGAAAATTTGTAATTTTAGAAATGCCAAGCATTCTAAATTAATTGCTTGAAAGTCACTAT
GATTGTGTCCATTATAAGGAGACAAATTCATTCAAGCAAGTTATTTAATGTTAAAGGCCCAATTGTTAGG
CAGTTAATGGCACTTTTACTATTAACTAATCTTTCCATTTGTTCAGACGTAGCTTAACTTACCTCTTAGG
TGTGAATTTGGTTAAGGTCCTCATAATGTCTTTATGTGCAGTTTTTGATAGGTTATTGTCATAGAACTTA
TTCTATTCCTACATTTATGATTACTATGGATGTATGAGAATAACACCTAATCCTTATACTTTACCTCAAT
TTAACTCCTTTATAAAGAACTTACATTACAGAATAAAGATTTTTTAAAAATATATTTTTTTGTAGAGACA
GGGTCTTAGCCCAGCCGAGGCTGGTCTCTAAGTCCTGGCCCAAGCGATCCTCCTGCCTGGGCCTCCTAAA
GTGCTGGAATTATAGACATGAGCCATCACATCCAATATACAGAATAAAGATTTTTAATGGAGGATTTAAT
GTTCTTCAGAAAATTTTCTTGAGGTCAGACAATGTCAAATGTCTCCTCAGTTTACACTGAGATTTTGAAA
ACAAGTCTGAGCTATAGGTCCTTGTGAAGGGTCCATTGGAAATACTTGTTCAAAGTAAAATGGAAAGCAA
AGGTAAAATCAGCAGTTGAAATTCAGAGAAAGACAGAAAAGGAGAAAAGATGAAATTCAACAGGACAGAA
GGGAAATATATTATCATTAAGGAGGACAGTATCTGTAGAGCTCATTAGTGATGGCAAAATGACTTGGTCA
GGATTATTTTTAACCCGCTTGTTTCTGGTTTGCACGGCTGGGGATGCAGCTAGGGTTCTGCCTCAGGGAG
CACAGCTGTCCAGAGCAGCTGTCAGCCTGCAAGCCTGAAACACTCCCTCGGTAAAGTCCTTCCTACTCAG
GACAGAAATGACGAGAACAGGGAGCTGGAAACAGGCCCCTAACCAGAGAAGGGAAGTAATGGATCAACAA
AGTTAACTAGCAGGTCAGGATCACGCAATTCATTTCACTCTGACTGGTAACATGTGACAGAAACAGTGTA
GGCTTATTGTATTTTCATGTAGAGTAGGACCCAAAAATCCACCCAAAGTCCTTTATCTATGCCACATCCT
TCTTATCTATACTTCCAGGACACTTTTTCTTCCTTATGATAAGGCTCTCTCTCTCTCCACACACACACAC
ACACACACACACACACACACACACACACACACAAACACACACCCCGCCAACCAAGGTGCATGTAAAAAGA
TGTAGATTCCTCTGCCTTTCTCATCTACACAGCCCAGGAGGGTAAGTTAATATAAGAGGGATTTATTGGT
AAGAGATGATGCTTAATCTGTTTAACACTGGGCCTCAAAGAGAGAATTTCTTTTCTTCTGTACTTATTAA
GCACCTATTATGTGTTGAGCTTATATATACAAAGGGTTATTATATGCTAATATAGTAATAGTAATGGTGG
TTGGTACTATGGTAATTACCATAAAAATTATTATCCTTTTAAAATAAAGCTAATTATTATTGGATCTTTT
TTAGTATTCATTTTATGTTTTTTATGTTTTTGATTTTTTAAAAGACAATCTCACCCTGTTACCCAGGCTG
GAGTGCAGTGGTGCAATCATAGCTTTCTGCAGTCTTGAACTCCTGGGCTCAAGCAATCCTCCTGCCTTGG
CCTCCCAAAGTGTTGGGATACAGTCATGAGCCACTGCATCTGGCCTAGGATCCATTTAGATTAAAATATG
CATTTTAAATTTTAAAATAATATGGCTAATTTTTACCTTATGTAATGTGTATACTGGCAATAAATCTAGT
TTGCTGCCTAAAGTTTAAAGTGCTTTCCAGTAAGCTTCATGTACGTGAGGGGAGACATTTAAAGTGAAAC
AGACAGCCAGGTGTGGTGGCTCACGCCTGTAATCCCAGCACTCTGGGAGGCTGAGGTGGGTGGATCGCTT
GAGCCCTGGAGTTCAAGACCAGCCTGAGCAACATGGCAAAACGCTGTTTCTATAACAAAAATTAGCCGGG
CATGGTGGCATGTGCCTGTGGTCCCAGCTACTAGGGGGCTGAGGCAGGAGAATCGTTGGAGCCCAGGAGG
TCAAGGCTGCACTGAGCAGTGCTTGCGCCACTGCACTCCAGCCTGGGTGACAGGACCAGACCTTGCCTCA
AAAAAATAAGAAGAAAAATTAAAAATAAATGGAAACAACTACAAAGAGCTGTTGTCCTAGATGAGCTACT
TAGTTAGGCTGATATTTTGGTATTTAACTTTTAAAGTCAGGGTCTGTCACCTGCACTACATTATTAAAAT
ATCAATTCTCAATGTATATCCACACAAAGACTGGTACGTGAATGTTCATAGTACCTTTATTCACAAAACC
CCAAAGTAGAGACTATCCAAATATCCATCAACAAGTGAACAAATAAACAAAATGTGCTATATCCATGCAA
TGGAATACCACCCTGCAGTACAAAGAAGCTACTTGGGGATGAATCCCAAAGTCATGACGCTAAATGAAAG
AGTCAGACATGAAGGAGGAGATAATGTATGCCATACGAAATTCTAGAAAATGAAAGTAACTTATAGTTAC
AGAAAGCAAATCAGGGCAGGCATAGAGGCTCACACCTGTAATCCCAGCACTTTGAGAGGCCACGTGGGAA
GATTGCTAGAACTCAGGAGTTCAAGACCAGCCTGGGCAACACAGTGAAACTCCATTCTCCACAAAAATGG
GAAAAAAAGAAAGCAAATCAGTGGTTGTCCTGTGGGGAGGGGAAGGACTGCAAAGAGGGAAGAAGCTCTG
GTGGGGTGAGGGTGGTGATTCAGGTTCTGTATCCTGACTGTGGTAGCAGTTTGGGGTGTTTACATCCAAA
AATATTCGTAGAATTATGCATCTTAAATGGGTGGAGTTTACTGTATGTAAATTATACCTCAATGTAAGAA
AAAATAATGTGTAAGAAAACTTTCAATTCTCTTGCCAGCAAACGTTATTCAAATTCCTGAGCCCTTTACT
TCGCAAATTCTCTGCACTTCTGCCCCGTACCATTAGGTGACAGCACTAGCTCCACAAATTGGATAAATGC
ATTTCTGGAAAAGACTAGGGACAAAATCCAGGCATCACTTGTGCTTTCATATCAACCATGCTGTACAGCT
TGTGTTGCTGTCTGCAGCTGCAATGGGGACTCTTGATTTCTTTAAGGAAACTTGGGTTACCAGAGTATTT
CCACAAATGCTATTCAAATTAGTGCTTATGATATGCAAGACACTGTGCTAGGAGCCAGAAAACAAAGAGG
AGGAGAAATCAGTCATTATGTGGGAACAACATAGCAAGATATTTAGATCATTTTGACTAGTTAAAAAAGC
AGCAGAGTACAAAATCACACATGCAATCAGTATAATCCAAATCATGTAAATATGTGCCTGTAGAAAGACT
AGAGGAATAAACACAAGAATCTTAACAGTCATTGTCATTAGACACTAAGTCTAATTATTATTATTAGACA
CTATGATATTTGAGATTTAAAAAATCTTTAATATTTTAAAATTTAGAGCTCTTCTATTTTTCCATAGTAT
TCAAGTTTGACAATGATCAAGTATTACTCTTTCTTTTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTT
TGGTCTTGTTGCCCATGCTGGAGTGGAATGGCATGACCATAGCTCACTGCAACCTCCACCTCCTGGGTTC
AAGCAAAGCTGTCGCCTCAGCCTCCCGGGTAGATGGGATTACAGGCGCCCACCACCACACTCGGCTAATG
TTTGTATTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTCAAACTCCTGACCTCAGAGG
ATCCACCTGCCTCAGCCTCCCAAAGTGCTGGGATTACAGATGTAGGCCACTGCGCCCGGCCAAGTATTGC
TCTTATACATTAAAAAACAGGTGTGAGCCACTGCGCCCAGCCAGGTATTGCTCTTATACATTAAAAAATA
GGCCGGTGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAAGCCAAGGCGGGCAGAACACCCGAGGT
CAGGAGTCCAAGGCCAGCCTGGCCAAGATGGTGAAACCCCGTCTCTATTAAAAATACAAACATTACCTGG
GCATGATGGTGGGCGCCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGGATCCGCGGAGCCTGGCA
GATCTGCCTGAGCCTGGGAGGTTGAGGCTACAGTAAGCCAAGATCATGCCAGTATACTTCAGCCTGGGCG
ACAAAGTGAGACCGTAACAAAAAAAAAAAAATTTAAAAAAAGAAATTTAGATCAAGATCCAACTGTAAAA
AGTGGCCTAAACACCACATTAAAGAGTTTGGAGTTTATTCTGCAGGCAGAAGAGAACCATCAGGGGGTCT
TCAGCATGGGAATGGCATGGTGCACCTGGTTTTTGTGAGATCATGGTGGTGACAGTGTGGGGAATGTTAT
TTTGGAGGGACTGGAGGCAGACAGACCGGTTAAAAGGCCAGCACAACAGATAAGGAGGAAGAAGATGAGG
GCTTGGACCGAAGCAGAGAAGAGCAAACAGGGAAGGTACAAATTCAAGAAATATTGGGGGGTTTGAATCA
ACACATTTAGATGATTAATTAAATATGAGGACTGAGGAATAAGAAATGAGTCAAGGATGGTTCCAGGCTG
CTAGGCTGCTTACCTGAGGTGGCAAAGTCGGGAGGAGTGGCAGTTTAGGACAGGGGGCAGTTGAGGAATA
TTGTTTTGATCATTTTGAGTTTGAGGTACAAGTTGGACACTTAGGTAAAGACTGGAGGGGAAATCTGAAT
ATACAATTATGGGACTGAGGAACAAGTTTATTTTATTTTTTGTTTCGTTTTCTTGTTGAAGAACAAATTT
AATTGTAATCCCAAGTCATCAGCATCTAGAAGACAGTGGCAGGAGGTGACTGTCTTGTGGGTAAGGGTTT
GGGGTCCTTGATGAGTATCTCTCAATTGGCCTTAAATATAAGCAGGAAAAGGAGTTTATGATGGATTCCA
GGCTCAGCAGGGCTCAGGAGGGCTCAGGCAGCCAGCAGAGGAAGTCAGAGCATCTTCTTTGGTTTAGCCC
AAGTAATGACTTCCTTAAAAAGCTGAAGGAAAATCCAGAGTGACCAGATTATAAACTGTACTCTTGCATT
TTCTCTCCCTCCTCTCACCCACAGCCTCTTGATGAACCGGAGGAAGTTTCTTTACCAATTCAAAAATGTC
CGCTGGGCTAAGGGTCGGCGTGAGACCTACCTGTGCTACGTAGTGAAGAGGCGTGACAGTGCTACATCCT
TTTCACTGGACTTTGGTTATCTTCGCAATAAGGTATCAATTAAAGTCGGCTTTGCAAGCAGTTTAATGGT
CAACTGTGAGTGCTTTTAGAGCCACCTGCTGATGGTATTACTTCCATCCTTTTTTGGCATTTGTGTCTCT
ATCACATTCCTCAAATCCTTTTTTTTATTTCTTTTTCCATGTCCATGCACCCATATTAGACATGGCCCAA
AATATGTGATTTAATTCCTCCCCAGTAATGCTGGGCACCCTAATACCACTCCTTCCTTCAGTGCCAAGAA
CAACTGCTCCCAAACTGTTTACCAGCTTTCCTCAGCATCTGAATTGCCTTTGAGATTAATTAAGCTAAAA
GCATTTTTATATGGGAGAATATTATCAGCTTGTCCAAGCAAAAATTTTAAATGTGAAAAACAAATTGTGT
CTTAAGCATTTTTGAAAATTAAGGAAGAAGAATTTGGGAAAAAATTAACGGTGGCTCAATTCTGTCTTCC
AAATGATTTCTTTTCCCTCCTACTCACATGGGTCGTAGGCCAGTGAATACATTCAACATGGTGATCCCCA
GAAAACTCAGAGAAGCCTCGGCTGATGATTAATTAAATTGATCTTTCGGCTACCCGAGAGAATTACATTT
CCAAGAGACTTCTTCACCAAAATCCAGATGGGTTTACATAAACTTCTGCCCACGGGTATCTCCTCTCTCC
TAACACGCTGTGACGTCTGGGCTTGGTGGAATCTCAGGGAAGCATCCGTGGGGTGGAAGGTCATCGTCTG
GCTCGTTGTTTGATGGTTATATTACCATGCAATTTTCTTTGCCTACATTTGTATTGAATACATCCCAATC
TCCTTCCTATTCGGTGACATGACACATTCTATTTCAGAAGGCTTTGATTTTATCAAGCACTTTCATTTAC
TTCTCATGGCAGTGCCTATTACTTCTCTTACAATACCCATCTGTCTGCTTTACCAAAATCTATTTCCCCT
TTTCAGATCCTCCCAAATGGTCCTCATAAACTGTCCTGCCTCCACCTAGTGGTCCAGGTATATTTCCACA
ATGTTACATCAACAGGCACTTCTAGCCATTTTCCTTCTCAAAAGGTGCAAAAAGCAACTTCATAAACACA
AATTAAATCTTCGGTGAGGTAGTGTGATGCTGCTTCCTCCCAACTCAGCGCACTTCGTCTTCCTCATTCC
ACAAAAACCCATAGCCTTCCTTCACTCTGCAGGACTAGTGCTGCCAAGGGTTCAGCTCTACCTACTGGTG
TGCTCTTTTGAGCAAGTTGCTTAGCCTCTCTGTAACACAAGGACAATAGCTGCAAGCATCCCCAAAGATC
ATTGCAGGAGACAATGACTAAGGCTACCAGAGCCGCAATAAAAGTCAGTGAATTTTAGCGTGGTCCTCTC
TGTCTCTCCAGAACGGCTGCCACGTGGAATTGCTCTTCCTCCGCTACATCTCGGACTGGGACCTAGACCC
TGGCCGCTGCTACCGCGTCACCTGGTTCACCTCCTGGAGCCCCTGCTACGACTGTGCCCGACATGTGGCC
GACTTTCTGCGAGGGAACCCCAACCTCAGTCTGAGGATCTTCACCGCGCGCCTCTACTTCTGTGAGGACC
GCAAGGCTGAGCCCGAGGGGCTGCGGCGGCTGCACCGCGCCGGGGTGCAAATAGCCATCATGACCTTCAA
AGGTGCGAAAGGGCCTTCCGCGCAGGCGCAGTGCAGCAGCCCGCATTCGGGATTGCGATGCGGAATGAAT
GAGTTAGTGGGGAAGCTCGAGGGGAAGAAGTGGGCGGGGATTCTGGTTCACCTCTGGAGCCGAAATTAAA
GATTAGAAGCAGAGAAAAGAGTGAATGGCTCAGAGACAAGGCCCCGAGGAAATGAGAAAATGGGGCCAGG
GTTGCTTCTTTCCCCTCGATTTGGAACCTGAACTGTCTTCTACCCCCATATCCCCGCCTTTTTTTCCTTT
TTTTTTTTTTGAAGATTATTTTTACTGCTGGAATACTTTTGTAGAAAACCACGAAAGAACTTTCAAAGCC
TGGGAAGGGCTGCATGAAAATTCAGTTCGTCTCTCCAGACAGCTTCGGCGCATCCTTTTGGTAAGGGGCT
TCCTCGCTTTTTAAATTTTCTTTCTTTCTCTACAGTCTTTTTTGGAGTTTCGTATATTTCTTATATTTTC
TTATTGTTCAATCACTCTCAGTTTTCATCTGATGAAAACTTTATTTCTCCTCCACATCAGCTTTTTCTTC
TGCTGTTTCACCATTCAGAGCCCTCTGCTAAGGTTCCTTTTCCCTCCCTTTTCTTTCTTTTGTTGTTTCA
CATCTTTAAATTTCTGTCTCTCCCCAGGGTTGCGTTTCCTTCCTGGTCAGAATTCTTTTCTCCTTTTTTT
TTTTTTTTTTTTTTTTTTTTAAACAAACAAACAAAAAACCCAAAAAAACTCTTTCCCAATTTACTTTCTT
CCAACATGTTACAAAGCCATCCACTCAGTTTAGAAGACTCTCCGGCCCCACCGACCCCCAACCTCGTTTT
GAAGCCATTCACTCAATTTGCTTCTCTCTTTCTCTACAGCCCCTGTATGAGGTTGATGACTTACGAGACG
CATTTCGTACTTTGGGACTTTGATAGCAACTTCCAGGAATGTCACACACGATGAAATATCTCTGCTGAAG
ACAGTGGATAAAAAACAGTCCTTCAAGTCTTCTCTGTTTTTATTCTTCAACTCTCACTTTCTTAGAGTTT
ACAGAAAAAATATTTATATACGACTCTTTAAAAAGATCTATGTCTTGAAAATAGAGAAGGAACACAGGTC
TGGCCAGGGACGTGCTGCAATTGGTGCAGTTTTGAATGCAACATTGTCCCCTACTGGGAATAACAGAACT
GCAGGACCTGGGAGCATCCTAAAGTGTCAACGTTTTTCTATGACTTTTAGGTAGGATGAGAGCAGAAGGT
AGATCCTAAAAAGCATGGTGAGAGGATCAAATGTTTTTATATCAACATCCTTTATTATTTGATTCATTTG
AGTTAACAGTGGTGTTAGTGATAGATTTTTCTATTCTTTTCCCTTGACGTTTACTTTCAAGTAACACAAA
CTCTTCCATCAGGCCATGATCTATAGGACCTCCTAATGAGAGTATCTGGGTGATTGTGACCCCAAACCAT
CTCTCCAAAGCATTAATATCCAATCATGCGCTGTATGTTTTAATCAGCAGAAGCATGTTTTTATGTTTGT
ACAAAAGAAGATTGTTATGGGTGGGGATGGAGGTATAGACCATGCATGGTCACCTTCAAGCTACTTTAAT
AAAGGATCTTAAAATGGGCAGGAGGACTGTGAACAAGACACCCTAATAATGGGTTGATGTCTGAAGTAGC
AAATCTTCTGGAAACGCAAACTCTTTTAAGGAAGTCCCTAATTTAGAAACACCCACAAACTTCACATATC
ATAATTAGCAAACAATTGGAAGGAAGTTGCTTGAATGTTGGGGAGAGGAAAATCTATTGGCTCTCGTGGG
TCTCTTCATCTCAGAAATGCCAATCAGGTCAAGGTTTGCTACATTTTGTATGTGTGTGATGCTTCTCCCA
AAGGTATATTAACTATATAAGAGAGTTGTGACAAAACAGAATGATAAAGCTGCGAACCGTGGCACACGCT
CATAGTTCTAGCTGCTTGGGAGGTTGAGGAGGGAGGATGGCTTGAACACAGGTGTTCAAGGCCAGCCTGG
GCAACATAACAAGATCCTGTCTCTCAAAAAAAAAAAAAAAAAAAAGAAAGAGAGAGGGCCGGGCGTGGTG
GCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCGAGCCGGGCGGATCACCTGTGGTCAGGAGTTTGAGA
CCAGCCTGGCCAACATGGCAAAACCCCGTCTGTACTCAAAATGCAAAAATTAGCCAGGCGTGGTAGCAGG
CACCTGTAATCCCAGCTACTTGGGAGGCTGAGGCAGGAGAATCGCTTGAACCCAGGAGGTGGAGGTTGCA
GTAAGCTGAGATCGTGCCGTTGCACTCCAGCCTGGGCGACAAGAGCAAGACTCTGTCTCAGAAAAAAAAA
AAAAAAAGAGAGAGAGAGAGAAAGAGAACAATATTTGGGAGAGAAGGATGGGGAAGCATTGCAAGGAAAT
TGTGCTTTATCCAACAAAATGTAAGGAGCCAATAAGGGATCCCTATTTGTCTCTTTTGGTGTCTATTTGT
CCCTAACAACTGTCTTTGACAGTGAGAAAAATATTCAGAATAACCATATCCCTGTGCCGTTATTACCTAG
CAACCCTTGCAATGAAGATGAGCAGATCCACAGGAAAACTTGAATGCACAACTGTCTTATTTTAATCTTA
TTGTACATAAGTTTGTAAAAGAGTTAAAAATTGTTACTTCATGTATTCATTTATATTTTATATTATTTTG
CGTCTAATGATTTTTTATTAACATGATTTCCTTTTCTGATATATTGAAATGGAGTCTCAAAGCTTCATAA
ATTTATAACTTTAGAAATGATTCTAATAACAACGTATGTAATTGTAACATTGCAGTAATGGTGCTACGAA
GCCATTTCTCTTGATTTTTAGTAAACTTTTATGACAGCAAATTTGCTTCTGGCTCACTTTCAATCAGTTA
AATAAATGATAAATAATTTTGGAAGCTGTGAAGATAAAATACCAAATAAAATAATATAAAAGTGATTTAT
ATGAAGTTAAAATAAAAAATCAGTATGATGGAATAAACTTG

アポリポタンパク質B mRNA編集酵素、触媒ポリペプチド様（APOBEC：Apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like）は、進化的に保存されたシチジンデアミナーゼファミリーである。このファミリーのメンバーはCからUへの編集酵素である。APOBEC様タンパク質のN末端ドメインは触媒ドメインであり、C末端ドメインは偽触媒ドメインである。より具体的には、触媒ドメインは亜鉛依存性シチジンデアミナーゼドメインであり、シチジン脱アミノ化のために重要である。APOBECファミリーメンバーには、APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D（今では「APOBEC3E」がこれを指す）、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、および活性化誘導型（シチジン）デアミナーゼが含まれる。限定するものではないが、SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3、およびYEE-BE3を含む多数の改変シチジンデアミナーゼが市販されており、これらはAddgene社から入手可能である（プラスミド85169、85170、85171、85172、85173、85174、85175、85176、85177）。

本開示の態様に従ってCas9に融合され得る他の例示的デアミナーゼが、以下に提供される。いくつかの実施形態において、それぞれの配列の活性ドメイン、例えば、局在化シグナル（核局在化配列、核外搬出シグナル、細胞質局在化シグナル）を伴わないドメインが使用され得ることが理解されるべきである。

ヒトAID:

（下線：核局在化配列；二重下線：核外搬出シグナル）

マウスAID:

（下線：核局在化配列；二重下線：核外搬出シグナル）

イヌAID:

（下線：核局在化配列；二重下線：核外搬出シグナル）

ウシAID:

（下線：核局在化配列；二重下線：核外搬出シグナル）

ラットAID:

（下線：核局在化配列；二重下線：核外搬出シグナル）

マウスAPOBEC-3

（斜体：核酸編集ドメイン）

ラットAPOBEC-3

（斜体：核酸編集ドメイン）

Rhesus macaque APOBEC-3 G:

（斜体：核酸編集ドメイン；下線：細胞質局在化シグナル）

チンパンジーAPOBEC-3 G:

ミドリザルAPOBEC-3G:

ヒトAPOBEC-3G:

ヒトAPOBEC-3F:

（斜体：核酸編集ドメイン）

ヒトAPOBEC-3B:

（斜体：核酸編集ドメイン）

ラットAPOBEC-3B:
MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKNVRYAWGRKNNFLCYEVNGMDCALPVPLRQGVFRKQGHIHAELCFIYWFHDKVLRVLSPMEEFKVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRNPNYQQKLCRLIQEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSRMNLLREDVFYLQFNNSHRVKPVQNRYYRRKSYLCYQLERANGQEPLKGYLLYKKGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLAAFKKDHPDLILRIYTSRLYFWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVNPQRPFRPWNELEKNSWRIQRRLRRIKESWGL

ウシAPOBEC-3B:
DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLLREVLFKQQFGNQPRVPAPYYRRKTYLCYQLKQRNDLTLDRGCFRNKKQRHAERFIDKINSLDLNPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFASRLYFHWIKSFKMGLQDLQNAGISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI

チンパンジーAPOBEC-3B:
MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSNLLWDTGVFRGQMYSQPEHHAEMCFLSWFCGNQLSAYKCFQITWFVSWTPCPDCVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRRHQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQVRASSLCMVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFPPPASLPPLPSLSLSPGHLPVPSFHSLTSCSIQPPCSSRIRETEGWASVSKEGRDLG

ヒトAPOBEC-3C:

ゴリラAPOBEC3C:

（斜体：核酸編集ドメイン）

ヒトAPOBEC-3 A:

（斜体：核酸編集ドメイン）

Rhesus macaque APOBEC-3 A:

（斜体：核酸編集ドメイン）

ウシAPOBEC-3 A:

（斜体：核酸編集ドメイン）

ヒトAPOBEC-3H:

（斜体：核酸編集ドメイン）

Rhesus macaque APOBEC-3H:
MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKKKDHAEIRFINKIKSMGLDETQCYQVTCYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYYHWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEPPSFNPSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR

ヒトAPOBEC-3D

（斜体：核酸編集ドメイン）

ヒトAPOBEC-1:
MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHPSVAWR

マウスAPOBEC-1 :
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFRPNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK

ラットAPOBEC-1 :
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK

ヒトAPOBEC-2:
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK

マウスAPOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK

ラットAPOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK

ウシAPOBEC-2:
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK

Petromyzon marinus CDA1 (pmCDAl)
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSFMIQVKILHTTKSPAV

ヒトAPOBEC3G D316R D317R
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKFNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHFMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTC FTSWSPCFSCAQEMAKFISKKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN

ヒトAPOBEC3G A鎖
MDPPTFTFNFNNEPWWGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISF TYSEFKHCWDTFVDHQGCPFQPWDGLD EHSQDLSGRLRAILQ

ヒトAPOBEC3G A鎖 D120R D121R
MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ

用語「デアミナーゼ」または「デアミナーゼドメイン」は、脱アミノ化反応を触媒するタンパク質またはその断片を指す。

「検出する」とは、検出されるべき分析物の存在、不在または量を同定することを指す。一実施形態において、ポリヌクレオチドまたはポリペプチドにおける配列変化が検出される。別の実施形態では、インデル（indel）の存在が検出される。

「検出可能な標識」とは、目的の分子に連結されたときに、分光学的、光化学的、生化学的、免疫化学的、または化学的手段を介してそれを検出可能にする組成物を意味する。例えば、有用な標識には、放射性同位体、磁気ビーズ、金属ビーズ、コロイド粒子、蛍光色素、高電子密度試薬、酵素（例えばELISAで一般的に使用されるもの）、ビオチン、ジゴキシゲニン、またはハプテンが含まれる。

「断片」とは、ポリペプチドまたは核酸分子の一部を意味する。この部分は、参照核酸分子またはポリペプチドの全長の少なくとも約10%、20%、30%、40%、50%、60%、70%、80%、または90%を含む。断片は、10、20、30、40、50、60、70、80、90、または100、200、300、400、500、600、700、800、900、または1000のヌクレオチドまたはアミノ酸を含み得る。

「ハイブリダイゼーション」は、相補的な核酸塩基間の水素結合を意味し、ワトソン-クリック、フーグスティーンまたは逆フーグスティーン水素結合であり得る。たとえば、アデニンとチミンは相補的な核酸塩基で、水素結合を形成して対を形成する。

用語「塩基修復の阻害因子（inhibitor of base repair）」または「IBR」とは、核酸修復酵素、例えば塩基除去修復酵素の活性を阻害することができるタンパク質を指す。ある態様において、IBRは、イノシン塩基除去修復の阻害因子である。塩基修復の阻害因子の例としては、APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7 Endol、T4 PDG、UDG、hSMUGLおよびhAAGの阻害因子が挙げられる。ある実施形態では、IBRは、Endo VまたはhAAGの阻害因子である。ある実施形態では、IBRは、触媒的に不活性なEndoVまたは触媒的に不活性なhAAGである。

用語「単離された」、「精製された」、または「生物学的に純粋な」とは、その天然状態で見出される場合に通常それに付随する成分が、様々な程度まで除去されている物質を指す。「単離」は、元の入手源又は周囲環境からの分離の程度を示す。「精製」は、単離よりも高い分離度を示す。「精製された」又は「生物学的に純粋な」タンパク質は、不純物がタンパク質の生物学的特性に実質的に影響を与えたり他の有害な結果を引き起こさないように、他の物質が十分に除去されている。すなわち、本発明の核酸またはペプチドは、組換えDNA技術によって産生された場合には細胞物質、ウイルス物質または培地を実質的に含まない場合、あるいは化学的に合成された場合には化学的前駆体その他の化学物質を実質的に含まない場合には、精製されている。純度および均一性は、典型的には、分析化学技術、例えば、ポリアクリルアミドゲル電気泳動または高速液体クロマトグラフィーを用いて決定される。用語「精製された」は、核酸またはタンパク質が電気泳動ゲルにおいて本質的に1つのバンドを生じることを意味し得る。修飾、例えば、リン酸化またはグリコシル化を受けることができるタンパク質については、異なる修飾は、別々に精製することができる異なる単離されたタンパク質を生じ得る。

「単離ポリヌクレオチド」とは、本発明の核酸分子が由来する生物の天然ゲノムにおいて当該遺伝子に隣接する遺伝子を含まない核酸(例えばDNA)を意味する。したがって、この用語は、例えば、ベクターに組み込まれた；自律的に複製するプラスミドやウイルスに組み込まれた；原核生物や真核生物のゲノムDNAに組み込まれた；または他の配列とは独立した別の分子(例えば、PCRまたは制限エンドヌクレアーゼ消化によって生成されたcDNAまたはゲノムもしくはcDNA断片)として存在する組換えDNAを含む。さらに、この用語は、DNA分子から転写されるRNA分子、ならびに、さらなるポリペプチド配列をコードするハイブリッド遺伝子の一部である組換えDNAを含む。

「単離ポリペプチド」とは、天然状態で付随する成分から分離された本発明のポリペプチドを意味する。典型的には、ポリペプチドは、それが天然状態で会合しているタンパク質および天然有機分子から重量で少なくとも60%フリーである場合に、単離されている。好ましくは、調製物は、重量で少なくとも75%、より好ましくは少なくとも90%、そして最も好ましくは少なくとも99%が本発明のポリペプチドである。本発明の単離されたポリペプチドは、例えば、天然源からの抽出、そのようなポリペプチドをコードする組換え核酸の発現；または化学的にタンパク質を合成することにより得ることができる。純度は、任意の適切な方法、例えば、カラムクロマトグラフィー、ポリアクリルアミドゲル電気泳動、またはHPLC分析によって測定することができる。

本明細書で使用される用語「リンカー」は、2つの分子または部分（例えば融合タンパク質の2つのドメイン）を連結する結合（例えば共有結合）、化学基、または、分子を指す。ある実施形態において、リンカーは、Cas9ヌクレアーゼドメインを含む、RNAプログラミング可能ヌクレアーゼのgRNA結合ドメインと、核酸編集タンパク質（例えばシチジンデアミナーゼまたはアデノシンデアミナーゼ）の触媒ドメインとを繋げる。ある態様において、リンカーは、dCas9と核酸編集タンパク質とを繋げる。典型的には、リンカーは、2つの基、分子、または他の部分の間に配置されるか、またはそれらによって隣接され、共有結合を介して各々に連結され、かくしてそれら2つのものを連結する。ある態様において、リンカーは、アミノ酸または複数のアミノ酸（例えば、ペプチドまたはタンパク質）である。ある態様において、リンカーは、有機の分子、基、ポリマー、または化学的部分である。ある態様において、リンカーは、長さが5～200アミノ酸であり、例えば長さが5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190、または200アミノ酸である。より長いまたはより短いリンカーも企図される。ある態様において、リンカーは、XTENリンカーとも呼ばれ得るアミノ酸配列SGSETPGTSESATPESを含む。ある態様において、リンカーは、アミノ酸配列SGGSを含む。ある態様において、リンカーは、(SGGS)_n、(GGGS)_n、(GGGGS)_n、(G)_n、(EAAAK)_n、(GGS)_n、SGSETPGTSESATPES、もしくは(XP)_nモチーフ、またはこれらのいずれかの組合せを含み、ここで、nは独立して1～30の整数であり、Xは任意のアミノ酸である。いくつかの実施形態において、nは1、2、3、4、5、6、7、8、9、10、11、12、13、14、または15である。

いくつかの実施形態において、核酸塩基エディターのドメインは、SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS、またはGGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTE PSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGSのアミノ酸配列を含むリンカーを介して融合される。いくつかの実施形態において、核酸塩基エディターのドメインは、XTENリンカーとも呼ばれ得るアミノ酸配列SGSETPGTSESATPESを含むリンカーを介して融合される。ある態様において、リンカーは、長さが24アミノ酸である。ある態様において、リンカーは、アミノ酸配列SGGSSGGSSGSETPGTSESATPESを含む。ある態様において、リンカーは、長さが40アミノ酸である。ある態様において、リンカーは、アミノ酸配列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSを含む。ある態様において、リンカーは、長さが64アミノ酸である。ある態様において、リンカーは、アミノ酸配列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGS SGGSを含む。ある態様において、リンカーは、長さが92アミノ酸である。ある態様において、リンカーは、アミノ酸配列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAP GTSTEPSEGSAPGTSESATPESGPGSEPATSを含む。

本明細書中で使用される場合、用語「変異」とは、配列内、例えば核酸もしくはアミノ酸配列内の残基が、別の残基により置換されること、または配列内の1以上の残基の欠失もしくは挿入をいう。変異は、本明細書中において典型的には、元の残基を同定し、次いで配列内の残基の位置を同定し、そして新たに置換された残基を同定することによって、記載される。本明細書中に提供されるアミノ酸置換（変異）を作製するための種々の方法は、当該技術分野においてよく知られており、例えば、Green and Sambrook, Molecular Cloning: A Laboratory Manual (4th ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2012))によって提供されている。

本明細書中で使用される場合、用語「核酸」および「核酸分子」とは、核酸塩基および酸性部分を含む化合物、例えばヌクレオシド、ヌクレオチド、またはヌクレオチドのポリマーをいう。典型的には、ポリマー核酸、例えば3つ以上のヌクレオチドを含む核酸分子は、隣接するヌクレオチドがホスホジエステル結合を介して互いに連結されている直鎖分子である。ある態様において、「核酸」は、個々の核酸残基(例えばヌクレオチドおよび/またはヌクレオシド)を指す。ある態様において、「核酸」は、三つ以上の個々のヌクレオチド残基を含むオリゴヌクレオチド鎖をいう。本明細書中で使用される、用語「オリゴヌクレオチド」、および「ポリヌクレオチド」は、ヌクレオチドのポリマー(例えば少なくとも3つのヌクレオチドの鎖)を指すために交換可能に使用され得る。ある態様において、「核酸」は、RNAならびに一本鎖および/または二本鎖DNAを包含する。核酸は、例えば、ゲノム、転写物、mRNA、tRNA、rRNA、siRNA、snRNA、プラスミド、コスミド、染色体、染色分体、または他の天然に存在する核酸分子との関連において、天然に存在し得る。他方、核酸分子は、例えば非天然に存在する分子、組換えDNAもしくはRNA、人工染色体、操作されたゲノム、もしくはその断片、または合成DNA、RNA、DNA/RNAハイブリッド、または非天然に存在するヌクレオチドもしくはヌクレオシドを含む、非天然に存在する分子であり得る。さらに、用語「核酸」、「DNA」、「RNA」、および/または類似の用語は、核酸アナログ、例えばホスホジエステル骨格以外を有するアナログを含む。核酸は、天然源から精製される、組換え発現系を用いて産生され必要に応じて精製される、化学的に合成される、等が可能である。化学的に合成された分子の場合、核酸は、適切な場合には、例えば、化学的に修飾された塩基または糖、および骨格修飾を有するアナログなどのヌクレオシドアナログを含み得る。核酸配列は、特に示されない限り、5’～3’方向に示される。ある態様において、核酸は、天然ヌクレオシド（例えばアデノシン、チミジン、グアノシン、シチジン、ウリジン、デオキシアデノシン、デオキシチミジン、デオキシグアノシン、およびデオキシシチジン）；ヌクレオシド類似体（例えば2-アミノアデノシン、2-チオチミジン、イノシン、ピロロ-ピリミジン、3-メチルアデノシン、5-メチルシチジン、2-アミノアデノシン、C5-ブロモウリジン、C5-フルオロウリジン、C5-ヨードウリジン、C5-プロピニル-ウリジン、C5-プロピニル-シチジン、C5-メチルシチジン、2-アミノアデノシン、7-デアザアデノシン、7-デアザグアノシン、8-オキソアデノシン、8-オキソグアニン、O(6)-メチルグアニン、および2-チオシチジン）；化学修飾塩基；生物学的に修飾された塩基（例えばメチル化塩基）；挿入塩基；修飾糖（例えば2’-フルオロリボース、リボース、2’-デオキシリボース、アラビノース、およびヘキソース）；および/または修飾リン酸基（例えばホスホロチオエートおよび5’-N-ホスホロアミダイト結合）であるか、またはそれらを含む。

「核局在化配列」、「核局在化シグナル」または「NLS」という用語は、タンパク質の細胞核への移入を促進するアミノ酸配列を意味する。核局在化配列は当該技術分野において公知であり、例えば、2000年11月23日に出願され2001年5月31日にWO/2001/038547として公開された国際PCT出願PCT/EP2000/011690のPlank et al.に記載されており、その内容は、例示的な核局在化配列の開示について参照により本明細書に組み入れられる。他の実施形態では、NLSは、例えばKoblan et al., Nature Biotech. 2018 doi:10.1038/nbt.4172によって記載された、最適化されたNLSである。ある態様において、NLSは、アミノ酸配列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV、またはMDSLLMNRRKFLYQFKNVRWAKGRRETYLCを含む。

本開示は、核酸プログラミング可能な核酸（例えばDNAまたはRNA）結合タンパク質を提供する。核酸プログラミング可能な核酸結合タンパク質は、例えば、「核酸プログラミング可能なDNA結合タンパク質（nucleic acid programmable DNA binding protein）」あるいは「napDNAbp」である。用語「核酸プログラミング可能なDNA結合タンパク質」あるいは「napDNAbp」は、napDNAbpを特定の核酸配列に誘導するガイド核酸などの核酸（例えばDNAまたはRNA）と会合するタンパク質を表す。例えば、Cas9タンパク質は、そのCas9タンパク質をガイドRNAに相補的な特異的DNA配列へと誘導するガイドRNAと結合し得る。いくつかの実施形態において、napDNAbpは、Cas9ドメインであり、例えば、ヌクレアーゼ活性Cas9、Cas9ニッカーゼ（nCas9）、またはヌクレアーゼ不活Cas9（dCas9）である。核酸プログラミング可能なDNA結合タンパク質の例としては、Cas9（例えばdCas9およびnCas9）、CasX、CasY、Cpfl、Cas12b/C2c1、およびCas12c/C2c3が挙げられるが、これらに限定されない。他の核酸プログラミング可能DNA結合タンパク質も、本開示に具体的に列記されていないとしても本開示の範囲内である。

本明細書で使用される場合、「薬剤を取得する」におけるような「取得する」は、その薬剤を合成すること、購入すること、または他の方法で獲得することを含む。

用語「RNAプログラム可能なヌクレアーゼ」および「RNA誘導ヌクレアーゼ」は、切断の標的ではない一つ以上のRNAとともに使用される（例えば、それに結合または付随する）。ある態様において、RNAプログラム可能ヌクレアーゼは、RNAと複合体である場合、ヌクレアーゼ:RNA複合体と称され得る。典型的には、結合したRNAはガイドRNA（gRNA）と呼ばれる。gRNAは2個以上のRNAの複合体として存在することもあれば、1個のRNA分子として存在することもある。単一のRNA分子として存在するgRNAは、単一ガイドRNA（sgRNA）と呼ばれることがあるが、「gRNA」は、単一の分子として、または2つ以上の分子の複合体として存在するガイドRNAを指すために互換的に使用される。典型的には、単一のRNA種として存在するgRNAは、(1) 標的核酸と相同性を共有するドメイン（例えば、標的へのCas9複合体の結合を指示する）；および(2) Cas9タンパク質に結合するドメインという二つのドメインを含む。ある態様において、ドメイン (2) は、tracrRNAとして知られる配列に対応し、ステム-ループ構造を含む。例えば、いくつかの態様において、ドメイン (2) は、Jinek et al., Science 337:816-821(2012)（その全内容が参照により本明細書に組み入れられる）に提供されるようなtracrRNAと同一または相同である。gRNA（例えばドメイン2を含むもの）の他の例は、「Switchable Cas9 Nucleases and Uses Thereof」と題され2013年9月6日に出願された米国仮特許出願U.S.S.N.61/874,682および「Delivery System For Functional Nucleases」と題され2013年9月6日に出願された米国仮特許出願U.S.S.N.61/874,746に見出され得、それら各々の全内容が参照により本明細書に組み入れられる。いくつかの実施形態において、gRNAは、ドメイン (1) および (2) の二つ以上を含み、「伸長されたgRNA」と称され得る。例として、伸長されたgRNAは、本明細書に記載されるように、例えば二つ以上のCas9タンパク質と結合し、二つ以上の異なる領域における標的核酸と結合する。gRNAは、標的部位を相補するヌクレオチド配列を含み、これが上記標的部位へのヌクレアーゼ／RNA複合体の結合を媒介し、ヌクレアーゼ：RNA複合体の配列特異性を提供する。ある態様において、RNAプログラム可能ヌクレアーゼは、（CRISPR関連システム）Cas9エンドヌクレアーゼ、例えば、Streptococcus pyogenes由来のCas9 (Csnl) である（例えば、"Complete genome sequence of an Ml strain of Streptococcus pyogenes." Ferretti J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma CM., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011)参照）。

タンパク質または核酸に関連して本明細書中で使用される用語「組み換え体」とは、自然界には存在しないが、人間の工学の産物であるタンパク質または核酸を指す。例えば、いくつかの実施形態において、組換えタンパク質または核酸分子は、任意の天然に存在する配列と比較して、少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも4つ、少なくとも5つ、少なくとも6つ、または少なくとも7つの変異を含むアミノ酸またはヌクレオチド配列を含む。

「減少する」とは、少なくとも10%、25%、50%、75%、または100%の負の変化を意味する。

「参照」とは、標準または対照の条件を意味する。

「参照配列」は、配列比較の基礎として使用される定義済み配列である。参照配列は、特定の配列のサブセット又は全体であり得る；例えば、完全長のcDNAもしくは遺伝子配列のセグメント、または完全なcDNAまたは遺伝子配列。ポリペプチドについては、参照ポリペプチド配列の長さは、一般に、少なくとも約16アミノ酸、少なくとも約20アミノ酸、少なくとも約25アミノ酸、さらにより好ましくは約35アミノ酸、約50アミノ酸、または約100アミノ酸である。核酸については、参照核酸配列の長さは、一般に、少なくとも約50ヌクレオチド、少なくとも約60ヌクレオチド、少なくとも約75ヌクレオチド、約100ヌクレオチドまたは約300ヌクレオチドまたはそれらの周辺もしくはそれらの間の任意の整数である。

「特異的に結合する」とは、本発明のポリペプチドおよび/または核酸分子を認識および結合するが、試料（例えば生物学的試料）中の他の分子を実質的に認識および結合しない核酸分子、ポリペプチド、もしくはそれらの複合体（例えば、核酸プログラム可能なDNA結合ドメインおよびガイド核酸）、化合物、または分子を意味する。

本発明の方法において有用な核酸分子は、本発明のポリペプチドまたはその断片をコードする任意の核酸分子を含む。そのような核酸分子は、内因性核酸配列と100%同一である必要はないが、典型的には実質的同一性を示す。内因性配列に対して「実質的同一性」を有するポリヌクレオチドは、典型的には、二本鎖核酸分子の少なくとも一つの鎖とハイブリダイズすることができる。本発明の方法において有用な核酸分子は、本発明のポリペプチドまたはその断片をコードする任意の核酸分子を含む。そのような核酸分子は、内因性核酸配列と100%同一である必要はないが、典型的には実質的同一性を示す。内因性配列に対して「実質的同一性」を有するポリヌクレオチドは、典型的には、二本鎖核酸分子の少なくとも一つの鎖とハイブリダイズすることができる。「ハイブリダイズする」とは、種々のストリンジェンシー条件下で相補的ポリヌクレオチド配列（例えば、本明細書に記載の遺伝子）の間、またはその一部の間に二本鎖分子を形成する対をなすことを意味する。（例えばWahl, G. M. and S. L. Berger (1987) Methods Enzymol. 152:399; Kimmel, A. R. (1987) Methods Enzymol. 152:507参照）。

例えば、ストリンジェントな塩濃度は、通常、約750 mM未満 NaClおよび75 mMクエン酸三ナトリウム、好ましくは約500 mM未満 NaClおよび50 mMクエン酸三ナトリウム、より好ましくは約250 mM未満 NaClおよび25 mMクエン酸三ナトリウムである。低ストリンジェンシーハイブリダイゼーションは、有機溶媒、例えばホルムアミドの非存在下で得ることができ、一方、高ストリンジェンシーハイブリダイゼーションは、少なくとも約35%ホルムアミド、より好ましくは少なくとも約50%ホルムアミドの存在下で得ることができる。ストリンジェントな温度条件は、通常、少なくとも約30℃、より好ましくは少なくとも約37℃、最も好ましくは少なくとも約42℃の温度を含むであろう。ハイブリダイゼーション時間、界面活性剤 (例えば、ドデシル硫酸ナトリウム (SDS) ) の濃度、および担体DNAの含入または排除などの様々な追加のパラメーターは、当業者によく知られている。必要に応じてこれら様々な条件を組み合わせることによって、様々なレベルのストリンジェンシーが達成される。一実施形態では、ハイブリダイゼーションは、30℃で、750 mM NaCl、75 mMクエン酸三ナトリウムおよび1% SDS中で起こる。別の実施形態では、ハイブリダイゼーションは、37℃で、500 mM NaCl、50 mMクエン酸三ナトリウム、1% SDS、35%ホルムアミドおよび100 .mu.g/ml変性サケ精子DNA（ssDNA）中で起こる。別の実施形態において、ハイブリダイゼーションは、42℃において、250 mM NaCl、25 mMクエン酸三ナトリウム、1% SDS、50%ホルムアミドおよび200μg/ml ssDNA中で起こる。これらの条件の有用なバリエーションは、当業者には容易に明らかになるであろう。

ほとんどの用途では、ハイブリダイゼーションに続く洗浄工程もまた、ストリンジェンシーが異なる。洗浄ストリンジェンシー条件は、塩濃度および温度によって定義することができる。上記のように、洗浄ストリンジェンシーは、塩濃度を低下させるか、または温度を上昇させることによって増加させることができる。例えば、洗浄工程のためのストリンジェントな塩濃度は、好ましくは約30 mM未満NaClおよび3 mMクエン酸三ナトリウムであり、最も好ましくは約15 mM未満 NaClおよび1.5 mMクエン酸三ナトリウムである。洗浄工程のためのストリンジェントな温度条件は、通常、少なくとも約25℃、より好ましくは少なくとも約42℃、さらにより好ましくは少なくとも約68℃の温度を含む。一実施形態において、洗浄工程は、25℃で、30 mM NaCl、3 mMクエン酸三ナトリウム、および0.1% SDS中で行われる。より好ましい実施形態において、洗浄工程は、42℃で、15 mM NaCl、1.5 mMクエン酸三ナトリウム、および0.1% SDS中で行われる。より好ましい実施形態において、洗浄工程は、68℃で、15 mM NaCl、1.5 mMクエン酸三ナトリウム、および0.1% SDS中で行われる。これらの条件のさらなるバリエーションは、当業者には容易に明らかになるであろう。ハイブリダイゼーション技術は、当業者によくしられており、例えば、Benton and Davis (Science 196:180, 1977); Grunstein and Hogness (Proc. Natl. Acad. Sci., USA 72:3961, 1975); Ausubel et al. (Current Protocols in Molecular Biology, Wiley Interscience, New York, 2001); Berger and Kimmel (Guide to Molecular Cloning Techniques, 1987, Academic Press, New York); および Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New Yorkに記述されている。

「実質的に同一である」とは、参照アミノ酸配列(例えば、本明細書に記載のアミノ酸配列のいずれか1つ)または核酸配列(例えば、本明細書に記載の核酸配列のいずれか1つ)に対して少なくとも50%の同一性を示すポリペプチドまたは核酸分子を意味する。一実施形態において、そのような配列は、比較のために使用される配列とアミノ酸レベルまたは核酸において少なくとも60%、80%または85%、90%、95%または99%までもの同一性を有する。

配列同一性は、典型的には、配列解析ソフトウェア（例えば、Genetics Computer Group, University of Wisconsin Biotechnology Center, 1710 University Avenue, Madison, Wis. 53705のSequence Analysis Software Package、BLAST、BESTFIT、GAP、またはPILEUP/PRETTYBOXプログラム）を用いて測定される。そのようなソフトウェアは、種々の置換、欠失、および/または他の改変に相同性の程度を割り当てることによって、同一または類似の配列をマッチさせる。保存的置換は、典型的には、以下の群内の置換を含む:グリシン、アラニン；バリン、イソロイシン、ロイシン；アスパラギン酸、グルタミン酸、アスパラギン、グルタミン；セリン、トレオニン；リジン、アルギニン；フェニルアラニン、チロシン。同一性の程度を決定するための例示的なアプローチにおいて、BLASTプログラムを使用することができ、e ^-3とe ^-100の間の確率スコアが密接に関連した配列を示す。

「対象」とは、限定されるものではないが、ウシ、ウマ、イヌ、ヒツジまたはネコなどのヒトまたは非ヒト哺乳動物を含む哺乳動物を意味する。対象は、家畜、労働力を生じ食料などの商品を供給するために飼育される飼育動物を含み、ウシ、ヤギ、ニワトリ、ウマ、ブタ、ウサギ、およびヒツジを含むが、これらに限定されない。

用語「標的部位」とは、核酸分子内の配列であって、核酸塩基エディターによって改変される配列をいう。一実施形態において、標的部位は、デアミナーゼまたはそれを含む融合タンパク質（例えば、シチジンまたはアデニンデアミナーゼ）によって脱アミノ化される。

RNAプログラム可能なヌクレアーゼ（例えばCas9）は、DNA切断部位を標的とするためにRNA:DNAハイブリダイゼーションを使用するので、これらのタンパク質は、原理的に、ガイドRNAによって指定されるあらゆる配列を標的とすることができる。部位特異的切断のためにCas9のようなRNAプログラム可能なヌクレアーゼを使用する方法（例えばゲノムを改変するために）は、当該技術分野において公知である（例えば、Cong, L. et al., Multiplex genome engineering using CRISPR/Cas systems. Science 339, 819-823 (2013); Mali, P. et al., RNA-guided human genome engineering via Cas9. Science 339, 823-826 (2013); Hwang, W.Y. et al., Efficient genome editing in zebrafish using a CRISPR-Cas system. Nature biotechnology 31, 227-229 (2013); Jinek, M. et al., RNA-programmed genome editing in human cells. eLife 2, e00471 (2013); Dicarlo, J.E. et al., Genome engineering in Saccharomyces cerevisiae using CRISPR-Cas systems. Nucleic acids research (2013); Jiang, W. et al., RNA-guided editing of bacterial genomes using CRISPR-Cas systems. Nature biotechnology 31, 233-239 (2013)を参照。これらの各々の全内容は参照により本明細書に組み入れられる）。

本明細書で提供される範囲は、範囲内のすべての値についての省略形であると理解される。例えば、1～50の範囲は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50からなる群からの任意の数、数の組み合わせ、またはサブ範囲を含むと理解される。

特に述べない限り、または文脈から明白でない限り、本明細書で使用されるところの「または」という用語は、包括的であると理解される。特に述べない限り、または文脈から明らかでない限り、本明細書で使用されるところの用語「a」、「an」および「the」は、単数または複数であると理解される。

特に述べない限り、または文脈から明らかでない限り、本明細書で使用されるところの用語「約」は、当技術分野における通常の許容範囲内、例えば平均値の2標準偏差内にあると理解される。約は、記載された値の10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.1%、0.05%、または0.01%以内と理解され得る。文脈から特に明らかでない限り、本明細書で提供される全ての数値は、約という用語によって修飾される。

本明細書における可変因子の定義における化学基のリストの記載は、いずれかの単一の基またはリストされた基の組合せとしてのその可変因子の定義を含む。本明細書における可変因子または態様に関する実施形態の記載は、いずれかの単一の実施形態としての、または任意の他の実施形態もしくはその一部と組み合わせられた、その実施形態を含む。

本明細書に提供される組成物または方法は、本明細書に提供される他の任意の組成物および方法の1つ以上と組み合わせることができる。

図1は、アデノシン核酸塩基エディターのモデルを示し、バイスタンダー変異誘発のための構造的基礎を部分的に提供する。図2は、塩基編集のための標的DNAの位置の予測を示すモデルである。図3は、図2における標的DNAの位置に近接するデアミナーゼドメインの位置を示すモデルを示す。図4は、1つ以上のデアミナーゼドメインがCas9に挿入され得る、同定された領域を示す、アデノシン核酸塩基エディターのモデルである。デアミナーゼドメインが一本鎖DNA（マゼンタ）を標的とし得る場所の近くにあるループ（黄色）。関心領域には、A、B、C、D、E、F、GおよびHと記された領域が含まれる。図5は、領域B、C、D、E、およびFにおける残基を示す、図4のモデルの拡大図である。図6は、領域F、G、およびHにおける残基を示す、図4のモデルの拡大図である。図7は、領域A、B、C、D、およびEにおける残基を示す、図4のモデルの拡大図である。図8は、ハイスループットのインビトロ脱アミノ化アッセイを示す。塩基エディターのための基質を含有するオンターゲットプローブを伴う核酸塩基エディターを含む反応を、オフターゲット脱アミノ化を検出するためのプローブを含み塩基エディターの不在下での反応と比較することによって、プローブの目的外アミノ化をオンターゲット脱アミノ化から区別することができる。図9は、オフターゲット脱アミノ化のための蛍光アッセイの結果を示すグラフである。図10は、トランス（in trans）でTadAを伴うABE系に対する、アデノシン塩基エディター（ABE）の比較を示すグラフである。図11は、目的外のオフターゲット塩基編集のための潜在的基質を示す。図12は、シス（in cis）およびトランス（in trans）でのデアミナーゼの活性を評価するアッセイを示す。図13は、シス・トランスアッセイにおけるrAPOBEC1の活性を示すグラフである。図14は、シス・トランスアッセイにおけるTadA-TadA7.10の活性を示すグラフである。図15は、塩基エディターの文脈でTadA-TadA7.10についてはより低いトランス活性が観察されたことを示す（トランスABE）。図16は、GFPの発現についての用量応答性の結果を示すグラフである。空ベクターによるpmaxGFPプラスミドのタイトレーションは、GFPの発現レベルの低下をもたらした。図17は、アデノシン核酸塩基エディターABEのシスおよびトランスでの活性についての用量応答性を示すグラフである。図18は、シチジン核酸塩基エディターBE4のシスおよびトランスでの活性の用量応答性を示すグラフである。図19は、低減された目的外脱アミノ化についてのデアミナーゼのスクリーニングの結果を示すグラフである。デアミナーゼppAPOBEC‐2 (10)、mAPOBEC‐2 (8)、mAPOBEC‐3 (12)、およびmfAPOBEC‐4 (22)は、高いin cis／in trans活性を示した。図20A～Qは、分析されたエディターの塩基編集活性を示す。図20Aは、TadAをXTENリンカーによってCas9に融合させたABE7.10の概略図である。図20B～Qは、標的配列GAACACAAAGCATAGACTGC (HEK2)およびGGACAGCTTTTCCTAGACAG (T39)を有するRループの範囲内の標的鎖上のA→G脱アミノ化パーセンテージにおける、例示的な内部融合塩基エディターの塩基編集活性を示す。図20B、ABE7.10の編集活性。図20C、ISLAY008の編集活性。図20D、ISLAY003の編集活性。図20E、ISLAY002の編集活性。図20F、ISLAY007の編集活性。図20G、ISLAY001の編集活性。図20H、ISLAY005の編集活性図20I、ISLAY006の編集活性。図20J、ISLAY004の編集活性。図20K、ISLAY021の編集活性。図20L、ISLAY031の編集活性。図20M、ISLAY020の編集活性。図20N、ISLAY036の編集活性。図20O、ISLAY035の編集活性。図20P、ISLAY028の編集活性。図20Q、ISLAY009の編集活性。図21A～21Bは、例示的な塩基エディターの概略図を示す。図21Aは、例示的な塩基エディターABE7.10および例示的な塩基エディター（IBE 002、IBE 004、IBE 005、IBE 006、IBE 008、IBE 009、およびIBE 020）の概略図を示す。図21Bは、デアミナーゼ挿入の位置を示す、上記塩基エディターの空間的模式図を示す。図22A～Dは、29の異なるゲノム標的において、ABE7.10と比較した例示的な内部融合塩基エディターの塩基編集効率を示す。図22Aは、最適位置でのABE7.10編集に対して正規化した編集効率を示す。図22Bは、ABE7.10と比較され要約されたIBEの最大編集効率を示す。図22Cは、各塩基エディターのピーク編集位置のガウス平滑化表示を示す。図22Dは、29個のテストされた標的からの、正規化された編集のヒートマップを示す。図23は、各部位においてABE7.10に対して正規化された、29の異なる標的でのトランス編集アッセイによって測定された目的外脱アミノ化を示す。図24A～Fは、6つのゲノム遺伝子座：HEK4 (図24 A)、FANCF (図24 B)、HEK-3 (図24 C)、HEK2-YY (図24 D)、EMX1 (図24 E)、HEK2 (図24 F)におけるA塩基エディターのパーセント編集を示す。X軸：核酸塩基位置。1がPAMから最も遠く20がPAM近位である (PAMは21～23の位置) 。Y軸：Illumina配列決定によって測定されたAからGへの編集のパーセンテージ。図25A～F HEK4 (図25A)、FANCF (図25B)、HEK‐3 (図25C)、HEK2‐YY (図25D)、EMX1 (図25E)、HEK2 (図25F)という6つのゲノム遺伝子座におけるC塩基エディターのパーセント編集。X軸：核酸塩基位置。1がPAMから最も遠く20がPAM近位である (PAMは21～23の位置) 。Y軸：Illumina配列決定によって測定されたAからGへの編集のパーセンテージ。

以下に説明するように、本発明は、非標的脱アミノ化が低減された塩基エディター、その塩基エディターを使用する方法、および、（例えばプログラムされたオンターゲット脱アミノ化と比較して）非標的脱アミノ化が低減された塩基エディターを特徴付けるためのアッセイを特徴とする。

［アデノシンデアミナーゼ］
ある実施形態において、本発明の核酸塩基エディターは、アデノシンデアミナーゼドメインを含む。いくつかの実施形態において、本明細書で提供されるアデノシンデアミナーゼは、アデニンを脱アミノ化することができる。いくつかの実施形態において、本明細書で提供されるアデノシンデアミナーゼは、DNAのデオキシアデノシン残基中のアデニンを脱アミノ化することができる。アデノシンデアミナーゼは、任意の適切な生物（例えば大腸菌）に由来し得る。いくつかの実施形態において、アデニンデアミナーゼは、本明細書に提供される変異のいずれかに対応する1以上の変異を含む、天然のアデノシンデアミナーゼである（例えばecTadAにおける変異）。当業者は、例えば配列アラインメントおよび相同的残基の決定により、任意の相同的タンパク質中の対応する残基を同定することができる。従って、当業者は、本明細書中に記載された変異のいずれか（例えば、ecTadAにおいて同定された変異のいずれか）に対応する変異を、任意の天然アデノシンデアミナーゼ（例えばecTadAと相同性を有するもの）において生成することができるであろう。ある実施形態において、アデノシンデアミナーゼは、原核生物由来である。ある実施形態において、アデノシンデアミナーゼは、細菌由来である。ある実施形態において、アデノシンデアミナーゼは、Escherichia coli、Staphylococcus aureus、Salmonella typhi、Shewanella putrefaciens、Haemophilus influenzae、Caulobacter crescentus、またはBacillus subtilis由来である。ある実施形態において、アデノシンデアミナーゼは、E. coli由来である。

1つの実施形態において、本発明の融合タンパク質は、野生型TadAがTadA7.10に連結され、それがCas9ニッカーゼに連結されたものを含む。特定の実施形態では、融合タンパク質は、単一のTadA7.10ドメイン（例えば、モノマーとして提供される）を含む。他の実施形態では、ABE7.10エディターは、ヘテロダイマーを形成することができるTadA7.10とTadA(wt)を含む。関連する配列は次のとおりである。

TadA(wt):

SEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD

TadA7.10:

SEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD

ある態様において、アデノシンデアミナーゼは、本明細書に提供されるアデノシンデアミナーゼのいずれかに記載のアミノ酸配列のいずれかに対して少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含む。本明細書において提供されるアデノシンデアミナーゼは、一つ以上の突然変異（例えば、本明細書に提供される突然変異のいずれか）を含み得ることが理解されるべきである。本開示は、特定のパーセント同一性を有するデアミナーゼドメインが加えて本明細書に記載される突然変異のいずれかまたはその組合せを含むものを提供する。いくつかの実施形態において、アデノシンデアミナーゼは、参照配列または本明細書に提供されるアデノシンデアミナーゼのいずれかと比較して1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、またはそれ以上の変異を有するアミノ酸配列を含む。いくつかの実施形態において、アデノシンデアミナーゼは、当該技術分野において既知であるかまたは本明細書に記載されたアミノ酸配列のいずれかと比較して、少なくとも5個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも25個、少なくとも30個、少なくとも35個、少なくとも40個、少なくとも45個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも110個、少なくとも120個、少なくとも130個、少なくとも140個、少なくとも150個、少なくとも160個、または少なくとも170個の同一の連続するアミノ酸残基を有するアミノ酸配列を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるD108X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるD108G、D108N、D108V、D108A、またはD108Y突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。しかしながら、さらなるデアミナーゼを同様にアラインメントして、本明細書に提供されるように変異させることができる相同的なアミノ酸残基を同定し得ることが理解されるべきである。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA106X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA106V突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるE155X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるE155D、E155G、またはE155V突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるD147X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるD147Y突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

本明細書に提供される突然変異(例えば、TadA参照配列のecTadAアミノ酸配列に基づくもの)のいずれも、黄色ブドウ球菌TadA (saTadA) などの他のアデノシンデアミナーゼ、またはその他のアデノシンデアミナーゼ(例えば、細菌のアデノシンデアミナーゼ)に導入することができることが理解されるべきである。ecTadA中の変異残基にいかに相同的であるかは当業者に明らかであろう。従って、ecTadA中に同定された突然変異のいずれも、相同的アミノ酸残基を有する他のアデノシンデアミナーゼにおいて作製され得る。また、本明細書に提供される突然変異のいずれも、ecTadAまたは別のアデノシンデアミナーゼにおいて、個々にまたは任意の組合せで作製され得ることも理解されるべきである。例えば、アデノシンデアミナーゼは、TadA参照配列におけるD108N、A106V、E155V、および/またはD147Y突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み得る。ある態様において、アデノシンデアミナーゼは、TadA参照配列における以下の突然変異群（変異のグループは「；」で分けられる）、または別のアデノシンデアミナーゼにおける対応する突然変異を含む：D108NおよびA106V；D108NおよびE155V；D108NおよびD147Y；A106VおよびE155V；A106VおよびD147Y；E155VおよびD147Y；D108N、A106V、およびE55V；D108N、A106V、およびD147Y；D108N、E55V、およびD147Y；A106V、E55V、およびD147Y；ならびにD108N、A106V、E55V、およびD147Y；ただし、ここで提供される対応する突然変異の任意の組合せがアデノシンデアミナーゼ（例えばecTadA）において作製され得ることを理解されたい。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X、および/またはK157X突然変異のうちの1以上、または他のアデノシンデアミナーゼにおける1以上の対応する突然変異を含み、ここで、Xの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列に関連するH8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、またはA56S、E59G、E85K、またはE85G、M94L、1951、V102A、F104L、A106V、R107C、またはR107H、またはR107P、D108G、またはD108N、またはD108A、D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D、および/またはK157R突然変異のうちの1つ以上、または他のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、D108X、および/またはN127X突然変異のうちの1つ以上、または別のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含み、Xは任意のアミノ酸の存在を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、および/またはN127S突然変異の1以上、または別のアデノシンデアミナーゼにおける1以上の対応する突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X、および/またはT166X突然変異の1以上、または別のアデノシンデアミナーゼにおける1以上の対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154HもしくはQ154R、E155GもしくはE155VもしくはE155D、K161Q、Q163H、および/もしくはT166P突然変異の1つ以上、または他のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、D108X、N127X、D147X、R152X、およびQ154Xからなる群より選択される1つ、2つ、3つ、4つ、5つ、または6つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、M61X、M70X、D108X、N127X、Q154X、E155X、およびQ163Xからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、7つ、または8つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、D108X、N127X、E155X、およびT166Xからなる群より選択される1つ、2つ、3つ、4つ、または5つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、H8X、A106X、D108X、別のアデノシンデアミナーゼにおける突然変異（複数可）からなる群から選択される1、2、3、4、5、または6個の突然変異を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、R126X、L68X、D108X、N127X、D147X、およびE155Xからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、7つ、または8つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8X、D108X、A109X、N127X、およびE155Xからなる群より選択される1つ、2つ、3つ、4つ、または5つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、N127S、D147Y、R152C、およびQ154Hからなる群より選択される1つ、2つ、3つ、4つ、5つ、または6つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、M61I、M70V、D108N、N127S、Q154R、E155GおよびQ163Hからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、7つまたは8つの突然変異、または他のアデノシンデアミナーゼにおける対応する突然変異を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、N127S、E155V、およびT166Pからなる群より選択される1つ、2つ、3つ、4つ、または5つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、A106T、D108N、N127S、E155D、およびK161Qからなる群から選択される1つ、2つ、3つ、4つ、5つ、または6つの突然変異、または他のアデノシンデアミナーゼにおける対応する突然変異を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、R126W、L68Q、D108N、N127S、D147Y、およびE155Vからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、7つ、または8つの突然変異、または他のアデノシンデアミナーゼにおける対応する突然変異を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、A109T、N127S、およびE155Gからなる群より選択される1つ、2つ、3つ、4つ、または5つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含む。

ある態様において、アデノシンデアミナーゼは、別のアデノシンデアミナーゼにおいて一つ以上の対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列においてD108N、D108G、もしくはD108V突然変異、または別のアデノシンデアミナーゼにおいて対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA106VおよびD108N突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR107CおよびD108N突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、N127S、D147Y、およびQ154H突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、R24W、D108N、N127S、D147Y、およびE155V突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるD108N、D147Y、およびE155V突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH8Y、D108N、およびS127S突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA106V、D108N、D147YおよびE155V突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、tadA参照配列におけるS2X、H8X、I49X、L84X、H123X、N127X、I156Xおよび/またはK160X突然変異の1つ以上、または別のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含み、Xの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるS2A、H8Y、I49F、L84F、H123Y、N127S、I156Fおよび/またはK160S突然変異のうちの1つ以上、または別のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、L84X突然変異アデノシンデアミナーゼを含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるL84F突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH123X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるH123Y突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるI157X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるI157F突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列において、L84X、A106X、D108X、H123X、D147X、E155X、およびI156Xからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、または7つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、tadA参照配列においてS2X、I49X、A106X、D108X、D147X、およびE155Xからなる群より選択される1つ、2つ、3つ、4つ、5つ、または6つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列においてH8X、A106X、D108X、N127X、およびK160Xからなる群より選択される1、2、3、4、または5個の突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異（複数可）を含み、ここでXは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸の存在を示す。

ある態様において、アデノシンデアミナーゼは、TadA参照配列において、L84F、A106V、D108N、H123Y、D147Y、E155V、およびI156Fからなる群より選択される1つ、2つ、3つ、4つ、5つ、6つ、または7つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。ある態様において、アデノシンデアミナーゼは、TadA参照配列において、S2A、I49F、A106V、D108N、D147Y、およびE155Vからなる群より選択される1つ、2つ、3つ、4つ、5つ、または6つの突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列においてH8Y、A106T、D108N、N127S、およびK160Sからなる群より選択される1つ、2つ、3つ、4つ、または5つの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異もしくは突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列においてE 25 X、R 26 X、R 107 X、A 142 X、および/またはA 143 X突然変異のうちの1以上、または別のアデノシンデアミナーゼにおける1以上の対応する突然変異を含み、Xの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA基準配列においてE25M, E25D, E25A, E25R, E25V, E25S, E25Y, R26G, R26N, R26Q, R26C, R26L, R26K, R107P, R07K, R107A, R107N, R107W, R107H, R107S, A142N, A142D, A142G, A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q および/または A143R突然変異のうちの1以上、または他のアデノシンデアミナーゼにおける1以上の対応する突然変異を含む。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列に対応する本明細書に記載の突然変異のうちの1つ以上、または別のアデノシンデアミナーゼにおける対応する突然変異のうちの1つ以上を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるE25X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるE25M、E25D、E25A、E25R、E25V、E25S、またはE25Y突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR26X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるR26G、R26N、R26Q、R26C、R26L、またはR26K突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR107X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR107P、R07K、R107A、R107N、R107W、R107H、またはR107S突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA142X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA142N、A142D、A142G突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA143X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Qおよび/またはA143Rの突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X、および/またはK161X突然変異の1つ以上、または別のアデノシンデアミナーゼにおける1つ以上の対応する突然変異を含み、ここでXの存在は、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外のいずれかのアミノ酸を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、および/またはK161T突然変異の1以上、または別のアデノシンデアミナーゼにおける1以上の対応する突然変異を含む。

いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH36X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。いくつかの実施形態において、アデノシンデアミナーゼは、TadA参照配列におけるH36L突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるN37X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるN37TまたはN37S突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるP48X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるP48TまたはP48L突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR51X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR51HまたはR51L突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるS146X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるS146RまたはS146C突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるK157X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるK157N突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるP48X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるP48S、P48T、またはP48A突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA142X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、Xは野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるA142N突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるW23X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるW23RまたはW23L突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR152X突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含み、ここでXは、野生型アデノシンデアミナーゼにおける対応するアミノ酸以外の任意のアミノ酸を示す。ある態様において、アデノシンデアミナーゼは、TadA参照配列におけるR152PまたはR52H突然変異、または別のアデノシンデアミナーゼにおける対応する突然変異を含む。

一実施形態では、アデノシンデアミナーゼは、突然変異H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、およびK157Nを含むことができる。一部の実施形態では、アデノシンデアミナーゼは、tadA基準配列に関連する突然変異の以下の組合せを含み、ここで、組合せの各突然変異は「_」によって分離され、突然変異の各組合せは括弧内にある：
(A106V_D108N), (R107C_D108N),
(H8Y_D108N_S 127S_D 147Y_Q154H), (H8Y_R24W_D108N_N127S_D147Y_E155V), (D108N_D147Y_E155V), (H8Y_D108N_S 127S), (H8Y_D108N_N127S_D147Y_Q154H), (A106V D108N D147Y E155V) (D108Q D147Y E155V) (D108M_D147Y_E155V), (D108L_D147Y_E155V), (D108K_D147Y_E155V), (D108I_D147Y_E155V),
(D108F_D147Y_E155V), (A106V_D108N_D147Y), (A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V), (E59A cat dead_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (D103A_D014N),
(G22P_D 103 A_D 104N), (G22P_D 103 A_D 104N_S 138 A) , (D 103 A_D 104N_S 138A),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I15
6F), (E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I15 6F), (R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I15 6F), (R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I15 6F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S 146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
57N),
(H36L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S 146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S 146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S 146C_D147Y_E155V_I156F
_K157N), (N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F_K157N_K160E), (R74Q
L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S 146C_A142N_D147Y_E155V_I156F (H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S 146C_D147Y_E155V_ I156F _K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S 146C_D147Y_E155V_I156F _K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_A142N_D147Y_E155V_I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_E155V_I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146R_D147Y_E155V_I156F _K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_R152H_E155V_I156F _K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_R152P_E155V_I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_R152P_E155V _I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S 146C_D147Y_E155 V_I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S 146C_D147Y_R152P _E155V_I156F _K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146R_D147Y_E155V_I156F _K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S 146C_D147Y_R152P_E155V _I156F _K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S 146C_D147Y_R152P_E155 V_I156F _K157N).

［シチジンデアミナーゼ］
1つの実施形態において、本発明の融合タンパク質は、シチジンデアミナーゼを含む。ある態様において、本明細書において提供されるシチジンデアミナーゼは、シトシンまたは5-メチルシトシンを脱アミノ化してウラシルまたはチミンにすることができる。いくつかの実施形態において、本明細書に提供されるシトシンデアミナーゼは、DNA中のシトシンを脱アミノ化することができる。シチジンデアミナーゼは、任意の適切な生物に由来することができる。いくつかの実施形態において、シチジンデアミナーゼは、天然に存在するシチジンデアミナーゼが本明細書に提供される突然変異のいずれかに対応する1つ以上の突然変異を含むところのものである。当業者は、例えば、配列アラインメントおよび相同的残基の決定によって、任意の相同的タンパク質中の対応する残基を同定することができる。従って、当業者は、本明細書に記載された突然変異のいずれかに対応する突然変異を、任意の天然に存在するシチジンデアミナーゼにおいて生じさせることができる。ある態様において、シチジンデアミナーゼは、原核生物由来である。ある態様において、シチジンデアミナーゼは、細菌由来である。ある態様において、シチジンデアミナーゼは、哺乳動物（例えばヒト）由来である。

いくつかの実施形態において、シチジンデアミナーゼは、本明細書に記載されるシチジンデアミナーゼアミノ酸配列のいずれかに対して少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含む。本明細書において提供されるシチジンデアミナーゼは、一つ以上の突然変異(例えば、本明細書に提供される突然変異のいずれか)を含み得ることを理解されたい。本開示は、特定のパーセント同一性を有する任意のデアミナーゼドメインに、本明細書に記載される突然変異またはその組合せのいずれかが加えられたものを提供する。いくつかの実施形態において、シチジンデアミナーゼは、参照配列または本明細書に提供されるいずれかのシチジンデアミナーゼと比較して、1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50個またはそれ以上の変異を有するアミノ酸配列を含む。いくつかの実施形態において、シチジンデアミナーゼは、当技術分野において既知であるかまたは本明細書に記載されたアミノ酸配列のいずれかと比較して、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも110、少なくとも120、少なくとも130、少なくとも140、少なくとも150、少なくとも160、または少なくとも170個の同一の連続するアミノ酸残基を有するアミノ酸配列を含む。

本発明の融合タンパク質は、核酸編集ドメインを含む。ある態様において、核酸編集ドメインは、CからUへの塩基変化を触媒することができる。ある態様において、核酸編集ドメインは、デアミナーゼドメインである。ある態様において、デアミナーゼは、シチジンデアミナーゼまたはアデノシンデアミナーゼである。ある態様において、デアミナーゼは、アポリポタンパク質B mRNA編集複合体 (APOBEC) ファミリーデアミナーゼである。ある態様において、デアミナーゼは、APOBEClデアミナーゼである。ある態様において、デアミナーゼは、APOBEC 2デアミナーゼである。ある態様において、デアミナーゼは、APOBEC3デアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Aデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Bデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Cデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Dデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Eデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Fデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Gデアミナーゼである。ある態様において、デアミナーゼは、APOBEC3Hデアミナーゼである。ある態様において、デアミナーゼは、APOBEC4デアミナーゼである。ある態様において、デアミナーゼは、活性化誘導デアミナーゼ (AID) である。ある態様において、デアミナーゼは、脊椎動物デアミナーゼである。ある態様において、デアミナーゼは、無脊椎動物デアミナーゼである。ある態様において、デアミナーゼは、ヒト、チンパンジー、ゴリラ、サル、ウシ、イヌ、ラット、またはマウスデアミナーゼである。ある態様において、デアミナーゼは、ヒトデアミナーゼである。ある態様において、デアミナーゼは、ラットデアミナーゼ、例えば、rAPOBEC1である。ある態様において、デアミナーゼは、Petromyzon marinusシチジンデアミナーゼ1 (pmCDAl) である。ある態様において、デアミナーゼは、ヒトAPOBEC3Gである。ある態様において、デアミナーゼは、ヒトAPOBEC3Gの断片である。ある態様において、デアミナーゼは、D316R D317R突然変異を含むヒトAPOBEC3Gバリアントである。ある態様において、デアミナーゼは、ヒトAPOBEC3Gの断片であり、D316R D317R突然変異に対応する突然変異を含む。ある態様において、核酸編集ドメインは、本明細書に記載される任意のデアミナーゼのデアミナーゼドメインに対して少なくとも80%、少なくとも85%、少なくとも90%、少なくとも92%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%) 、または少なくとも99.5%の同一性である。

特定の実施形態では、本明細書で提供される融合タンパク質は、融合タンパク質の塩基編集活性を改善する1つ以上の特徴を含む。例えば、本明細書に提供される融合タンパク質は、ヌクレアーゼ活性が低下したCas9ドメインを含み得る。いくつかの実施形態において、本明細書で提供される融合タンパク質は、ヌクレアーゼ活性を有さないCas9ドメイン (dCas9) 、またはCas9ニッカーゼ (nCas9) と呼ばれる、二本鎖DNA分子の1鎖を切断するCas9ドメインを有し得る。

［核酸塩基エディターのCas9ドメイン］
いくつかの態様において、核酸プログラミング可能DNA結合タンパク質 (napDNAbp) は、Cas9ドメインである。非限定的な例示的Cas9ドメインが本明細書で提供される。Cas9ドメインは、ヌクレアーゼ活性Cas9ドメイン、ヌクレアーゼ不活性Cas9ドメイン、またはCas9ニッカーゼであり得る。ある態様において、Cas9ドメインは、ヌクレアーゼ活性ドメインである。例えば、Cas9ドメインは、二本鎖核酸の両方の鎖（例えば二本鎖DNA分子の両方の鎖）を切断するCas9ドメインであり得る。いくつかの実施形態において、Cas9ドメインは、本明細書に記載のアミノ酸配列のいずれか1つを含む。いくつかの実施形態において、Cas9ドメインは、本明細書に記載されたアミノ酸配列のいずれか１つに対して少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含む。いくつかの実施形態において、Cas9ドメインは、本明細書に記載されるアミノ酸配列のいずれか１つと比較して1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、またはそれ以上の突然変異を有するアミノ酸配列を含む。いくつかの実施形態において、Cas9ドメインは、本明細書に記載されたアミノ酸配列のいずれか１つと比較して、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、または少なくとも1200個の同一の一続きのアミノ酸残基を有するアミノ酸配列を含む。

ある態様において、Cas9ドメインは、ヌクレアーゼ不活性Cas9ドメイン(dCas9) である。例えば、dCas9ドメインは、二本鎖核酸分子のいずれの鎖も切断することなく、二本鎖核酸分子に結合し得る（例えばgRNA分子を介して）。いくつかの実施形態において、ヌクレアーゼ不活性dCas9ドメインは、本明細書中に記載されたアミノ酸配列のD10X突然変異およびH840X突然変異、または本明細書中に提供されたアミノ酸配列のいずれかにおける対応する突然変異を含み、Xは任意のアミノ酸変化である。いくつかの実施形態において、ヌクレアーゼ不活性dCas9ドメインは、本明細書に記載のアミノ酸配列のD10A突然変異およびH840A突然変異、または本明細書に記載のアミノ酸配列のいずれかにおける対応する突然変異を含む。一例として、ヌクレアーゼ不活性Cas9ドメインは、クローニングベクターpPlatTET-gRNA2（アクセス番号BAV54124）に記載の以下のアミノ酸配列を含む：
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
（例えばQi et al., “Repurposing CRISPR as an RNA-guided platform for sequence-specific control of gene expression.” Cell. 2013; 152(5):1173-83参照。その全内容が参照により本明細書に組み入れられる。）。

さらなる適切なヌクレアーゼ不活性dCas9ドメインは、本開示および当該分野における知識に基づいて当業者に明らかとなり、本開示の範囲内である。このようなさらなる例示的な適切なヌクレアーゼ不活性Cas9ドメインには、限定されるものではないが、D10A/H840A、D10A/D839A/H840A、およびD10A/D839A/H840A/N863A突然変異体ドメインが含まれる（例えば、Prashant et al., CAS9 transcriptional activators for target specificity screening and paired nickases for cooperative genome engineering. Nature Biotechnology. 2013; 31(9): 833-838を参照されたい（その全内容は参照により本明細書に組み込まれる））。いくつかの実施形態において、dCas9ドメインは、本明細書に提供されるdCas9ドメインのいずれかに対して少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含む。いくつかの実施形態において、Cas9ドメインは、本明細書に記載されるアミノ酸配列のいずれかと比較して1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれ以上の突然変異を有するアミノ酸配列を含む。いくつかの実施形態において、Cas9ドメインは、本明細書に記載されたアミノ酸配列のいずれかと比較して、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも1100、または少なくとも1200の同一の連続したアミノ酸残基を有するアミノ酸配列を含む。

ある態様において、Cas9ドメインは、Cas9ニッカーゼである。Cas9ニッカーゼは、二本鎖核酸分子(例えば二本鎖DNA分子)の一方の鎖のみを切断することができるCas9タンパク質であり得る。いくつかの実施形態において、Cas9ニッカーゼは、二本鎖核酸分子の標的鎖を切断し、これは、Cas9ニッカーゼが、Cas9に結合しているgRNA（例えばsgRNA）と塩基対を形成している（相補的である）鎖を切断することを意味する。ある態様において、Cas9ニッカーゼは、D10A突然変異を含み、位置840にヒスチジンを有する。いくつかの実施形態において、Cas9ニッカーゼは、二本鎖核酸分子の非標的、非塩基編集鎖を切断し、これは、Cas9ニッカーゼが、Cas9に結合しているgRNA（例えばsgRNA）と塩基対を形成していない鎖を切断することを意味する。ある態様において、Cas9ニッカーゼは、H840A突然変異を含み位置10にアスパラギン酸残基を有するか、または対応する突然変異。いくつかの実施形態において、Cas9ニッカーゼは、本明細書に提供されるCas9ニッカーゼのいずれかと少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含む。さらなる適切なCas9ニッカーゼは、本開示および当該分野における知識に基づいて当業者に明らかであり、本開示の範囲内である。

［PAM排他性が低減されたCas9ドメイン］
典型的には、S. pyogenes由来のCas9 (spCas9) などのCas9タンパク質は、特定の核酸領域に結合するために標準的なNGG PAM配列を必要とし、ここで「NGG」の「N」はアデノシン (A) 、チミジン (T) またはシトシン (C) であり、Gはグアノシンである。これは、ゲノム内の所望の塩基を編集する能力を制限し得る。いくつかの実施形態において、本明細書に提供される塩基編集融合タンパク質は、正確な位置、例えばPAMの上流にある標的塩基を含む領域に配置することが必要になり得る。例えばKomor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016)参照（これらの内容全体は、参照により本明細書に組み込まれる）。従って、いくつかの実施形態において、本明細書で提供される融合タンパク質のいずれかは、標準的（例えばNGG）PAM配列を含まないヌクレオチド配列に結合することができるCas9ドメインを含み得る。非標準的PAM配列に結合するCas9ドメインは本技術分野において記述されており当業者には明らかであろう。例えば、非標準PAM配列に結合するCas9ドメインは、Kleinstiver, B. P., et al., “Engineered CRISPR-Cas9 nucleases with altered PAM specificities” Nature 523, 481-485 (2015); およびKleinstiver, B. P., et al., “Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition” Nature Biotechnology 33, 1293-1298 (2015)に記述されており、それぞれの全内容を参照によりここに組み込む。下記表１に、いくつかのPAMバリアントを記載する。

表１：Cas9タンパク質および対応するPAM配列

いくつかの実施形態において、Cas9ドメインは、Staphylococcus aureus由来のCas9ドメイン(SaCas9)である。ある態様において、SaCas9ドメインは、ヌクレアーゼ活性SaCas9、ヌクレアーゼ不活性SaCas9 (SaCas9d) 、またはSaCas9ニッカーゼ (SaCas9n) である。いくつかの実施形態において、SaCas9は、N579A突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。

いくつかの実施形態において、SaCas9ドメイン、SaCas9dドメイン、またはSaCas9nドメインは、非標準PAMを有する核酸配列に結合することができ、いくつかの実施形態において、SaCas9ドメイン、SaCas9dドメイン、またはSaCas9nドメインは、NNGRRT PAM配列を有する核酸配列に結合することができる。いくつかの実施形態において、SaCas9ドメインは、E781X、N967X、およびR1014X突然変異の1以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SaCas9ドメインは、E781K、N967K、およびR1014H突然変異のうちの1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける1つ以上の対応する突然変異を含む。いくつかの実施形態において、SaCas9ドメインは、E781K、N967K、またはR1014H突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。

例示的なSaCas9配列
KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
下線を引いて太字にした上記残基N579は、変異されて（例えばA579に）SaCas9ニッカーゼを生じることができる。

例示的なSaCas9n配列
KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
上記残基A579は、N579から変異されてSaCas9ニッカーゼを生じることができ、下線、太字で示されている。

例示的なSaKKH Cas9
KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG.
上記残基A579は、N579から変異されてSaCas9ニッカーゼを生じることができ、下線、太字で示されている。上記残基K781、K967、およびH1014は、E781、N967、およびR1014から変異されてSaKKH Cas9を生じることができ、下線、斜体で示されている。

ある態様において、Cas9ドメインは、Streptococcus pyogenes由来のCas9ドメインである (SpCas9)。ある態様において、SpCas9ドメインは、ヌクレアーゼ活性SpCas9、ヌクレアーゼ不活性SpCas9 (SpCas9d) 、またはSpCas9ニッカーゼ (SpCas9n) である。いくつかの実施形態において、SpCas9は、D9X突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXはD以外の任意のアミノ酸である。いくつかの実施形態において、SpCas9は、D9A突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。ある態様において、SpCas9ドメイン、SpCas9dドメインまたはSpCas9nドメインは、非標準PAMを有する核酸配列に結合することができる。ある態様において、SpCas9ドメイン、SpCas9dドメインまたはSpCas9nドメインは、NGG、NGAまたはNGCG PAM配列を有する核酸配列に結合することができる。いくつかの実施形態において、SpCas9ドメインは、D1134X、R1334X、およびT1336X突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1134E、R1334Q、およびT1336R突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1134E、R1334Q、およびT1336R突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1134X、R1334X、およびT1336X突然変異のうちの1つ以上、または本明細書において提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1134V、R1334Q、およびT1336R突然変異の1以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1134V、R1334Q、およびT1336R突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1134X、G1217X、R1334X、およびT1336X突然変異の1以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1134V、G1217R、R1334Q、およびT1336R突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1134V、G1217R、R1334Q、およびT1336R突然変異、または本明細書において提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。

いくつかの実施形態において、本明細書に提供される融合タンパク質のいずれかのCas9ドメインは、本明細書に記載されるCas9ポリペプチドに対して少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含む。いくつかの実施形態において、本明細書に提供される融合タンパク質のいずれかのCas9ドメインは、本明細書に記載される任意のCas9ポリペプチドのアミノ酸配列を含む。いくつかの実施形態において、本明細書に提供される融合タンパク質のいずれかのCas9ドメインは、本明細書に記載される任意のCas9ポリペプチドのアミノ酸配列からなる。

例示的SpCas9
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

例示的SpCas9n
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

例示的SpEQR Cas9
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
上記の残基E1134、Q1334、およびR1336は、D1134、R1334、およびT1336から変異されてSpEQR Cas9を生じさせることができ、下線、太字で示されている。

例示的SpVQR Cas9
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
上記の残基V1134、Q1334、およびR1336は、D1134、R1334、およびT1336から変異されてSpVQR Cas9を生じることができ、下線、太字で示されている。

例示的SpVRER Cas9
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
上記の残基V1134、R1217、Q1334、およびR1336は、D1134、G1217、R1334、およびT1336から変異されてSpVRER Cas9を生じることができ、下線、太字で示されている。

Cas9ヌクレアーゼはRuvCとHNHという二つの機能性エンドヌクレアーゼドメインをもっている。Cas9は標的DNAに結合するとコンホメーション変化を起こし、これがヌクレアーゼドメインを位置付け、標的DNAの反対側の鎖を切断させる。Cas9を介したDNA切断の最終結果は、標的DNA内の二本鎖切断 (DSB) である(PAM配列の約3～4ヌクレオチド上流)。生じたDSBは、次の二つの一般的修復経路のうちの一つにより修復される: (1) 効率的だが誤りがちな非相同末端結合 (NHEJ) 経路；または (2) 効率は低いが忠実度の高い相同性誘導修復 (HDR) 経路。

非相同末端結合 (NHEJ) および/または相同性指向修復 (HDR) の「効率」は、任意の簡便な方法によって計算することができる。例えば、ある場合には、効率は、成功したHDRのパーセンテージで表すことができる。例えば、検査用ヌクレアーゼ分析を用いて切断産物を生成し、基質に対する産物の比を用いてパーセンテージを計算することができる。たとえば、HDRが成功した結果として新たに組み込まれた制限配列を含むDNAを直接切断する測量用ヌクレアーゼ酵素を使用することができる。切断される基質が多いほどHDRの割合が高かった(HDRの効率がより高かった)ことを示す。例示的な例として、HDRの割合 (パーセンテージ) は、以下の式を用いて計算することができる[(切断産物)/(基質+切断産物)] （例えば、 (b+c) / (a+b+c) ここで、「a」はDNA基質のバンド強度であり、「b」および「c」は切断生成物である。)。

場合によっては、効率はNHEJの成功率で表すことができる。例えば、T7エンドヌクレアーゼIアッセイを用いて切断産物を生成し、基質に対する産物の比を用いてNHEJのパーセンテージを計算することができる。T7エンドヌクレアーゼIは、野生型および突然変異体DNA鎖(NHEJは最初の切断部位に小さなランダムな挿入や欠失 (インデル) を生じる)のハイブリダイゼーションから生じるミスマッチのヘテロ二本鎖DNAを切断する。切断が多いほどNHEJの割合が高いこと(NHEJの効率が高いこと)を示す。例示的な例として、NHEJの割合 (パーセンテージ) は、式(1-(1-(b+c)/(a+b+c))^1/2) ×100を用いて計算することができ、ここで、「a」はDNA基質のバンド強度であり、「b」および「c」は切断生成物である（Ran et. al., 2013 Sep. 12; 154(6):1380-9; および Ran et al., Nat Protoc. 2013 Nov.; 8(11): 2281-2308）。

NHEJ修復経路は最も活性な修復機構であり、DSB部位での小ヌクレオチド挿入または欠失 (インデル) を頻繁に引き起こす。NHEJ媒介DSB修復のランダム性は、Cas9およびgRNAまたはガイドポリヌクレオチドを発現する細胞集団が多様な突然変異のアレイをもたらし得るので、重要な実際的意味を有する。ほとんどの場合、NHEJは標的DNAに小さなインデルを生じさせ、その結果、標的遺伝子のオープンリーディングフレーム (ORF) 内に未熟な終止コドンをもたらすアミノ酸欠失、挿入、またはフレームシフト突然変異が生じる。理想的な最終結果は、標的遺伝子内の機能喪失型変異である。

NHEJ媒介DSB修復はしばしば遺伝子のオープンリーディングフレームを破壊するが、相同性指向修復 (HDR) は単一ヌクレオチド変化からフルオロフォアまたはタグの付加のような大きな挿入までの範囲の特異的ヌクレオチド変化を生成するために使用できる。

HDRを遺伝子編集に利用するために、所望の配列を含むDNA修復テンプレートを、gRNAおよびCas9またはCas9ニッカーゼと共に目的の細胞型に送達することができる。修復テンプレートは、所望の編集ならびにその標的のすぐ上流および下流(左右相同アームと呼ばれる)にさらなる相同配列を含むことができる。各相同アームの長さは導入される変化の大きさに依存し得、より大きな挿入はより長い相同アームを必要とする。修復鋳型は、一本鎖オリゴヌクレオチド、二本鎖オリゴヌクレオチド、または二本鎖DNAプラスミドであり得る。HDRの効率は、Cas9、gRNAおよび外因性修復テンプレートを発現する細胞においても、一般的に低い(10%未満の修正アリル)。HDRは細胞周期のS期とG2期の間に起こるので、細胞を同調させることによってHDRの効率を高めることができる。NHEJに関与する遺伝子を化学的または遺伝的に阻害することもHDR頻度を増加させ得る。

いくつかの実施態様において、Cas9は、修飾Cas9である。所与のgRNA標的配列は、ゲノム全体にわたり、部分的な相同性が存在するさらなる部位を有し得る。これらの部位はオフターゲットと呼ばれ、gRNAを設計する際に考慮する必要があるが、gRNAの設計を最適化することに加えて、Cas9を修飾することによってCRISPRの特異性を高めることもできる。Cas9は2つのヌクレアーゼドメイン、RuvCおよびHNHの組合せ活性を介して二本鎖切断 (DSB) を生成する。SpCas9のD10A変異体であるCas9ニッカーゼは1つのヌクレアーゼドメインを保持し、DSBではなくDNAニックを生成する。特異的遺伝子編集のためのHDR媒介遺伝子編集にニッカーゼを組み合わせることもできる。

ある場合には、Cas9はバリアントCas9タンパク質である。バリアントCas9ポリペプチドは、野生型Cas9タンパク質のアミノ酸配列と比較して、一アミノ酸単位で異なる(例えば、欠失、挿入、置換、融合を有する)アミノ酸配列を有する。いくつかの例において、バリアントCas9ポリペプチドは、Cas9ポリペプチドのヌクレアーゼ活性を低下させるアミノ酸変化(例えば欠失、挿入、または置換)を有する。例えば、いくつかの例において、バリアントCas9ポリペプチドは、対応する野生型Cas9タンパク質のヌクレアーゼ活性の50%未満、40%未満、30%未満、20%未満、10%未満、5%未満、または1%未満を有する。ある場合には、バリアントCas9タンパク質は実質的なヌクレアーゼ活性をもたない。対象Cas9タンパク質が、実質的なヌクレアーゼ活性を有さないバリアントCas9タンパク質である場合、それは「dCas9」と称され得る。

ある場合には、バリアントCas9タンパク質はヌクレアーゼ活性を低下させる。例えば、バリアントCas9タンパク質は、野生型Cas9タンパク質（例えば野生型Cas9タンパク質）のエンドヌクレアーゼ活性の約20%未満、約15%未満、約10%未満、約5%未満、約1%未満、または約0.1%未満を示す。

ある場合には、バリアントCas9タンパク質は、ガイド標的配列の相補鎖を切断することができるが、二本鎖ガイド標的配列の非相補鎖を切断する能力が低下している。例えば、バリアントCas9タンパク質は、RuvCドメインの機能を低下させる突然変異(アミノ酸置換)を有することができる。非限定的な例として、いくつかの実施形態において、バリアントCas9タンパク質は、D10A (アミノ酸位置10におけるアスパラギン酸からアラニン)を有し、したがって、二本鎖ガイド標的配列の相補鎖を切断することができるが、二本鎖ガイド標的配列の非相補鎖を切断する能力が低下している(したがって、このバリアントCas9タンパク質が二本鎖標的核酸を切断するとき、二本鎖切断 (DSB) の代わりに一本鎖切断 (SSB) を生じる) (例えばJinek et al., Science. 2012 Aug. 17; 337(6096):816-21参照)。

ある場合には、バリアントCas9タンパク質は、二本鎖ガイド標的配列の非相補鎖を切断することができるが、ガイド標的配列の相補鎖を切断する能力が低下している。例えば、バリアントCas9タンパク質は、HNHドメインの機能を低下させる変異(アミノ酸置換)を有することができる(RuvC/HNH/RuvCドメインモチーフ)。非限定的な例として、いくつかの実施形態において、バリアントCas9タンパク質は、H840A (アミノ酸位置840におけるヒスチジンからアラニン)突然変異を有し、したがって、ガイド標的配列の非相補的ストランドを切断することができるが、ガイド標的配列の相補的ストランドを切断する能力が低下している(したがって、このバリアントCas9タンパク質が二本鎖ガイド標的配列を切断すると、DSBの代わりにSSBが生じる)。このようなCas9タンパク質は、ガイド標的配列(例えば一本鎖ガイド標的配列)を切断する能力が低下しているが、ガイド標的配列(例えば一本鎖ガイド標的配列)に結合する能力を保持している。

ある場合には、バリアントCas9タンパク質は、二本鎖標的DNAの相補鎖および非相補鎖の両方を切断する能力が低下している。非限定的な例として、ある場合には、バリアントCas9タンパク質は、D10AおよびH840A突然変異の両方を有し、その結果、ポリペプチドは、二本鎖標的DNAの相補鎖および非相補鎖の両方を切断する能力が低下している。このようなCas9タンパク質は、標的DNA (例えば一本鎖標的DNA)を切断する能力が低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力は保持している。

別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、W476AおよびW1126A突然変異を有し、その結果、ポリペプチドは、標的DNA (例えば一本鎖標的DNA)を切断する能力が低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力は保持している。

別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、P475A、W476A、N477A、D1125A、W1126A、およびD1127A突然変異を有し、その結果、ポリペプチドは、標的DNAを切断する能力が低下している。そのようなCas9タンパク質は、標的DNAを切断する能力を低下しているが(例えば一本鎖標的DNA)、標的DNA (例えば一本鎖標的DNA)に結合する能力を保持している。

別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、H840A、W476A、およびW1126A突然変異を有し、その結果、ポリペプチドは、標的DNA (例えば一本鎖標的DNA)を切断する能力が低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力は保持している。別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、H840A、D10A、W476A、およびW1126A突然変異を有し、その結果、ポリペプチドは、標的DNAを切断する能力が低下している。このようなCas9タンパク質は、標的DNA (例えば一本鎖標的DNA)を切断する能力が低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力は保持している。いくつかの実施形態において、バリアントCas9は、Cas9 HNHドメインの位置840における触媒的His残基が回復されている(A840H)。

別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、H840A、P475A、W476A、N477A、D1125A、W1126A、およびD1127A突然変異を有し、その結果、ポリペプチドは、標的DNA (例えば一本鎖標的DNA)を切断する能力を低下させるが、標的DNA (例えば一本鎖標的DNA)に結合する能力を保持する。別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、およびD1127A突然変異を有し、その結果、ポリペプチドは、標的DNAを切断する能力が低下している。そのようなCas9タンパク質は、標的DNA (例えば一本鎖標的DNA)を切断する能力を低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力を保持している。バリアントCas9タンパク質がW476AおよびW1126A変異を有する場合、またはバリアントCas9タンパク質がP475A、W476A、N477A、D1125A、W1126A、およびD1127A変異を有する場合、バリアントCas9タンパク質はPAM配列に効率的に結合しない。したがって、このような場合には、このようなバリアントCas9タンパク質を結合の方法に用いると、この方法はPAM配列を必要としない。換言すれば、ある場合には、このようなバリアントCas9タンパク質を結合の方法に用いる場合、この方法はガイドRNAを含み得るが、この方法は、PAM配列の非存在下で行うことができる(したがって、結合の特異性はガイドRNAの標的セグメントによってもたらされる)。上記の効果を達成するために、他の残基を変異させ得る(すなわち一方または他方のヌクレアーゼ部分を不活性化する)。非限定的な例として、残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、および/またはA987を変更(すなわち置換)することができる。また、アラニン置換以外の変異も好適である。

ある態様において、低減された触媒活性を有するバリアントCas9タンパク質（例えばCas9タンパク質がD10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、および/またはA987突然変異、例えばD10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A、および/またはD986Aを有する場合）は、それがガイドRNAと相互作用する能力を保持する限り、部位特異的様式で標的DNAに結合することができる（ガイドRNAによって標的DNA配列に誘導されるからである）。

いくつかの実施形態では、バリアントCasタンパク質は、spCas9、spCas9-VRQR、spCas9-VRER、xCas9 (sp)、saCas9, saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK、またはspCas9-LRVSQLであり得る。

S. pyogenes Cas9の代替としては、哺乳動物細胞において切断活性を示すCpf1ファミリー由来のRNA誘導エンドヌクレアーゼが挙げられ得る。PrevotellaおよびFrancisella 1由来のCRISPR (CRISPR/Cpf1) は、CRISPR/Cas9システムに類似したDNA編集技術である。Cpf1はクラスII CRISPR/Cas系のRNA誘導エンドヌクレアーゼである。この獲得免疫機構はPrevotellaやFrancisella細菌に見られる。Cpf1遺伝子はCRISPR遺伝子座に関連しており、ウイルスDNAを見出して切断するためにガイドRNAを用いるエンドヌクレアーゼをコードしている。Cpf1はCas9より小さく単純なエンドヌクレアーゼであり、CRISPR/Cas9系の制限のいくつかを克服する。Cas9ヌクレアーゼとは異なり、Cpf1を介したDNA切断の結果は、短い3'突出を伴う二本鎖切断である。Cpf1の互い違いの切断パターンは、伝統的な制限酵素クローニングに類似した、方向性のある遺伝子導入の可能性を開くことができ、これは遺伝子編集の効率を高め得る。上述したCas9のバリアントおよびオーソログと同様に、Cpf1は、CRISPRが標的とすることができる部位の数を、SpCas9が好むNGG PAM部位を欠くATに富む領域またはATに富むゲノムに拡大することもできる。Cpf1遺伝子座はα/β混合ドメイン、RuvC‐Iとそれに続くらせん領域、RuvC‐IIおよびジンクフィンガー様ドメインを含む。Cpf1タンパク質は、Cas9のRuvCドメインに類似したRuvC様エンドヌクレアーゼドメインを有する。さらに、Cpf1はHNHエンドヌクレアーゼドメインをもたず、Cpf1のN末端はCas9のαヘリックス認識ローブをもたない。Cpf1 CRISPR‐Casドメイン構成は、Cpf1が機能的にユニークであり、クラス2、タイプV CRISPRシステムとして分類されることを示した。Cpf1遺伝子座は、II型系よりもI型およびIII型に類似したCas1、Cas2およびCas4タンパク質をコードしていた。機能的Cpf1はトランス活性化CRISPR RNA (tracrRNA) を必要としない;したがって、CRISPR (crRNA) だけを要する。Cpf1はCas9より小さいだけでなく、より小さいsgRNA分子(Cas9の約半分の数のヌクレオチド)を有するので、これはゲノム編集に有益である。Cas9が標的とするGリッチPAMとは対照的に、Cpf1-crRNA複合体は、モチーフ5'-YTN-3'に隣接するプロトスペーサーの同定によって標的DNAまたはRNAを切断する。PAMの同定後、Cpf1は、4または5ヌクレオチドの突出を有するスティッキーエンド様のDNA二本鎖切断を導入する。

［2つのnapDNAbpとデアミナーゼドメインを含む融合タンパク質］
本開示のいくつかの態様は、ニッカーゼ活性を有するnapDNAbpドメイン（例えばnCasドメイン）、および触媒的に不活性なnapDNAbp（例えばdCasドメイン）、および核酸塩基エディター（例えばアデノシンデアミナーゼドメイン、シチジンデアミナーゼドメイン）を含む融合タンパク質を提供し、ここで、少なくともnapDNAbpドメインはリンカーによって連結される。Casドメインは、本明細書で提供されるCasドメインまたはCasタンパク質（例えばdCas9およびnCas9）のいずれであってもよいことが理解されるべきである。いくつかの実施形態において、Casドメイン、DNA結合タンパク質ドメイン、またはCasタンパク質のいずれかは、Cas9（例えばdCas9およびnCas9）、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、およびCas12iを含むが、これらに限定されない。Cas9とは異なるPAM特異性を有するプログラミング可能なポリヌクレオチド結合タンパク質の一例は、Prevotella and Francisella 1からのClustered Regularly Interspaced Short Palindromic Repeats（Cpf1）である。Cas9と同様に、Cpf1もクラス2のCRISPRエフェクターである。例えば、限定されるものではないが、いくつかの実施形態において、融合タンパク質は、デアミナーゼがアデノシンデアミナーゼまたはシチジンデアミナーゼである以下の構造を含む：
NH₂-[デアミナーゼ]-[nCasドメイン]-[dCasドメイン]-COOH;
NH₂-[デアミナーゼ]-[dCasドメイン]-[nCasドメイン]-COOH;
NH₂-[nCasドメイン]-[dCasドメイン]-[デアミナーゼ]-COOH;
NH₂-[dCasドメイン]-[nCasドメイン]-[デアミナーゼ]-COOH;
NH₂-[nCasドメイン]-[デアミナーゼ]-[dCasドメイン]-COOH;
NH₂-[dCasドメイン]-[デアミナーゼ]-[nCasドメイン]-COOH;

いくつかの実施形態において、上記の一般的な構成において使用される「-」は、任意のリンカーの存在を示す。いくつかの実施形態において、デアミナーゼおよびnapDNAbp（例えばCasドメイン）は、リンカー配列によって連結されるのではなく直接融合される。ある実施形態において、リンカーは、デアミナーゼドメインおよびnapDNAbpの間に存在する。ある実施形態において、デアミナーゼまたは他の核酸塩基エディターは、dCasに直接融合され、リンカーは、dCasとnCas9を繋げる。いくつかの実施形態において、デアミナーゼとnapDNAbpsは、本明細書で提供されるリンカーのいずれかを介して融合される。例えば、いくつかの実施形態において、デアミナーゼおよびnapDNAbpは、「リンカー」と題される下記セクションにおいて提供されるリンカーのいずれかを介して融合される。いくつかの実施形態において、dCasドメインおよびデアミナーゼは、直ちに隣接しており、nCasドメインは、リンカーを介してこれらのドメイン（5'または3'のいずれか）に繋げられる。

［内部挿入を有する融合タンパク質］
本開示は、核酸プログラミング可能な核酸結合タンパク質（例えばnapDNAbp）に融合された異種（heterologous）ポリペプチドを含む融合タンパク質を提供する。異種ポリペプチドは、天然または野生型のnapDNAbpポリペプチド配列中に見出されないポリペプチドであり得る。異種ポリペプチドは、napDNAbpのC末端、もしくはnapDNAbpのN末端でnapDNAbpに融合されるか、またはnapDNAbpの内部位置に挿入され得る。ある実施形態において、異種ポリペプチドは、napDNAbpの内部位置に挿入される。

ある実施形態において、異種ポリペプチドは、デアミナーゼまたはその機能的断片である。例えば、融合タンパク質は、Cas9ポリペプチドのN末端断片およびC末端断片に隣接されたデアミナーゼを含むことができる。融合タンパク質中のデアミナーゼは、シチジンデアミナーゼであり得る。融合タンパク質中のデアミナーゼは、アデノシンデアミナーゼであり得る。

デアミナーゼは循環置換体（circular permutant）のデアミナーゼであり得る。例えば、デアミナーゼは、循環置換体アデノシンデアミナーゼまたは循環置換体シチジンデアミナーゼであり得る。いくつかの実施形態において、デアミナーゼは、TadA参照配列における番号付けでアミノ酸残基116において循環置換体化された循環置換体TadAである。いくつかの実施形態において、デアミナーゼは、TadA参照配列における番号付けでアミノ酸残基136において循環置換体化された循環置換体TadAである。いくつかの実施形態において、デアミナーゼは、TadA参照配列における番号付けでアミノ酸残基65において循環置換体化された循環置換体TadAである。

融合タンパク質は、複数のデアミナーゼを含むことができる。融合タンパク質は、例えば、1、2、3、4、5またはそれ以上のデアミナーゼを含むことができる。ある実施形態において、融合タンパク質は、1つのデアミナーゼを含む。ある実施形態において、融合タンパク質は、2つのデアミナーゼを含む。融合タンパク質中の2つ以上のデアミナーゼは、アデノシンデアミナーゼ、シチジンデアミナーゼ、またはそれらの組み合わせであり得る。2つ以上のデアミナーゼはホモダイマーであり得る。2つ以上のデアミナーゼはヘテロダイマーであり得る。2つ以上のデアミナーゼは、napDNAbp中にタンデムに挿入され得る。いくつかの実施形態において、2つ以上のデアミナーゼは、napDNAbpにおいてタンデムでないことがあり得る。

ある実施形態において、融合タンパク質中のnapDNAbpは、Cas9ポリペプチドまたはその断片である。Cas9ポリペプチドは、バリアントCas9ポリペプチドであり得る。ある実施形態において、Cas9ポリペプチドは、Cas9ニッカーゼ（nCas9）ポリペプチドまたはその断片である。ある実施形態において、Cas9ポリペプチドは、ヌクレアーゼ不活（dead）Cas9（dCas9）ポリペプチドまたはその断片である。融合タンパク質中のCas9ポリペプチドは、全長Cas9ポリペプチドであり得る。場合によっては、融合タンパク質中のCas9ポリペプチドは、全長Cas9ポリペプチドでないことがあり得る。Cas9ポリペプチドは、例えば、天然Cas9タンパク質に対してN末端またはC末端において切り詰められたものであり得る。Cas9ポリペプチドは、循環置換体Cas9タンパク質であり得る。

Cas9ポリペプチドは、標的ポリヌクレオチドおよびガイド核酸配列に依然として結合することができるCas9ポリペプチドの断片、一部、またはドメインであり得る。

ある実施形態において、Cas9ポリペプチドは、Streptococcus pyogenes Cas9 (SpCas9) 、Staphylococcus aureus Cas9 (SaCas9) 、Streptococcus thermophilus 1 Cas9 (St1Cas9) 、またはそれらの断片もしくはバリアントである。

融合タンパク質のCas9ポリペプチドは、天然のCas9ポリペプチドに対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含むことができる。

融合タンパク質のCas9ポリペプチドは、配列番号1に示されるCas9アミノ酸配列に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性であるアミノ酸配列を含み得る。

異種ポリペプチド（例えばデアミナーゼ）は、例えばnapDNAbpが標的ポリヌクレオチドおよびガイド核酸に結合する能力を維持するように、適切な位置でnapDNAbp（例えばCas9）に挿入することができる。デアミナーゼの機能（例えば、塩基編集活性）またはnapDNAbpの機能（例えば、標的核酸およびガイド核酸に結合する能力）を損なうことなく、デアミナーゼをnapDNAbpに挿入することができる。デアミナーゼは、例えば、結晶学的研究によって示される無秩序（disordered）領域または高い温度因子（temperature factor）あるいはB因子を含む領域においてnapDNAbpに挿入され得る。タンパク質の、より秩序のない、無秩序な、または非構造的な領域、例えば溶媒露出領域およびループを、構造または機能を損なうことのない挿入のために使用することができる。デアミナーゼは、可撓性ループ領域または溶媒露出領域においてnapDNAbpに挿入され得る。ある実施形態において、デアミナーゼは、Cas9ポリペプチドの可撓性ループに挿入される。

ある実施形態において、デアミナーゼの挿入位置は、Cas9ポリペプチドの結晶構造のB因子分析によって決定される。いくつかの実施形態において、デアミナーゼは、平均よりも高いB因子（例えば、総タンパク質または無秩序領域を含むタンパク質ドメインと比較してより高いB因子）を含むCas9ポリペプチドの領域に挿入される。B因子あるいは温度因子は、原子の平均位置からのゆらぎ（例えば、結晶格子における温度依存性の原子振動または静的無秩序の結果としてのもの）を示すことができる。主鎖原子についての高いB因子（例えば平均B因子より高いもの）は、比較的高い局所的移動度を有する領域を示すことができる。このような領域は、構造や機能を損なうことなくデアミナーゼを挿入するために利用できる。デアミナーゼは、総タンパク質についての平均B因子よりも50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%、またはそれ以上高いB因子を有するCα原子を有する残基の位置に挿入され得る。デアミナーゼは、その残基を含むCas9タンパク質ドメインについての平均B因子よりも50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%、またはそれ以上高いB因子を有するCα原子を有する残基の位置に挿入され得る。平均より高いB因子を含むCas9ポリペプチド位置は、例えば、配列番号1における番号付けで残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247、および1248を含み得る。平均より高いB因子を含むCas9ポリペプチド領域は、例えば、配列番号1における番号付けで残基792～872、792～906、および2～791を含み得る。

異種ポリペプチド（例えばデアミナーゼ）は、配列番号1における番号付けで768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、および1248からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基においてnapDNAbpに挿入され得る。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248、または1248-1249の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けでアミノ酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249、または1249-1250の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けで768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、および1248からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基を置き換える。挿入位置に関して配列番号1を参照することは、例示目的であることを理解されたい。ここで論じられる挿入は、配列番号1のCas9ポリペプチド配列に限定されず、例えばCas9ニッカーゼ (nCas9) 、ヌクレアーゼ不活Cas9 (dCas9) 、ヌクレアーゼドメインを欠くCas9バリアント、切り詰め型Cas9、または部分的もしくは完全なHNHドメインを欠くCas9ドメインなどの、バリアントCas9ポリペプチドにおける対応する位置への挿入も含む。

異種ポリペプチド（例えばデアミナーゼ）は、配列番号1における番号付けで、768、792、1022、1026、1040、1068、および1247からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチド中の対応するアミノ酸残基においてnapDNAbp中に挿入され得る。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069、または1247-1248の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けでアミノ酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070、または1248-1249の間、またはそれに対応するアミノ酸位置の間に挿入される。いくつかの実施形態において、異種ポリペプチドは、配列番号1における番号付けで768、792、1022、1026、1040、1068、および1247からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基を置き換える。

異種ポリペプチド（例えばデアミナーゼ）は、図4、図5、図6、または図7に示されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基においてnapDNAbpに挿入され得る。異種ポリペプチド（例えばデアミナーゼ）は、配列番号1における番号付けで1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539、および1060-1077からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチドのける対応するアミノ酸残基においてnapDNAbpに挿入され得る。デアミナーゼは、当該残基のN末端またはC末端に挿入されるか、または当該残基を置き換えることができる。いくつかの実施形態において、デアミナーゼは当該残基のC末端に挿入される。

いくつかの実施形態において、ABE（例えばTadA）は、配列番号1における番号付けで1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、および1246からなる群から選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABE（例えばTadA）は、配列番号1における番号付けで残基792-872、792-906、または2-791に置き換わって、または別のCas9ポリペプチドにおける対応するアミノ酸残基に置き換わって挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、および1246からなる群から選択されるアミノ酸、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、および1246からなる群から選択されるアミノ酸、または別のCas9ポリペプチドの対応するアミノ酸残基のC末端、に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、および1246からなる群から選択されるアミノ酸、または別のCas9ポリペプチドにおける対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、CBE（例えばAPOBEC1）は、配列番号1における番号付けで1016、1023、1029、1040、1069、および1247からなる群から選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1016、1023、1029、1040、1069、および1247からなる群から選択されるアミノ酸のN末端、または別のCas9ポリペプチドの対応するアミノ酸残基に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1016、1023、1029、1040、1069、および1247からなる群からなる群から選択されるアミノ酸、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けで1016、1023、1029、1040、1069、および1247からなる群からなる群から選択されるアミノ酸、または別のCas9ポリペプチドにおける対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基768、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸768、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸768、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸768、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基791、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸791、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸791、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸791、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基792、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸792、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸792、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸792、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1016、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1016、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1016、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1016、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1022、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1022、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1022、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1022、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1023、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1023、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1023、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1023、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1026、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1026、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1026、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1026、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1029、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1029、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1029、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1029、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1040、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1040、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1040、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1040、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1052、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1052、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1052、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1052、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1054、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1054、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1054、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1054、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1067、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1067、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1067、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1067、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1068、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1068、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1068、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1068、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1069、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1069、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1069、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1069、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1246、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1246、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1246、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1246、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1247、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1247、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1247、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1247、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

いくつかの実施形態において、デアミナーゼは、配列番号1における番号付けでアミノ酸残基1248、または別のCas9ポリペプチドの対応するアミノ酸残基において挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1248、または別のCas9ポリペプチドにおける対応するアミノ酸残基のN末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1248、または別のCas9ポリペプチドにおける対応するアミノ酸残基のC末端に挿入される。いくつかの実施形態において、ABEは、配列番号1における番号付けでアミノ酸1248、または別のCas9ポリペプチドの対応するアミノ酸残基を置き換えて挿入される。

ある実施形態において、異種ポリペプチド（例えばデアミナーゼ）は、Cas9ポリペプチドの可撓性ループに挿入される。可撓性ループ部分は、配列番号1における番号付けで530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247、もしくは1298-1300、または別のCas9ポリペプチド中の対応するアミノ酸残基からなる群から選択することができる。可撓性ループ部分は、配列番号1における番号付けで1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231、もしくは1248-1297、または別のCas9ポリペプチド中の対応するアミノ酸残基からなる群から選択することができる。

異種ポリペプチド（例えばデアミナーゼ）は、配列番号1における番号付けでアミノ酸残基1017-1069、1242-1247、1052-1056、1060-1077、1002-1003、943-947、530-537、568-579、 686-691,1242-1247、1298-1300、1066-1077、1052-1056、もしくは1060-1077、または別のCas9ポリペプチドの対応するアミノ酸残基に対応する、Cas9ポリペプチド領域に挿入することができる。

異種ポリペプチド（例えばデアミナーゼ）はCas9ポリペプチドの欠失領域の代わりに挿入され得る。欠失領域は、Cas9ポリペプチドのN末端またはC末端部分に相当し得る。いくつかの実施形態において、欠失領域は、配列番号1における番号付けで残基792～872、または別のCas9ポリペプチドにおける対応するアミノ酸残基に相当する。いくつかの実施形態において、欠失領域は、配列番号1における番号付けで残基792～906、または別のCas9ポリペプチドにおける対応するアミノ酸残基に相当する。いくつかの実施形態において、欠失領域は、配列番号1における番号付けで残基2～791、または別のCas9ポリペプチドにおける対応するアミノ酸残基に相当する。いくつかの実施形態において、欠失領域は、配列番号1における番号付けで残基1017～1069、またはそれに対応するアミノ酸残基に相当する。

異種ポリペプチド（例えばデアミナーゼ）は、Cas9ポリペプチドの構造的または機能的ドメイン内に挿入され得る。異種ポリペプチド（例えばデアミナーゼ）は、Cas9ポリペプチドの2つの構造的または機能的ドメインの間に挿入することができる。異種ポリペプチド（例えばデアミナーゼ）は、Cas9ポリペプチドの構造的または機能的ドメインの代わりに、例えば、Cas9ポリペプチドからそのドメインを削除した後に、挿入され得る。Cas9ポリペプチドの構造的または機能的ドメインは、例えば、RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI、またはHNHを含み得る。

いくつかの実施形態において、Cas9ポリペプチドは、RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI、またはHNHドメインからなる群より選択される1以上のドメインを欠く。ある実施形態において、Cas9ポリペプチドは、ヌクレアーゼドメインを欠く。ある実施形態において、Cas9ポリペプチドは、HNHドメインを欠く。いくつかの実施形態において、Cas9ポリペプチドは、そのCas9ポリペプチドがHNH活性を低下させるかまたは消失させるように、HNHドメインの一部を欠く。

ある実施形態において、Cas9ポリペプチドは、ヌクレアーゼドメインの欠失を含み、デアミナーゼは、ヌクレアーゼドメインを置き換えて挿入される。いくつかの実施形態において、HNHドメインは削除され、デアミナーゼはその場所に挿入される。いくつかの実施形態において、RuvCドメインの1つ以上が欠失され、デアミナーゼがその場所に挿入される。

異種ポリペプチドを含む融合タンパク質は、napDNAbpのN末端およびC末端断片によって隣接され得る。ある実施形態において、融合タンパク質は、Cas9ポリペプチドのN末端断片およびC末端断片によって隣接されるデアミナーゼを含む。該N末端断片またはC末端断片は、標的ポリヌクレオチド配列に結合することができる。N末端断片のC末端またはC末端断片のN末端は、Cas9ポリペプチドの可撓性ループの一部を含み得る。N末端断片のC末端またはC末端断片のN末端は、Cas9ポリペプチドのαヘリックス構造の一部を含み得る。N末端断片またはC末端断片は、DNA結合ドメインを含み得る。N末端断片またはC末端断片は、RuvCドメインを含み得る。N末端断片またはC末端断片は、HNHドメインを含み得る。いくつかの実施形態において、N末端断片およびC末端断片のいずれもHNHドメインを含まない。

いくつかの実施形態において、N末端Cas9断片のC末端は、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。いくつかの実施形態において、C末端Cas9断片のN末端は、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む。標的核酸塩基とN末端Cas9断片のC末端またはC末端Cas9断片のN末端におけるアミノ酸との間の近接性を有するためには、異なるデアミナーゼは挿入位置が異なり得る。例えば、ABEの挿入位置は、配列番号1における番号付けで1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052、および1246からなる群から選択されるアミノ酸残基、または別のCas9ポリペプチドにおける対応するアミノ酸残基におけるものであり得る。CBEの適切な挿入位置は、配列番号1における番号付けで1016、1023、1029、1040、1069、および1247からなる群より選択されるアミノ酸残基、または別のCas9ポリペプチドの対応するアミノ酸残基であり得る。ある実施形態において、ABEの挿入は、上記のアミノ酸残基のいずれか1つのN末端またはC末端に挿入され得る。いくつかの実施形態において、ABEの挿入は、上記のアミノ酸残基のいずれか1つを置き換えて挿入され得る。

融合タンパク質のC末端Cas9断片（すなわち、融合タンパク質中のデアミナーゼに隣接するC末端Cas9断片）は、Cas9ポリペプチドのC末端を含み得る。融合タンパク質のC末端Cas9断片は、少なくとも約100、200、300、400、500、600、700、800、900、1000、1100、1200、または1300アミノ酸の長さを含むことができる。融合タンパク質のC末端Cas9断片は、配列番号1における番号付けでアミノ酸残基1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918、もしくは1-1100、または別のCas9ポリペプチドの対応するアミノ酸残基に相当する配列を含み得る。N末端Cas9断片は、配列番号1における番号付けでアミノ酸残基1-56、1-95、1-200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918、もしくは1-1100または別のCas9ポリペプチド中の対応するアミノ酸残基に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の配列同一性を含む配列を含み得る。

融合タンパク質のN末端Cas9断片（すなわち、融合タンパク質中のデアミナーゼに隣接するN末端Cas9断片）は、Cas9ポリペプチドのN末端を含み得る。融合タンパク質のN末端Cas9断片は、少なくとも約100、200、300、400、500、600、700、800、900、1000、1100、1200、または1300アミノ酸の長さを含むことができる。融合タンパク質のN末端Cas9断片は、配列番号1における番号付けでアミノ酸残基1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368、もしくは56-1368、または別のCas9ポリペプチドの対応するアミノ酸残基に相当する配列を含み得る。N末端Cas9断片は、配列番号1における番号付けでアミノ酸残基1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368、もしくは56-1368または別のCas9ポリペプチド中の対応するアミノ酸残基に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の配列同一性を含む配列を含み得る。

融合タンパク質のN末端Cas9断片およびC末端Cas9断片を合わせたものは、例えば、配列番号1に記載されているもののような、全長の天然Cas9ポリペプチド配列に相当していなくてもよい。

本明細書に記載された融合タンパク質は、非標的部位（例えばオフターゲット部位）での脱アミノ化が低減された、例えばゲノム全体に渡り目的外脱アミノ化が低減された、標的化脱アミノ化をもたらすことができる。本明細書に記載される融合タンパク質は、非標的部位におけるバイスタンダー脱アミノ化が低減された標的化脱アミノ化をもたらすことができる。望まれない脱アミノ化、またはオフターゲット脱アミノ化は、例えばCas9ポリペプチドのN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、または少なくとも99%低減され得る。望まれない脱アミノ化、またはオフターゲット脱アミノ化は、例えばCas9ポリペプチドのN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、少なくとも1倍（one-fold）、少なくとも2倍、少なくとも3倍、少なくとも4倍、少なくとも5倍、少なくとも10倍、少なくとも15倍、少なくとも20倍、少なくとも30倍、少なくとも40倍、少なくとも50倍、少なくとも60倍、少なくとも70倍、少なくとも80倍、少なくとも90倍、または少なくとも100倍低下させることができる。

いくつかの実施形態において、融合タンパク質のデアミナーゼは、Rループの範囲内で2つを超える核酸塩基を脱アミノ化しない。いくつかの実施形態において、融合タンパク質のデアミナーゼは、Rループの範囲内で3つを超える核酸塩基を脱アミノ化しない。いくつかの実施形態において、融合タンパク質のデアミナーゼは、Rループの範囲内で2、3、4、5、6、7、8、9、または10を超える核酸塩基を脱アミノ化しない。Rループは、DNA:RNAハイブリッド、DNA:DNAまたはRNA:RNA相補的構造を含み、一本鎖DNAと会合した三本鎖核酸構造である。本明細書中で用いられる場合、R-ループは、標的ポリヌクレオチドがCRISPR複合体または塩基編集複合体と接触された場合に形成され得、ここで、ガイドポリヌクレオチド（例えばガイドRNA）の一部が、標的ポリヌクレオチド（例えば標的DNA）の一部とハイブリダイズし、それと取って代わる。ある実施形態において、Rループは、スペーサー配列および標的DNA相補配列のハイブリダイズした領域を含む。Rループ領域の長さは約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50核酸塩基対であり得る。いくつかの実施形態において、Rループ領域は長さが約20核酸塩基対である。本明細書で使用される場合、Rループ領域は、ガイドポリヌクレオチドとハイブリダイズする標的DNA鎖には限定されないことが理解されるべきである。例えば、Rループ領域内の標的核酸塩基の編集は、ガイドRNAと相補的な鎖を含むDNA鎖に対してであってもよく、またはガイドRNAと相補的な鎖の反対側の鎖であるDNA鎖に対してであってもよい。ある実施形態において、Rループの領域における編集は、標的DNA配列中のうち、ガイドRNAに対して非相補的な鎖（プロトスペーサー鎖）上の核酸塩基の編集を含む。

本明細書に記載される融合タンパク質は、正準的（canonical）な塩基編集とは異なる編集ウィンドウにおいて標的脱アミノ化をもたらし得る。ある実施形態において、標的核酸塩基は、標的ポリヌクレオチド配列におけるPAM配列の約1～約20塩基上流にある。ある実施形態において、標的核酸塩基は、標的ポリヌクレオチド配列におけるPAM配列の約2～約12塩基上流にある。いくつかの実施形態において、標的核酸塩基は、PAM配列から約1～9塩基対、約2～10塩基対、約3～11塩基対、約4～12塩基対、約5～13塩基対、約6～14塩基対、約7～15塩基対、約8～16塩基対、約9～17塩基対、約10～18塩基対、約11～19塩基対、約12～20塩基対、約1～7塩基対、約2～8塩基対、約3～9塩基対、約4～10塩基対、約5～11塩基対、約6～12塩基対、約7～13塩基対、約8～14塩基対、約9～15塩基対、約10～16塩基対、約11～17塩基対、約12～18塩基対、約13～19塩基対、約14～20塩基対、約1～5塩基対、約2～6塩基対、約3～7塩基対、約4～8塩基対、約5～9塩基対、約6～10塩基対、約7～11塩基対、約8～12塩基対、約9～13塩基対、約10～14塩基対、約11～15塩基対、約12～16塩基対、約13～17塩基対、約14～18塩基対、約15～19塩基対、約16～20塩基対、約1～3塩基対、約2～4塩基対、約3～5塩基対、約4～6塩基対、約5～7塩基対、約6～8塩基対、約7～9塩基対、約8～10塩基対、約9～11塩基対、約10～12塩基対、約11～13塩基対、約12～14塩基対、約13～15塩基対、約14～16塩基対、約15～17塩基対、約16～18塩基対、約17～19塩基対、約18～20塩基対だけ離れているか、またはそれだけ上流にある。いくつかの実施形態において、標的核酸塩基は、PAM配列から約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20もしくはそれより多くの塩基対だけ離れているか、またはそれだけ上流にある。いくつかの実施形態では、標的核酸塩基は、PAM配列の約1、2、3、4、5、6、7、8、または9塩基対上流にある。いくつかの実施形態において、標的核酸塩基は、PAM配列の約2、3、4または6塩基対上流にある。

従って、例えばBE4のような正準的な塩基エディターと比較して別の塩基編集ウィンドウ嗜好性を可能にする、塩基編集を最適化するために融合タンパク質ライブラリーおよびその使用方法も本明細書で提供される。いくつかの実施形態において、本開示は、複数の融合タンパク質を含む、最適化された塩基編集のためのタンパク質ライブラリーを提供し、ここで、該複数の融合タンパク質の各々は、Cas9ポリペプチドのN末端断片およびC末端断片によって隣接されたデアミナーゼを含み、融合タンパク質の各々のN末端断片が、該複数の融合タンパク質の残りのもののN末端断片と異なるか、または、融合タンパク質の各々のC末端断片が、該複数の融合タンパク質の残りのもののC末端断片と異なり、該融合タンパク質の各々のデアミナーゼは、標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（Protospacer Adjacent Motif：PAM）配列に近接した標的核酸塩基を脱アミノ化し、該N末端断片またはC末端断片は標的ポリヌクレオチド配列に結合する。ある実施形態において、CRISPR Rループ内の各核酸塩基について、該複数の融合タンパク質のうちの少なくとも1つが、核酸塩基を脱アミノ化する。いくつかの実施形態において、標的ポリヌクレオチドのうちPAM配列から1～20塩基対離れた各核酸塩基について、該複数の融合タンパク質のうちの少なくとも一つが、核酸塩基を脱アミノ化する。いくつかの実施形態において、本明細書では、最適化された塩基編集を可能にする融合タンパク質ライブラリーを含むキットが提供される。

融合タンパク質は、2つ以上の異種ポリペプチドを含むことができる。例えば、融合タンパク質は、1つ以上のUGIドメインおよび/または1つ以上の核局在化シグナルをさらに含み得る。2つ以上の異種ドメインは、タンデムに挿入され得る。2つ以上の異種ドメインは、それらがNapDNAbp中でタンデムにならないような位置に挿入され得る。

融合タンパク質は、デアミナーゼとnapDNAbpポリペプチドとの間にリンカーを含み得る。リンカーは、ペプチドまたは非ペプチドリンカーであり得る。例えば、リンカーは、XTEN、(GGGS) n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPESであり得る。ある実施形態において、融合タンパク質は、N末端Cas9断片とデアミナーゼとの間にリンカーを含む。ある実施形態において、融合タンパク質は、C末端Cas9断片とデアミナーゼとの間にリンカーを含む。いくつかの実施形態において、napDNAbpのN末端断片およびC末端断片は、リンカーを用いてデアミナーゼに連結される。ある実施形態において、N末端断片およびC末端断片は、リンカーなしでデアミナーゼドメインに結合される。ある実施形態において、融合タンパク質は、N末端Cas9断片とデアミナーゼとの間にリンカーを含むが、C末端Cas9断片とデアミナーゼとの間にはリンカーを含まない。ある実施形態において、融合タンパク質は、C末端Cas9断片とデアミナーゼとの間にリンカーを含むが、N末端Cas9断片とデアミナーゼとの間にはリンカーを含まない。

例示的なTadAまたはTadA7.10配列を以下に記載する。

SEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGL
HDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGR
VVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRM
PRQVFNAQKKAQSSTD

GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD

TAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVF
GVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQ
VFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTL
AKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDP

YRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLH
YPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGS
ETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVL
NNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQN

MNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETP
GTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNR
VIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG

GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQVFN

GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLY
VTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE
ITEGILADECAALLCYFFRMPRQ

GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQVFN

GSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVG
AVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQVFNAQKKAQSSTD

101 Cas9 TadAins 1015
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVGSSGSETPGTSESATPESSGSEVEFSHEYWMRHAL
TLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQG
GLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGS
LMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST
DYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

102 Cas9 TadAins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIGSSGSETPGTSESATPESSGSEVEFSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

103 Cas9 TadAins 1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGSSGSETPGTSESATPESSGS
EVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLH
DPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRV
VFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMP
RQVFNAQKKAQSSTDGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

103 Cas9 TadAins 1040
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSGSSGSETPGT
SESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVI
GEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCA
GAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADEC
AALLCYFFRMPRQVFNAQKKAQSSTDNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

105 Cas9 TadAins 1068
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGEGSSGSETPGTSESATPESSGSEVEFSHEYWMR
HALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMAL
RQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGA
AGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQ
SSTDTGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

106 Cas9 TadAins 1247
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGGSS
GSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVL
VLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTF
EPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITE
GILADECAALLCYFFRMPRQVFNAQKKAQSSTDSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

107 Cas9 TadAins 1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDERE
VPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLID
ATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMN
HRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

108 Cas9 TadAins 1026
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEGSSGSETPGTSESATPESSGSEVE
FSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPT
AHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFG
VRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQV
FNAQKKAQSSTDQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

109 Cas9 TadAins 768
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQGSSGSETPGTSESATPESSGSEVEFSHEYWMR
HALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMAL
RQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGA
AGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRTTQKGQKNSR
ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL
DINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK
MKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQIT
KHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREI
NNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQE
IGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGR
DFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDP
KKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNP
IDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELAL
PSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK
RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFD
TTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.1 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGA
VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYV
TFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI
TEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSK
RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFD
TTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.2 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVP
VGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDAT
LYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHR
VEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISE
FSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFK
YFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.3 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDER
EVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLI
DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM
NHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQ
ISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPA
AFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.4 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDER
EVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLI
DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM
NHRVEITEGILADECAALLCYFFRMRREDNEQKQLFVEQHKHYLDEIIEQ
ISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPA
AFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.5 Cas9 TadAins 1249
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSGS
SGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDERE
VPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLID
ATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMN
HRVEITEGILADECAALLCYFFRMRRPEDNEQKQLFVEQHKHYLDEIIEQ
ISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPA
AFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.5 Cas9 TadAins delta 59-66 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSSGSETPGTSESATPESGSSGSEVEFSHEYWMRHALTLAKRARDERE
VPVGAVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFE
PCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEG
ILADECAALLCYFFRMPRQVFNAQKKAQSSTDEDNEQKQLFVEQHKHYLD
EIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTN
LGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGG
D

110.6 Cas9 TadAins 1251
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPE
GSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDE
REVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRL
IDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG
MNHRVEITEGILADECAALLCYFFRMRRDNEQKQLFVEQHKHYLDEIIEQ
ISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPA
AFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.7 Cas9 TadAins 1252
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPE
DGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARD
EREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYR
LIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYP
GMNHRVEITEGILADECAALLCYFFRMRRNEQKQLFVEQHKHYLDEIIEQ
ISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPA
AFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

110.8 Cas9 TadAins delta 59-66 C-truncate 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPG
SSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGA
VLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMC
AGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE
CAALLCYFFRMPRQEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADA
NLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKR
YTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

111.1 Cas9 TadAins 997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDGSSGSETPGTSESATPESSGIKKYPKLESEFVYGDYKVYDVR
KMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGET
GEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKL
IARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM
ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGE
LQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEI
IEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLG
APAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

111.2 Cas9 TadAins 997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDGSSGSSGSETPGTSESATPESSGGSSIKKYPKLESEFVYGDY
KVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLI
ETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPK
RNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKEL
LGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRM
LASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHK
HYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLF
TLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLS
QLGGD

112 delta HNH TadA
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND
KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTAL
IKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK
TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKK
TEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVA
KVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIK
LPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKG
SPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKH
RDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATL
IHQSITGLYETRIDLSQLGGD

113 N-term single TadA helix trunc 165-end
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIG
LHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIG
RVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFR
MPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSV
GWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKR
TARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERH
PIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRG
HFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARL
SKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQL
SKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAP
LSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGG
ASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHL
GELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMT
RKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYE
YFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKE
DYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL
EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKL
INGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQ
GDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARE
NQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYL
QNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGK
SDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGF
IKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDF
RKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVY
DVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETN
GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNS
DKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGI
TIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLAS
AGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYL
DEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLT
NLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLG
GD

114 N-term single TadA helix trunc 165-end delta 59-65
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRTAH
AEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVR
NAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGS
SGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITD
EYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYT
RRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV
DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGD
LNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE
NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDD
DLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIK
RYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFY
KFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAIL
RRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETI
TPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNE
LTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIE
CFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTL
TLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDK
QSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH
IANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG
QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMY
VDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSE
EVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVE
TRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFY
KVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIA
KSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIV
WDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARK
KDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSS
FEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKG
NELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQI
SEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAA
FKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

115.1 Cas9 TadAins1004
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREV
PVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDA
TLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNH
RVEITEGILADECAALLCYFFRMPRQLESEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

115.2 Cas9 TadAins1005
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDERE
VPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLID
ATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMN
HRVEITEGILADECAALLCYFFRMPRQESEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

115.3 Cas9 TadAins1006
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDER
EVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLI
DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM
NHRVEITEGILADECAALLCYFFRMPRQSEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

115.4 Cas9 TadAins1007
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDE
REVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRL
IDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG
MNHRVEITEGILADECAALLCYFFRMPRQEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

116.1 Cas9 TadAins C-term truncate2 792
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGGSSGSETP
GTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNR
VIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQE
LDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVK
KMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQI
TKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVRE
INNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

116.2 Cas9 TadAins C-term truncate2 791
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSSGSETPG
TSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRV
IGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMC
AGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE
CAALLCYFFRMPRQGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQE
LDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVK
KMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQI
TKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVRE
INNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

116.3 Cas9 TadAins C-term truncate2 790
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKEGSSGSETPGT
SESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVI
GEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCA
GAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADEC
AALLCYFFRMPRQLGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQE
LDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVK
KMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQI
TKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVRE
INNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQ
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKG
RDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWD
PKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKN
PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELA
LPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS
KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF
DTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

117 Cas9 delta 1017-1069
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGA
VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYV
TFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI
TEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIVWDKGRDFATVR
KVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGF
DSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEA
KGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVN
FLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILAD
ANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK
RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

118 Cas9 TadA-CP116ins 1067
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRAR
DEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNY
RLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHY
PGGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

119 Cas9 TadAins 701
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPV
GAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATL
YVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRV
EITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDLTFKEDIQKAQVS
GQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMA
RENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLY
YLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNR
GKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA
GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVS
DFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYK
VYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

120 Cas9 TadACP136ins 1248
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSMN
HRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGT
SESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVI
GEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCA
GAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

121 Cas9 TadACP136ins 1052
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLAMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGS
ETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVL
NNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP
CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

122 Cas9 TadACP136ins 1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSMNHRVEITEG
ILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPES
SGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAI
GLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRI
GRVVFGVRNAKTGAAGSLMDVLHYPGNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

123 Cas9 TadACP139ins 1299
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPE
DNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRMN
HRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGT
SESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVI
GEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCA
GAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

124 Cas9 delta 792-872 TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA
GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVS
DFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYK
VYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

125 Cas9 delta 792-906 TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHE
YWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE
IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNA
KTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQ
KKAQSSTDGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDK
LIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALI
KKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKT
EITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKT
EVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAK
VEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKL
PKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGS
PEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHR
DKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLI
HQSITGLYETRIDLSQLGGD

126 TadA CP65ins 1003
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGR
VVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRM
PRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHA
LTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPLESEFVYGDYK
VYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

127 TadA CP65ins 1016
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVM
CAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILAD
ECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSE
VEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHD
PYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

128 TadA CP65ins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMITAHAEIMALRQGGLVMQNYRLIDATLYV
TFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI
TEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESAT
PESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN
RAIGLHDPAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

129 TadA CP65ins 1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEITAHAEIMALRQGGLVMQNYRL
IDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPG
MNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETP
GTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNR
VIGEGWNRAIGLHDPGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

130 TadA CP65ins 1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSTAHAEIMALR
QGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAA
GSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQS
STDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREV
PVGAVLVLNNRVIGEGWNRAIGLHDPNIMNFFKTEITLANGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

131 TadA CP65ins 1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIG
RVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFR
MPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRH
ALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPGEIRKRPLIE
TNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR
NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL
GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRML
ASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

132 TadA CP65ins 1246
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA
LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR
LEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKAD
LRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENP
INASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTP
NFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI
LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEI
FFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR
KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY
YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK
NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVD
LLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI
IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQ
LKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD
SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKV
MGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHP
VENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDD
SIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL
TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI
REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK
YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEI
TLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEV
QTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVE
KGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPK
YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGTAH
AEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVR
NAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFN
AQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKR
ARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPSPEDNEQKQLFVEQHKH
YLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFT
LTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQ
LGGD

［プロトスペーサ隣接モチーフ］
用語「プロトスペーサー隣接モチーフ(PAM)」あるいはPAM様モチーフは、CRISPR細菌適応免疫系においてCas9ヌクレアーゼによって標的化されるDNA配列の直後の2～6塩基対DNA配列を指す。いくつかの実施形態では、PAMは5’PAM（すなわちプロトスペーサの5’末端の上流に位置する）であり得る。他の実施形態では、PAMは3’PAM（すなわちプロトスペーサの5’末端の下流に位置する）であり得る。

PAM配列は標的結合のために必須であるが、その正確な配列はCasタンパク質の種類に依存する。

本明細書で提供される塩基エディターは、標準的または非標準的プロトスペーサー隣接モチーフ (PAM) 配列を含むヌクレオチド配列に結合することができるCRISPRタンパク質由来ドメインを含むことができる。PAM部位は、標的ポリヌクレオチド配列に近接するヌクレオチド配列である。本開示のいくつかの側面は、異なるPAM特異性を有するCRISPRタンパク質の全部または一部を含む塩基エディターを提供する。例えば、S. pyogenes由来のCas9 (spCas9) などのCas9タンパク質は、典型的に、特定の核酸領域に結合するために標準的なNGG PAM配列を必要とし、ここで「NGG」中の「N」はアデニン (A) 、チミン(T) 、グアニン (G) 、またはシトシン (C) であり、Gはグアニンである。PAMはCRISPRタンパク質特異的であり得、異なるCRISPRタンパク質由来ドメインを含む異なる塩基エディター間で異なり得る。PAMは標的配列の5’または3’にあり得る。PAMは、標的配列の上流または下流にあり得る。PAMは、1、2、3、4、5、6、7、8、9、10またはそれ以上のヌクレオチドの長さであり得る。多くの場合、PAMは2～6ヌクレオチドの長さである。いくつかのPAMバリアントが表１に記載されている。

いくつかの実施形態において、SpCas9は、PAM核酸配列5'-NGC-3'または5'-NGC-3'に対する特異性を有する。上記態様の様々な実施形態において、SpCas9は、Cas9または表1に列挙されたCas9バリアントである。上記態様の種々の実施形態において、改変SpCas9は、spCas9-MQKFRAERである。いくつかの実施形態において、バリアントCasタンパク質は、spCas9、spCas9-VRQR、spCas9-VRER、xCas9 (sp)、saCas9、saCas9-KKH、SpCas9-MQKFRAER、spCas9-MQKSER、spCas9-LRKIQK、またはspCas9-LRVSQLであり得る。1つの特定の実施形態では、アミノ酸置換D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、およびT1337Rを含み（SpCas9-MQKFRAER）改変されたPAM 5'-NGC-3'に対する特異性を有する改変SpCas9が使用される。

一部の実施形態では、PAMはNGTである。一部の実施形態では、NGT PAMはバリアントである。いくつかの実施形態において、NGT PAMバリアントは、一つまたは複数の残基1335、1337、1135、1136、1218、および/または1219における標的化変異を通じて作製される。いくつかの実施形態において、NGT PAMバリアントは、一つ以上の残基1219、1335、1337、1218における標的化変異を通じて作製される。いくつかの実施形態において、NGT PAMバリアントは、一つ以上の残基1135、1136、1218、1219、および1335における標的化変異を通じて作製される。いくつかの実施形態において、NGT PAMバリアントは、下記の表2および3に提供される標的化変異のセットから選択される。

表２：残基1219、1335、1337、1218におけるNGT PAMバリアント変異

表３：残基1135、1136、1218、1219、および1335におけるNGT PAMバリアント変異

いくつかの実施形態において、NGT PAMバリアントは、表2および3のバリアント5、7、28、31、または36から選択される。いくつかの実施形態では、バリアントは改善されたNGT PAM認識を有する。

いくつかの実施形態において、NGT PAMバリアントは、残基1219、1335、1337、および/または1218に変異を有する。いくつかの実施形態において、NGT PAMバリアントは、下記表4に提供されるバリアントからの、認識を改善するための突然変異を伴って選択される。

表４：残基1219、1335、1337、および1218におけるNGT PAMバリアント変異

いくつかの実施形態では、NGT PAMは、下記表5に提供されるバリアントから選択される。

表５：NGT PAMバリアント

ある態様において、Cas9ドメインは、Streptococcus pyogenes由来のCas9ドメインである (SpCas9)。ある態様において、SpCas9ドメインは、ヌクレアーゼ活性SpCas9、ヌクレアーゼ不活性SpCas9 (SpCas9d) 、またはSpCas9ニッカーゼ (SpCas9n) である。いくつかの実施形態において、SpCas9は、D9X突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、本明細書に提供されるシチジンデアミナーゼまたはアデノシンデアミナーゼのいずれかと融合され得る。

いくつかの実施形態において、SpCas9ドメインは、D1135X、R1335X、およびT1336X突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1135E、R1335Q、およびT1336R突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1135E、R1335Q、およびT1336R突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1135X、R1335X、およびT1336X突然変異のうちの1つ以上、または本明細書において提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1135V、R1335Q、およびT1336R突然変異の1以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1135V、R1335Q、およびT1336R突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1135X、G1217X、R1335X、およびT1336X突然変異の1以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、SpCas9ドメインは、D1135V、G1217R、R1335Q、およびT1336R突然変異の1つ以上、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、SpCas9ドメインは、D1135V、G1217R、R1335Q、およびT1336R突然変異、または本明細書において提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。

いくつかの例において、本明細書に開示される塩基エディターのCRISPRタンパク質由来ドメインによって認識されるPAMは、塩基エディターをコードするインサート(例えばAAVインサート)とは別個のオリゴヌクレオチド上で細胞に提供され得る。そのような実施形態では、、別個のオリゴヌクレオチド上にPAMを提供することは、さもなくば標的配列と同じポリヌクレオチド上に隣接するPAMが存在しないために切断することができない標的配列の切断を可能にする。

一実施形態において、S. pyogenes Cas9 (SpCas9) を、ゲノム工学のためのCRISPRエンドヌクレアーゼとして使用することができる。ただし、他のものも使用され得る。いくつかの実施形態では、異なるエンドヌクレアーゼを用いて特定のゲノム標的を標的化することができる。いくつかの実施形態では、非NGG PAM配列を有する合成SpCas9由来バリアントを使用することができる。さらに、様々な種からの他のCas9オルソログが同定されており、これらの「非SpCas9」は、本開示でも有用になり得る種々のPAM配列に結合し得る。例えば、比較的大きなサイズのSpCas9（約4キロベース（kb）のコード配列）は、細胞内で効率的に発現することができないSpCas9 cDNAプラスミドをもたらすこともあり得る。逆に、Staphylococcus aureus Cas9 (SaCas9) のコード配列は、SpCas9よりも約1キロ塩基短いので、細胞内で効率的に発現させ得る。SpCas9と同様に、SaCas9エンドヌクレアーゼは、in vitroの哺乳類細胞およびin vivoのマウスにおいて標的遺伝子を修飾する能力がある。ある実施形態では、Casタンパク質は異なるPAM配列を標的とすることができる。いくつかの実施形態において、標的遺伝子は、Cas9 PAM、例えば、5’-NGGに隣接し得る。他の実施形態では、他のCas9オーソログは異なるPAM要件を有し得る。例えば、S. thermophilus のもののようなPAM（CRISPR1の場合は5’-NNAGAA、CRISPR3の場合は5’-NGGNG）およびNeisseria meningiditis のもの（5’-NNNNGATT）のような他のPAMも標的遺伝子に隣接して見出され得る。

いくつかの実施形態において、S. pyogenes系について、標的遺伝子配列は、5’-NGG PAMの前(すなわち、その5’側)にあり得、20 ntガイドRNA配列が、反対側の鎖と塩基対を形成して、PAMに隣接するCas9切断を媒介することができる。ある実施形態では、隣接切断は、PAMの（約）3塩基対上流であり得る。ある実施形態では、隣接切断は、PAMの（約）10塩基対上流であり得る。ある実施形態では、隣接切断は、PAMの（約）0～20塩基対上流であり得る。例えば、隣接切断は、PAM上流の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30塩基対の隣であり得る。隣接切断はPAMの1～30塩基対下流でもあり得る。以下はPAM配列に結合することができる例示的SpCas9タンパク質の配列である：

例示的なPAM結合SpCas9のアミノ酸配列は以下の通り：
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.

例示的なPAM結合SpCas9nのアミノ酸配列は以下の通り：
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.

例示的なPAM結合SpEQR Cas9のアミノ酸配列は以下の通り：
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
この配列において、D1135、R1335、およびT1337から変異されてSpEQR Cas9を生じることができる残基E1135、Q1335、およびR1337は、下線、太字で示される。

例示的なPAM結合SpVQR Cas9のアミノ酸配列は以下の通り：
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
この配列において、D1135、R1335、およびT1336から変異されてSpVQR Cas9を生じることができる残基V1135、Q1335、およびR1336は、下線、太字で示されている。

例示的なPAM結合SpVRER Cas9のアミノ酸配列は以下の通り：
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD

ある態様において、Cas9ドメインは、組換えCas9ドメインである。ある態様において、組換えCas9ドメインは、SpyMacCas9ドメインである。いくつかの実施形態において、SpyMacCas9ドメインは、ヌクレアーゼ活性SpyMacCas9、ヌクレアーゼ不活性SpyMacCas9 (SpyMacCas9d) 、またはSpyMacCas9ニッカーゼ(SpyMacCas9n) である。いくつかの実施形態において、SaCas9ドメイン、SaCas9dドメイン、またはSaCas9nドメインは、非標準PAMを有する核酸配列に結合することができる。いくつかの実施形態において、SpyMacCas9ドメイン、SpCas9dドメイン、またはSpCas9nドメインは、NAA PAM配列を有する核酸配列に結合することができる。

例示的SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED.

ある場合には、バリアントCas9タンパク質はH840A、P475A、W476A、N477A、D1125A、W1126A、D1218Aの突然変異を有し、その結果、標的DNAまたはRNAを切断する能力が低下している。このようなCas9タンパク質は、標的DNA (例えば一本鎖標的DNA)を切断する能力は低下しているが、標的DNA (例えば一本鎖標的DNA)に結合する能力は保持している。別の非限定的な例として、いくつかの場合において、バリアントCas9タンパク質は、D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、およびD1218A突然変異を有し、その結果、ポリペプチドは、標的DNA(例えば一本鎖標的DNA)を切断する能力が低下している。そのようなCas9タンパク質は、標的DNA(例えば一本鎖標的DNA)を切断する能力を低下しているが、標的DNA(例えば一本鎖標的DNA)に結合する能力を保持している。バリアントCas9タンパク質がW476AおよびW1126A変異を有する場合、またはバリアントCas9タンパク質がP475A、W476A、N477A、D1125A、W1126A、およびD1218A変異を有する場合、バリアントCas9タンパク質はPAM配列に効率的に結合しない。したがって、このような場合には、このようなバリアントCas9タンパク質を結合の方法に用いると、この方法はPAM配列を必要としない。換言すれば、ある場合には、このようなバリアントCas9タンパク質を結合の方法に用いる場合、この方法はガイドRNAを含み得るが、この方法は、PAM配列の非存在下で行うことができる(したがって、結合の特異性はガイドRNAの標的セグメントによってもたらされる)。上記の効果を達成するために、他の残基が変異され得る(すなわち一方または他方のヌクレアーゼ部分を不活性化する)。非限定的な例として、残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、および/またはA987を変更(すなわち置換)することができる。また、アラニン置換以外の変異も好適である。

ある態様において、塩基エディターのCRISPRタンパク質由来ドメインは、標準的PAM配列(NGG) を有するCas9タンパク質の全部または一部を含み得る。他の実施形態では、塩基エディターのCas9由来ドメインは、非標準的PAM配列を用いることができる。そのような配列は本技術分野で記述されており当業者には明らかであろう。例えば、非標準的PAM配列に結合するCas9ドメインは、Kleinstiver, B. P., et al., “Engineered CRISPR-Cas9 nucleases with altered PAM specificities” Nature, 523, 481-485 (2015); および Kleinstiver, B. P., et al., “Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”Nature Biotechnology, 33, 1293-1298 (2015)に記述されており、それぞれの全内容を参照によりここに組み込む。

［高忠実度Cas9ドメイン］
本開示のいくつかの態様は、高忠実度Cas9ドメインを提供する。いくつかの実施形態において、高忠実度Cas9ドメインは、対応する野生型Cas9ドメインと比較して、Cas9ドメインとDNAの糖-リン酸骨格との間の静電相互作用を減少させる1つ以上の突然変異を含む人工Cas9ドメインである。特定の理論に縛られることを望まないが、DNAの糖-リン酸骨格との静電相互作用を減少させた高忠実度Cas9ドメインは、より少ないオフターゲット効果を有し得る。ある態様において、Cas9ドメイン(例えば、野生型Cas9ドメイン)は、Cas9ドメインとDNAの糖-リン酸骨格との間の結合を低減させる一つ以上の突然変異を含む。ある態様において、Cas9ドメインは、Cas9ドメインとDNAの糖-リン酸骨格との間の結合を少なくとも1%、少なくとも2%、少なくとも3%、少なくとも4%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、または少なくとも70%だけ低減させる一つ以上の突然変異を含む。

いくつかの実施形態において、本明細書で提供されるCas9融合タンパク質のいずれかは、N497X、R661X、Q695X、および/またはQ926X突然変異の1以上、または本明細書で提供されるアミノ酸配列のいずれかにおける対応する突然変異を含み、ここでXは任意のアミノ酸である。いくつかの実施形態において、本明細書で提供されるCas9融合タンパク質のいずれかは、N497A、R661A、Q695A、および/またはQ926A突然変異の1以上、または本明細書で提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。いくつかの実施形態において、Cas9ドメインは、D10A突然変異、または本明細書に提供されるアミノ酸配列のいずれかにおける対応する突然変異を含む。高い忠実度を有するCas9ドメインは当技術分野で公知であり、当業者には明らかであろう。例えば、高い忠実度を有するCas9ドメインは、Kleinstiver, B.P., et al. “High-fidelity CRISPR-Cas9 nucleases with no detectable genome-wide off-target effects.” Nature 529, 490-495 (2016); およびSlaymaker, I.M., et al. “Rationally engineered Cas9 nucleases with improved specificity.” Science 351, 84-88 (2015)に記述されており、それぞれの全内容は参照により本明細書に組み入れられる。

Cas9に対する高忠実度Cas9ドメイン変異を太字、下線で示している。
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRDKQSGKTILDFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRAITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

［核酸プログラミング可能なDNA結合タンパク質］
本開示のいくつかの態様は、核酸プログラミング可能なDNA結合タンパク質として作用するドメインを含む融合タンパク質を提供し、これは、特定の核酸（例えばDNAまたはRNA）配列に塩基エディターのようなタンパク質をガイドするために使用され得る。特定の実施形態では、融合タンパク質は、核酸プログラミング可能なDNA結合タンパク質ドメインおよびデアミナーゼドメインを含む。DNA結合タンパク質としては、Cas9（例えばdCas9およびnCas9）、CasX、CasY、Cpf1、Cas12b/C2c1、およびCas12c/C2c3が挙げられるが、これらに限定されない。Cas9とは異なるPAM特異性を有する核酸プログラミング可能なDNA結合タンパク質の一例は、PrevotellaおよびFrancisella 1由来のClustered Regularly Interspaced Short Palindromic Repeatsである（Cpf1）。Cas9と同様に、Cpf1もクラス2のCRISPRエフェクターである。Cpf1はCas9とは異なる特徴を有するロバストなDNA干渉を媒介することが示されている。Cpf1は、tracrRNAを欠く単一RNA誘導型エンドヌクレアーゼであり、Tリッチなプロトスペーサー隣接モチーフ（TTN、TTTN、またはYTN）を利用する。さらに、Cpf1は、互い違い末端（staggered）のDNA二本鎖切断を介してDNAを切断する。16のCpf1ファミリータンパク質のうち、AcidaminococcusとLachnospiraceae由来の二つの酵素は、ヒト細胞において効率的なゲノム編集活性を有することが示されている。Cpf1タンパク質は当技術分野で公知であり、例えばYamano et al., “Crystal structure of Cpf1 in complex with guide RNA and target DNA.” Cell (165) 2016, p. 949-962（その全内容を参照により本明細書に組み込む）によって過去に記述されている。

ガイドヌクレオチド配列プログラミング可能なDNA結合タンパク質ドメインとして使用され得る、ヌクレアーゼ不活性Cpf1（dCpf1）バリアントも、本発明の組成物および方法において有用となる。Cpf1タンパク質は、Cas9のRuvCドメインに類似するRuvC様エンドヌクレアーゼドメインを有するが、HNHエンドヌクレアーゼドメインを有さず、Cpf1のN末端は、Cas9のアルファヘリックス性認識ローブを有さない。Zetsche et al., Cell, 163, 759-771, 2015（参照により本明細書に組み入れられる）において、Cpf1のRuvC様ドメインは両方のDNA鎖の切断を担い、RuvC様ドメインの不活性化はCpf1ヌクレアーゼ活性を不活性化することが示された。例えば、Francisella novicida Cpf1のD917A、E1006A、またはD1255Aに対応する変異は、Cpf1ヌクレアーゼ活性を不活性化する。いくつかの実施形態において、本開示のdCpf1は、D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、またはD917A/E1006A/D1255Aに対応する変異を含む。Cpf1のRuvCドメインを不活性化するあらゆる変異、例えば置換変異、欠失、または挿入が、本開示に従って使用され得ることを理解されたい。

いくつかの実施形態において、本明細書で提供される融合タンパク質のいずれかの核酸プログラミング可能なDNA結合タンパク質（napDNAbp）は、Cpf1タンパク質であり得る。ある態様において、Cpf1タンパク質は、Cpf1ニッカーゼ（nCpf1）である。ある実施形態において、Cpf1タンパク質は、ヌクレアーゼ不活性Cpf1（dCpf1）である。いくつかの実施形態において、Cpf1、nCpf1、またはdCpf1は、本明細書に開示されたCpf1配列と少なくとも 85%、少なくとも 90%、少なくとも 91%、少なくとも 92%、少なくとも 93%、少なくとも 94%、少なくとも 95%、少なくとも 96%、少なくとも 97%、少なくとも 98%、少なくとも 99%、or 少なくとも 99.5%の同一性であるアミノ酸配列を含む。いくつかの実施形態において、dCpf1は、本明細書に開示されるCpf1配列に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含み、D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、またはD917A/E1006A/D1255Aに対応する変異を含む。他の細菌種由来のCpf1も本開示に従って使用することができることを理解されたい。

野生型Francisella novicidaCpf1（D917、E1006、およびD1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 D917A（A917、E1006、およびD1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 E1006A（D917、A1006、およびD1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 D1255A（D917、E1006、およびA1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 D917A/E1006A（A917、A1006、およびD1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 D917A/D1255A（A917、E1006、A1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 E1006A/D1255A（D917、A1006、A1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

Francisella novicida Cpf1 D917A/E1006A/D1255A（A917、A1006、A1255は太字で下線を付している）
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN

いくつかの実施形態において、融合タンパク質中に存在するCas9ドメインの1つは、PAM配列に対する要求性を有さないガイドヌクレオチド配列プログラミング可能なDNA結合タンパク質ドメインで置き換えられ得る。

いくつかの実施形態において、核酸プログラミング可能なDNA結合タンパク質 (napDNAbp) は、微生物CRISPR-Cas系の単一エフェクターである。微生物CRISPR-Cas系の単一エフェクターは、Cas9、Cpf1、Cas12b/C2c1、およびCas12c/C2c3を含むが、これらに限定されない。典型的には、微生物CRISPR-Cas系は、クラス1系およびクラス2系に分けられる。クラス1の系は複数のサブユニットからなるエフェクター複合体をもち、クラス2の系は単一タンパク質エフェクターをもつ。例えば、Cas9とCpf1はクラス2エフェクターである。Cas9およびCpf1に加えて、3つの別個のクラス2 CRISPR-Cas系（Cas12b/C2c1およびCas12c/C2c3）がShmakov et al., “Discovery and Functional Characterization of Diverse Class 2 CRISPR Cas Systems”, Mol. Cell, 2015 Nov. 5; 60(3): 385-397によって記載されており、その全内容は参照により本明細書に組み込まれる。これらの系のうちの2つ、Cas12b/C2c1とCas12c/C2c3のエフェクターは、Cpf1に関連するRuvC様エンドヌクレアーゼドメインを含む。第3の系は、2つの予測HEPN RNaseドメインをもつエフェクターを含む。成熟CRISPR RNAの産生は、Cas12b/C2c1によるCRISPR RNAの産生とは異なり、tracrRNA非依存性である。Cas12b/C2c1はDNA切断のためにCRISPR RNAとtracrRNAの両方に依存する。

Alicyclobaccillus acidoterrastris Cas12b/C2c1（AacC2c1）の結晶構造はキメラ単一分子ガイドRNA（sgRNA）との複合体で報告されている。例えば、内容全体を参照により本明細書に組み込むLiu et al., “C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism”, Mol. Cell, 2017 Jan. 19; 65(2):310-322を参照されたい。また、三元複合体として標的DNAに結合したAlicyclobacillus acidoterrestris C2c1の結晶構造も報告されている。例えば、その全内容が参照により本明細書に組み込まれるYang et al., “PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas endonuclease”, Cell, 2016 Dec. 15; 167(7):1814-1828を参照されたい。標的および非標的DNA鎖の両方を伴うAacC2c1の触媒的に適格な立体配座が、単一のRuvC触媒ポケット内に独立に配置されて捕捉されており、Cas12b/C2c1媒介切断は標的DNAに互い違い7ヌクレオチドの切断をもたらす。Cas12b/C2c1三元複合体と、以前に同定されたCas9およびCpf1対応物との間の構造比較は、CRISPR‐Cas9系により用いられる機構の多様性を示す。

いくつかの実施形態において、本明細書で提供される融合タンパク質のいずれかの核酸プログラミング可能なDNA結合タンパク質 (napDNAbp) は、Cas12b/C2c1、またはCas12c/C2c3タンパク質であり得る。いくつかの実施形態において、napDNAbpは、Cas12b/C2c1タンパク質である。いくつかの実施形態において、napDNAbpは、Cas12c/C2c3タンパク質である。いくつかの実施形態において、napDNAbpは、天然に存在するCas12b/C2c1またはCas12c/C2c3タンパク質に対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含む。ある実施形態において、napDNAbpは、天然に存在するCas12b/C2c1またはCas12c/C2c3タンパク質である。いくつかの実施形態において、napDNAbpは、本明細書で提供されるnapDNAbp配列のいずれか1つに対して少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、または少なくとも99.5%の同一性を有するアミノ酸配列を含む。他の細菌種由来のCas12b/C2c1またはCas12c/C2c3も、本開示に従って使用することができることを理解されたい。

Cas12b/C2c1 (uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR-associated endo- nuclease C2c1 OS = Alicyclobacillus acido- terrestris (strain ATCC 49025 / DSM 3922/ CIP 106132 / NCIMB 13137/GD3B) GN=c2c1 PE=1 SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI

［核局在化配列（NLS）を含む融合タンパク質］
いくつかの態様において、本明細書で提供される融合タンパク質は、一つ以上（例えば2、3、4、5）の核ターゲティング配列、例えば、核局在化配列（NLS）をさらに含む。一実施形態では、二部分（bipartite）NLSが使用される。いくつかの態様において、NLSは、NLSを含むタンパク質の細胞核中への輸入(例えば核輸送によるもの)を促進するアミノ酸配列を含む。いくつかの実施形態において、本明細書において提供される融合タンパク質のいずれかは、核局在化配列（NLS）をさらに含む。いくつかの実施形態において、NLSは融合タンパク質のN末端に融合される。いくつかの実施形態において、NLSは融合タンパク質のC末端に融合される。いくつかの実施形態において、NLSはCas9ドメインのN末端に融合される。いくつかの実施形態において、NLSはnCas9ドメインまたはdCas9ドメインのC末端に融合される。いくつかの実施形態において、NLSはデアミナーゼのN末端に融合される。いくつかの実施形態において、NLSはデアミナーゼのC末端に融合される。いくつかの実施形態において、NLSは、1つ以上のリンカーを介して融合タンパク質に融合される。ある態様において、NLSは、リンカーなしで融合タンパク質に融合される。いくつかの実施形態において、NLSは、本明細書において提供または参照されるNLS配列のいずれか1つのアミノ酸配列を含む。さらなる核局在化配列は当技術分野で公知であり、当業者には明らかであろう。例えば、NLS配列は、Plank et al., PCT/EP2000/011690に記載されており、その内容は、例示的な核局在化配列の開示について参照により本明細書に組み込まれる。ある態様において、NLSは、アミノ酸配列PKKKRKVEGADKRTADGSEFES PKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV、またはMDSLLMNRRKFLYQFKNVRWAKGRRETYLCを含む。いくつかの実施形態において、NLSはリンカー中に存在するか、またはNLSはリンカー、例えば本明細書に記載されるリンカーによって隣接される。いくつかの実施形態において、N末端またはC末端NLSは、二部分NLSである。二部分NLSは、比較的短いスペーサー配列によって分離される二つの塩基性アミノ酸クラスターを含む（それゆえにbipartite、2部分と呼ばれ、一部分（monopartite）NLSは異なる）。ヌクレオプラスミンのNLSであるKR[PAATKKAGQA]KKKKは遍在的な二部分シグナルのプロトタイプであり、塩基性アミノ酸の二つのクラスターが約10アミノ酸のスペーサーによって隔てられたものである。例示的な二部分NLSの配列は、PKKKRKVEGADKRTADGSEFES PKKKRKVである。

いくつかの態様において、本発明の融合タンパク質は、リンカー配列を含まない。ある態様において、1以上のドメインまたはタンパク質の間にリンカー配列が存在する。

本開示の融合タンパク質は、1つ以上のさらなる特徴を含み得ることが理解されるべきである。例えば、いくつかの態様において、融合タンパク質は、阻害因子、細胞質局在化配列、核輸出配列などの輸出配列、または他の局在化配列、ならびに融合タンパク質の可溶化、精製、または検出に有用な配列タグを含むことができる。本明細書において提供される適切なタンパク質タグには、限定されるものではないが、ビオチンカルボキシラーゼキャリアータグ (BCCP) タグ、myc-タグ、カルモジュリンタグ、FLAG-タグ、ヘマグルチニン (HA) -タグ、ポリヒスチジンタグ（ヒスチジンタグまたはHis-タグとも呼ばれる）、マルトース結合タンパク質 (MBP) -タグ、nus-タグ、グルタチオン-S-トランスフェラーゼ (GST) -タグ、緑色蛍光タンパク質 (GFP) -タグ、チオレドキシンタグ、S-タグ、ソフタグ(例えばSoftag1、Softag3)、ストレプトタグ、ビオチンリガーゼタグ、FLAsHタグ、V5タグ、およびSBP-タグが含まれる。さらなる適切な配列は、当業者には明らかであろう。いくつかの実施形態において、融合タンパク質は、1つ以上のHisタグを含む。

［リンカー］
ある実施形態において、本発明のペプチドまたはペプチドドメインのいずれかを連結するためにリンカーが使用され得る。リンカーは、共有結合のように単純であり得、またはそれは、多原子の長さであるポリマーリンカーであり得る。ある実施形態において、リンカーは、ポリペプチドであるか、またはアミノ酸に基づくものである。他の実施形態において、リンカーはペプチド様ではない。ある実施形態において、リンカーは、共有結合（例えば、炭素-炭素結合、ジスルフィド結合、炭素-ヘテロ原子結合、等）である。ある実施形態において、リンカーは、アミド連結の炭素-窒素結合である。特定の実施形態では、リンカーは、環状又は非環状、置換又は非置換、分枝又は非分枝の脂肪族又はヘテロ脂肪族リンカーである。ある実施形態において、リンカーは、ポリマー（例えばポリエチレン、ポリエチレングリコール、ポリアミド、ポリエステル、その他）である。特定の実施形態では、リンカーは、アミノアルカン酸のモノマー、ダイマー又はポリマーを含む。ある実施形態において、リンカーは、アミノアルカン酸（例えば、グリシン、エタン酸、アラニン、ベータ-アラニン、3-アミノプロパン酸、4-アミノブタン酸、5-ペンタン酸、等）を含む。特定の実施形態では、リンカーは、アミノヘキサン酸 (Ahx) のモノマー、ダイマー又はポリマーを含む。ある態様において、リンカーは、炭素環部分（例えばシクロペンタン、シクロヘキサン）に基づく。他の実施形態において、リンカーは、ポリエチレングリコール部分 (PEG) を含む。他の実施形態において、リンカーはアミノ酸を含む。ある態様において、リンカーはペプチドを含む。ある実施形態において、リンカーは、アリールまたはヘテロアリール部分を含む。ある実施形態において、リンカーは、フェニル環に基づく。リンカーは、ペプチドからの求核剤（例えばチオール、アミノ）がリンカーに結合することを促進するための官能化部分を含み得る。リンカーの一部として任意の求電子剤を使用することができる。例示的な求電子剤としては、活性化エステル、活性化アミド、マイケル受容体、ハロゲン化アルキル、ハロゲン化アリール、ハロゲン化アシル、およびイソチオシアナートが挙げられるが、これらに限定されない。

ある実施形態において、リンカーは、一アミノ酸または複数のアミノ酸（例えばペプチドまたはタンパク質）である。いくつかの実施形態において、リンカーは、結合（例えば共有結合）、有機分子、基、ポリマー、または化学的部分である。ある実施形態において、リンカーは、長さが約3～約104（例えば5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100）アミノ酸である。

［ガイドRNAを伴うCas9複合体］
本開示のいくつかの側面は、本明細書で提供された融合タンパク質のいずれかとガイドRNAとを含む複合体を提供する。核酸塩基エディターの活性のための最適な長さを達成するために、融合タンパク質のドメインを連結する任意の方法が利用され得る（例えば、(GGGS)_n、(GGGGS)_n、および(G)_nの形態の非常に柔軟なリンカーから、(EAAAK)_n、(SGGS)_n、SGSETPGTSESATPESの形態のより剛性の高いリンカーまで（例えばGuilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32(6): 577-82参照。その全内容は参照によりここに組み込まれる）、および (XP)_n）。いくつかの実施態様において、nは、1、2、3、4、5、6、7、8、9、10、11、12、13、14又は15である。ある実施形態において、リンカーは、(GGS)_nモチーフを含み、ここで、nは、1、3、または7である。いくつかの実施形態において、本明細書で提供される融合タンパク質のCas9ドメインは、アミノ酸配列SGSETPGTSESATPESを含むリンカーを介して融合される。

ある態様において、ガイド核酸(例えばガイドRNA)は、15～100ヌクレオチド長であり、標的配列に相補的である少なくとも10個の連続するヌクレオチドの配列を含む。いくつかの実施形態において、ガイドRNAは、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチドの長さである。いくつかの実施形態において、ガイドRNAは、標的配列に相補的な15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40個の連続したヌクレオチドの配列を含む。ある態様において、標的配列はDNA配列である。ある態様において、標的配列は、細菌、酵母、真菌、昆虫、植物または動物のゲノムにおける配列である。ある態様において、標的配列は、ヒトのゲノムにおける配列である。いくつかの実施形態において、標的配列の3’末端は、標準PAM配列 (NGG) にすぐ隣接している。いくつかの実施形態において、標的配列の3’末端は、非標準PAM配列（例えば表１に列挙されている配列）にすぐ隣接している。

本開示のいくつかの態様は、本明細書に提供される融合タンパク質または複合体を使用する方法を提供する。例えば、本開示のいくつかの局面は、DNA分子を、本明細書中に提供される融合タンパク質のいずれか、および少なくとも一つのガイドRNAと接触させることを含む方法を提供し、ここで、ガイドRNAは、約15～100ヌクレオチド長であり、標的配列に相補的である少なくとも10個の連続したヌクレオチドの配列を含む。いくつかの実施形態において、標的配列の3’末端は、AGC、GAG、TTT、GTG、またはCAA配列にすぐ隣接している。いくつかの実施形態において、標的配列の3’末端は、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、または5’ (TTTV) 配列にすぐ隣接している。

それぞれの配列における特定の位置または残基の番号付けは、使用される特定のタンパク質および番号付けスキームに依存することが理解されるであろう。たとえば、成熟タンパク質の前駆体と成熟タンパク質そのものとでは番号付けが異なることがあり、種ごとの配列の違いが番号付けに影響することがある。当業者は、当業者に周知の方法、例えば、配列アラインメントおよび相同的残基の決定によって、任意の相同的タンパク質およびそれぞれのコード核酸中のそれぞれの残基を同定することができる。

本明細書に開示された融合タンパク質のいずれかを標的部位、例えば、編集される突然変異を含む部位にターゲティングするためには、融合タンパク質をガイドRNAと共に共発現させることが典型的に必要であることは当業者には明らかであろう。本明細書の他の箇所でより詳細に説明されるように、ガイドRNAは、典型的には、Cas9結合を可能にするtracrRNAフレームワークと、Cas9:核酸編集酵素/ドメイン融合タンパク質に配列特異性を付与するガイド配列とを含む。あるいは、ガイドRNAおよびtracrRNAは、2つの核酸分子として別々に提供され得る。いくつかの態様において、ガイドRNAは、ガイド配列が標的配列に相補的な配列を含むという構造を含む。ガイド配列は典型的には20ヌクレオチド長である。Cas9:核酸編集酵素/ドメイン融合タンパク質を特定のゲノム標的部位にターゲティングするための適切なガイドRNAの配列は、本開示に基づいて当業者に明らかであろう。そのような適切なガイドRNA配列は、典型的には、編集される標的ヌクレオチドの50ヌクレオチド以内の上流または下流内の核酸配列に相補的なガイド配列を含む。提供された融合タンパク質のいずれかを特定の標的配列に標的化するのに適したいくつかの例示的なガイドRNA配列が本明細書に提供される。

［シチジンデアミナーゼ、アデノシンデアミナーゼおよびCas9ドメインを含む融合タンパク質を使用する方法］
本開示のいくつかの態様は、本明細書に提供される融合タンパク質または複合体を使用する方法を提供する。例えば、本開示のいくつかの局面は、変異をコードするDNA分子を、本明細書中に提供される融合タンパク質のいずれか、および少なくとも一つのガイドRNAと接触させることを含む方法を提供し、ここで、ガイドRNAは、約15～100ヌクレオチド長であり、標的配列に相補的である少なくとも10個の連続したヌクレオチドの配列を含む。いくつかの実施形態において、標的配列の3’末端は、正準PAM配列 (NGG) に直接隣接する。いくつかの実施形態において、標的配列の3'末端は、正準PAM配列 (NGG) に直接隣接していない。いくつかの実施形態において、標的配列の3’末端は、AGC、GAG、TTT、GTG、またはCAA配列にすぐ隣接している。いくつかの実施形態において、標的配列の3’末端は、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、または5’ (TTTV) 配列にすぐ隣接している。

本明細書に開示された、Cas9ドメインとシチジンデアミナーゼまたはアデノシンデアミナーゼを含む融合タンパク質のいずれかを標的部位、例えば、編集される突然変異を含む部位にターゲティングするためには、融合タンパク質をガイドRNA、例えばsgRNAと共に共発現させることが典型的に必要であることは当業者には明らかであろう。本明細書の他の箇所でより詳細に説明されるように、ガイドRNAは、典型的には、Cas9結合を可能にするtracrRNAフレームワークと、Cas9:核酸編集酵素/ドメイン融合タンパク質に配列特異性を付与するガイド配列とを含む。あるいは、ガイドRNAおよびtracrRNAは、2つの核酸分子として別々に提供され得る。いくつかの態様において、ガイドRNAは、ガイド配列が標的配列に相補的な配列を含むという構造を含む。ガイド配列は典型的には20ヌクレオチド長である。Cas9:核酸編集酵素/ドメイン融合タンパク質を特定のゲノム標的部位にターゲティングするための適切なガイドRNAの配列は、本開示に基づいて当業者に明らかであろう。そのような適切なガイドRNA配列は、典型的には、編集される標的ヌクレオチドの50ヌクレオチド以内の上流または下流内の核酸配列に相補的なガイド配列を含む。提供された融合タンパク質のいずれかを特定の標的配列に標的化するのに適したいくつかの例示的なガイドRNA配列が本明細書に提供される。

［塩基エディターの効率性］
本発明の融合タンパク質は、著しい割合のインデルを生成することなく、変異を含む特定のヌクレオチド塩基を有利に改変させる。本明細書において使用されるところの「インデル（indel）」は、核酸内のヌクレオチド塩基の挿入または欠失を指す。このような挿入または欠失は、遺伝子のコード領域内でフレームシフト突然変異を引き起こす可能性がある。いくつかの実施形態において、核酸において多数の挿入または欠失（すなわちインデル）を生じることなく、核酸内の特定のヌクレオチドを効率的に改変（例えば変異）する塩基エディターを生成することが望ましい。特定の実施形態では、本明細書に提供される塩基エディターのいずれかが、インデルと比べて意図された改変（例えば突然変異）のより大きな割合を生成することができる。いくつかの実施形態において、本明細書に提供される塩基エディターは、1:1より大きい、意図された突然変異対インデルの比を生成することができる。いくつかの実施形態において、本明細書に提供される塩基エディターは、少なくとも1.5:1、少なくとも2:1、少なくとも2.5:1、少なくとも3:1、少なくとも3.5:1、少なくとも4:1、少なくとも4.5:1、少なくとも5:1、少なくとも5.5:1、少なくとも6:1、少なくとも6.5:1、少なくとも7:1、少なくとも7.5:1、少なくとも8:1、少なくとも10:1、少なくとも12:1、少なくとも15:1、少なくとも20:1、少なくとも25:1、少なくとも30:1、少なくとも40:1、少なくとも50:1、少なくとも100:1、少なくとも200:1、少なくとも300:1、少なくとも400:1、少なくとも500:1、少なくとも600:1、少なくとも700:1、少なくとも800:1、少なくとも900:1、もしくは少なくとも1000:1、またはそれ以上の、意図される突然変異対インデルの比を生じることができる。意図する突然変異およびインデルの数は、任意の適切な方法を用いて決定することができる。

いくつかの態様において、本明細書において提供される塩基エディターは、核酸の領域におけるインデルの形成を制限することができる。ある態様において、その領域は、塩基エディターによって標的化されるヌクレオチドのところにあるか、または塩基エディターによって標的化されるヌクレオチドの2、3、4、5、6、7、8、9または10ヌクレオチド以内の領域である。いくつかの実施形態では、本明細書で提供される塩基エディターのいずれかは、核酸の領域においてインデルの形成を1%未満、1.5%未満、2%未満、2.5%未満、3%未満、3.5%未満、4%未満、4.5%未満、5%未満、6%未満、7%未満、8%未満、9%未満、10%未満、12%未満、15%未満、または20%未満に制限することができる。核酸領域で形成されるインデルの数は、核酸（例えば細胞のゲノム内の核酸）が塩基エディターに曝される時間の量に依存し得る。いくつかの実施形態において、インデルの数または割合は、核酸（例えば細胞のゲノム内の核酸）を塩基エディターに曝してから少なくとも1時間、少なくとも2時間、少なくとも6時間、少なくとも12時間、少なくとも24時間、少なくとも36時間、少なくとも48時間、少なくとも3日、少なくとも4日、少なくとも5日、少なくとも7日、少なくとも10日、または少なくとも14日後に決定される。

本開示のいくつかの態様は、本明細書で提供されるいずれかの塩基エディターが、有意な数の非意図的突然変異を生成することなく、核酸（例えば対象のゲノム内の核酸）において意図された突然変異を効率的に生成することができるという認識に基づく。いくつかの実施形態において、意図される突然変異は、変異を改変または修正するように特に設計されたgRNAに結合した特異的塩基エディターによって生成される突然変異である。いくつかの実施形態において、本明細書で提供されるいずれかの塩基エディターは、意図された突然変異対意図されていない突然変異の比（例えば、意図した突然変異：意図しない突然変異）を1:1より大きくすることができるいくつかの実施形態において、本明細書で提供されるいずれかの塩基エディターは、意図された突然変異対意図されていない突然変異の比を、少なくとも1.5:1、少なくとも2:1、少なくとも2.5:1、少なくとも3:1、少なくとも3.5:1、少なくとも4:1、少なくとも4.5:1、少なくとも5:1、少なくとも5.5:1、少なくとも6:1、少なくとも6.5:1、少なくとも7:1、少なくとも7.5:1、少なくとも8:1、少なくとも10:1、少なくとも12:1、少なくとも15:1、少なくとも20:1、少なくとも25:1、少なくとも30:1、少なくとも40:1、少なくとも50:1、少なくとも100:1、少なくとも150:1、少なくとも200:1、少なくとも250:1、少なくとも500:1、または少なくとも1000:1にすることができる。本明細書の「塩基エディターの効率性」の節に記載される塩基エディターの特徴は、本明細書に提供される融合タンパク質、または融合タンパク質を使用する方法のいずれにも適用され得ることが理解されるべきである。

［核酸を編集する方法］
本開示のいくつかの態様は、核酸を編集するための方法を提供する。いくつかの実施形態において、本方法は、目的のポリペプチド（例えば疾患遺伝子の発現産物）をコードする核酸分子の核酸塩基を編集するための方法である。いくつかの実施形態において、本方法は、a) 核酸（例えば二本鎖DNA配列）の標的領域を、塩基エディターおよびガイド核酸（例えばgRNA）を含む複合体と接触させる工程と、b) 前記標的領域の鎖分離を誘導する工程と、c) 標的領域の一本鎖における前記標的核酸塩基対の第一の核酸塩基を第二の核酸塩基に変換する工程と、d) nCas9を使用して、前記標的領域の、一本を超えない数の鎖を切断する工程とを含み、ここで、第一の核酸塩基に相補的な第三の核酸塩基が、第二の核酸塩基に相補的な第四の核酸塩基によって置き換えられる。ある実施形態において、本方法は、核酸において20%未満のインデル形成をもたらす。一部の実施形態では、工程bが省略されることが理解されるべきである。いくつかの実施形態において、本方法は、19%未満、18%未満、16%未満、14%未満、12%未満、10%未満、8%未満、6%未満、4%未満、2%未満、1%未満、0.5%未満、0.2%未満、または0.1%未満のインデル形成をもたらす。いくつかの実施態様において、本方法は、第二の核酸塩基を、第四の核酸塩基に相補的な第五の核酸塩基で置き換え、それによって意図された編集塩基対（例えばG・CからA・T）を生成することをさらに含む。いくつかの実施形態では、意図された塩基対の少なくとも5%が編集される。いくつかの実施形態では、意図された塩基対の少なくとも10%、15%、20%、25%、30%、35%、40%、45%、または50%が編集される。

ある実施形態において、標的ヌクレオチドにおける意図された生成物対意図されない生成物の比は、少なくとも2:1、少なくとも5:1、少なくとも10:1、少なくとも20:1、少なくとも30:1、少なくとも40:1、少なくとも50:1、少なくとも60:1、少なくとも70:1、少なくとも80:1、少なくとも90:1、少なくとも100:1、もしくは少なくとも200:1、またはそれ以上である。いくつかの実施形態において、意図された突然変異対インデル形成の比は、1:1超、10:1超、50:1超、100:1超、500:1超、もしくは1000:1超、またはそれ以上である。いくつかの実施形態において、切断された一本鎖（ニック鎖）が、ガイド核酸にハイブリダイズされる。いくつかの実施態様において、切断された一本鎖は、第一の核酸塩基を含む鎖とは反対の鎖である。一部の実施形態では、塩基エディターはdCas9ドメインを含む。いくつかの実施形態において、塩基エディターは、編集されていない鎖を保護または結合する。いくつかの実施形態において、意図される編集塩基対は、PAM部位の上流にある。ある実施形態において、意図される編集塩基対は、PAM部位の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチド上流である。いくつかの実施形態において、意図される編集塩基対は、PAM部位の下流にある。いくつかの実施形態において、意図される編集塩基対は、PAM部位の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチド下流にある。いくつかの実施形態において、本方法は、正準（例えばNGG）PAMサイトを必要としない。一部の実施形態では、核酸塩基エディターはリンカーを含む。ある態様において、リンカーは、長さが1～25アミノ酸である。ある態様において、リンカーは、長さが5～20アミノ酸である。ある実施形態において、リンカーは、長さが10、11、12、13、14、15、16、17、18、19、または20アミノ酸である。一実施形態において、リンカーは、長さが32アミノ酸である。別の実施形態では、「長いリンカー（long linker）」は、長さが少なくとも約60アミノ酸である。他の実施形態において、リンカーは、長さが約3～100アミノ酸である。一部の実施形態では、標的領域は標的ウィンドウを含み、標的ウィンドウは標的核酸塩基対を含む。ある実施形態において、標的ウィンドウは、1～10ヌクレオチドを含む。いくつかの実施形態において、標的ウィンドウは、長さが1～9、1～8、1～7、1～6、1～5、1～4、1～3、1～2、または1ヌクレオチドである。ある態様において、標的ウィンドウは、長さが1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチドである。いくつかの実施形態において、意図される編集塩基対は、標的ウィンドウ内にある。いくつかの実施態様において、標的ウィンドウは、意図される編集塩基対を含む。いくつかの実施形態において、本方法は、本明細書に提供される塩基エディターのいずれかを用いて実施される。

いくつかの実施形態において、本開示は、ヌクレオチド（例えばSNP）を編集するための方法を提供する。いくつかの実施形態において、本開示は、二本鎖DNA配列の核酸塩基対を編集するための方法を提供する。いくつかの実施形態において、本方法は、a) 二本鎖DNA配列の標的領域を、塩基エディターおよびガイド核酸（例えばgRNA）を含む複合体と接触させ、ここで、標的領域が標的核酸塩基対を含む、工程と、b) 上記標的領域の鎖分離を誘導する工程と、c) 標的領域の一本鎖における前記標的核酸塩基対の第一の核酸塩基を第二の核酸塩基に変換する工程と、d) 前記標的領域の一本を超えない数の鎖を切断する工程と、を含み、ここで、第一の核酸塩基に相補的な第三の核酸塩基が、第二の核酸塩基に相補的な第四の核酸塩基によって置き換えられ、第二の核酸塩基が、第四の核酸塩基に相補的な第五の核酸塩基によって置き換えられ、それによって、意図された編集塩基対を生成し、ここで意図された塩基対を生成する効率は少なくとも5%である。一部の実施形態では、工程bは省略されることが理解されるべきである。いくつかの実施形態では、意図された塩基対の少なくとも5%が編集される。いくつかの実施形態では、意図された塩基対の少なくとも10%、15%、20%、25%、30%、35%、40%、45%、または50%が編集される。いくつかの態様において、本方法は、19%未満、18%未満、16%未満、14%未満、12%未満、10%未満、8%未満、6%未満、4%未満、2%未満、1%未満、0.5%未満、0.2%未満、または0.1%未満のインデル形成を引き起こす。ある実施形態において、標的ヌクレオチドにおける意図された生成物対意図されない生成物の比は、少なくとも2:1、少なくとも5:1、少なくとも10:1、少なくとも20:1、少なくとも30:1、少なくとも40:1、少なくとも50:1、少なくとも60:1、少なくとも70:1、少なくとも80:1、少なくとも90:1、少なくとも100:1、もしくは少なくとも200:1、またはそれ以上である。いくつかの実施形態において、意図された突然変異対インデル形成の比は、1:1超、10:1超、50:1超、100:1超、500:1超、もしくは1000:1超、またはそれ以上である。いくつかの実施形態において、切断された一本鎖が、ガイド核酸にハイブリダイズされる。いくつかの実施態様において、切断された一本鎖は、第一の核酸塩基を含む鎖とは反対の鎖である。いくつかの実施形態において、意図される編集塩基対は、PAM部位の上流にある。ある実施形態において、意図される編集塩基対は、PAM部位の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチド上流である。いくつかの実施形態において、意図される編集塩基対は、PAM部位の下流にある。いくつかの実施形態において、意図される編集塩基対は、PAM部位の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチド下流にある。いくつかの実施形態において、本方法は、正準（例えばNGG）PAMサイトを必要としない。ある態様において、リンカーは、長さが1～25アミノ酸である。ある態様において、リンカーは、長さが5～20アミノ酸である。ある実施形態において、リンカーは、長さが10、11、12、13、14、15、16、17、18、19、または20アミノ酸である。一部の実施形態では、標的領域は標的ウィンドウを含み、標的ウィンドウは標的核酸塩基対を含む。ある実施形態において、標的ウィンドウは、1～10ヌクレオチドを含む。いくつかの実施形態において、標的ウィンドウは、長さが1～9、1～8、1～7、1～6、1～5、1～4、1～3、1～2、または1ヌクレオチドである。ある態様において、標的ウィンドウは、長さが1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20ヌクレオチドである。いくつかの実施形態において、意図される編集塩基対は、標的ウィンドウ内で起こる。いくつかの実施態様において、標的ウィンドウは、意図される編集塩基対を含む。いくつかの実施形態において、核酸塩基エディターは、本明細書に提供される塩基エディターのいずれかである。

［多重編集］
いくつかの実施形態において、本明細書に提供される塩基エディターシステムは、1以上の遺伝子における複数の核酸塩基対の多重（マルチプレックス）編集を可能にする。ある態様において、複数の核酸塩基対は、同一遺伝子内に位置する。いくつかの実施形態において、複数の核酸塩基対は、1つまたはそれより多い遺伝子に位置し、ここで、少なくとも1つの遺伝子は、異なる遺伝子座に位置する。ある態様において、多重編集は、1以上のガイドポリヌクレオチドを含むことができる。いくつかの実施形態では、多重編集は、1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態において、多重編集は、単一のガイドポリヌクレオチドを有する1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態において、多重編集は、複数のガイドポリヌクレオチドを有する1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態において、多重編集は、単一の塩基エディター系を有する1以上のガイドポリヌクレオチドを含むことができる。いくつかの実施形態において、多重編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要としない少なくとも1つのガイドポリヌクレオチドを含むことができる。いくつかの実施形態において、多重編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要とする少なくとも1つのガイドポリヌクレオチドを含むことができる。いくつかの実施形態において、多重編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要としない少なくとも1つのガイドポリヌクレオチドと、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要とする少なくとも1つのガイドポリヌクレオチドとの混合物を含むことができる。本明細書に記載される塩基エディターのいずれかを使用する多重編集の特徴は、本明細書に提供される塩基エディターのいずれかを使用する方法の任意の組み合わせに適用され得ることを理解されたい。また、本明細書に記載される塩基エディターのいずれかを使用する多重編集は、複数の核酸塩基対の順次的編集を含むことができることを理解されたい。

いくつかの実施形態において、複数の核酸塩基対は、1つ以上の遺伝子内にある。ある実施形態において、複数の核酸塩基対は、同じ遺伝子内にある。いくつかの実施形態において、1つ以上の遺伝子における少なくとも1つの遺伝子は、異なる遺伝子座に位置する。

いくつかの実施形態において、編集は、少なくとも1つのタンパク質コード領域における複数の核酸塩基対の編集である。いくつかの実施形態において、編集は、少なくとも1つのタンパク質非コード領域における複数の核酸塩基対の編集である。いくつかの実施形態において、編集は、少なくとも1つのタンパク質コード領域および少なくとも1つのタンパク質非コード領域における複数の核酸塩基対の編集である。

いくつかの態様において、編集は、1以上のガイドポリヌクレオチドを伴う。いくつかの実施形態では、塩基エディターシステムは、1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態では、塩基エディターシステムは、単一のガイドポリヌクレオチドとともに1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態において、塩基エディターシステムは、複数のガイドポリヌクレオチドとともに1つ以上の塩基エディターシステムを含むことができる。いくつかの実施形態において、編集は、単一の塩基エディター系を有する1以上のガイドポリヌクレオチドを伴う。いくつかの実施形態において、編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要としない少なくとも1つのガイドポリヌクレオチドを伴う。いくつかの実施形態において、編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要とする少なくとも1つのガイドポリヌクレオチドを伴う。いくつかの実施形態において、編集は、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要としない少なくとも1つのガイドポリヌクレオチドと、標的ポリヌクレオチド配列への結合を標的化するためにPAM配列を必要とする少なくとも1つのガイドポリヌクレオチドとの混合物を伴う。本明細書に記載される塩基エディターのいずれかを使用する多重編集の特徴は、本明細書に提供される塩基エディターのいずれかを使用する方法の任意の組み合わせに適用され得ることを理解されたい。また、編集は、複数の核酸塩基対の順次的編集を含むことができることを理解されたい。

［宿主細胞における融合タンパク質の発現］
本発明の融合タンパク質は、細菌、酵母、真菌、昆虫、植物、および動物細胞を含むがこれらに限定されない実質的にあらゆる関心対象の宿主細胞において、当業者に知られている通常の方法を用いて発現され得る。例えば、本発明の融合タンパク質をコードするDNAは、cDNA配列に基づいてCDSの上流および下流のための適切なプライマーを設計することによってクローニングすることができる。クローン化されたDNAは、直接に、または必要に応じて制限酵素で消化した後に、または適切なリンカーおよび/または核局在化シグナルを追加した後で、塩基編集システムの1つ以上のさらなる成分をコードするDNAとライゲーションされ得る。塩基編集システムは宿主細胞内で翻訳されて複合体を形成する。

核酸塩基修飾活性を有する一つ以上のドメインをコードする一つ以上のポリヌクレオチド（例えば、アデノシンデアミナーゼ、シチジンデアミナーゼ、DNAグリコシラーゼ）を、napDNAbpをコードするポリヌクレオチドに作動可能に連結して、本発明の融合タンパク質をコードするポリヌクレオチドを調製することにより、融合タンパク質が生成される。いくつかの実施形態において、napDNAbqをコードするポリヌクレオチド、および核酸塩基修飾活性を有するドメインをコードするDNAは、それぞれ、結合ドメインまたはその結合パートナーをコードするDNAと融合されてもよく、または、両方のDNAが、分離インテインをコードするDNAと融合されてもよく、それによって、核酸配列認識変換モジュールおよび核酸塩基変換酵素は、宿主細胞中で翻訳されて複合体を形成する。これらの場合、所望であれば、リンカーおよび/または核局在化シグナルがDNAの一方または両方の適切な位置に連結され得る。

本明細書に記載のタンパク質ドメインをコードするDNAは、DNAを化学的に合成することによって、または合成された部分的に重複するオリゴDNA短鎖をPCR法およびギブソンアセンブリ法を利用して連結し、その全長をコードするDNAを構築することによって、得ることができる。化学合成またはPCR法もしくはGibsonアセンブリ法の組み合わせによって完全長DNAを構築する利点は、使用されるコドンを、DNAが導入される宿主に応じてCDS完全長で設計できることである。異種DNAの発現では、そのDNA配列を宿主生物で高頻度で使用されるコドンに変換することにより、タンパク質発現レベルが増加することが期待される。使用する宿主におけるコドン使用頻度のデータとしては、例えば、上総DNA研究所ホームページに開示されている遺伝コード使用頻度データベース（http://www.kazusa.or.jp/codon/index.html）を使用することができ、または各宿主におけるコドン使用頻度を示す文献を参照してもよい。得られたデータおよび導入されるDNA配列を参照して、そのDNA配列に用いられるコドンのうち宿主での使用頻度の低いコドンを、同じアミノ酸をコードしかつ使用頻度の高いコドンに変換し得る。

核酸配列認識モジュールおよび/または核酸塩基変換酵素をコードするDNAを含む発現ベクターは、例えば、適切な発現ベクター中のプロモーターの下流にそのDNAを連結することによって作製することができる。

発現ベクターとしては、Escherichia coli由来プラスミド（例えばpBR322、pBR325、pUC12、pUC13）；Bacillus subtilis由来プラスミド（例えば、pUB110、pTP5、pC194）；酵母由来プラスミド（例えばpSH19、pSH15）；昆虫細胞発現プラスミド（例えばpFast-Bac）；動物細胞発現プラスミド（例えばpA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo）；λファージ等のバクテリオファージ；バキュロウイルス等の昆虫ウイルスベクター（例えばBmNPV、AcNPV）；レトロウイルス、ワクシニアウイルス、アデノウイルス等の動物ウイルスベクター等が使用される。

プロモーターとしては、遺伝子発現に用いる宿主に適した任意のプロモーターを用いることができる。DSBを用いた従来の方法では、毒性のために宿主細胞の生存率が著しく低下することがあるため、誘導性プロモーターを用いることにより誘導開始までに細胞数を増やすことが望ましい。しかし、本発明の核酸修飾酵素複合体を発現させることにより十分な細胞増殖も得られるので、構成的プロモーターを用いることもできるが、これに限定されるものではない。

例えば、宿主が動物細胞である場合には、SRアルファプロモーター、SV40プロモーター、LTRプロモーター、CMV (サイトメガロウイルス) プロモーター、RSV (ラウス肉腫ウイルス)プロモーター、MoMuLV (モロニーマウス白血病ウイルス) LTR、HSV-TK (単純ヘルペスウイルスのチミジンキナーゼ)プロモーター等が用いられる。これらのうち、CMVプロモーター、SRアルファプロモーター等が好ましい。一実施形態において、プロモーターはCMVプロモーターまたはSRアルファプロモーターである。宿主細胞が大腸菌である場合、trpプロモーター、lacプロモーター、recAプロモーター、ラムダP.sub.Lプロモーター、lppプロモーター、T7プロモーター等のいずれかのプロモーターを使用することができる。宿主がバチルス属である場合、SPO1プロモーター、SPO2プロモーター、penPプロモーター等のいずれかのプロモーターを使用することができる。宿主が酵母の場合には、Gal1/10プロモーター、PHO5プロモーター、PGKプロモーター、GAPプロモーター、ADHプロモーター等のいずれかのプロモーターを用いることができる。宿主が昆虫細胞である場合には、ポリヘドリンプロモーター、P10プロモーター等を用いてもよい。宿主が植物細胞である場合、CaMV35Sプロモーター、CaMV19Sプロモーター、NOSプロモーター等のいずれかのプロモーターを用いることができる。

ある実施形態において、発現ベクターは、必要に応じて、エンハンサー、スプライシングシグナル、ターミネーター、ポリA付加シグナル、選択マーカー（例えば薬物耐性遺伝子、栄養要求性相補遺伝子など）、複製起点などを含むことができる。

本明細書に記載されるタンパク質ドメインをコードするRNAは、例えば、上記核酸配列認識モジュールおよび/または核酸塩基変換酵素をコードするDNAをコードするベクターをテンプレートとして使用することにより、それ自体公知のインビトロ転写系においてmRNAに転写することにより調製することができる。

融合タンパク質をコードする発現ベクターを宿主細胞に導入し、該宿主細胞を培養することにより、本発明の融合タンパク質を発現させることができる。本発明において有用な宿主細胞としては、細菌細胞、酵母、昆虫細胞、哺乳動物細胞などが挙げられる。

Escherichia属には、Escherichia coli K12.cndot.DH1［Proc. Natl. Acad. Sci. USA, 60, 160 (1968)］、Escherichia coli JM103［Nucleic Acids Research, 9, 309 (1981)］、Escherichia coli JA221［Journal of Molecular Biology, 120, 517 (1978)］、Escherichia coli HB101［Journal of Molecular Biology, 41, 459 (1969)］、Escherichia coli C600［Genetics, 39, 440 (1954)］等が含まれる。

Bacillus属には、Bacillus subtilis M1114 [Gene, 24, 255 (1983)]、Bacillus subtilis 207-21 [Journal of Biochemistry, 95, 87 (1984)] 等が含まれる。

本発明の融合タンパク質を発現するために有用な酵母としては、Saccharomyces cerevisiae AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、Schizosaccharomyces pombe NCYC1913、NCYC2036、Pichia pastoris KM71等が挙げられる。

融合タンパク質は、例えばAcNPVのようなウイルスベクターを用いて昆虫細胞で発現される。昆虫宿主細胞としては、ヨトウガ幼虫由来樹立株（Spodoptera frugiperda細胞；SF細胞）、Trichoplusianiの中腸由来MG1細胞、Trichoplusianiの卵由来のHigh Five（商標）細胞、Mamestra brassicae由来細胞、Estigmena acrea由来細胞等のいずれかの細胞株が用いられる。ウイルスがBmNPVの場合には、Bombyx mori由来樹立株の細胞（Bombyx mori N 細胞；BmN細胞）等を昆虫細胞として用いる。Sf細胞としては、例えば、Sf9細胞（ATCC CRL1711）、Sf21細胞［上記すべて、In Vivo, 13, 213-217 (1977)］等が挙げられる。

昆虫としては、例えば、Bombyx moriの幼虫、Drosophila、コオロギなどを用いて融合タンパク質が発現される（Nature, 315,592 (1985)）。

融合タンパク質を発現するために哺乳動物細胞株が使用され得る。このような細胞株としては、サルCOS-7細胞、サルVero細胞、チャイニーズハムスター卵巣 (CHO) 細胞、dhfr遺伝子欠損CHO細胞、マウスL細胞、マウスAtT-20細胞、マウスミエローマ細胞、ラットGH3細胞、ヒトFL細胞など、ヒトその他の哺乳動物のiPS細胞、ES細胞などの多能性幹細胞、および種々の組織から調製された初代培養細胞が使用される。また、ゼブラフィッシュ胚、Xenopus卵母細胞などを用いることもできる。

当業者によく知られる方法を用いて植物細胞が培養物中に維持され得る。植物細胞培養には、様々な植物（例えば、イネ、コムギ、トウモロコシ等の穀物、トマト、キュウリ、ナス等の農作物、カーネーション、Eustoma russellianum、タバコ、Arabidopsis thaliana）から調製される、懸濁培養細胞、カルス、プロトプラスト、葉断片、根断片等が関わる。

上記の宿主細胞は全て、ハプロイド（一倍体）または倍数体（例えば二倍体、三倍体、四倍体など）であり得る。従来の変異導入法では、変異は原則として1つの相同染色体にだけ導入されてヘテロ遺伝子型を作製する。したがって、優性変異が起こらない限り、望まれる表現型は発現せず、ホモ接合性は不都合にも労力と時間を必要とする。これに対して、本発明によれば、ゲノム中の相同染色体上のどの対立遺伝子にも変異を導入することができるので、劣性変異の場合でも一世代で所望の表現型を発現させることができ、従来の方法の問題点を解決することができるので極めて有用である。

本発明の融合タンパク質をコードする発現ベクターは、任意のトランスフェクション法を用いて宿主細胞に導入される（例えばリゾチーム法、コンピテント法、PEG法、CaCl₂共沈法、エレクトロポレーション法、マイクロインジェクション法、粒子銃法、リポフェクション法、アグロバクテリウム法等）。トランスフェクション方法は、トランスフェクションされるべき宿主細胞に基づいて選択される。

Escherichia coliは、例えばProc. Natl. Acad. Sci. USA, 69, 2110 (1972)、Gene, 17, 107 (1982)等に記載された方法に従って形質転換され得る。Bacillus属は、例えば、Molecular & General Genetics, 168, 111 (1979) 等に記載された方法によってベクター導入され得る。酵母細胞は、例えばMethods in Enzymology, 194, 182-187 (1991)、Proc. Natl. Acad. Sci. USA, 75, 1929 (1978) 等に記載された方法によってベクター導入され得る。昆虫細胞は、例えばBio/Technology, 6, 47-55 (1988)等に記載された方法によってベクター導入され得る。哺乳動物細胞は、例えば、Cell Engineering additional volume 8, New Cell Engineering Experiment Protocol, 263-267 (1995)（Shujunsha刊行）、およびVirology, 52, 456 (1973) に記載されている方法によってベクター導入され得る。

本発明の発現ベクターを含む細胞は、宿主に応じて変わる公知の方法に従って培養される。例えば、Escherichia coliまたはBacillus属を培養する場合、その培養のために使用される培地として液体培地が好ましい。培地は、好ましくは、形質転換体の成長に必要な炭素源、窒素源、無機物質等を含む。炭素源の例としては、グルコース、デキストリン、可溶性デンプン、スクロースなどが挙げられる。窒素源の例としては、アンモニウム塩、硝酸塩、コーンスティープリカー、ペプトン、カゼイン、肉エキス、大豆ケーキ、ジャガイモエキス等のような無機又は有機物質が挙げられ、無機物質としては、塩化カルシウム、リン酸二水素ナトリウム、塩化マグネシウム等が挙げられる。培地は、酵母エキス、ビタミン、成長促進因子などを含有してもよい。培地のpHは好ましくは約5～約8である。

Escherichia coliを培養するための培地としては、例えば、グルコース、カザミノ酸を含むM 9培地［Journal of Experiments in Molecular Genetics, 431-433, Cold Spring Harbor Laboratory, New York 1972］が好ましい。必要な場合には、例えば3.ベータ-インドリルアクリル酸のような薬剤が、プロモーターの効率的な機能を保証するために培地に添加され得る。Escherichia coliは、一般に約15～約43℃で培養される。必要ならば、曝気および撹拌を行ってもよい。

Bacillus属は一般に約30～約40℃で培養する。必要に応じて曝気及び攪拌が行われ得る。

酵母の培養のための培地の例としては、バークホルダー最少培地［Proc. Natl. Acad. Sci. USA, 77, 4505 (1980)］、0.5%カザミノ酸含有SD培地［Proc. Natl. Acad. Sci. USA, 81, 5330 (1984)］等が挙げられる。培地のpHは好ましくは約5～約8である。培養は、一般に約20℃～約35℃で行う。必要に応じて曝気及び攪拌を行ってもよい。

昆虫細胞や昆虫を培養するための培地としては、例えば、不活化10%ウシ血清等の添加剤を適宜含有するグレース昆虫培地（Nature, 195, 788 (1962)）等が用いられる。培地のpHは好ましくは約6.2～約6.4である。培養は一般に約27℃で行われる。必要に応じて曝気および撹拌を行ってもよい。

動物細胞を培養するための培地としては、例えば、約5～約20%のウシ胎児血清を含有する最小必須培地 (MEM)（Science, 122, 501 (1952)）、Dulbecco改変イーグル培地 (DMEM)（Virology, 8, 396 (1959)）、RPMI 1640培地（The Journal of the American Medical Association, 199, 519 (1967)）、199培地（Proceeding of the Society for the Biological Medicine, 73, 1 (1950)）等が使用される。培地のpHは好ましくは約6～約8である。培養は、一般に約30℃～約40℃で行われる。必要に応じて曝気および撹拌を行ってもよい。

植物細胞を培養するための培地としては、例えば、MS培地、LS培地、B5培地等が用いられる。培地のpHは好ましくは約5～約8である。培養は、一般に約20℃～約30℃で行われる。必要に応じて曝気及び撹拌を行ってもよい。

動物細胞、昆虫細胞、植物細胞等の高等真核細胞を宿主細胞として用いる場合には、本発明の塩基編集系をコードするDNAを、誘導性プロモーター（例えばメタロチオネインプロモーター（重金属イオンによって誘導される）、熱ショックタンパク質プロモーター（熱ショックによって誘導される）、Tet-ON/Tet-OFF系プロモーター（テトラサイクリンまたはその誘導体の追加または除去によって誘導される）、ステロイド応答性プロモーター（ステロイドホルモンまたはその誘導体によって誘導される）等）の制御下において宿主細胞に導入し、誘導物質が適切な段階で培地に添加されて（または培地から除去されて）核酸修飾酵素複合体の発現を誘導し、一定期間培養を行って塩基編集および標的遺伝子への変異の導入を実行し、塩基編集系の一過性の発現を実現することができる。

大腸菌などの原核細胞は誘導性プロモーターを利用することができる。誘導性プロモーターの例としては、lacプロモーター（IPTGによって誘導される）、cspAプロモーター（寒冷ショックによって誘導される）、araBADプロモーター（アラビノースによって誘導される）などが挙げられるが、これらに限定されない。

あるいは、動物細胞、昆虫細胞、植物細胞等の高等真核細胞を宿主細胞として用いる場合には、上述の誘導性プロモーターをベクター除去機序として利用することもできる。すなわち、宿主細胞で機能する複製起点をベクターに搭載し、複製に必要なタンパク質（例えば動物細胞についてはSV40 onおよびラージT抗原、oriP、およびEBNA-1等）をコードする核酸の発現を上記誘導性プロモーターにより制御する。その結果、誘導物質の存在下ではベクターは自律的に複製可能であるが、誘導物質を除去すると、自律的な複製はできず、ベクターは細胞分裂とともに自然に脱落する（Tet-OFF系ベクターではテトラサイクリンやドキシサイクリンの添加により自律的な複製ができない）。

［送達システム］
核酸塩基エディターおよびgRNAの、核酸に基づく送達
本開示による塩基編集システム（例えばマルチエフェクター核酸塩基エディター）をコードする核酸は、公知の方法によって、または本明細書に記載するように、対象に投与されるか、またはインビトロもしくはインビボで細胞に送達され得る。一実施形態において、核酸塩基エディターまたはマルチエフェクター核酸塩基エディターは、例えばベクター（例えばウイルスベクター又は非ウイルスベクター）、ベクターに基づかない方法（例えば裸のDNA、DNA複合体、脂質ナノ粒子を用いて）、またはそれらの組み合わせによって送達され得る。

核酸塩基エディターまたはマルチエフェクター核酸塩基エディターをコードする核酸は、例えばトランスフェクションまたはエレクトロポレーションによって、裸のDNAまたはRNAとして細胞（例えば、造血細胞もしくはその前駆細胞、造血幹細胞、および/または人工多能性幹細胞）に直接送達されるか、または標的細胞による取り込みを促進させる分子（例えばN-アセチルガラクトサミン）にコンジュゲート化され得る。本明細書に記載されるベクターのような核酸ベクターも使用され得る。

核酸ベクターは、本明細書中に記載される融合タンパク質のドメインをコードする1以上の配列を含むことができる。ベクターはまた、タンパク質をコードする配列に付随する（例えば、挿入されているか、融合されている）シグナルペプチド（例えば、核局在化、核小体局在化、またはミトコンドリア局在化のためのもの）をコードする配列も含むことができる。一例として、核酸ベクターは、一つ以上の核局在化配列（例えばSV40からの核局在化配列）を含むCas9コード配列と、デアミナーゼ（例えばアデノシンデアミナーゼおよび/またはシチジンデアミナーゼ）を含むことができる。

核酸ベクターはまた、任意の適切な数の調節/制御エレメント、例えばプロモーター、エンハンサー、イントロン、ポリアデニル化シグナル、Kozakコンセンサス配列、または内部リボソームエントリー部位 (IRES) を含むことができる。これらのエレメントは当技術分野でよく知られている。造血細胞については、適切なプロモーターは、IFNベータまたはCD45を含み得る。

本開示による核酸ベクターは、組換えウイルスベクターを含む。例示的なウイルスベクターは本明細書中に記載される。当技術分野で知られる他のウイルスベクターも使用することができる。さらに、ウイルス粒子を用いて、核酸および/またはペプチドの形態の塩基編集システム成分を送達することができる。例えば、「空の」ウイルス粒子は、任意の適切なカーゴを含有するようにアセンブルされ得る。ウイルスベクターおよびウイルス粒子はまた、標的化リガンドを組み込んで標的組織特異性を変化させるように操作することができる。

ウイルス性ベクターに加えて、本開示によるゲノム編集システムをコードする核酸を送達するために非ウイルス性ベクターを使用することもできる。非ウイルス性核酸ベクターの1つの重要なカテゴリーは、有機または無機であり得るナノ粒子のものである。ナノ粒子は当技術分野でよく知られており、任意の適切なナノ粒子設計を用いて、ゲノム編集システム構成要素またはそのような構成要素をコードする核酸を送達することができる。例えば、有機（例えば、脂質および/またはポリマー）ナノ粒子が、本開示の特定の実施形態において送達ビヒクルとしての使用のために適切となり得る。ナノ粒子製剤、および/または遺伝子導入において使用するための例示的な脂質を、表６（下記）に示す。

表７は、遺伝子移入および／またはナノ粒子製剤における使用のための例示的なポリマーを列記する。

表８は、本明細書に記載される融合タンパク質をコードするポリヌクレオチドのための送達方法を要約する。

別の局面において、例えばCas9もしくはそのバリアントなどの核酸結合タンパク質および目的のゲノム核酸配列を標的とするgRNAのような、ゲノム編集システム構成要素またはそのような構成要素をコードする核酸の送達は、リボ核タンパク質 (RNP) を細胞に送達することによって達成され得る。RNPは、標的化gRNAと複合体を形成した核酸結合タンパク質、例えば、Cas9を含む。RNPは、エレクトロポレーション、ヌクレオフェクション、またはカチオン性脂質媒介方法、例えば、Zuris, J.A. et al., 2015, Nat. Biotechnology, 33(1):73-80によって報告されているもののような、公知の方法を用いて細胞に送達することができる。RNPは、CRISPR塩基編集システムにおける使用のために有利であり、特に一次細胞のようなトランスフェクトが困難な細胞のために有利である。さらに、RNPは、細胞におけるタンパク質発現で起こり得る困難を軽減することもでき、特に、CRISPRプラスミドにおいて使用され得るCMVまたはEF1Aなどの真核生物プロモーターがよく発現されない場合にはそうである。有利なことに、RNPの使用は、細胞への外来DNAの送達を必要としない。さらに、核酸結合タンパク質およびgRNA複合体を含むRNPは、経時的に分解されるので、RNPの使用は、オフターゲット効果を制限する可能性を有する。プラスミドベースの技術の場合と同様の方法で、RNPは、結合タンパク質(例えばCas9バリアント)を送達するために、そして相同性依存修復（HDR）を導くために使用され得る。

核酸分子発現をコードする塩基エディターを駆動するために使用されるプロモーターは、AAV ITRを含み得る。これは、ベクター中のスペースを占領してしまい得るさらなるプロモーター要素の必要性を排除するために有利であり得る。解放された追加のスペースは、ガイド核酸または選択マーカーなどの追加のエレメントの発現を駆動するために使用することができる。ITR活性は比較的弱いので、これは選択したヌクレアーゼの過剰発現による潜在的毒性を低減するために使用できる。

任意の適切なプロモーターを使用して、塩基エディターおよび、適当な場合には、ガイド核酸の発現を誘導することができる。遍在性発現のために使用することができるプロモーターとしては、CMV、CAG、CBh、PGK、SV40、フェリチン重鎖または軽鎖などが挙げられる。脳または他のCNS細胞での発現については、適切なプロモーターとしては、全てのニューロンについてのシナプシンI、興奮性ニューロンについてのCaMKIIα、GABA作動性ニューロンについてのGAD67もしくはGAD65またはVGATなどのプロモーターが挙げられ得る。肝細胞での発現については、適切なプロモーターとしては、アルブミンプロモーターが挙げられる。肺細胞の発現については、適切なプロモーターはSP-Bを含むことができ、内皮細胞については、適切なプロモーターはICAMを含むことができ、造血細胞については、適切なプロモーターはIFNβまたはCD45を含むことができる。骨芽細胞については、適当なプロモーターにはOG-2が含まれ得る。

いくつかの実施形態において、本開示の塩基エディターは、同じ核酸分子内で別々のプロモーターが塩基エディターおよび適合性ガイド核酸の発現を駆動することを可能にするのに十分な小ささである。例えば、ベクターまたはウイルスベクターは、塩基エディターをコードする核酸に作動可能に連結された第1のプロモーター、およびガイド核酸に作動可能に連結された第2のプロモーターを含むことができる。

ガイド核酸の発現を駆動するために使用されるプロモーターには、U6またはH1などのPol IIIプロモーター、ならびにgRNAアデノ随伴ウイルス (AAV) を発現するためのPol IIプロモーターとイントロンのカセットの使用が含まれ得る。

ウイルスベクター
従って、本明細書に記載される塩基エディターは、ウイルスベクターを用いて送達され得る。いくつかの実施形態において、本明細書に開示される塩基エディターは、ウイルスベクターに含まれる核酸上にコードされ得る。いくつかの実施形態において、塩基エディターシステムの1つ以上の構成要素は、1つ以上のウイルスベクター上にコードされ得る。例えば、塩基エディターおよびガイド核酸は、単一のウイルスベクター上にコードされ得る。他の実施形態において、塩基エディターおよびガイド核酸は、異なるウイルスベクター上にコードされる。いずれの場合も、塩基エディターおよびガイド核酸はそれぞれ、プロモーターおよびターミネーターに作動可能に連結され得る。ウイルスベクター上にコードされる成分の組合せは、選択されたウイルスベクターのカーゴサイズ制約により決定され得る。

塩基エディターの送達のためのRNAまたはDNAウイルスベースのシステムの使用は、培養中または宿主中の特定の細胞にウイルスをターゲティングし、ウイルスの積荷を核または宿主細胞ゲノムに輸送する、高度に進化したプロセスを利用する。ウイルスベクターは、培養中の細胞、患者に直接投与することができ(in vivo)、またはそれらを用いて細胞をin vitroで処理し得、改変された細胞を任意で患者に投与することができる(ex vivo)。従来のウイルスベースのシステムは、遺伝子導入のためのレトロウイルス、レンチウイルス、アデノウイルス、アデノ随伴及び単純ヘルペスウイルスベクターを含み得る。レトロウイルス、レンチウイルス、およびアデノ随伴ウイルスの遺伝子導入法では、宿主ゲノムへの組み込みが可能であり、しばしば挿入された導入遺伝子の長期発現をもたらす。さらに、多くの異なる細胞型および標的組織において高い形質導入効率が観察されている。

ウイルスベクターは、レンチウイルス（例えばHIVおよびHIVベースのベクター）、アデノウイルス（例えばAD100）、レトロウイルス（例えばマロニーマウス白血病ウイルス、MML-V）、ヘルペスウイルス（例えばHSV-2）、およびアデノ随伴ウイルス（例えばAAV）、またはその他のプラスミドもしくはウイルスベクタータイプを含み、特に、例えば米国特許第8,454,972号（製剤、アデノウイルスの用量）、米国特許第8,404,658号（製剤、AAVの用量）および米国特許第5,846,946号（製剤、DNAプラスミドの用量）、ならびにレンチウイルス、AAVおよびアデノウイルスを含む臨床試験に関する臨床試験および刊行物からの製剤および用量を用いるものが挙げられる。例えば、AAVについては、投与の経路、製剤および用量は、米国特許第8,454,972号におけるものおよびAAVを含む臨床試験におけるものとすることができる。アデノウイルスについては、投与の経路、製剤および用量は、米国特許第8,404,658号におけるものおよびアデノウイルスを含む臨床試験におけるものとすることができる。プラスミド送達については、投与の経路、製剤および用量は、米国特許第5,846,946号におけるものおよびプラスミドを含む臨床研究におけるものとすることができる。用量は平均的70 kgの個体（例えば成人男性）に基づくか外挿され得、体重および種の異なる患者、被験者、哺乳動物について調整することができる。投与の頻度は、医療従事者または獣医（例えば医師、獣医）の領域の範囲内であり、年齢、性別、全般的な健康状態、患者または対象の他の状態および対処される特定の状態または症状を含む通常の因子に依存する。ウイルスベクターを目的の組織に注入され得る。細胞型特異的塩基編集のためには、塩基エディターおよび任意のガイド核酸の発現は、細胞型特異的プロモーターによって駆動され得る。

レトロウイルスの指向性は、外来のエンベロープタンパク質を組み込み、標的細胞の潜在的な標的集団を拡大することによって変化させることができる。レンチウイルスベクターは、非分裂細胞を形質導入または感染させることができ、典型的には高いウイルス力価を産生するレトロウイルスベクターである。したがって、レトロウイルス遺伝子導入系の選択は標的組織に依存する。レトロウイルスベクターは、6～10 kbまでの外来配列のパッケージング能力を有するシス作用性の長い末端反復から構成される。最小シス作用性LTRは、ベクターの複製およびパッケージングのために十分であり、次いでそれを用いて治療遺伝子が標的細胞に組み込まれ、永続的な導入遺伝子発現が提供される。広く使用されているレトロウイルスベクターには、マウス白血病ウイルス (MuLV) 、テナガザル白血病ウイルス (GaLV) 、サル免疫不全ウイルス (SIV) 、ヒト免疫不全ウイルス (HIV) 、およびそれらの組み合わせに基づくものが含まれる(例えばBuchscher et al., J. Virol. 66:2731-2739 (1992); Johann et al., J. Virol. 66:1635-1640 (1992); Sommnerfelt et al., Virol. 176:58-59 (1990); Wilson et al., J. Virol. 63:2374-2378 (1989); Miller et al., J. Virol. 65:2220-2224 (1991); PCT/US94/05700参照)。

レトロウイルスベクター、特にレンチウイルスベクターは、標的細胞への効率的な組み込みのために所定の長さより小さいポリヌクレオチド配列を必要とし得る。例えば、9 kbを超える長さのレトロウイルスベクターは、より小さいサイズのものと比較して低いウイルス力価をもたらし得る。いくつかの実施形態において、本開示の塩基エディターは、レトロウイルスベクターを介して効率的なパッケージングおよび標的細胞への送達を可能にするのに十分なサイズである。いくつかの実施形態では、塩基エディターは、ガイド核酸および/またはターゲティング可能なヌクレアーゼ系の他の成分と共に発現された場合でも、効率的なパッキングおよび送達を可能にするサイズである。

一過性発現が好ましい用途では、アデノウイルスベースのシステムを使用することができる。アデノウイルスベクターは、多くの細胞型において非常に高い形質導入効率が可能であり、細胞分裂を必要としない。このようなベクターでは、高い力価および発現レベルが得られている。このベクターは比較的簡単な系で大量に生成できる。アデノ随伴ウイルス（「AAV」）ベクターもまた、例えば核酸およびペプチドのインビトロ生成において、ならびにインビボおよびエクスビボの遺伝子治療手順のために、標的核酸で細胞を形質導入することに使用され得る（例えば、West et al., Virology 160:38-47 (1987); 米国特許第4,797,368号; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994)を参照）。組換えAAVベクターの構築は、
米国特許第5,173,414号; Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat & Muzyczka, PNAS 81:6466-6470 (1984); およびSamulski et al., J. Virol. 63:03822-3828 (1989)を含む多くの刊行物に記載されている。

AAVはパルボウイルスファミリーに属する小さな一本鎖DNA依存性ウイルスである。4.7 kbの野生型 (wt) AAVゲノムは、それぞれ四つの複製タンパク質および三つのキャプシドタンパク質をコードする二つの遺伝子からなり、両側に145 bpの逆方向末端反復配列 (ITR) がある。ビリオンは三つのキャプシドタンパク質Vp1、Vp2およびVp3から成り、これらは同じオープンリーディングフレームから1:1:10比で産生されるが、異なるスプライシング (Vp1) および選択的翻訳開始部位(Vp2とVp3のそれぞれ)から産生される。Vp3はビリオン中に最も豊富に存在するサブユニットであり、ウイルスの指向性を規定する細胞表面での受容体認識に関与する。ウイルス感染性において機能するホスホリパーゼドメインがVp1のユニークなN末端に同定されている。

組換えAAV（rAAV）は、wt AAVと同様に、ベクター導入遺伝子カセットを挟むシス作用性145 bp ITRを利用し、外来DNAのパッケージングのために最大4.5 kbを提供する。感染後、rAAVは本発明の融合タンパク質を発現することができ、環状の頭・尾コンカテマーの状態のエピソームとして存在することにより、宿主ゲノムに組み込まれることなく存続することができる。このシステムを用いたrAAVの成功例は数多くあるが、in vitroおよびin vivoでは、パッケージング能力が限られているため、遺伝子のコード配列の長さがwt AAVゲノムの長さ以上である場合にAAV媒介遺伝子送達の使用が制限されている。

ウイルスベクターは、アプリケーションに基づいて選択することができる。例えば、インビボ遺伝子送達については、AAVが他のウイルスベクターよりも有利であり得る。ある実施形態において、AAVは低毒性を可能にするが、これは免疫応答を活性化させ得る細胞粒子の超遠心分離を必要としない精製方法に起因し得る。ある実施形態において、AAVは、宿主ゲノムに組み込まれないため、挿入変異誘発を引き起こす可能性の低さを可能にする。アデノウイルスは強い免疫応答を誘発するため、ワクチンとしてよく用いられる。ウイルスベクターのパッケージング能力が、ベクターにパッケージングすることができる塩基エディターのサイズを制限し得る。

AAVは約4.5 Kbまたは二つの145塩基逆末端反復配列 (ITR) を含め4.75 Kbのパッケージング能を有する。これは、開示された塩基エディター、ならびにプロモーターおよび転写ターミネーターが、単一のウイルスベクター中に収まり得ることを意味する。4.5 Kbまたは4.75 Kbより大きい構築物は、ウイルス産生の著しい低下をもたらし得る。例えば、SpCas9は非常に大きく、遺伝子自体が4.1 Kbを超えているため、AAVに詰め込むのは困難である。したがって、本開示の実施形態は、従来の塩基エディターよりも短い、開示された塩基エディターを利用することを含む。いくつかの例では、塩基エディターは4 kb未満である。開示された塩基エディターは4.5 kb、4.4 kb、4.3 kb、4.2 kb、4.1 kb、4 kb、3.9 kb、3.8 kb、3.7 kb、3.6 kb、3.5 kb、3.4 kb、3.3 kb、3.2 kb、3.1 kb、3 kb、2.9 kb、2.8 kb、2.7 kb、2.6 kb、2.5 kb、2 kb、または1.5 kb未満であり得る。いくつかの実施形態において、開示された塩基エディターの長さは4.5 kb以下である。

AAVは、AAV1、AAV2、AAV5、またはそれらの任意の組み合わせであり得る。標的とする細胞に関してAAVのタイプを選択することができる。例えば、AAV血清型1、2、5またはハイブリッドキャプシドAAV1、AAV2、AAV5またはそれらの任意の組合せを選択して、脳または神経細胞を標的化することができる；また、心臓組織を標的とするAAV4を選択することができる。AAV8は肝臓への送達に有用である。これらの細胞に関する特定のAAV血清型の表は、Grimm, D. et al, J. Virol. 82: 5887-5911 (2008)に見出され得る。

レンチウイルスは複雑なレトロウイルスであり、有糸分裂細胞と有糸分裂後細胞の両方に感染してその遺伝子を発現する能力をもつ。最も一般的に知られているレンチウイルスはヒト免疫不全ウイルス (HIV) であり、これは広範囲の細胞型を標的とするために他のウイルスのエンベロープ糖タンパク質を使用する。

レンチウイルスは以下のように調製できる。pCasES10（レンチウイルス伝達プラスミド骨格を含む）をクローニングした後、低継代（p=5）のHEK293FTを、T-75フラスコ中に播種し、抗生物質なしで、10%ウシ胎児血清を含むDMEM中でトランスフェクションの前日に50%コンフルエンスにした。20時間後、培地をOptiMEM（無血清）培地に変え、トランスフェクションを4時間後に行った。10μgのレンチウイルストランスファープラスミド（pCasES10）および以下のパッケージングプラスミド：5μgのpMD2.G（VSV-g偽型）および7.5μgのpsPAX2（gag/pol/rev/tat）で細胞をトランスフェクトする。トランスフェクションは4 mLのOptiMEM中でカチオン性脂質送達剤（50μlのリポフェクタミン2000および100μlのプラス試薬）を用いて行うことができる。6時間後、培地を10%ウシ胎児血清を含む抗生物質不含DMEMに変更する。これらの方法は細胞培養中に血清を用いるが、無血清法が好ましい。

レンチウイルスは以下のように精製できる。ウイルス上清を48時間後に回収する。上清をまずデブリから除去し、0.45μm低タンパク質結合（PVDF）フィルターを通して濾過する。次いで、これらを24,000 rpmで2時間超遠心機で遠心する。ウイルスペレットを50μlのDMEM中に4℃で一晩再懸濁する。次いでそれらを等分し、直ちに-80℃で凍結する。

別の実施形態では、ウマ伝染性貧血ウイルス (EIAV) に基づく最小の非霊長類レンチウイルスベクターも考えられる。別の実施形態では、血管静止タンパク質エンドスタチンおよびアンジオスタチンを発現するウマ感染性貧血ウイルスに基づくレンチウイルス遺伝子治療ベクター、RetinoStat（登録商標）を、網膜下注射を介して送達することが考えられる。別の実施形態では、自己不活化レンチウイルスベクターの使用が考えられる。

当該システムのあらゆるRNA、例えばガイドRNAまたは塩基エディターをコードするmRNAを、RNAの形態で細胞に送達することができる。塩基エディターをコードするmRNAは、インビトロ転写を使用して生成することができる。例えば、ヌクレアーゼmRNAは、以下の要素を含むPCRカセットを用いて合成することができる：T7プロモーター、任意でコザック配列（GCCACC）、ヌクレアーゼ配列、およびβグロビン-ポリAテールからの3’UTRのような3’UTR。このカセットは、T7ポリメラーゼによる転写のために使用され得る。ガイドポリヌクレオチド(例えばgRNA)もまた、インビトロ転写を用いて、T7プロモーター、次いで配列「GG」、およびガイドポリヌクレオチド配列を含有するカセットから転写され得る。

発現を増強し、毒性の可能性を低減するために、塩基エディターコード配列および/またはガイド核酸は、1以上の修飾ヌクレオシドを含むように修飾され得る（例えば擬似Uまたは5-メチル-Cを用いて）。

AAVベクターの小さいパッケージング能力は、このサイズを超える多数の遺伝子の送達および/または大きな生理学的調節エレメントの使用を困難にする。これらの課題は、例えば、送達されるタンパク質を2つ以上の断片に分割することによって対処することができ、ここで、N末端断片を分割インテイン-Nに融合し、C末端断片を分割インテイン-Cに融合する。そしてこれらの断片を2つ以上のAAVベクターにパッケージングする。一実施形態では、AAVキャプシドタンパク質上にグラフトされるマルチエフェクター塩基エディタータンパク質の断片または部分が、インテインを利用して繋げられる。本明細書中で使用される場合、「インテイン」とは、隣接するN末端エクステインおよびC末端エクステイン（例えば、連結されるべき断片）をライゲートする自己スプライシングタンパク質イントロン（例えばペプチド）を指す。異種タンパク質断片を連結するための特定のインテインの使用は、例えば、Wood et al., J. Biol. Chem. 289(21); 14512-9 (2014)に記載されている。例えば、インテインIntNおよびIntCは、別々のタンパク質断片に融合された場合、互いを認識して、自身をスプライスして排出し、それと同時に、融合している上記タンパク質断片の隣接するN-およびC-末端エクステインをライゲートして、それによってそれによって2つのタンパク質断片から完全長タンパク質を再構成する。他の適切なインテインは当業者に明らかであろう。

本発明の融合タンパク質の断片は、長さを変えることができる。ある態様において、タンパク質断片は、長さが2アミノ酸～約1000アミノ酸の範囲である。ある態様において、タンパク質断片は、長さが約5アミノ酸～約500アミノ酸の範囲である。ある態様において、タンパク質断片は、長さが約20アミノ酸～約200アミノ酸の範囲である。ある態様において、タンパク質断片は、長さが約10アミノ酸～約100アミノ酸の範囲である。他の長さの適切なタンパク質断片は、当業者には明らかであろう。

一実施形態では、大きな導入遺伝子発現カセットを二つの別々の半分(5’および3’末端、またはヘッドおよびテール)に分割することによって二重AAVベクターが生成され、カセットの各半分が単一のAAVベクター(5 kb未満)内にパッケージングされる。次いで、両方の二重AAVベクターによる同一細胞の同時感染に続いて、(1) 5’および3’ゲノム（二重AAV重複ベクター）間の相同組換え (HR)；(2) ITRを介した5′及び3′ゲノム(二重AAVトランススプライシングベクター)の尾・頭コンカテマー化；または (3) それら二つのメカニズムの組み合わせ(二重AAVハイブリッドベクター)により、完全長トランスジーン発現カセットの再構築が達成される。in vivoでの二重AAVベクターの使用は完全長タンパク質の発現をもたらす。二重AAVベクタープラットフォームの使用は、>4.7 kbの大きさの導入遺伝子のための効率的で実行可能な遺伝子導入戦略を表す。

［インテイン］
ある実施形態において、ヌクレアーゼ（例えばCas9）の一部または断片が、インテインに融合される。ヌクレアーゼは、インテインのN末端またはC末端に融合され得る。ある態様において、融合タンパク質の一部または断片は、インテインに融合され、AAVキャプシドタンパク質に融合される。インテイン、ヌクレアーゼおよびキャプシドタンパク質は、任意の配置(例えば、ヌクレアーゼ-インテイン-キャプシド、インテイン-ヌクレアーゼ-キャプシド、キャプシド-インテイン-ヌクレアーゼなど)で一緒に融合され得る。いくつかの実施形態において、インテインのN末端は融合タンパク質のC末端に融合され、インテインのC末端はAAVキャプシドタンパク質のN末端に融合される。

インテイン（intervening protein）は、多種多様な生物に見出される自己プロセシングドメインであり、タンパク質スプライシングとして知られるプロセスを行うものである。タンパク質スプライシングは、ペプチド結合の切断と形成の両方からなる多段階の生化学的反応である。タンパク質スプライシングの内因性基質は、インテインを含む生物に見出されるタンパク質であるが、インテインはまた、実質的にあらゆるポリペプチド骨格を化学的に操作するために使用することもできる。

タンパク質スプライシングでは、インテインは、二つのペプチド結合を切断することによって一前駆体ポリペプチドから自身を切り出し、それによって、隣接するエクステイン（外部タンパク質）配列を、新しいペプチド結合の形成を介して連結する。この転位は翻訳後に起こる（翻訳と同時に起こる可能性もある）。インテイン媒介性タンパク質スプライシングは自発的に起こり、インテインドメインの折りたたみだけを必要とする。

インテインの約5%が分割インテインであり、これらはN-インテインとC-インテインという二つの別々のポリペプチドとして転写され翻訳され、その各々が一つのエクステインに融合している。翻訳の際に、インテイン断片は、自発的にかつ非共有結合的に標準インテイン構造へとアセンブルし、トランスにタンパク質スプライシングを行う。タンパク質スプライシングの機序には一連のアシル転移反応が関わっており、これが、インテイン-エキステイン接合部における2つのペプチド結合の切断と、N-エキステインとC-エキステインの間の新しいペプチド結合の形成とをもたらす。このプロセスは、N‐エクステインとインテインのN‐末端とを繋げるペプチド結合の活性化によって開始される。事実上すべてのインテインは、N末端にシステインまたはセリンを有し、これがN-エクステインのC末端残基のカルボニル炭素を攻撃する。このNからO/Sへのアシル基の移動は、保存されたトレオニンとヒスチジン（TXXHモチーフと呼ばれる）、および一般的に見出されるアスパラギン酸によって促進され、直鎖状 (チオ)エステル中間体の形成をもたらす。次に、この中間体は、システイン、セリン、またはトレオニンであるC-エクステインの最初の残基 (+1) の求核攻撃によってトランス-(チオ)エステル化される。生成した分枝 (チオ)エステル中間体は、インテインの高度に保存されたC末端アスパラギンの環化というユニークな変換によって、解消される。この過程は、ヒスチジン（高度に保存されたHNFモチーフに見出されるもの）と最後から2番目のヒスチジンによって促進され、アスパラギン酸も関与し得る。このスクシンイミド生成反応は、反応複合体からインテインを切除し、非ペプチド結合を介して結合されたエクステインを残す。この構造は、インテイン非依存的態様で迅速に転位し、安定なペプチド結合になる。

いくつかの実施形態では、塩基エディター（例えばABE、CBE）のN末端断片が分割インテイン-Nに融合され、C末端断片が分割インテイン-Cに融合される。そしてこれらの断片を2つ以上のAAVベクターにパッケージングする。異種タンパク質断片を連結するための特定のインテインの使用は、例えば、Wood et al., J. Biol. Chem. 289(21); 14512-9 (2014)に記載されている。例えば、インテインIntNおよびIntCは、別々のタンパク質断片に融合された場合、互いを認識して、自身をスプライスして排出し、それと同時に、融合している上記タンパク質断片の隣接するN-およびC-末端エクステインをライゲートして、それによってそれによって2つのタンパク質断片から完全長タンパク質を再構成する。他の適切なインテインは当業者に明らかであろう。

いくつかの実施形態において、ABEは、SpCas9の選択された領域内のAla、Ser、Thr、またはCys残基においてN末端断片およびC末端断片に分割された。これらの領域は、Cas9結晶構造解析により同定されたループ領域に対応する。各断片のN-末端をインテイン-Nに融合させ、各断片のC-末端を、アミノ酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589、およびS590（下記配列で太字の大文字で示されている）においてインテインCに融合させる。

［核酸塩基エディターを用いた変異の標的化］
1つ以上の変異を標的とする核酸塩基エディターまたはマルチエフェクター核酸塩基エディターの適合性は、本明細書に記載されるように評価される。一実施形態では、対象の単一の細胞が、レポーター（例えばGFP）をコードする少量のベクターと一緒に、塩基編集システムで形質導入される。これらの細胞は、293T、K562またはU20Sなどの不死化ヒト細胞株を含め、当技術分野で知られる任意の細胞株であり得る。あるいは、（例えばヒトの）一次細胞を使用してもよい。そのような細胞は、最終的な細胞標的に関連したものであり得る。

送達は、ウイルスベクターを用いて実施され得る。一実施形態において、トランスフェクションは、脂質トランスフェクション（LipofectamineやFugeneなど）を用いて、またはエレクトロポレーションによって実施することができる。トランスフェクション後、GFPの発現を蛍光顕微鏡またはフローサイトメトリーのいずれかによって測定して、一貫した高レベルのトランスフェクションを確認することができる。最も高い活性を与えるエディターの組み合わせを決定するために、これらの予備的なトランスフェクションは異なる複数の核酸塩基エディターを含むことができる。

核酸塩基エディターの活性は、本明細書に記載のように、すなわち細胞のゲノムの配列決定をして標的配列の変化を検出することによって評価される。サンガー配列決定のためには、精製されたPCRアンプリコンをプラスミド骨格中にクローン化し、形質転換し、ミニプレップし、単一のプライマーで配列決定する。配列決定はまた、次世代配列決定技術を用いて実施されてもよい。次世代配列決定を使用する場合、アンプリコンは、意図された切断部位が非対称に配置された300～500 bpであり得る。PCRに続いて、次世代配列決定のアダプターおよびバーコード（たとえば、Illumina multiplexアダプターとインデックス）をアンプリコンの末端に付加し得る（例えば高スループット配列決定（例えばIllumina MiSeq上でのもの）で使用するために）。

最初の試験で最大レベルの標的特異的改変を誘導する融合タンパク質を、さらなる評価のために選択し得る。

特定の実施形態では、核酸塩基エディターまたはマルチエフェクター塩基エディターを用いて、目的のポリヌクレオチドを標的化する。一実施形態では、本発明の核酸塩基エディターまたはマルチエフェクター塩基エディターは、細胞のゲノム内の目的の変異を標的化するために使用されるガイドRNAと共に、細胞（例えば造血細胞もしくはその前駆細胞、造血幹細胞、および/または人工多能性幹細胞）に送達され、それによって変異を変化させる。いくつかの実施形態において、塩基エディターは、ガイドRNAによって標的指向化され、対象遺伝子の配列に1つ以上の編集を導入する。

一実施形態では、核酸塩基エディターまたはマルチエフェクター核酸塩基エディターを用いて、スプライス部位、エンハンサー、および転写調節エレメントを含むがこれらに限定されない調節配列を標的化する。次いで、その調節エレメントにより制御される遺伝子の発現に対する該改変の影響を、当該技術分野で知られる任意の方法を用いてアッセイする。

他の実施形態では、本発明の核酸塩基エディターまたはマルチエフェクター核酸塩基エディターを用いて、相補性決定領域（CDR）をコードするポリヌクレオチドを標的化し、それによって、発現されるCDRにおける改変を生じさせる。次いで、CDR機能に対するこれらの改変の効果を、例えば抗原に対するCDRの特異的結合を測定することによって、アッセイする。

さらに他の実施形態では、本発明のマルチエフェクター核酸塩基エディターを用いて、生物のゲノム内の目的のポリヌクレオチドを標的化する。一実施形態において、本発明のマルチエフェクター核酸塩基エディターは、細胞のゲノム内の様々な配列をタイル状にカバーするために使用されるガイドRNAのライブラリと共に細胞に送達され、それによってゲノム全体に渡って配列を系統的に改変する。

システムは、1つまたは複数の異なるベクターを含むことができる。一態様では、塩基エディターは、所望の細胞型における発現のためにコドン最適化され、それは好ましくは真核細胞、好ましくは哺乳動物細胞またはヒト細胞である。

一般に、コドン最適化とは、目的の宿主細胞における発現を増強するために、天然配列の少なくとも一つのコドン(例えば約1個、2個、3個、4個、5個、10個、15個、20個、25個、50個以上のコドン)を、天然アミノ酸配列を維持しながら、その宿主細胞の遺伝子においてより頻繁にまたは最も頻繁に使用されるコドンで置換することによって、核酸配列を改変するプロセスをいう。様々な種は特定のアミノ酸の特定のコドンについて特定の偏りを示す。コドンバイアス(生物間のコドン利用の違い)は、メッセンジャーRNA (mRNA) の翻訳効率としばしば相関し、それは特に、翻訳されるコドンの性質および特定のトランスファーRNA (tRNA) 分子の利用可能性に依存すると考えられている。細胞内の選択されたtRNAの優位性は、一般にペプチド合成で最も頻繁に使われるコドンを反映している。従って、遺伝子は、コドン最適化に基づいて、所与の生物における最適な遺伝子発現に合わせて調整することができる。コドン使用表は、例えば、「コドン使用データベース」www.kazusa.orjp/codon/ (2002年7月9日に訪問した)で容易に入手可能であり、これらの表は、多くの方法で適合させることができる。Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000)参照。例えばGene Forge (Aptagen; Jacobus, Pa.)のような、特定の宿主細胞における発現のために特定の配列をコドン最適化するためのコンピュータアルゴリズムも利用可能である。ある態様において、操作されたヌクレアーゼをコードする配列中の一つ以上のコドン(例えば1、2、3、4、5、10、15、20、25、50以上、または全てのコドン)は、特定のアミノ酸について最も頻繁に使用されるコドンに対応する。

パッケージング細胞は、典型的には、宿主細胞に感染し得るウイルス粒子を形成するために使用される。そのような細胞は、アデノウイルスをパッケージングする293細胞、およびレトロウイルスをパッケージングするpsi.2細胞またはPA317細胞を含む。遺伝子治療に使用されるウイルスベクターは、通常、核酸ベクターをウイルス粒子にパッケージする細胞株を作製することによって生成される。ベクターは、典型的には、パッケージングおよびその後の宿主への組み込みに必要な最小のウイルス配列を含み、他のウイルス配列は、発現されるべきポリヌクレオチドのための発現カセットによって置き換えられる。欠けているウイルス機能は、典型的にはパッケージング細胞株によってトランスに供給される。例えば、遺伝子治療に使用されるAAVベクターは、典型的には、パッケージングおよび宿主ゲノムへの組み込みに必要なAAVゲノムからのITR配列のみを有する。ウイルスDNAは、他のAAV遺伝子、すなわちrepおよびcapをコードするがITR配列を欠くヘルパープラスミドを含む細胞株においてパッケージングされ得る。細胞株は、ヘルパーとしてのアデノウイルスによっても感染され得る。ヘルパーウイルスは、AAVベクターの複製およびヘルパープラスミドからのAAV遺伝子の発現を促進することができる。場合によっては、ヘルパープラスミドは、ITR配列の欠如のために、有意な量ではパッケージングされない。アデノウイルスによる汚染は、例えばAAVよりもアデノウイルスの方が感受性である熱処理によって減少させることができる。

［マルチエフェクター核酸塩基エディターのアプリケーション］
マルチエフェクター核酸塩基エディターを用いて、目的のポリヌクレオチドを標的とし、タンパク質発現を改変する変化を作り出すことができる。一実施形態では、マルチエフェクター核酸塩基エディターは、スプライス部位、エンハンサー、および転写調節エレメントを含むがこれらに限定されない非コード配列または調節配列を改変するために使用される。次いで、当該技術分野で公知の任意の方法を用いて、その調節エレメントによって制御される遺伝子の発現に対する当該改変の影響をアッセイする。特定の実施形態において、マルチエフェクター核酸塩基エディターは、調節配列を実質的に変化させて、それによって、遺伝子発現を調節するその能力を消失させることができる。有利なことに、これは、他のRNAプログラミング可能ヌクレアーゼとは対照的に、ゲノム標的配列に二本鎖切断を生じることなく行うことができる。

マルチエフェクター核酸塩基エディターを用いて、目的のポリヌクレオチドを標的とし、タンパク質活性を改変する変化を作り出すことができる。例えば、突然変異誘発の文脈において、マルチエフェクター核酸塩基エディターは、エラープローンPCRおよび他のポリメラーゼベースの方法と比べて多くの利点を有する。本発明のマルチエフェクター核酸塩基エディターは、標的領域内の複数の塩基に変化を生じるので、そのような変異は、エラープローンPCRによって導入される変異と比較して、タンパク質レベルで発現される可能性がより高い。エラープローンPCRによって導入される変異は、コドン中の単一ヌクレオチド変化が依然として同じアミノ酸をコードし得ること（コドンの縮重）を考慮すると、タンパク質レベルで発現される可能性がより低い。ポリヌクレオチド全体にわたってランダムな変化を誘導するエラープローンPCRとは異なり、本発明のマルチエフェクター核酸塩基エディターは、対象タンパク質の小さな領域または限定された領域内の特定のアミノ酸を標的化するために使用できる。

他の実施形態において、本発明のマルチエフェクター核酸塩基エディターは、生物のゲノム内の目的のポリヌクレオチドを標的化するために使用される。一実施形態において、生物は、微生物叢の細菌（例えばBacteriodetes、Verrucomicrobia、Firmicutes；ガンマプロテオバクテリア、アルファプロテオバクテリア、Bacteriodetes、Clostridia、Erysipelotrichia、Bacilli；Enterobacteriales、Bacteriodales、Verrucomicrobiales、Clostridiales、Erysiopelotrichales、Lactobacillales；Enterobacteriaceae、Bacteroidaceae、Erysiopelotrichaceae、Prevotellaceae、Coriobacteriaceae、およびAlcaligenaceae、Escherichia、Bacteroides、Alistipes、Akkermansia、Clostridium、Lactobacillus）である。別の実施形態では、生物は農業上重要な動物（例えば牛、羊、山羊、馬、鶏、七面鳥）または植物（例えば大豆、小麦、トウモロコシ、米、タバコ、リンゴ、ブドウ、モモ、プラム、チェリー）である。1つの実施形態において、本発明のマルチエフェクター核酸塩基エディターは、細胞のゲノム内の種々の配列を標的化するために使用されるガイドRNAのライブラリーと共に細胞に送達され、それによってゲノム全体の配列を系統的に変化させる。1つの実施形態において、本発明のマルチエフェクター核酸塩基エディターは、細胞のゲノム内の種々の配列をタイル状にカバーするために使用されるガイドRNAのライブラリーと共に細胞に送達され、それによってゲノム全体の配列を系統的に変化させる。

突然変異を、種々のタンパク質のいずれかにおいて作製して、構造-機能分析を促進ささせ、またはタンパク質の内因性活性を変化させ得る。突然変異は、例えば、酵素（例えばキナーゼ、ホスファターゼ、カルボキシラーゼ、ホスホジエステラーゼ）または酵素基質、受容体またはそのリガンド、ならびに抗体およびその抗原において作製され得る。一実施形態では、マルチエフェクター核酸塩基エディターは、酵素の活性部位、受容体のリガンド結合部位、または抗体の相補性決定領域 (CDR) をコードする核酸分子を標的とする。酵素の場合、活性部位に変異を導入すると、酵素活性が増加、減少、または消失し得る。酵素に対する突然変異の影響は、当技術分野で知られるおよび/または当業者には明らかである多くのアッセイのいずれかを含む、酵素活性アッセイにおいて特徴付けされる。受容体の場合、リガンド結合部位に生成された変異は、リガンドに対する受容体親和性を増加、減少、または消失させ得る。このような突然変異の効果は、当技術分野で知られるおよび/または当業者には明らかである多くのアッセイのいずれかを含む、受容体/リガンド結合アッセイにおいてアッセイされる。抗体CDRの場合、CDR内に生成された突然変異は、抗原への結合を増加、減少、または消失させ得る。あるいは、CDR内に生成された突然変異は、抗原に対する抗体の特異性を変化させ得る。次いで、例えばその抗原に対するCDRの特異的結合を測定することによって、または任意の他の種類のイムノアッセイにおいて、CDR機能に対するこれらの改変の影響がアッセイされる。

［医薬組成物］
本開示の他の態様は、本明細書に記載される塩基エディター、融合タンパク質、または融合タンパク質-ガイドポリヌクレオチド複合体のいずれかを含む医薬組成物に関する。いくつかの態様において、医薬組成物は、薬学的に許容される担体をさらに含む。ある態様において、医薬組成物は、さらなる薬剤（例えば特異的送達、半減期の延長のためのもの、または他の治療化合物）を含む。

適切な薬学的に許容される担体は、一般に、対象に医薬組成物を投与することを助け、医薬組成物を送達可能な調製物に加工することを助け、または投与前に医薬組成物を保存することを助ける、不活性物質を含む。薬学的に許容される担体は、製剤の形態、質感、粘度、pH、薬物動態、溶解性を安定化、最適化、または他の態様で変化させることができる剤を含むことができる。

薬学的に許容される担体として役立つことができる物質のいくつかの非限定的な例は、以下を含む: (1) ラクトース、グルコースおよびスクロースのような糖;(2) コーンスターチ、ジャガイモでん粉等のでん粉;(3) セルロース及びその誘導体 (カルボキシメチルセルロースナトリウム、メチルセルロース、エチルセルロース、微結晶セルロース、酢酸セルロース等);(4) トラガント末;(5) モルト;(6)ゼラチン;(7) ステアリン酸マグネシウム、ラウリル硫酸ナトリウム、タルク等の潤滑剤;(8) ココアバター、坐剤用ワックス等の添加剤;(9) 落花生油、綿実油、ベニバナ油、ゴマ油、オリーブ油、コーン油、大豆油等の油;(10) プロピレングリコール等のグリコール;(11) ポリオール、例えばグリセリン、ソルビトール、マンニトール及びポリエチレングリコール (PEG); (12) エステル、例えばオレイン酸エチルおよびラウリン酸エチルなど;(13) 寒天;(14) 水酸化マグネシウム、水酸化アルミニウム等の緩衝剤;(15) アルギン酸;(16) パイロジェンフリー水;(17) 生理食塩液;(18) リンガー液;(19)エチルアルコール;(20) pH緩衝液;(21) ポリエステル、ポリカーボネート及び／又はポリ無水物;(22) ポリペプチドおよびアミノ酸のような増量剤 (23) エタノールのような血清アルコール;及び (23) 製剤に使用される他の非毒性適合性物質。緩衝剤、湿潤剤、乳化剤、希釈剤、封入剤、皮膚浸透増強剤、着色剤、離型剤、コーティング剤、甘味剤、風味料、香料、保存剤および抗酸化剤も製剤中に存在させることができる。例えば、担体は、限定されるものではないが、生理食塩水、緩衝生理食塩水、デキストロース、アルギニン、スクロース、水、グリセロール、エタノール、ソルビトール、デキストラン、カルボキシメチルセルロースナトリウム、およびそれらの組み合わせを含むことができる。

薬学的組成物は、約5.0～約8.0の範囲などの生理学的pHを反映する所定のレベルに製剤のpHを維持するために、一つ以上のpH緩衝化合物を含むことができる。水性液体製剤で使用されるpH緩衝化合物は、アミノ酸またはヒスチジンなどのアミノ酸の混合物、またはヒスチジンおよびグリシンなどのアミノ酸の混合物であり得る。あるいは、pH緩衝化合物は、製剤のpHを所定のレベル、例えば約5.0～約8.0の範囲に維持し、カルシウムイオンをキレートしない剤であることが好ましい。このようなpH緩衝化合物の典型的な例としては、イミダゾールおよび酢酸イオンが挙げられるが、これらに限定されない。pH緩衝化合物は、製剤のpHを所定のレベルに維持するのに適した任意の量で存在し得る。

薬学的組成物はまた、一つ以上の浸透圧調節剤、すなわち、処方物の浸透圧特性(例えば、等張性、オスモラリティ、および／または浸透圧)をレシピエント個体の血流および血液細胞にとって許容可能なレベルに調節する化合物を含有することができる。浸透圧調節剤は、カルシウムイオンをキレートしない薬剤であり得る。浸透圧調節剤は、製剤の浸透圧特性を調節する当業者に公知または入手可能な任意の化合物であり得る。当業者は、本発明の処方における使用のための所定の浸透圧調節剤の適合性を経験的に決定することができる。適切なタイプの浸透圧調節剤の例示的な例としては、塩化ナトリウムおよび酢酸ナトリウムのような塩；スクロース、デキストロース、マンニトールなどの糖;グリシンなどのアミノ酸;これらの薬剤および/または薬剤タイプの1つ以上の混合物が挙げられるが、これらに限定されない。浸透圧調節剤は、製剤の浸透圧特性を調節するのに十分な任意の濃度で存在し得る。

いくつかの実施形態において、薬学的組成物は、対象への送達のために、例えば遺伝子編集のために製剤化される。いくつかの実施形態において、本明細書で企図される薬学的組成物の投与は、限定されるものではないが、注入、輸血、または非経口的を含む従来の技術を用いて実施され得る。いくつかの実施形態において、非経口投与は、血管内、静脈内、筋肉内、動脈内、髄腔内、腫瘍内、皮内、腹腔内、経気管、皮下、角質下、関節内、莢膜内、くも膜下および胸骨内への注入または注射を含む。いくつかの実施形態において、本明細書に記載の医薬組成物を投与する適切な経路は、限定されるものではないが、局所、皮下、経皮、皮内、病巣内、関節内、腹腔内、膀胱内、経粘膜、歯肉、歯内、蝸牛内、経鼓膜、器官内、硬膜外、髄腔内、筋肉内、静脈内、血管内、骨内、眼周囲、腫瘍内、脳内、および脳室内投与を含む。

いくつかの態様において、本明細書に記載される薬学的組成物は、患部(例えば腫瘍部位)に局所的に投与される。いくつかの実施形態において、本明細書に記載される薬学的組成物は、注射、カテーテル、坐剤、またはインプラントによって、対象に投与され、インプラントは、多孔質、非多孔質、またはゼラチン質材料であり、例えば、シアラスティック膜、または繊維などの膜を含む。

他の態様において、本明細書に記載される薬学的組成物は、制御放出システムにおいて送達される。一実施形態では、ポンプを使用することができる（例えばLanger, 1990, Science 249: 1527-1533; Sefton, 1989, CRC Crit. Ref. Biomed. Eng. 14:201; Buchwald et al., 1980, Surgery 88:507; Saudek et al, 1989, N. Engl. J. Med. 321:574参照）。別の実施形態では、ポリマー材料を使用することができる。（例えばMedical Applications of Controlled Release (Langer and Wise eds., CRC Press, Boca Raton, Fla., 1974); Controlled Drug Bioavailability, Drug Product Design and Performance (Smolen and Ball eds., Wiley, New York, 1984); Ranger and Peppas, 1983, Macromol. Sci. Rev. Macromol. Chem. 23:61. See also Levy et al., 1985, Science 228: 190; During et al., 1989, Ann. Neurol. 25:351; Howard et ah, 1989, J. Neurosurg. 71: 105.）。他の制御放出システムは、例えば、上記Langerに記載されている。

いくつかの態様において、薬学的組成物は、対象、例えばヒトへの静脈内または皮下投与に適合された組成物として、ルーチンの手順に従って製剤化される。いくつかの態様において、注射による投与のための医薬組成物は、可溶化剤としての無菌等張使用の溶液および注射部位の痛みを緩和するためのリグノカインなどの局所麻酔薬である。一般に、成分は、単位投与形態、例えば、活性剤の量を示すアンプルまたはサシェットのような密閉容器内の乾燥凍結乾燥粉末または水を含まない濃縮物として、別々にまたは一緒に供給される。薬剤が注入によって投与される場合には、無菌の医薬グレードの水または生理食塩水を含む注入ボトルを用いてそれを分注することができる。医薬組成物が注射によって投与される場合、投与前に成分を混合することができるように、注射用滅菌水または生理食塩水のアンプルを提供することができる。

全身投与のための医薬組成物は、液体、例えば滅菌生理食塩水、乳酸化リンゲル液またはハンク液であり得る。さらに、医薬組成物は、固体形態であって、使用の直前に再溶解または懸濁され得る。凍結乾燥形態もまた考えられる。医薬組成物は、非経口投与にも適した、リポソームまたは微結晶などの脂質粒子または小胞内に含有することができる。粒子は、組成物がその中に含まれる限り、単ラメラまたは複数ラメラのような任意の適切な構造であり得る。化合物は、融合性脂質ジオレオイルホスファチジルエタノールアミン(DOPE)、低量(5-10モル%)のカチオン性脂質を含み、ポリエチレングリコール (PEG) コーティングにより安定化された、「安定化プラスミド脂質粒子」(SPLP)中に捕捉され得る (Zhang Y. P. et ah, Gene Ther. 1999, 6: 1438-47)。このような粒子および小胞には、N-[l-(2,3-ジオレオイルキシ)プロピル]-N,N,N-トリメチル-アモニウムメチル硫酸塩、あるいは「DOTAP」のような正電荷脂質が特に好ましい。このような脂質粒子の調製はよく知られている。例えば、米国特許第4,880,635；4,906,477；4,911,928；4,917,951；4,920,016;および4,921,757号参照（その各々は、参照により本明細書に組み込まれる）。

本明細書に記載の医薬組成物は、例えば、単位用量として投与または包装することができる。「単位用量」という用語は、本開示の薬学的組成物に関して使用される場合、対象のための単一用量として適した物理的に個別の単位を指し、各単位は、必要な希釈剤（例えば担体、またはビヒクル）と合わせて所望の治療効果を生じるように計算された所定量の活性物質を含有する。

さらに、この薬学的組成物は、 (a) 凍結乾燥形態の本発明の化合物を含有する容器、および (b) 本発明の凍結乾燥化合物の再構成または希釈のために使用される、薬学的に許容される希釈剤 (例えば無菌のもの) を含有する第2の容器を含む薬学的キットとして提供することができる。必要に応じて、そのような容器には、医薬品又は生物学的製剤の製造、使用又は販売を規制する政府機関によって規定された様式の通知であって、人に投与するための製造、使用又は販売の機関による承認を反映するものとすることができる。

別の態様では、上記疾患の治療に有用な材料を含む製品が含まれる。いくつかの実施態様において、製品は、容器及びラベルを含む。適切な容器は、例えばボトル、バイアル、シリンジ、および試験管を含む。容器は、ガラスまたはプラスチックなどの様々な材料から形成することができる。いくつかの実施形態において、容器は、本明細書に記載される疾患を治療するために有効である組成物を保持し、無菌アクセスポートを有し得る。例えば、容器は、静脈内溶液バッグ、または皮下注射針によって穿刺可能なストッパーを有するバイアルであり得る。組成物中の活性剤は、本発明の化合物である。いくつかの態様において、容器上のまたは容器に付随するラベルは、選択される疾患を治療するために組成物が使用されることを示す。製品は、リン酸緩衝生理食塩水、リンゲル液、またはデキストロース溶液などの薬学的に許容される緩衝液を含む第2の容器をさらに含むことができる。さらに、他の緩衝剤、希釈剤、フィルター、針、注射器、および使用説明書付き添付文書を含め、商業的観点および使用者の観点から望ましい他の物質を含むことができる。

いくつかの態様において、本明細書に記載される融合タンパク質、gRNA、および/または複合体のいずれかは、薬学的組成物の一部として提供される。いくつかの態様において、薬学的組成物は、本明細書に提供される融合タンパク質のいずれかを含む。いくつかの態様において、薬学的組成物は、本明細書に提供される複合体のいずれかを含む。いくつかの態様において、薬学的組成物は、gRNAおよびカチオン性脂質と複合体を形成するRNA-ガイドヌクレアーゼ（例えばCas9）を含むリボ核タンパク質複合体を含む。ある態様において、薬学的組成物は、gRNA、核酸プログラム可能DNA結合タンパク質、カチオン性脂質、および薬学的に許容される賦形剤を含む。薬学的組成物は、場合により、1つ以上の追加の治療活性物質を含むことができる。

いくつかの実施形態において、本明細書で提供される組成物は、対象内で標的化されたゲノム改変を行うために、対象、例えばヒト対象に投与される。いくつかの実施形態において、対象から細胞が取得され、本明細書中に提供される医薬組成物のいずれかと接触される。いくつかの実施形態において、対象から取り出されて医薬組成物とex vivoで接触された細胞は、任意で、所望のゲノム改変が細胞内で行われたかまたは検出された後に、対象に再導入される。ヌクレアーゼを含む医薬組成物を送達する方法は公知であり、例えば米国特許第6,453,242号、6,503,717号、6,534,261号、6,599,692号、6,607,882号、6,689,558号、6,824,978号、6,933,113号、6,979,539号、7,013,219号、および7,163,824号に記載されており、それらの全ての開示は、その全体が参照により本明細書に組み込まれる。本明細書で提供される医薬組成物の説明は、主として、ヒトへの投与に適した医薬組成物に向けられているが、当業者には、そのような組成物が、あらゆる種類の動物または生物への投与に一般的に適していることが理解される（例えば獣医学的用途）。

種々の動物への投与に適した組成物を与えるための、ヒトへの投与に適した医薬組成物の改変は十分に理解されており、通常の熟練した獣医薬理学者は、もし必要だとしても単に通常の実験で、そのような改変を設計および/または実施することができる。薬学的組成物の投与が意図される対象には、限定されるものではないが、ヒトおよび/または他の霊長類;哺乳動物、家畜、ペット、およびウシ、ブタ、ウマ、ヒツジ、ネコ、イヌ、マウス、および/またはラットなどの商業的に関連のある哺乳動物;ニワトリ、カモ、ガチョウ及び/又は七面鳥のような商業的に関連のある鳥類が含まれる。

本明細書に記載される薬学的組成物の製剤は、薬学の分野において公知の、または今後開発される任意の方法によって調製することができる。一般に、このような調製方法は、活性成分を賦形剤および/または1つ以上の他の補助成分と会合させ、次いで、必要および/または所望であれば、製品を所望の単回または複数回投与単位に成形および/または包装する工程を含む。薬学的製剤はさらに、薬学的に許容される賦形剤を含むことができ、それは、本明細書で使用される場合、所望の特定の剤形に適した、溶媒、分散媒体、希釈剤、または他の液体ビヒクル、分散または懸濁助剤、界面活性剤、等張剤、増粘剤または乳化剤、保存剤、固体結合剤、潤滑剤などのいずれかおよび全てを含む。Remington’s The Science and Practice of Pharmacy, 21st Edition, A. R. Gennaro (Lippincott, Williams & Wilkins, Baltimore, MD, 2006（参照によりその全体が本明細書に組み込まれる）は、薬学的組成物を製剤化する際に使用される種々の賦形剤およびその調製のための公知の技術を開示する。ヌクレアーゼを含む医薬組成物を製造するためのさらなる適切な方法、試薬、賦形剤および溶媒については、参照によりその全体が本明細書に組み込まれるPCT出願PCT/US2010/055131（2010年11月2日出願、公開番号WO2011/053982 A8）も参照のこと。

あらゆる従来の賦形剤媒体は、望ましくない生物学的効果を生じさせること、または他のかたちで医薬組成物の何らかの他の成分と有害な様式で相互作用することなどによって、物質またはその誘導体と不適合である場合を除き、その使用が本開示の範囲内にあると考えられる。

上記の組成物は、有効量で投与することができる。有効量は、投与方法、治療される特定の状態、および所望の結果に依存する。それはまた、状態のステージ、対象の年齢および身体的状態、もしあれば併用療法の性質、および医師によく知られた同様の因子に依存し得る。治療用途のためには、それは医学的に望ましい結果を達成するのに十分な量である。

いくつかの実施形態において、本開示による組成物は、様々な疾患、障害、および/または状態のいずれかの治療に使用することができる。

［キット、ベクター、細胞］
本開示の種々の態様は、塩基エディターシステムを含むキットを提供する。1つの実施形態において、キットは、核酸塩基エディター融合タンパク質をコードするヌクレオチド配列を含む核酸構築物を含む。融合タンパク質は、1つ以上のデアミナーゼドメイン（例えばシチジンデアミナーゼおよび/またはアデニンデアミナーゼ）と核酸プログラミング可能なDNA結合タンパク質 (napDNAbp) とを含む。ある実施形態において、キットは、対象核酸分子を標的化することができる少なくとも1つのガイドRNAを含む。いくつかの実施形態において、キットは、少なくとも1つのガイドRNAをコードするヌクレオチド配列を含む核酸構築物を含む。いくつかの実施形態において、キットは、 (a) 本明細書に提供されるアデノシンデアミナーゼおよび/またはシチジンデアミナーゼに融合されたCas9ドメインと、(b) 左記(a)の配列の発現を駆動する異種プロモーターとをコードするヌクレオチド配列を含む核酸構築物を含む。

キットは、いくつかの実施形態において、1つ以上の変異を編集するためにキットを使用するための指示書を提供する。指示書は、一般に、核酸分子を編集するためのキットの使用に関する情報を含む。他の実施形態では、指示書は、以下のうちの少なくとも1つを含む：注意書き；警告；臨床試験；および/または参考文献。指示書は、容器上に直接印刷してもよいし (それが存在する場合) 、容器に貼付するラベルとして印刷されてもよいし、容器内または容器と一緒に供給される独立したシート、パンフレット、カードまたはフォルダーとして印刷してもよい。さらなる実施形態では、キットは、適切な操作パラメータのためのラベルまたは別個の挿入物（パッケージインサート）の形態で指示書を含むことができる。さらに別の実施形態では、キットは、検出、較正、または正規化のための標準（複数可）として使用される、適切な陽性および陰性対照または対照サンプルを有する1つ以上の容器を含むことができる。キットはさらに、 (無菌の) リン酸緩衝生理食塩水、リンゲル液、またはデキストロース溶液などの薬学的に許容される緩衝液を含む第2の容器を含むことができる。それはさらに、他の緩衝液、希釈剤、フィルター、針、シリンジ、および使用説明書付きの添付文書を含む、商業的および使用者の観点から望ましい他の材料を含むことができる。

本開示のいくつかの態様は、本明細書に提供される核酸塩基エディターまたはマルチエフェクター核酸塩基エディターまたは融合タンパク質のいずれかを含む細胞を提供する。ある実施形態において、細胞は、本明細書に提供されるヌクレオチドまたはベクターのいずれかを含む。

本発明の実施は、別段の表示がない限り、分子生物学（組換え技術を含む）、微生物学、細胞生物学、生化学および免疫学の従来の技術を利用し、これらは当業者の技量の範囲内である。そのような技術は、“Molecular Cloning: A Laboratory Manual”, second edition (Sambrook, 1989); “Oligonucleotide Synthesis” (Gait, 1984); “Animal Cell Culture” (Freshney, 1987); “Methods in Enzymology” “Handbook of Experimental Immunology” (Weir, 1996); “Gene Transfer Vectors for Mammalian Cells” (Miller and Calos, 1987); “Current Protocols in Molecular Biology” (Ausubel, 1987); “PCR: The Polymerase Chain Reaction”, (Mullis, 1994); “Current Protocols in Immunology” (Coligan, 1991)などの文献で詳しく説明されている。これらの技術は、本発明のポリヌクレオチドおよびポリペプチドの製造に適用可能であり、したがって、本発明の製造および実施において考慮され得る。特定の実施形態のために特に有用な技術は、以下のセクションで論じられる。

以下の実施例は、当業者に本発明のアッセイ、スクリーニング、および治療方法をいかに作って使用するかの完全な開示および説明を提供するために記載されており、本発明者らがその発明とみなすものの範囲を限定することを意図するものではない。

［実施例１：低減された非標的脱アミノ化を有する核酸塩基エディターの構築］
核酸塩基エディター（例えば、CRISPR-Casタンパク質とリンカーによって結合されたデアミナーゼとの融合タンパク質）を用いて、標的ポリヌクレオチドに特異的な点変異を導入することができる。しかし、核酸塩基エディターは、意図しないゲノムワイドの目的外脱アミノ化、バイスタンダー変異、および標的近位編集の可能性を伴っている。理論に縛られることなく、塩基エディターからリンカーを短縮または除去することは、意図しない脱アミノ化事象の可能性を低減させ、および/または所望の標的脱アミノ化を促進する（図１）。これは、核酸塩基エディターのデアミナーゼドメインの活性の有効半径が減少することが一因であり得る。DNAに結合したCas9の構造はX線結晶構造解析によって決定されているが、塩基の編集が起こるDNA部分についての構造情報は存在しない。Cas9のモデリングにより、塩基編集が起こるDNAはCas9に近接した2つの位置にあり得ることが予測される（図２）。これらの予測に基づいて、デアミナーゼまたはその断片をこれらの位置の1つ以上に配置することは、望まない脱アミノ化事象を低減しながらオンターゲット塩基編集を促進する可能性を有する（図３）。アデノシン塩基エディター（例えばTadAに融合されたCas9）中に、TadAデアミナーゼまたはその断片の挿入を受けやすいいくつかの領域が同定された（図４～７）。従って、TadAまたはそのバリアントをCas9ポリペプチドの同定された位置に挿入するアデノシンデアミナーゼ塩基エディターを作製した。

［実施例２：オンターゲットおよびオフターゲット脱アミノ化を測定するためのハイスループットin vitroアッセイ］
目的外脱アミノ化を含む非標的脱アミノ化に対するオンターゲット脱アミノ化を測定する、核酸塩基エディターを評価し候補構築物を特徴付けるためのin vitroアッセイを開発した。FRETに基づくバージョンのこのアッセイは、検出のために蛍光レポーターを使用するが、このアッセイは、ゲルに基づく読み取りに適合させることができる（図８）。インビトロ脱アミノ化アッセイのためのプローブには、脱アミノ化のための基質、特に核酸塩基エディターのための基質が含まれる（図８）。脱アミノ化され得るヌクレオチドを含有することに加えて、プローブは、PAM配列、標的特異的配列など、あるいはランダム配列さえも含むことができる。プローブのセットを用いた脱アミノ化反応は並行して行うことができる（例えばハイスループットフォーマット）。基質の脱アミノ化（C→UまたはA→I）により、基質は脱アミノ化特異的エンドヌクレアーゼ（それぞれUSER／エンドヌクレアーゼV）によって切断可能となる（図８）。基質が切断されると、蛍光レポーターがクエンチャー分子から解離し、蛍光シグナルを生じる（図８）。高いオンターゲット対オフターゲット蛍光比は、塩基エディターが効果的であることを示す。当技術分野で公知の、相互作用するフルオロフォアおよびクエンチャー対あるいはFRETドナー-アクセプター対のいずれかを使用することができる。特定の実施形態では、フルオロフォアは、FAM、TET、HEX、TAMRA、JOE、またはROXのうちの1つ以上である。様々な実施形態では、クエンチャーは、ダブシル（dabcyl）、ダブシル（dabsyl）、ブラック・ホール・クエンチャーダイ（5'アイオワ・ブラック（登録商標）RQ (5 IabRQ) を含む）のうちの1種以上である。一般に、クエンチングダイは励起整合（excitation matched）クエンチングダイである。フルオロフォア-クエンチャー対およびそれらの選択は、例えば、Marras, Selection of Fluorophore and Quencher Pairs for Fluorescent Nucleic Acid Hybridization Probes in Methods in Molecular Biology: Fluorescent Energy Transfer Nucleic Acid Probes: Designs and Protocols. Edited by: V.V. Didenko (c)Humana Press Inc., Totowa, NJに記載されている。

このアッセイの実証として、アデノシン塩基エディターのオンターゲット脱アミノ化を、SpCas9（脱アミノ化ドメインなし）の存在下またはタンパク質なしで起こる脱アミノ化と比較することによって、オフターゲット脱アミノ化を生じさせる可能性についてアデノシン塩基エディターをアッセイした（図９）。アデノシン塩基エディター反応は、SpCas9反応およびタンパク質無しでの反応より高い蛍光シグナルを生成したことから、ABEがオンターゲット塩基編集に有効であることが示された。別の例では、アデノシン塩基エディターを、SpCas9がトランス（in trans）でTadAとともに存在する場合であるトランスでのアデノシン塩基編集（ABE-TadA）と比較した（図１０）。ABEは、ABE‐TadA、SpCas9、およびタンパク質なしでの反応に比べて増加された蛍光を生じ、オンターゲット塩基編集に有効であった。このアッセイでは、ゲノム内の他の構造（例えば、DNA「呼吸」、複製フォーク、転写活性DNAなど）を反映し得る一本鎖構造および分岐構造を含め、目的外オフターゲット塩基編集の潜在的基質を試験することができる（図１１）。

［実施例３：シス（in cis）およびトランス（in trans）でのデアミナーゼの活性を評価するアッセイ］
シスでのデアミナーゼ（CRISPR-Casに共有結合した脱アミノ化ドメイン）とトランスでのデアミナーゼ（トランスで提供される脱アミノ化ドメインを伴うCRISPR-Casタンパク質）との間で活性を区別するためのアッセイが開発された（図１２）。シスで起こる脱アミノ化は標的化塩基編集による脱アミノ化を示す一方、トランスでの脱アミノ化は目的外脱アミノ化を示す。シス／トランス活性の高い比は、デアミナーゼが低減された目的外脱アミノ化を有しており塩基エディターとして効果的であることを示している。

ラットAPOBEC1をシス・トランスアッセイで試験した。簡単に述べれば、塩基エディターBE4（rAPOBEC1-nCas9-UGI-UGI）、rAPOBEC1とnCas9、nCas9とガイドRNA、またはrAPOBEC1とガイドRNAを発現する構築物でHEK293T細胞をトランスフェクトした。ゲノムDNAを細胞から単離し、4つのゲノム標的部位について配列決定を得た。すべての部位で、rAPOBEC1は、トランスでのデアミナーゼ活性と比べて、ならびに標的化塩基編集のための成分の少なくとも1つを欠く他の対照反応と比べて、より高いシスデアミナーゼ活性を示した（図１３）。同様に、TadA7.10も、トランスでのデアミナーゼ活性および他の脱アミノ化事象と比較して、より高いシスデアミナーゼ活性を示した（図１４）。ガイドとは分離されたトランスでのアデノシン塩基エディターの作用を理解するために、SaCas9-ABEとSaCas9ガイドを、SpCas9-ABEとSaCas9ガイド、および立体障害ABEバリアントとSaCas9ガイドと組み合わせて試験した（図１５）。この文脈において、SpCas9-ABEは、塩基エディター文脈におけるTadA-TadA7.10に対してより低いトランス活性を示した。SaCas9ガイドアッセイからのトランスでの測定値と、ABEおよび立体障害性ABEバリアントの活性を用いて、ABEおよび立体障害性ABEバリアントについてのシス／トランス活性比を推定した。ABEおよび立体障害性ABEバリアントについて推定された比は比較的高かった。シス及びトランス活性についての用量応答性試験も実施して、高シス／トランス活性が用量によって調節され得るか（例えば、用量の増加に伴いシス活性の方がトランス活性より急速に増加する場合）どうかが検討された。試験した条件下では、シス／トランス活性の用量応答性は観察されなかった（図１６～１８）。

シス・トランスアッセイを用いて、表9に示す種々のデアミナーゼを目的外脱アミノ化の低減について評価した。

表９：シス・トランスアッセイを用いてスクリーニングしたデアミナーゼ

興味深いことに、ppAPOBEC-2、mAPOBEC-2、mAPOBEC-3、およびmfAPOBEC-4を含めいくつかのデアミナーゼが高いシス／トランス活性を示した。

rAPOBEC-1 Rattus norvegicus
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK

mAPOBEC-1 Mus musculus
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSN
HVEVNFLEKFTTERYFRPNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLY
HHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK

maAPOBEC-1 Mesocricetus auratus
MSSETGPVVVDPTLRRRIEPHEFDAFFDQGELRKETCLLYEIRWGGRHNIWRHTGQNTSRHVEINFIEKFTSERYFYPSTRCSIVWFLSWSPCGECSKAITEFLSGHPNVTLFIYAARLY
HHTDQRNRQGLRDLISRGVTIRIMTEQEYCYCWRNFVNYPPSNEVYWPRYPNLWMRLYALELYCIHLGLPPCLKIKRRHQYPLTFFRLNLQSCHYQRIPPHILWATGFI

hAPOBEC-1 Homo sapiens
MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLF
WHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHPSVAWR

ppAPOBEC-1 Pongo pygmaeus
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLF
WHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR

ocAPOBEC1 Oryctolagus cuniculus
MASEKGPSNKDYTLRRRIEPWEFEVFFDPQELRKEACLLYEIKWGASSKTWRSSGKNTTNHVEVNFLEKLTSEGRLGPSTCCSITWFLSWSPCWECSMAIREFLSQHPGVTLIIFVARLF
QHMDRRNRQGLKDLVTSGVTVRVMSVSEYCYCWENFVNYPPGKAAQWPRYPPRWMLMYALELYCIILGLPPCLKISRRHQKQLTFFSLTPQYCHYKMIPPYILLATGLLQPSVPWR

mdAPOBEC-1 Monodelphis domestica
MNSKTGPSVGDATLRRRIKPWEFVAFFNPQELRKETCLLYEIKWGNQNIWRHSNQNTSQHAEINFMEKFTAERHFNSSVRCSITWFLSWSPCWECSKAIRKFLDHYPNVTLAIFISRLYWHMDQQHRQGLKELVHSGVTIQIMSYSEYHYCWRNFVDYPQGEEDYWPKYPYLWIMLYVLELHCIILGLPPCLKISGSHSNQLALFSLDLQDCHYQKIPYNVLVATGLVQPFVTWR

mAPOBEC-2 Mus musculus
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK

hAPOBEC-2 Homo sapiens
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVE
YSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK

ppAPOBEC-2 Pongo pygmaeus
MAQKEEAAAATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVE
YSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEELEIQDALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK

btAPOBEC-2 Bos Taurus
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVE
YSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK

mAPOBEC-3 Mus musculus
MQPQRLGPRAGMGPFCLGCSHRKCYSPIRNLISQETFKFHFKNLGYAKGRKDTFLCYEVTRKDCDSPVSLHHGVFKNKDNIHAEICFLYWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQIVRFLATHHNLSLDIFSSRLYNVQDPETQQNLCRLVQEGAQVAAMDLYEFKKCWKKFVDNGGRRFRPWKRLLTNFRYQDSKLQEILRPCYISVPSSSSSTLSNICLTKGLPETRFWVEGRRMDPLSEEEFYSQFYNQRVKHLCYYHRMKPYLCYQLEQFNGQAPLKGCLLSEKGKQHAEILFLDKIRSMELSQVTITCYLTWSPCPNCAWQLAAFKRDRPDLILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVNPKRPFWPWKGLEIISRRTQRRLRRIKESWGLQDLVNDFGNLQLGPPMS

hAPOBEC-3A Homo sapiens
MEASPASGPRHLMDPHIFTSNFNNGIGRHKTYLCYEVERLDNGTSVKMDQHRGFLHNQAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFKHCWDTFVDHQGCPFQPWDGLDEHSQALSGRLRAILQNQGN

hAPOBEC-3B Homo sapiens
MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSNLLWDTGVFRGQVYFKPQYHAEMCFLSWFCGNQLPAYKCFQITWFVSWTPCPDCVAKLAEFLSEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVTIMDYEEFAYCWENFVYNEGQQFMPWYKFDENYAFLHRTLKEILRYLMDPDTFTFNFNNDPLVLRRRQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQNQGN

hAPOBEC-3C Homo sapiens
MNPQIRNPMKAMYPGTFYFQFKNLWEANDRNETWLCFTVEGIKRRSVVSWKTGVFRNQVDSETHCHAERCFLSWFCDDILSPNTKYQVTWYTSWSPCPDCAGEVAEFLARHSNVNLTIFTARLYYFQYPCYQEGLRSLSQEGVAVEIMDYEDFKYCWENFVYNDNEPFKPWKGLKTNFRLLKRRLRESLQ

hAPOBEC-3D Homo sapiens
MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSNLLWDTGVFRGPVLPKRQSNHRQEVYFRFENHAEMCFLSWFCGNRLPANRRFQITWFVSWNPCLPCVVKVTKFLAEHPNVTLTISAARLYYYRDRDWRWVLLRLHKAGARVKIMDYEDFAYCWENFVCNEGQPFMPWYKFDDNYASLHRTLKEILRNPMEAMYPHIFYFHFKNLLKACGRNESWLCFTMEVTKHHSAVFRKRGVFRNQVDPETHCHAERCFLSWFCDDILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLCYFWDTDYQEGLCSLSQEGASVKIMGYKDFVSCWKNFVYSDDEPFKPWKGLQTNFRLLKRRLREILQ

hAPOBEC-3F Homo sapiens
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPRLDAKIFRGQVYSQPEHHAEMCFLSWFCGNQLPAYKCFQITWFVSWTPCPDCVAKLAEFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYSEGQPFMPWYKFDDNYAFLHRTLKEILRNPMEAMYPHIFYFHFKNLRKAYGRNESWLCFTMEVVKHHSPVSWKRGVFRNQVDPETHCHAERCFLSWFCDDILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLYYFWDTDYQEGLRSLSQEGASVEIMGYKDFKYCWENFVYNDDEPFKPWKGLKYNFLFLDSKLQEILE

hAPOBEC-3G Homo sapiens
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN

hAPOBEC-4 Homo sapiens
MEPIYEEYLANHGTIVKPYYWLSFSLDCSNCPYHIRTGEEARVSLTEFCQIFGFPYGTTF
PQTKHLTFYELKTSSGSLVQKGHASSCTGNYIHPESMLFEMNGYLDSAIYNNDSIRHIIL
YSNNSPCNEANHCCISKMYNFLITYPGITLSIYFSQLYHTEMDFPASAWNREALRSLASL
WPRVVLSPISGGIWHSVLHSFISGVSGSHVFQPILTGRALADRHNAYEINAITGVKPYFT
DVLLQTKRNPNTKAQEALESYPLNNAFPGQFFQMPSGQLQPNLPPDLRAPVVFVLVPLRDLPPMHMGQNPNKPRNIVRHLNMPQMSFQETKDLGRLPTGRSVEIVEITEQFASSKEADEKKKKKGKK

mAPOBEC-4 Mus musculus
MDSLLMKQKKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSCSLDFGHLRNKSGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVAEFLRWNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIGIMTFKDYFYCWNTFVENRERTFKAWEGLHENSVRLTRQLRRILLPLYEVDDLRDAFRMLGF

rAPOBEC-4 Rattus norvegicus
MEPLYEEYLTHSGTIVKPYYWLSVSLNCTNCPYHIRTGEEARVPYTEFHQTFGFPWSTYP
QTKHLTFYELRSSSGNLIQKGLASNCTGSHTHPESMLFERDGYLDSLIFHDSNIRHIILY
SNNSPCDEANHCCISKMYNFLMNYPEVTLSVFFSQLYHTENQFPTSAWNREALRGLASLWPQVTLSAISGGIWQSILETFVSGISEGLTAVRPFTAGRTLTDRYNAYEINCITEVKPYFT
DALHSWQKENQDQKVWAASENQPLHNTTPAQWQPDMSQDCRTPAVFMLVPYRDLPPIHVNPSPQKPRTVVRHLNTLQLSASKVKALRKSPSGRPVKKEEARKGSTRSQEANETNKSKWKKQTLFIKSNICHLLEREQKKIGILSSWSV

mfAPOBEC-4 Macaca fascicularis
MEPTYEEYLANHGTIVKPYYWLSFSLDCSNCPYHIRTGEEARVSLTEFCQIFGFPYGTTY
PQTKHLTFYELKTSSGSLVQKGHASSCTGNYIHPESMLFEMNGYLDSAIYNNDSIRHIIL
YCNNSPCNEANHCCISKVYNFLITYPGITLSIYFSQLYHTEMDFPASAWNREALRSLASL
WPRVVLSPISGGIWHSVLHSFVSGVSGSHVFQPILTGRALTDRYNAYEINAITGVKPFFT
DVLLHTKRNPNTKAQMALESYPLNNAFPGQSFQMTSGIPPDLRAPVVFVLLPLRDLPPMHMGQDPNKPRNIIRHLNMPQMSFQETKDLERLPTRRSVETVEITERFASSKQAEEKTKKKKGKK

hAID Homo sapiens
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL

clAID Canis lupus familiaris
MDSLLMKQRKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSFSLDFGHLRNKSGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFAARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENREKTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL

btAID Bos Taurus
MDSLLKKQRQFLYQFKNVRWAKGRHETYLCYVVKRRDSPTSFSLDFGHLRNKAGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFTARLYFCDKERKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL

mAID Mus musculus
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL

pmCDA-1 Petromyzon marinus
MAGYECVRVSEKLDFDTFEFQFENLHYATERHRTYVIFDVKPQSAGGRSRRLWGYIINNPNVCHAELILMSMIDRHLESNPGVYAMTWYMSWSPCANCSSKLNPWLKNLLEEQGHTLTMHFSRIYDRDREGDHRGLRGLKHVSNSFRMGVVGRAEVKECLAEYVEASRRTLTWLDTTESMAAKMRRKLFCILVRCAGMRESGIPLHLFTLQTPLLSGRVVWWRV

pmCDA-2 Petromyzon marinus
MELREVVDCALASCVRHEPLSRVAFLRCFAAPSQKPRGTVILFYVEGAGRGVTGGHAVNYNKQGTSIHAEVLLLSAVRAALLRRRRCEDGEEATRGCTLHCYSTYSPCRDCVEYIQEFGASTGVRVVIHCCRLYELDVNRRRSEAEGVLRSLSRLGRDFRLMGPRDAIALLLGGRLANTADGESGASGNAWVTETNVVEPLVDMTGFGDEDLHAQVQRNKQIREAYANYASAVSLMLGELHVDPDKFPFLAEFLAQTSVEPSGTPRETRGRPRGASSRGPEIGRQRPADFERALGAYGLFLHPRIVSREADREEIKRDLIVVMRKHNYQGP

pmCDA-5 Petromyzon marinus
MAGDENVRVSEKLDFDTFEFQFENLHYATERHRTYVIFDVKPQSAGGRSRRLWGYIINNPNVCHAELILMSMIDRHLESNPGVYAMTWYMSWSPCANCSSKLNPWLKNLLEEQGHTLMMHFSRIYDRDREGDHRGLRGLKHVSNSFRMGVVGRAEVKECLAEYVEASRRTLTWLDTTESMAAKMRRKLFCILVRCAGMRESGMPLHLFT

yCD Saccharomyces cerevisiae
MVTGGMASKWDQKGMDIAYEEAALGYKEGGVPIGGCLINNKDGSVLGRGHNMRFQKGSATLHGEISTLENCGRLEGKVYKDTTLYTTLSPCDMCTGAIIMYGIPRCVVGENVNFKSKGEKYLQTRGHEVVVVDDERCKKIMKQFIDERPQDWFEDIGE

rAPOBEC-1 (delta 177-186)
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK

rAPOBEC-1 (delta 202-213)
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQHYQRLPPHILWATGLK

［実施例４：CBEとABEの内部融合体の構築］
CBEおよびABEの内部融合構築物は、SpCas9またはD10A変異を有するSpCas9ニッカーゼ内の高b因子位置にデアミナーゼをクローニングすることによって作製した。場合によっては、Cas9の構造的または機能的ドメインを部分的または欠失させてTadAドメイン（IBE020）で置き換えた。CBEを同様に挿入し、ウラシルDNAグリコシラーゼ阻害因子（UGI）ドメインでC末端を修飾した。

例示的な内部融合塩基エディターを下記表10に提供する。

構築物の配列を以下に示す。

Cas9 TadAins 1015 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1015
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

Cas9 TadAins 1022
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE003_Cas9: Cas9 TadAins 1029 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1029 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE004_Cas9: Cas9 TadAins 1040 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1040 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE005_Cas9: Cas9 TadAins 1068 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1068 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDTGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE006_Cas9: Cas9 TadAins 1247 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1247 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE007_Cas9: Cas9 TadAins 1054
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE008_Cas9: Cas9 TadAins 1026 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 1026 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE009_Cas9: Cas9 TadAins 768 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

Cas9 TadAins 768 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE020_delt: delta HNH TadA 792
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

delta HNH TadA 792
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE021_N-te: N-term fusion single TadA helix truncated 165-end
ATGTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGTCTGGTGGTTCTTCTGGTGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTGGTTCTTCTGGTGGTTCTGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE021_N-te: N-term fusion single TadA helix truncated 165-end
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE029_ISLA: TadA-CP116ins 1067
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE029_ISLA : TadA-CP116ins 1067
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE031_ISLA: TadACP136ins 1248
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE031_ISLA : TadACP136ins 1248
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE032_ISLA: TadACP136ins 1052 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE032_ISLA : TadACP136ins 1052 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE035_ISLA: delta 792-872 TadAins ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE035_ISLA : delta 792-872 TadAins MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE036_ISLA: delta 792-906 TadAins ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE036_ISLA : delta 792-906 TadAins MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE043_ISLA: TadA CP65ins 1246 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGTCTTTAACGCCCAGAAAAAAGCACAATCCTCTACTGACGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE043_ISLA : TadA CP65ins 1246 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

IBE044_ISLA: TadAins C-term truncate2 791 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGTTCTAGCGGCAGCGAGACTCCCGGGACCTCAGAGTCCGCCACACCCGAAAGTTCTGGTTCCGAAGTCGAGTTTTCCCATGAGTACTGGATGAGACACGCATTGACTCTCGCAAAGAGGGCTCGAGATGAACGCGAGGTGCCCGTGGGGGCAGTACTCGTGCTCAACAATCGCGTAATCGGCGAAGGTTGGAATAGGGCAATCGGACTCCACGACCCCACTGCACATGCGGAAATCATGGCCCTTCGACAGGGAGGGCTTGTGATGCAGAATTATCGACTTATCGATGCGACGCTGTACGTCACGTTTGAACCTTGCGTAATGTGCGCGGGAGCTATGATTCACTCCCGCATTGGACGAGTTGTATTCGGTGTTCGCAACGCCAAGACGGGTGCCGCAGGTTCACTGATGGACGTGCTGCATTACCCAGGCATGAACCACCGGGTAGAAATCACAGAAGGCATATTGGCGGACGAATGTGCGGCGCTGTTGTGTTACTTTTTTCGCATGCCCAGGCAGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGAC

IBE044_ISLA : TadAins C-term truncate2 791 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

pHRB-043_GGS-rAP: rAPOBEC1-XTEN-ins-site1_Y1016-D10A-UGIx2
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-043_GGS-rAP : rAPOBEC1-XTEN-ins-site1_Y1016-D10A-UGIx2
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

pHRB-044_GGS-rAP: rAPOBEC1-XTEN ins-site2_A1023-D10A-UGIx2 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-044_GGS-rAP : rAPOBEC1-XTEN ins-site2_A1023-D10A-UGIx2 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

pHRB-045_GGS-rAP: rAPOBEC1-XTEN ins-site3_E1029-D10A-UGIx2 ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-045_GGS-rAP : rAPOBEC1-XTEN ins-site3_E1029-D10A-UGIx2 MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

pHRB-046_GGS-rAP: rAPOBEC1-XTEN ins-site4_N1040-D10A-UGIx2
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-046_GGS-rAP : rAPOBEC1-XTEN ins-site4_N1040-D10A-UGIx2
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

pHRB-047_GGS-rAP: rAPOBEC1-XTEN ins-site5-T1069-D10A-UGIx2
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-047_GGS-rAP : rAPOBEC1-XTEN ins-site5-T1069-D10A-UGIx2
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

pHRB-048_GGS-rAP: rAPOBEC1-XTEN ins-site6-G1247-D10A-UGIx2
ATGGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCGGAGGCTCTGGAGGAAGCAGCTCTGAGACAGGACCTGTGGCCGTGGATCCCACACTGCGGAGAAGAATTGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGCCTGCGCGACCTGATCAGCAGCGGAGTGACAATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGGGCTCTTCTGGATCTGAAACACCTGGCACAAGTGAGAGCGCCACCCCTGAGAGCTCTGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGTGGAAGCGGAGGATCTGGCGGCAGCACCAATCTGAGCGACATCATCGAGAAAGAGACAGGCAAGCAGCTGGTCATCCAAGAGTCCATCCTGATGCTGCCTGAAGAGGTGGAAGAAGTGATCGGCAACAAGCCCGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGACGAGAACGTGATGCTGCTGACCTCTGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATCCAGGACAGCAACGGCGAGAACAAGATCAAGATGCTGAGCGGCGGCTCTGGTGGCTCTGGCGGATCTACAAACCTGTCCGATATTATTGAGAAAGAAACCGGGAAACAGCTCGTGATTCAAGAGTCTATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAGCCTGAGAGCGATATTCTGGTCCATACAGCCTACGACGAGTCTACCGATGAGAATGTCATGCTCCTCACCAGCGACGCTCCCGAGTATAAGCCATGGGCACTTGTCATTCAGGACTCCAATGGGGAAAACAAAATCAAAATGCTCCCAAAGAAAAAACGCAAGGTGGAGGGAGCTGATAAGCGCACCGCCGATGGTTCCGAGTTCGAAAGCCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC

pHRB-048_GGS-rAP : rAPOBEC1-XTEN ins-site6-G1247-D10A-UGIx2
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGGGSGGSSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGSSGSETPGTSESATPESSGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV*

［実施例５：ABE内部融合塩基エディター］
細胞における塩基編集を評価するために、リポフェクタミン2000 (Life Technologies) を用いて、sgRNAをコードする100 ngのプラスミドおよび塩基エディターをコードするプラスミドでHEK293T細胞を共トランスフェクトした。4日後、ゲノムDNAを分離し、標的ゲノム領域をPCRにより増幅した。配列決定アダプターを加えて、PCR産物のライブラリーを作製した。塩基編集領域を含む調製したPCRライブラリーをIllumina MiSeq上で配列決定した。

IBE003、IBE008、IBE007、IBE002、IBE001、IBE005、IBE006、IBE004、IBE021、IBE031、IBE020、IBE036、IBE035、IBE028、およびIBE009を用いて、HEK2 (GAACACAAAGCATAGACTGC) および T39 (GGACAGCTTTTCCTAGACAG)という２つの異なる標的配列における編集のパーセントを決定した（図２０Ｃ～Ｑ）。

［実施例６：内部融合塩基エディターの効率］
リポフェクタミン2000 (Life Technologies) を用いて、sgRNAをコードする100 ngのプラスミドおよび塩基エディターをコードするプラスミドでHEK293Tを共トランスフェクトした。4日後、ゲノムDNAを単離し、標的ゲノム領域をPCRにより増幅した。配列決定アダプターを加えて、PCR産物のライブラリーを作製した。塩基編集領域を含む調製したPCRライブラリーをIllumina MiSeq上で配列決定した。この実験に用いた標的部位を下記表11に示す。

配列決定リードを、元の標的配列に対して整列させ、編集のパーセントを測定した。図２２Ａを参照して、29個のゲノム標的における内部融合体の効率をABE7.10と比較して調べた。編集効率は、最良の位置（位置14；このグラフでは20がPAMから最も遠く1がPAMに最も近い）におけるABE7.10編集に対して正規化した。すべてのサイトにわたる内部塩基エディターの最大編集効率が、ABE7.10の最大編集効率に対して正規化される（図２２Ｂ）。ABE7.10に対して正規化された最大編集効率に基づく有効塩基編集ウィンドウは、ABE7.10と比較して内部フュージョンA塩基エディターでは改変された最大編集ウィンドウを示している（図２２Ｃ、Ｄ）。

［実施例７：内部融合塩基エディターの目的外脱アミノ化の評価］
ガイドを伴う塩基エディターを、SaCas9および異なる遺伝子座を標的とするガイドと共にトランスフェクトした。SaCas9は、目的外塩基編集（目的外＝ガイドにより標的化されていない）により脱アミノ化されるssDNAを生成する。目的外脱アミノ化を測定するために、SaCas9標的遺伝子座を配列決定した。トランス編集は、各部位におけるABE7.10トランス編集に対して正規化された。比較のために、各部位におけるABE7.10トランス編集部位に対して正規化したトランス編集アッセイにより、29の異なるIBE標的にわたる目的外脱アミノ化を測定した。部位ごとの全トランス編集を合計してから、その部位におけるABE7.10トランス編集に対して正規化した。試験された内部塩基エディター（IBE002、IBE004、IBE005、IBE006、IBE008、IBE009、IBE020）は、ABE7.10と比較して、低減された平均目的外脱アミノ化を示した。

［実施例８：内部融合A塩基エディターの塩基編集の評価］
ABE内部融合体を用いた塩基編集を、ハイスループット配列決定を用いて、実施例6に記載したようにHEK293T細胞を用いて評価した。このアッセイにおいて、ガイドは、HEK4, GGCACTGCGGCTGGAGGTGG (図24A); FANCF, GTAGGGCCTTCGCGCACCTCA (図24B); HEK-3, GGCCCAGACTGAGCACGTGA (図24C); HEK2-YY, GGAAACCTTGAATAAGAATGGA (図24D); EMX1, GAGTCCGAGCAGAAGAAGAA (図24E), およびHEK2, GAACACAAAGCATAGACTGC (図24F)という6つの異なる部位を標的とするように設計された。

ウェル当たり1万～2万のHEK293T細胞を播種した。75 ngのsgRNAおよび175 ngの塩基エディタープラスミドまたはCas9プラスミドを、1μlのリポフェクタミン2000を用いてトランスフェクトした。トランスフェクションの4日後、ゲノムDNAを分離し、標的部位をPCR増幅しIllumina MiSeq上で配列決定した。4万個のイルミナ配列決定リードのうち、注目された位置においてAからGへの変異を有するもののパーセントによって、パーセント編集を計算した。内部融合アデノシン塩基エディターは、ABE7.10と比較して、異なる最大編集ウインドウおよび低減されたオフターゲット編集を示す。（図２４Ａ～Ｆ）。

［実施例９：内部融合C塩基エディターの塩基編集の評価］
CBE内部融合体を用いた塩基編集を、ハイスループット配列決定を用いて、実施例6に記載したようにHEK293T細胞を用いて評価した。このアッセイでは、以下のCBE塩基エディターを使用した：BE4、HR001、HR002、HR003、HR004、HR005。このアッセイにおいて、ガイドは、HEK4, GGCACTGCGGCTGGAGGTGG (図25A); FANCF, GTAGGGCCTTCGCGCACCTCA (図25B); HEK-3, GGCCCAGACTGAGCACGTGA (図25C); HEK2-YY, GGAAACCTTGAATAAGAATGGA (図25D); EMX1, GAGTCCGAGCAGAAGAAGAA (図25E), およびHEK2, GAACACAAAGCATAGACTGCという6つの異なる部位を標的とするように設計された。4万個のイルミナ配列決定リードのうち、注目された位置においてCからTへの変異を有するもののパーセントによって、パーセント編集を計算した。内部融合シチジン塩基エディターは、ABE7.10と比較して、異なる最大編集ウィンドウおよび低減されたオフターゲット編集を示す（図２４Ａ～Ｆ）。

塩基エディターシステムの方法および組成物ならびに使用を包含する、以下の番号を付した追加の実施形態が本明細書で企図される。

１．Cas9ポリペプチドのN末端断片とC末端断片とによって隣接されたデアミナーゼを含む融合タンパク質であって、該融合タンパク質のデアミナーゼは標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、ここで、N末端断片またはC末端断片が標的ポリヌクレオチド配列に結合し、N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、融合タンパク質。
２．配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化により前記標的核酸塩基が脱アミノ化される、実施形態1の融合タンパク質。
３．標的核酸塩基が、標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（PAM）配列から1～20核酸塩基離れている、実施形態1または2の融合タンパク質。
４．標的核酸塩基がPAM配列の2～12核酸塩基上流にある、実施形態3の融合タンパク質。
５．N末端断片のC末端またはC末端断片のN末端が、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む、実施形態1～4のいずれか1つの融合タンパク質。
６．N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドのαヘリックス構造の一部を含む、実施形態1～4のいずれか1つの融合タンパク質。
７．N末端断片またはC末端断片がDNA結合ドメインを含む、実施形態1～4のいずれか1つの融合タンパク質。
８．N末端断片またはC末端断片がRuvCドメインを含む、実施形態1～4のいずれか1つの融合タンパク質。
９．N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態1～4のいずれか1つの融合タンパク質。
１０．Cas9ポリペプチドの可撓性ループが、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置におけるアミノ酸を含む、実施形態1～4のいずれか1つ記載の融合タンパク質。

１１．N末端断片が、Cas9ポリペプチドのN末端で始まり、配列番号1における番号付けで1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, もしくは1248-1297の位置またはそれに対応する位置で終わる連続的な配列である、実施形態10の融合タンパク質。
１２．C末端断片が、配列番号1における番号付けで1301-1368, 1248-1297, 1078-1231, 1026-1051, 948-1001, 692-942, 580-685, もしくは538-568の位置で始まりCas9ポリペプチドのC末端で終わる連続的な配列である、実施形態10の融合タンパク質。
１３．N末端断片のC末端アミノ酸が配列番号1における番号付けでアミノ酸1016, 1023, 1029, 1040, 1069, もしくは1247またはそれに対応するアミノ酸である、実施形態10記載の融合タンパク質。
１４．C末端断片のN末端アミノ酸が配列番号1における番号付けでアミノ酸1017, 1024, 1030, 1041, 1070, 1248またはそれに対応するアミノ酸である、実施形態10の融合タンパク質。
１５．デアミナーゼがシチジンデアミナーゼである、実施形態11～14のいずれか1つの融合タンパク質。
１６．N末端断片が、Cas9ポリペプチドのN末端で始まり、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置で終わる連続的な配列である、実施形態10の融合タンパク質。
１７．C末端断片が、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置で始まりCas9ポリペプチドのC末端で終わる連続的な配列である、実施形態10の融合タンパク質。
１８．N末端断片のC末端アミノ酸が配列番号1における番号付けでアミノ酸1022, 1029, 1040, 1068, 1069, 1247, 1054, 1026, 768, 791, 792, 1248, 1052,もしくは1246またはそれに対応するアミノ酸である、実施形態10記載の融合タンパク質。
１９．C末端断片のN末端アミノ酸が配列番号1における番号付けでアミノ酸1023, 1030, 1041, 1069, 1070, 1248, 1055, 1026, 769, 792, 793, 873, 907, 1249, 1053, もしくは1247またはそれに対応するアミノ酸である、実施形態10の融合タンパク質。
２０．デアミナーゼがアデノシンデアミナーゼである、実施形態16～19のいずれか1つの融合タンパク質。

２１．追加の触媒ドメインをさらに含む、実施形態1～20のいずれか1つの融合タンパク質。
２２．追加の触媒ドメインがシチジンデアミナーゼまたはアデノシンデアミナーゼである、実施形態21の融合タンパク質。
２３．N末端断片とデアミナーゼとの間にリンカーをさらに含む実施形態1～22のいずれか1つの融合タンパク質。
２４．C末端断片とデアミナーゼとの間にリンカーをさらに含む実施形態1～22のいずれか1つの融合タンパク質。
２５．核局在シグナルをさらに含む、実施形態1～22のいずれか1つの融合タンパク質。
２６．核局在化シグナルが二部分核局在化シグナルである、実施形態25の融合タンパク質。
２７．Cas9ポリペプチドがStreptococcus pyogenes Cas9 (SpCas9) 、Staphylococcus aureus Cas9 (SaCas9) 、Streptococcus thermophilus 1 Cas9 (St1Cas9) 、またはそれらのバリアントである、実施形態1～26のいずれか1つの融合タンパク質。
２８．Cas9ポリペプチドが改変Cas9であり、改変されたPAMに対する特異性を有する、実施形態1～27のいずれか1つの融合タンパク質。
２９．Cas9ポリペプチドがニッカーゼである、実施形態1～28のいずれか1つの融合タンパク質。
３０．Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態1～28のいずれか1つの融合タンパク質。

３１．標的核酸塩基の脱アミノ化をもたらすガイド核酸配列と複合体を形成している、実施形態1～30のいずれか1つの融合タンパク質。
３２．複数の融合タンパク質を含む、最適化された塩基編集のためのタンパク質ライブラリーであって、前記複数の融合タンパク質の各々が、Cas9ポリペプチドのN末端断片とC末端断片とによって隣接されたデアミナーゼを含み、前記融合タンパク質の各々のN末端断片が、前記複数の融合タンパク質の残りのもののN末端断片とは異なるか、または、前記融合タンパク質の各々のC末端断片が、前記複数の融合タンパク質の残りのもののC末端断片とは異なり、前記融合タンパク質の各々のデアミナーゼが、標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（PAM）配列に近接した標的核酸塩基を脱アミノ化し、前記N末端断片または前記C末端断片が標的ポリヌクレオチド配列に結合する、タンパク質ライブラリー。
３３．PAM配列から1～20核酸塩基離れた各核酸塩基について、複数の融合タンパク質の少なくとも一つがその核酸塩基を脱アミノ化する、実施形態32のタンパク質ライブラリー。
３４．複数の融合タンパク質の各々のCas9ポリペプチドのN末端断片のC末端またはC末端断片のN末端が、Cas9ポリペプチドの可撓性ループの一部を含む、実施形態32のタンパク質ライブラリー。
３５．複数の融合タンパク質のうちの少なくとも1つが、配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化により標的核酸塩基を脱アミノ化する、実施形態32～34のいずれか1つのタンパク質ライブラリー。
３６．複数の融合タンパク質のうちの少なくとも1つが、PAM配列の2～12核酸塩基上流の標的核酸塩基を脱アミノ化する、実施形態32～35のいずれかのタンパク質ライブラリー。
３７．複数の融合タンパク質のN末端断片のC末端またはC末端断片のN末端が、融合タンパク質が標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む、実施形態32～36のいずれか1つのタンパク質ライブラリー。
３８．Cas9ポリペプチドの可撓性ループが、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置におけるアミノ酸を含む、実施形態34～36のいずれか1つのタンパク質ライブラリー。
３９．複数の融合タンパク質が、Cas9ポリペプチドのN末端で始まるN末端断片を含み配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置で終結する連続的な配列である融合タンパク質を含む、実施形態38のタンパク質ライブラリー。
４０．複数の融合タンパク質が、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置で始まるC末端断片を含みCas9ポリペプチドのC末端で終結する連続的な配列である融合タンパク質を含む、実施形態38のタンパク質ライブラリー。

４１．N末端断片のC末端アミノ酸が配列番号1における番号付けでアミノ酸1022, 1029, 1040, 1068, 1069, 1247, 1054, 1026, 768, 791, 792, 1248, 1052, もしくは1246またはそれに対応するアミノ酸である、実施形態38～40のいずれか1つのタンパク質ライブラリー。
４２．C末端断片のN末端アミノ酸が配列番号1における番号付けでアミノ酸1023, 1030, 1041, 1069, 1070, 1248, 1055, 1026, 769, 792, 793, 873, 907, 1249, 1053, もしくは1247またはそれに対応するアミノ酸である、実施形態38～40のいずれか1つのタンパク質ライブラリー。
４３．デアミナーゼがアデノシンデアミナーゼである、実施形態32～42のいずれか1つのタンパク質ライブラリー。
４４．デアミナーゼがシチジンデアミナーゼである、実施形態32～42のいずれか1つのタンパク質ライブラリー。
４５．Cas9ポリペプチドがStreptococcus pyogenes Cas9 (SpCas9) 、Staphylococcus aureus Cas9 (SaCas9) 、Streptococcus thermophilus 1 Cas9 (St1Cas9) 、またはそれらのバリアントである、実施形態32～44のいずれか1つのタンパク質ライブラリー。
４６．Cas9ポリペプチドが改変されたCas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する、実施形態32～45のいずれか1つのタンパク質ライブラリー。
４７．Cas9ポリペプチドがニッカーゼである、実施形態32～46のいずれか1つのタンパク質ライブラリー。
４８．Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態32～46のいずれか1つのタンパク質ライブラリー。
４９．実施形態1～31のいずれか1つの融合タンパク質を含む細胞。
５０．細胞が哺乳動物細胞またはヒト細胞である、実施形態49の細胞。

５１．標的ポリヌクレオチド配列中の標的核酸塩基を編集する方法であって、標的ポリヌクレオチドを、Cas9ポリペプチドのN末端断片とC末端断片とに隣接するデアミナーゼを含む融合タンパク質と接触させる工程を含み、融合タンパク質のデアミナーゼが標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、N末端断片またはC末端断片が標的ポリヌクレオチド配列に結合し、N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、方法。
５２．標的核酸塩基の脱アミノ化をもたらすために標的ポリヌクレオチド配列をガイド核酸配列と接触させることをさらに含む、実施形態51の方法。
５３．ガイド核酸配列が、標的ポリヌクレオチド配列のプロトスペーサー配列に相補的なスペーサー配列を含み、それによってRループを形成する、実施形態52の方法。
５４．配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端の方法と比較して、より低いオフターゲット脱アミノ化により標的核酸塩基が脱アミノ化される、実施形態53の方法。
５５．融合タンパク質のデアミナーゼが、Rループの範囲内で2つ以下の核酸塩基を脱アミノ化する、実施形態54の方法。
５６．標的核酸塩基が、標的ポリヌクレオチド配列中のPAM配列から1～20核酸塩基離れている、実施形態51～55のいずれか1つの方法。
５７．標的核酸塩基が、PAM配列の2～12核酸塩基上流にある、実施形態55の方法。
５８．N末端断片のC末端またはC末端断片のN末端が、融合タンパク質のデアミナーゼが標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む、実施形態51～57のいずれか1項記載の方法。
５９．N末端断片またはC末端断片がRuvCドメインを含む、実施形態51～57のいずれか1つの方法。
６０．N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態51～57のいずれか1つの方法。

６１．Cas9ポリペプチドの可撓性ループが、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置におけるアミノ酸を含む、実施形態51～57のいずれか1つの方法。
６２．N末端断片が、Cas9ポリペプチドのN末端で始まり、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置で終わる連続的な配列である、実施形態61の方法。
６３．C末端断片が、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置またはそれに対応する位置で始まりCas9ポリペプチドのC末端で終わる連続的な配列である、実施形態61の方法。
６４．N末端断片のC末端アミノ酸が、配列番号1における番号付けでアミノ酸1016, 1023, 1029, 1040, 1069, もしくは1247またはそれに対応するアミノ酸である、実施形態61記載の方法。
６５．C末端断片のN末端アミノ酸が、配列番号1における番号付けでアミノ酸1017, 1024, 1030, 1041, 1070, 1248またはそれに対応するアミノ酸である、実施形態61の方法。
６６．デアミナーゼがシチジンデアミナーゼである、実施形態62～65のいずれか1項記載の方法。
６７．N末端断片が、Cas9ポリペプチドのN末端で始まり、配列番号1における番号付けで1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, もしくは1248-1297の位置またはそれに対応する位置で終わる連続的な配列である、実施形態61の方法。
６８．C末端断片が、配列番号1における番号付けで1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, もしくは1248-1297の位置またはそれに対応する位置で始まりCas9ポリペプチドのC末端で終わる連続的な配列である、実施形態61の方法。
６９．N末端断片のC末端アミノ酸が、配列番号1における番号付けでアミノ酸1022, 1029, 1040, 1068, 1069, 1247, 1054, 1026, 768, 791, 792, 1248, 1052, もしくは1246またはそれに対応するアミノ酸である、実施形態61記載の方法。
７０．C末端断片のN末端アミノ酸が、配列番号1における番号付けでアミノ酸1023, 1030, 1041, 1069, 1070, 1248, 1055, 1026, 769, 792, 793, 873, 907, 1249, 1053, もしくは1247またはそれに対応するアミノ酸である、実施形態61の方法。

７１．デアミナーゼがアデノシンデアミナーゼである、実施形態67～70のいずれか1記載の方法。
７２．Cas9ポリペプチドが改変Cas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する、実施形態51～71のいずれか1つの方法。
７３．Cas9ポリペプチドがニッカーゼである、実施形態51～72のいずれか1つの方法。
７４．Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態51～72のいずれか1つの方法。
７５．接触させることが細胞内で行われる、実施形態51～74のいずれか1つの方法。
７６．細胞が哺乳動物細胞またはヒト細胞である、実施形態75の方法。
７７．細胞が多能性細胞である、実施形態76の方法。
７８．細胞がin vivoまたはex vivoである、実施形態75～77のいずれか1つの実施形態の方法。
７９．接触させることが細胞の集団において行われる、実施形態51～74のいずれか1つの方法。
８０．細胞の集団が哺乳動物細胞またはヒト細胞である、実施形態79の方法。

８１．対象中の遺伝的状態を治療する方法であって、Cas9ポリペプチドのN末端断片とC末端断片とに隣接されたデアミナーゼを含む融合タンパク質、または該融合タンパク質をコードするポリヌクレオチド、ならびにガイド核酸配列または該ガイド核酸配列をコードするポリヌクレオチドを該対象に投与する工程を包み、ここで、該ガイド核酸配列が、該融合タンパク質を誘導して対象の標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化させ、N末端断片またはC末端断片が該標的ポリヌクレオチド配列に結合し、それによって該遺伝的状態を治療する、方法。
８２．N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、実施形態81の方法。
８３．標的核酸塩基の脱アミノ化を行うためのガイド核酸配列を対象に投与することをさらに含む、実施形態81または82の方法。
８４．標的核酸塩基が該遺伝的状態に関連する変異を含む、実施形態81～83のいずれか一項記載の方法。
８５．標的核酸塩基の脱アミノ化により標的核酸塩基が野生型核酸塩基に置換される、実施形態84の方法。
８６．標的核酸塩基の脱アミノ化が標的核酸塩基を非野生型核酸塩基に置換し、標的核酸塩基の該脱アミノ化が該遺伝的状態の症状を改善する、実施形態84の方法。
８７．標的ポリヌクレオチド配列が、標的核酸塩基以外の核酸塩基において、該遺伝的状態に関連する変異を含む、実施形態81～83のいずれか一項記載の方法。
８８．標的核酸塩基の脱アミノ化が遺伝的状態の症状を改善する、実施形態87の方法。
８９．標的核酸塩基が、標的ポリヌクレオチド配列中のPAM配列から1～20核酸塩基離れている、実施形態81～88のいずれか1つの方法。
９０．標的核酸塩基が、PAM配列の2～12核酸塩基上流にある、実施形態89の方法。

９１．N末端断片のC末端またはC末端断片のN末端が、融合タンパク質のデアミナーゼが標的核酸塩基を脱アミノ化する際に標的核酸塩基に近接するアミノ酸を含む、実施形態81～90のいずれか1項記載の方法。
９２．N末端断片またはC末端断片がRuvCドメインを含む、実施形態81～90のいずれか1つの方法。
９３．N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態81～90のいずれか一項記載の方法。
９４．Cas9ポリペプチドの可撓性ループが、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248,もしくは1298-1300の位置またはそれに対応する位置におけるアミノ酸を含む、実施形態81～90のいずれか1つ記載の方法。
９５．N末端断片が、Cas9ポリペプチドのN末端で始まり、配列番号1における番号付けでV530-P537, F569-E579, D686-R691, Y943-D947, L1052-E1077, P1002-S1025, Y1232-G1247,もしくはR1298-K1300の位置で終わる連続的な配列である、実施形態94の方法。
９６．C末端断片が、配列番号1における番号付けで530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, もしくは1298-1300の位置で始まりCas9ポリペプチドのC末端で終わる連続的な配列である、実施形態94の方法。
９７．N末端断片のC末端アミノ酸が、配列番号1における番号付けでアミノ酸1016, 1023, 1029, 1040, 1069, 1022, 1029, 1040, 1068, 1069, 1247, 1054, 1026, 768, 791, 792, 1246, 1247, 1248, もしくは1052またはそれに対応するアミノ酸である、実施形態94の方法。
９８．C末端断片のN末端アミノ酸が、配列番号1における番号付けでアミノ酸1017, 1023, 1024, 1030, 1041, 1069, 1070, 1247, 1248, 1249, 1055, 1026, 769, 792, 793, 873, 907, もしくは1053またはそれに対応するアミノ酸である、実施形態94の方法。
９９．デアミナーゼがシチジンデアミナーゼである、実施形態81～98のいずれか1項記載の方法。
１００．デアミナーゼがアデノシンデアミナーゼである、実施形態81～98のいずれか1つ記載の方法。

１０１．Cas9ポリペプチドが改変されたCas9であり、改変されたPAMに対する特異性を有する、実施形態81～100のいずれか1つの方法。
１０２．Cas9ポリペプチドがニッカーゼである、実施形態81～101のいずれか1つの方法。
１０３．Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態81～101のいずれか1つの方法。
１０４．対象が哺乳動物である、実施形態81～103のいずれか1つの方法。
１０５．対象がヒトである、実施形態81～104のいずれか1つの方法。

本開示は以下の実施形態を含む。
実施形態１
Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質であって、以下の構造を含み：
NH ₂ -[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーである、融合タンパク質。
実施形態２
Cas9ポリペプチドのN末端断片とC末端断片とに隣接されたデアミナーゼを含む融合タンパク質であって、N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、融合タンパク質。
実施形態３
融合タンパク質のデアミナーゼが、標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化する、実施形態1または2に記載の融合タンパク質。
実施形態４
前記可撓性ループが、前記融合タンパク質が前記標的核酸塩基を脱アミノ化する際に前記標的核酸塩基に近接するアミノ酸を含む、実施形態3に記載の融合タンパク質。
実施形態５
前記可撓性ループがCas9ポリペプチドのαヘリックス構造の一部を含む、実施形態4に記載の融合タンパク質。
実施形態６
配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化により前記標的核酸塩基が脱アミノ化される、実施形態4または5に記載の融合タンパク質。
実施形態７
前記標的核酸塩基が、前記標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（PAM）配列から1～20核酸塩基離れている、実施形態4または5に記載の融合タンパク質。
実施形態８
標的核酸塩基が、PAM配列の2～12核酸塩基上流にある、実施形態7に記載の融合タンパク質。
実施形態９
前記可撓性ループが、配列番号1における番号付けで位置530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, および1298-1300におけるアミノ酸残基からなる群から選択される領域またはそれに対応する領域を含む、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態１０
デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 791-792, 792-793, 1015-1016, 1022-1023, 1026-1027, 1029-1030, 1040-1041, 1052-1053, 1054-1055, 1067-1068, 1068-1069, 1247-1248, もしくは1248-1249またはそれに対応するアミノ酸位置に挿入される、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態１１
デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 792-793, 1022-1023, 1026-1027, 1040-1041, 1068-1069, もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、実施形態10に記載の融合タンパク質。
実施形態１２
デアミナーゼが、配列番号1における番号付けでアミノ酸位置1016-1017, 1023-1024, 1029-1030, 1040-1041, 1069-1070 もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態１３
前記N末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, および／もしくは1248-1297またはそれに対応する残基を含む、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態１４
前記C末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368, 1248-1297, 1078-1231, 1026-1051, 948-1001, 692-942, 580-685, および／もしくは538-568またはそれに対応する残基を含む、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態１５
Cas9ポリペプチドのN末端断片またはC末端断片が標的ポリヌクレオチド配列に結合する、実施形態3～8のいずれか一項記載の融合タンパク質。
実施形態１６
Cas9ポリペプチドのN末端断片またはC末端断片がDNA結合ドメインを含む、実施形態1～15のいずれか一項記載の融合タンパク質。
実施形態１７
N末端断片またはC末端断片がRuvCドメインを含む、実施形態1～16のいずれか一項記載の融合タンパク質。
実施形態１８
N末端断片またはC末端断片がHNHドメインを含む、実施形態1～17のいずれか一項記載の融合タンパク質。
実施形態１９
N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態２０
N末端断片およびC末端断片のいずれもRuvCドメインを含まない、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態２１
Cas9ポリペプチドが、1つ以上の構造的ドメインにおける部分的または完全な欠失を含む、実施形態1～8のいずれか一項記載の融合タンパク質。
実施形態２２
デアミナーゼがCas9ポリペプチドの前記部分的または完全な欠失位置に挿入される、実施形態21記載の融合タンパク質。
実施形態２３
欠失がRuvCドメイン内にある、実施形態21または22に記載の融合タンパク質。
実施形態２４
欠失がHNHドメイン内にある、実施形態21または22に記載の融合タンパク質。
実施形態２５
欠失が、RuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインを架橋する、21または22記載の融合タンパク質。
実施形態２６
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む、実施形態21または22に記載の融合タンパク質。
実施形態２７
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む、実施形態21または22に記載の融合タンパク質。
実施形態２８
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む、実施形態21または22に記載の融合タンパク質。
実施形態２９
Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質であって、以下の構造を含み：
NH ₂ -[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、
Cas9ポリペプチドは、HNHドメインの完全な欠失を含み、
前記デアミナーゼが前記欠失位置に挿入されている、融合タンパク質。
実施形態３０
前記N末端断片のC末端アミノ酸が、配列番号1における番号付けでアミノ酸791である、実施形態29に記載の融合タンパク質。
実施形態３１
前記C末端断片のN末端アミノ酸が、配列番号1における番号付けでアミノ酸907である、実施形態30に記載の融合タンパク質。
実施形態３２
前記C末端断片のN末端アミノ酸が、配列番号1における番号付けでアミノ酸873である、実施形態30に記載の融合タンパク質。
実施形態３３
Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質であって、以下の構造を含み：
NH ₂ -[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、Cas9はRuvCドメインの完全な欠失を含み、前記デアミナーゼは前記欠失位置に挿入される。融合タンパク質。
実施形態３４
前記デアミナーゼがシチジンデアミナーゼまたはアデノシンデアミナーゼである、実施形態1～33のいずれか一項記載の融合タンパク質。
実施形態３５
シチジンデアミナーゼがAPOBECシチジンデアミナーゼ、活性化誘導型シチジンデアミナーゼ（AID）、またはCDAである、実施形態34に記載の融合タンパク質。
実施形態３６
前記APOBECデアミナーゼがAPOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、またはAPOBEC4である、実施形態35に記載の融合タンパク質。
実施形態３７
前記APOBECデアミナーゼがrAPOBEC1である、実施形態36に記載の融合タンパク質。
実施形態３８
UGIドメインをさらに含む、実施形態34～37のいずれか一項記載の融合タンパク質。
実施形態３９
アデノシンデアミナーゼがTadAデアミナーゼである、実施形態34記載の融合タンパク質。
実施形態４０
前記TadAデアミナーゼが改変TadAである、実施形態39に記載の融合タンパク質。
実施形態４１
前記TadAデアミナーゼがTadA7.10である、実施形態40に記載の融合タンパク質。
実施形態４２
前記アデノシンデアミナーゼがTadA二量体である実施形態41に記載の融合タンパク質。
実施形態４３
TadA二量体がTadA7.10および野生型TadAを含む、実施形態42に記載の融合タンパク質。
実施形態４４
前記任意選択のリンカーが(SGGS)n、(GGGS)n、(GGGGS) n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES、もしくは(XP)nモチーフまたはそれらの組合せを含み、ここでnは独立して1～30の整数である、実施形態3～43のいずれか一項記載の融合タンパク質。
実施形態４５
Cas9ポリペプチドのN末端断片がリンカーなしでデアミナーゼに融合されている、実施形態1～43のいずれか一項記載の融合タンパク質。
実施形態４６
Cas9のC末端断片がリンカーなしでデアミナーゼに融合されている、実施形態1～43のいずれか一項記載の融合タンパク質。
実施形態４７
追加の触媒ドメインをさらに含む、実施形態1～46のいずれか一項記載の融合タンパク質。
実施形態４８
前記追加の触媒ドメインが第二のデアミナーゼである、実施形態47に記載の融合タンパク質。
実施形態４９
前記第二のデアミナーゼが、前記融合タンパク質のN末端またはC末端に融合される、実施形態48に記載の融合タンパク質。
実施形態５０
前記デアミナーゼがシチジンデアミナーゼまたはアデノシンデアミナーゼである、実施形態48または49記載の融合タンパク質。
実施形態５１
核局在化シグナルをさらに含む、実施形態1～50のいずれか一項記載の融合タンパク質。
実施形態５２
前記核局在化シグナルが、二部分核局在化シグナルである、実施形態51に記載の融合タンパク質。
実施形態５３
Cas9ポリペプチドがStreptococcus pyogenes Cas9 (SpCas9)、Staphylococcus aureus Cas9 (SaCas9)、Streptococcus thermophilus 1 Cas9 (St1Cas9)、またはそのバリアントである、実施形態1～52のいずれか一項記載の融合タンパク質。
実施形態５４
Cas9ポリペプチドが改変Cas9であり、改変PAMに対する特異性を有する、実施形態1～53のいずれか一項記載の融合タンパク質。
実施形態５５
Cas9ポリペプチドがニッカーゼである、実施形態1～54のいずれか一項記載の融合タンパク質。
実施形態５６
Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態1～54のいずれか一項記載の融合タンパク質。
実施形態５７
ガイド核酸配列と複合体を形成して標的核酸塩基の脱アミノ化をもたらす、実施形態3～56のいずれか一項記載の融合タンパク質。
実施形態５８
さらに標的ポリヌクレオチドと複合体化された、実施形態57記載の融合タンパク質。
実施形態５９
実施形態1～58のいずれか一項に記載の融合タンパク質をコードするポリヌクレオチド。
実施形態６０
実施形態59に記載のポリヌクレオチドを含む発現ベクター。
実施形態６１
前記発現ベクターが哺乳動物発現ベクターである、実施形態60に記載の発現ベクター。
実施形態６２
ベクターが、アデノ随伴ウイルス (AAV) 、レトロウイルスベクター、アデノウイルスベクター、レンチウイルスベクター、センダイウイルスベクター、およびヘルペスウイルスベクターからなる群より選択されるウイルスベクターである、実施形態61記載の発現ベクター。
実施形態６３
ベクターがプロモーターを含む、実施形態60～62のいずれか一項記載の発現ベクター。
実施形態６４
実施形態1～58のいずれか一項記載の融合タンパク質、実施形態59記載のポリヌクレオチド、または実施形態60～63のいずれか一項記載のベクターを含む、細胞。
実施形態６５
細胞が、細菌細胞、植物細胞、昆虫細胞、ヒト細胞、または哺乳動物細胞である、実施形態64記載の細胞。
実施形態６６
実施形態1～58のいずれか一項記載の融合タンパク質、実施形態59記載のポリヌクレオチド、または実施形態60～63のいずれか一項記載のベクターを含む、キット。
実施形態６７
ポリヌクレオチド配列を、実施形態1～58のいずれか一項に記載の融合タンパク質と接触させる工程を包む、塩基編集方法であって、前記融合タンパク質のデアミナーゼは、前記ポリヌクレオチド中の核酸塩基を脱アミノ化し、それによって、前記ポリヌクレオチド配列を編集する、方法。
実施形態６８
前記標的核酸塩基の脱アミノ化をもたらすために前記標的ポリヌクレオチド配列をガイド核酸配列と接触させることをさらに含む、実施形態67に記載の方法。
実施形態６９
標的ポリヌクレオチド配列中の標的核酸塩基を編集する方法であって、前記標的ポリヌクレオチド配列を、Cas9ポリペプチドのN末端断片とC末端断片とに隣接されたデアミナーゼを含む融合タンパク質と接触させる工程を含み、ここで、前記融合タンパク質のデアミナーゼが標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、N末端断片のC末端またはC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、方法。
実施形態７０
標的ポリヌクレオチド配列中の標的核酸塩基を編集する方法であって、標的ポリヌクレオチド配列を、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質と接触させる工程を含み、ここで、前記融合タンパク質は、以下の構造を含み：
NH ₂ -[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、前記融合タンパク質のデアミナーゼが、標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化する、方法。
実施形態７１
前記標的核酸塩基の脱アミノ化をもたらすために前記標的ポリヌクレオチド配列をガイド核酸配列と接触させることをさらに含む、実施形態69または70に記載の方法。
実施形態７２
前記ガイド核酸配列が、前記標的ポリヌクレオチド配列のプロトスペーサー配列に相補的なスペーサー配列を含み、それによってRループを形成する、実施形態71に記載の方法。
実施形態７３
配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端方法と比較して、より低いオフターゲット脱アミノ化により前記標的核酸塩基が脱アミノ化される、実施形態69～72のいずれか一項に記載の方法。
実施形態７４
前記融合タンパク質のデアミナーゼが、前記Rループの範囲内で二つ以下の核酸塩基を脱アミノ化する、実施形態72に記載の方法。
実施形態７５
前記標的核酸塩基が、前記標的ポリヌクレオチド配列におけるPAM配列から1～20核酸塩基離れている、実施形態69～74のいずれか一項記載の方法。
実施形態７６
前記標的核酸塩基が、前記PAM配列の2～12核酸塩基上流にある、実施形態75に記載の方法。
実施形態７７
前記可撓性ループは、前記融合タンパク質のデアミナーゼが前記標的核酸塩基を脱アミノ化する際に前記標的核酸塩基に近接するアミノ酸を含む、実施形態69～76のいずれか一項記載の方法。
実施形態７８
前記可撓性ループが、配列番号1における番号付けで位置530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, および1298-1300におけるアミノ酸残基からなる群から選択される領域またはそれに対応する領域を含む、実施形態69～77のいずれか一項に記載の方法。
実施形態７９
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 791-792, 792-793, 1015-1016, 1022-1023, 1026-1027, 1029-1030, 1040-1041, 1052-1053, 1054-1055, 1067-1068, 1068-1069, 1247-1248, もしくは1248-1249またはそれに対応するアミノ酸位置に挿入される、実施形態69～77のいずれか一項記載の方法。
実施形態８０
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 792-793, 1022-1023, 1026-1027, 1040-1041, 1068-1069, もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、実施形態79に記載の方法。
実施形態８１
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置1016-1017, 1023-1024, 1029-1030, 1040-1041, 1069-1070 もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、実施形態69～77のいずれか一項に記載の方法。
実施形態８２
前記N末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, および／もしくは1248-1297またはそれに対応する残基を含む、実施形態69～77のいずれか一項に記載の方法。
実施形態８３
前記C末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368, 1248-1297, 1078-1231, 1026-1051, 948-1001, 692-942, 580-685, および／もしくは538-568またはそれに対応する残基を含む、実施形態69～77のいずれか一項に記載の方法。
実施形態８４
前記Cas9ポリペプチドのN末端断片またはC末端断片が前記標的ポリヌクレオチド配列に結合する、実施形態69～77のいずれか一項記載の方法。
実施形態８５
前記N末端断片またはC末端断片がRuvCドメインを含む、実施形態69～84のいずれか一項記載の方法。
実施形態８６
前記N末端断片またはC末端断片がHNHドメインを含む、実施形態69～85のいずれか一項記載の方法。
実施形態８７
前記N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態69～77のいずれか一項記載の方法。
実施形態８８
前記N末端断片およびC末端断片のいずれもRuvCドメインを含まない、実施形態69～77のいずれか一項記載の方法。
実施形態８９
前記Cas9ポリペプチドが、1つ以上の構造的ドメインにおける部分的または完全な欠失を含む、実施形態69～77のいずれか一項記載の方法。
実施形態９０
前記デアミナーゼがCas9ポリペプチドの前記部分的または完全な欠失の位置に挿入される、実施形態89記載の方法。
実施形態９１
前記欠失がRuvCドメイン内にある、実施形態89または90に記載の方法。
実施形態９２
前記欠失がHNHドメイン内にある、実施形態89または90に記載の方法。
実施形態９３
前記欠失がRuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインを架橋する、89または90記載の方法。
実施形態９４
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む、実施形態90記載の方法。
実施形態９５
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む、実施形態90記載の方法。
実施形態９６
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む、実施形態90に記載の方法。
実施形態９７
前記デアミナーゼがシチジンデアミナーゼである、実施形態69～96のいずれか一項記載の方法。
実施形態９８
前記デアミナーゼがアデノシンデアミナーゼである、実施形態69～96のいずれか一項記載の方法。
実施形態９９
前記Cas9ポリペプチドが改変Cas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する、実施形態69～98のいずれか一項記載の方法。
実施形態１００
前記Cas9ポリペプチドがニッカーゼである、実施形態69～99のいずれか一項記載の方法。
実施形態１０１
前記Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態69～99のいずれか一項記載の方法。
実施形態１０２
前記接触させることが細胞内で行われる、実施形態67～101のいずれか一項記載の方法。
実施形態１０３
前記細胞が哺乳動物細胞またはヒト細胞である、実施形態102記載の方法。
実施形態１０４
前記細胞が多能性細胞である、実施形態103記載の方法。
実施形態１０５
前記細胞がin vivoまたはex vivoである、実施形態102～104のいずれか一項記載の方法。
実施形態１０６
前記接触させることが細胞の集団において行われる、実施形態67～101のいずれか一項記載の方法。
実施形態１０７
前記細胞の集団が哺乳動物細胞またはヒト細胞である、実施形態1～6記載の方法。
実施形態１０８
対象における遺伝的状態を治療する方法であって、Cas9ポリペプチドのN末端断片とC末端断片とに隣接するデアミナーゼを含む融合タンパク質、または前記融合タンパク質をコードするポリヌクレオチド、およびガイド核酸配列または前記ガイド核酸配列をコードするポリヌクレオチドを対象に投与する工程を含み、ここで、前記ガイド核酸配列が前記融合タンパク質を誘導して前記対象の標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化させ、それによって前記遺伝的状態を治療する、方法。
実施形態１０９
対象における遺伝的状態を治療する方法であって、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質を対象に投与する工程を含み、ここで、前記融合タンパク質は以下の構造を含み：
NH ₂ -[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、
前記融合タンパク質のデアミナーゼが、対象の標的ポリヌクレオチド配列中の標的核酸塩基を脱アミノ化し、それによって前記遺伝的状態を治療する、方法。
実施形態１１０
前記N末端断片のC末端又はC末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含む、実施形態108又は109に記載の方法。
実施形態１１１
標的核酸塩基の脱アミノ化をもたらすためのガイド核酸配列を対象に投与することをさらに含む、実施形態108～110のいずれか一項記載の方法。
実施形態１１２
前記標的核酸塩基が、前記遺伝的状態に関連する変異を含む、実施形態108～111のいずれか一項に記載の方法。
実施形態１１３
前記標的核酸塩基の脱アミノ化が、前記標的核酸塩基を野生型核酸塩基に置換する、実施形態112に記載の方法。
実施形態１１４
前記標的核酸塩基の脱アミノ化が、前記標的核酸塩基を非野生型核酸塩基に置換し、前記標的核酸塩基のその脱アミノ化が、前記遺伝的状態の症状を改善する、実施形態112に記載の方法。
実施形態１１５
前記標的ポリヌクレオチド配列が、前記標的核酸塩基以外の核酸塩基において、前記遺伝的状態に関連する変異を含む、実施形態108～111のいずれか一項に記載の方法。
実施形態１１６
前記標的核酸塩基の脱アミノ化が前記遺伝的状態の症状を改善する、実施形態115に記載の方法。
実施形態１１７
前記標的核酸塩基が、前記標的ポリヌクレオチド配列中のPAM配列から1～20核酸塩基離れている、実施形態108～116のいずれか一項記載の方法。
実施形態１１８
前記標的核酸塩基が、前記PAM配列の2～12核酸塩基上流にある、実施形態117に記載の方法。
実施形態１１９
前記可撓性ループは、前記融合タンパク質のデアミナーゼが前記標的核酸塩基を脱アミノ化する際に前記標的核酸塩基に近接するアミノ酸を含む、実施形態108～118のいずれか一項記載の方法。
実施形態１２０
前記可撓性ループが、配列番号1における番号付けで位置530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232-1248, および1298-1300におけるアミノ酸残基からなる群から選択される領域またはそれに対応する領域を含む、実施形態108～119のいずれか一項に記載の方法。
実施形態１２１
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 791-792, 792-793, 1015-1016, 1022-1023, 1026-1027, 1029-1030, 1040-1041, 1052-1053, 1054-1055, 1067-1068, 1068-1069, 1247-1248, もしくは1248-1249またはそれに対応するアミノ酸位置に挿入される、実施形態108～119のいずれか一項記載の方法。
実施形態１２２
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 792-793, 1022-1023, 1026-1027, 1040-1041, 1068-1069, もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、実施形態121に記載の方法。
実施形態１２３
前記デアミナーゼが、配列番号1における番号付けでアミノ酸位置1016-1017, 1023-1024, 1029-1030, 1040-1041, 1069-1070 もしくは1247-1248またはそれに対応するアミノ酸位置の間に挿入される、実施形態108～119のいずれか一項記載の方法。
実施形態１２４
前記N末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529, 538-568, 580-685, 692-942, 948-1001, 1026-1051, 1078-1231, および／もしくは1248-1297またはそれに対応する残基を含む、実施形態108～119のいずれか一項に記載の方法。
実施形態１２５
前記C末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368, 1248-1297, 1078-1231, 1026-1051, 948-1001, 692-942, 580-685, および／もしくは538-568またはそれに対応する残基を含む、実施形態108～119のいずれか一項に記載の方法。
実施形態１２６
前記Cas9ポリペプチドのN末端断片またはC末端断片が標的ポリヌクレオチド配列に結合する、実施形態108～119のいずれか一項記載の方法。
実施形態１２７
前記N末端断片または前記C末端断片がRuvCドメインを含む、実施形態108～119のいずれか一項に記載の方法。
実施形態１２８
前記N末端断片またはC末端断片がHNHドメインを含む、実施形態108～119のいずれか一項記載の方法。
実施形態１２９
前記N末端断片およびC末端断片のいずれもHNHドメインを含まない、実施形態108～119のいずれか一項記載の方法。
実施形態１３０
前記N末端断片およびC末端断片のいずれもRuvCドメインを含まない、実施形態108～119のいずれか一項記載の方法。
実施形態１３１
前記Cas9ポリペプチドが、1以上の構造的ドメインにおける部分的または完全な欠失を含む、実施形態108～119のいずれか一項記載の方法。
実施形態１３２
前記デアミナーゼがCas9ポリペプチドの前記部分的または完全な欠失の位置に挿入される、実施形態131記載の方法。
実施形態１３３
前記欠失がRuvCドメイン内にある、実施形態131または132に記載の方法。
実施形態１３４
前記欠失がHNHドメイン内にある、実施形態131または132に記載の方法。
実施形態１３５
前記欠失がRuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインを架橋する、131または132記載の方法。
実施形態１３６
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含む、実施形態131または132に記載の方法。
実施形態１３７
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含む、実施形態131または132に記載の方法。
実施形態１３８
前記Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む、実施形態131または132に記載の方法。
実施形態１３９
前記デアミナーゼがシチジンデアミナーゼである、実施形態108～138のいずれか一項記載の方法。
実施形態１４０
前記デアミナーゼがアデノシンデアミナーゼである、実施形態108～138のいずれか1項記載の方法。
実施形態１４１
前記Cas9ポリペプチドが改変Cas9であり、改変PAMに対する特異性を有する、実施形態108～140のいずれか一項記載の方法。
実施形態１４２
前記Cas9ポリペプチドがニッカーゼである、実施形態108～141のいずれか一項記載の方法。
実施形態１４３
前記Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態108～142のいずれか一項記載の方法。
実施形態１４４
前記対象が哺乳動物である、実施形態108～143のいずれか一項記載の方法。
実施形態１４５
前記対象がヒトである、実施形態108～144のいずれか一項記載の方法。
実施形態１４６
複数の融合タンパク質を含む最適化された塩基編集のためのタンパク質ライブラリーであって、前記複数の融合タンパク質の各々が、Cas9ポリペプチドのN末端断片とC末端断片とによって隣接されたデアミナーゼを含み、前記融合タンパク質の各々のN末端断片が、前記複数の融合タンパク質の残りのもののN末端断片と異なっているか、または、前記融合タンパク質の各々のC末端断片が、前記複数の融合タンパク質の残りのもののC末端断片と異なっており、前記融合タンパク質の各々のデアミナーゼが、標的ポリヌクレオチド配列中のプロトスペーサー隣接モチーフ（PAM）配列に近接する標的核酸塩基を脱アミノ化し、前記N末端断片または前記C末端断片が前記標的ポリヌクレオチド配列に結合する、タンパク質ライブラリー。
実施形態１４７
前記PAM配列の1～20核酸塩基離れた各核酸塩基について、前記複数の融合タンパク質のうちの少なくとも一つがその核酸塩基を脱アミノ化する、実施形態146に記載のタンパク質ライブラリー。
実施形態１４８
前記複数の融合タンパク質の各々の前記Cas9ポリペプチドのN末端断片のC末端又はC末端断片のN末端が、前記Cas9ポリペプチドの可撓性ループの一部を含む、実施形態147に記載のタンパク質ライブラリー。
実施形態１４９
前記複数の融合タンパク質のうちの少なくとも1つが、配列番号1のN末端またはC末端に融合されたデアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化により前記標的核酸塩基を脱アミノ化する、実施形態146～148のいずれか一項に記載のタンパク質ライブラリー。
実施形態１５０
前記複数の融合タンパク質のうちの少なくとも1つが、PAM配列の2～12核酸塩基上流にある標的核酸塩基を脱アミノ化する、実施形態146～149のいずれか一項に記載のタンパク質ライブラリー。
実施形態１５１
前記複数の融合タンパク質の前記N末端断片のC末端又は前記C末端断片のN末端が、前記融合タンパク質が前記標的核酸塩基を脱アミノ化する際に前記標的核酸塩基に近接するアミノ酸を含む、実施形態146～150のいずれか一項に記載のタンパク質ライブラリ。
実施形態１５２
前記融合タンパク質のうちの少なくとも1つのデアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 791-792, 792-793, 1015-1016, 1022-1023, 1026-1027, 1029-1030, 1040-1041, 1052-1053, 1054-1055, 1067-1068, 1068-1069, 1247-1248, もしくは1248-1249またはそれに対応するアミノ酸位置にある、実施形態146～150のいずれか一項に記載のタンパク質ライブラリー。
実施形態１５３
前記融合タンパク質の少なくとも一つのデアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769, 792-793, 1022-1023, 1026-1027, 1040-1041, 1068-1069, もしくは1247-1248またはそれに対応するアミノ酸位置にある、実施形態152に記載のタンパク質ライブラリ。
実施形態１５４
前記融合タンパク質のうちの少なくとも1つのデアミナーゼが、配列番号1における番号付けでアミノ酸位置1016-1017, 1023-1024, 1029-1030, 1040-1041, 1069-1070 もしくは1247-1248またはそれに対応するアミノ酸位置にある、実施形態146～150のいずれか一項に記載の方法。
実施形態１５５
前記デアミナーゼがアデノシンデアミナーゼである、実施形態146～154のいずれか一項記載のタンパク質ライブラリー。
実施形態１５６
前記デアミナーゼがシチジンデアミナーゼである、実施形態146～154のいずれか一項記載のタンパク質ライブラリー。
実施形態１５７
前記Cas9ポリペプチドがStreptococcus pyogenes Cas9 (SpCas9)、Staphylococcus aureus Cas9 (SaCas9)、Streptococcus thermophilus 1 Cas9 (St1Cas9)、またはそのバリアントである、実施形態146～156のいずれか一項に記載のタンパク質ライブラリー。
実施形態１５８
前記Cas9ポリペプチドが改変Cas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する、実施形態146～157のいずれか一項に記載のタンパク質ライブラリー。
実施形態１５９
前記Cas9ポリペプチドがニッカーゼである、実施形態146～157のいずれか一項記載のタンパク質ライブラリー。
実施形態１６０
前記Cas9ポリペプチドがヌクレアーゼ不活性である、実施形態146～157のいずれか一項記載のタンパク質ライブラリー。
［他の実施形態］
以上の説明から、本明細書に記載された発明を様々な用途および条件に適用するために、変形および修正を行うことができることは明らかである。そのような実施形態も、下記の特許請求の範囲の範囲内である。

本明細書における可変要素の定義における要素のリストの記載は、リストされた要素の任意の単一の要素または組み合わせ（またはサブ組み合わせ）としてのその可変要素の定義を含む。本明細書における実施形態の記載は、その実施形態を単一実施形態として、または任意の他の実施形態またはその一部と組み合わせたものを含む。

本明細書に記載されている全ての特許および刊行物は、それぞれの独立した特許および刊行物が、参照により組み入れられることが具体的かつ個別に示されている場合と同じ程度に、参照により本明細書に組み入れられる。

Claims

Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質であって、前記Cas9ポリペプチドはニッカーゼであるかまたはヌクレアーゼ不活性であり、前記融合タンパク質は以下の構造を含み：
NH₂-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、
前記可撓性ループが、配列番号1における番号付けでアミノ酸残基768-793、1002-1040、1052-1077、および1232-1248からなる群から選択される領域またはそれに対応する領域を含み、
前記融合タンパク質の前記デアミナーゼは、標的DNA分子中の標的核酸塩基を脱アミノ化し、Cas9ポリペプチドのN末端またはC末端に融合された前記デアミナーゼを含むエンド末端融合タンパク質と比較して非標的部位での脱アミノ化の低減をもたらす、
融合タンパク質。
前記N末端断片のC末端または前記C末端断片のN末端が前記Cas9ポリペプチドの可撓性ループの一部を含む、請求項１に記載の融合タンパク質。
前記可撓性ループが、前記融合タンパク質が前記標的核酸塩基を脱アミノ化する際に前記標的核酸塩基に近接するアミノ酸を含む、請求項１または２に記載の融合タンパク質。
前記可撓性ループがCas9ポリペプチドのαヘリックス構造の一部を含む、請求項３に記載の融合タンパク質。
（ｂ）デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1052-1053、1054-1055、1067-1068、1068-1069、もしくは1247-1248またはそれに対応するアミノ酸位置に挿入され、または
（ｃ）デアミナーゼが、配列番号1における番号付けでアミノ酸位置768-769、792-793、1022-1023、1026-1027、1068-1069、もしくは1247-1248またはそれに対応するアミノ酸位置に挿入され、または
（ｄ）デアミナーゼが、配列番号1における番号付けでアミノ酸位置1016-1017、1023-1024、1029-1030、1069-1070 もしくは1247-1248またはそれに対応するアミノ酸位置に挿入される、
請求項１～４のいずれか一項に記載の融合タンパク質。
前記N末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1-529、538-568、580-685、692-942、948-1001、1026-1051、および／または1078-1231またはそれに対応する残基を含み；および／または
前記C末端断片が、配列番号1における番号付けでCas9ポリペプチドのアミノ酸残基1301-1368、1248-1297、1078-1231、1026-1051、および／または948-1001を含み；および／または
Cas9ポリペプチドのN末端断片またはC末端断片がDNA結合ドメインを含み；および／または
Cas9ポリペプチドのN末端断片またはC末端断片がRuvCドメインを含み；および／または
Cas9ポリペプチドのN末端断片またはC末端断片がHNHドメインを含むか、または
Cas9ポリペプチドのN末端断片およびC末端断片のいずれもHNHドメインを含まず、および／または、Cas9ポリペプチドのN末端断片およびC末端断片のいずれもRuvCドメインを含まない、
請求項１～５のいずれか一項に記載の融合タンパク質。
Cas9ポリペプチドが、1つ以上の構造的ドメインにおける部分的または完全な欠失を含み；および／または
デアミナーゼがCas9ポリペプチドの前記部分的または完全な欠失位置に挿入され；または
欠失がRuvCドメイン内にあり、または
欠失がHNHドメイン内にあり、または
欠失が、RuvCドメインとC末端ドメイン、L-IドメインとHNHドメイン、またはRuvCドメインとL-Iドメインを架橋する、
請求項１～６のいずれか一項に記載の融合タンパク質。
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸1017～1069またはそれに対応するアミノ酸の欠失を含み；または
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～872またはそれに対応するアミノ酸の欠失を含み；または
Cas9ポリペプチドが、配列番号1における番号付けでアミノ酸792～906またはそれに対応するアミノ酸の欠失を含む、
請求項７に記載の融合タンパク質。
Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質であって、以下の構造を含み：
NH₂-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、
Cas9ポリペプチドは、HNHドメインの部分的または完全な欠失を含み、
前記デアミナーゼが前記部分的または完全な欠失の位置に挿入されている、融合タンパク質。
前記N末端断片のC末端アミノ酸が、配列番号1における番号付けでアミノ酸791、907、または873である、請求項９に記載の融合タンパク質。
Cas9ポリペプチド内に挿入されたデアミナーゼを含む融合タンパク質であって、以下の構造を含み：
NH₂-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、Cas9はRuvCドメインの部分的または完全な欠失を含み、前記デアミナーゼは前記部分的または完全な欠失の位置に挿入されている、融合タンパク質。
UGIドメインをさらに含む、請求項１１に記載の融合タンパク質。
前記任意のリンカーが(SGGS)_n、(GGGS)_n、(GGGGS)_n、(G)_n、(EAAAK)_n、(GGS)_n、SGSETPGTSESATPES、もしくは(XP)_nモチーフまたはそれらの組合せを含み、ここでnは独立して1～30の整数であり；または
Cas9ポリペプチドのN末端断片がリンカーなしでデアミナーゼに融合されており；または
Cas9のC末端断片がリンカーなしでデアミナーゼに融合されている、
請求項１１または１２に記載の融合タンパク質。
核局在化シグナルをさらに含む、請求項１～１３のいずれか一項に記載の融合タンパク質。
前記融合タンパク質は、ガイド核酸配列と複合体を形成して標的核酸塩基の脱アミノ化をもたらす、請求項１～１４のいずれか一項に記載の融合タンパク質。
請求項１～１５のいずれか一項に記載の融合タンパク質をコードするポリヌクレオチド。
請求項１６に記載のポリヌクレオチドを含む発現ベクター。
前記発現ベクターが哺乳動物発現ベクターであり；および／または
ベクターが、アデノ随伴ウイルス (AAV) 、レトロウイルスベクター、アデノウイルスベクター、レンチウイルスベクター、センダイウイルスベクター、およびヘルペスウイルスベクターからなる群より選択されるウイルスベクターであり；および／または
ベクターがプロモーターを含む、
請求項１７に記載の発現ベクター。
請求項１～１５のいずれか一項に記載の融合タンパク質、請求項１６に記載のポリヌクレオチド、または請求項１７もしくは１８に記載のベクターを含む、細胞。
請求項１～１５のいずれか一項に記載の融合タンパク質、請求項１６に記載のポリヌクレオチド、または請求項１７もしくは１８に記載のベクターを含む、キット。
標的DNA分子を、請求項１～１５のいずれか一項に記載の融合タンパク質と接触させる工程を包む、インビトロまたはエクスビボの塩基編集方法であって、前記融合タンパク質のデアミナーゼは、前記標的DNA分子中の核酸塩基を脱アミノ化し、それによって、前記標的DNA分子を編集する、方法。
前記標的核酸塩基の脱アミノ化をもたらすために前記標的DNA分子がガイド核酸配列と接触される、請求項２１に記載の方法。
標的DNA分子中の標的核酸塩基を編集するインビトロまたはエクスビボの方法であって、前記標的DNA分子を、Cas9ポリペプチドのN末端断片とC末端断片とに隣接されたデアミナーゼを含む融合タンパク質と接触させる工程を含み、前記Cas9ポリペプチドはニッカーゼであるかまたはヌクレアーゼ不活性であり、ここで、前記融合タンパク質のデアミナーゼが標的DNA分子中の標的核酸塩基を脱アミノ化し、前記N末端断片のC末端または前記C末端断片のN末端がCas9ポリペプチドの可撓性ループの一部を含み、前記可撓性ループが、配列番号1における番号付けでアミノ酸残基768-793、1002-1040、1052-1077、および1232-1248からなる群から選択される領域またはそれに対応する領域を含み、前記融合タンパク質は、Cas9ポリペプチドのN末端またはC末端に融合された前記デアミナーゼを含むエンド末端融合タンパク質と比較して非標的部位での脱アミノ化の低減をもたらす、方法。
標的DNA分子中の標的核酸塩基を編集するインビトロまたはエクスビボの方法であって、標的DNA分子を、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質と接触させる工程を含み、前記Cas9ポリペプチドはニッカーゼであるかまたはヌクレアーゼ不活性であり、ここで、前記融合タンパク質は、以下の構造を含み：
NH₂-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、前記融合タンパク質のデアミナーゼが、標的DNA分子中の標的核酸塩基を脱アミノ化し、前記可撓性ループが、配列番号1における番号付けでアミノ酸残基768-793、1002-1040、1052-1077、および1232-1248からなる群から選択される領域またはそれに対応する領域を含み、前記融合タンパク質は、Cas9ポリペプチドのN末端またはC末端に融合された前記デアミナーゼを含むエンド末端融合タンパク質と比較して非標的部位での脱アミノ化の低減をもたらす、方法。
前記接触させることが細胞内で行われる、請求項２１～２４のいずれか一項に記載の方法。
対象における遺伝的状態の治療用の医薬組成物であって、Cas9ポリペプチドのN末端断片とC末端断片とに隣接するデアミナーゼを含む融合タンパク質、または前記融合タンパク質をコードするポリヌクレオチド、およびガイド核酸配列または前記ガイド核酸配列をコードするポリヌクレオチドを含み、ここで、前記ガイド核酸配列が前記融合タンパク質を誘導して前記対象の標的DNA分子中の標的核酸塩基を脱アミノ化させ、それによって前記遺伝的状態を治療し、前記Cas9ポリペプチドは、HNHドメインまたはRuvCドメインの部分的または完全な欠失を含み、前記デアミナーゼが前記部分的または完全な欠失の位置に挿入されている、医薬組成物。
対象における遺伝的状態の治療用の医薬組成物であって、Cas9ポリペプチドの可撓性ループ内に挿入されたデアミナーゼを含む融合タンパク質を含み、前記Cas9ポリペプチドはニッカーゼであるかまたはヌクレアーゼ不活性であり、ここで、前記融合タンパク質は以下の構造を含み：
NH₂-[Cas9のN末端断片]-[デアミナーゼ]-[Cas9のC末端断片]-COOH
ここで、“]-[”の各記載は任意のリンカーであり、
前記融合タンパク質のデアミナーゼが、対象の標的DNA分子中の標的核酸塩基を脱アミノ化し、それによって前記遺伝的状態を治療し、前記可撓性ループが、配列番号1における番号付けでアミノ酸残基768-793、1002-1040、1052-1077、および1232-1248からなる群から選択される領域またはそれに対応する領域を含み、前記融合タンパク質は、Cas9ポリペプチドのN末端またはC末端に融合された前記デアミナーゼを含むエンド末端融合タンパク質と比較して非標的部位での脱アミノ化の低減をもたらす、医薬組成物。
前記標的核酸塩基が、前記遺伝的状態に関連する変異を含み、
前記標的核酸塩基の脱アミノ化が、前記標的核酸塩基を野生型核酸塩基に置換するか、または
前記標的核酸塩基の脱アミノ化が、前記標的核酸塩基を非野生型核酸塩基に置換し、
前記標的核酸塩基のその脱アミノ化が、前記遺伝的状態の症状を改善する、
請求項２６または２７に記載の医薬組成物。
前記標的DNA分子が、前記標的核酸塩基以外の核酸塩基において、前記遺伝的状態に関連する変異を含み、および／または
前記標的核酸塩基の脱アミノ化が前記遺伝的状態の症状を改善する、
請求項２６または２７に記載の医薬組成物。
複数の融合タンパク質を含む、最適化された塩基編集のためのタンパク質ライブラリーであって、前記複数の融合タンパク質の各々が、Cas9ポリペプチドのN末端断片とC末端断片とによって隣接されたデアミナーゼを含み、前記融合タンパク質の各々のN末端断片が、前記複数の融合タンパク質の残りのもののN末端断片と異なっているか、または、前記融合タンパク質の各々のC末端断片が、前記複数の融合タンパク質の残りのもののC末端断片と異なっており、前記融合タンパク質の各々のデアミナーゼが、標的DNA分子中のプロトスペーサー隣接モチーフ（PAM）配列に近接する標的核酸塩基を脱アミノ化し、前記N末端断片または前記C末端断片が前記標的DNA分子に結合し、
（ａ）前記各々のデアミナーゼは、前記Cas9ポリペプチドの可撓性ループ内に挿入されており、前記可撓性ループが、配列番号1における番号付けでアミノ酸残基768-793、1002-1040、1052-1077、および1232-1248からなる群から選択される領域またはそれに対応する領域を含み、および／または
（ｂ）前記Cas9ポリペプチドは、HNHドメインまたはRuvCドメイン内に欠失を含み、前記HNHドメインは下記アミノ酸配列において太字プレーンテキストで示されるアミノ酸位置を含み、前記RuvCドメインは下記アミノ酸配列において太字斜体テキストで示されるアミノ酸位置を含み、

ここで、前記デアミナーゼは前記欠失の位置に挿入されており、
前記複数の融合タンパク質の少なくとも１つは、配列番号１のN末端またはC末端に融合された前記デアミナーゼを含むエンド末端融合タンパク質と比較して、より低いオフターゲット脱アミノ化を有して前記標的核酸塩基を脱アミノ化する、
タンパク質ライブラリー。
前記PAM配列から1～20核酸塩基離れた各核酸塩基について、前記複数の融合タンパク質のうちの少なくとも一つがその核酸塩基を脱アミノ化する、請求項３０に記載のタンパク質ライブラリー。
前記デアミナーゼがアデノシンデアミナーゼまたはシチジンデアミナーゼである、請求項３０または３１に記載のタンパク質ライブラリー。
前記Cas9ポリペプチドがStreptococcus pyogenes Cas9 (SpCas9)、Staphylococcus aureus Cas9 (SaCas9)、Streptococcus thermophilus 1 Cas9 (St1Cas9)、またはそのバリアントであるか、または
前記Cas9ポリペプチドが改変Cas9であり、改変されたプロトスペーサー隣接モチーフ (PAM) に対する特異性を有する、
請求項３０～３２のいずれか一項に記載のタンパク質ライブラリー。
前記Cas9ポリペプチドがニッカーゼであるか、または不活性ヌクレアーゼである、請求項３０～３３のいずれか一項に記載のタンパク質ライブラリー。