CN111615557A

CN111615557A - 稳定且副作用少的基因组编辑用复合物和编码该复合物的核酸

Info

Publication number: CN111615557A
Application number: CN201880075854.2A
Authority: CN
Inventors: 西田敬二
Original assignee: Kobe University NUC
Current assignee: Kobe University NUC
Priority date: 2017-11-22
Filing date: 2018-11-21
Publication date: 2020-09-01
Anticipated expiration: 2038-11-21
Also published as: US20210024906A1; WO2019103020A1; BR112020010036A2; EP3715454A4; CA3082922A1; JP7328695B2; CA3082922C; KR102387830B1; EP3715454A1; CN111615557B; JPWO2019103020A1; JP2023129709A; KR20200091884A; SG11202004691WA; US12139730B2

Abstract

本发明提供一种复合物，其为核酸序列识别模块与蛋白降解标签结合而得的复合物，所述核酸序列识别模块与双链DNA中的靶核苷酸序列特异性地结合，所述蛋白降解标签由(i)在C末端包含疏水性氨基酸的3个残基的肽或(ii)在C末端包含该氨基酸残基的至少一部分被丝氨酸取代的氨基酸的3个残基的肽构成。

Description

稳定且副作用少的基因组编辑用复合物和编码该复合物的核酸

技术领域

本发明涉及稳定且副作用少的基因组编辑用复合物和编码该复合物的核酸、以及使用了该复合物的基因组编辑方法。

背景技术

无需进行选择标记基因的整合、即可将对相同操纵子中的下游基因的表达的影响抑制在最小限度的这样的基因组编辑在原核生物中特别有利。源自噬菌体的RecET和λ-Red重组酶被用作重组技术，使依赖于供体DNA或寡核苷酸的同源性的整合/取代容易进行(例如非专利文献1)。通过与缺损了甲基定向性错配修复(MMR)的菌株组合，无需整合选择标记，即可实现高效率的重组(非专利文献2)，在几天内会产生多个靶基因座中的遗传多态性，因此在多重自动基因组工程学方法(MAGE)中应用。然而，上述重组技术依赖于MMR的缺损、或作为重组DNA修复系统的中心构成要素的RecA这样的宿主依赖性因子，会给作为用于克隆的宿主而使用的大部分大肠杆菌带来危害，因此无法容易地转用到背景不同的细菌种(非专利文献3)。

已知成簇的规律间隔短回文重复序列(clustered regularly interspacedshort palindromic repeats：CRISPR)和CRISPR相关(Cas)蛋白通过以依赖于单一向导RNA(sgRNA)和原间隔序列临近基序(PAM)的方式切割靶DNA而起到细菌的适应免疫系统的作用。源自酿脓链球菌(Streptococcus pyogenes)的Cas9核酸酶在具有DNA双链切割(DSB)的修复途径的真核生物中被广泛用作强效的基因组编辑工具(例如非专利文献4、5)。在通过非同源末端结合(NHEJ)途径进行的DSB修复中，向靶DNA中导入小的插入和/或缺失(indels：插入/缺失)，产生位点特异性突变或基因破坏。虽然效率依赖于宿主细胞，但为了更准确的编辑，通过提供包含针对靶区的同源臂的供体DNA，可促进同源重组修复(HDR)。

然而，由于目前的基因组编辑技术依赖于宿主的DNA修复系统，所以对于其在原核生物中的应用需要进一步研究。在大部分的细菌中，因缺乏NHEJ途径，通过利用人工核酸酶进行的DNA切割而发生细胞死亡(非专利文献6、7)。因此，CRISPR/Cas9仅被用作用通过λ-Red重组系统这样的其他方法用于基因已被修饰的细胞的反选择子(counter-selector)(例如非专利文献8、9)。

最近，由脱氨酶介导的靶碱基编辑得到证实，其通过靶基因座直接编辑核苷酸，而无需使用包含针对靶区的同源臂的供体DNA(例如专利文献1、非专利文献10～12)。该技术是利用DNA脱氨基化代替由核酸酶介导的DNA切割，因此不会诱导细菌的细胞死亡，可适用于细菌的基因组编辑，但其突变效率、特别是同时对多处进行编辑的效率还谈不上充分。

现有技术文献

专利文献专利文献1：国际公开第2015/133554号；

非专利文献

非专利文献1：Datsenko,K.A.&Wanner,B.L.,Proc.Natl.Acad.Sci.U.S.A.97,6640-5(2000)；

非专利文献2：Costantino,N.&Court,D.L.,Proc.Natl.Acad.Sci.U.S.A.100,15748-53(2003)；

非专利文献3：Wang,J.等人,Mol.Biotechnol.32,43-53(2006)；

非专利文献4：Mali,P等人,Science 339,823-827(2013)；

非专利文献5：Cong,L等人,Science 339,819-823(2013)；

非专利文献6：Bowater,R.&Doherty,A.J.,PLoS Genet.2,93-99(2006)；

非专利文献7：Cui,L.&Bikard,D.,Nucleic Acids Res.44,4243-4251(2016)；

非专利文献8：Jiang,W等人,Nat Biotechnol 31,233-239(2013)；

非专利文献9：Li,Y等人,Metab.Eng.31,1-9(2015)；

非专利文献10：Komor,A.C等人,Nature61,5985-91(2016)；

非专利文献11：Nishida,K等人,Science 102,553-563(2016)；

非专利文献12：Ma,Y等人,Nat.Methods 1-9(2016).doi:10.1038/nmeth.4027。

发明内容

发明所要解决的课题

以往的基因组编辑用载体因由该载体表达且作用于宿主的基因组DNA的性质的基因组编辑用复合物的毒性高，故对宿主、特别是细菌而言负担大，可导致载体在宿主内变得不稳定。在基因组编辑中，会产生发生非特异性突变或脱靶突变等副作用，特别是在使用尿嘧啶DNA糖基化酶抑制剂(UGI)等提高了突变效率的情况下，作为其代价，对宿主产生强毒性，引起细胞死亡或非特异性突变率的上升等。因此，本发明的课题在于：提供即使在宿主内也可稳定地扩增的毒性低的载体等核酸和该核酸所编码的基因组编辑用复合物；以及提供基因组编辑的方法，该方法使用该载体、必要时使用核酸修饰酶，不依赖于RecA这样的宿主依赖性因子，可适用于广范围的细菌，可在抑制非特异性突变等的同时修饰细菌的DNA。

用于解决课题的手段

本发明人得到了以下想法：通过抑制对作为宿主的细菌而言毒性高的基因组编辑用复合物在细菌内的存在量，可使细菌中的载体变得稳定，也许还可减少细菌DNA的非特异性突变等。于是，为了抑制基因组编辑用复合物的存在量，着眼于已知在细菌中促进蛋白的降解、且缩短半衰期的蛋白降解标签的LVA标签，对其进行了研究。其结果证实了：通过在基因组编辑用复合物中添加该蛋白降解标签，可在维持对靶位点的突变效率的同时减少非特异性突变，另外，即使在组合了UGI的情况下，也可减少非特异性突变，能够以高效率修饰靶序列(图9、图10)。本发明人根据这些见解进一步反复研究，结果完成了本发明。

即，本发明内容如下。

[1]复合物，其为核酸序列识别模块与蛋白降解标签结合而得的复合物，所述核酸序列识别与双链DNA中的靶核苷酸序列特异性地结合，所述蛋白降解标签由(i)在C末端包含疏水性氨基酸的3个残基的肽或(ii)在C末端包含该氨基酸残基的至少一部分被丝氨酸取代的氨基酸的3个残基的肽构成。

[2][1]所述的复合物，上述复合物为进一步结合有核酸修饰酶的复合物，其中，将靶向位点的1个以上的核苷酸转换成其他的1个以上的核苷酸或使其缺失、或者在该靶向位点插入1个以上的核苷酸。

[3][1]或[2]所述的复合物，其中，上述氨基酸的3个残基为亮氨酸-缬氨酸-丙氨酸、亮氨酸-丙氨酸-丙氨酸、丙氨酸-丙氨酸-缬氨酸或丙氨酸-丝氨酸-缬氨酸。

[4][1]～[3]中任一项所述的复合物，其中，上述核酸序列识别模块为Cas的2个DNA切割能力中的仅一方、或两方的DNA切割能力失活的CRISPR-Cas系统。

[5][1]～[3]中任一项所述的复合物，其中，上述复合物为CRISPR-Cas系统与蛋白降解标签结合而得的复合物。

[6][2]～[4]中任一项所述的复合物，其中，上述核酸修饰酶为核酸碱基转换酶或DNA糖基化酶。

[7][6]所述的复合物，其中，上述核酸碱基转换酶为脱氨酶。

[8][6]或[7]所述的复合物，该复合物进一步结合有碱基切除修复抑制剂。

[9]核酸，该核酸编码[1]～[8]中任一项所述的复合物。

[10]修饰细菌的双链DNA的靶向位点、或在该位点附近调控双链DNA所编码的基因的表达的方法，该方法包括以下步骤：使核酸序列识别模块与蛋白降解标签结合而得的复合物、与该双链DNA接触，所述核酸序列识别模块与所选择的双链DNA中的靶核苷酸序列特异性地结合，所述蛋白降解标签由(i)在C末端包含疏水性氨基酸的3个残基的肽或(ii)在C末端包含该氨基酸残基的至少一部分被丝氨酸取代的氨基酸的3个残基的肽构成。

[11][10]所述的方法，其中，上述复合物为进一步结合有核酸修饰酶的复合物，该方法包括以下步骤：将该靶向位点的1个以上的核苷酸转换成其他的1个以上的核苷酸或使其缺失、或者在该靶向位点插入1个以上的核苷酸。

[12][10]或[11]所述的方法，其中，上述氨基酸的3个残基为亮氨酸-缬氨酸-丙氨酸、亮氨酸-丙氨酸-丙氨酸、丙氨酸-丙氨酸-缬氨酸或丙氨酸-丝氨酸-缬氨酸。

[13][10]～[12]中任一项所述的方法，其中，上述核酸序列识别模块为Cas的2个DNA切割能力中的仅一方、或两方的DNA切割能力失活的CRISPR-Cas系统。

[14][10]～[12]中任一项所述的方法，其中，上述复合物为CRISPR-Cas系统与蛋白降解标签结合而得的复合物。

[15][10]～[14]中任一项所述的方法，其特征在于：使用与不同的靶核苷酸序列分别特异性地结合的、两种以上的核酸序列识别模块。

[16][15]所述的方法，其中，上述不同的靶核苷酸序列存在于不同的基因内。

[17][10]～[13]、[15]和[16]中任一项所述的方法，其中，上述核酸修饰酶为核酸碱基转换酶或DNA糖基化酶。

[18][17]所述的方法，其中，上述核酸碱基转换酶为脱氨酶。

[19][17]或[18]所述的方法，其中，该复合物为进一步结合有碱基切除修复抑制剂的复合物。

[20][10]～[19]中任一项所述的方法，其中，双链DNA与复合物的接触是通过向具有该双链DNA的细菌中导入编码该复合物的核酸来进行的。

发明效果

根据本发明，提供即使在宿主细菌内也可稳定地扩增的毒性低的核酸(例如载体)和该核酸所编码的基因组编辑用复合物。根据使用了本发明的核酸和核酸修饰酶的基因组编辑方法，可在抑制非特异性突变等的同时修饰宿主细菌的基因，或者，可调控双链DNA所编码的基因的表达。该方法因不依赖于RecA这样的宿主依赖性因子，故可适用于广范围的细菌。

附图说明

[图1]图1显示细菌中的靶-AID系统的概略。(a)显示靶-AID(dCas9-PmCDA1/sgRNA)碱基编辑的示意性模型。dCas9-PmCDA1/sgRNA复合物与双链DNA结合，以sgRNA和PAM依赖性的方式形成R环。PmCDA1催化位于PAM上游15-20个碱基内的上侧的(非互补)链上的胞嘧啶的脱氨基化，带来由C向T的诱变。(b)显示细菌的单一的靶-AID质粒。该质粒包括氯霉素抗性(Cm^R)基因、温度敏感性(ts)λcI阻遏物、pSC101复制起点(ori)和RepA101(ts)。λ操纵基因随着cI阻遏物(ts)的失活而在高温(>37℃)下表达dCas9-PmCDA1融合体。sgRNA由组成型启动子J23119表达。dCas9显示具有D10A H840A突变的核酸酶缺损Cas9，PmCDA1显示P.marinus(海七鳃鳗)胞嘧啶脱氨酶。

[图2]图2显示大肠杆菌中的Cas9和靶AID载体的转化效率。使用同时表达以galK基因为靶的sgRNA和各修饰用蛋白(Cas9、dCas、Cas9-CDA、nCas-CDA或dCas-CDA)的质粒转化大肠杆菌DH5α株，通过氯霉素抗性标记进行选择。计数存活细胞，并以所转化的质粒DNA的单位量的菌落形成单元(CFU)来计算。点表示3个独立的实验，框表示通过t检验分析得到的几何平均值的95％置信区间。

[图3]图3显示由dCas-CDA在galK9基因的特定位点诱发的突变。将同时表达以galK_9为靶的sgRNA和dCas-CDA的DH5α细胞点接种在LB琼脂板上，分离单一菌落。对随机选择的8个克隆进行测序，进行序列比对。所翻译的氨基酸序列见各核苷酸序列的底部。各序列的频率以克隆数的形式显示。框和反转框分别显示靶序列和PAM序列。ORF编号见上部。用黑色阴影强调已突变的位点，用粗体字强调已突变的碱基。给已突变的密码子画了下划线。

[图4]图4显示根据抗药性评价的突变频率。(a)显示galK诱变和2-DOG抗性频率。将同时表达非靶向sgRNA(载体)或以galK_9为靶的ssRNA和dCas-CDA的DH5α细胞连续稀释，点接种在包含或不含2-DOG的M63培养基的琼脂板上，计数菌落。(b)显示rpoB诱变和利福平抗性频率。将同时表达非靶向sgRNA(载体)或以rpoB_1为靶的ssRNA和dCas-CDA的细胞连续稀释，点接种在包含或不含利福平的LB琼脂板上，计数菌落。抗药性频率以相对于未选择的菌落数的抗药性菌落数来计算。点表示4个独立的实验，框显示通过t检验分析得到的几何平均值的95％置信区间。

[图5]图5显示rpoB基因的功能获得诱变。(a)显示由dCas-CDA诱导的rpoB突变的序列比对。将同时表达以rpoB_1为靶的sgRNA和dCas-CDA的DH5α细胞点接种在LB琼脂板上，分离单一菌落。对随机选择的8个克隆进行测序，进行序列比对。所翻译的氨基酸序列见各核苷酸序列的底部。将各序列的频率以克隆数的形式显示。框和反转框显示靶序列和PAM序列。ORF编号见上部。用黑色阴影强调已突变的位点，用粗体字强调已突变的碱基和氨基酸。给已突变的密码子画了下划线。(b)显示以rpoB为靶进行诱变的细胞的全基因组序列分析的结果。对通过利福平选择的独立的3个克隆进行全基因组测序。序列覆盖度(Sequencecoverage)以映射普及到大肠杆菌BW25113基因组序列的4,631Mbp的序列的碱基对的总计来计算。亲本/可变的突变(Parental/variable Mutation)以从包括插入、缺失、单核苷酸突变体(single nucleotide variant；SNV)和多核苷酸突变体(multiple nucleotidevariant；MNV)在内的、且以超过50％的频率检测的突变体中减去普通的亲本突变而得到的突变体数显示。所检测的突变显示突变数(count)、基因组基因座(区/基因)、参照基因组序列(reference)和突变等位基因(allele)。识别变体(variant calling)以实施例中记载的方式进行。(c)显示(b)中列举的、所检测的突变周围的序列。用灰色阴影强调已突变的位点，用粗体字强调已突变的碱基和氨基酸。

[图6]图6显示UGI-LVA的有无、以及使用了不同长度的sgRNA的情况下的突变位点和频率。使用dCas-CDA(左侧的白棒)或dCas-CDA-UGI-LVA(右侧的黑棒)对20nt长度以上的靶序列(galK_8、9、11和13)进行试验，通过深度测序进行分析。将3个独立实验的平均值作图。灰色阴影和反转的框分别显示galK靶序列和PAM。给已突变的碱基画了下划线。

[图7]图7显示靶序列特性对由靶-AID诱发的突变位置和频率的影响。通过深度测序分析了表达dCas-CDA和各靶向sgRNA的细胞。靶序列(长度20nt或如所示)为galK ORF的上(+)或下(-)DNA链，如预料的那样导入了错义(M)或无义(N)突变。显示对应的ORF编号(位置)。以3次独立实验的平均值的形式得到了峰的碱基位置的突变频率(在序列中用灰色阴影强调)。突变频率>50％、10-50％或<10％的碱基位置根据灰色的深浅来区分。

[图8]图8显示靶的长度对突变谱(mutational spectrum)的影响。(a)显示gsiA中的使用了各种长度的靶序列的突变频率。通过dCas-CDA-UGI-LVA编辑在远位位点包含PolyC的靶序列，通过深度测序进行分析。具有18nt、20nt、22nt或24nt的长度的sgRNA的突变谱用灰色的深浅来区分。显示3个独立实验的平均值。反转的框显示PAM。给已突变的碱基画了下划线。(b)显示ycbF和yfiH中的靶的突变频率。将靶设定在下链。与(a)同样地显示具有18nt、20nt或22nt的长度的sgRNA的突变谱。(c)显示关于(a)和(b)的各sgRNA长度的平均化的突变谱。峰位置附有编号。

[图9]图9显示galK基因中的多重诱变。(a)显示根据利福平抗性评价的非特异性诱变效果。将表达各蛋白(载体、dCas、dCas-CDA、dCas-CDA-LVA或dCas-CDA1-UGI-LVA)的细胞和针对靶galK_10-galK_11-galK_13的串联-sgRNA单元一同点接种在包含或不含利福平的LB琼脂板上，评价非特异性突变的频率。点表示至少3个独立的实验，框显示通过t检验分析得到的几何平均值的95％置信区间。(b)显示在靶区诱发的靶中多重突变频率。通过作为靶的3个基因座对随机选择的(a)的8个克隆进行测序，显示一重、双重或三重突变体克隆的频率。(c和d)显示突变体的序列比对。使用dCas-CDA-UGI-LVA使单一靶(galK_10、galK_11或galK_13)(c)或三重靶(d)突变。对随机选择的8个克隆进行测序，进行序列比对。框和反转框分别显示靶序列和PAM序列。用黑色阴影和粗体字强调突变位点。

[图10]图10显示多重诱变。(a)显示用于多重诱变的2个质粒(表达dCas-CDA-UGI-LVA的修饰用载体和含有包含各3个靶向sgRNA的2个串联重复sgRNA-单元的质粒pSBP80608)的示意图。(b)显示靶区的序列比对。对随机选择的8个克隆进行测序，在各靶区进行比对。克隆编号见序列左侧。框和反转框显示靶序列和PAM。用黑色阴影和粗体字强调已突变的位点和碱基。

[图11]图11显示多个拷贝的转座酶基因的同时破坏。使用dCas-CDA-UGI-LVA同时靶向IS1、2、3和5。以向相同型的转座酶的通用序列中导入终止密码子的方式设计sgRNA。对除无法由DH10B参照基因组扩增的序列以外的所有序列进行比对。所翻译的氨基酸序列见各通用序列的上部。各序列的基因组区见左侧。所有的靶序列均设计在互补链上，并将对应的区域用互补性PAM序列(反转)比对(合わせ)。用黑色阴影强调已突变的碱基。

[图12]图12显示由IS编辑的细胞的分离和确认方法。阶段性地实施克隆的分离和序列的确认。对已分离的克隆附上编号使显示在各表的最上一行，在左列所示的IS位点进行序列分析。根据Sanger序列的图谱判定基因型为确认到靶突变(mut)、未突变(wt)、或mut和wt的异种基因型(hetero)。

[图13]图13显示实施例5中使用的酵母表达用载体(背景：pRS315载体)的示意图。图中，Gal1p显示GAL1-10启动子。

具体实施方式

1.基因组编辑用复合物和编码该复合物的核酸

本发明提供基因组编辑用复合物和编码该复合物的核酸，所述复合物为核酸序列识别模块与蛋白降解标签结合而得的，所述核酸序列识别模块与双链DNA中的靶核苷酸序列特异性地结合。在本发明的基因组编辑用复合物的一个方案中，提供可修饰靶向位点的核酸的复合物，其为进一步结合有核酸修饰酶的复合物(即，核酸序列识别模块、核酸修饰酶与蛋白降解标签结合而得的复合物)。在一个方案中，为了提高双链DNA的修饰效率，该复合物可进一步结合有碱基切除修复抑制剂。另外，在本发明的基因组编辑用复合物的另一个方案中，提供可在靶向位点附近调控双链DNA所编码的基因的表达的复合物，该复合物至少结合有核酸序列识别模块和蛋白降解标签。在个一方案中，该复合物可进一步结合有转录调控因子。以下，有时将结合有核酸修饰酶、碱基切除修复抑制剂和转录调控因子的至少任一种的复合物和没有结合任一种的复合物统称为“本发明的复合物”或“基因组编辑用复合物”，有时将结合有核酸修饰酶的复合物特别称为“核酸修饰酶复合物”。另外，有时将编码这些复合物的核酸统称为“本发明的核酸”。

在不以修饰DNA为目的、而以复制为目的向宿主细菌(例如大肠杆菌)中导入本发明的核酸进行培养的情况下，在无计划地由核酸表达复合物时，该复合物也会被蛋白降解标签快速降解，因此可将对宿主细菌的毒性抑制在低水平。实际上，在以该核酸的复制为目的向宿主细菌中导入本发明的核酸的情况下，与导入不含编码蛋白降解标签的核酸的情况相比，在下述实施例中显示了该宿主细菌的转化效率高。因此，包含编码蛋白降解标签的序列的本发明的核酸作为针对除细菌以外的宿主(例如真核生物)的基因组编辑用核酸可在细菌内稳定地复制。因此，在除细菌以外的宿主中在以基因组编辑为目的的载体上添加编码本发明的蛋白降解标签的序列也是有用的。

在本发明中，双链DNA的“修饰”是指DNA链上的某核苷酸(例如dC)被转换成其他核苷酸(例如dT、dA或dG)、或者缺失、或者在DNA链上的某核苷酸间插入核苷酸或核苷酸序列。这里，被修饰的双链DNA只要是存在于宿主细胞内的双链DNA即可，没有特别限定，优选为基因组DNA。另外，双链DNA的“靶向位点”是指核酸序列识别模块特异性地识别并结合的“靶核苷酸序列”的全部或一部分、或者其与该靶核苷酸序列的附近(5’上游和3’下游的任一者或两者)。另外，“靶核苷酸序列”是指双链DNA中的核酸序列识别模块所结合的序列。本发明中，术语“基因组编辑”以不仅修饰双链DNA、还包括在靶向位点附近促进或抑制双链DNA所编码的基因的表达在内的意义使用。

在本发明中，“核酸序列识别模块”是指具有特异性地识别DNA链上的特定的核苷酸序列(即靶核苷酸序列)并与其结合的能力的分子或分子复合物。在使用核酸修饰酶复合物的情况下，通过核酸序列识别模块与靶核苷酸序列结合，该模块所连接的核酸修饰酶和/或碱基切除修复抑制剂可特异性地作用于双链DNA的靶向位点。

在本发明中，“核酸修饰酶”是指通过修饰核酸，利用该修饰直接或间接地发生DNA的修饰的酶，只要具有催化活性即可，可以是其肽片段。作为这样的DNA的修饰反应，可列举：由核酸降解酶催化的切割DNA链的反应(以下也称为“DNA链切割反应”)；或由核酸碱基转换酶催化的不直接伴有DNA链的切割的反应、即核酸碱基的嘌呤或嘧啶环上的取代基转换成其他基团或原子的反应(以下也称为“核酸碱基转换反应”)(例如碱基的脱氨基化反应)；由DNA糖基化酶催化的水解DNA的N-糖苷键的反应(以下也称为“脱碱基反应”)等。如下述实施例所示，通过在包含核酸碱基转换酶的核酸修饰酶复合物中添加蛋白降解标签，可降低该复合物对宿主细菌的毒性。因此，即使在不仅使用核酸碱基转换酶、还使用以往因其毒性强而难以应用于细菌的核酸降解酶的基因组编辑中，也可应用本发明的技术。因此，作为本发明中使用的核酸修饰酶，可列举：核酸降解酶、核酸碱基转换酶、DNA糖基化酶等。从减轻细胞毒性的角度考虑，优选核酸碱基转换酶和DNA糖基化酶，通过使用这些酶，在靶向位点无需切割双链DNA的至少一条链即可修饰该靶向的位点。

在本发明中，“蛋白降解标签”是指，主要由包含疏水性氨基酸的3个残基以上的肽构成，通过将其添加在基因组编辑用复合物中，与未添加其的复合物相比，蛋白的半衰期缩短的肽。作为这样的氨基酸，可列举：甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、蛋氨酸、脯氨酸、苯丙氨酸、色氨酸，本发明的蛋白降解标签只要在C末端包含这些任意的氨基酸的3个残基即可，对其以外的构成没有特别限定，可以是由该氨基酸的3个残基构成的肽。上述疏水性氨基酸残基的一部分或全部被丝氨酸或苏氨酸取代的肽也包含在本发明的蛋白降解标签中。作为优选的上述氨基酸的3个残基，没有特别限定，可列举：在大肠杆菌(Escherichia coli)和恶臭假单胞菌(Pseudomonas putida)中确认到高的效果(AndersenJ.B.等人,Apll.Environ.Microbiol.,64:2240-2246(1998))的亮氨酸-缬氨酸-丙氨酸(LVA)、亮氨酸-丙氨酸-丙氨酸(LAA)、丙氨酸-丙氨酸-缬氨酸(AAV)等，作为包含丝氨酸的氨基酸的3个残基，可列举丙氨酸-丝氨酸-缬氨酸(ASV)等。另外，包含这些氨基酸的3个残基的蛋白降解标签可参照tm RNA标签肽的数据库(例如tmRDB、http://www.ag.auburn.edu/mirror/tmRDB/peptide/peptide phylolist.html)等。具体而言，可列举：作为大肠杆菌的tmRNA标签肽而已知的YAASV(SEQ ID NO:324)、YALAA(SEQ ID NO:325)、ANDENYALAA(SEQ ID NO:181)和AANDENYALAA(SEQ ID NO:182)；作为芽孢杆菌属菌的tmRNA标签肽而已知的GKQNNLSLAA(SEQ ID NO:183)、GKSNNNFALAA(SEQ ID NO:184)、GKENNNFALAA(SEQ ID NO:185)、GKTNSFNQNVALAA(SEQ ID NO:186)、GKSNQNLALAA(SEQ IDNO:187)和GKQNYALAA(SEQ ID NO:188)；作为假单胞菌属菌的tmRNA标签肽而已知的ANDDNYALAA(SEQ ID NO:189)、ANDDQYGAALAA(SEQ ID NO:190)、ANDENYGQEFALAA(SEQ IDNO:191)、ANDETYGDYALAA(SEQ ID NO:192)、ANDETYGEYALAA(SEQ ID NO:193)、ANDETYGEETYALAA(SEQ ID NO:194)、ANDENYGAEYKLAA(SEQ ID NO:195)和ANDENYGAQLAA(SEQ ID NO:196)；作为链球菌属菌的tmRNA标签肽而已知的AKNTNSYALAA(SEQ ID NO:197)、AKNTNSYAVAA(SEQ ID NO:198)、AKNNTTYALAA(SEQ ID NO:199)、AKNTNTYALAA(SEQ IDNO:200)和AKNNTSYALAA(SEQ ID NO:201)等，并不限于这些。关于蛋白降解标签，代表性的是由3～15个氨基酸残基构成，但并不限于该范围。在一个实施方案中，蛋白降解标签由3～5个氨基酸残基构成。本领域技术人员可根据宿主细菌的种类等选择适当的蛋白降解标签。在本说明书中，只要没有特别说明，则字母(alphabet)的大写字母显示氨基酸的单字母标记，氨基酸序列按照从左到右、从N末端到C末端的方向记载。

在本发明中，“基因组编辑用复合物”是指包含上述核酸序列识别模块与蛋白降解标签连接而得的复合物的、具有赋予了特定的核苷酸序列识别能力的核酸修饰活性或表达调控活性的分子复合物，“核酸修饰酶复合物”是指包含上述核酸序列识别模块、核酸修饰酶与蛋白降解标签连接而得的复合物的、具有赋予了特定的核苷酸序列识别能力的核酸修饰活性的分子复合物。该复合物可进一步连接有碱基切除修复抑制剂。这里，“复合物”不仅包含由多个分子构成的复合物，还包括像融合蛋白那样在单一分子内具有构成上述的本发明复合物的分子的复合物。而且，像限制酶或CRISPR/Cas系统那样，在核酸序列识别模块和核酸修饰酶形成一体而发挥功能的分子或分子复合物中结合有蛋白降解标签的复合物也包括在本发明的复合物内。另外，“编码复合物”包括以下两种情形：编码构成复合物的各分子、以及编码在单一分子内具有构成分子的融合蛋白。

作为本发明中使用的核酸降解酶，只要是可催化上述反应的酶即可，没有特别限定，例如可列举：核酸酶(例如Cas效应蛋白(例如Cas9、Cpf1)、核酸内切酶(例如限制酶)、核酸外切酶等)、重组酶、DNA旋转酶、DNA拓扑异构酶、转座酶等。

作为本发明中使用的核酸碱基转换酶，只要是可催化上述反应的酶即可，没有特别限定，例如可列举：催化将氨基转换成羰基的脱氨基化反应的、属于核酸/核苷酸脱氨酶超级家族的脱氨酶。优选列举：可将胞嘧啶或5-甲基胞嘧啶分别转换成尿嘧啶或胸腺嘧啶的胞苷脱氨酶、可将腺嘌呤转换成次黄嘌呤的腺苷脱氨酶、可将鸟嘌呤转换成黄嘌呤的鸟苷脱氨酶等。作为胞苷脱氨酶，更优选列举：在脊椎动物的获得免疫(后天免疫)中作为向免疫球蛋白基因中导入突变的酶的活化诱导胞苷脱氨酶(以下也称为AID)等。

对核酸碱基转换酶的来源没有特别限定，例如可使用源自海七鳃鳗的PmCDA1(海七鳃鳗胞嘧啶脱氨酶1：Petromyzon marinus cytosine deaminase 1)、源自哺乳动物(例如人、猪、牛、马、猴等)的AID(活化诱导胞苷脱氨酶：Activation-induced cytidinedeaminase；AICDA)。例如，PmCDA1的cDNA的核苷酸序列和氨基酸序列可参照GenBankaccession No.EF094822和ABO15149，人AID的cDNA的核苷酸序列和氨基酸序列可参照GenBank accession No.NM_020661和NP_065712。从酶活性的角度考虑，优选PmCDA1。

作为本发明中使用的DNA糖基化酶，只要是可催化上述反应的酶即可，没有特别限定，可列举：胸腺嘧啶DNA糖基化酶、氧代鸟嘌呤转葡糖基酶、烷基腺嘌呤DNA糖基化酶(例如酵母3-甲基腺嘌呤-DNA糖基化酶(MAG1)等)等。本发明人以前报道了：通过在DNA糖基化酶中使用对无应变的双螺旋结构的DNA(未松弛的DNA：unrelaxed DNA)的反应性充分低的DNA糖基化酶，可降低细胞毒性，高效率地修饰靶序列(国际公开第2016/072399号)。因此，作为DNA糖基化酶，优选使用对无应变的双螺旋结构的DNA的反应性充分低的DNA糖基化酶。作为这样的DNA糖基化酶，可列举：国际公开第2016/072399号中记载的具有胞嘧啶-DNA糖基化酶(CDG)活性和/或胸腺嘧啶-DNA糖基化酶(TDG)活性的UNG(尿嘧啶-DNA糖基化酶)的突变体、源自牛痘病毒的UDG突变体。

作为上述UNG的突变体的具体例子，可列举：酵母UNG1的N222D/L304A双重突变体、N222D/R308E双重突变体、N222D/R308C双重突变体、Y164A/L304A双重突变体、Y164A/R308E双重突变体、Y164A/R308C双重突变体、Y164G/L304A双重突变体、Y164G/R308E双重突变体、Y164G/R308C双重突变体、N222D/Y164A/L304A三重突变体、N222D/Y164A/R308E三重突变体、N222D/Y164A/R308C三重突变体、N222D/Y164G/L304A三重突变体、N222D/Y164G/R308E三重突变体、N222D/Y164G/R308C三重突变体等。在使用其他的UNG代替酵母UNG1的情况下，只要使用在上述各突变体所对应的氨基酸中导入了同样的突变的突变体即可。作为源自牛痘病毒的UDG突变体，可列举：N120D突变体、Y70G突变体、Y70A突变体、N120D/Y70G双重突变体、N120D/Y70A双重突变体等。或者，可以是裂解酶(split enzyme，分裂酶)，该酶是分割成2个片段的DNA糖基化酶，设计方式如下：各片段与被分割成2个的核酸序列识别模块的任一方结合形成2个复合物，若两个复合物重折叠，则该核酸序列识别模块可与靶核苷酸序列特异性地结合，通过该特异性结合，该DNA糖基化酶可催化脱碱基反应。裂解酶例如可参照国际公开第2016/072399号、Nat Biotechnol.33(2):139-142(2015)、PNAS 112(10):2984-2989(2015)的记载进行设计和制作。

在本发明中，“碱基切除修复”是生物所具有的DNA修复机制之一，是指通过酶切取碱基损伤的部分并再次连接，从而修复碱基损伤的机制。有损伤的碱基的切除通过作为水解DNA的N-糖苷键的酶的DNA糖基化酶来进行，通过该酶进行的脱碱基反应的结果所产生的无碱基位点(apurinic/apyrimidic(AP)site：缺嘌呤/缺嘧啶(AP)位点)，通过AP核酸内切酶、DNA聚合酶、DNA连接酶等碱基切除修复(BER)途径下游的酶来处理。作为参与这些BER途径的基因或蛋白，可列举：UNG(NM_003362)、SMUG1(NM_014311)、MBD4(NM_003925)、TDG(NM_003211)、OGG1(NM_002542)、MYH(NM_012222)、NTHL1(NM_002528)、MPG(NM_002434)、NEIL1(NM_024608)、NEIL2(NM_145043)、NEIL3(NM_018248)、APE1(NM_001641)、APE2(NM_014481)、LIG3(NM_013975)、XRCC1(NM_006297)、ADPRT(PARP1)(NM_0016718)、ADPRTL2(PARP2)(NM_005484)等(括弧内显示注册有各基因(cDNA)的核苷酸序列信息的refseq编号。)，但并不限于这些。

在本发明中，“碱基切除修复抑制剂”是指通过抑制上述BER途径的任一个阶段、或者抑制该BER途径所动员的分子的表达本身而结果是抑制BER的蛋白。本发明中使用的碱基切除修复抑制剂只要是结果是抑制BER的物质即可，没有特别限定，从效率的角度考虑，优选位于BER途径上游的DNA糖基化酶抑制剂。作为本发明中使用的DNA糖基化酶抑制剂，可列举：胸腺嘧啶DNA糖基化酶抑制剂、尿嘧啶DNA糖基化酶抑制剂、氧代鸟嘌呤DNA糖基化酶抑制剂、烷基鸟嘌呤DNA糖基化酶抑制剂等，但并不限于这些。例如，在使用胞苷脱氨酶作为核酸修饰酶的情况下，由于抑制通过突变而产生的DNA的U:G或G:U错配的修复，因此适合使用尿嘧啶DNA糖基化酶抑制剂。

作为这样的尿嘧啶DNA糖基化酶抑制剂，可列举：源自作为枯草杆菌(Bacillussubtilis)噬菌体的PBS1的尿嘧啶DNA糖基化酶抑制剂(UGI)或源自作为枯草杆菌噬菌体的PBS2的尿嘧啶DNA糖基化酶抑制剂(UGI)(Wang,Z.和Mosbaugh,D.W.(1988)J.Bacteriol.170,1082-1091)，并不限于这些，只要是上述DNA的错配修复抑制剂，则可用于本发明。特别是，还已知源自PBS2的UGI具有不易引起DNA上的C向T以外的突变或切割和重组的效果，因此适合使用源自PBS2的UGI。

如上所述，在碱基切除修复(BER)机制中，若通过DNA糖基化酶切除碱基，则AP核酸内切酶会在无碱基位点(AP位点)导入切口(缺口)，再通过核酸外切酶完全切除AP位点。若AP位点被切除，则DNA聚合酶以相反链的碱基为模板重新制作碱基，最后DNA连接酶填充切口，以完成修复。已知虽然失去了酶活性但仍保持与AP位点的结合能力的突变AP核酸内切酶竞争性地抑制BER。因此，这些突变AP核酸内切酶也可用作本发明的碱基切除修复抑制剂。对突变AP核酸内切酶的来源没有特别限定，例如可使用源自大肠杆菌、酵母、哺乳动物(例如人、小鼠、猪、牛、马、猴等)等的AP核酸内切酶。例如，人Ape1的氨基酸序列可参照UniprotKB No.P27695。作为虽然失去了酶活性但仍保持与AP位点的结合能力的突变AP核酸内切酶的例子，可列举活性位点或作为辅助因子的Mg结合位点发生了突变的蛋白。例如，在人Ape1的情况下，可列举：E96Q、Y171A、Y171F、Y171H、D210N、D210A、N212A等。

在本发明中，“转录调控因子”是指具有促进靶基因转录的活性或抑制靶基因转录的活性的蛋白或其结构域，以下，有时将具有促进转录的活性的因子称为“转录活化因子”，将具有抑制转录的活性的因子称为“转录抑制因子”。

作为本发明中使用的转录活化因子，只要是可促进靶基因转录的因子即可，没有特别限定，例如可列举：HSV(单纯疱疹病毒：Herpes simplex virus)VP16的活化结构域、NFκB的p65亚单位、VP64、VP160、HSF、P300和EB病毒(人类疱疹病毒：Epstein-Barr Virus)RTA、以及它们的融合蛋白等。作为本发明中使用的转录抑制因子，只要是可抑制靶基因转录的因子即可，没有特别限定，例如可列举：KRAB、MBD2B、v-ErbA、SID(包括SID的多联体(SID4X))、MBD2、MBD3、DNMT家族(例如DNMT1、DNMT3A、DNMT3B)、Rb、MeCP2、ROM2和AtHD2A、以及它们的融合蛋白等。

由本发明的复合物的核酸序列识别模块识别的双链DNA中的靶核苷酸序列只要可特异性地与该模块结合即可，没有特别限定，可以是双链DNA中的任意序列。靶核苷酸序列的长度主要足以特异性地与核酸序列识别模块结合即可，例如，在向哺乳动物的基因组DNA中的特定位点导入突变的情况下，根据其基因组大小，长度为12个核苷酸以上，优选15个核苷酸以上，更优选为17个核苷酸以上。对长度的上限没有特别限定，优选为25个核苷酸以下。

作为本发明的复合物的核酸序列识别模块，例如除Cas效应蛋白的至少一个DNA切割能力失活的CRISPR-Cas系统(以下也称为“CRISPR-突变Cas”)、锌指基序、TAL效应子和PPR基序等以外，还可使用限制酶、转录调控因子、RNA聚合酶等包含可与DNA特异性地结合的蛋白的DNA结合结构域的片段等，但并不限于这些。在使用核酸修饰酶的情况下，可使用核酸序列识别模块与核酸修饰酶形成一体的CRISPR-Cas系统(该系统的Cas效应蛋白维持着DNA切割能力的两方的活性)。可优选列举CRISPR-突变Cas、锌指基序、TAL效应子、PPR基序等。

锌指基序是连接3～6个Cys2His2型不同的锌指单元(1指识别约3个碱基)而得的基序，可识别9～18个碱基的靶核苷酸序列。锌指基序可通过Modular组装法(NatBiotechnol(2002)20:135-141)、OPEN法(Mol Cell(2008)31:294-301)、CoDA法(NatMethods(2011)8:67-69)、大肠杆菌单杂交(one-hybrid)法(Nat Biotechnol(2008)26:695-701)等已知方法来制作。关于锌指基序的制作细节，可参照日本专利第4968498号公报。

TAL效应子具有以约34个氨基酸为单元的模块的重复结构，由1个模块的第12和13位的氨基酸残基(称为RVD)确定结合稳定性和碱基特异性。由于各模块的独立性高，所以仅通过接合模块即可制作靶核苷酸序列的特异性TAL效应子。TAL效应子已确立利用了开放资源的制作方法(REAL法(Curr Protoc Mol Biol(2012)Chapter 12:Unit 12.15)、FLASH法(Nat Biotechnol(2012)30:460-465)、Golden Gate法(Nucleic Acids Res(2011)39:e82)等)，可比较简便地设计针对靶核苷酸序列的TAL效应子。关于TAL效应子的制作细节，可参照日本特表2013-513389号公报。

PPR基序通过由35个氨基酸构成且识别1个核酸碱基的PPR基序的连续而构成，使识别特定的核苷酸序列，仅通过各基序的第1、4和ii(-2)位的氨基酸识别靶碱基。由于不依赖于基序构成、且不存在来自两侧基序的干渉，所以和TAL效应子同样仅通过接合PPR基序即可制作靶核苷酸序列的特异性PPR蛋白。PPR基序的制作细节可参照日本特开2013-128413号公报。

另外，在使用限制酶、转录调控因子、RNA聚合酶等的片段的情况下，这些蛋白的DNA结合结构域众所周知，因此例如可容易地设计、构建包含该结构域、且不具有DNA双链切割能力的片段。

在使用核酸修饰酶的情况下，上述任一个的核酸序列识别模块可作为其与上述核酸修饰酶和/或碱基切除修复抑制剂的融合蛋白来提供，或者，可使SH3结构域、PDZ结构域、GK结构域、GB结构域等蛋白结合结构域和它们的结合配偶体，分别与核酸序列识别模块及核酸修饰酶和/或碱基切除修复抑制剂融合，经由该结构域与其结合配偶体的相互作用以蛋白复合物的形式提供。或者，还可使内含肽(intein)分别与核酸序列识别模块及核酸修饰酶和/或碱基切除修复抑制剂融合，通过各蛋白合成后的连接来连接两者。蛋白降解标签可与核酸修饰酶复合物的构成分子(核酸序列识别模块、核酸修饰酶和碱基切除修复抑制剂)中的任一个结合，也可与多个构成分子结合。在使用转录调控因子的情况下，与上述同样，该转录调控因子也可作为其与核酸序列识别模块的融合蛋白来提供，或者也可经由上述的蛋白结合结构域和它们的结合配偶体与核酸识别模块结合。与上述同样，蛋白降解标签可作为融合蛋白来结合，或者也可经由上述的蛋白结合结构域和它们的结合配偶体与基因组编辑用复合物或其构成分子结合。另外，该蛋白降解标签优选结合于基因组编辑用复合物或其构成分子的C末端。

本发明的核酸可由核酸序列识别模块、蛋白降解标签和必要时的核酸修饰酶和/或碱基切除修复抑制剂或转录调控因子作为编码它们的融合蛋白的核酸来调制；或者，利用结合结构域或内含肽等翻译成蛋白后，以可在宿主细胞内形成复合物的形式，作为分别编码它们的核酸来调制。这里，核酸可以是DNA也可以是RNA。在DNA的情况下，优选为双链DNA，以在宿主细胞内在功能性启动子的控制下配置的表达载体的形式提供。在RNA的情况下，优选为单链RNA。

编码锌指基序、TAL效应子、PPR基序等核酸序列识别模块的DNA可针对各模块通过上述任一种方法获取。编码限制酶、转录调控因子、RNA聚合酶等序列识别模块的DNA例如可根据它们的cDNA序列信息，以覆盖编码该蛋白的所期望的部分(包括DNA结合结构域的部分)的区的方式合成寡DNA引物，使用由产生该蛋白的细胞调制的总RNA或mRNA组分作为模板，通过RT-PCR法进行扩增，从而可进行克隆。

编码核酸修饰酶和碱基切除修复抑制剂的DNA也同样根据使用的酶的cDNA序列信息合成寡DNA引物，使用由产生该酶的细胞调制的总RNA或mRNA组分作为模板，通过RT-PCR法进行扩增，从而可进行克隆。例如，编码源自PBS2的UGI的DNA根据在NCBI/GenBank数据库中注册的DNA序列(检索号J04434)，针对CDS的上游和下游设计适当的引物，可通过RT-PCR法由源自PBS2的mRNA进行克隆。

克隆的DNA可直接或根据需要用限制酶进行消化、或者添加适当的接头(例如GS接头、GGGAR接头等)、间隔序列(例如FLAG序列等)和/或核移动信号(NLS)(在目标双链DNA为线粒体或叶绿体DNA的情况下是指各细胞器移动信号)，调制编码蛋白的DNA。另外，可进一步与编码核酸序列识别模块的DNA连接，调制编码融合蛋白的DNA。

编码本发明的基因组编辑用复合物的DNA还可通过化学合成DNA链、或者利用PCR法或Gibson组装法连接所合成的一部分重叠的寡DNA短链，构建编码其全长的DNA。通过与化学合成或PCR法或Gibson组装法的组合来构建全长DNA的优点在于：可结合导入该DNA的宿主，设计遍布CDS全长的使用密码子。在表达异种DNA时，通过将其DNA序列转换成在宿主生物中使用频率高的密码子，可期待蛋白表达量的增加。所使用的宿主中的密码子使用频率的数据例如可使用(公共基金会)Kazusa DNA研究所的主页上公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html)，或者可参照记录有各宿主中的密码子使用频率的文献。参照所获取的数据和想要导入的DNA序列，只要将该DNA序列所使用的密码子中在宿主中使用频率低的密码子转换成编码同一氨基酸且使用频率高的密码子即可。

包含编码本发明的复合物的DNA的表达载体例如可通过将该DNA连接在适当的表达载体中的启动子的下游来制造。

作为表达载体，使用源自大肠杆菌的质粒(例如pBR322、pBR325、pUC12、pUC13)、源自枯草杆菌的质粒(例如pUB110、pTP5、pC194)、源自酵母的质粒(例如pSH19、pSH15)、昆虫细胞表达质粒(例如pFast-Bac)、动物细胞表达质粒(例如pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo)、λ噬菌体等噬菌体、杆状病毒等昆虫病毒载体(例如BmNPV、AcNPV)、逆转录病毒、牛痘病毒、腺病毒等动物病毒载体等。

作为启动子，只要是适合于基因表达中使用的宿主的启动子，则可以是任何启动子。在使用核酸降解酶作为核酸修饰酶的情况下，有时会因毒性导致宿主细胞的存活率显著下降，因此希望在诱导开始前使用诱导启动子先增加细胞数。另一方面，在使用核酸碱基转换酶和DNA糖基化酶作为核酸修饰酶的情况下、或者在不使用核酸修饰酶的情况下，即使表达本发明的复合物也可得到充分的细胞增殖，因此组成型启动子也可无限制地进行使用。

例如，在宿主为动物细胞的情况下，使用SRα启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒)启动子、MoMuLV(莫洛尼鼠白血病病毒)LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。其中，优选CMV启动子、SRα启动子等。

在宿主为大肠杆菌的情况下，优选J23系列的启动子(例如J23119启动子)、trp启动子、lac启动子、recA启动子、λP_L启动子、lpp启动子、T7启动子等。

在宿主为芽孢杆菌属菌的情况下，优选SPO1启动子、SPO2启动子、penP启动子等。

在宿主为酵母的情况下，优选Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。

在宿主为昆虫细胞的情况下，优选多角体蛋白启动子、P10启动子等。

在宿主为植物细胞的情况下，优选CaMV35S启动子、CaMV19S启动子、NOS启动子等。

作为表达载体，除上述以外，根据期望还可使用含有增强子、剪接信号、终止子、PolyA添加信号、抗药性基因、营养需求性互补基因等选择标记、复制起点等的表达载体。

编码本发明的复合物的RNA例如可通过以包含编码各蛋白的DNA的载体为模板，利用自身已知的体外转录系统转录到mRNA中来调制。

作为用于复制本发明的核酸的宿主细菌，只要是具有使用了tmRNA(ssrA)的蛋白降解系统的细菌即可，没有特别限定，例如使用埃希氏菌属(Escherichia)菌、芽孢杆菌属(Bacillus)菌、假单胞菌属(Pseudomonas)菌(例如恶臭假单孢菌)、链球菌属菌(例如链球菌)、链霉菌属(Streptomyces)菌、葡萄球菌属菌、耶尔辛氏菌属(Yersinia)菌、不动杆菌属(Acinetobacter)菌、克雷伯氏菌属(Klebsiella)菌、博德特氏菌属(Bordetella)菌、乳球菌属(Lactococcus)菌、奈瑟菌属(Neisseria)菌、气单胞菌属(Aeromonas)菌、弗朗西斯氏菌属(Francisella)菌、棒状杆菌属(Corynebacterium)菌、柠檬酸杆菌属(Citrobacter)菌、衣原体属(Chlamydia)菌、嗜血杆菌属(Haemophilus)菌、布鲁氏菌属(Brucella)菌、分枝杆菌属(Mycobacterium)菌、军团菌属(Legionella)菌、红球菌属(Rhodococcus)菌、假单胞菌属菌、螺杆菌属(Helicobacter)菌、沙门氏菌属(Salmonella)菌、葡萄球菌属(Staphylococcus)菌、弧菌属(Vibrio)菌和丹毒丝菌属(Erysipelothrix)菌等。

作为埃希氏菌属菌，例如使用大肠杆菌(Escherichia coli)K12/DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)]、大肠杆菌JM103[Nucleic Acids Research,9,309(1981)]、大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)]、大肠杆菌HB101[Journal of Molecular Biology,41,459(1969)]、大肠杆菌C600[Genetics,39,440(1954)]、大肠杆菌DH5α、大肠杆菌BW25113等。

作为芽孢杆菌属菌，例如使用枯草芽孢杆菌(Bacillus subtilis)MI114[Gene,24,255(1983)]、枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。

在使用核酸碱基转换酶或DNA糖基化酶作为核酸修饰酶的情况下，核酸修饰酶和/或碱基切除修复抑制剂是通过和与上述锌指等的连接方式同样的方法，以其与突变Cas的复合物的形式提供。或者，还可使核酸碱基转换酶和/或碱基切除修复抑制剂和突变Cas利用作为RNA适配体的MS2F6、PP7等与它们的结合蛋白形成的RNA支架进行结合。向导RNA与靶核苷酸序列形成互补链，随后突变Cas募集至tracrRNA以识别DNA切割位点识别序列PAM(原间隔序列临近基序)(在使用SpCas9的情况下，PAM为NGG(N是任意的碱基)的3个碱基，理论上可靶向基因组上的任何地方)，但无法切割一个或两个DNA，通过与突变Cas连接的核酸碱基转换酶或DNA糖基化酶的作用，在靶向位点(可在包含靶核苷酸序列的全部或一部分的数百个碱基的范围内适当调控)发生核酸碱基转换或脱碱基，在双链DNA内产生错配(例如，在使用PmCDA1或AID等胞苷脱氨酶作为核酸碱基转换酶的情况下，靶向位点的有义链或反义链上的胞嘧啶转换成尿嘧啶，产生U：G或G：U错配)或无碱基位点(AP位点)。由于要修复其的细胞的BER系统的错误，导入了各种突变。例如，在没有正确修复错配或无碱基而修复相反链的碱基使其与转换的链的碱基配对(上述例子中的T-A或A-T)、或者在修复时进一步取代成其他核苷酸(例如U→A、G)、或者发生1至几十个碱基的缺失或插入，从而导入各种突变。通过并用碱基切除修复抑制剂，细胞内的BER机制得到抑制，修复失误的频率提高，可提高突变的导入效率。

关于锌指基序，由于与靶核苷酸序列特异性地结合的锌指的制作效率不高、另外结合特异性高的锌指的筛选繁杂，所以制作多个实际上起作用的锌指基序并不容易。与锌指基序相比，TAL效应子或PPR基序的靶核酸序列识别的自由度高，但每次都需要根据靶核苷酸序列设计、构建巨大的蛋白，因此在效率方面仍然存在问题。

相对于此，CRISPR-Cas系统是通过与靶核苷酸序列互补的向导RNA识别目标双链DNA的序列，因此仅需合成可特异性地与靶核苷酸序列形成杂化物的寡DNA，即可靶向任意的序列。

因此，在本发明的更优选的实施方案中，作为核酸序列识别模块，使用维持DNA切割能力的双方的活性的CRISPR-Cas系统、或者Cas的仅一个或双方的DNA切割能力失活的CRISPR-Cas系统(CRISPR-突变Cas)。

使用了CRISPR-突变Cas的本发明的核酸序列识别模块以包含与靶核苷酸序列互补的序列的CRISPR-RNA(crRNA)和必要时的突变Cas效应蛋白的募集所需的反式-活化RNA(tracrRNA)和(在需要tracrRNA的情况下，可作为其与crRNA的嵌合RNA的形式提供)突变Cas效应蛋白的复合物的形式提供。将与突变Cas效应蛋白组合构成核酸序列识别模块的、由crRNA单独或crRNA与tracrRNA的嵌合RNA构成的RNA分子统称为“向导RNA”。在使用未导入突变的CRISPR/Cas系统的情况下也同样。

本发明中使用的Cas效应蛋白只要与向导RNA形成复合物，可识别目标基因中的靶核苷酸序列和与其相邻的原间隔序列临近基序(protospacer adjacent motif：PAM)并进行结合即可，没有特别限定，优选为Cas9或Cpf1。作为Cas9，例如可列举：源自酿脓链球菌(Streptococcus pyogenes)的Cas9(SpCas9；PAM序列NGG(N为A、G、T或C。下同))、源自嗜热链球菌(Streptococcus thermophilus)的Cas9(StCas9；PAM序列NNAGAAW)、源自脑膜炎奈瑟菌(Neisseria meningitidis)的Cas9(NmCas9；PAM序列NNNNGATT)等，并不限于这些。优选为PAM的制约少的SpCas9(实质上是2个碱基，理论上可靶向基因组上的几乎每一处)。另外，作为Cpf1，例如可列举：源自新凶手弗朗西丝氏菌(Francisella novicida)的Cpf1(FnCpf1；PAM序列NTT)、源自氨基酸球菌属(Acidaminococcus sp.)的Cpf1(AsCpf1；PAM序列NTTT)、源自毛螺科菌(Lachnospiraceae bacterium)的Cpf1(LbCpf1；PAM序列NTTT)等，但并不限于这些。作为本发明中使用的突变Cas效应蛋白(有时简称为突变Cas)，可使用Cas效应蛋白的双链DNA的两条链的切割能力失活的蛋白和仅一条链的切割能力失活的具有切口酶活性的蛋白的任一种。例如，在SpCas9的情况下，可使用下述突变体：第10位的Asp残基转换成了Ala残基的、与向导RNA形成互补链的链的相反链的切割能力欠缺(因此对与向导RNA形成互补链的链具有切口酶活性)的D10A突变体；或者第840位的His残基转换成了Ala残基的、与向导RNA形成互补链的链的切割能力欠缺(因此对与向导RNA形成互补链的链的相反链具有切口酶活性)的H840A突变体、及其双重突变体(dCas9)。另外，在FnCpf1的情况下，可使用第917位的Asp残基转换成了Ala残基(D917A)、或者第1006位的Glu残基转换成了Ala残基(E1006A)的、两条链的切割能力均欠缺的突变体。只要欠缺双链DNA的至少一条链的切割能力即可，其他的突变Cas也可同样使用。

编码Cas效应蛋白(包括突变Cas、下同)的DNA，可利用与关于编码碱基切除修复抑制剂的DNA而上述的方法同样的方法，由产生该酶的细胞克隆。另外，突变Cas可通过采用自体已知的位点特异性诱变法向编码克隆化的Cas的DNA中导入突变使对DNA切割活性较为重要的位点的氨基酸残基(例如，在SpCas9的情况下，可列举第10位的Asp残基或第840位的His残基；在FnCpf1的情况下，可列举第917位的Asp残基或第1006位的Glu残基等，但并不限于这些)转换成其他氨基酸而获取。

或者，编码Cas效应蛋白的DNA还可利用与关于编码核酸序列识别模块的DNA或编码DNA糖基化酶的DNA而阐述的方法同样的方法，与化学合成或PCR法或Gibson组装法组合，以具有适合在使用的宿主细胞中表达的密码子用途的DNA的形式构建。

所得的编码Cas效应蛋白、核酸修饰酶、碱基切除修复抑制剂和/或转录调控因子的DNA可根据靶细胞插入到与上述同样的表达载体的启动子的下游。

另一方面，编码向导RNA的DNA可如下合成：设计寡DNA序列，使用DNA/RNA合成仪进行化学合成，所述寡DNA序列包含与靶核苷酸序列互补的核苷酸序列(在本说明书中，也称为“靶向序列(targeting sequence)”)，并连接有crRNA序列(例如在募集FnCpf1作为Cas效应蛋白的情况下，可使用在靶向序列的5’侧包含SEQ ID NO:19即AAUUUCUACUGUUGUAGAU的crRNA，下划线部分的序列彼此形成碱基对而成为茎-环结构)的编码序列、或者crRNA编码序列和必要时的已知的tracrRNA编码序列(例如在募集Cas9作为Cas效应蛋白的情况下，作为tracrRNA编码序列的gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcttttttt；SEQ ID NO:18)。

这里，“靶链”是指与靶核苷酸序列的crRNA形成杂化物的链，将在其相反链中通过形成靶链与crRNA的杂化物而成为单链状的链称为“非靶链(non-targeted strand)”。另外，推测核酸碱基转换反应通常往往是在成为单链状的非靶链上发生，因此在靶核苷酸序列通过单条链表现的情况下(例如标记PAM序列的情况、或表示靶核苷酸序列与PAM的位置关系的情况等)，以非靶链的序列为代表。

对靶向序列的长度没有特别限定，只要可与靶核苷酸序列特异性地结合即可，例如为15～30个核苷酸，优选为18～25个核苷酸。虽然靶核苷酸序列的选择受到与该序列的3’侧(Cas9的情况下)或5’侧(Cpf1的情况下)相邻的PAM的存在的限制，但根据在后述实施例中证实的见解，在组合有CRISPR-突变Cas9和胞苷脱氨酶的本发明的系统中具有以下的规则性：随着靶核苷酸序列的变长，易被取代的C向5’末端移位，因此通过适当选择靶核苷酸序列(作为其互补链的靶向序列)的长度，可使可导入突变的碱基的位点移位。由此，可至少部分地消除PAM(SpCas9中的NGG)的制约，突变导入的自由度进一步提高。

关于靶向序列的设计，例如，在使用Cas9作为Cas效应蛋白的情况下，可通过利用公开的向导RNA设计网站(CRISPR Design Tool、CRISPRdirect等)，从目标基因的CDS序列中列出与PAM(例如，在SpCas9的情况下为NGG)的3’侧相邻的20mer序列，在从其5’端向3’方向将7个核苷酸以内的C转换成T的情况下，选择在目标基因所编码的蛋白中发生氨基酸变化的这样的序列来进行设计。另外，即使在使用20mer以外的靶向序列的长度的情况下，也可选择适当的序列。从这些候选中，可使用目标宿主基因组中的脱靶位点数少的候选序列作为靶向序列。在所用的向导RNA设计软件不具有检索宿主基因组的脱靶位点的功能的情况下，例如，对于候选序列的3’侧的8～12个核苷酸(靶核苷酸序列的识别能力高的种子序列(seed sequence))，通过对宿主基因组进行Blast检索，可检索脱靶位点。

编码向导RNA的DNA也可插入到与上述同样的表达载体中，但作为启动子，优选使用polIII系的启动子(例如SNR6、SNR52、SCR1、RPR1、U3、U6、H1启动子等)和终止子(例如PolyT序列(T₆序列等))。

编码向导RNA(crRNA或crRNA-tracrRNA嵌合体)的DNA可通过设计寡RNA序列、再使用DNA/RNA合成仪进行化学合成，所述寡RNA序列是将与靶核苷酸序列的靶链互补的序列和已知的tracrRNA序列(募集Cas9的情况下)或crRNA的直接重复序列(募集Cpf1的情况下)连接而得的。

2.宿主细菌的双链DNA的靶向位点的修饰方法

将1.中记载的本发明的复合物或核酸导入到宿主、特别是细菌中，培养该宿主，从而可修饰宿主的双链DNA的靶向位点、或者可调控在靶向位点附近双链DNA所编码的基因的表达。因此，在另一个实施方案中，提供修饰细菌的双链DNA的靶向位点的方法(以下也称为“本发明的修饰方法”)，该方法包括以下步骤：使核酸修饰酶复合物与宿主细菌的双链DNA接触，将靶向位点的1个以上的核苷酸转换成其他的1个以上的核苷酸或使其缺失、或者在该靶向位点插入1个以上的核苷酸。通过使用核酸碱基转换酶或DNA糖基化酶作为核酸修饰酶，在靶向位点无需切割双链DNA的至少一条链即可修饰该靶向位点。另外，在又一个实施方案中，提供下述方法：使本发明的复合物与宿主细菌的双链DNA接触，调控位于靶向位点附近的基因的转录。

本发明的复合物与双链DNA的接触通过向具有目标双链DNA(例如基因组DNA)的细菌中导入该复合物或编码该复合物的核酸来实施。若考虑到导入和表达效率，则与基因组编辑用复合物本身相比，更希望以编码该复合物的核酸的形式导入到细菌中，使该复合物在细菌内表达。

作为本发明的修饰方法中使用的细菌，可列举与1.的用于核酸复制的细菌同样的细菌。

表达载体的导入可根据细菌的种类按照已知的方法(例如，溶菌酶法、感受态法、PEG法、CaCl₂共沉淀法、电穿孔法、微量注射法、粒子枪法、脂质转染法、土壤杆菌法等)实施。

大肠杆菌例如可按照Proc.Natl.Acad.Sci.USA,69,2110(1972)或Gene,17,107(1982)等中记载的方法进行转化。

芽孢杆菌属菌例如可按照Molecular&General Genetics,168,111(1979)等中记载的方法进行载体导入。

导入了载体的细菌的培养可根据细菌的种类按照已知方法实施。

例如，在培养大肠杆菌或芽孢杆菌属菌的情况下，作为培养中使用的培养基，优选液体培养基。另外，培养基优选含有转化体的生长所需的碳源、氮源、无机物等。这里，作为碳源，例如可列举：葡萄糖、糊精、可溶性淀粉、蔗糖等；作为氮源，例如可列举：铵盐类、硝酸盐类、玉米桨、蛋白胨、酪蛋白、肉提取物、大豆粕、马铃薯提取液等无机或有机物质；作为无机物，例如可列举：氯化钙、磷酸二氢钠、氯化镁等。另外，培养基中可添加酵母提取物、维生素类、生长促进因子等。培养基的pH优选为约5～约8。

作为培养大肠杆菌的情况下的培养基，例如优选含有葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold SpringHarbor Laboratory,New York 1972]。根据需要，为了有效地使启动子发挥作用，例如可在培养基中添加像3β-吲哚丙烯酸这样的药物。大肠杆菌的培养通常是在约15～约43℃下进行。根据需要，可进行通气或搅拌。

芽孢杆菌属菌的培养通常是在约30～约40℃下进行。根据需要，可进行通气或搅拌。

另外，本发明人确认到：在使用PmCDA1作为核酸修饰酶的情况下，通过在较通常低的温度(例如20～26℃、优选约25℃)下培养动物细胞或植物细胞，使突变导入效率上升，在培养细菌的情况下也优选在上述低温下进行培养。

向宿主细菌内导入编码本发明复合物的RNA可通过微量注射法、脂质转染法等来进行。RNA导入可进行1次或以适当的间隔多次(例如2～5次)重复进行。

本发明人还针对接近的多个靶核苷酸序列制作序列识别模块并同时使用，从而使用芽殖酵母确认到：与以单独的核苷酸序列为靶相比，突变导入效率大幅上升，即使在细菌内也可期待同样的效果。其效果从两个靶核苷酸序列的一部分重复的情况到两者相距600bp左右的情况均同样地实现诱变。另外，在靶核苷酸序列为相同方向(靶链为同源链)的情况下和两者相对的(双链DNA的两条链成为靶链)情况下均可发生。

在优选的实施方案中证实了：利用本发明的方法，在细菌的基因组DNA中可同时向6处导入突变(图10)，突变导入效率非常高。因此，在本发明的基因组序列的修饰方法或靶基因的表达调控方法中，可将完全不同的位置的多个DNA区作为靶进行修饰、或者可进行多个靶基因的表达调控。因此，在本发明的一个优选实施方案中，可使用与不同的靶核苷酸序列(可在1个目标基因内，也可在不同的2个以上的目标基因内。这些目标基因可位于同一染色体或质粒上，也可位于另一个染色体或质粒上。)分别特异性结合的两种以上的核酸序列识别模块。这种情况下，这些核酸序列识别模块的各1个与核酸修饰酶和/或碱基切除修复抑制剂、或转录调控因子形成添加有蛋白降解标签的复合物。这里，核酸修饰酶、碱基切除修复抑制剂和转录调控因子可使用通用的物质。例如，在使用CRISPR-Cas系统作为核酸序列识别模块的情况下，Cas效应蛋白与核酸修饰酶和/或碱基切除修复抑制剂、或转录调控因子的复合物(包括融合蛋白)使用通用的物质，作为向导RNA-tracrRNA，可制作两种以上的由分别与不同的靶核苷酸序列形成互补链的2个以上的各向导RNA与tracrRNA形成的嵌合RNA进行使用。另一方面，在使用锌指基序或TAL效应子等作为核酸序列识别模块的情况下，例如可使核酸修饰酶和/或碱基切除修复抑制剂、或转录调控因子、与特异性地与不同的靶核苷酸结合的各核酸序列识别模块融合。

为了使本发明的复合物在宿主细菌内表达，像上述那样将包含编码该复合物的DNA的表达载体导入到宿主细菌中，但为了有效地导入突变、或者为了充分调控靶基因的表达，希望维持一定期间以上且一定水平以上的基因组编辑用复合物的表达。从这个角度考虑，将该表达载体整合到宿主基因组内是可靠的，但基因组编辑用复合物的持续表达会增加脱靶切割的风险，因此优选在顺利实现突变导入后快速地切除。作为用于切除整合到宿主基因组内的DNA的手段，可列举使用Cre-loxP系统的方法或使用转座子的方法等。

或者，在所期望的时期发生核酸反应，仅在固定靶向位点的修饰所需的期间一过性地使本发明的复合物在宿主细菌内表达，从而可在避免脱靶切割风险的同时有效地实现宿主基因组的编辑。发生核酸修饰反应、固定靶向位点的修饰所需的期间根据宿主细菌的种类或培养条件等而不同，需要经过至少几代的细胞分裂，因此认为需要2-3天左右。本领域技术人员可根据使用的培养条件等适当确定适合的表达诱导期间。在宿主细菌中不会产生副作用的范围内，编码本发明复合物的核酸的表达诱导期间可超过上述“固定靶向位点的修饰所需的期间”而延长。

作为使本发明的复合物在所期望的时期、所期望的期间一过性表达的手段，可列举下述方法：制作以可控制表达期间的形式包含编码该复合物的核酸(在突变CRISPR-Cas系统中编码向导RNA的DNA、编码Cas效应蛋白的DNA和编码必要时的核酸修饰酶和/或碱基切除修复抑制剂或转录调控因子的DNA)的构建体(表达载体)，将其导入宿主内。作为“可控制表达期间的形式”，具体而言，可列举将编码本发明复合物的核酸置于诱导性调控区的控制下的形式。对“诱导性调控区”没有特别限定，例如可列举温度敏感性(ts)突变阻遏物与由其控制的操纵基因的操纵子。作为ts突变阻遏物，例如可列举源自λ噬菌体的cI阻遏物的ts突变体，但并不限于此。在λ噬菌体cI阻遏物(ts)的情况下，在30℃以下(例如28℃)其与操纵基因结合以抑制下游的基因表达，但在37℃以上(例如42℃)的高温下其从操纵基因中解离，因此诱导基因表达。因此，通常是在30℃以下培养导入有编码本发明复合物的核酸的宿主细菌，在适当时期将温度升至37℃以上并培养一定期间，进行核酸转换反应，向靶基因中导入突变，之后快速地返回到30℃以下，从而可使抑制靶基因表达的期间达到最短，即使在对宿主细胞而言靶向必需基因的情况下，也可在遏制副作用的同时高效率地进行编辑。

在利用温度敏感性突变的情况下，例如，将载体的自主复制所需的蛋白的温度敏感性突变体搭载于包含编码本发明复合物的DNA的载体，从而在该复合物表达后无法快速地自主复制，随着细胞的分裂，该载体自然脱落。作为这样的温度敏感性突变蛋白，可列举pSC101 ori的复制所需的Rep101 ori的温度敏感性突变体，但并不限于此。Rep101 ori(ts)在30℃以下(例如28℃)与pSC101 ori作用，可进行质粒的自主复制，但若达到37℃以上(例如42℃)则失去功能，质粒无法自主复制。因此，通过与上述λ噬菌体的cI阻遏物(ts)并用，可同时进行本发明复合物的一过性表达和质粒的切除。

另外，将编码本发明复合物的DNA在诱导启动子(例如lac启动子(通过IPTG诱导)、cspA启动子(通过冷休克诱导)、araBAD启动子(通过阿拉伯糖诱导)等)的控制下导入宿主细菌内，在适当的时期向培养基中添加(或从培养基中去除)诱导物质，诱导该复合物的表达，培养一定期间，进行核酸修饰反应等，并在向靶基因中导入了突变后停止表达诱导，从而可实现该复合物的一过性表达。

以下，通过实施例来说明本发明。但本发明并不受这些实施例的限定。

实施例

在后述的实施例中，如下操作进行实验。

＜菌株、质粒、引物和靶向gRNA设计＞

使用大肠杆菌株DH5α((F^- endA1 supE44 thi-1 recA1 relA1 gyrA96 deoRphoA φ80dlacZ ΔM15 Δ(lacZYA-argF)U169、hsdR17(rK^-,mK⁺)、λ^-)(TaKaRa-Bio)、BW25113(lacI⁺rrnB_T14 ΔlacZ_WJ16hsdR514 ΔaraBAD_AH33 ΔrhaBAD_LD78 rph-1 Δ(araB-D)567 Δ(rhaD-B)568ΔlacZ4787(::rrnB-3)hsdR514 rph-1)和Top10(F-mcrA Δ(mrr-hsdRMS-mcrBC)φ80lacZΔM15 ΔlacX74 nupG recA1 araD139 Δ(ara-leu)7697 galE15galK16 rpsL(Str^R)endA1λ^-)(Invitrogen)。实施例中使用的质粒和引物分别列举在表1和表2中。如下设计了用于构建靶向gRNA载体的寡DNA对：5’-tagc-(靶序列)-3’和5’-aaac-(靶序列的反向互补序列)-3’。

[表1-1]

实施例中使用的质粒

用斜体字显示编辑的靶

[表1-2]

[表2-1]

实施例中使用的引物

[表2-2]

＜质粒构建＞

经由Addgene从Marraffini研究室(非专利文献8)获取了pCas9和pCRISPR质粒。通过PCR法制作了切口酶Cas9：nCas9(D10A或H840A)和核酸酶缺损Cas9：dCas9(D10A和H840A)(SEQ ID NO:1和2)(Jinek,M等人,Science 337,816-822(2012).)。使用121个氨基酸的肽接头(SEQ ID NO:5和6)使PmCDA1(SEQ ID NO:3和4)与nCas9或dCas9的C末端进行融合(图1)。

通过使用了引物p346/p426的PCR扩增保有由人工组成型启动子J23119(BBa_J23119 in the registry for standard biological parts)(http://parts.igem.org/Part:BBa_J23119)(SEQ ID NO:16)驱动的sgRNA单元(SEQ ID NO:15)的质粒pScI_dCas9-PmCDA1_J23119-sgRNA。sgRNA表达单元包含用于插入靶序列的2处BsaI限制酶位点。将包含靶sgRNA序列的一对寡DNA退火，连接在用BsaI消化的pScI_dCas9-PmCDA1_sgRNA上。

pScI和pScI_dCas9分别仅保有λ操纵基因和保有操纵基因-dCas9。pScI_dCas9-PmCDA1保有dCas9-PmCDA1基因。在dCas9-PmCDA1基因的C末端添加降解标签(LVA标签)和UGI基因，分别得到了质粒pScI_dCas9-PmCDA1-LVA和pScI_dCas9-PmCDA1-UGI-LVA。

载体质粒pTAKN-2具有对应于pSC101的pMB1复制起点。使用EcoRI-HindIII由合成寡核苷酸切取具有启动子J23119的sgRNA单元，与克隆载体的pTAKN2连接。通过使用了BsaI消化-连接的PCR产物的Golden Gate组装(Engler,C等人,PLoS One 4,(2009).)构建具有3个串联靶序列(pSBP804,galK_10-galK_11-gal_13；pSBP806,galK_2-xylB_1-manA_1；pSBP808,pta_1-adhE_3-tpiA_2)的质粒。利用通过引物p597/598由pSBP808(pta_1-adhE_3-tpiA_2串联序列)扩增的PCR产物和通过引物p599/p600由pSBP806(载体和galK_2-xylB_1-manA_1串联序列)扩增的PCR产物的Gibson组装构建具有6个不同的靶序列的质粒(pSBP80608)。关于IS编辑质粒，按照IS1、IS2、IS3和IS5的顺序串联排列sgRNA表达单元。

＜诱变测定＞

将通过目标质粒进行了化学转化的DH5α或BW25113细胞在1mL的SOC培养基(2％的Bacto胰蛋白胨、0.5％的酵母提取物、10mM的NaCl、2.5mM的KCl、1mM的MgSO₄和20mM的葡萄糖)中进行预培养。在28℃下培育2～3小时后，将细胞培养物用1ml的Luria-Bertani(LB)培养基或terrific broth(TB)进行1:10稀释，根据需要补充抗生素(氯霉素(25μg/ml)和/或卡那霉素(30μg/ml))。使用Maximizer(TAITEC)在28℃、100K rpm下增殖一夜。第二天，再次将细胞培养物用1ml培养基进行1:10稀释，在37℃下培养6小时以进行诱导，在28℃下培育一夜。然后，将细胞培养物连续稀释点接种在补充了适当的抗生素的LB或TB琼脂板上，在28℃下培育一夜，形成单一菌落。

为了galK基因破坏的阳性选择，使细胞在包含0.2％甘油和2-脱氧-半乳糖(2-DOG)的M63最小培养基(2g/L的(NH₄)₂SO₄、13.6g/L的KH₂PO₄、0.5mg/L的FeSO₄-7H₂O、1mM的MgSO₄、0.1mM的CaCl₂和10μg/ml的硫胺)(Warming,S.等人,Nucleic Acids Res.33,1-12(2005).)中增殖。为了选择rpoB基因的利福平抗性突变，使细胞在含有50μg/ml利福平的LB培养基中增殖。为了进行序列分析，随机采集菌落，使用适当的引物通过PCR直接扩增，使用3130XL基因分析仪(Applied Biosystems)通过Sanger法进行分析。使用Excel软件(Microsoft)进行了t检验统计分析。

＜全基因组测序＞

将具有各表达构建体(dCas9、dCas9-PmCDA1-LVA-UGI和具有rpoB_1靶的dCas9-PmCDA1)的BW25113细胞预培养一夜，用1mL LB培养基进行1:10稀释，使其在37℃下增殖6小时以进行诱导，然后在28℃下培育一夜。将细胞在含有利福平的平板培养基上展开，分离单一菌落。将3个独立菌落分别接种在TB培养基上。使用Wizard基因组DNA纯化试剂盒(Promega)提取基因组DNA，然后使用Bioruster UCD-200 TS超声处理系统(Diagenote)通过超声波形成片段，得到具有500～1000bp的大小分布的片段。使用Illumina(New EnglandBiolabs)的NEBNext Ultra DNA文库制备试剂盒调制基因组DNA文库，用Dual IndexPrimer进行标记。使用Agencourt AMPure XP(Beckman Coulter)进行文库的大小选择，得到了长度为600-800bp范围的标记片段。利用Agilent 2100生物分析仪系统(AgilentTechnologies)评价大小分布。使用Qibit HS dsDNA HS测定试剂盒和荧光光度计(ThermoFisher Scientific)定量DNA。为了得到可期待基因组大小的约20倍覆盖度的2×300bp的读数长度，使用MiSeq测序系统(Illumina)和MiSeq试剂试剂盒v3进行测序。使用CLCGenomic Workbench 9.0进行数据分析(CLC bio)。将序列读数配对，合并读数对内的重复读数，以最大为2的双关性根据0.01的质量限制进行修整。根据以下的设定(Masking mode＝no masking(掩蔽模式＝未掩蔽)，Mismatch cost＝2(错配成本＝2)，Insertion cost＝3(插入成本＝3)，Deletion cost＝3(删除成本＝3)，Length fraction＝0.5(长度分数＝0.5)，Similarity fraction＝0.8(相似性分数＝0.8)，Global alignment＝No(总体比对＝否)，Auto-detect paired distances＝Yes(自动检测配对距离＝是)，Nonspecificmatch handling＝ignore(非特定配对处理＝忽略))将读数映射到大肠杆菌BW25113的参照基因组。根据默认设定进行局部重比对(Realign unaligned ends＝Yes，Multi-passrealignment＝2)。根据以下的设定(Ignore positions with coverage＝1,000,000(具有覆盖度的忽略位置＝1,000,000)，Ignore broken pairs＝Yes(忽略断裂对＝是)，IgnoreNonspecific matches＝Reads(忽略非特异性匹配＝读取)，Minimum coverage＝5(最小覆盖度＝5)，Minimum count＝2(最小计数＝2)，Minimum frequency＝50％(最小频率＝50％)，Base quality filter＝No(碱基量过滤＝否)，Read detection filter＝No(读取检测过滤＝否)，Relative read direction filter＝Yes(相对读取方向过滤＝是)，Significance＝1％(显著性＝1％)，Read position filter＝No(读取位置过滤＝否)，Remove pyro-error variants＝No(去除pyro错误变体＝否))进行识别变体。使用Excel(Microsoft)重新排列输出文件。

＜深度测序＞

将同时表达以galK、gsiA、ycbF或yfiH基因为靶的gRNA和dCas9-PmCDA1或dCas9-PmCDA1-UGI-LVA的DH5α细胞培育一夜，用1mLLB培养基进行1:10稀释，使其在37℃下增殖6小时以进行诱导。收集细胞培养物，提取基因组DNA。使用引物对(p685～p696)由所提取的基因组DNA直接扩增包含靶区的片段(～0.3kb)。用Dual Index Primer标记扩增子。利用MiSeq测序系统分析每个样品的平均30,000以上的读数。将序列读数配对，以最大为2的双关性根据0.01的质量限制进行修整，合并读数对内的重复读数。根据以下的设定(Maskingmode＝no masking(掩蔽模式＝未掩蔽)，Mismatch cost＝2(错配成本＝2)，Insertioncost＝3(插入成本＝3)，Deletion cost＝3(删除成本＝3)，Length fraction＝0.5(长度分数＝0.5)，Similarity fraction＝0.8(相似性分数＝0.8)，Global alignment＝No(总体比对＝否)，Auto-detect paired distances＝Yes(自动检测配对距离＝是)，Nonspecific match handling＝Map randomly(非特定配对处理＝随机映射))将读数分别映射到参考序列。使用Excel重新排列输出文件。

实施例1大肠杆菌中的脱氨酶介导的靶的诱变

为了评价脱氨酶介导的靶的诱变能否适用于细菌，在温度诱导性λ操纵基因系统(Wang,Y.等人,Nucleic Acids Res.40,(2012).)下表达与源自P.marinus(海七鳃鳗)的胞嘧啶脱氨酶PmCDA1(非专利文献11)融合的催化惰性的Cas9(dCas：D10A和H840A的突变)，在人工组成型启动子J23119(图1(b))下构建在20个核苷酸(nt)的靶序列-gRNA支架的杂化物(sgRNA)下表达CDA的、以细菌为靶的AID(靶-AID)载体。在真核生物中，为了实现更高的突变效率，可使用与脱氨酶组合的切口酶Cas9(nCas：D10A突变)(非专利文献10、11)，在表达nCas(D10A)-CDA的质粒中显示转化效率低。这暗示了：在大肠杆菌中与完全的Cas9核酸酶同样，nCas(D10A)-CDA引起了严重的细胞增殖和/或细胞死亡(图2)。另一方面，nCas(H840)-CDA与dCas或dCas-CDA同样显示出高的转化效率，显示出对细胞增殖或细胞存活有利。

接下来，为了定量性地评价靶的诱变效率，使用可通过半乳糖的类似物2-脱氧-D-半乳糖(2-DOG)积极地选择功能丧失的galK基因作为靶。2-DOG通过galK基因产物的半乳糖激酶催化，成为有害的化合物(Warming,S.等人,Nucleic Acids Res.33,1-12(2005).)。已知靶-AID在原间隔序列临近基序(PAM)序列(非专利文献11)的上游16～19个碱基的核心区内的位于约第15～20碱基的胞嘧啶核苷酸(C)中诱导突变(非专利文献11)(图1(a))。在galK基因中选择靶序列使导入终止密码子(图3)时，相对于2-DOG诱导几乎100％的存活率，这暗示了非常有效的诱变(图4(a))。在对使用不含2-DOG的培养基培养的细胞进行测序分析的情况下，如预料的那样，8个菌落中有6个发生了突变。如预料的那样，在-17位和/或20位观察到了由C取代成T。

接下来，以编码RNA聚合酶的β-亚单位的必需基因的rpoB为靶。已知若抑制rpoB的基因功能，则会引起细胞增殖抑制或细胞死亡，但rpoB基因的特定点突变会赋予利福平抗性(Jin,D.J.等人,J.Mol.Biol.202,245-253(1988).)。设计靶序列使诱发赋予利福平抗性的点突变(图5(a))。没有明显的增殖抑制，转化细胞以几乎100％的频率获得了利福平抗性(图4(b))。通过使用不含利福平的培养基选择的克隆的测序分析，如预料的那样，在PAM序列～-16位和/或17位(rpoB基因的1545位和1546位)确认到由C取代成T(图5(a))。进行全基因组测序，评价了大肠杆菌中的靶-AID的非特异性诱变效果的可能性。在分析表达dCas-CDA和以rpoB_1为靶的sgRNA的3个独立克隆时，发现在明显无关的基因组的位置包含0～2个独特的碱基突变体(单一核苷酸变体；SNV)(图5(b))。所检测的SNV的相邻序列没有显示出与rpoB靶序列的类似性(图5(c))。

实施例2sgRNA的长度和尿嘧啶DNA糖基化酶抑制剂给突变的频率和位置带来的效果

为了综合分析突变效率和位置，使用galK基因的18个靶序列进行深度测序分析(图6、图7)。7个靶显示出高效率(61.7～95.1％)的诱变，另一方面，5个靶显示出低效率(1.4～9.2％)的诱变。最有效的突变位置是PAM的上游17-20个碱基，这与以前的高等生物中的研究一致。如由具有更长的靶序列的sgRNA在galK_8和galK_13中显示出更高的效率、而在galK_9和galK_11中显示出更低的效率(图6、左侧的棒)可以理解的那样，突变频率也依赖于靶序列的长度而发生变化。

为了改善突变效率，通过使源自噬菌体PBS2的尿嘧啶DNA糖基化酶抑制剂(UGI)(Zhigang,W等人,Gene 99,31-37(1991).)和蛋白降解标签(LVA标签)(Andersen,J.B.等人,Appl.Environ.Microbiol.64,2240-2246(1998).)与dCas-CDA的C末端融合而将其导入。UGI会抑制从DNA中切除尿嘧啶(胞嘧啶脱氨基化的直接产物)(非专利文献10、11)，因此促进由胞苷脱氨基化引起的诱变。LVA标签的使用会缩短若过度表达则可潜伏性地有害的dCas-CDA-UGI蛋白的半衰期，从而使细胞免受伤害，可期待抑制杂种衰退细胞(escapercell)的产生。为了评价非特异性诱变效果，对表达dCas、dCas-CDA和dCas-CDA-UGI-LVA的细胞进行全基因组序列分析。dCas-CDA诱导了0～2个SNV突变，而dCas-CDA-UGI-LVA诱导了在整个基因组中无位置偏移的21～30个突变(表3和表4)。

[表3]

利福平抗性突变体的全基因组测序分析

对表达未使用sgRNA的各构建体(dCas、dCas-CDA或dCas-CDA-LVA-UGI)的利福平选择克隆进行全基因组测序。显示了dCas-CDA和dCas-CDA-LVA-UGI的生物学三份样品。序列覆盖度以映射到遍及大肠杆菌BW25113基因组序列的4,631Mbp的序列的碱基对的总计来计算。独特的突变列表见表4。

[表4]

独特的SNV突变的列表

通过全基因组测序检测到的SNV的细节以表3的形式显示

无论靶序列的长度和位置如何，dCas-CDA-UGI-LVA在所有靶位点均显示出强的诱变(图6、右侧的棒)，使用了不同长度的sgRNA的突变谱的比较成为可能。其结果显示：在galK_9和galK_11中，突变谱向5’末端方向扩展(图6)。为了进一步表征sgRNA对靶序列的长度的影响，对长度为18nt、20nt、22nt和24nt的富含C的靶序列进行了试验(图8(a)和(b))。关于5处靶位点各自的突变谱始终如一，随着靶序列的变长，显示出向5’末端方向的峰位移和窗口的扩展(图8(c))。

实施例3多重诱变

为了进行多重编辑，将sgRNA表达单元的串联重复整合到不同于修饰用质粒的其他质粒上。构建以galK基因的3处位点(galK_10、galK_11和galK_13)为靶的质粒，同时导入到具有表达dCas、dCas-CDA、dCas-CDA-LVA或dCas-CDA1-UGI-LVA的修饰用载体的细胞中。首先，通过分析利福平抗性突变的产生，评价非特异性诱变效果(图9)。dCas-CDA较背景的突变频率显示出增加约10倍，而dCas-CDA-UGI-LVA较dCas-CDA的突变频率显示出进一步增加10倍。在dCas-CDA和dCas-CDA-LVA中，虽然不是足以同时得到三重突变体的效率，但在任何位点均可发生1处突变，至少没有确认到靶的突变率根据LVA的有无而存在显著差异。因此显示出：通过添加LVA，可在维持突变效率的同时抑制非特异性诱变。另外，在dCas-CDA-UGI-LVA中，在将发生了100％(8/8)的突变的各单一靶的结果与各靶进行比较的情况下，虽然突变频率低(图9(c)和(d))，但在dCas-CDA-UGI-LVA中，所分析的8个克隆中有5个克隆成功诱发了三重突变(图9(b)和(d))。因此显示出：通过组合UGI和LVA，可在实现高的突变效率的同时抑制非特异性诱变。

然后，以6个不同的基因(galK、xylB(木酮糖激酶)、manA(甘露糖-6-磷酸异构酶)、pta(磷酸乙酰转移酶)、adhE(醛-醇脱氢酶)和tpiA(磷酸丙糖异构酶)为靶，导入终止密码子(图10)。发现了：同时表达以6个不同的基因为靶的sgRNA和dCas-CDA-UGI-LVA的细胞，在8个克隆中有7个在所有的靶基因座中导入了突变(图10)。

实施例4通过靶-AID进行的多个拷贝基因编辑

多个拷贝因子占据相当量的基因组序列。与重组、或包括基因组切割的其他方法不同，靶-AID无需诱导基因组的不稳定性，即可使用相同的sgRNA序列一次性编辑多个基因座。为了证明该想法，使用4个sgRNA同时靶向大肠杆菌基因组中的4个主要的转移因子(TE：IS1、2、3和5)。用于IS1、2、3和5的各10个、12个、5个和14个基因座可利用独特的PCR引物特异性地扩增各基因座。sgRNA设计成包括各TE的转座酶基因的通用序列，导入终止密码子(图11)。使用分别表达dCas-CDA-UGI-LVA和4个靶sgRNA的2个质粒转化大肠杆菌Top10细胞。编辑IS的细胞的分离和验证的顺序见图12，以下说明细节。在双重转化和选择后，通过PCR扩增菌落，首先在IS5-1、IS5-2、IS5-11、IS5-12位点进行测序。判明了IS5靶的效率差。在所分析的4个菌落中，1个菌落包含3处突变位点和1个异种基因型位点(IS5-1)。然后，将细胞悬浮在液体培养基中，在板上展开，再次分离菌落。8个菌落中有3个菌落在IS5-1中包含突变，对于其中的2个菌落，进一步测定剩余的24个IS基因座的序列时显示出：虽然包含所有的突变位点，但包含1个不完全的异种基因型位点(IS5-5)。然后，将细胞悬浮、展开，得到了在IS5-5中包含突变的6个再分离的克隆中的4个克隆。对其中1个克隆在IS5位点测序时，判明了包含1个异种基因型位点(IS5-2)。再次分离8个克隆，6个克隆包含IS5-2中的突变。将2个克隆在非选择培养基上展开，得到了已失去质粒的细胞。然后，提取细胞的基因组进行测序，在所有IS位点均确认到突变(图11)，为了进一步评价整个基因组的脱靶效果，进行全基因组测序。结果判明：在来自参照基因组的34处潜伏性脱靶位点中有2处位点发生了突变，所述参照基因组在接近PAM的1～8个碱基中包含一致的序列(表5)。

[表5]

通过全基因组测序评价的IS脱靶候补位点列表

区显示DH10B数据库中的靶位点。链显示靶序列的方向。以本说明书所记载的方式确定预测的脱靶序列。错配显示靶序列与脱靶序列之间的错配数。用粗体字强调错配核苷酸。用灰色框显示所强调的各序列中的由C突变成T的频率。

实施例5表达用载体的大肠杆菌转化效率的比较

以pRS315载体为基础，制作了作为Cas效应蛋白的LbCpf1(SEQ ID NO：326和327)、编码作为蛋白降解标签的YAASV和YALAA的酵母表达用载体(载体3685：Cpf1-NLS-3xFlag-YAASV(SEQ ID NO：328)、载体3687：Cpf1-NLS-3xFlag-YALAA(SEQ ID NO：329))和不具有编码蛋白降解标签的核酸的对照载体(载体3687：Cpf1-NLS-3xFlag(SEQ ID NO：330))。使用这些载体验证大肠杆菌的转化效率。图13显示各载体的概略图。如下述表6所示，将含有各载体的DNA溶液调整至2ng/μl，在20μl的大肠杆菌Top10感受态细胞中加入1μl(2ng)的DNA溶液进行转化。之后，加入200μl的SOC，在37℃下恢复培养1小时，在冰上放置5分钟停止增殖，之后加入1μl 50mg/ml的Amp。将一部分(1μl和10μl)培养液用TE稀释，涂布在LB+Amp板上，在37℃下培养一夜，计测菌落数。结果见表6。

[表6]

在使用具有编码蛋白降解标签的核酸的载体3685和载体3686的情况下，与使用对照载体3687的情况相比，显示出大肠杆菌的转化效率高。因此，通过使用蛋白降解标签，即使是异种生物表达用载体，在大肠杆菌等细菌内复制载体时也可期待复制效率的提高。

本申请以在日本申请的特愿2017-225221(申请日：2017年11月22日)为基础，其内容全部包含在本说明书中。

产业实用性

根据本发明，提供即使在宿主细菌内也可稳定地扩增的毒性低的载体和该载体所编码的基因组编辑用复合物。根据使用了本发明的载体和核酸修饰酶的基因组编辑方法，可在抑制非特异性突变等的同时修饰宿主细菌的基因。该方法不依赖于RecA这样的宿主依赖性因子，因此可适用于广范围的细菌，非常有用。

Claims

1.复合物，其为核酸序列识别模块与蛋白降解标签结合而得的复合物，所述核酸序列识别模块与双链DNA中的靶核苷酸序列特异性地结合，所述蛋白降解标签由(i)在C末端包含疏水性氨基酸的3个残基的肽或(ii)在C末端包含该氨基酸残基的至少一部分被丝氨酸取代的氨基酸的3个残基的肽构成。

2.权利要求1所述的复合物，上述复合物为进一步结合有核酸修饰酶的复合物，其中，将靶向位点的1个以上的核苷酸转换成其他的1个以上的核苷酸或使其缺失、或者在该靶向位点插入1个以上的核苷酸。

3.权利要求1或2所述的复合物，其中，上述氨基酸的3个残基为亮氨酸-缬氨酸-丙氨酸、亮氨酸-丙氨酸-丙氨酸、丙氨酸-丙氨酸-缬氨酸或丙氨酸-丝氨酸-缬氨酸。

4.权利要求1～3中任一项所述的复合物，其中，上述核酸序列识别模块为Cas的2个DNA切割能力中的仅一方、或两方的DNA切割能力失活的CRISPR-Cas系统。

5.权利要求1～3中任一项所述的复合物，其中，上述复合物为CRISPR-Cas系统与蛋白降解标签结合而得的复合物。

6.权利要求2～4中任一项所述的复合物，其中，上述核酸修饰酶为核酸碱基转换酶或DNA糖基化酶。

7.权利要求6所述的复合物，其中，上述核酸碱基转换酶为脱氨酶。

8.权利要求6或7所述的复合物，该复合物进一步结合有碱基切除修复抑制剂。

9.核酸，该核酸编码权利要求1～8中任一项所述的复合物。

10.修饰细菌的双链DNA的靶向位点、或在该位点附近调控双链DNA所编码的基因的表达的方法，该方法包括以下步骤：使核酸序列识别模块与蛋白降解标签结合而得的复合物、与该双链DNA接触，所述核酸序列识别模块与所选择的双链DNA中的靶核苷酸序列特异性地结合，所述蛋白降解标签由(i)在C末端包含疏水性氨基酸的3个残基的肽或(ii)在C末端包含该氨基酸残基的至少一部分被丝氨酸取代的氨基酸的3个残基的肽构成。

11.权利要求10所述的方法，其中，上述复合物为进一步结合有核酸修饰酶的复合物，该方法包括以下步骤：将该靶向位点的1个以上的核苷酸转换成其他的1个以上的核苷酸或使其缺失、或者在该靶向位点插入1个以上的核苷酸。

12.权利要求10或11所述的方法，其中，上述氨基酸的3个残基为亮氨酸-缬氨酸-丙氨酸、亮氨酸-丙氨酸-丙氨酸、丙氨酸-丙氨酸-缬氨酸或丙氨酸-丝氨酸-缬氨酸。

13.权利要求10～12中任一项所述的方法，其中，上述核酸序列识别模块为Cas的2个DNA切割能力中的仅一方、或两方的DNA切割能力失活的CRISPR-Cas系统。

14.权利要求10～12中任一项所述的方法，其中，上述复合物为CRISPR-Cas系统与蛋白降解标签结合而得的复合物。

15.权利要求10～14中任一项所述的方法，其特征在于：使用与不同的靶核苷酸序列分别特异性地结合的、两种以上的核酸序列识别模块。

16.权利要求15所述的方法，其中，上述不同的靶核苷酸序列存在于不同的基因内。

17.权利要求10～13、15和16中任一项所述的方法，其中，上述核酸修饰酶为核酸碱基转换酶或DNA糖基化酶。

18.权利要求17所述的方法，其中，上述核酸碱基转换酶为脱氨酶。

19.权利要求17或18所述的方法，其中，该复合物为进一步结合有碱基切除修复抑制剂的复合物。

20.权利要求10～19中任一项所述的方法，其中，双链DNA与复合物的接触是通过向具有该双链DNA的细菌中导入编码该复合物的核酸来进行的。