CN109312329A

CN109312329A - 提高基因组序列修饰技术中的突变导入效率的方法、及其使用的分子复合体

Info

Publication number: CN109312329A
Application number: CN201780038364.0A
Authority: CN
Inventors: 西田敬二; 近藤昭彦; 荒添贵之; 岛谷善平
Original assignee: Kobe University NUC
Current assignee: Kobe University NUC
Priority date: 2016-04-21
Filing date: 2017-04-21
Publication date: 2019-02-05
Anticipated expiration: 2037-04-21
Also published as: US20200377910A1; EP3447139B1; SG11201809242VA; CN109312329B; ES2919961T3; CA3021281C; BR112018071376A2; JPWO2017183724A1; EP3447139A1; CN117925730A; EP3447139A4; JP7001272B2; KR20180132862A; CA3021281A1; WO2017183724A1; DK3447139T3; KR102116200B1

Abstract

本发明提供修饰双链DNA的靶向位点的方法，所述方法包括以下步骤：通过将与该双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与PmCDA1键合而成的复合体，导入具有该双链DNA的细胞，并将该细胞至少暂时地在低温下培养，从而使该靶向位点，即靶核苷酸序列及其附近的核苷酸发生缺失或转换为其它核苷酸、或向该部位插入核苷酸的步骤。

Description

提高基因组序列修饰技术中的突变导入效率的方法、及其使用的分子复合体

技术领域

本发明涉及提高基因组序列修饰技术的突变导入效率的方法、及其使用的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂(base excision repairinhibitor)的复合体，所述方法能够不伴随DNA的双链切割(无切割或切割一条链)、也不进行外来DNA片段的插入，而进行基因组的特定区域内的核酸碱基修饰。

背景技术

近年来，作为在各种生物种类中修饰靶基因、基因组区域的技术，基因组编辑受到瞩目。目前，作为基因组编辑的方法，提出了利用将具有序列非依赖的DNA切割能力的分子与具有序列识别能力的分子组合而成的人工核酸酶的方法(非专利文献1)。

已有报告例如：使用由锌指DNA结合结构域与非特异性DNA切割结构域连接而成的锌指核酸酶(ZFN)，在作为宿主的植物细胞或昆虫细胞中，进行DNA中的靶基因座的重组的方法(专利文献1)；使用由作为植物病原菌黄单胞菌属具有的DNA结合模块的转录激活子样(TAL)效应子，与DNA核酸内切酶连接而成的TALEN，在特定的核苷酸序列内或其相邻位点进行切割、修饰靶基因的方法(专利文献2)；或者，利用由在真细菌和古细菌具有的获得性免疫系统中起作用的DNA序列CRISPR(Clustered Regularly Interspaced ShortPalindromic Repeats)，和与CRISPR一起具有重要的作用的核酸酶Cas(CRISPR-相关的)蛋白家族组合而成的CRISPR-Cas9系统的方法(专利文献3)。进一步，也报告了使用由核酸酶与PPR蛋白质所连接而成的人工核酸酶，在该特定序列的附近切割靶基因的方法(专利文献4)，其中，PPR蛋白质为利用包括35个氨基酸并识别1个核酸碱基的PPR基序的连续，来识别特定的核苷酸序列的方式构建而成。

但是，这些基因组编辑技术基本上是以DNA双链切割(double-stranded DNAbreaks:DSB)为前提的，由于会伴随意想不到的基因组修饰，因此存在强细胞毒性、染色体重排等副作用，存在诸如以下共通问题：在基因治疗中的可靠性受损、核苷酸修饰导致的细胞存活数极少、在灵长类卵细胞、单细胞微生物中基因修饰本身难以进行。

另一方面，作为不伴随DSB而进行核苷酸修饰的方法，本发明人报告了在Cas的至少1个DNA切割能力失活的CRISPR-Cas系统中，通过使用催化脱氨基反应的脱氨酶并将其与具有DNA序列识别能力的分子连接，成功地不伴随DSB而进行了基于包含特定的DNA序列的区域中的核酸碱基转变的基因组序列的修饰(专利文献5)。根据该基因组编辑技术，由于没有外来DNA的插入也不伴随DNA双链切割，因此安全性优异，而且理论上可以将突变导入的范围广泛设定为从一个碱基的定点(pinpoint)至几百个碱基的范围。然而，与使用了具有正常的DNA切割能力的Cas9的基因组编辑技术相比，存在突变导入效率较低的问题。

另外，尚没有报告在基因组编辑技术中，通过将细胞的培养温度转移至低温而提高突变导入效率的方法。进而，也没有报告作为脱氨酶的一种的源自七腮鳗的PmCDA1(Petromyzon marinus cytosine deaminase 1)在比作为一般酶的最适温度的约37℃更低的情况下，其活性提高。

现有技术文献

专利文献

专利文献1：日本专利第4968498号公报

专利文献2：日本特表2013-513389号公报

专利文献3：日本特表2010-519929号公报

专利文献4：日本特开2013-128413号公报

专利文献5：国际公开第2015/133554号

非专利文献

非专利文献1:Kelvin M Esvelt,Harris H Wang(2013)Genome-scaleengineering for systems and synthetic biology,Molecular Systems Biology 9:641

发明内容

发明要解决的问题

本发明的目的在于提供一种提高突变导入效率的基因组编辑的方法、以及用于其的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂的复合体，所述方法不切割双链DNA或者是通过单链切割而修饰基因的特定序列的核酸碱基。

解决问题的方法

本发明人在使用了核酸碱基转化酶的基因组编辑技术中，探寻了提高突变导入效率的方法的开发。在提高突变导入效率的方法的开发中，一般而言主要聚焦在通过对核酸碱基转化酶加以突变或置换为另外的酶从而提高核酸碱基转变能力的方法、提高核酸序列识别模块的核酸识别能力的方法等。本发明人转变了这些普遍的构思，推测在该基因组编辑技术中，作为突变导入效率较低的原因之一，是否在由核酸碱基转化酶转换了碱基的部位发生了基于DNA糖基化酶等碱基切除修复机制的作用，从而使得导入的错配将会被修复，并得到了这样的构想：是不是可以通过抑制碱基切除修复机制中发挥功能的蛋白质而提高突变导入效率。为此，本发明人共表达了抑制脱氨基碱基的修复的尿嘧啶DNA糖基化酶抑制剂(Ugi)，结果发现突变导入效率飞跃性提高了。

另外，由于作为核酸碱基转化酶中的一种的PmCDA1源自作为变温动物的七腮鳗，因此推测PmCDA1的酶活性的最适温度是否低于作为普通酶的最适温度的约37℃，并得到了这样的构想：是不是可以通过调整培养温度而提高酶活性。为此，为了提高PmCDA1的酶活性而将导入了PmCDA1的细胞暂时地在低温下培养，结果发现突变导入效率提高了。

本发明人基于这些见解进一步反复研究，结果完成了本发明。

即，本发明如下所述。

[1]修饰双链DNA的靶向位点的方法，其包括以下步骤：

通过将与选择的双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与PmCDA1键合而成的复合体，导入到具有该双链DNA的细胞并将该细胞至少暂时地(temporarily)在低温下培养，从而在该靶向位点中不切割该双链DNA中的至少一条链、而使该靶向位点中的1个以上的核苷酸缺失或转换为其它1个以上的核苷酸、或向该靶向位点插入1个以上的核苷酸的步骤，

该核酸序列识别模块为Cas的至少1个DNA切割能力失活的CRISPR-Cas系统。

[2]根据[1]所述的方法，其中，上述Cas缺失双链DNA切割能力。

[3]根据[1]或[2]所述的方法，其中，上述细胞为哺乳动物细胞。

[4]根据[3]所述的方法，其中，低温为20℃至35℃。

[5]根据[3]所述的方法，其中，低温为25℃。

[6]根据[1]～[5]中任一项所述的方法，其中，双链DNA与复合体的接触，通过向具有该双链DNA的细胞中导入编码该复合体的核酸来进行。

[7]修饰双链DNA的靶向位点的方法，其包括以下步骤：

通过将与选择的双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂键合而成的复合体，与该双链DNA进行接触，从而在该靶向位点中，不切割该双链DNA中的至少一条链、并使该靶向位点中的1个以上的核苷酸缺失或转换为其它1个以上的核苷酸、或向该靶向位点插入1个以上的核苷酸的步骤，

[8]根据[7]所述的方法，其中，上述Cas的双链DNA切割能力有缺陷。

[9]根据[7]或[8]所述的方法，其中，上述核酸碱基转化酶为胞苷脱氨酶。

[10]根据[9]所述的方法，其中，上述胞苷脱氨酶为PmCDA1。

[11]根据[9]或[10]所述的方法，其中，碱基切除修复抑制剂为尿嘧啶DNA糖基化酶的抑制剂。

[12]根据[7]～[11]中任一项所述的方法，其中，双链DNA与复合体的接触，通过向具有该双链DNA的细胞导入编码该复合体的核酸来进行。

[13]根据[12]所述的方法，其中，上述细胞为哺乳动物细胞。

[14]核酸修饰酶复合体，其为由双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂键合而成的复合体，该核酸序列识别模块为Cas的至少1个DNA切割能力失活的CRISPR-Cas系统，在靶向位点中，不切割该双链DNA中的至少一条链，并使该靶向位点中的1个以上的核苷酸缺失或转换为其它1个以上的核苷酸、或向该靶向位点插入1个以上的核苷酸。

[15]编码[14]所述的核酸修饰酶复合体的核酸。

发明的效果

与传统的使用核酸碱基转化酶的基因组编辑技术相比，根据本发明的基因组编辑技术，突变导入效率飞跃性提高。

附图说明

[图1]图1为实施例中使用的基因组编辑用质粒的模式图。

[图2]图2为示出突变导入效率的评价的方法的模式图。

[图3]图3为示出分析在得到的突变体群体中的靶基因区域的突变模式的结果的图。

具体实施方式

本发明提供了在基因组编辑技术中提高突变导入效率的方法，所述方法通过不切割想要修饰的双链DNA中的至少一条链、并使该双链DNA中的靶核苷酸序列及其附近的核苷酸转换为其它核苷酸，从而修饰该双链DNA的该靶向位点。该方法的特征在于包括以下步骤：通过将与该双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与PmCDA1键合而成的复合体，导入具有该双链DNA的细胞，并将该细胞至少暂时地在低温下培养，从而使该靶向位点，即靶核苷酸序列及其附近的核苷酸缺失或转换为其它核苷酸、或向该部位插入核苷酸。

在其他的实施方式中，该方法的特征在于：通过将与该双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂键合而成的复合体，与该双链DNA进行接触，使该靶向位点，即靶核苷酸序列及其附近的核苷酸缺失或转换为其它核苷酸、或向该部位插入核苷酸的步骤。

在进一步其他的实施方式中，该方法包括以下步骤：通过将与该双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶键合而成的复合体，导入到具有该双链DNA的细胞、以及抑制该细胞的碱基切除修复，从而使该靶向位点，即靶核苷酸序列及其附近的核苷酸缺失或转换为其它核苷酸、或向该部位插入核苷酸的步骤。

在本发明中，对双链DNA的“修饰”是指使DNA链上具有的核苷酸(例如：dC)缺失或转变为其它核苷酸(例如：dT、dA或dG)、或向DNA链上存在的核苷酸之间插入核苷酸或核苷酸序列。这里，对想要修饰的双链DNA没有特别限制，优选为基因组DNA。另外，双链DNA的“靶向位点”是指可被核酸序列识别模块特异性识别并结合的“靶核苷酸序列”的全部或一部分，或指其和该靶核苷酸序列的附近(5’上游及3’下游中的任意另一方或两方)，该范围可以根据目的不同而在1个碱基～几百个碱基的长度之间适当调节。

在本发明中，“核酸序列识别模块”是指具有对DNA链上的特定的核苷酸序列(即靶核苷酸序列)进行特异性识别并结合的能力的分子或分子复合体。核酸序列识别模块可以通过与靶核苷酸序列结合，而使与该模块连接的核酸碱基转化酶及碱基切除修复抑制剂对双链DNA的靶向位点特异性地发挥作用。

在本发明中，“核酸碱基转化酶”是指可以通过催化DNA碱基的嘌呤或嘧啶环上的取代基转换为其它基团或原子的反应，而不切割DNA链、并使靶核苷酸转换为其它核苷酸的酶。

在本发明中，“碱基切除修复”是指：生物所具有的DNA修复机制之一，指利用酶剪切碱基中损伤的部分并再次连接合在一起，由此修复碱基的损伤的机制。具有损伤的碱基的删除通过DNA糖基化酶来进行，所述DNA糖基化酶为对DNA的N-糖苷键进行水解的酶，基于该酶的脱碱基反应的结果而产生的无碱基位点(apurinic/apyrimidic(AP)位点)，由AP核酸内切酶、DNA聚合酶、DNA连接酶等碱基切除修复(BER)通路下游的酶进行处理。作为参与这些BER通路的基因或蛋白质，可列举UNG(NM_003362)、SMUG1(NM_014311)、MBD4(NM_003925)、TDG(NM_003211)、OGG1(NM_002542)、MYH(NM_012222)、NTHL1(NM_002528)、MPG(NM_002434)、NEIL1(NM_024608)、NEIL2(NM_145043)、NEIL3(NM_018248)、APE1(NM_001641)、APE2(NM_014481)、LIG3(NM_013975)、XRCC1(NM_006297)、ADPRT(PARP1)(NM_0016718)、ADPRTL2(PARP2)(NM_005484)等(括号内示出了登记了各自的基因(cDNA)的碱基序列信息的refseq编号。)，但不限于这些。

在本发明中，“碱基切除修复抑制剂”是指通过抑制上述BER通路的任一阶段、或抑制该BER通路所动员的分子的表达本身，由此结果对BER进行抑制的蛋白质。另外，在本发明中，“抑制碱基切除修复”是指通过抑制上述BER通路任一阶段、或抑制该BER通路所动员的分子的表达本身从而结果对BER进行抑制。

在本发明中，“核酸修饰酶复合体”是指分子复合体，其包括由上述核酸序列识别模块和核酸碱基转化酶连接而成的复合体，并具有被赋予的特定的核苷酸序列识别能力的核酸碱基转化酶活性。该复合体可以进一步连接碱基切除修复抑制剂。其中，“复合体”不仅包括由多个分子构成的那些，也包括如融合蛋白那样的、在单一分子内具有构成上述核酸修饰酶复合体的分子的那些。另外，在“编码复合体的”中，包括将构成复合体的分子分别进行编码、及对融合蛋白(在单一分子内具有构成复合体的分子)进行编码的这两者。

在本发明中，“低温”是指在细胞培养中，低于用于细胞增殖的一般的培养温度的温度。例如，在细胞的一般的培养温度为37℃的情况下，只要是低于37℃的温度，就符合低温。另一方面，由于在培养温度过低的情况下对细胞造成损害，因此需要低温为对细胞不造成损害的温度。对低温而言，根据细胞的种类、培养时间和其它培养条件而不同，例如，在细胞为中国仓鼠卵巢(CHO)细胞等哺乳动物细胞的情况下，典型的为20℃至35℃、优选为20℃至30℃、更优选为20℃至25℃、进一步优选为25℃。

在本发明中，“至少暂时地在低温下培养”是指在整个培养期间中的至少一部分的期间在上述“低温”条件下培养细胞，也包括在整个培养期间在低温下培养的情况。另外，在“至少暂时地在低温下培养”中，也包括在培养期间中分多次而间歇地在低温下培养细胞的情况。对低温培养进行的时期及其持续时间没有特别限制，但通常为在将核酸序列识别模块与PmCDA1的复合体、或编码其的核酸向细胞内导入之后，保持一晚以上的低温培养。对培养期间的上限而言，只要是用于修饰双链DNA的靶向位点所需的最低限的期间即可，没有特别的限制，可以整个培养期间在低温下培养。对整个培养期间而言，根据细胞的种类、培养时间和其它培养条件而不同，例如，在CHO细胞等哺乳动物细胞于25℃培养的情况下，典型的为10天至14天左右。在优选的一实施方式中，在将CHO细胞等哺乳动物细胞导入该复合体之后，于20℃至35℃、优选为20℃至30℃、更优选为20℃至25℃、进一步优选为25℃培养一晚以上、优选为培养一晚至7天(例如：过夜)。

就用于本发明的核酸碱基转化酶而言，只要可以催化上述反应即可，没有特别限制，可列举例如：催化氨基转变为羰基的脱氨基反应的，属于核酸/核苷酸脱氨酶超家族的脱氨酶。可列举优选：可将胞嘧啶或5-甲基胞嘧啶分别转换为尿嘧啶或胸腺嘧啶的胞苷脱氨酶、可将腺嘌呤转换为次黄嘌呤的腺苷脱氨酶、可将鸟嘌呤转换为黄嘌呤的鸟苷脱氨酶等。作为胞苷脱氨酶，更优选可列举：在脊椎动物的获得性免疫中，作为向免疫球蛋白基因中导入突变的酶的活化诱导胞苷脱氨酶(以下也称为AID)等。

对核酸碱基转化酶的来源没有特别限制，可以使用例如：源自七腮鳗的PmCDA1(Petromyzon marinus cytosine deaminase 1)、源自哺乳动物(例如：人、猪、牛、马、猴等)的AID(Activation-induced cytidine deaminase；AICDA)。例如，PmCDA1的cDNA的碱基序列及氨基酸序列可以分别参考GenBank accession No.EF094822及ABO15149，人AID的cDNA的碱基序列及氨基酸序列可以分别参考GenBank accession No.NM_020661及NP_065712。从酶活性的观点出发，优选PmCDA1。另外，发现如后述的实施例所示的那样，在使用了PmCDA1作为胞苷脱氨酶的特定的实施方式中，即使在与Ugi组合使用的情况下，也可以抑制脱靶突变的风险。因此，从减少脱靶突变的风险的观点出发，优选PmCDA1。

用于本发明的碱基切除修复抑制剂，只要结果对BER进行抑制即可，没有特别的限制，从效率的观点出发，优选位于BER通路的上游的DNA糖基化酶的抑制剂。用于本发明的DNA糖基化酶的抑制剂，可列举：胸腺嘧啶DNA糖基化酶的抑制剂、尿嘧啶DNA糖基化酶的抑制剂、氧代鸟嘌呤DNA糖基化酶的抑制剂、烷基鸟嘌呤DNA糖基化酶的抑制剂等，但不限于这些。例如，在使用胞苷脱氨酶作为核酸碱基转化酶的情况下，为了抑制由突变产生的DNA的U:G或G:U错配的修复，优选使用尿嘧啶DNA糖基化酶的抑制剂。

作为这样的尿嘧啶DNA糖基化酶的抑制剂，可列举作为枯草杆菌(Bacillussubtilis)噬菌体的源自PBS1的尿嘧啶DNA糖基化酶抑制剂(Ugi)或作为枯草杆菌噬菌体的源自PBS2的尿嘧啶DNA糖基化酶抑制剂(Ugi)(Wang,Z.,and Mosbaugh,D.W.(1988)J.Bacteriol.170,1082-1091)，但不限制于此，只要是上述DNA的错配的修复抑制剂即可，可以用于本发明。特别是源自PBS2的Ugi，由于已知其不易产生除了将DNA上的C发生向T以外的突变、切割及重组的效果，因此优选使用源自PBS2的Ugi。

如上所述，在碱基切除修复(BER)机制中，在由DNA糖基化酶除去碱基后，AP核酸内切酶在无碱基部位(AP部位)置入缺口，再由核酸外切酶完全除去AP部位。除去AP部位后，DNA聚合酶以相反链的碱基作为模板生成新的碱基，最后由DNA连接酶填充缺口而结束修复。已知虽然丧失了酶活性但仍保持了对AP部位的结合能力的突变AP核酸内切酶竞争地抑制BER。因此，这些突变AP核酸内切酶也可以用作本发明的碱基切除修复抑制剂。对突变AP核酸内切酶的来源没有特别限制，可使用源自例如：大肠杆菌、酵母、哺乳动物(例如，人、小鼠、猪、牛、马、猴等)等的AP核酸内切酶。例如，对人Ape1的氨基酸序列而言，可以作为UniprotKB No.P27695参考。作为虽然丧失了酶活性但仍保持了对AP部位的结合能力的突变AP核酸内切酶的例子，可列举活性位点、作为辅因子的Mg结合位点发生突变的蛋白质。例如，在为人Ape1的情况下，可列举E96Q、Y171A、Y171F、Y171H、D210N、D210A、N212A等。

就细胞的碱基切除修复的抑制而言，可以通过导入上述BER的抑制剂或编码其的核酸、或导入抑制BER的低分子化合物来进行。或者，可以通过抑制参与BER通路的基因的表达而抑制细胞的BER。就基因的表达的抑制而言，例如可以通过将可特异性抑制参与BER通路的基因的表达的siRNA、反义核酸、或可表达它们的聚核苷酸的表达载体导入细胞来进行。另外还可以通过对参与BER通路的基因的敲除来抑制基因的表达。

因此，作为本发明的一实施方式，提供一种提高突变导入效率的方法，其包括以下步骤：通过将与靶双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶键合而成的复合体，导入具有该双链DNA的、且参与BER通路的基因的表达受到抑制的细胞，从而使该靶向位点，即靶核苷酸序列及其附近的核苷酸缺失或转换为其它核苷酸、或向该部位插入核苷酸的步骤。

对siRNA而言，代表性的是双链寡RNA，所述双链寡RNA包括具有与靶基因的mRNA的核苷酸序列或其部分序列(以下，称为靶核苷酸序列)互补的序列RNA、和其互补链。这些RNA的核苷酸序列可以根据参与BER通路的基因的序列信息而适当设计。另外，shRNA也是siRNA的优选实施方式之一，所述shRNA为由与靶核苷酸序列互补的序列(第1序列)、其互补序列(第2序列)经过发夹环部分而连接成的单链RNA，通过形成发夹环型的结构而将第1序列与第2序列形成双链结构的RNA(small hairpin RNA:shRNA)。

反义核酸是指这样的核酸：其包括在表达靶mRNA(成熟mRNA或初期转录产物)的细胞的生理条件下可与该靶mRNA发生特异性杂交的核苷酸序列，且在杂交的状态下可抑制该靶mRNA编码的多肽的翻译。反义核酸的种类可以为DNA也可以为RNA、或可以为DNA/RNA嵌合体。这些核酸的核苷酸序列可以根据参与BER通路的基因的序列信息而适当设计。

参与BER通路的基因的敲除，是指参与BER通路的基因中的全部或一部分以无法发挥其原本的功能的方式受到破坏、或被重组。对该基因而言，可以对基因组上的一个等位基因进行破坏或突变使得其无法发挥功能、也可以对多个等位基因进行破坏或突变。敲除可以根据已知方法进行，可列举例如：通过将以与靶基因之间可发生遗传性重组的方式设计的DNA构建体导入细胞而进行敲除的方法、利用TALEN、CRISPR-Cas9系统等而通过碱基的插入、缺失、置换导入(substitution introduction)而进行敲除的方法。

对由本发明的核酸修饰酶复合体的核酸序列识别模块所识别的、双链DNA中的靶核苷酸序列而言，只要可与该模块特异性结合即可，没有特别限制，可以为双链DNA中的任意序列。就靶核苷酸序列的长度而言，只要足以与核酸序列识别模块进行特异性结合即可，例如：在向哺乳动物的基因组DNA中特定的部位导入突变时，根据其基因组尺寸而为12个核苷酸以上、优选为15个核苷酸以上、更优选为17个核苷酸以上。对长度的上限没有特别限制，优选为25个核苷酸以下、更优选为22个核苷酸以下。

作为本发明的核酸修饰酶复合体的核酸序列识别模块，可使用例如：Cas的至少1个DNA切割能力失活的CRISPR-Cas系统(以下，也称为“CRISPR-突变Cas”、其中也包括CRISPR-突变Cpf1)、锌指基序、TAL效应子及PPR基序等，除此以外，包含限制酶、转录因子、RNA聚合酶等可与DNA特异性结合的蛋白质的DNA结合结构域、且不具有DNA双链切割能力的片段等，但不限于这些。优选可列举：CRISPR-突变Cas、锌指基序、TAL效应子、PPR基序等。

作为使用了CRISPR的基因组编辑技术，除了CRISPR-Cas9以外，也有使用了CRISPR-Cpf1的例子的报告(Zetsche B.,et al.,Cell,163:759-771(2015))。Cpf1在以下方面具有与Cas9不同的性质：不需要tracrRNA；被切割后的DNA为粘性末端；PAM序列存在于5’侧、并为富T的序列；等等。作为哺乳动物细胞中的可进行基因组编辑的Cpf1，可列举源自Acidaminococcus sp.BV3L6的Cpf1、源自Lachnospiraceae bacterium ND2006的Cpf1等，但不限于这些。另外，作为欠缺DNA切割能力的突变Cpf1，可列举源自Francisellanovicida U112的Cpf1(FnCpf1)的第917位的Asp残基被转换为Ala残基的D917A突变体、第1006位的Glu残基被转换为Ala残基的E1006A突变体、第1255位的Asp残基被转换为Ala残基的D1255A突变体等，但只要是欠缺DNA切割能力的突变Cpf1即可用于本发明，不限于这些突变体。

锌指基序是由3～6个Cys2His2不同型的锌指单元(1个手指识别约3个碱基)连接而成的，可以识别有9～18个碱基的靶核苷酸序列。锌指基序可以利用Modular assembly法(Nat Biotechnol(2002)20:135-141)、OPEN法(Mol Cell(2008)31:294-301)、CoDA法(NatMethods(2011)8:67-69)、大肠杆菌单杂交法(Nat Biotechnol(2008)26:695-701)等已知的方法制备。关于制作锌指基序的细节，可以参考上述专利文献1。

对TAL效应子而言，具有以约34氨基酸为单位的模块的重复结构，利用1个模块的第12及13位的氨基酸残基(称为RVD)来确定结合稳定性和碱基特异性。由于各个模块的独立性较高，因此可以仅将模块相连来制作对靶核苷酸序列为特异性的TAL效应子。TAL效应子可以由利用Open resource的制作方法(REAL法(Curr Protoc Mol Biol(2012)Chapter12:Unit 12.15)、FLASH法(Nat Biotechnol(2012)30:460-465)、Golden Gate法(NucleicAcids Res(2011)39：e82)等)进行构建，比较简便地设计针对靶核苷酸序列的TAL效应子。关于制作TAL效应子的细节，可以参考上述专利文献2。

PPR基序是以利用包含35个氨基酸的1个核酸碱基识别PPR基序的连续从而识别特定的核苷酸序列的方式构成的，仅利用各基序的第1、4位及第ii(倒数第2)位的氨基酸来识别靶向碱基。由于对基序构成没有依赖性，不受两侧的基序的干涉，因此与TAL效应子同样，可以仅将PPR基序相连来制作针对靶核苷酸序列的特异性的PPR蛋白质。关于制作PPR基序的细节可以参考上述专利文献4。

另外，在使用限制酶、转录因子、RNA聚合酶等的片段的情况下，由于这些蛋白质的DNA结合结构域是众所周知的，因此可以容易地设计、构建包含该结构域且不具有DNA双链切割能力的片段。

上述任一种核酸序列识别模块，均可以以与上述核酸碱基转化酶和/或碱基切除修复抑制剂的融合蛋白的形式提供；或者也可以将SH3结构域、PDZ结构域、GK结构域、GB结构域等蛋白质结合结构域、及它们的结合配偶体分别与核酸序列识别模块、核酸碱基转化酶和/或碱基切除修复抑制剂进行融合，并利用该结构域与它们的结合配偶体的相互作用而以蛋白质复合体形式提供。或者，也可以将核酸序列识别模块分别与核酸碱基转化酶和/或碱基切除修复抑制剂融合成内含肽(intein)，再通过各蛋白质合成后的连接过程(Ligation)将两者连接。

就本发明的核酸修饰酶复合体与双链DNA的接触而言，通过向具有靶双链DNA(例如，基因组DNA)的细胞导入该复合体或编码其的核酸来实施。考虑到导入及表达效率，与以核酸修饰酶复合体本身的形式导入细胞相比，优选以编码其的核酸的形态导入细胞、并在细胞内表达该复合体。

因此，对核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂而言，优选以编码它们的融合蛋白的核酸的形式制备，或在如利用结合结构域、内含肽等而翻译成蛋白质后可以在宿主细胞内形成复合体的形态，以分别编码它们的核酸形式制备。其中，核酸既可以是DNA也可以是RNA。在为DNA时，优选为双链DNA，并以在宿主细胞内在功能性的启动子的操纵下配置的表达载体的形态提供。在为RNA时，优选为单链RNA。

本发明的复合体由于不伴随DNA双链切割(DSB)，因此可进行低毒性的基因组编辑，本发明的基因修饰的方法可以适用于范围广泛的生物材料。因此，就待导入上述编码核酸修饰酶复合体的核酸的细胞而言，可包括上到作为原核生物的大肠杆菌等细菌、作为下等真核生物的酵母等微生物的细胞，下到包括人等哺乳动物的脊椎动物、昆虫、植物等高等真核生物的细胞的所有生物种类的细胞。

对编码锌指基序、TAL效应子、PPR基序等核酸序列识别模块的DNA而言，对于各模块，可以通过上述任意方法获得。对编码限制酶、转录因子、RNA聚合酶等序列识别模块的DNA而言，例如可以通过以下来克隆：基于它们的cDNA序列信息而以覆盖编码该蛋白质的期望部分(包含DNA结合结构域的部分)的区域的方式合成寡DNA引物，并将由产生该蛋白质的细胞制备的总RNA或mRNA级分用作模板，通过RT-PCR法扩增。

对编码核酸碱基转化酶及碱基切除修复抑制剂的DNA而言，也同样可以通过以下来克隆：基于使用的酶的cDNA序列信息而合成寡DNA引物，并将由产生该酶的细胞制备的总RNA或mRNA级分用作模板，通过RT-PCR法扩增。例如，编码源自PBS2的Ugi的DNA可以基于在NCBI/Gen Bank数据库中登记的DNA序列(登记号No.J04434)而针对CDS的上游及下游设计适当的引物，通过RT-PCR法由来自PBS2的mRNA进行克隆。

克隆而成的DNA可以直接用作编码蛋白质的DNA，或根据需要利用限制酶间消化、或添加适当的接头(例如，GS接头、GGGAR接头等)、间隔序列(例如，FLAG序列等)和/或核定位信号(NLS)(在靶双链DNA为线粒体、叶绿体DNA的情况下，为各细胞器定位信号)而制备成编码蛋白质的DNA。另外，可以进一步与编码核酸序列识别模块的DNA连接，而制备编码融合蛋白的DNA。

或者，也可以通过使编码核酸修饰酶复合体的DNA分别与编码结合结构域、或其结合配偶体的DNA融合，或通过使各个DNA与编码分离内含肽的DNA融合，从而使得核酸修饰酶复合体可以在宿主细胞内于翻译后形成复合体。在这些情况下，均可以根据需要在各个DNA的适当的位置上连接接头和/或核定位信号。

对编码核酸修饰酶复合体的DNA而言，可以通过化学合成DNA链、或将合成的一部分重叠的寡DNA短链利用PCR法、Gibson Assembly法进行连接，从而构建编码其全长的DNA。利用化学合成或PCR法或Gibson Assembly法的组合来构建全长DNA的优点在于，可以在整个CDS全长上根据待导入该DNA的宿主而设计使用的密码子。在表达异种DNA时，通过将该DNA序列转换为在宿主生物中使用频率高的密码子，可以期待蛋白质表达量的增大。就使用的宿主中的密码子使用频率的数据而言，可以使用例如在(公财)Kazusa DNA研究所的主页上公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html)、还可以参考记载了在各宿主中密码子的使用频率的文献。只要参考取得的数据和准备导入的DNA序列，将该DNA序列中使用的密码子中的在宿主中使用频率较低的那些，转换为编码同一氨基酸且使用频率较高的密码子即可。

包含编码核酸修饰酶复合体的DNA的表达载体，例如可以通过将该DNA连接至适当的表达载体中的启动子的下游而制造。

作为表达载体，可以使用源自大肠杆菌的质粒(例如，pBR322、pBR325、pUC12、pUC13)；源自枯草杆菌的质粒(例如，pUB110、pTP5、pC194)；源自酵母的质粒(例如，pSH19、pSH15)；昆虫细胞表达质粒(例如：pFast-Bac)；动物细胞表达质粒(例如：pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo)；λ噬菌体等噬菌体；杆状病毒等昆虫病毒载体(例如：BmNPV、AcNPV)；逆转录病毒、痘苗病毒、腺病毒等动物病毒载体等。

作为启动子，只要是对应于基因表达的宿主的适当的启动子即可，可以是任意的。由于伴随DSB的常规法有毒性的缘故，存在宿主细胞的存活率显著降低的情况，因此期望通过使用诱导启动子而在诱导开始以前增加细胞数量，但由于表达本发明的核酸修饰酶复合体也可得到充分的细胞增殖，因此构成启动子也可以不受限制地使用。

例如，在宿主为动物细胞的情况下，可以使用SRα启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒)启动子、MoMuLV(Moloney小鼠白血病病毒)LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。其中，优选CMV启动子、SRα启动子等。

在宿主是大肠杆菌的情况下，优选trp启动子、lac启动子、recA启动子、λP_L启动子、lpp启动子、T7启动子等。

在宿主是芽孢杆菌属的情况下，优选SPO1启动子、SPO2启动子、penP启动子等。

在宿主是酵母的情况下，优选Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。

在宿主是昆虫细胞的情况下，优选多角体蛋白启动子、P10启动子等。

在宿主是植物细胞的情况下，优选CaMV35S启动子、CaMV19S启动子、NOS启动子等。

作为表达载体，除了上述以外，可以根据需要使用含有增强子、剪接信号、终止子、polyA添加信号、选择标记如药物抗性基因、营养缺陷型互补基因等、复制起点等的载体。

编码核酸修饰酶复合体的RNA，可以通过例如以包含各个编码蛋白质的DNA的载体作为模板，通过本身已知的体外转录系统转录为mRNA从而制备。

通过将包含编码核酸修饰酶复合体的DNA的表达载体导入宿主细胞、并培养该宿主细胞，可以使本发明的复合体在细胞内表达。

作为宿主，可以使用例如：埃希氏菌属、芽孢杆菌属、酵母、昆虫细胞、昆虫、动物细胞等。

作为埃希氏菌属，可以使用例如：大肠杆菌(Escherichia coli)K12·DH1[Proc.Natl.Acad.Sci.USA，60，160(1968)]、大肠杆菌JM103[Nucleic Acids Research，9，309(1981)]、大肠杆菌JA221[Journal of Molecular Biology，120，517(1978)]、大肠杆菌HB101[Journal of Molecular Biology，41，459(1969)]、大肠杆菌C600[Genetics，39，440(1954)]等。

作为芽孢杆菌属，可以使用例如：枯草芽孢杆菌(Bacillus subtilis)MI114[Gene，24，255(1983)]、枯草芽孢杆菌207-21[Journal of Biochemistry，95，87(1984)]等。

作为酵母，可以使用例如：酿酒酵母(Saccharomyces cerevisiae)AH22、AH22R、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母(Schizosaccharomyces pombe)NCYC1913、NCYC2036、巴斯德毕赤酵母(Pichia pastoris)KM71等。

作为昆虫细胞，例如：在病毒为AcNPV的情况下，可以使用源自甘蓝夜蛾的幼虫的株化细胞(Spodoptera frugiperda cell；Sf细胞)、源自Trichoplusiani的中肠的MG1细胞、源自Trichoplusia ni的卵的High FiveTM细胞、源自Mamestra brassicae的细胞、源自Estigmena acrea的细胞等。在病毒为BmNPV的情况下，作为昆虫细胞可以使用源自蚕的株化细胞(Bombyx mori N细胞；BmN细胞)等。作为该Sf细胞，可以使用例如：Sf9细胞(ATCCCRL1711)、Sf21细胞[均为InVivo,13,213-217(1977)]等。

作为昆虫，可以使用例如：蚕的幼虫、果蝇、蟋蟀等[Nature,315，592(1985)]。

作为动物细胞，可以使用例如：细胞株如猴COS-7细胞、猴Vero细胞、(CHO)细胞、dhfr基因缺陷CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3细胞、人FL细胞、源自人胎儿肾脏的细胞(例：HEK293细胞)等、多功能性干细胞如人及其它哺乳动物的iPS细胞、ES细胞等、及由各种组织制备的初代培养细胞。进一步，也可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。

作为植物细胞，可以使用由各种植物(例如：谷物如水稻、小麦、玉米等，经济作物如番茄、黄瓜、茄子等，园艺植物如康乃馨、洋桔梗等，实验植物如烟草、拟南芥等)制备的悬浮培养细胞、愈伤组织、原生质体、叶切片、根切片等。

上述任意的宿主细胞均可以为单倍体(一倍体)、多倍体(例如，二倍体、三倍体、四倍体等)。

对表达载体的导入而言，可以根据宿主的种类，按照已知的方法(例如：溶菌酶法、感受态法、PEG法、CaCl₂共沉淀法、电穿孔法、显微注射法、粒子枪法、脂质转化法、农杆菌法等)进行实施。

对于大肠杆菌可以根据例如：Proc.Natl.Acad.Sci.USA,69,2110(1972)、Gene,17，107(1982)等中记载的方法进行转化。

芽孢杆菌属可以根据例如：Molecular&General Genetics，168，111(1979)等中记载的方法进行载体导入。

对于酵母，可以按照例如：Methods in Enzymology,194，182-187(1991)，Proc.Natl.Acad.Sci.USA,75,1929(1978)等中记载的方法进行载体导入。

对于昆虫细胞及昆虫，可以按照例如：Bio/Technology,6,47-55(1988)等中记载的方法进行载体导入。

对于动物细胞，可以按照例如：细胞工程学增刊8新细胞工程学实验方案,263-267(1995)(秀润公司发行)，Virology,52，456(1973)中记载的方法进行载体导入。

对于已导入载体的细胞的培养，可以根据宿主的种类，按照已知的方法实施。

例如，在培养大肠杆菌或芽孢杆菌属的情况下，作为用于培养的培养基优选液体培养基。另外，培养基优选含有转化体的生长所必需的碳源、氮源、无机物等。这里，作为碳源，可以举出例如：葡萄糖、糊精、可溶性淀粉、蔗糖等；作为氮源，可以举出例如：无机或有机物质如铵盐类、硝酸盐类、玉米浆、蛋白胨、酪蛋白、肉浸膏、大豆饼、马铃薯提取液等；作为无机物，可以举出例如：氯化钙、磷酸二氢钠、氯化镁等。另外，也可以向培养基添加酵母提取物、维生素类、生长促进因子等。培养基的pH优选为约5～约8。

作为培养大肠杆菌时的培养基，例如，优选包含葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972]。为了使启动子有效地工作，也可以根据需要向培养基添加例如3β-吲哚基丙烯酸的这样的试剂。大肠杆菌的培养通常于约15～约43℃进行。根据需要，可以进行通气、搅拌。

芽孢杆菌的培养通常于约30～约40℃进行。根据需要，可以进行通气、搅拌。

作为培养酵母时的培养基，可列举例如：Burkholder最小培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)]、含0.5％酪蛋白氨基酸的SD培养基[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。培养基的pH优选为约5～约8。培养通常于约20℃～约35℃进行。可以根据需要进行通气、搅拌。

为培养昆虫细胞或昆虫时的培养基，可以使用例如向Grace's Insect Medium[Nature,195，788(1962)]中适当添加了灭活的10％牛血清等添加物的培养基等。培养基的pH优选为约6.2～约6.4。培养通常于约27℃进行。可以根据需要进行通气、搅拌。

作为培养动物细胞时的培养基，可以使用例如：包含约5～约20％的胎牛血清的最小必要培养基(MEM)[Science,122，501(1952)]、Ham’s F12培养基(Ham’s F12Medium)、Dulbecco改良的Eagle培养基(DMEM)[Virology,8，396(1959)]、RPMI 1640培养基[TheJournal of the American Medical Association,199，519(1967)]、199培养基[Proceeding of the Society for the Biological Medicine,73,1(1950)]等。培养基的pH优选为约6～约8。培养通常于约30℃～约40℃进行。可以根据需要进行通气、搅拌。

作为培养植物细胞的培养基，可以使用MS培养基、LS培养基、B5培养基等。培养基的pH优选为约5～约8。培养通常于约20℃～约30℃进行。可以根据需要进行通气、搅拌。

对培养期间而言，只要为用于修饰双链DNA的靶向位点所需的最低限的期间以上即可，没有特别的限制，可以根据宿主细胞适当选择。另外，对培养而言，为了避免不期望的脱靶(off target)突变，优选不以超过足以进行靶向化部位的修饰的时间的方式进行。在进行至少暂时地在低温下培养的步骤的情况下，对于该低温培养的时期及持续时间而言，如上所述。

可以如上所述进行而使核酸修饰酶复合体在细胞内表达。

编码核酸修饰酶复合体的RNA向宿主细胞的导入，可以通过显微注射法、脂质转化法等进行。RNA的导入可以进行1次或隔适当的间隔而重复进行多次(例如：2～5次)。

由导入至细胞内的表达载体或RNA分子，表达核酸序列识别模块和核酸碱基转化酶的复合体时，该核酸序列识别模块特异性识别并结合靶双链DNA(例如，基因组DNA)内的靶核苷酸序列，利用连接于该核酸序列识别模块的核酸碱基转化酶的作用，使靶向位点(可以在包括靶核苷酸序列的全部或者一部分或它们的附近的几百个碱基的范围内适当调节)的有义链或反义链上发生碱基转变，在双链DNA内产生错配(例如：将PmCDA1、AID等胞苷脱氨酶用作核酸碱基转化酶的情况下，靶向位点的有义链或反义链上的胞嘧啶被转变为尿嘧啶，产生U:G或者G:U错配)。通过以下导入各种突变：该错配未被正确修复、或修复使得相反链的碱基与已转变的链的碱基成对(上述例子中，为T-A或A-T)，在修复时进一步置换为其它核苷酸(例如：U→A、G)，或发生1个～数十个碱基的缺失或插入。通过组合使用碱基切除修复抑制剂，从而抑制了细胞内的BER机制、修复错误的频率升高，可以提高突变导入效率。

对锌指基序而言，由于制作与靶核苷酸序列特异性结合的锌指的效率不高、而且结合特异性高的锌指的筛选较为复杂，因此，制作多个实际发挥作用的锌指基序并不容易。就TAL效应子、PPR基序而言，比锌指基序的靶核酸序列识别的自由度高，但需要每次根据靶核苷酸序列设计并构建巨大的蛋白质，因此在效率方面存在问题。

与此相对，由于CRISPR-Cas系统是通过相对于靶核苷酸序列互补的指导RNA来识别靶双链DNA的序列，因此可以仅通过合成可与靶核苷酸序列形成特异性的杂交的寡DNA，而将任意序列靶向化。

因此，在本发明更优选的实施形态中，使用了Cas的至少1个DNA切割能力失活的CRISPR-Cas系统(CRISPR-突变Cas)作为核酸序列识别模块。

图1示出了使用了CRISPR-突变Cas作为核酸序列识别模块的、本发明的基因组编辑用质粒的模式图的模式图。

使用了CRISPR-突变Cas的本发明的核酸序列识别模块是以RNA分子与突变Cas蛋白质的复合体的形式提供的，其中，所述RNA分子由与靶核苷酸序列互补的指导RNA(gRNA)、对突变Cas蛋白质的募集必需的tracrRNA组成。

本发明使用的Cas蛋白质只要是属于CRISPR系统的即可，没有特别限制，优选为Cas9。作为Cas9，可列举例如源自化脓性链球菌(Streptococcus pyogenes)的Cas9(SpCas9)、源自嗜热链球菌(Streptococcus thermophilus)的Cas9(StCas9)等，但不限于这些。优选为SpCas9。作为本发明使用的突变Cas，可以使用Cas蛋白质的双链DNA的两条链的切割能力已失活的那些、和具有仅一条链的切割能力失活的切口酶活性的那些。例如，在为SpCas9的情况下，可以使用第10位的Asp残基被转变为Ala残基的D10A突变体(其欠缺对与指导RNA形成互补链的链的相反链的切割能力)、或第840位的His残基被转变为Ala残基的H840A突变体(其欠缺对指导RNA与互补链的切割能力)，进一步可使用其双突变体，而其它突变Cas也可以同样使用。

对核酸碱基转化酶及碱基切除修复抑制剂而言，通过与上述锌指等之间的连接方式相同的方法而以与突变Cas的复合体的形式提供。或者，也可以利用作为RNA配基的MS2F6、PP7等与和它们的结合蛋白质形成的RNA支架(scaffold)，将核酸碱基转化酶和/或碱基切除修复抑制剂与突变Cas结合。指导RNA与靶核苷酸序列形成互补链，而后tracrRNA对突变Cas进行募集，虽然突变Cas识别了DNA切割部位识别序列PAM(protospaceradjacent motif)(在使用SpCas9的情况下PAM为NGG(N为任意碱基)这3个碱基，理论上基因组上的任意部位都可以被靶向)，但无法切割一方或两方的DNA，并利用连接于突变Cas的核酸碱基转化酶的作用，使靶向位点(可以在包含靶核苷酸序列的全部或者一部分的几百个碱基的范围内适当调节)产生核酸碱基转变，在双链DNA内产生错配。利用本来要修复以上问题的细胞的BER系统的错误，而导入了各种突变。

将CRISPR-突变Cas用作核酸序列识别模块的情况下，与将锌指等用作核酸序列识别模块的情况同样，也优选以编码核酸修饰酶复合体的核酸的形态而导入具有靶双链DNA的细胞中。

对编码Cas的DNA而言，可以通过针对编码碱基切除修复抑制剂的DNA，通过与上述同样的方法从产生该酶的细胞进行克隆。另外，突变Cas可以通过以下方式取得：在编码已克隆的Cas的DNA中，使用本身已知的位点特异性的突变诱发法，以将对DNA切割活性重要的位点的氨基酸残基(例如：在为Cas9的情况下，可列举第10位的Asp残基、第840位的His残基，但不限于这些)转变为其它氨基酸的方式导入突变。

或者，对编码突变Cas的DNA而言，也可以对于编码核酸序列识别模块的DNA、编码DNA糖基化酶的DNA，通过与上述同样的方法利用与化学合成、或PCR法、或Gibson Assembly法进行组合，构建成具有适于在使用的宿主细胞中表达的密码子选择(codon usage)的DNA形式。例如，将为了在真核细胞中表达而SpCas9最优化的CDS序列及氨基酸序列示于序列号3及序列号4。如果将序列号3所示的序列中的碱基编号29的“A”转变为“C”，则可以得到编码D10A突变体的DNA，如果将碱基号2518-2519的“CA”转变为“GC”，则可以得到编码H840A突变体的DNA。

对编码突变CasDNA和编码核酸碱基转化酶的DNA而言，可以以表达成融合蛋白的形式的方式连接，也可以设计成：使用结合结构域、内含肽等进行分别表达，并通过蛋白质间相互作用、蛋白质间连接从而在宿主细胞内形成复合体的方式。或者，也可以设计为以下方式：通过将编码突变Cas的DNA和编码核酸碱基转化酶的DNA分别在适当的部位断开成两个片段，并将同一方的片段之间直接连接、或经过适当的接头进行连接，由此将核酸修饰酶复合体以两个局部性的复合体的形式表达，并使它们在细胞内会合、再折叠，从而再构成为具有特定的核酸序列识别能力的功能性突变Cas，在该突变Cas与靶核苷酸序列结合时，可再构成为具有核酸碱基转变反应催化活性的功能性核酸碱基转化酶。例如，可以分别用适当的引物、通过PCR法来制备突变Cas的编码N末端侧片段的DNA和编码C末端侧片段的DNA，另一方面，同样地制备核酸碱基转化酶的编码N末端侧片段的DNA和编码C末端侧片段的DNA，而后使用常规方法将例如编码N末端侧片段的DNA彼此、以及编码C末端侧片段的DNA彼此进行连接，从而制作编码2个局部性的复合体的DNA。或者，也可以将突变Cas的编码N末端侧片段的DNA与核酸碱基转化酶的编码C末端侧片段的DNA进行连接，而另一方面，将核酸碱基转化酶的编码N末端侧片段的DNA与突变Cas的编码C末端侧片段的DNA进行连接，从而制作编码2个局部性的复合体的DNA。对各个局部性的复合体而言，可以以表达成融合蛋白形式的方式连接，也可以设计成：使用结合结构域、内含肽等进行分别表达，并通过蛋白质间相互作用、蛋白质间连接而在宿主细胞内形成复合体的方式。另外，也可以将两个局部性的复合体连接成以1个融合蛋白形式表达的方式。对突变Cas的断开部位而言，只要断开成的两个片段能够以识别并结合靶核苷酸序列的方式进行再构成即可，没有特别限制，可以在1个位置进行断开而分成N末端侧片段与C末端侧片段，也可以在两个位置以上进行断开而产生3个以上的片段并将这些片段适当连接而制成两个片段。各种Cas9蛋白质的三维结构是已知的，作为本领域技术人员，可以基于该信息而适当选择断开部位。例如，在为SpCas9的情况下，包含从N末端起第94位至第718位的氨基酸的区域是与靶核苷酸序列与指导RNA的识别相关的结构域(REC)，包含从第1099位至C末端的氨基酸的区域是与PAM与的相互作用有关的结构域(PI)，因此可以在以下位置断开并成为N末端侧片段与C末端侧片段：REC结构域内或PI结构域内的任意部位、优选为不具有构象的区域内，例如，在从N末端起第204位与第205位的氨基酸之间(204..205)、从N末端起第535位与第536位的氨基酸之间(535..536)等(参考例如，Nat Biotechnol.33(2):139-142(2015))。对于编码碱基切除修复抑制剂的DNA、与编码突变Cas的DNA和/或编码核酸碱基转化酶的DNA的组合，也可以与上述同样地设计。

编码得到的突变Cas和/或核酸碱基转化酶和/或碱基切除修复抑制剂的DNA，可以根据宿主不同而插入至与上述相同的表达载体的启动子的下游。

另一方面，编码指导RNA及tracrRNA的DNA可设计成crRNA序列的编码序列、或crRNA编码序列根据需要与已知的tracrRNA编码序列连接而成的寡DNA序列，并使用DNA/RNA合成仪进行化学合成，其中，所述crRNA序列的编码序列包含与靶核苷酸序列互补的核苷酸序列，就所述crRNA序列而言，例如，在作为Cas而募集FnCpf1时，可以使用在该互补的核苷酸序列的5’侧包含序列号20；AAUUUCUACUGUUGUAGAU的crRNA，下划线部分的序列之间会形成碱基配对而构成茎环结构；就所述已知的tracrRNA编码序列而言，例如，在作为Cas而募集Cas9时的tracrRNA编码序列，为gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtggtg ctttt；序列号9。编码指导RNA及tracrRNA的DNA也可以根据宿主不同而与上述同样地插入表达载体中，作为启动子，优选使用polIII类的启动子(例如，SNR6、SNR52、SCR1、RPR1、U6、H1启动子等)及终止子(例如，T6序列)。

编码突变Cas和/或核酸碱基转化酶和/或碱基切除修复抑制剂的RNA，可以通过例如：以编码可编码上述突变Cas和/或核酸碱基转化酶和/或碱基切除修复抑制剂的DNA的载体为模板，通过本身已知的体外转录系统转录为mRNA而制备。

指导RNA-tracrRNA可以设计成将相对于靶核苷酸序列互补的序列与已知的tracrRNA序列进行连接而成的寡RNA序列，并用DNA/RNA合成仪进行化学合成。

对编码突变Cas和/或核酸碱基转化酶和/或碱基切除修复抑制剂的DNA或RNA、指导RNA-tracrRNA或编码指导RNA-tracrRNA的DNA而言，可以根据宿主不同，通过与上述相同的方法导入宿主细胞中。

由于常规型的人工核酸酶伴随了DNA双链切割(DSB)，因此，在对基因组内的序列进行靶向时，发生认为是由染色体的无序的切割(脱靶切割)导致的增殖障碍和细胞死亡。该影响在众多的微生物、原核生物中是特别致命的，阻碍了其适用性。本发明的方法与常规型的使用人工核酸酶的方法相比，是通过DNA上的核酸碱基转变反应而不是DNA切割来进行突变导入的，因此细胞毒性大幅减轻。

通过针对邻近的多个靶核苷酸序列而制作序列识别模块并同时使用，与以单独的核苷酸序列为靶相比，可升高突变导入效率。对其效果而言，由使得两个靶核苷酸序列的一部分发生重复的情况可知，即使在两者离开600bp左右的情况下，也同样实现了突变诱导。另外，在靶核苷酸序列存在于相同方向(靶核苷酸序列存在于相同链上)、以及在相对(靶核苷酸序列分别存在于双链DNA的两条链上)的两种情况下，均可发生。

本发明的基因组编辑技术的突变导入效率极高，因此在本发明的基因组序列的修饰方法中为，可以对完全不同的位置的多个DNA区域作为靶进行修饰。因此，在本发明优选的一实施形态中，可以使用分别与不同的靶核苷酸序列(可以在1个目的基因内，也可以在不同的2个以上的目的基因内。这些目的基因可以位置在相同的染色体上、也可以在不同的染色体上。)特异性结合的两种以上的核酸序列识别模块。在这种情况下，由这些核酸序列识别模块中的各1个与核酸碱基转化酶与碱基切除修复抑制剂形成核酸修饰酶复合体。这里，核酸碱基转化酶与碱基切除修复抑制剂可以使用共通的。例如，在使用CRISPR-Cas系统作为核酸序列识别模块的情况下，可以对于Cas蛋白质与核酸碱基转化酶与碱基切除修复抑制剂的复合体(包括融合蛋白)使用共通的物质，制作并使用2种以上的嵌合RNA作为指导RNA-tracrRNA，所述嵌合RNA是由与不同的靶核苷酸序列分别形成互补链的2种以上的指导RNA的每一种分别与tracrRNA形成的。另一方面，在使用核酸序列识别模块作为锌指基序、TAL效应子等的情况下，例如可以将与不同的靶核苷酸特异性结合的各核酸序列识别模块，与核酸碱基转化酶及碱基切除修复抑制剂进行融合。

为了使本发明的核酸修饰酶复合体在宿主细胞内表达，因此如上所述将包含编码该核酸修饰酶复合体的DNA的表达载体、编码该核酸修饰酶复合体的RNA导入宿主细胞，但为了有效地导入突变，优选能保持规定时期以上、规定水平以上的核酸修饰酶复合体的表达。从该观点出发，虽然要确保在宿主细胞内导入能够自主复制的表达载体(质粒等)，但由于该质粒等是外来DNA，因此，优选在顺利实现了导入突变后迅速除去该质粒等。因此，虽然根据宿主细胞的种类等不同而改变，但优选例如：在经过从导入表达载体开始的6小时～2天后，使用本技术领域中周知的各种质粒除去法从宿主细胞除去导入的质粒。

或者，只要可得到足以进行突变导入的核酸修饰酶复合体的表达，也优选使用不具有在宿主细胞内的自主复制能力的表达载体(例如：欠缺在宿主细胞中发挥功能的复制起点及/或编码对复制必需的蛋白质的基因的载体等)、RNA，通过暂时地表达而向目的双链DNA导入突变。

以下，根据实施例对本发明进行说明。但是，本发明并不限于这些实施例。

实施例

在下文的实施例中，如下所述地进行实验。

<细胞株、培养、转化(transformation)、表达诱导>

使用了源自中国仓鼠卵巢的CHO-K1贴壁细胞(adherent cell)。在添加了10％胎牛血清(Biosera,Nuaille,France)及100μg/mL青霉素-链霉素(Life Technologies,Carlsbad,CA,USA)的Ham's F12培养基(Life Technologies,Carlsbad,CA,USA)中培养细胞。细胞在加湿的5％CO2气体氛围中，于37℃培养。为了进行转染，使用24孔板，接种细胞使得每孔为0.5×10⁵细胞并培养1天。按照厂家的说明书，将1.5μg质粒与2μL lipofectamine2000(Life Technologies,Carlsbad,CA,USA)转染细胞。在从转染起的5小时后，将培养基更换为含有0.125mg/mL G418(InvivoGen,SanDiego,CA,USA)的Ham's F12培养基，培养细胞7天。之后，用于以下的突变导入效率的计算。

需要说明的是，对于暂时地在低温下培养的步骤，也与上述同样进行转染，在从转染起的5小时后，将培养基更换为含有0.125mg/mL G418的Ham's F12培养基，接着于25℃过夜培养，之后于37℃培养2天。之后，用于以下的突变导入效率的计算。

<突变导入效率的计算>

将突变导入效率的计算的概略图示于图2。HPRT(Hypoxanthine-guaninephosophoribosyltransferase)为嘌呤代谢酶之一，HPRT的基因被破坏的细胞获得针对6-TG(6-thioguanine)的抗性。为了计算HPRT基因的突变导入效率，使用胰蛋白酶-EDTA(LifeTechnologies,Carlsbad,CA,USA)将细胞从塑料上剥离，将100～500个细胞分散至放入含有G418或G418+5g/mL 6-TG(Tokyo Chemical Industry,Tokyo,Japan)的Ham's F12培养基的平皿上。7天之后测量了抗性克隆的数量。突变导入效率以6TG抗性克隆比G418抗性克隆的比例来计算。

<序列分析>

为了序列分析，用胰蛋白酶处理G418及6TG抗性克隆，通过离心分离得到粒状。按照厂家的说明书，使用Nucleo Spin Tissue XS kit(Macherey-Nagel,Duren,Germany)从颗粒中提取了基因组DNA。使用正向引物(ggctacatagagggatcctgtgtca；序列号18)及反向引物(acagtagctcttcagtctgataaaa；序列号19)，从基因组DNA扩增了包含HPRT的靶部位的PCR片段。将PCR产物TA克隆至大肠杆菌(E.coli)载体中，并通过桑格法进行分析。

<核酸操作>

DNA利用PCR法、限制酶处理、连接、GibsonAssembly法、人工化学合成中的任一种方法进行加工、构建。质粒用大肠杆菌株XL-10gold或DH5α进行扩增，并用脂质转化法导入细胞中。

<构建体>

将实施例中使用的基因组编辑用质粒载体的概略图示于图1。以pcDNA3.1载体为基础，通过向CHO细胞的转染而进行了基因导入而构建了载体。将具有已最优化为真核细胞表达用的密码子的源自化脓性链球菌(Streptococcus pyogenes)的Cas9基因ORF(序列号3(编码序列号4)与核定位信号(cccaagaagaagaggaaggtg；序列号11(编码PKKKRKV；序列号12)连接，将连接成的产物添加至CMV启动子的下游，并经由接头序列向其连接了脱氨酶基因(源自七腮鳗(Petromyzon marinus)的PmCDA1)ORF，并将得到的产物以融合蛋白的形式表达，其中，所述脱氨酶基因ORF具有已最优化为人细胞表达用的密码子(序列号1(编码序列号2))。另外，还制作了融合表达Ugi基因的构建体，所述Ugi基因为将源自PBS2的Ugi最优化为真核细胞表达的密码子而成：序列号5(编码序列号6))。另外，经过编码2A肽的序列(gaaggcaggggaagccttctgacttgtggggatgtggaagaaaaccctggtcca；序列号13(编码EGRGSLLTCGDVEENPGP；序列号14))，也连接了药物抗性基因(NeoR:G418抗性基因)。使用了2xGS接头(重复两次ggtggaggaggttct；序列号15(编码GGGGS；序列号16))作为接头序列。连接了SV40polyA信号终止子(序列号17)作为终止子。

在Cas9中，为了分别去除单侧或两侧的DNA链的切割能力，而使用了导入了将第10位的天门冬氨酸转换为丙氨酸的突变(D10A，对应于DNA序列突变a29c)的突变Cas9(nCas9)，及进一步导入了将第840位的组氨酸转换为丙氨酸的突变(H840A，对应于DNA序列突变ca2518gc)的突变的Cas9(dCas9)。

gRNA以与tracrRNA(源自Streptococcus pyogenes；序列号9)的嵌合结构形式被配置在H1启动子(序列号10)与polyT信号(tttttt)之间，并被内置在表达上述脱氨酶基因等的质粒载体中。对gRNA靶碱基序列而言，使用了从HPRT基因的外显子3的起始点起第16位～第34位的序对列(ccgagatgtcatgaaagaga；序列号7)(位点1)，及从HPRT基因的外显子1的起始点起第15位～第3位的序列的互补链序列(ccatgacggaatcggtcggc；序列号8)(位点2R)。导入细胞、使其在细胞内表达，形成了gRNA-tracrRNA与Cas9-PmCDA1、或与Cas9-PmCDA1-Ugi的复合体。

实施例1对由各种基因组编辑质粒与条件导致的突变导入效率的评价

将对由各种基因组编辑质粒与条件导致的突变导入效率进行评价的结果示于表1。需要说明的是，在实施例1中，对没有位点2R的记载的情况，全部使用了位点1(序列号7)作为gRNA靶碱基序列。

表1

在使用了nCas9作为突变Cas9的质粒(nCas-PmCDA1-2A-Neo)中，突变导入效率为35.9％，在使用了dCas9作为突变Cas9的质粒(dCas-PmCDA1-2A-Neo)中，突变导入效率为2.08％。另一方面，在使用了将PmCDA1与Ugi相连的质粒的情况下，在使用了nCas9作为突变Cas9的质粒(+UginCas-PmCDA1-2A-Neo)中，突变导入效率为91.0％，在使用了dCas9作为突变Cas9的质粒(+UgidCas-PmCDA1-2A-Neo)中，突变导入效率为86.2％。因此，显示出通过融合表达了抑制脱氨基碱基的修复的Ugi蛋白质，突变导入效率显著提高了；显示出尤其是使用了dCas9的那些，通过与Ugi的组合而使提高突变导入效率的效果出现了飞跃性升高。需要说明的是，表1中示出了作为Cas使用了未导入突变的Cas9的质粒，还示出了在Cas(D10A)-2A-Neo、dCas-2A-Neo位点1、dCas-2A-Neo位点2R不连接核酸碱基转化酶的质粒，分别用作对照。

另外，对在转染后暂时(过夜)在25℃的低温下培养细胞(+25℃脉冲(pulse))的那些而言，即使是使用了nCas9(nCas-PmCDA1-2A-Neo)、dCas9(dCas-PmCDA1-2A-Neo)中的任一种的那些，均显示出突变导入效率显著提高(分别为61.9％及12.5％)。需要说明的是，表1中的dCas-2A-Neo表示未融合核酸碱基转化酶的质粒，用作对照。

综上所述显示，与传统的使用核酸碱基转化酶的基因组编辑技术相比，利用本发明的基因组编辑技术，突变导入效率飞跃性提高。

实施例2突变导入模式的分析

从得到的突变导入克隆提取了基因组DNA而用PCR扩增了HPRT基因的靶区域，进行TA克隆后进行了序列分析。将结果示于图3。需要说明的是，使用的编辑载体为Cas9、nCas9(D10A)-PmCDA1、dCas9-PmCDA1，没有使其表达碱基切除修复抑制剂，另外，还使用了来自培养温度37℃进行的细胞的克隆。图中，由黑方框圈出的TGG表示PAM序列。

在没有导入突变的Cas9中，确认了以PAM序列的正上方为中心的大型缺失、插入。另一方面，在nCas9(D10A)-PmCDA1中，确认了数十个碱基左右的小规模的缺失，而该区域为包含脱氨基靶向碱基的区域。另外，在dCas9-PmCDA1中，在PAM序列的上游的19～21个碱基确认了从C向T的突变，在进行了序列分析的所有14个克隆中的10克隆中，导入了一个碱基的精准突变(pinpoint mutation)。

据上所述，显示出即使在将使用核酸碱基转化酶的基因组编辑技术应用于哺乳细胞的情况下，也可以实现精准的突变导入。

实施例3使用另外的哺乳动物细胞的研究

使用了作为源自人胎儿肾脏的细胞的HEK293T细胞而对突变导入效率进行了评价。对载体而言，使用的载体将gRNA靶碱基序列设为“Tsai S.Q.et al.,(2015)NatBiotechnol.,33(2):187-197”中记载的EMX1基因的序列(以序列号21表示)及其脱靶候补的序列1～4(分别对应于表2、3中的Emx1 off target 1～Emx1 off target 4的序列，并以序列号22～25表示)，除此以外，与实施例1相同。载体利用转染被导入HEK293T细胞中，不进行细胞的筛选，在2天后回收所有细胞而提取了基因组DNA。需要说明的是，对于除了细胞的筛选及至回收所有细胞为止的期间以外的培养条件、及转染条件而言，均与上述CHO-K1细胞的条件相同。然后，基于“Nishida K.et al.(2016)Science,6:353(6305)”中记载的方法，使用表2所示的引物、用PCR扩增了包含各靶标的区域后，使用新一代测序仪分析了突变导入模式。将结果示于表3。表中，序列下的数字表示核苷酸的置换比例(％)。

表2

表3

根据表3，即使在使用了人细胞的情况下也确认了基于组合使用UGI的提高突变导入效率的效果。进一步，启示了将脱靶的相对于中靶的突变率的比例抑制为较低，即可以抑制脱靶突变的风险。具体而言，在使用了nCas9-PmCDA1-UGI的情况下，例如相对于EMX1的靶序列的第-16位的胞嘧啶的置换比例，脱靶候选的相应的位置的胞嘧啶的置换比例的比例为1/10以下。另外，在使用了nCas9-PmCDA1-UGI的情况下，与不组合使用UGI的nCas9-PmCDA1相比，在EMX1的靶序列中的突变率提高了，但另一方面，在脱靶候选的序列中的突变率几乎确认不到差异，脱靶突变得到了抑制。同样，在使用了dCas9-PmCDA1-UGI的情况下，与不组合使用UGI的dCas9-PmCDA1相比，在EMX1的靶序列中的突变率提高了，但另一方面，在脱靶候选的序列中的突变率几乎确认不到差异，脱靶突变得到了抑制。需要说明的是，对于表3中的脱靶候选的序列4(序列名：Emx1 off target 4)的第-15位的胞嘧啶而言，虽然认定其在使用任一种载体的情况下均以同程度的比例发生了置换，但由于在Cas9中也可同样确认了置换，因此，可能性较高的是这些置换是由测序的错误而导致的。

工业实用性

根据本发明，可以不伴随外来DNA的插入也不伴随DNA双链切割，并安全且高效率地对任意物种导入部位特异性的突变而极其有用。

本申请以在日本申请的日本特愿2016-085631(申请日：2016年4月21日)为基础，并将其内容全部包含于本说明书。

SEQUENCE LISTING

<110> 国立大学法人神户大学(NATIONAL UNIVERSITY CORPORATION KOBEUNIVERSITY)

<120> 提高基因组序列修饰技术中的突变导入效率的方法、

及其使用的分子复合体

(Method for improving mutation introduction efficiency in genomic

sequence modification technology, and molecular complex for use

in same)

<130> 092589

<150> JP 2016-085631

<151> 2016-04-21

<160> 60

<170> PatentIn 3.5版

<210> 1

<211> 624

<212> DNA

<213> 人工序列

<220>

<223> 最优化以用于人类细胞表达的PmCDA1 CDS

<220>

<221> CDS

<222> (1)..(624)

<400> 1

atg aca gac gcc gag tac gtg cgc att cat gag aaa ctg gat att tac 48

Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr

1 5 10 15

acc ttc aag aag cag ttc ttc aac aac aag aaa tct gtg tca cac cgc 96

Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg

20 25 30

tgc tac gtg ctg ttt gag ttg aag cga agg ggc gaa aga agg gct tgc 144

Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys

35 40 45

ttt tgg ggc tat gcc gtc aac aag ccc caa agt ggc acc gag aga gga 192

Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly

50 55 60

ata cac gct gag ata ttc agt atc cga aag gtg gaa gag tat ctt cgg 240

Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg

65 70 75 80

gat aat cct ggg cag ttt acg atc aac tgg tat tcc agc tgg agt cct 288

Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro

85 90 95

tgc gct gat tgt gcc gag aaa att ctg gaa tgg tat aat cag gaa ctt 336

Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu

100 105 110

cgg gga aac ggg cac aca ttg aaa atc tgg gcc tgc aag ctg tac tac 384

Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr

115 120 125

gag aag aat gcc cgg aac cag ata gga ctc tgg aat ctg agg gac aat 432

Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn

130 135 140

ggt gta ggc ctg aac gtg atg gtt tcc gag cac tat cag tgt tgt cgg 480

Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg

145 150 155 160

aag att ttc atc caa agc tct cat aac cag ctc aat gaa aac cgc tgg 528

Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp

165 170 175

ttg gag aaa aca ctg aaa cgt gcg gag aag cgg aga tcc gag ctg agc 576

Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser

180 185 190

atc atg atc cag gtc aag att ctg cat acc act aag tct cca gcc gtt 624

Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val

195 200 205

<210> 2

<211> 208

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 2

Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr

1 5 10 15

Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg

20 25 30

Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys

35 40 45

Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly

50 55 60

Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg

65 70 75 80

Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro

85 90 95

Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu

100 105 110

Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr

115 120 125

Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn

130 135 140

Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg

145 150 155 160

Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp

165 170 175

Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser

180 185 190

Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val

195 200 205

<210> 3

<211> 4116

<212> DNA

<213> 人工序列

<220>

<223> 最优化以用于真核细胞表达的化脓性链球菌来源的Cas9 CDS

<220>

<221> CDS

<222> (1)..(4116)

<400> 3

atg gac aag aag tac tcc att ggg ctc gat atc ggc aca aac agc gtc 48

Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val

1 5 10 15

ggt tgg gcc gtc att acg gac gag tac aag gtg ccg agc aaa aaa ttc 96

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

aaa gtt ctg ggc aat acc gat cgc cac agc ata aag aag aac ctc att 144

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

ggc gcc ctc ctg ttc gac tcc ggg gag acg gcc gaa gcc acg cgg ctc 192

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

aaa aga aca gca cgg cgc aga tat acc cgc aga aag aat cgg atc tgc 240

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

tac ctg cag gag atc ttt agt aat gag atg gct aag gtg gat gac tct 288

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

ttc ttc cat agg ctg gag gag tcc ttt ttg gtg gag gag gat aaa aag 336

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

cac gag cgc cac cca atc ttt ggc aat atc gtg gac gag gtg gcg tac 384

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

cat gaa aag tac cca acc ata tat cat ctg agg aag aag ctt gta gac 432

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

agt act gat aag gct gac ttg cgg ttg atc tat ctc gcg ctg gcg cat 480

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

atg atc aaa ttt cgg gga cac ttc ctc atc gag ggg gac ctg aac cca 528

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

gac aac agc gat gtc gac aaa ctc ttt atc caa ctg gtt cag act tac 576

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

aat cag ctt ttc gaa gag aac ccg atc aac gca tcc gga gtt gac gcc 624

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

aaa gca atc ctg agc gct agg ctg tcc aaa tcc cgg cgg ctc gaa aac 672

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

ctc atc gca cag ctc cct ggg gag aag aag aac ggc ctg ttt ggt aat 720

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

ctt atc gcc ctg tca ctc ggg ctg acc ccc aac ttt aaa tct aac ttc 768

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

gac ctg gcc gaa gat gcc aag ctt caa ctg agc aaa gac acc tac gat 816

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

gat gat ctc gac aat ctg ctg gcc cag atc ggc gac cag tac gca gac 864

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

ctt ttt ttg gcg gca aag aac ctg tca gac gcc att ctg ctg agt gat 912

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

att ctg cga gtg aac acg gag atc acc aaa gct ccg ctg agc gct agt 960

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

atg atc aag cgc tat gat gag cac cac caa gac ttg act ttg ctg aag 1008

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

gcc ctt gtc aga cag caa ctg cct gag aag tac aag gaa att ttc ttc 1056

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

gat cag tct aaa aat ggc tac gcc gga tac att gac ggc gga gca agc 1104

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

cag gag gaa ttt tac aaa ttt att aag ccc atc ttg gaa aaa atg gac 1152

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

ggc acc gag gag ctg ctg gta aag ctt aac aga gaa gat ctg ttg cgc 1200

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

aaa cag cgc act ttc gac aat gga agc atc ccc cac cag att cac ctg 1248

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

ggc gaa ctg cac gct atc ctc agg cgg caa gag gat ttc tac ccc ttt 1296

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

ttg aaa gat aac agg gaa aag att gag aaa atc ctc aca ttt cgg ata 1344

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

ccc tac tat gta ggc ccc ctc gcc cgg gga aat tcc aga ttc gcg tgg 1392

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

atg act cgc aaa tca gaa gag acc atc act ccc tgg aac ttc gag gaa 1440

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

gtc gtg gat aag ggg gcc tct gcc cag tcc ttc atc gaa agg atg act 1488

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

aac ttt gat aaa aat ctg cct aac gaa aag gtg ctt cct aaa cac tct 1536

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

ctg ctg tac gag tac ttc aca gtt tat aac gag ctc acc aag gtc aaa 1584

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

tac gtc aca gaa ggg atg aga aag cca gca ttc ctg tct gga gag cag 1632

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

aag aaa gct atc gtg gac ctc ctc ttc aag acg aac cgg aaa gtt acc 1680

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

gtg aaa cag ctc aaa gaa gac tat ttc aaa aag att gaa tgt ttc gac 1728

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

tct gtt gaa atc agc gga gtg gag gat cgc ttc aac gca tcc ctg gga 1776

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

acg tat cac gat ctc ctg aaa atc att aaa gac aag gac ttc ctg gac 1824

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

aat gag gag aac gag gac att ctt gag gac att gtc ctc acc ctt acg 1872

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

ttg ttt gaa gat agg gag atg att gaa gaa cgc ttg aaa act tac gct 1920

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

cat ctc ttc gac gac aaa gtc atg aaa cag ctc aag agg cgc cga tat 1968

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

aca gga tgg ggg cgg ctg tca aga aaa ctg atc aat ggg atc cga gac 2016

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

aag cag agt gga aag aca atc ctg gat ttt ctt aag tcc gat gga ttt 2064

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

gcc aac cgg aac ttc atg cag ttg atc cat gat gac tct ctc acc ttt 2112

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

aag gag gac atc cag aaa gca caa gtt tct ggc cag ggg gac agt ctt 2160

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

cac gag cac atc gct aat ctt gca ggt agc cca gct atc aaa aag gga 2208

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

ata ctg cag acc gtt aag gtc gtg gat gaa ctc gtc aaa gta atg gga 2256

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

agg cat aag ccc gag aat atc gtt atc gag atg gcc cga gag aac caa 2304

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

act acc cag aag gga cag aag aac agt agg gaa agg atg aag agg att 2352

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

gaa gag ggt ata aaa gaa ctg ggg tcc caa atc ctt aag gaa cac cca 2400

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

gtt gaa aac acc cag ctt cag aat gag aag ctc tac ctg tac tac ctg 2448

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

cag aac ggc agg gac atg tac gtg gat cag gaa ctg gac atc aat cgg 2496

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

ctc tcc gac tac gac gtg gat cat atc gtg ccc cag tct ttt ctc aaa 2544

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

gat gat tct att gat aat aaa gtg ttg aca aga tcc gat aaa aat aga 2592

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

ggg aag agt gat aac gtc ccc tca gaa gaa gtt gtc aag aaa atg aaa 2640

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

aat tat tgg cgg cag ctg ctg aac gcc aaa ctg atc aca caa cgg aag 2688

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

ttc gat aat ctg act aag gct gaa cga ggt ggc ctg tct gag ttg gat 2736

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

aaa gcc ggc ttc atc aaa agg cag ctt gtt gag aca cgc cag atc acc 2784

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

aag cac gtg gcc caa att ctc gat tca cgc atg aac acc aag tac gat 2832

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

gaa aat gac aaa ctg att cga gag gtg aaa gtt att act ctg aag tct 2880

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

aag ctg gtc tca gat ttc aga aag gac ttt cag ttt tat aag gtg aga 2928

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

gag atc aac aat tac cac cat gcg cat gat gcc tac ctg aat gca gtg 2976

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

gta ggc act gca ctt atc aaa aaa tat ccc aag ctt gaa tct gaa ttt 3024

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

gtt tac gga gac tat aaa gtg tac gat gtt agg aaa atg atc gca 3069

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

aag tct gag cag gaa ata ggc aag gcc acc gct aag tac ttc ttt 3114

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

tac agc aat att atg aat ttt ttc aag acc gag att aca ctg gcc 3159

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

aat gga gag att cgg aag cga cca ctt atc gaa aca aac gga gaa 3204

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

aca gga gaa atc gtg tgg gac aag ggt agg gat ttc gcg aca gtc 3249

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

cgg aag gtc ctg tcc atg ccg cag gtg aac atc gtt aaa aag acc 3294

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

gaa gta cag acc gga ggc ttc tcc aag gaa agt atc ctc ccg aaa 3339

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

agg aac agc gac aag ctg atc gca cgc aaa aaa gat tgg gac ccc 3384

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

aag aaa tac ggc gga ttc gat tct cct aca gtc gct tac agt gta 3429

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

ctg gtt gtg gcc aaa gtg gag aaa ggg aag tct aaa aaa ctc aaa 3474

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

agc gtc aag gaa ctg ctg ggc atc aca atc atg gag cga tca agc 3519

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

ttc gaa aaa aac ccc atc gac ttt ctc gag gcg aaa gga tat aaa 3564

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

gag gtc aaa aaa gac ctc atc att aag ctt ccc aag tac tct ctc 3609

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

ttt gag ctt gaa aac ggc cgg aaa cga atg ctc gct agt gcg ggc 3654

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

gag ctg cag aaa ggt aac gag ctg gca ctg ccc tct aaa tac gtt 3699

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

aat ttc ttg tat ctg gcc agc cac tat gaa aag ctc aaa ggg tct 3744

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

ccc gaa gat aat gag cag aag cag ctg ttc gtg gaa caa cac aaa 3789

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

cac tac ctt gat gag atc atc gag caa ata agc gaa ttc tcc aaa 3834

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

aga gtg atc ctc gcc gac gct aac ctc gat aag gtg ctt tct gct 3879

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

tac aat aag cac agg gat aag ccc atc agg gag cag gca gaa aac 3924

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

att atc cac ttg ttt act ctg acc aac ttg ggc gcg cct gca gcc 3969

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

ttc aag tac ttc gac acc acc ata gac aga aag cgg tac acc tct 4014

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

aca aag gag gtc ctg gac gcc aca ctg att cat cag tca att acg 4059

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

ggg ctc tat gaa aca aga atc gac ctc tct cag ctc ggt gga gac 4104

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

agc agg gct gac 4116

Ser Arg Ala Asp

1370

<210> 4

<211> 1372

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 4

Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val

1 5 10 15

Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe

20 25 30

Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile

35 40 45

Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu

50 55 60

Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys

65 70 75 80

Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser

85 90 95

Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys

100 105 110

His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr

115 120 125

His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp

130 135 140

Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His

145 150 155 160

Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro

165 170 175

Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr

180 185 190

Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala

195 200 205

Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn

210 215 220

Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn

225 230 235 240

Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe

245 250 255

Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp

260 265 270

Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp

275 280 285

Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp

290 295 300

Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser

305 310 315 320

Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys

325 330 335

Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe

340 345 350

Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser

355 360 365

Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp

370 375 380

Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg

385 390 395 400

Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu

405 410 415

Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe

420 425 430

Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile

435 440 445

Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp

450 455 460

Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu

465 470 475 480

Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr

485 490 495

Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser

500 505 510

Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys

515 520 525

Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln

530 535 540

Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr

545 550 555 560

Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp

565 570 575

Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly

580 585 590

Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp

595 600 605

Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr

610 615 620

Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala

625 630 635 640

His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr

645 650 655

Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp

660 665 670

Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe

675 680 685

Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe

690 695 700

Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu

705 710 715 720

His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly

725 730 735

Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly

740 745 750

Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln

755 760 765

Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile

770 775 780

Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro

785 790 795 800

Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu

805 810 815

Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg

820 825 830

Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys

835 840 845

Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg

850 855 860

Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys

865 870 875 880

Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys

885 890 895

Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp

900 905 910

Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr

915 920 925

Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp

930 935 940

Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser

945 950 955 960

Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg

965 970 975

Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

980 985 990

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe

995 1000 1005

Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala

1010 1015 1020

Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe

1025 1030 1035

Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala

1040 1045 1050

Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu

1055 1060 1065

Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val

1070 1075 1080

Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr

1085 1090 1095

Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys

1100 1105 1110

Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro

1115 1120 1125

Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val

1130 1135 1140

Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys

1145 1150 1155

Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser

1160 1165 1170

Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys

1175 1180 1185

Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu

1190 1195 1200

Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly

1205 1210 1215

Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val

1220 1225 1230

Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser

1235 1240 1245

Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys

1250 1255 1260

His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys

1265 1270 1275

Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala

1280 1285 1290

Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn

1295 1300 1305

Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala

1310 1315 1320

Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser

1325 1330 1335

Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr

1340 1345 1350

Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

Ser Arg Ala Asp

1370

<210> 5

<211> 252

<212> DNA

<213> 人工序列

<220>

<223> 最优化以用于真核细胞表达的PBS2来源的Ugi CDS

<220>

<221> CDS

<222> (1)..(252)

<400> 5

atg acc aac ctt tcc gac atc ata gag aag gaa aca ggc aaa cag ttg 48

Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu

1 5 10 15

gtc atc caa gag tcg ata ctc atg ctt cct gaa gaa gtt gag gag gtc 96

Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val

20 25 30

att ggg aat aag ccg gaa agt gac att ctc gta cac act gcg tat gat 144

Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp

35 40 45

gag agc acc gat gag aac gtg atg ctg ctc acg tca gat gcc cca gag 192

Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu

50 55 60

tac aaa ccc tgg gct ctg gtg att cag gac tct aat gga gag aac aag 240

Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys

65 70 75 80

atc aag atg cta 252

Ile Lys Met Leu

<210> 6

<211> 84

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 6

Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu

1 5 10 15

Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val

20 25 30

Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp

35 40 45

Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu

50 55 60

Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys

65 70 75 80

Ile Lys Met Leu

<210> 7

<211> 20

<212> DNA

<213> 中国仓鼠(Cricetulus griseus)

<400> 7

ccgagatgtc atgaaagaga 20

<210> 8

<211> 20

<212> DNA

<213> 中国仓鼠

<400> 8

ccatgacgga atcggtcggc 20

<210> 9

<211> 83

<212> DNA

<213> 化脓性链球菌

<400> 9

gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60

ggcaccgagt cggtggtgct ttt 83

<210> 10

<211> 229

<212> DNA

<213> 人类(Homo sapiens)

<400> 10

aattcgaacg ctgacgtcat caacccgctc caaggaatcg cgggcccagt gtcactaggc 60

gggaacaccc agcgcgcgtg cgccctggca ggaagatggc tgtgagggac aggggagtgg 120

cgccctgcaa tatttgcatg tcgctatgtg ttctgggaaa tcaccataaa cgtgaaatgt 180

ctttggattt gggaatctta taagttctgt atgaggacca cagatcccc 229

<210> 11

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 核定位信号

<220>

<221> CDS

<222> (1)..(21)

<400> 11

ccc aag aag aag agg aag gtg 21

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 12

<211> 7

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 12

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 13

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 2A 肽

<220>

<221> CDS

<222> (1)..(54)

<400> 13

gaa ggc agg gga agc ctt ctg act tgt ggg gat gtg gaa gaa aac cct 48

Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro

1 5 10 15

ggt cca 54

Gly Pro

<210> 14

<211> 18

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 14

Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro

1 5 10 15

Gly Pro

<210> 15

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> GS 接头

<220>

<221> CDS

<222> (1)..(15)

<400> 15

ggt gga gga ggt tct 15

Gly Gly Gly Gly Ser

1 5

<210> 16

<211> 5

<212> PRT

<213> 人工序列

<220>

<223> 合成构建

<400> 16

Gly Gly Gly Gly Ser

1 5

<210> 17

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> SV40 poly A信号终止子

<400> 17

aacttgttta ttgcagctta taatggttac aaataaagca atagcatcac aaatttcaca 60

aataaagcat ttttttcact gcattctagt tgtggtttgt ccaaactcat caatgtatct 120

ta 122

<210> 18

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> PCR 正向引物

<400> 18

ggctacatag agggatcctg tgtca 25

<210> 19

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> PCR反向引物

<400> 19

acagtagctc ttcagtctga taaaa 25

<210> 20

<211> 19

<212> RNA

<213> Francisella novicida

<220>

<221> misc_structure

<222> (1)..(19)

<223> crRNA直接重复序列。

<400> 20

aauuucuacu guuguagau 19

<210> 21

<211> 20

<212> DNA

<213> 人类

<400> 21

gagtccgagc agaagaagaa 20

<210> 22

<211> 20

<212> DNA

<213> 人类

<400> 22

gagttagagc agaagaagaa 20

<210> 23

<211> 20

<212> DNA

<213> 人类

<400> 23

gagtctaagc agaagaagaa 20

<210> 24

<211> 20

<212> DNA

<213> 人类

<400> 24

gaggccgagc agaagaaaga 20

<210> 25

<211> 20

<212> DNA

<213> 人类

<400> 25

gagtcctagc aggagaagaa 20

<210> 26

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> PCR引物(EMX 第一引物)

<400> 26

gtagtctggc tgtcacaggc catactcttc cacat 35

<210> 27

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX 第一引物)

<400> 27

gtgggtgacc cacccaagca gcaggctctc cacca 35

<210> 28

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX 第二引物)

<400> 28

tctttcccta cacgacgctc ttccgatcta cttagctgga gtgtggaggc tatcttggc 59

<210> 29

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX 第二引物)

<400> 29

gtgactggag ttcagacgtg tgctcttccg atctggctag ggactggcca gagtccagc 59

<210> 30

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off1 第一引物)

<400> 30

ctgcccatat ccaccacaag caagttagtc atcaa 35

<210> 31

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off1 第一引物)

<400> 31

aatcaaaatc tctatgtgtg gggcacaggg 30

<210> 32

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off1 第二引物)

<400> 32

tctttcccta cacgacgctc ttccgatctc attggctaga attcagactt caag 54

<210> 33

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off1 第二引物)

<400> 33

gtgactggag ttcagacgtg tgctcttccg atctatgagg gagatgtact ctcaagtga 59

<210> 34

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off2 第一引物)

<400> 34

catgttccct cacccttggc atctacacac tttct 35

<210> 35

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off2 第一引物)

<400> 35

tagtttaccc tgaggcaata tctgactcca 30

<210> 36

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off2 第二引物)

<400> 36

tctttcccta cacgacgctc ttccgatctt cattttcaaa tgcctattga gcgg 54

<210> 37

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off2 第二引物)

<400> 37

gtgactggag ttcagacgtg tgctcttccg atctaaggct ccttgccttt acatatagg 59

<210> 38

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off3 第一引物)

<400> 38

tcacttttgt caattcatgc caccatcagt 30

<210> 39

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off3 第一引物)

<400> 39

gccacctcca ctctgccagg aataggttca 30

<210> 40

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off3 第二引物)

<400> 40

tctttcccta cacgacgctc ttccgatcta tggactgtcc tgtgagcccg tggc 54

<210> 41

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off3 第二引物)

<400> 41

gtgactggag ttcagacgtg tgctcttccg atctctcggt ggcctgcaag tggaaagcc 59

<210> 42

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off4 第一引物)

<400> 42

gggaccactt gaagtgagta aaattatagg 30

<210> 43

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off4 第一引物)

<400> 43

cccagctgtt gctagcttat ggccagtcct 30

<210> 44

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off4 第二引物)

<400> 44

tctttcccta cacgacgctc ttccgatctc actgcctttc gggctagcct ccaa 54

<210> 45

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> PCR引物 (EMX-off4 第二引物)

<400> 45

gtgactggag ttcagacgtg tgctcttccg atcttagatg ttaataggtt attggggtg 59

<210> 46

<211> 18

<212> PRT

<213> 中国仓鼠

<400> 46

Thr Glu Arg Leu Ala Arg Asp Val Met Lys Glu Met Gly Gly His His

1 5 10 15

Ile Val

<210> 47

<211> 55

<212> DNA

<213> 中国仓鼠

<400> 47

gactgaaaga cttgcccgag atgtcatgaa agagatggga ggccatcaca ttgtg 55

<210> 48

<211> 29

<212> DNA

<213> 中国仓鼠

<400> 48

gactgaaaga cttgcccgag atgtcatga 29

<210> 49

<211> 53

<212> DNA

<213> 中国仓鼠

<400> 49

gactgaaaga cttgcccgag atgtcatgaa agatggaagg ccatcacatt gtg 53

<210> 50

<211> 55

<212> DNA

<213> 中国仓鼠

<400> 50

gactgaaaga cttgcccgag atgtcatgaa agagatggga ggccatcaca ttgtg 55

<210> 51

<211> 56

<212> DNA

<213> 中国仓鼠

<400> 51

gactgaaaga cttgcccgag atgtcatgaa agaggatggg aggccatcac attgtg 56

<210> 52

<211> 45

<212> DNA

<213> 中国仓鼠

<400> 52

gactgaaaga cttgcctgaa agagatggga ggccatcaca ttgtg 45

<210> 53

<211> 42

<212> DNA

<213> 中国仓鼠

<400> 53

gactgaaaga ctttgaaaga gatgggaggc catcacattg tg 42

<210> 54

<211> 55

<212> DNA

<213> 中国仓鼠

<400> 54

gactgaaaga cttgtttgag atgtcatgaa agagatggga ggccatcaca ttgtg 55

<210> 55

<211> 55

<212> DNA

<213> 中国仓鼠

<400> 55

gactgaaaga cttgcttgag atgtcatgaa agagatggga ggccatcaca ttgtg 55

<210> 56

<211> 55

<212> DNA

<213> 中国仓鼠

<400> 56

gactgaaaga cttgcctgag atgtcatgaa agagatggga ggccatcaca ttgtg 55

<210> 57

<211> 31

<212> DNA

<213> 人类

<400> 57

ggcctgagtc cgagcagaag aagaagggct c 31

<210> 58

<211> 31

<212> DNA

<213> 人类

<400> 58

gacaagagtc taagcagaag aagaagagag c 31

<210> 59

<211> 31

<212> DNA

<213> 人类

<400> 59

atgaggaggc cgagcagaag aaagacggcg a 31

<210> 60

<211> 31

<212> DNA

<213> 人类

<400> 60

gacctgagtc ctagcaggag aagaagaggc a 31

Claims

1.修饰双链DNA的靶向位点的方法，其包括以下步骤：

通过将与选择的双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与PmCDA1键合而成的复合体，导入到具有该双链DNA的细胞并将该细胞至少暂时地在低温下培养，从而在该靶向位点中不切割该双链DNA中的至少一条链、并使该靶向位点中的1个以上的核苷酸缺失或转换为其它1个以上的核苷酸、或向该靶向位点插入1个以上的核苷酸的步骤，

2.根据权利要求1所述的方法，其中，所述Cas缺失双链DNA切割能力。

3.根据权利要求1或2所述的方法，其中，所述细胞为哺乳动物细胞。

4.根据权利要求3所述的方法，其中，低温为20℃至35℃。

5.根据权利要求3所述的方法，其中，低温为25℃。

6.根据权利要求1～5中任一项所述的方法，其中，双链DNA与复合体的接触，通过向具有所述双链DNA的细胞中导入编码所述复合体的核酸来进行。

7.修饰双链DNA的靶向位点的方法，其包括以下步骤：

8.根据权利要求7所述的方法，其中，所述Cas的双链DNA切割能力有缺陷。

9.根据权利要求7或8所述的方法，其中，所述核酸碱基转化酶为胞苷脱氨酶。

10.根据权利要求9所述的方法，其中，所述胞苷脱氨酶为PmCDA1。

11.根据权利要求9或10所述的方法，其中，碱基切除修复抑制剂为尿嘧啶DNA糖基化酶的抑制剂。

12.根据权利要求7～11中任一项所述的方法，其中，双链DNA与复合体的接触，通过向具有所述双链DNA的细胞中导入编码所述复合体的核酸来进行。

13.根据权利要求12所述的方法，其中，所述细胞为哺乳动物细胞。

14.核酸修饰酶复合体，其为由双链DNA中的靶核苷酸序列特异性结合的核酸序列识别模块与核酸碱基转化酶与碱基切除修复抑制剂键合而成的复合体，该核酸序列识别模块为Cas的至少1个DNA切割能力失活的CRISPR-Cas系统，在靶向位点中，不切割该双链DNA中的至少一条链、并使该靶向位点中的1个以上的核苷酸缺失或转换为其它1个以上的核苷酸、或向该靶向位点插入1个以上的核苷酸。

15.编码权利要求14的核酸修饰酶复合体的核酸。