CN113652445A

CN113652445A - 基因组编辑系统和方法

Info

Publication number: CN113652445A
Application number: CN202110750327.0A
Authority: CN
Inventors: 李伟; 周琪; 滕飞
Original assignee: Institute of Zoology of CAS
Current assignee: Institute of Zoology of CAS
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-11-16
Also published as: EP3733842A4; WO2019127087A1; US11767525B2; JP7138712B2; EP3733842A1; CN109689875B; US20210095271A1; CN109689875A; JP2021512590A

Abstract

本发明涉及基因工程领域。具体而言，本发明涉及新的基因组编辑系统和方法。更具体而言，本发明涉及新的能够对细胞基因组进行高效编辑的CRISPR‑C2c1系统及其用途。

Description

基因组编辑系统和方法

本申请是申请日为2017年12月27日的第201780035094.8号发明名称为“基因组编辑系统和方法”的中国专利申请的分案申请。

技术领域

本发明涉及基因工程领域。具体而言，本发明涉及新的基因组编辑系统和方法。更具体而言，本发明涉及新的能够对细胞基因组进行高效编辑的CRISPR-C2c1系统及其用途。

背景技术

CRISPR(Clustered regularly interspaced short palindromic repeats，成簇的规律间隔的短回文重复序列)系统是细菌在进化过程中产生的用于防御外来基因入侵的免疫系统。其中，II型CRISPR-Cas9系统是通过两个小RNA(crRNA和tracrRNA)或者一个人工合成小RNA(sgRNA)介导一个Cas9蛋白进行DNA切割的系统，也是最早发现的三种(I、II、III型)CRISPR系统中最简单的系统。由于该系统简单易操作，在2013年被改造并成功实现了真核生物基因组的编辑。CRISPR/Cas9系统迅速成为了生命科学领域最热门的技术。

2015年，Zhang et al.通过序列比对和系统分析的方法又发现了区别于CRISPR-Cas9系统之外的新的V-A型基因组编辑系统，即CRISPR-Cpf1系统。该系统只需要一个小RNA(crRNA)的介导即可实现基因组的编辑。

2015年，Shmakov等人还鉴定出新的基因组编辑系统(Molecular Cell 60,385-397,November 5,2015)：C2c1(V-B)、C2c2(VI)和C2c3(V-C)系统。其中来自Alicyclobacillus acidoterrestris的AacC2c1被证实可以实现DNA切割，然而其活性受到例如温度的限制。AacC2c1系统在低于40℃无法切割DNA。并且，没有证明AacC2c1系统能够在真核生物中实现基因组编辑

为了更便利地进行基因编辑，本领域仍然需要更多能够实现高效基因组编辑的系统。

发明简述

本发明人鉴定出一种新的CRISPR-C2c1系统，其可进行哺乳动物细胞的基因组编辑。本发明所鉴定的C2c1核酸酶在体外实验中具有耐高温、耐酸碱的特性。并且，本发明对所鉴定的CRISPR-C2c1系统的sgRNA进行了优化，使其长度大大缩短，而不影响其打靶效率。最后，本发明人还对所鉴定的C2c1蛋白本身进行改造，使其从核酸内切酶变成死亡的C2c1(dC2c1)，扩展了其用途。

在一方面，本发明提供了一种用于对细胞基因组中的靶序列进行定点修饰的基因组编辑系统，其包含以下i)至v)中至少一项：

i)C2c1蛋白或其变体，和向导RNA；

ii)包含编码C2c1蛋白或其变体的核苷酸序列的表达构建体，和向导RNA；

iii)C2c1蛋白或其变体，和包含编码向导RNA的核苷酸序列的表达构建体；

iv)包含编码C2c1蛋白或其变体的核苷酸序列的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；

v)包含编码C2c1蛋白或其变体的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体；

其中所述向导RNA能够与所述C2c1蛋白或其变体形成复合物，将所述C2c1蛋白或其变体靶向所述细胞基因组中的靶序列，导致所述靶序列中的一或多个核苷酸的取代、缺失和/或添加。在一些实施方案中，所述C2c1蛋白是来自Alicyclobacillus acidiphilus或Alicyclobacillus kakegawensis的C2c1蛋白。

在另一方面，本发明提供了一种对细胞基因组中的靶序列进行定点修饰的方法，包括将本发明的基因组编辑系统导入所述细胞。

在另一方面，本发明提供了一种治疗有需要的对象中的疾病的方法，包括向所述对象递送有效量的本发明的基因组编辑系统以修饰所述对象中与所述疾病相关的基因。

在另一方面，本发明提供了本发明的基因组编辑系统在制备用于治疗有需要的对象中的疾病的药物组合物中的用途，其中所述基因组编辑系统用于修饰所述对象中与所述疾病相关的基因。

在另一方面，本发明提供了一种用于治疗有需要的对象中的疾病的药物组合物，其包含本发明的基因组编辑系统和药学可接受的载体，其中所述基因组编辑系统用于修饰所述对象中与所述疾病相关的基因。

附图描述

图1和图2示出了AaC2c1核酸酶活性的体外分析结果。

图3和图4示出了AaC2c1和AkC2c1在哺乳动物细胞中的基因组编辑活性。

图5和图6示出了对指导AaC2c1基因组编辑的单向导RNA(sgRNA)进行优化。

图7示出了靶序列长度和错配度对AaC2c1编辑活性的影响。

图8示出了对AaC2c1的脱靶效应分析。

图9示出了AaC2c1的关键催化残基的鉴定和突变分析。

图10示出不同物种来源C2c1蛋白的序列比对和结构分析。

发明详述

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，MolecularCloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold SpringHarbor，1989(下文称为“Sambrook”)。

i)C2c1蛋白或其变体，和向导RNA；

其中所述向导RNA能够与所述C2c1蛋白或其变体形成复合物，将所述C2c1蛋白或其变体靶向所述细胞基因组中的靶序列，导致所述靶序列中的一或多个核苷酸的取代、缺失和/或添加。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

“C2c1核酸酶”、“C2c1蛋白”和“C2c1”在本文中可互换使用，指的是包括C2c1蛋白或其片段的RNA指导的核酸酶。C2c1具有向导RNA介导的DNA结合活性以及DNA切割活性，能在向导RNA的指导下靶向并切割DNA靶序列形成DNA双链断裂(DSB)。DSB能够激活细胞内固有的修复机制非同源末端连接(Non-homologous end joining,NHEJ)和同源重组(Homologous recombination,HR)对细胞中的DNA损伤进行修复，在修复过程中，对该特定的DNA序列进行定点编辑。

在一些实施方案中，所述C2c1蛋白是来自Alicyclobacillus acidiphilus的C2c1蛋白(AaC2c1)。例如，所述C2c1蛋白是来自Alicyclobacillus acidiphilus NBRC 100859的AaC2c1蛋白。在一些实施方案中，所述AaC2c1蛋白包含SEQ ID NO:1所示的氨基酸序列。

本发明人令人惊奇地发现，AaC2c1蛋白在约4℃-约100℃的宽温度范围内均具有RNA指导的DNA切割活性，而在约30℃-约60℃具有最佳活性。此外，AaC2c1蛋白在约pH 1.0-约pH 12.0的宽pH范围内均具有RNA指导的DNA切割活性，在约pH 1.0-约pH 8.0具有最佳活性。因此，本发明的基因组编辑系统可以在多种温度和酸碱性条件下工作。

在一些实施方案中，所述C2c1蛋白的变体包含与SEQ ID NO:1所示的野生型AaC2c1蛋白具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列，并且具有野生型AaC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。

在一些实施方案中，所述C2c1蛋白的变体相对于SEQ ID NO:1具有一或多个氨基酸残基取代、缺失或添加的氨基酸序列，并且具有野生型AaC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。例如，所述C2c1蛋白的变体包含相对于SEQ ID NO:1具有1个、2个、3个、4个、5个、6个、7个、8个、9个或10个氨基酸残基取代、缺失或添加的氨基酸序列。在一些实施方案中，所述氨基酸取代是保守型取代。

在另一些实施方案中，所述C2c1蛋白是来自Alicyclobacillus kakegawensis的C2c1蛋白(AkC2c1)。例如，所述AkC2c1蛋白来自Alicyclobacillus kakegawensis NBRC103104。在一些实施方案中，所述AkC2c1蛋白包含SEQ ID NO:5所示的氨基酸序列。

在一些实施方案中，所述C2c1蛋白的变体包含与SEQ ID NO:5所示的野生型AkC2c1蛋白具有至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％序列相同性的氨基酸序列，并且具有野生型AkC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。

在一些实施方案中，所述C2c1蛋白的变体相对于SEQ ID NO:5具有一或多个氨基酸残基取代、缺失或添加的氨基酸序列，并且具有野生型AkC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。例如，所述C2c1蛋白的变体包含相对于SEQ ID NO:1具有1个、2个、3个、4个、5个、6个、7个、8个、9个或10个氨基酸残基取代、缺失或添加的氨基酸序列。在一些实施方案中，所述氨基酸取代是保守型取代。

“多肽”、“肽”、和“蛋白质”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

序列“相同性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列相同性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列相同性。(参见，例如：Computational Molecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988；Biocomputing:Informatics and GenomeProjects,Smith,D.W.,ed.,Academic Press,New York,1993；Computer Analysis ofSequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,Humana Press,NewJersey,1994；Sequence Analysis in Molecular Biology,von Heinje,G.,AcademicPress,1987；and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,MStockton Press,New York,1991)。虽然存在许多测量两个多核苷酸或多肽之间的相同性的方法，但是术语“相同性”是技术人员公知的(Carrillo,H.&Lipman,D.,SIAM J AppliedMath 48:1073(1988))。

在肽或蛋白中，合适的保守型氨基酸取代是本领域技术人员已知的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸取代基本上不改变生物活性(参见，例如，Watson et al.,Molecular Biologyof the Gene,4th Edition,1987,The Benjamin/Cummings Pub.co.,p.224)。

在一些实施方案中，所述C2c1蛋白的变体包含核酸酶死亡的C2c1蛋白(dC2c1)。核酸酶死亡的C2c1蛋白指的是保留向导RNA介导的DNA结合活性但是不具备DNA切割活性的C2c1蛋白。

在一些实施方案中，所述dC2c1中对应于野生型AaC2c1蛋白第785位的氨基酸被取代。在一些具体实施方案中，所述dC2c1相对于野生型AaC2c1蛋白包含氨基酸取代R785A。在一些具体实施方案中，所述dC2c1包含SEQ ID NO:4所示氨基酸序列。

在一些实施方案中，所述C2c1蛋白的变体是dC2c1与脱氨酶的融合蛋白。例如，所述融合蛋白中的dC2c1与脱氨酶可以通过接头例如肽接头连接。

如本发明所用，“脱氨酶”是指催化脱氨基反应的酶。在本发明一些实施方式中，所述脱氨酶指的是胞嘧啶脱氨酶，其能够接受单链DNA作为底物并能够催化胞苷或脱氧胞苷分别脱氨化为尿嘧啶或脱氧尿嘧啶。在本发明一些实施方式中，所述脱氨酶指的是腺嘌呤脱氨酶，其能够接受单链DNA作为底物并能够催化腺苷或脱氧腺苷(A)形成肌苷(I)。通过使用C2c1切口酶变体与脱氨酶的融合蛋白，可以实现靶DNA序列中的碱基编辑，例如C至T的转换或A至G的转换。本领域已知多种合适的接受单链DNA作为底物的胞嘧啶脱氨酶或腺嘌呤脱氨酶。

在本发明的一些实施方案中，本发明的基因组编辑系统中的C2c1蛋白或其变体还可以包含核定位序列(NLS)。一般而言，所述C2c1蛋白或其变体中的一个或多个NLS应具有足够的强度，以便在细胞核中驱动所述C2c1蛋白或其变体以可实现其基因编辑功能的量积聚。一般而言，核定位活性的强度由所述C2c1蛋白或其变体中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

在本发明的一些实施方案中，本发明的基因组编辑系统中的C2c1蛋白或其变体的NLS可以位于N端和/或C端。在一些实施方案中，所述C2c1蛋白或其变体包含约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述C2c1蛋白或其变体包含在或接近于N端的约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述C2c1蛋白或其变体包含在或接近于C端约1、2、3、4、5、6、7、8、9、10个或更多个NLS。在一些实施方案中，所述C2c1蛋白或其变体包含这些的组合，如包含在N端的一个或多个NLS以及在C端的一个或多个NLS。当存在多于一个NLS时，每一个可以被选择为不依赖于其他NLS。在本发明的一些实施方式中，所述C2c1蛋白或其变体包含2个NLS，例如所述2个NLS分别位于N端和C端。

一般而言，NLS由暴露于蛋白表面上的带正电的赖氨酸或精氨酸的一个或多个短序列组成，但其他类型的NLS也是已知的。NLS的非限制性实例包括：KKRKV、PKKKRKV，或SGGSPKKKRKV。

此外，根据所需要编辑的DNA位置，本发明的C2c1蛋白或其变体还可以包括其他的定位序列，例如细胞质定位序列、叶绿体定位序列、线粒体定位序列等。

在本发明的一些实施方案中，所述靶序列长度为18-35个核苷酸，优选20个核苷酸。在本发明的一些实施方案中，所述靶序列在其5’端侧翼为选自：5’TTTN-3’、5’ATTN-3’、5’GTTN-3’、5’CTTN-3’、5’TTC-3’、5’TTG-3’、5’TTA-3’、5’TTT-3’、5’TAN-3’、5’TGN-3’、5’TCN-3’和5’ATC-3’的PAM(前间区邻近基序)序列，优选5’TTTN-3’，其中N选自A、G、C和T。

在本发明中，待进行修饰的靶序列可以位于基因组的任何位置，例如位于功能基因如蛋白编码基因内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而实现对所述基因功能修饰或对基因表达的修饰。可以通过T7EI、PCR/RE或测序方法检测基因组靶序列中的取代、缺失和/或添加

“向导RNA”和“gRNA”在本文中可互换使用，通常由部分互补形成复合物的crRNA和tracrRNA分子构成，其中crRNA包含与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导CRISPR复合物(C2c1+crRNA+tracrRNA)与该靶序列以序列特异性方式结合的序列。然而，可以设计并使用单向导RNA(sgRNA)，其同时包含crRNA和tracrRNA的特征。

在本发明的一些实施方案中，所述向导RNA是由crRNA和tracrRNA部分互补形成的复合物。在一些实施方案中，所述tracrRNA由以下的核酸序列编码：5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGC AAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTCTGAC-3’。在一些实施方案中，所述crRNA由以下的核酸序列编码：5’-GTCGGATCACTGAGCGAGCGATCTGAGAAGTGGCAC-N_x-3’，其中N_x表示X个连续的核苷酸组成的核苷酸序列，N各自独立地选自A、G、C和T；X为18≤X≤35的整数。优选地，X＝20。在一些实施方案中，序列N_x(spacer序列)能够与靶序列的互补序列特异性杂交。

在本发明的一些实施方案中，所述向导RNA是sgRNA。在一些具体实施方案中，所述sgRNA由选自以下之一的核酸序列编码：

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTCTGACGTCGGATCACTGAGCGAGCGATCTGAGAAGTGGCAC-N_x-3’；

5’-AACTGTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTCTGACGTCGGATCACTGAGCGAGCGATCTGAGAAGTGGCAC-N_x-3’；

5’-CTGTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTCTGACGTCGGATCACTGAGCGAGCGATCTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTATCACTGAGCGAGCGATCTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGATCTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGCTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAGCTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAACTGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAGCGAGAAGTGGCAC-N_x-3’；

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTAAGCAGAAGTGGCAC-N_x-3’；和

5’-GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCAAGCGAAGTGGCAC-N_x-3’；

其中N_x表示X个连续的核苷酸组成的核苷酸序列(spacer序列)，N各自独立地选自A、G、C和T；X为18≤X≤35的整数。优选地，X＝20。在一些实施方案中，序列N_x(spacer序列)能够与靶序列的互补序列特异性杂交。所述sgRNA中除N_x之外的序列为sgRNA的scaffold序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”在本文可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

为了在靶细胞中获得有效表达，在本发明的一些实施方式中，所述编码C2c1蛋白或其变体的核苷酸序列针对待进行基因组编辑的细胞所来自的生物体进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.Nucl.Acids Res.，28:292(2000)。

在本发明的一些具体实施方式中，所述编码C2c1蛋白或其变体的核苷酸序列针对人进行密码子优化。在一些具体实施方式中，所述密码子优化的编码C2c1蛋白的核苷酸序列选自SEQ ID NO:3或7。

根据本发明的一些实施方式，本发明所述系统的表达构建体中所述编码C2c1蛋白或其变体的核苷酸序列和/或所述编码向导RNA的核苷酸序列与表达调控元件如启动子可操作地连接。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“调控序列”和“调控元件”可互换使用，指位于编码序列的上游(5'非编码序列)、中间或下游(3'非编码序列)，并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可包括但不限于启动子、翻译前导序列、内含子和多腺苷酸化识别序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

如本文中所用，术语“可操作地连接”指调控元件(例如但不限于，启动子序列、转录终止序列等)与核酸序列(例如，编码序列或开放读码框)连接，使得核苷酸序列的转录被所述转录调控元件控制和调节。用于将调控元件区域可操作地连接于核酸分子的技术为本领域已知的。

本发明可使用的启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时，启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

可通过本发明的系统进行基因组编辑的细胞优选是真核生物细胞，包括但不限于，哺乳动物细胞如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅的细胞；植物细胞包括单子叶植物细胞和双子叶植物细胞，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等的细胞。在本发明的一些实施方案中，所述细胞是真核生物细胞，优选哺乳动物细胞，更优选是人细胞。

在另一方面，本发明提供了一种修饰细胞基因组中靶序列的方法，包括将本发明的基因组编辑系统导入所述细胞，由此所述向导RNA将所述C2c1蛋白或其变体靶向所述细胞基因组中的靶序列，导致所述靶序列中的一或多个核苷酸的取代、缺失和/或添加。

将本发明的基因组编辑系统的核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”细胞是指用所述核酸或蛋白质转化细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

可用于将本发明的基因组编辑系统导入细胞的方法包括但不限于：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

在一些实施方式中，所述方法在体外进行。例如，所述细胞是分离的细胞。在一些实施方式中，所述细胞是CAR-T细胞。在一些实施方式中，所述细胞是诱导的胚胎干细胞。

在另一些实施方式中，所述方法还可以在体内进行。例如，所述细胞是生物体内的细胞，可以通过例如病毒介导的方法将本发明的系统体内导入所述细胞。例如，所述细胞可以是患者体内的肿瘤细胞。

在另一方面，本发明还提一种产生经遗传修饰的细胞的方法，包括将本发明的基因组编辑系统导入细胞中，由此所述向导RNA将所述C2c1蛋白或其变体靶向所述细胞基因组中的靶序列，导致所述靶序列中的一或多个核苷酸取代、缺失和/或添加。

在另一方面，本发明还提供经遗传修饰的生物体，其包含通过本发明的方法产生的经遗传修饰的细胞或其后代。

如本文所用，“生物体”包括适于基因组编辑的任何生物体，优选真核生物。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。在本发明的一些实施方案中，所述生物体是真核生物，优选哺乳动物，更优选人。

如本文所用，“经遗传修饰的生物体”或“经遗传修饰的细胞”意指在其基因组内包含外源多核苷酸或修饰的基因或表达调控序列的生物体或细胞。例如外源多核苷酸能够稳定地整合进生物体或细胞的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。修饰的基因或表达调控序列为在生物体或细胞基因组中所述序列包含单个或多个脱氧核苷酸取代、缺失和添加。针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

在另一方面，本发明提供了一种基因表达调控系统，其基于本发明的核酸酶死亡的C2c1蛋白。此系统尽管并没有改变靶基因的序列，在本文范围内也定义为基因组编辑系统。

在一些实施方案中，本发明的基因表达调控系统是基因抑制或沉默系统，其可以包含以下之一：

i)核酸酶死亡的C2c1蛋白或其与转录阻遏蛋白的融合蛋白，和向导RNA；

ii)包含编码核酸酶死亡的C2c1蛋白或其与转录阻遏蛋白的融合蛋白的核苷酸序列的表达构建体，和向导RNA；

iii)核酸酶死亡的C2c1蛋白或其与转录阻遏蛋白的融合蛋白，和包含编码向导RNA的核苷酸序列的表达构建体；

iv)包含编码核酸酶死亡的C2c1蛋白或其与转录阻遏蛋白的融合蛋白的核苷酸序列的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；或

v)包含编码核酸酶死亡的C2c1蛋白或其与转录阻遏蛋白的融合蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。

所述核酸酶死亡的C2c1蛋白或向导RNA的定义如上所述。所述转录阻遏蛋白的选择属于本领域技术人员的技能范围。

如本文所用，基因抑制或沉默是指基因表达水平的下调或消除，优选在转录水平。

然而，本发明的基因表达调控系统还可以使用核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白。在此种情况下，所述基因表达调控系统是基因表达激活系统。例如，本发明的基因表达激活系统可以包含以下之一：

i)核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白，和向导RNA；

ii)包含编码核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白的核苷酸序列的表达构建体，和向导RNA；

iii)核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白，和包含编码向导RNA的核苷酸序列的表达构建体；

iv)包含编码核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白的核苷酸序列的表达构建体，和包含编码向导RNA的核苷酸序列的表达构建体；或

v)包含编码核酸酶死亡的C2c1蛋白和转录激活蛋白的融合蛋白的核苷酸序列和编码向导RNA的核苷酸序列的表达构建体。

所述核酸酶死亡的C2c1蛋白或向导RNA的定义如上所述。所述转录激活蛋白的选择属于本领域技术人员的技能范围。

如本文所用，基因激活是指基因表达水平的上调，优选在转录水平。

在另一方面，本发明还涵盖本发明的基因组编辑系统在疾病治疗中的应用。

通过本发明的基因组编辑系统对疾病相关基因进行修饰，可以实现疾病相关基因的上调、下调、失活、激活或者突变纠正等，从而实现疾病的预防和/或治疗。例如，本发明中靶序列可以位于疾病相关基因的蛋白编码区内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而可以实现对所述疾病相关基因功能修饰或对疾病相关基因表达的修饰。

“疾病相关”基因是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因。在改变的表达与疾病的出现和/或进展相关的情况下，它可以是以异常高的水平被表达的基因；它可以是以异常低的水平被表达的基因。疾病相关基因还指具有一个或多个突变或直接负责或与一个或多个负责疾病的病因学的基因连锁不平衡的遗传变异的基因。转录的或翻译的产物可以是已知的或未知的，并且可以处于正常或异常水平。

因此，在另一方面，本发明还提供一种治疗有需要的对象中的疾病的方法，包括向所述对象递送有效量的本发明的基因组编辑系统以修饰与所述疾病相关的基因。

在仍另一方面，本发明还提供本发明的基因组编辑系统在制备用于治疗有需要的对象中的疾病的药物组合物中的用途，其中所述基因组编辑系统用于修饰与所述疾病相关的基因。

在仍另一方面，本发明还提供用于治疗有需要的对象中的疾病的药物组合物，其包含本发明的基因组编辑系统和药学可接受的载体，其中所述基因组编辑系统用于修饰与所述疾病相关的基因。

在一些实施方式中，所述对象是哺乳动物，例如人。

所述疾病的实例包括但不限于肿瘤、炎症、帕金森病、心血管疾病、阿尔茨海默病、自闭症、药物成瘾、年龄相关性黄斑变性、精神分裂症、遗传性疾病等。

在仍另一方面，本发明还包括用于本发明的方法的试剂盒，该试剂盒包括本发明的基因组编辑系统，以及使用说明。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。

实施例

材料与方法

DNA操作

根据Molecular Cloning：A Laboratory Manual(分子克隆：实验室手册)通过一定程度的修改进行包括DNA制备、消化、连接、扩增、纯化、琼脂糖凝胶电泳等DNA操作。

简而言之，通过在p11-LacY-wtx1载体的EcoRI和SphI位点之间连接退火的寡核苷酸(表1)构建PAM序列测定质粒，并且PCR产生相应的携带不同PAM序列的dsDNA片段。

通过将退火的寡核苷酸连接到经BasI消化的pUC19-U6-sgRNA载体中来构建用于细胞转染测定的靶向sgRNA。

使用含有T7启动子序列的引物对sgRNA体外转录的模板进行PCR扩增。

从头基因合成和质粒构建。

通过PSI-BLAST程序鉴定的新型V-B CRISPR-C2c1蛋白编码序列被人源化(密码子优化)，并全长合成。分别应用pCAG-2AeGFP载体和BPK2014-ccdB载体用于C2c1哺乳动物细胞表达和大肠杆菌表达。在用于哺乳动物细胞表达的pUC19-U6载体中构建向导RNA。

蛋白质纯化

将合成的C2c1编码序列构建到BPK2014-ccdB表达载体中。所得到的融合构建体含有C末端融合的His₁₀标签。蛋白在大肠杆菌BL21(λDE3)(Transgen Biotech)中表达，在Cm^R+LB培养基中于37℃生长至OD600约0.4，用0.5mM IPTG在16℃诱导16小时。收集300mL诱导的细胞用于蛋白质纯化，并且所有随后的步骤在4℃下进行。在裂解之前，将细胞沉淀物在补充有1x蛋白酶抑制剂(Roche complete，不含EDTA)的30mL裂解缓冲液(NPI-10：50mMNaH₂PO₄，300mM NaCl，10mM咪唑，5％甘油，pH8.0)超声。在4℃下离心8,000转/分离心10分钟使裂解物澄清，上清液与His60 Ni Superflow Resin(Takara)在4℃下分批孵育2小时。用20mL洗涤缓冲液1(NPI-20：50mM NaH₂PO₄，300mM NaCl，20mM咪唑，5％甘油，pH8.0)，清洗缓冲液2(NPI-40：50mM NaH₂ PO₄，300mM NaCl，40mM咪唑，5％甘油，pH8.0)和洗涤缓冲液3(NPI-100：50mM NaH 2PO4，300mM NaCl，100mM咪唑，5％甘油，pH8.0)用5mL洗脱缓冲液(NPI-300：50mM NaH₂PO₄，300mM NaCl，300mM咪唑，5％甘油，pH8.0)洗涤。使用100kDa透析器，使用储存缓冲液(Tris-HCl，pH8.0,200mM KCl，0.1mM EDTA pH8.0,1mM DTT，20％甘油)过夜透析纯化的C2c1蛋白。合并级分并用100kDa离心过滤装置(Millipore)浓缩。通过SDS-PAGE和考马斯染色分析富集的蛋白质的纯度，并使用BCA蛋白质测定试剂盒(ThermoFisher)定量浓度。

体外RNA转录。

使用HiSribeTM T7 Quick High Yield RNA合成试剂盒(NEB)和携带T7启动子序列的PCR扩增的DNA模板体外转录RNA。使用Oligo Clean&Concentrator TM(ZYMOResearch)纯化转录的RNA并在NanoDrop TM 2000(Thermo Fisher)上定量。

PAM序列在体外确定。

为了测定AaC2c1的PAM序列，将100nM AaC2c1蛋白、400ng体外转录的sgRNA和具有不同PAM序列(表1)的200ng PCR产生的双链DNA(dsDNA)在切割缓冲液(50mM Tris-HCl，100mM NaCl，10mM MgCl₂，pH8.0)中37℃温育1小时。加入RNase A终止反应，37℃消化20min，75℃消化5min后用～3％琼脂糖凝胶电泳和溴化乙锭染色分离。

双链DNA切割测定。

对于双链DNA切割测定，如果没有特别指出，将100nM C2c1蛋白、400ng体外转录的sgRNA和200ng PCR产生的含有5'TTTN-PAM序列的双链DNA(dsDNA)在37℃下在切割缓冲液(50mM Tris-HCl，100mM NaCl，10mM MgCl₂，pH8.0)孵育1小时。

为了确定AaC2c1的热稳定性，在裂解缓冲液(50mM Tris-HCl，100mM NaCl，10mMMgCl₂，pH8.0)中在大温度范围(4℃～100℃)下反应1小时。

对于pH耐受性测定，在pH值范围为1.0至13.0的切割缓冲液(50mM Tris-HCl，100mM NaCl，10mM MgCl 2)中在37℃下进行切割反应1h。

在Mg²⁺依赖性测定中，向切割缓冲液(50mM Tris-HCl，100mM NaCl，pH8.0)中添加EDTA(0mM，1mM，5mM，10mM，20mM和40mM)或Mg²⁺1mM，5mM，10mM，20mM和40mM)，37℃保温1h。

进一步的金属依赖性切割反应在补充有1或5mM的CaCl₂，MnCl₂、SrCl ₂，NiCl ₂，FeCl ₂，CoCl ₂，ZnCl₂或CuCl₂的裂解缓冲液(50mM Tris-HCl，100mM NaCl，10mM MgCl₂，1mMEDTA，pH8.0)中于37℃进行1小时。加入RNase A于37℃20min消化sgRNA终止反应，随后75℃5min失活RNase A，用～3％琼脂糖凝胶电泳和溴化乙锭染色分离。

细胞培养、转染和荧光激活细胞分选(FACS)。

将人胚胎肾(HEK)细胞系HK293T维持在补充有10％胎牛血清和1％Antibiotic-Antimycotic(Gibco)的Dulbecco改良的Eagle培养基(DMEM)中，37℃，5％CO₂培养。在具有activin A(20ng/ml，R&D)和FGF2(12.5ng/ml，R&D)的N2B27培养基中，将小鼠外胚层干细胞(EpiSC)系维持在纤连蛋白上。在转染前一天将HK293T或EpiSC细胞接种到24孔板(Corning)中。按照制造商推荐的方案，使用Lipofectamine LTX(Invitrogen)转染细胞。对于24孔板的每个孔，使用总共750ng质粒。然后在转染后48小时，使用MoFlo XDP(BeckmanCoulter)分选GFP阳性细胞。

T7核酸内切酶I(T7EI)测定和基因组修饰的测序分析。

将用质粒DNA转染48小时后收集的或FACS分选的GFP-阳性HK293T或EpiSC细胞进行基因组DNA提取。简而言之，用缓冲液L(Bimake)直接裂解细胞，并在55℃下孵育3小时，在95℃下孵育10分钟。对每个基因，PCR扩增CRISPR-C2c1靶位点周围的基因组区域。将200-400ng PCR产物与ddH₂O混合至终体积10μL，进行再退火处理以使异源双链体形成。再退火后，将产物用1/10体积的NEBuffer^TM 2.1和0.2μL的T7EI(NEB)在37℃下处理30分钟，并在3％琼脂糖凝胶上分析。Indel基于相对条带强度进行定量。

T7EI分析鉴定出的突变产物进克隆TA载体pEASY-T1(Transgen Biotech)并转化感受态大肠杆菌菌株Trans1-T1(Transgen Biotech)。过夜培养后，随机挑出菌落并测序。

脱靶预测和检测。

由于V-B型CRISPR-C2c1系统尚未被用于编辑哺乳动物基因组，因此没有预测脱靶的指导原则。在图7中的初步数据提供了一些参考，即种子区域可能是间区序列5'末端的前17个核苷酸(nt)，因为当间区(spacer)长度截短到18nt时检测到最小的脱靶切割活性。由于间区序列的5'末端的第7个错配可以容许脱靶，因此用含有5'TTN-PAM序列的5'末端的14nt的种子序列来搜索人基因组。仍然包括14nt种子序列中的一个错配或两个不连续的错配。应用T7EI分析确定是否存在脱靶。

定点C2c1基因诱变。

将含有所需定点突变和5'端重叠的两对引物用于基因扩增。使用

DNA Assembly Master Mix(NEB)按照制造商推荐的方案将两个琼脂糖凝胶纯化的基因片段无缝地组装到XmaI和NheI双消化的哺乳动物表达载体中。大肠杆菌表达载体构建使用消化和连接依赖的方法。

实施例1、AaC2c1核酸酶活性的体外分析。

首先，通过体外核酸切割鉴定本发明来自A.acidiphilus的C2c1的PAM序列。图1A示出了AaC2c1和sgRNA靶向带有各种PAM的基因座的切割。图下方的符号“+”表示强体外切割活性。结果显示AaC2c1的PAM可以是5’TTTN-、5’ATTN-、5’GTTN-、5’CTTN-、5’TTC-、5’TTG-、5’TTA-、5’TTT-、5’TAN-、5’TGN-、5’TCN-、5’ATC-。

其次，测试了AaC2c1的温度和酸碱性耐受。图1B示出了在宽温度范围(4℃-100℃)下AaC2c1的切割活性。图1C分析在宽范围pH值(pH1.0-pH13.0)下AaC2c1切割活性。图下方的符号“+”表示强体外切割活性。结果显示AaC2c1在4℃-100℃都可以工作，且在大约30℃-60℃切割效率较高。AaC2c1在pH1.0-pH12.0都可以工作，且在pH1.0-pH8.0切割效率较高。

图2A示出了本发明鉴定的来自A.acidiphilus的C2c1的细菌基因组基因座的图谱。由于含有C2c1基因的A.acidiphilus的基因组基因座没有已经测序的直接重复(DR)阵列，因此本研究采用来自已报道的A.acidoterrestris的假定crRNA。

图2B显示出本实施例使用的大肠杆菌表达的AaC2c1-His₁₀的逐步纯化。

图2C通过来自图1A的切割产物的Sanger测序所确定的切割位点。

图2D显示在不同浓度EDTA和Mg²⁺存在下的体外AaC2c1切割测定。表明AaC2c1是Mg² ⁺依赖性核酸内切酶。

图2E通过AaC2c1在选定的金属Ca²⁺，Mn²⁺，Sr²⁺，Ni²⁺，Fe²⁺，Co²⁺，Zn²⁺，Cu²⁺存在下进行DNA切割测定。图下方的符号“+”表示体外强烈的切割活性。

表1、用于体外DNA切割测定的带有各种5'PAM序列的靶序列。用于PAM序列的体外DNA切割分析的靶序列是商业合成的(BGI)，其中分别用下划线和方框背景突出显示EcoRI5'和SphI 3'突出端。将退火的寡核苷酸构建到EcoRI和SphI双重消化的p11-LacY-wtx1载体中。

实施例2 AaC2c1在哺乳动物细胞中的基因组编辑活性

本实施例检测了AaC2c1在哺乳动物细胞中的基因组编辑活性。所述使用的靶序列见下表3。

图3A是AaC2c1 sgRNA-DNA-靶向复合物的示意图。

图3B显示的是在人类RNF2靶位点处产生的indel的T7EI分析。具有突变的泳道下的数字显示Indel比例。三角形表示切割片段。

图3C显示来自图3B的切割产物的Sanger测序结果。红色字体突出显示PAM序列。

T7EI实验显示AaC2c1在小鼠Nr1基因座处诱导插入缺失(图3D)。图3E示出来自图3D的Nrl基因靶点1切割造成的等位基因序列。

可见，AaC2c1在哺乳动物细胞中介导稳健的基因组编辑。图4的数据进一步证实这一结论。图4A通过T7EI分析显示AaC2c1在小鼠Apob基因座上诱导插入缺失。三角形表示切割片段。图4B为相对应Sanger测序结果。图4C通过T7EI分析显示AaC2c1靶向人CD34基因。图4D为相对应Sanger测序结果。图4E显示AaC2c1靶向人内源性RNF2基因的额外靶点。图4F为相对应Sanger测序结果。图4G显示AaC2c1靶向人内源性RNF2基因的额外靶点。图4H为相对应Sanger测序结果。

表2、用于靶基因扩增和T7EI测定的引物序列。

表3、哺乳动物基因组靶前间隔区序列。

实施例3、sgRNA优化

本实施例对指导AaC2c1基因组编辑的单向导RNA(sgRNA)进行了优化。原始sgRNA为基于AaC2c1基因座中的tracrRNA以及A.acidoterrestris的假定crRNA构建的sgRNA1。

图6A示出了在sgRNA1的茎环3进行5’截短的不同版本的sgRNA支架序列结构。图5A示出sgRNA的茎环3的截短和破坏在体内消除了AaC2c1对人内源基因RNF2靶位点8的靶向活性。图6B示出sgRNA的茎环3的截短和破坏在体外消除了AaC2c1靶向活性。图6C示出sgRNA的茎环3的截短和破坏在体内消除了AaC2c1对小鼠内源基因Nrl靶位点1的靶向活性。

图6D示出了在sgRNA1的茎环2和1进行截短和优化的不同版本的sgRNA支架序列结构。图5B示出sgRNA1的茎环2的截短破坏体内AaC2c1活性，而茎环1的截短保留AaC2c1内切核酸酶活性。图5C示出进一步优化茎环1上的AaC2c1 sgRNA和体内功能验证。图6E和F为对应的体外和小鼠实验获得的类似结果。

图5D和E示出使用不同直系同源sgRNA(图6G)的AaC2c1靶向内源性人RNF2基因的结果。T7EI分析表明AaC2c1能够与A.acidiphilus、A.kakegawensis和A.macrosporangiidus的sgRNA在体内发挥功能。图5E右幅的结果显示来自A.kakegawensis的AkC2c1蛋白也能在哺乳动物细胞中实现基因组编辑。图6J-M为对应的体外和小鼠实验获得的结果。

图6H和I分别示出Alicyclobacillus acidiphilus(NBRC 100859)、Alicyclobacillus kakegawensis(NBRC 103104)、Alicyclobacillus macrosporangiidus(菌株DSM 17980)、Bacillus sp.(NSP2.1)的sgRNA和C2c1蛋白质序列的进化关系。

表4、AaC2c1单向导RNA(sgRNA)的序列优化。改造了来自Alicyclobacillusacidiphilus的V-B型CRISPR基因座的单嵌合向导RNA(sgRNA)。斜体和粗体分别突出了tracrRNA和crRNA序列。3’端的连续的N代表20nt前间区序列(靶序列)。由于A.acidiphilusCRISPR基因座中没有直接重复序列(DR)阵列，我们采用了直接A.acidoterrestris的V-BCRISRP基因座的crRNA序列，并用A.acidiphilus V-B CRISPR基因座的tracrRNA进行工程化改造。列出了来自原始sgRNA1的优化的sgRNA的序列。N独立地选自A、T、G、C。

实施例4、脱靶分析和预测

图7A的实验结果显示了前间区长度对体内AaC2c1靶向活性的影响。结果显示18个核苷酸以下的前间区序列无法有效切割。

图7B显示了sgRNA-靶DNA单个错配对体内AaC2c1靶向活性的影响。结果显示对靶序列5’端第7位的错配耐受。

图7C显示了sgRNA-靶DNA连续错配对体内AaC2c1靶向活性的影响。结果显示AaC2c1在体内对sgRNA-靶DNA连续错配不耐受。

图7D显示了由AaC2c1和携带不同前间区序列长度的sgRNA介导的内源性人RNF2基因破坏的效率。误差线表示平均值的标准误差(s.e.m)，n＝3。

基于图7的实验结果，对内源脱靶点进行了预测和分析。图8A示出了由人内源性RNF2基因靶位点8诱导的脱靶位点的T7EI分析。三角形标记预测的切割条带。注意，脱靶位点1在RNF2假基因座上，并且具有完全相同的间区序列和PAM序列。泳道下的符号“*”表示具有不一致的切割条带的脱靶位点。图8B示出脱靶位点1、18、26、27的代表性序列。似乎“*”表示的切割条带是由于PCR扩增造成。

表5、脱靶点分析。列出了人内源性RNF2基因靶位点8的预测的基因组脱靶位点。脱靶位点的PAM序列用下划线表示，用斜体突出显示错配。

实施例5 AaC2c1中DNA切割所必需的催化残基

图9A是具有催化残基突变的AaC2c1结构域的示意图。基于A.acidoterrestrisC2c1(AacC2c1)(PDB：5WQE)的序列同源性鉴定催化残基。

图9B示出催化残基突变的AaC2c1变体的体外DNA切割分析。图9C示出通过T7EI分析AaC2c1催化残基突变对体内DNA靶向的影响。结果显示R785A突变在体内或体外均消除了DNA切割活性。

图9D(上图)使用定点突变的AaC2c1体外切割Nb.BtsI-切口的dsDNA片段的示意图。(下图)AaC2c1变体(R785A)的体外无法切割切口dsDNA。可见，包含R785A的AaC2c1变体为无内切酶活性变体。此类dC2c1变体可显著扩展AaC2c1的用途。

图10示出了AacC2c1、AaC2c1、AkC2c1、AmC2c1和BsC2c1的蛋白序列比对。AacC2c1、AaC2c1、AkC2c1、AmC2c1和BsC2c1氨基酸序列的多重序列比对显示高度保守的残基。严格相同的残基用红色背景突出显示，保守突变框出和红色字体突出显示。二级结构预测在对齐上方突出显示。α螺旋显示为卷曲符号，β链显示为箭头。严格的α转角显示为TTT和严格的β转角显示为TT。

序列信息：

SEQ IN NO:1AaC2c1 protein sequence

MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI

SEQ IN NO:2 C2c1 coding sequence from Alicyclobacillus acidiphilusNBRC 100859(GeneBank ID:NZ_BCQI01000053.1)

ATGGCCGTTAAATCCATGAAAGTGAAACTTCGCCTCGATAATATGCCGGAGATTCGGGCTGGTTTATGGAAACTCCATACGGAGGTCAACGCGGGGGTTCGATATTACACGGAATGGCTGAGTCTTCTGCGTCAAGAGAATTTGTATCGAAGAAGTCCGAATGGGGACGGAGAGCAAGAATGTTATAAGACTGCAGAAGAATGCAAAGCCGAATTGTTGGAGCGGCTGCGCGCGCGTCAAGTGGAGAATGGACACTGTGGTCCGGCGGGATCGGACGATGAATTGCTGCAGTTGGCTCGTCAACTTTATGAACTGTTGGTTCCGCAGGCGATAGGTGCGAAAGGCGATGCGCAGCAAATTGCGCGCAAGTTTTTGAGCCCCTTAGCCGACAAGGATGCAGTGGGTGGGCTTGGAATCGCGAAGGCGGGGAACAAACCGCGGTGGGTTCGCATGCGCGAAGCGGGAGAACCTGGCTGGGAAGAGGAGAAGGCGAAGGCTGAGGCGAGGAAATCTACGGATCGAACTGCGGATGTTTTGCGCGCGCTCGCGGATTTTGGGTTAAAGCCACTGATGCGCGTGTACACCGATTCTGACATGTCATCTGTTCAGTGGAAACCGCTTCGGAAGGGCCAAGCGGTTCGGACGTGGGACAGGGATATGTTCCAACAGGCCATCGAGCGGATGATGTCGTGGGAGTCGTGGAATCAGCGCGTTGGCGAAGCGTACGCGAAACTGGTAGAGCAAAAAAGTCGATTTGAGCAGAAGAACTTCGTCGGCCAGGAACATTTGGTTCAACTCGTCAATCAGTTGCAACAAGATATGAAAGAAGCATCGCACGGGCTCGAATCGAAAGAGCAAACCGCACATTATCTGACGGGACGGGCATTGCGCGGATCGGACAAAGTGTTTGAGAAGTGGGAGAAACTCGACCCTGATGCGCCATTCGATTTGTACGACACCGAAATCAAGAACGTGCAGAGACGTAACACGAGGCGATTCGGCTCACACGACTTGTTCGCGAAATTGGCGGAACCGAAGTATCAGGCCCTGTGGCGCGAAGATGCTTCGTTTCTCACGCGTTACGCGGTGTACAACAGCATCGTTCGCAAACTGAATCACGCCAAAATGTTCGCGACGTTTACTTTACCGGATGCAACTGCGCATCCGATTTGGACTCGCTTTGATAAATTGGGCGGGAATTTGCACCAGTACACCTTTTTGTTCAACGAATTCGGAGAAGGCAGGCACGCGATTCGTTTTCAAAAGCTGTTGACCGTCGAAGATGGTGTCGCAAAAGAAGTTGATGATGTAACGGTGCCCATTTCCATGTCAGCGCAATTGGATGATCTGCTGCCAAGAGATCCCCATGAACTGGTTGCACTATATTTTCAAGATTATGGAGCCGAACAGCATTTGGCGGGTGAATTCGGTGGCGCGAAGATTCAGTACCGTCGGGATCAACTAAATCATTTGCACGCACGCAGAGGGGCGAGGGATGTTTATCTCAATCTCAGCGTACGTGTGCAGAGCCAGTCTGAGGCACGGGGAGAACGCCGCCCGCCGTATGCCGCAGTATTCCGCCTGGTCGGGGACAACCATCGTGCGTTTGTCCATTTTGATAAATTATCGGATTATCTTGCGGAACATCCGGATGATGGGAAGCTTGGATCGGAGGGGCTGCTTTCCGGGCTACGGGTGATGAGTGTCGATCTCGGCCTTCGCACATCGGCATCGATTTCCGTTTTTCGCGTTGCCCGGAAGGACGAGTTGAAGCCGAACTCGGAAGGGCGTGTCCCATTCTGTTTTCCGATTGAAGGGAATGAAAATCTCGTCGCGGTTCATGAACGATCTCAACTTTTGAAGCTGCCTGGCGAAACAGAGTCAAAGGACCTGCGGGCTATCCGAGAAGAGCGCCAACGGACCCTGCGGCAGCTGCGGACGCAACTGGCGTATTTGCGGCTGCTCGTGCGGTGTGGGTCGGAAGATGTGGGACGGCGTGAACGGAGTTGGGCAAAGCTTATTGAGCAGCCCATGGATGCCAATCAGATGACACCGGATTGGCGCGAAGCCTTTGAAGACGAACTTCAGAAGCTTAAGTCACTCTATGGTATCTGTGGCGACAGGGAATGGACGGAGGCTGTCTACGAGAGCGTTCGCCGCGTGTGGCGCCATATGGGCAAACAGGTTCGCGATTGGCGAAAGGACGTACGGAGTGGAGAGCGGCCGAAGATTCGCGGCTATCAAAAAGATGTGGTCGGCGGAAATTCGATTGAGCAAATTGAGTATCTTGAACGGCAGTACAAGTTTCTCAAGAGTTGGAGCTTTTTTGGCAAGGTATCGGGACAAGTGATTCGTGCGGAGAAGGGATCCCGATTTGCGATCACGCTGCGTGAACACATTGATCACGCGAAGGAAGACCGGCTGAAGAAATTGGCGGATCGCATCATTATGGAGGCGCTCGGTTATGTGTACGCGTTGGATGATGAGCGCGGCAAAGGAAAGTGGGTTGCGAAGTATCCGCCGTGCCAGCTCATCCTGCTGGAGGAATTGAGCGAGTACCAGTTCAATAACGACAGGCCTCCGAGTGAAAACAATCAGTTGATGCAATGGAGCCATCGCGGCGTGTTCCAGGAGTTGTTGAATCAGGCCCAAGTCCACGATTTACTCGTTGGGACGATGTATGCAGCGTTCTCGTCGCGATTCGACGCGCGAACCGGGGCACCGGGTATCCGCTGTCGCAGGGTACCGGCGCGTTGCGCTCGGGAGCAGAATCCAGAACCATTTCCTTGGTGGCTGAACAAGTTTGTGGCGGAACACAAGTTGGATGGTTGTCCCTTACGGGCAGACGACCTCATCCCCACGGGTGAAGGAGAGTTTTTTGTCTCGCCGTTCAGTGCGGAGGAAGGGGACTTTCATCAGATTCATGCCGACCTGAATGCGGCGCAAAACCTGCAGCGGCGACTCTGGTCTGATTTTGATATCAGTCAAATTCGGTTGCGGTGTGATTGGGGTGAAGTGGACGGTGAACCCGTTCTGATCCCAAGGACCACAGGAAAGCGAACGGCGGATTCATATGGCAACAAGGTGTTTTATACCAAAACAGGTGTCACCTATTATGAGCGAGAGCGGGGGAAGAAGCGGAGAAAGGTTTTCGCGCAAGAGGAATTGTCGGAGGAAGAGGCGGAGTTGCTTGTGGAAGCAGACGAGGCAAGGGAGAAATCGGTCGTTTTGATGCGTGATCCGTCCGGCATTATCAATCGTGGCGACTGGACCAGGCAAAAGGAGTTTTGGTCGATGGTGAACCAGCGGATTGAAGGATACTTGGTCAAGCAGATTCGCTCGCGCGTTCGCTTACAAGAAAGTGCGTGTGAAAACACGGGGGATATT

SEQ IN NO:3 Humanized AaC2c1 coding sequence

ATGGCCGTGAAGAGCATGAAGGTGAAGCTGCGCCTGGACAACATGCCCGAGATCCGCGCCGGCCTGTGGAAGCTGCACACCGAGGTGAACGCCGGCGTGCGCTACTACACCGAGTGGCTGAGCCTGCTGCGCCAGGAGAACCTGTACCGCCGCAGCCCCAACGGCGACGGCGAGCAGGAGTGCTACAAGACCGCCGAGGAGTGCAAGGCCGAGCTGCTGGAGCGCCTGCGCGCCCGCCAGGTGGAGAACGGCCACTGCGGCCCCGCCGGCAGCGACGACGAGCTGCTGCAGCTGGCCCGCCAGCTGTACGAGCTGCTGGTGCCCCAGGCCATCGGCGCCAAGGGCGACGCCCAGCAGATCGCCCGCAAGTTCCTGAGCCCCCTGGCCGACAAGGACGCCGTGGGCGGCCTGGGCATCGCCAAGGCCGGCAACAAGCCCCGCTGGGTGCGCATGCGCGAGGCCGGCGAGCCCGGCTGGGAGGAGGAGAAGGCCAAGGCCGAGGCCCGCAAGAGCACCGACCGCACCGCCGACGTGCTGCGCGCCCTGGCCGACTTCGGCCTGAAGCCCCTGATGCGCGTGTACACCGACAGCGACATGAGCAGCGTGCAGTGGAAGCCCCTGCGCAAGGGCCAGGCCGTGCGCACCTGGGACCGCGACATGTTCCAGCAGGCCATCGAGCGCATGATGAGCTGGGAGAGCTGGAACCAGCGCGTGGGCGAGGCCTACGCCAAGCTGGTGGAGCAGAAGAGCCGCTTCGAGCAGAAGAACTTCGTGGGCCAGGAGCACCTGGTGCAGCTGGTGAACCAGCTGCAGCAGGACATGAAGGAGGCCAGCCACGGCCTGGAGAGCAAGGAGCAGACCGCCCACTACCTGACCGGCCGCGCCCTGCGCGGCAGCGACAAGGTGTTCGAGAAGTGGGAGAAGCTGGACCCCGACGCCCCCTTCGACCTGTACGACACCGAGATCAAGAACGTGCAGCGCCGCAACACCCGCCGCTTCGGCAGCCACGACCTGTTCGCCAAGCTGGCCGAGCCCAAGTACCAGGCCCTGTGGCGCGAGGACGCCAGCTTCCTGACCCGCTACGCCGTGTACAACAGCATCGTGCGCAAGCTGAACCACGCCAAGATGTTCGCCACCTTCACCCTGCCCGACGCCACCGCCCACCCCATCTGGACCCGCTTCGACAAGCTGGGCGGCAACCTGCACCAGTACACCTTCCTGTTCAACGAGTTCGGCGAGGGCCGCCACGCCATCCGCTTCCAGAAGCTGCTGACCGTGGAGGACGGCGTGGCCAAGGAGGTGGACGACGTGACCGTGCCCATCAGCATGAGCGCCCAGCTGGACGACCTGCTGCCCCGCGACCCCCACGAGCTGGTGGCCCTGTACTTCCAGGACTACGGCGCCGAGCAGCACCTGGCCGGCGAGTTCGGCGGCGCCAAGATCCAGTACCGCCGCGACCAGCTGAACCACCTGCACGCCCGCCGCGGCGCCCGCGACGTGTACCTGAACCTGAGCGTGCGCGTGCAGAGCCAGAGCGAGGCCCGCGGCGAGCGCCGCCCCCCCTACGCCGCCGTGTTCCGCCTGGTGGGCGACAACCACCGCGCCTTCGTGCACTTCGACAAGCTGAGCGACTACCTGGCCGAGCACCCCGACGACGGCAAGCTGGGCAGCGAGGGCCTGCTGAGCGGCCTGCGCGTGATGAGCGTGGACCTGGGCCTGCGCACCAGCGCCAGCATCAGCGTGTTCCGCGTGGCCCGCAAGGACGAGCTGAAGCCCAACAGCGAGGGCCGCGTGCCCTTCTGCTTCCCCATCGAGGGCAACGAGAACCTGGTGGCCGTGCACGAGCGCAGCCAGCTGCTGAAGCTGCCCGGCGAGACCGAGAGCAAGGACCTGCGCGCCATCCGCGAGGAGCGCCAGCGCACCCTGCGCCAGCTGCGCACCCAGCTGGCCTACCTGCGCCTGCTGGTGCGCTGCGGCAGCGAGGACGTGGGCCGCCGCGAGCGCAGCTGGGCCAAGCTGATCGAGCAGCCCATGGACGCCAACCAGATGACCCCCGACTGGCGCGAGGCCTTCGAGGACGAGCTGCAGAAGCTGAAGAGCCTGTACGGCATCTGCGGCGACCGCGAGTGGACCGAGGCCGTGTACGAGAGCGTGCGCCGCGTGTGGCGCCACATGGGCAAGCAGGTGCGCGACTGGCGCAAGGACGTGCGCAGCGGCGAGCGCCCCAAGATCCGCGGCTACCAGAAGGACGTGGTGGGCGGCAACAGCATCGAGCAGATCGAGTACCTGGAGCGCCAGTACAAGTTCCTGAAGAGCTGGAGCTTCTTCGGCAAGGTGAGCGGCCAGGTGATCCGCGCCGAGAAGGGCAGCCGCTTCGCCATCACCCTGCGCGAGCACATCGACCACGCCAAGGAGGACCGCCTGAAGAAGCTGGCCGACCGCATCATCATGGAGGCCCTGGGCTACGTGTACGCCCTGGACGACGAGCGCGGCAAGGGCAAGTGGGTGGCCAAGTACCCCCCCTGCCAGCTGATCCTGCTGGAGGAGCTGAGCGAGTACCAGTTCAACAACGACCGCCCCCCCAGCGAGAACAACCAGCTGATGCAGTGGAGCCACCGCGGCGTGTTCCAGGAGCTGCTGAACCAGGCCCAGGTGCACGACCTGCTGGTGGGCACCATGTACGCCGCCTTCAGCAGCCGCTTCGACGCCCGCACCGGCGCCCCCGGCATCCGCTGCCGCCGCGTGCCCGCCCGCTGCGCCCGCGAGCAGAACCCCGAGCCCTTCCCCTGGTGGCTGAACAAGTTCGTGGCCGAGCACAAGCTGGACGGCTGCCCCCTGCGCGCCGACGACCTGATCCCCACCGGCGAGGGCGAGTTCTTCGTGAGCCCCTTCAGCGCCGAGGAGGGCGACTTCCACCAGATCCACGCCGACCTGAACGCCGCCCAGAACCTGCAGCGCCGCCTGTGGAGCGACTTCGACATCAGCCAGATCCGCCTGCGCTGCGACTGGGGCGAGGTGGACGGCGAGCCCGTGCTGATCCCCCGCACCACCGGCAAGCGCACCGCCGACAGCTACGGCAACAAGGTGTTCTACACCAAGACCGGCGTGACCTACTACGAGCGCGAGCGCGGCAAGAAGCGCCGCAAGGTGTTCGCCCAGGAGGAGCTGAGCGAGGAGGAGGCCGAGCTGCTGGTGGAGGCCGACGAGGCCCGCGAGAAGAGCGTGGTGCTGATGCGCGACCCCAGCGGCATCATCAACCGCGGCGACTGGACCCGCCAGAAGGAGTTCTGGAGCATGGTGAACCAGCGCATCGAGGGCTACCTGGTGAAGCAGATCCGCAGCCGCGTGCGCCTGCAGGAGAGCGCCTGCGAGAACACCGGCGACATC

SEQ IN NO:4 dAaC2c1 protein sequence

MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIAAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI

SEQ IN NO:5 AkC2c1 protein sequence

MAVKSIKVKLRLSECPDILAGMWQLHRATNAGVRYYTEWVSLMRQEILYSRGPDGGQQCYMTAEDCQRELLRRLRNRQLHNGRQDQPGTDADLLAISRRLYEILVLQSIGKRGDAQQIASSFLSPLVDPNSKGGRGEAKSGRKPAWQKMRDQGDPRWVAAREKYEQRKAVDPSKEILNSLDALGLRPLFAVFTETYRSGVDWKPLGKSQGVRTWDRDMFQQALERLMSWESWNRRVGEEYARLFQQKMKFEQEHFAEQSHLVKLARALEADMRAASQGFEAKRGTAHQITRRALRGADRVFEIWKSIPEEALFSQYDEVIRQVQAEKRRDFGSHDLFAKLAEPKYQPLWRADETFLTRYALYNGVLRDLEKARQFATFTLPDACVNPIWTRFESSQGSNLHKYEFLFDHLGPGRHAVRFQRLLVVESEGAKERDSVVVPVAPSGQLDKLVLREEEKSSVALHLHDTARPDGFMAEWAGAKLQYERSTLARKARRDKQGMRSWRRQPSMLMSAAQMLEDAKQAGDVYLNISVRVKSPSEVRGQRRPPYAALFRIDDKQRRVTVNYNKLSAYLEEHPDKQIPGAPGLLSGLRVMSVDLGLRTSASISVFRVAKKEEVEALGDGRPPHYYPIHGTDDLVAVHERSHLIQMPGETETKQLRKLREERQAVLRPLFAQLALLRLLVRCGAADERIRTRSWQRLTKQGREFTKRLTPSWREALELELTRLEAYCGRVPDDEWSRIVDRTVIALWRRMGKQVRDWRKQVKSGAKVKVKGYQLDVVGGNSLAQIDYLEQQYKFLRRWSFFARASGLVVRADRESHFAVALRQHIENAKRDRLKKLADRILMEALGYVYEASGPREGQWTAQHPPCQLIILEELSAYRFSDDRPPSENSKLMAWGHRGILEELVNQAQVHDVLVGTVYAAFSSRFDARTGAPGVRCRRVPARFVGATVDDSLPLWLTEFLDKHRLDKNLLRPDDVIPTGEGEFLVSPCGEEAARVRQVHADINAAQNLQRRLWQNFDITELRLRCDVKMGGEGTVLVPRVNNARAKQLFGKKVLVSQDGVTFFERSQTGGKPHSEKQTDLTDKELELIAEADEARAKSVVLFRDPSGHIGKGHWIRQREFWSLVKQRIESHTAERIRVRGVGSSLD

SEQ IN NO:6 C2c1 coding sequence from AlicyclobacilluskakegawensisNBRC 103104(GeneBank ID:NZ_BCRP01000027.1)

ATGGCTGTAAAATCTATTAAGGTCAAGTTGCGGTTGTCAGAGTGCCCAGACATCCTGGCTGGCATGTGGCAGCTCCACCGGGCGACAAACGCGGGGGTTCGATACTACACAGAATGGGTGAGCTTGATGCGCCAGGAGATCCTCTACTCGCGCGGGCCGGACGGCGGTCAGCAGTGCTACATGACCGCGGAGGATTGCCAACGCGAGCTGCTGCGGCGGCTGCGCAATCGCCAGCTCCATAATGGCCGCCAGGACCAGCCCGGTACAGATGCAGACCTACTGGCAATCAGTAGGAGACTCTATGAAATTCTGGTCCTGCAATCCATCGGCAAGAGGGGGGACGCCCAGCAGATAGCGAGCAGCTTCCTCAGCCCTCTGGTCGATCCGAACTCCAAAGGTGGGCGGGGTGAAGCCAAGTCCGGTCGAAAGCCTGCGTGGCAGAAGATGCGCGATCAAGGTGATCCTCGTTGGGTTGCGGCAAGGGAAAAGTACGAGCAACGCAAGGCGGTTGATCCATCTAAAGAAATCCTGAATTCATTGGACGCCCTGGGTCTCAGGCCGCTATTTGCGGTCTTCACGGAGACCTACAGGTCGGGAGTCGATTGGAAGCCGCTCGGCAAAAGCCAAGGTGTGCGCACATGGGACCGTGACATGTTCCAGCAGGCCCTCGAGCGCCTGATGTCCTGGGAGTCTTGGAACCGCCGCGTGGGCGAGGAGTACGCCCGTCTTTTCCAACAGAAGATGAAGTTCGAGCAGGAACACTTCGCGGAACAGTCTCATCTGGTTAAACTGGCGCGCGCGTTGGAGGCGGACATGCGCGCCGCTTCACAGGGCTTCGAAGCCAAACGCGGCACTGCGCACCAGATCACAAGACGGGCGCTGCGCGGGGCGGATCGGGTATTTGAGATATGGAAGAGTATTCCAGAGGAAGCTTTGTTCTCCCAATATGATGAAGTGATTCGACAGGTCCAGGCGGAGAAAAGACGGGACTTTGGGTCCCATGATCTGTTCGCCAAGTTGGCGGAACCGAAGTATCAGCCCCTGTGGCGCGCCGACGAGACCTTTTTGACGCGCTACGCCCTGTACAATGGAGTCTTGCGGGATTTAGAGAAAGCGAGACAGTTCGCCACGTTCACGCTGCCGGATGCCTGCGTCAATCCAATTTGGACGCGTTTTGAAAGCAGCCAGGGGAGCAATCTGCATAAATATGAATTTCTCTTTGACCACCTGGGACCCGGACGGCACGCGGTGCGTTTTCAGAGGCTGCTGGTGGTAGAGAGCGAAGGTGCGAAGGAGAGGGACTCGGTGGTGGTGCCAGTCGCGCCATCCGGGCAACTGGACAAGCTTGTCCTGCGTGAAGAAGAGAAATCAAGCGTTGCCTTACACCTTCATGACACAGCCCGGCCGGACGGTTTCATGGCAGAATGGGCGGGGGCGAAGCTGCAATATGAACGCAGTACCTTGGCACGCAAGGCGCGCCGTGATAAGCAAGGGATGCGGTCGTGGCGTAGGCAGCCGTCTATGCTGATGTCTGCGGCACAGATGTTGGAAGACGCAAAGCAAGCCGGAGACGTGTATCTGAACATCAGTGTGCGTGTGAAGAGCCCCAGTGAAGTCCGCGGCCAGAGGCGGCCTCCTTACGCGGCCCTGTTTCGGATAGACGATAAACAGCGGCGTGTGACCGTAAATTACAACAAACTGTCGGCTTACCTAGAGGAACATCCGGATAAACAGATTCCAGGCGCACCTGGGCTCCTTTCCGGTCTTCGGGTAATGAGCGTCGACCTTGGGTTGCGCACCTCCGCTTCCATCAGTGTGTTCCGTGTGGCAAAGAAGGAAGAGGTGGAAGCGCTGGGCGACGGTCGTCCCCCTCATTATTATCCCATCCATGGCACTGACGACCTGGTGGCGGTGCACGAGCGCTCACATTTGATTCAAATGCCAGGCGAAACCGAAACGAAACAGCTGCGCAAGTTGCGTGAGGAACGGCAGGCTGTCTTGCGTCCACTGTTCGCTCAACTGGCCCTGCTACGGTTGCTGGTCCGGTGTGGTGCAGCCGACGAGCGGATTCGTACACGCAGTTGGCAGCGCTTGACGAAGCAGGGGCGTGAGTTTACGAAGCGATTGACGCCGTCCTGGCGGGAGGCGTTGGAATTGGAGTTAACTCGCTTGGAGGCGTATTGCGGTAGGGTTCCAGACGACGAATGGAGCCGCATCGTTGATAGAACGGTAATCGCTTTGTGGCGTCGCATGGGAAAACAGGTGCGCGATTGGCGTAAACAGGTGAAATCCGGTGCGAAAGTCAAGGTCAAGGGGTACCAGCTGGATGTAGTCGGCGGCAACTCGCTGGCGCAAATCGATTATCTCGAACAGCAGTACAAGTTTCTGCGGCGCTGGAGCTTCTTTGCGCGGGCCAGCGGTCTGGTTGTGCGGGCGGATCGCGAATCGCATTTCGCAGTCGCTTTACGCCAGCACATTGAAAATGCCAAGCGGGATCGGCTGAAAAAGTTGGCGGACCGCATCCTGATGGAGGCGCTGGGCTACGTGTATGAAGCTTCCGGGCCGCGCGAAGGACAGTGGACGGCGCAGCATCCGCCGTGCCAGTTGATTATCTTGGAGGAATTAAGCGCGTACCGGTTCAGTGACGACCGTCCGCCGAGCGAGAACAGTAAATTGATGGCTTGGGGGCATCGGGGAATTTTGGAGGAGTTGGTCAACCAAGCACAGGTTCACGACGTGTTAGTGGGGACGGTGTACGCCGCTTTTTCGTCCCGCTTCGATGCCCGCACAGGCGCCCCTGGAGTGCGCTGCCGCCGGGTACCCGCACGTTTTGTCGGCGCGACGGTGGATGATTCACTGCCGCTTTGGCTCACAGAGTTTCTGGACAAGCACAGGCTGGATAAAAACCTCCTGCGGCCTGACGATGTGATTCCGACCGGAGAGGGTGAGTTTTTGGTTTCTCCGTGTGGCGAGGAAGCGGCTCGGGTTCGGCAGGTGCACGCCGACATCAACGCGGCGCAAAACCTGCAGCGGAGGCTGTGGCAGAATTTTGACATTACAGAGCTGCGTCTGCGCTGCGATGTGAAGATGGGTGGCGAAGGAACGGTGCTGGTACCAAGGGTCAACAACGCCCGCGCCAAACAACTGTTTGGAAAGAAGGTGTTGGTTTCGCAAGATGGCGTGACGTTCTTTGAACGCAGTCAAACAGGTGGGAAACCGCACAGCGAGAAGCAGACGGATTTGACCGACAAGGAACTAGAACTAATTGCGGAGGCGGACGAGGCGCGCGCCAAGTCGGTCGTCCTCTTTCGCGATCCGTCCGGGCACATCGGCAAGGGCCACTGGATTCGCCAAAGGGAGTTTTGGTCGTTGGTGAAGCAAAGGATTGAATCGCACACGGCGGAAAGGATACGGGTTCGCGGCGTCGGTAGCTCGCTGGAT

SEQ IN NO:7 Humanized AkC2c1 coding sequence

ATGGCCGTGAAGAGCATCAAGGTGAAGCTGCGCCTGAGCGAGTGCCCCGACATCCTGGCCGGCATGTGGCAGCTGCACCGCGCCACCAACGCCGGCGTGCGCTACTACACCGAGTGGGTGAGCCTGATGCGCCAGGAGATCCTGTACAGCCGCGGCCCCGACGGCGGCCAGCAGTGCTACATGACCGCCGAGGACTGCCAGCGCGAGCTGCTGCGCCGCCTGCGCAACCGCCAGCTGCACAACGGCCGCCAGGACCAGCCCGGCACCGACGCCGACCTGCTGGCCATCAGCCGCCGCCTGTACGAGATCCTGGTGCTGCAGAGCATCGGCAAGCGCGGCGACGCCCAGCAGATCGCCAGCAGCTTCCTGAGCCCCCTGGTGGACCCCAACAGCAAGGGCGGCCGCGGCGAGGCCAAGAGCGGCCGCAAGCCCGCCTGGCAGAAGATGCGCGACCAGGGCGACCCCCGCTGGGTGGCCGCCCGCGAGAAGTACGAGCAGCGCAAGGCCGTGGACCCCAGCAAGGAGATCCTGAACAGCCTGGACGCCCTGGGCCTGCGCCCCCTGTTCGCCGTGTTCACCGAGACCTACCGCAGCGGCGTGGACTGGAAGCCCCTGGGCAAGAGCCAGGGCGTGCGCACCTGGGACCGCGACATGTTCCAGCAGGCCCTGGAGCGCCTGATGAGCTGGGAGAGCTGGAACCGCCGCGTGGGCGAGGAGTACGCCCGCCTGTTCCAGCAGAAGATGAAGTTCGAGCAGGAGCACTTCGCCGAGCAGAGCCACCTGGTGAAGCTGGCCCGCGCCCTGGAGGCCGACATGCGCGCCGCCAGCCAGGGCTTCGAGGCCAAGCGCGGCACCGCCCACCAGATCACCCGCCGCGCCCTGCGCGGCGCCGACCGCGTGTTCGAGATCTGGAAGAGCATCCCCGAGGAGGCCCTGTTCAGCCAGTACGACGAGGTGATCCGCCAGGTGCAGGCCGAGAAGCGCCGCGACTTCGGCAGCCACGACCTGTTCGCCAAGCTGGCCGAGCCCAAGTACCAGCCCCTGTggcgcgccGACGAGACCTTCCTGACCCGCTACGCCCTGTACAACGGCGTGCTGCGCGACCTGGAGAAGGCCCGCCAGTTCGCCACCTTCACCCTGCCCGACGCCTGCGTGAACCCCATCTGGACCCGCTTCGAGAGCAGCCAGGGCAGCAACCTGCACAAGTACGAGTTCCTGTTCGACCACCTGGGCCCCGGCCGCCACGCCGTGCGCTTCCAGCGCCTGCTGGTGGTGGAGAGCGAGGGCGCCAAGGAGCGCGACAGCGTGGTGGTGCCCGTGGCCCCCAGCGGCCAGCTGGACAAGCTGGTGCTGCGCGAGGAGGAGAAGAGCAGCGTGGCCCTGCACCTGCACGACACCGCCCGCCCCGACGGCTTCATGGCCGAGTGGGCCGGCGCCAAGCTGCAGTACGAGCGCAGCACCCTGGCCCGCAAGGCCCGCCGCGACAAGCAGGGCATGCGCAGCTGGCGCCGCCAGCCCAGCATGCTGATGAGCGCCGCCCAGATGCTGGAGGACGCCAAGCAGGCCGGCGACGTGTACCTGAACATCAGCGTGCGCGTGAAGAGCCCCAGCGAGGTGCGCGGCCAGCGCCGCCCCCCCTACGCCGCCCTGTTCCGCATCGACGACAAGCAGCGCCGCGTGACCGTGAACTACAACAAGCTGAGCGCCTACCTGGAGGAGCACCCCGACAAGCAGATCCCCGGCGCCCCCGGCCTGCTGAGCGGCCTGCGCGTGATGAGCGTGGACCTGGGCCTGCGCACCAGCGCCAGCATCAGCGTGTTCCGCGTGGCCAAGAAGGAGGAGGTGGAGGCCCTGGGCGACGGCCGCCCCCCCCACTACTACCCCATCCACGGCACCGACGACCTGGTGGCCGTGCACGAGCGCAGCCACCTGATCCAGATGCCCGGCGAGACCGAGACCAAGCAGCTGCGCAAGCTGCGCGAGGAGCGCCAGGCCGTGCTGCGCCCCCTGTTCGCCCAGCTGGCCCTGCTGCGCCTGCTGGTGCGCTGCGGCGCCGCCGACGAGCGCATCCGCACCCGCAGCTGGCAGCGCCTGACCAAGCAGGGCCGCGAGTTCACCAAGCGCCTGACCCCCAGCTGGCGCGAGGCCCTGGAGCTGGAGCTGACCCGCCTGGaggcctACTGCGGCCGCGTGCCCGACGACGAGTGGAGCCGCATCGTGGACCGCACCGTGATCGCCCTGTGGCGCCGCATGGGCAAGCAGGTGCGCGACTGGCGCAAGCAGGTGAAGAGCGGCGCCAAGGTGAAGGTGAAGGGCTACCAGCTGGACGTGGTGGGCGGCAACAGCCTGGCCCAGATCGACTACCTGGAGCAGCAGTACAAGTTCCTGCGCCGCTGGAGCTTCTTCGCCCGCGCCAGCGGCCTGGTGGTGCGCGCCGACCGCGAGAGCCACTTCGCCGTGGCCCTGCGCCAGCACATCGAGAACGCCAAGCGCGACCGCCTGAAGAAGCTGGCCGACCGCATCCTGATGGAGGCCCTGGGCTACGTGTACGAGGCCAGCGGCCCCCGCGAGGGCCAGTGGACCGCCCAGCACCCCCCCTGCCAGCTGATCATCCTGGAGGAGCTGAGCGCCTACCGCTTCAGCGACGACCGCCCCCCCAGCGAGAACAGCAAGCTGATGGCCTGGGGCCACCGCGGCATCCTGGAGGAGCTGGTGAACCAGGCCCAGGTGCACGACGTGCTGGTGGGCACCGTGTACGCCGCCTTCAGCAGCCGCTTCGACGCCCGCACCGGCGCCCCCGGCGTGCGCTGCCGCCGCGTGCCCGCCCGCTTCGTGGGCGCCACCGTGGACGACAGCCTGCCCCTGTGGCTGACCGAGTTCCTGGACAAGCACCGCCTGGACAAGAACCTGCTGCGCCCCGACGACGTGATCCCCACCGGCGAGGGCGAGTTCCTGGTGAGCCCCTGCGGCGAGGAGGCCGCCCGCGTGCGCCAGGTGCACGCCGACATCAACGCCGCCCAGAACCTGCAGCGCCGCCTGTGGCAGAACTTCGACATCACCGAGCTGCGCCTGCGCTGCGACGTGAAGATGGGCGGCGAGGGCACCGTGCTGGTGCCCCGCGTGAACAACGCCCGCGCCAAGCAGCTGTTCGGCAAGAAGGTGCTGGTGAGCCAGGACGGCGTGACCTTCTTCGAGCGCAGCCAGACCGGCGGCAAGCCCCACAGCGAGAAGCAGACCGACCTGACCGACAAGGAGCTGGAGCTGATCGCCGAGGCCGACGAGGCCCGCGCCAAGAGCGTGGTGCTGTTCCGCGACCCCAGCGGCCACATCGGCAAGGGCCACTGGATCCGCCAGCGCGAGTTCTGGAGCCTGGTGAAGCAGCGCATCGAGAGCCACACCGCCGAGCGCATCCGCGTGCGCGGCGTGGGCAGCAGCCTGGAC

SEQ IN NO:8 pCAG-2AeGFP partial sequence

(CAG-NLS-XmaI-NheI-NLS-T2A-eGFP-SV40)

gacattgattattgactagttattaatagtaatcaattacggggtcattagttcatagcccatatatggagttccGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGACTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGGTCGAGGTGAGCCCCACGTTCTGCTTCACTCTCCCCATCTCCCCCCCCTCCCCACCCCCAATTTTGTATTTATTTATTTTTTAATTATTTTGTGCAGCGATGGGGGCGGGGGGGGGGGGGGCGCGCGCCAGGCGGGGCGGGGCGGGGCGAGGGGCGGGGCGGGGCGAGGCGGAGAGGTGCGGCGGCAGCCAATCAGAGCGGCGCGCTCCGAAAGTTTCCTTTTATGGCGAGGCGGCGGCGGCGGCGGCCCTATAAAAAGCGAAGCGCGCGGCGGGCGGGAGTCGCTGCGTTGCCTTCGCCCCGTGCCCCGCTCCGCGCCGCCTCGCGCCGCCCGCCCCGGCTCTGACTGACCGCGTTACTCCCACAGGTGAGCGGGCGGGACGGCCCTTCTCCTCCGGGCTGTAATTAGCGCTTGGTTTAATGACGGCTCGTTTCTTTTCTGTGGCTGCGTGAAAGCCTTAAAGGGCTCCGGGAGGGCCCTTTGTGCGGGGGGGAGCGGCTCGGGGGGTGCGTGCGTGTGTGTGTGCGTGGGGAGCGCCGCGTGCGGCCCGCGCTGCCCGGCGGCTGTGAGCGCTGCGGGCGCGGCGCGGGGCTTTGTGCGCTCCGCGTGTGCGCGAGGGGAGCGCGGCCGGGGGCGGTGCCCCGCGGTGCGGGGGGGCTGCGAGGGGAACAAAGGCTGCGTGCGGGGTGTGTGCGTGGGGGGGTGAGCAGGGGGTGTGGGCGCGGCGGTCGGGCTGTAACCCCCCCCTGCACCCCCCTCCCCGAGTTGCTGAGCACGGCCCGGCTTCGGGTGCGGGGCTCCGTACGGGGCGTGGCGCGGGGCTCGCCGTGCCGGGCGGGGGGTGGCGGCAGGTGGGGGTGCCGGGCGGGGCGGGGCCGCCTCGGGCCGGGGAGGGCTCGGGGGAGGGGCGCGGCGGCCCCCGGAGCGCCGGCGGCTGTCGAGGCGCGGCGAGCCGCAGCCATTGCCTTTTATGGTAATCGTGCGAGAGGGCGCAGGGACTTCCTTTGTCCCAAATCTGTGCGGAGCCGAAATCTGGGAGGCGCCGCCGCACCCCCTCTAGCGGGCGCGGGGCGAAGCGGTGCGGCGCCGGCAGGAAGGAAATGGGCGGGGAGGGCCTTCGTGCGTCGCCGCGCCGCCGTCCCCTTCTCCATCTCCAGCCTCGGGGCTGTCCGCAGGGGGACGGCTGCCTTCGGGGGGGACGGGGCAGGGCGGGGTTCGGCTTCTGGCGTGTGACCGGCGGCTCTAGcGCCTCTGCTAACCATGTTCATGCCTTCTTCTTTTTCCTACAGctcctgggcaacgtgctggttattgtgctgtctcatcattttggcaaaGCTAGTGAATTCTAATACGACTCACTATAGGCCGCCACCATGCCCAAGAAGAAGAGGAAGGTTcccggggctagcCCAAAGAAGAAGAGGAAAGTCtctagaTACCCTTATGATGTTCCAGATTATGCCGGATACCCATACGATGTCCCTGACTATGCAGGCTCCTACCCTTATGACGTCCCAGACTACGCCggatccAGGTCCGGCGGCGGAGAGGGCAGAGGAAGTCTTCTAACATGCGGTGACGTGGAGGAGAATCCCGGCCCAATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAACGTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGtaactgcagcgcggggatctcatgctggagttcttcgcccaccccaacttgtttattgcagcttataatggttacaaataaagcaatagcatcacaaatttcacaaataaagcatttttttcactgcattctagttgtggtttgtccaaactcatcaatgtatctta

SEQ IN NO:9 BPK2104-ccdB partial sequence

(lacI-T7-lacO-NLS-XmaI-SpeI-His₁₀-terminator)

TCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCCAGGGTGGTTTTTCTTTTCACCAGTGAGACGGGCAACAGCTGATTGCCCTTCACCGCCTGGCCCTGAGAGAGTTGCAGCAAGCGGTCCACGCTGGTTTGCCCCAGCAGGCGAAAATCCTGTTTGATGGTGGTTAACGGCGGGATATAACATGAGCTGTCTTCGGTATCGTCGTATCCCACTACCGAGATGTCCGCACCAACGCGCAGCCCGGACTCGGTAATGGCGCGCATTGCGCCCAGCGCCATCTGATCGTTGGCAACCAGCATCGCAGTGGGAACGATGCCCTCATTCAGCATTTGCATGGTTTGTTGAAAACCGGACATGGCACTCCAGTCGCCTTCCCGTTCCGCTATCGGCTGAATTTGATTGCGAGTGAGATATTTATGCCAGCCAGCCAGACGCAGACGCGCCGAGACAGAACTTAATGGGCCCGCTAACAGCGCGATTTGCTGGTGACCCAATGCGACCAGATGCTCCACGCCCAGTCGCGTACCGTCTTCATGGGAGAAAATAATACTGTTGATGGGTGTCTGGTCAGAGACATCAAGAAATAACGCCGGAACATTAGTGCAGGCAGCTTCCACAGCAATGGCATCCTGGTCATCCAGCGGATAGTTAATGATCAGCCCACTGACGCGTTGCGCGAGAAGATTGTGCACCGCCGCTTTACAGGCTTCGACGCCGCTTCGTTCTACCATCGACACCACCACGCTGGCACCCAGTTGATCGGCGCGAGATTTAATCGCCGCGACAATTTGCGACGGCGCGTGCAGGGCCAGACTGGAGGTGGCAACGCCAATCAGCAACGACTGTTTGCCCGCCAGTTGTTGTGCCACGCGGTTGGGAATGTAATTCAGCTCCGCCATCGCCGCTTCCACTTTTTCCCGCGTTTTCGCAGAAACGTGGCTGGCCTGGTTCACCACGCGGGAAACGGTCTGATAAGAGACACCGGCATACTCTGCGACATCGTATAACGTTACTGGTTTCACATTCACCACCCTGAATTGACTCTCTTCCGGGCGCTATCATGCCATACCGCGAAAGGTTTTGCGCCATTCGATGGTGTCCGGGATCTCGACGCTCTCCCTTATGCGACTCCTGCATTAGGAAATTAATACGACTCACTATAGGGGAATTGTGAGCGGATAACAATTCCCCTGTAGAAATAATTTTGTTTAACTTTAATAAGGAGATATCATATGCCCAAGAAGAAGAGGAAGGTTcccggggctagtCATCACCATCACCACCATCATCACCATCACTAGGCGGCCGCATAATGCTTAAGTCGAACAGAAAGTAATCGTATTGTACACGGCCGCATAATCGAAATTAATacgactcactataggGAATTCGGTACCtgagaataactagcaTAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTTTTTGCTGAAACCTCAGGCATTT

SEQ IN NO:10 pUC19-U6 partial sequence

(U6-BasI-HindIII)

TGTAAAACGACGGCCAGTGAATTCGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGAGAGACCNNNNNNNGGTCTCANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTG

SEQ IN NO:11 pUC19-U6-AasgRNA1 partial sequence

(U6-AasgRNA1_scaffold-BasI-BasI-terminator)

TGTAAAACGACGGCCAGTGAATTCGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGGTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTTTCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGCTCGCTCAGTGTTCTGACGTCGGATCACTGAGCGAGCGATCTGAGAAGTGGCACAGAGACCGAGAGAGGGTCTCAttttttttAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTG

SEQ IN NO:12 pUC19-U6-AksgRNA partial sequence

(U6-AksgRNA1_scaffold-BasI-BasI-terminator)

TGTAAAACGACGGCCAGTGAATTCGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGtcgtctataGGACGGCGAGGACAACGGGAAGTGCCAATGTGCTCTTTCCAAGAGCAAACACCCCGTTGGCTTCAAGATGACCGCTCGCTCAGCGATCTGACAACGGATCGCTGAGCGAGCGGTCTGAGAAGTGGCACAGAGACCGAGAGAGGGTCTCAttttttttAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTG

SEQ IN NO:13 pUC19-U6-AmsgRNA partial sequence

(U6-AmsgRNA1_scaffold-BasI-BasI-terminator)

TGTAAAACGACGGCCAGTGAATTCGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGggaattgccgatctaTAGGACGGCAGATTCAACGGGATGTGCCAATGCACTCTTTCCAGGAGTGAACACCCCGTTGGCTTCAACATGATCGCCCGCTCAACGGTCCGATGTCGGATCGTTGAGCGGGCGATCTGAGAAGTGGCACAGAGACCGAGAGAGGGTCTCAttttttttAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTG

SEQ IN NO:14 pUC19-U6-BssgRNA partial sequence

(U6-BssgRNA1_scaffold-BasI-BasI-terminator)

TGTAAAACGACGGCCAGTGAATTCGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGCCATAAGTCGACTTACATATCCGTGCGTGTGCATTATGGGCCCATCCACAGGTCTATTCCCACGGATAATCACGACTTTCCACTAAGCTTTCGAATGTTCGAAAGCTTAGTGGAAAGCTTCGTGGTTAGCACAGAGACCGAGAGAGGGTCTCAttttttttAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTG

序列表

<110> 中国科学院动物研究所

<120> 基因组编辑系统和方法

<130> P2018TC426

<160> 27

<170> PatentIn version 3.5

<210> 1

<211> 1129

<212> PRT

<213> Alicyclobacillus acidiphilus

<400> 1

Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro

1 5 10 15

Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly

20 25 30

Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu

35 40 45

Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr

50 55 60

Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln

65 70 75 80

Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu

85 90 95

Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly

100 105 110

Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu

115 120 125

Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn

130 135 140

Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu

145 150 155 160

Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala

165 170 175

Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg

180 185 190

Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg

195 200 205

Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala

210 215 220

Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu

225 230 235 240

Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn

245 250 255

Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln

260 265 270

Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala

275 280 285

His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu

290 295 300

Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr

305 310 315 320

Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His

325 330 335

Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg

340 345 350

Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val

355 360 365

Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp

370 375 380

Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn

385 390 395 400

Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His

405 410 415

Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys

420 425 430

Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp

435 440 445

Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln

450 455 460

Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys

465 470 475 480

Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly

485 490 495

Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser

500 505 510

Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu

515 520 525

Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp

530 535 540

Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu

545 550 555 560

Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser

565 570 575

Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro

580 585 590

Asn Ser Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu

595 600 605

Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly

610 615 620

Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg

625 630 635 640

Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val

645 650 655

Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys

660 665 670

Leu Ile Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg

675 680 685

Glu Ala Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile

690 695 700

Cys Gly Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg

705 710 715 720

Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val

725 730 735

Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val

740 745 750

Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys

755 760 765

Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val Ile

770 775 780

Arg Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His Ile

785 790 795 800

Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile

805 810 815

Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys

820 825 830

Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu

835 840 845

Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn

850 855 860

Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Leu

865 870 875 880

Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala

885 890 895

Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys

900 905 910

Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe

915 920 925

Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly Cys

930 935 940

Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe

945 950 955 960

Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala

965 970 975

Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe

980 985 990

Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly

995 1000 1005

Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp

1010 1015 1020

Ser Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr

1025 1030 1035

Tyr Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln

1040 1045 1050

Glu Glu Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp

1055 1060 1065

Glu Ala Arg Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly

1070 1075 1080

Ile Ile Asn Arg Gly Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser

1085 1090 1095

Met Val Asn Gln Arg Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg

1100 1105 1110

Ser Arg Val Arg Leu Gln Glu Ser Ala Cys Glu Asn Thr Gly Asp

1115 1120 1125

Ile

<210> 2

<211> 3387

<212> DNA

<213> Alicyclobacillus acidiphilus

<400> 2

atggccgtta aatccatgaa agtgaaactt cgcctcgata atatgccgga gattcgggct 60

ggtttatgga aactccatac ggaggtcaac gcgggggttc gatattacac ggaatggctg 120

agtcttctgc gtcaagagaa tttgtatcga agaagtccga atggggacgg agagcaagaa 180

tgttataaga ctgcagaaga atgcaaagcc gaattgttgg agcggctgcg cgcgcgtcaa 240

gtggagaatg gacactgtgg tccggcggga tcggacgatg aattgctgca gttggctcgt 300

caactttatg aactgttggt tccgcaggcg ataggtgcga aaggcgatgc gcagcaaatt 360

gcgcgcaagt ttttgagccc cttagccgac aaggatgcag tgggtgggct tggaatcgcg 420

aaggcgggga acaaaccgcg gtgggttcgc atgcgcgaag cgggagaacc tggctgggaa 480

gaggagaagg cgaaggctga ggcgaggaaa tctacggatc gaactgcgga tgttttgcgc 540

gcgctcgcgg attttgggtt aaagccactg atgcgcgtgt acaccgattc tgacatgtca 600

tctgttcagt ggaaaccgct tcggaagggc caagcggttc ggacgtggga cagggatatg 660

ttccaacagg ccatcgagcg gatgatgtcg tgggagtcgt ggaatcagcg cgttggcgaa 720

gcgtacgcga aactggtaga gcaaaaaagt cgatttgagc agaagaactt cgtcggccag 780

gaacatttgg ttcaactcgt caatcagttg caacaagata tgaaagaagc atcgcacggg 840

ctcgaatcga aagagcaaac cgcacattat ctgacgggac gggcattgcg cggatcggac 900

aaagtgtttg agaagtggga gaaactcgac cctgatgcgc cattcgattt gtacgacacc 960

gaaatcaaga acgtgcagag acgtaacacg aggcgattcg gctcacacga cttgttcgcg 1020

aaattggcgg aaccgaagta tcaggccctg tggcgcgaag atgcttcgtt tctcacgcgt 1080

tacgcggtgt acaacagcat cgttcgcaaa ctgaatcacg ccaaaatgtt cgcgacgttt 1140

actttaccgg atgcaactgc gcatccgatt tggactcgct ttgataaatt gggcgggaat 1200

ttgcaccagt acaccttttt gttcaacgaa ttcggagaag gcaggcacgc gattcgtttt 1260

caaaagctgt tgaccgtcga agatggtgtc gcaaaagaag ttgatgatgt aacggtgccc 1320

atttccatgt cagcgcaatt ggatgatctg ctgccaagag atccccatga actggttgca 1380

ctatattttc aagattatgg agccgaacag catttggcgg gtgaattcgg tggcgcgaag 1440

attcagtacc gtcgggatca actaaatcat ttgcacgcac gcagaggggc gagggatgtt 1500

tatctcaatc tcagcgtacg tgtgcagagc cagtctgagg cacggggaga acgccgcccg 1560

ccgtatgccg cagtattccg cctggtcggg gacaaccatc gtgcgtttgt ccattttgat 1620

aaattatcgg attatcttgc ggaacatccg gatgatggga agcttggatc ggaggggctg 1680

ctttccgggc tacgggtgat gagtgtcgat ctcggccttc gcacatcggc atcgatttcc 1740

gtttttcgcg ttgcccggaa ggacgagttg aagccgaact cggaagggcg tgtcccattc 1800

tgttttccga ttgaagggaa tgaaaatctc gtcgcggttc atgaacgatc tcaacttttg 1860

aagctgcctg gcgaaacaga gtcaaaggac ctgcgggcta tccgagaaga gcgccaacgg 1920

accctgcggc agctgcggac gcaactggcg tatttgcggc tgctcgtgcg gtgtgggtcg 1980

gaagatgtgg gacggcgtga acggagttgg gcaaagctta ttgagcagcc catggatgcc 2040

aatcagatga caccggattg gcgcgaagcc tttgaagacg aacttcagaa gcttaagtca 2100

ctctatggta tctgtggcga cagggaatgg acggaggctg tctacgagag cgttcgccgc 2160

gtgtggcgcc atatgggcaa acaggttcgc gattggcgaa aggacgtacg gagtggagag 2220

cggccgaaga ttcgcggcta tcaaaaagat gtggtcggcg gaaattcgat tgagcaaatt 2280

gagtatcttg aacggcagta caagtttctc aagagttgga gcttttttgg caaggtatcg 2340

ggacaagtga ttcgtgcgga gaagggatcc cgatttgcga tcacgctgcg tgaacacatt 2400

gatcacgcga aggaagaccg gctgaagaaa ttggcggatc gcatcattat ggaggcgctc 2460

ggttatgtgt acgcgttgga tgatgagcgc ggcaaaggaa agtgggttgc gaagtatccg 2520

ccgtgccagc tcatcctgct ggaggaattg agcgagtacc agttcaataa cgacaggcct 2580

ccgagtgaaa acaatcagtt gatgcaatgg agccatcgcg gcgtgttcca ggagttgttg 2640

aatcaggccc aagtccacga tttactcgtt gggacgatgt atgcagcgtt ctcgtcgcga 2700

ttcgacgcgc gaaccggggc accgggtatc cgctgtcgca gggtaccggc gcgttgcgct 2760

cgggagcaga atccagaacc atttccttgg tggctgaaca agtttgtggc ggaacacaag 2820

ttggatggtt gtcccttacg ggcagacgac ctcatcccca cgggtgaagg agagtttttt 2880

gtctcgccgt tcagtgcgga ggaaggggac tttcatcaga ttcatgccga cctgaatgcg 2940

gcgcaaaacc tgcagcggcg actctggtct gattttgata tcagtcaaat tcggttgcgg 3000

tgtgattggg gtgaagtgga cggtgaaccc gttctgatcc caaggaccac aggaaagcga 3060

acggcggatt catatggcaa caaggtgttt tataccaaaa caggtgtcac ctattatgag 3120

cgagagcggg ggaagaagcg gagaaaggtt ttcgcgcaag aggaattgtc ggaggaagag 3180

gcggagttgc ttgtggaagc agacgaggca agggagaaat cggtcgtttt gatgcgtgat 3240

ccgtccggca ttatcaatcg tggcgactgg accaggcaaa aggagttttg gtcgatggtg 3300

aaccagcgga ttgaaggata cttggtcaag cagattcgct cgcgcgttcg cttacaagaa 3360

agtgcgtgtg aaaacacggg ggatatt 3387

<210> 3

<211> 3387

<212> DNA

<213> Artificial Sequence

<220>

<223> Humanized AaC2c1 coding sequence;DNA;Artificial Sequence

<400> 3

atggccgtga agagcatgaa ggtgaagctg cgcctggaca acatgcccga gatccgcgcc 60

ggcctgtgga agctgcacac cgaggtgaac gccggcgtgc gctactacac cgagtggctg 120

agcctgctgc gccaggagaa cctgtaccgc cgcagcccca acggcgacgg cgagcaggag 180

tgctacaaga ccgccgagga gtgcaaggcc gagctgctgg agcgcctgcg cgcccgccag 240

gtggagaacg gccactgcgg ccccgccggc agcgacgacg agctgctgca gctggcccgc 300

cagctgtacg agctgctggt gccccaggcc atcggcgcca agggcgacgc ccagcagatc 360

gcccgcaagt tcctgagccc cctggccgac aaggacgccg tgggcggcct gggcatcgcc 420

aaggccggca acaagccccg ctgggtgcgc atgcgcgagg ccggcgagcc cggctgggag 480

gaggagaagg ccaaggccga ggcccgcaag agcaccgacc gcaccgccga cgtgctgcgc 540

gccctggccg acttcggcct gaagcccctg atgcgcgtgt acaccgacag cgacatgagc 600

agcgtgcagt ggaagcccct gcgcaagggc caggccgtgc gcacctggga ccgcgacatg 660

ttccagcagg ccatcgagcg catgatgagc tgggagagct ggaaccagcg cgtgggcgag 720

gcctacgcca agctggtgga gcagaagagc cgcttcgagc agaagaactt cgtgggccag 780

gagcacctgg tgcagctggt gaaccagctg cagcaggaca tgaaggaggc cagccacggc 840

ctggagagca aggagcagac cgcccactac ctgaccggcc gcgccctgcg cggcagcgac 900

aaggtgttcg agaagtggga gaagctggac cccgacgccc ccttcgacct gtacgacacc 960

gagatcaaga acgtgcagcg ccgcaacacc cgccgcttcg gcagccacga cctgttcgcc 1020

aagctggccg agcccaagta ccaggccctg tggcgcgagg acgccagctt cctgacccgc 1080

tacgccgtgt acaacagcat cgtgcgcaag ctgaaccacg ccaagatgtt cgccaccttc 1140

accctgcccg acgccaccgc ccaccccatc tggacccgct tcgacaagct gggcggcaac 1200

ctgcaccagt acaccttcct gttcaacgag ttcggcgagg gccgccacgc catccgcttc 1260

cagaagctgc tgaccgtgga ggacggcgtg gccaaggagg tggacgacgt gaccgtgccc 1320

atcagcatga gcgcccagct ggacgacctg ctgccccgcg acccccacga gctggtggcc 1380

ctgtacttcc aggactacgg cgccgagcag cacctggccg gcgagttcgg cggcgccaag 1440

atccagtacc gccgcgacca gctgaaccac ctgcacgccc gccgcggcgc ccgcgacgtg 1500

tacctgaacc tgagcgtgcg cgtgcagagc cagagcgagg cccgcggcga gcgccgcccc 1560

ccctacgccg ccgtgttccg cctggtgggc gacaaccacc gcgccttcgt gcacttcgac 1620

aagctgagcg actacctggc cgagcacccc gacgacggca agctgggcag cgagggcctg 1680

ctgagcggcc tgcgcgtgat gagcgtggac ctgggcctgc gcaccagcgc cagcatcagc 1740

gtgttccgcg tggcccgcaa ggacgagctg aagcccaaca gcgagggccg cgtgcccttc 1800

tgcttcccca tcgagggcaa cgagaacctg gtggccgtgc acgagcgcag ccagctgctg 1860

aagctgcccg gcgagaccga gagcaaggac ctgcgcgcca tccgcgagga gcgccagcgc 1920

accctgcgcc agctgcgcac ccagctggcc tacctgcgcc tgctggtgcg ctgcggcagc 1980

gaggacgtgg gccgccgcga gcgcagctgg gccaagctga tcgagcagcc catggacgcc 2040

aaccagatga cccccgactg gcgcgaggcc ttcgaggacg agctgcagaa gctgaagagc 2100

ctgtacggca tctgcggcga ccgcgagtgg accgaggccg tgtacgagag cgtgcgccgc 2160

gtgtggcgcc acatgggcaa gcaggtgcgc gactggcgca aggacgtgcg cagcggcgag 2220

cgccccaaga tccgcggcta ccagaaggac gtggtgggcg gcaacagcat cgagcagatc 2280

gagtacctgg agcgccagta caagttcctg aagagctgga gcttcttcgg caaggtgagc 2340

ggccaggtga tccgcgccga gaagggcagc cgcttcgcca tcaccctgcg cgagcacatc 2400

gaccacgcca aggaggaccg cctgaagaag ctggccgacc gcatcatcat ggaggccctg 2460

ggctacgtgt acgccctgga cgacgagcgc ggcaagggca agtgggtggc caagtacccc 2520

ccctgccagc tgatcctgct ggaggagctg agcgagtacc agttcaacaa cgaccgcccc 2580

cccagcgaga acaaccagct gatgcagtgg agccaccgcg gcgtgttcca ggagctgctg 2640

aaccaggccc aggtgcacga cctgctggtg ggcaccatgt acgccgcctt cagcagccgc 2700

ttcgacgccc gcaccggcgc ccccggcatc cgctgccgcc gcgtgcccgc ccgctgcgcc 2760

cgcgagcaga accccgagcc cttcccctgg tggctgaaca agttcgtggc cgagcacaag 2820

ctggacggct gccccctgcg cgccgacgac ctgatcccca ccggcgaggg cgagttcttc 2880

gtgagcccct tcagcgccga ggagggcgac ttccaccaga tccacgccga cctgaacgcc 2940

gcccagaacc tgcagcgccg cctgtggagc gacttcgaca tcagccagat ccgcctgcgc 3000

tgcgactggg gcgaggtgga cggcgagccc gtgctgatcc cccgcaccac cggcaagcgc 3060

accgccgaca gctacggcaa caaggtgttc tacaccaaga ccggcgtgac ctactacgag 3120

cgcgagcgcg gcaagaagcg ccgcaaggtg ttcgcccagg aggagctgag cgaggaggag 3180

gccgagctgc tggtggaggc cgacgaggcc cgcgagaaga gcgtggtgct gatgcgcgac 3240

cccagcggca tcatcaaccg cggcgactgg acccgccaga aggagttctg gagcatggtg 3300

aaccagcgca tcgagggcta cctggtgaag cagatccgca gccgcgtgcg cctgcaggag 3360

agcgcctgcg agaacaccgg cgacatc 3387

<210> 4

<211> 1129

<212> PRT

<213> Artificial Sequence

<220>

<223> dAaC2c1 protein sequence

<400> 4

Met Ala Val Lys Ser Met Lys Val Lys Leu Arg Leu Asp Asn Met Pro

1 5 10 15

Glu Ile Arg Ala Gly Leu Trp Lys Leu His Thr Glu Val Asn Ala Gly

20 25 30

Val Arg Tyr Tyr Thr Glu Trp Leu Ser Leu Leu Arg Gln Glu Asn Leu

35 40 45

Tyr Arg Arg Ser Pro Asn Gly Asp Gly Glu Gln Glu Cys Tyr Lys Thr

50 55 60

Ala Glu Glu Cys Lys Ala Glu Leu Leu Glu Arg Leu Arg Ala Arg Gln

65 70 75 80

Val Glu Asn Gly His Cys Gly Pro Ala Gly Ser Asp Asp Glu Leu Leu

85 90 95

Gln Leu Ala Arg Gln Leu Tyr Glu Leu Leu Val Pro Gln Ala Ile Gly

100 105 110

Ala Lys Gly Asp Ala Gln Gln Ile Ala Arg Lys Phe Leu Ser Pro Leu

115 120 125

Ala Asp Lys Asp Ala Val Gly Gly Leu Gly Ile Ala Lys Ala Gly Asn

130 135 140

Lys Pro Arg Trp Val Arg Met Arg Glu Ala Gly Glu Pro Gly Trp Glu

145 150 155 160

Glu Glu Lys Ala Lys Ala Glu Ala Arg Lys Ser Thr Asp Arg Thr Ala

165 170 175

Asp Val Leu Arg Ala Leu Ala Asp Phe Gly Leu Lys Pro Leu Met Arg

180 185 190

Val Tyr Thr Asp Ser Asp Met Ser Ser Val Gln Trp Lys Pro Leu Arg

195 200 205

Lys Gly Gln Ala Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala

210 215 220

Ile Glu Arg Met Met Ser Trp Glu Ser Trp Asn Gln Arg Val Gly Glu

225 230 235 240

Ala Tyr Ala Lys Leu Val Glu Gln Lys Ser Arg Phe Glu Gln Lys Asn

245 250 255

Phe Val Gly Gln Glu His Leu Val Gln Leu Val Asn Gln Leu Gln Gln

260 265 270

Asp Met Lys Glu Ala Ser His Gly Leu Glu Ser Lys Glu Gln Thr Ala

275 280 285

His Tyr Leu Thr Gly Arg Ala Leu Arg Gly Ser Asp Lys Val Phe Glu

290 295 300

Lys Trp Glu Lys Leu Asp Pro Asp Ala Pro Phe Asp Leu Tyr Asp Thr

305 310 315 320

Glu Ile Lys Asn Val Gln Arg Arg Asn Thr Arg Arg Phe Gly Ser His

325 330 335

Asp Leu Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Ala Leu Trp Arg

340 345 350

Glu Asp Ala Ser Phe Leu Thr Arg Tyr Ala Val Tyr Asn Ser Ile Val

355 360 365

Arg Lys Leu Asn His Ala Lys Met Phe Ala Thr Phe Thr Leu Pro Asp

370 375 380

Ala Thr Ala His Pro Ile Trp Thr Arg Phe Asp Lys Leu Gly Gly Asn

385 390 395 400

Leu His Gln Tyr Thr Phe Leu Phe Asn Glu Phe Gly Glu Gly Arg His

405 410 415

Ala Ile Arg Phe Gln Lys Leu Leu Thr Val Glu Asp Gly Val Ala Lys

420 425 430

Glu Val Asp Asp Val Thr Val Pro Ile Ser Met Ser Ala Gln Leu Asp

435 440 445

Asp Leu Leu Pro Arg Asp Pro His Glu Leu Val Ala Leu Tyr Phe Gln

450 455 460

Asp Tyr Gly Ala Glu Gln His Leu Ala Gly Glu Phe Gly Gly Ala Lys

465 470 475 480

Ile Gln Tyr Arg Arg Asp Gln Leu Asn His Leu His Ala Arg Arg Gly

485 490 495

Ala Arg Asp Val Tyr Leu Asn Leu Ser Val Arg Val Gln Ser Gln Ser

500 505 510

Glu Ala Arg Gly Glu Arg Arg Pro Pro Tyr Ala Ala Val Phe Arg Leu

515 520 525

Val Gly Asp Asn His Arg Ala Phe Val His Phe Asp Lys Leu Ser Asp

530 535 540

Tyr Leu Ala Glu His Pro Asp Asp Gly Lys Leu Gly Ser Glu Gly Leu

545 550 555 560

Leu Ser Gly Leu Arg Val Met Ser Val Asp Leu Gly Leu Arg Thr Ser

565 570 575

Ala Ser Ile Ser Val Phe Arg Val Ala Arg Lys Asp Glu Leu Lys Pro

580 585 590

Asn Ser Glu Gly Arg Val Pro Phe Cys Phe Pro Ile Glu Gly Asn Glu

595 600 605

Asn Leu Val Ala Val His Glu Arg Ser Gln Leu Leu Lys Leu Pro Gly

610 615 620

Glu Thr Glu Ser Lys Asp Leu Arg Ala Ile Arg Glu Glu Arg Gln Arg

625 630 635 640

Thr Leu Arg Gln Leu Arg Thr Gln Leu Ala Tyr Leu Arg Leu Leu Val

645 650 655

Arg Cys Gly Ser Glu Asp Val Gly Arg Arg Glu Arg Ser Trp Ala Lys

660 665 670

Leu Ile Glu Gln Pro Met Asp Ala Asn Gln Met Thr Pro Asp Trp Arg

675 680 685

Glu Ala Phe Glu Asp Glu Leu Gln Lys Leu Lys Ser Leu Tyr Gly Ile

690 695 700

Cys Gly Asp Arg Glu Trp Thr Glu Ala Val Tyr Glu Ser Val Arg Arg

705 710 715 720

Val Trp Arg His Met Gly Lys Gln Val Arg Asp Trp Arg Lys Asp Val

725 730 735

Arg Ser Gly Glu Arg Pro Lys Ile Arg Gly Tyr Gln Lys Asp Val Val

740 745 750

Gly Gly Asn Ser Ile Glu Gln Ile Glu Tyr Leu Glu Arg Gln Tyr Lys

755 760 765

Phe Leu Lys Ser Trp Ser Phe Phe Gly Lys Val Ser Gly Gln Val Ile

770 775 780

Ala Ala Glu Lys Gly Ser Arg Phe Ala Ile Thr Leu Arg Glu His Ile

785 790 795 800

Asp His Ala Lys Glu Asp Arg Leu Lys Lys Leu Ala Asp Arg Ile Ile

805 810 815

Met Glu Ala Leu Gly Tyr Val Tyr Ala Leu Asp Asp Glu Arg Gly Lys

820 825 830

Gly Lys Trp Val Ala Lys Tyr Pro Pro Cys Gln Leu Ile Leu Leu Glu

835 840 845

Glu Leu Ser Glu Tyr Gln Phe Asn Asn Asp Arg Pro Pro Ser Glu Asn

850 855 860

Asn Gln Leu Met Gln Trp Ser His Arg Gly Val Phe Gln Glu Leu Leu

865 870 875 880

Asn Gln Ala Gln Val His Asp Leu Leu Val Gly Thr Met Tyr Ala Ala

885 890 895

Phe Ser Ser Arg Phe Asp Ala Arg Thr Gly Ala Pro Gly Ile Arg Cys

900 905 910

Arg Arg Val Pro Ala Arg Cys Ala Arg Glu Gln Asn Pro Glu Pro Phe

915 920 925

Pro Trp Trp Leu Asn Lys Phe Val Ala Glu His Lys Leu Asp Gly Cys

930 935 940

Pro Leu Arg Ala Asp Asp Leu Ile Pro Thr Gly Glu Gly Glu Phe Phe

945 950 955 960

Val Ser Pro Phe Ser Ala Glu Glu Gly Asp Phe His Gln Ile His Ala

965 970 975

Asp Leu Asn Ala Ala Gln Asn Leu Gln Arg Arg Leu Trp Ser Asp Phe

980 985 990

Asp Ile Ser Gln Ile Arg Leu Arg Cys Asp Trp Gly Glu Val Asp Gly

995 1000 1005

Glu Pro Val Leu Ile Pro Arg Thr Thr Gly Lys Arg Thr Ala Asp

1010 1015 1020

Ser Tyr Gly Asn Lys Val Phe Tyr Thr Lys Thr Gly Val Thr Tyr

1025 1030 1035

Tyr Glu Arg Glu Arg Gly Lys Lys Arg Arg Lys Val Phe Ala Gln

1040 1045 1050

Glu Glu Leu Ser Glu Glu Glu Ala Glu Leu Leu Val Glu Ala Asp

1055 1060 1065

Glu Ala Arg Glu Lys Ser Val Val Leu Met Arg Asp Pro Ser Gly

1070 1075 1080

Ile Ile Asn Arg Gly Asp Trp Thr Arg Gln Lys Glu Phe Trp Ser

1085 1090 1095

Met Val Asn Gln Arg Ile Glu Gly Tyr Leu Val Lys Gln Ile Arg

1100 1105 1110

Ser Arg Val Arg Leu Gln Glu Ser Ala Cys Glu Asn Thr Gly Asp

1115 1120 1125

Ile

<210> 5

<211> 1147

<212> PRT

<213> Alicyclobacillus kakegawensis

<400> 5

Met Ala Val Lys Ser Ile Lys Val Lys Leu Arg Leu Ser Glu Cys Pro

1 5 10 15

Asp Ile Leu Ala Gly Met Trp Gln Leu His Arg Ala Thr Asn Ala Gly

20 25 30

Val Arg Tyr Tyr Thr Glu Trp Val Ser Leu Met Arg Gln Glu Ile Leu

35 40 45

Tyr Ser Arg Gly Pro Asp Gly Gly Gln Gln Cys Tyr Met Thr Ala Glu

50 55 60

Asp Cys Gln Arg Glu Leu Leu Arg Arg Leu Arg Asn Arg Gln Leu His

65 70 75 80

Asn Gly Arg Gln Asp Gln Pro Gly Thr Asp Ala Asp Leu Leu Ala Ile

85 90 95

Ser Arg Arg Leu Tyr Glu Ile Leu Val Leu Gln Ser Ile Gly Lys Arg

100 105 110

Gly Asp Ala Gln Gln Ile Ala Ser Ser Phe Leu Ser Pro Leu Val Asp

115 120 125

Pro Asn Ser Lys Gly Gly Arg Gly Glu Ala Lys Ser Gly Arg Lys Pro

130 135 140

Ala Trp Gln Lys Met Arg Asp Gln Gly Asp Pro Arg Trp Val Ala Ala

145 150 155 160

Arg Glu Lys Tyr Glu Gln Arg Lys Ala Val Asp Pro Ser Lys Glu Ile

165 170 175

Leu Asn Ser Leu Asp Ala Leu Gly Leu Arg Pro Leu Phe Ala Val Phe

180 185 190

Thr Glu Thr Tyr Arg Ser Gly Val Asp Trp Lys Pro Leu Gly Lys Ser

195 200 205

Gln Gly Val Arg Thr Trp Asp Arg Asp Met Phe Gln Gln Ala Leu Glu

210 215 220

Arg Leu Met Ser Trp Glu Ser Trp Asn Arg Arg Val Gly Glu Glu Tyr

225 230 235 240

Ala Arg Leu Phe Gln Gln Lys Met Lys Phe Glu Gln Glu His Phe Ala

245 250 255

Glu Gln Ser His Leu Val Lys Leu Ala Arg Ala Leu Glu Ala Asp Met

260 265 270

Arg Ala Ala Ser Gln Gly Phe Glu Ala Lys Arg Gly Thr Ala His Gln

275 280 285

Ile Thr Arg Arg Ala Leu Arg Gly Ala Asp Arg Val Phe Glu Ile Trp

290 295 300

Lys Ser Ile Pro Glu Glu Ala Leu Phe Ser Gln Tyr Asp Glu Val Ile

305 310 315 320

Arg Gln Val Gln Ala Glu Lys Arg Arg Asp Phe Gly Ser His Asp Leu

325 330 335

Phe Ala Lys Leu Ala Glu Pro Lys Tyr Gln Pro Leu Trp Arg Ala Asp

340 345 350

Glu Thr Phe Leu Thr Arg Tyr Ala Leu Tyr Asn Gly Val Leu Arg Asp

355 360 365

Leu Glu Lys Ala Arg Gln Phe Ala Thr Phe Thr Leu Pro Asp Ala Cys

370 375 380

Val Asn Pro Ile Trp Thr Arg Phe Glu Ser Ser Gln Gly Ser Asn Leu

385 390 395 400

His Lys Tyr Glu Phe Leu Phe Asp His Leu Gly Pro Gly Arg His Ala

405 410 415

Val Arg Phe Gln Arg Leu Leu Val Val Glu Ser Glu Gly Ala Lys Glu

420 425 430

Arg Asp Ser Val Val Val Pro Val Ala Pro Ser Gly Gln Leu Asp Lys

435 440 445

Leu Val Leu Arg Glu Glu Glu Lys Ser Ser Val Ala Leu His Leu His

450 455 460

Asp Thr Ala Arg Pro Asp Gly Phe Met Ala Glu Trp Ala Gly Ala Lys

465 470 475 480

Leu Gln Tyr Glu Arg Ser Thr Leu Ala Arg Lys Ala Arg Arg Asp Lys

485 490 495

Gln Gly Met Arg Ser Trp Arg Arg Gln Pro Ser Met Leu Met Ser Ala

500 505 510

Ala Gln Met Leu Glu Asp Ala Lys Gln Ala Gly Asp Val Tyr Leu Asn

515 520 525

Ile Ser Val Arg Val Lys Ser Pro Ser Glu Val Arg Gly Gln Arg Arg

530 535 540

Pro Pro Tyr Ala Ala Leu Phe Arg Ile Asp Asp Lys Gln Arg Arg Val

545 550 555 560

Thr Val Asn Tyr Asn Lys Leu Ser Ala Tyr Leu Glu Glu His Pro Asp

565 570 575

Lys Gln Ile Pro Gly Ala Pro Gly Leu Leu Ser Gly Leu Arg Val Met

580 585 590

Ser Val Asp Leu Gly Leu Arg Thr Ser Ala Ser Ile Ser Val Phe Arg

595 600 605

Val Ala Lys Lys Glu Glu Val Glu Ala Leu Gly Asp Gly Arg Pro Pro

610 615 620

His Tyr Tyr Pro Ile His Gly Thr Asp Asp Leu Val Ala Val His Glu

625 630 635 640

Arg Ser His Leu Ile Gln Met Pro Gly Glu Thr Glu Thr Lys Gln Leu

645 650 655

Arg Lys Leu Arg Glu Glu Arg Gln Ala Val Leu Arg Pro Leu Phe Ala

660 665 670

Gln Leu Ala Leu Leu Arg Leu Leu Val Arg Cys Gly Ala Ala Asp Glu

675 680 685

Arg Ile Arg Thr Arg Ser Trp Gln Arg Leu Thr Lys Gln Gly Arg Glu

690 695 700

Phe Thr Lys Arg Leu Thr Pro Ser Trp Arg Glu Ala Leu Glu Leu Glu

705 710 715 720

Leu Thr Arg Leu Glu Ala Tyr Cys Gly Arg Val Pro Asp Asp Glu Trp

725 730 735

Ser Arg Ile Val Asp Arg Thr Val Ile Ala Leu Trp Arg Arg Met Gly

740 745 750

Lys Gln Val Arg Asp Trp Arg Lys Gln Val Lys Ser Gly Ala Lys Val

755 760 765

Lys Val Lys Gly Tyr Gln Leu Asp Val Val Gly Gly Asn Ser Leu Ala

770 775 780

Gln Ile Asp Tyr Leu Glu Gln Gln Tyr Lys Phe Leu Arg Arg Trp Ser

785 790 795 800

Phe Phe Ala Arg Ala Ser Gly Leu Val Val Arg Ala Asp Arg Glu Ser

805 810 815

His Phe Ala Val Ala Leu Arg Gln His Ile Glu Asn Ala Lys Arg Asp

820 825 830

Arg Leu Lys Lys Leu Ala Asp Arg Ile Leu Met Glu Ala Leu Gly Tyr

835 840 845

Val Tyr Glu Ala Ser Gly Pro Arg Glu Gly Gln Trp Thr Ala Gln His

850 855 860

Pro Pro Cys Gln Leu Ile Ile Leu Glu Glu Leu Ser Ala Tyr Arg Phe

865 870 875 880

Ser Asp Asp Arg Pro Pro Ser Glu Asn Ser Lys Leu Met Ala Trp Gly

885 890 895

His Arg Gly Ile Leu Glu Glu Leu Val Asn Gln Ala Gln Val His Asp

900 905 910

Val Leu Val Gly Thr Val Tyr Ala Ala Phe Ser Ser Arg Phe Asp Ala

915 920 925

Arg Thr Gly Ala Pro Gly Val Arg Cys Arg Arg Val Pro Ala Arg Phe

930 935 940

Val Gly Ala Thr Val Asp Asp Ser Leu Pro Leu Trp Leu Thr Glu Phe

945 950 955 960

Leu Asp Lys His Arg Leu Asp Lys Asn Leu Leu Arg Pro Asp Asp Val

965 970 975

Ile Pro Thr Gly Glu Gly Glu Phe Leu Val Ser Pro Cys Gly Glu Glu

980 985 990

Ala Ala Arg Val Arg Gln Val His Ala Asp Ile Asn Ala Ala Gln Asn

995 1000 1005

Leu Gln Arg Arg Leu Trp Gln Asn Phe Asp Ile Thr Glu Leu Arg

1010 1015 1020

Leu Arg Cys Asp Val Lys Met Gly Gly Glu Gly Thr Val Leu Val

1025 1030 1035

Pro Arg Val Asn Asn Ala Arg Ala Lys Gln Leu Phe Gly Lys Lys

1040 1045 1050

Val Leu Val Ser Gln Asp Gly Val Thr Phe Phe Glu Arg Ser Gln

1055 1060 1065

Thr Gly Gly Lys Pro His Ser Glu Lys Gln Thr Asp Leu Thr Asp

1070 1075 1080

Lys Glu Leu Glu Leu Ile Ala Glu Ala Asp Glu Ala Arg Ala Lys

1085 1090 1095

Ser Val Val Leu Phe Arg Asp Pro Ser Gly His Ile Gly Lys Gly

1100 1105 1110

His Trp Ile Arg Gln Arg Glu Phe Trp Ser Leu Val Lys Gln Arg

1115 1120 1125

Ile Glu Ser His Thr Ala Glu Arg Ile Arg Val Arg Gly Val Gly

1130 1135 1140

Ser Ser Leu Asp

1145

<210> 6

<211> 3441

<212> DNA

<213> Alicyclobacillus kakegawensis

<400> 6

atggctgtaa aatctattaa ggtcaagttg cggttgtcag agtgcccaga catcctggct 60

ggcatgtggc agctccaccg ggcgacaaac gcgggggttc gatactacac agaatgggtg 120

agcttgatgc gccaggagat cctctactcg cgcgggccgg acggcggtca gcagtgctac 180

atgaccgcgg aggattgcca acgcgagctg ctgcggcggc tgcgcaatcg ccagctccat 240

aatggccgcc aggaccagcc cggtacagat gcagacctac tggcaatcag taggagactc 300

tatgaaattc tggtcctgca atccatcggc aagagggggg acgcccagca gatagcgagc 360

agcttcctca gccctctggt cgatccgaac tccaaaggtg ggcggggtga agccaagtcc 420

ggtcgaaagc ctgcgtggca gaagatgcgc gatcaaggtg atcctcgttg ggttgcggca 480

agggaaaagt acgagcaacg caaggcggtt gatccatcta aagaaatcct gaattcattg 540

gacgccctgg gtctcaggcc gctatttgcg gtcttcacgg agacctacag gtcgggagtc 600

gattggaagc cgctcggcaa aagccaaggt gtgcgcacat gggaccgtga catgttccag 660

caggccctcg agcgcctgat gtcctgggag tcttggaacc gccgcgtggg cgaggagtac 720

gcccgtcttt tccaacagaa gatgaagttc gagcaggaac acttcgcgga acagtctcat 780

ctggttaaac tggcgcgcgc gttggaggcg gacatgcgcg ccgcttcaca gggcttcgaa 840

gccaaacgcg gcactgcgca ccagatcaca agacgggcgc tgcgcggggc ggatcgggta 900

tttgagatat ggaagagtat tccagaggaa gctttgttct cccaatatga tgaagtgatt 960

cgacaggtcc aggcggagaa aagacgggac tttgggtccc atgatctgtt cgccaagttg 1020

gcggaaccga agtatcagcc cctgtggcgc gccgacgaga cctttttgac gcgctacgcc 1080

ctgtacaatg gagtcttgcg ggatttagag aaagcgagac agttcgccac gttcacgctg 1140

ccggatgcct gcgtcaatcc aatttggacg cgttttgaaa gcagccaggg gagcaatctg 1200

cataaatatg aatttctctt tgaccacctg ggacccggac ggcacgcggt gcgttttcag 1260

aggctgctgg tggtagagag cgaaggtgcg aaggagaggg actcggtggt ggtgccagtc 1320

gcgccatccg ggcaactgga caagcttgtc ctgcgtgaag aagagaaatc aagcgttgcc 1380

ttacaccttc atgacacagc ccggccggac ggtttcatgg cagaatgggc gggggcgaag 1440

ctgcaatatg aacgcagtac cttggcacgc aaggcgcgcc gtgataagca agggatgcgg 1500

tcgtggcgta ggcagccgtc tatgctgatg tctgcggcac agatgttgga agacgcaaag 1560

caagccggag acgtgtatct gaacatcagt gtgcgtgtga agagccccag tgaagtccgc 1620

ggccagaggc ggcctcctta cgcggccctg tttcggatag acgataaaca gcggcgtgtg 1680

accgtaaatt acaacaaact gtcggcttac ctagaggaac atccggataa acagattcca 1740

ggcgcacctg ggctcctttc cggtcttcgg gtaatgagcg tcgaccttgg gttgcgcacc 1800

tccgcttcca tcagtgtgtt ccgtgtggca aagaaggaag aggtggaagc gctgggcgac 1860

ggtcgtcccc ctcattatta tcccatccat ggcactgacg acctggtggc ggtgcacgag 1920

cgctcacatt tgattcaaat gccaggcgaa accgaaacga aacagctgcg caagttgcgt 1980

gaggaacggc aggctgtctt gcgtccactg ttcgctcaac tggccctgct acggttgctg 2040

gtccggtgtg gtgcagccga cgagcggatt cgtacacgca gttggcagcg cttgacgaag 2100

caggggcgtg agtttacgaa gcgattgacg ccgtcctggc gggaggcgtt ggaattggag 2160

ttaactcgct tggaggcgta ttgcggtagg gttccagacg acgaatggag ccgcatcgtt 2220

gatagaacgg taatcgcttt gtggcgtcgc atgggaaaac aggtgcgcga ttggcgtaaa 2280

caggtgaaat ccggtgcgaa agtcaaggtc aaggggtacc agctggatgt agtcggcggc 2340

aactcgctgg cgcaaatcga ttatctcgaa cagcagtaca agtttctgcg gcgctggagc 2400

ttctttgcgc gggccagcgg tctggttgtg cgggcggatc gcgaatcgca tttcgcagtc 2460

gctttacgcc agcacattga aaatgccaag cgggatcggc tgaaaaagtt ggcggaccgc 2520

atcctgatgg aggcgctggg ctacgtgtat gaagcttccg ggccgcgcga aggacagtgg 2580

acggcgcagc atccgccgtg ccagttgatt atcttggagg aattaagcgc gtaccggttc 2640

agtgacgacc gtccgccgag cgagaacagt aaattgatgg cttgggggca tcggggaatt 2700

ttggaggagt tggtcaacca agcacaggtt cacgacgtgt tagtggggac ggtgtacgcc 2760

gctttttcgt cccgcttcga tgcccgcaca ggcgcccctg gagtgcgctg ccgccgggta 2820

cccgcacgtt ttgtcggcgc gacggtggat gattcactgc cgctttggct cacagagttt 2880

ctggacaagc acaggctgga taaaaacctc ctgcggcctg acgatgtgat tccgaccgga 2940

gagggtgagt ttttggtttc tccgtgtggc gaggaagcgg ctcgggttcg gcaggtgcac 3000

gccgacatca acgcggcgca aaacctgcag cggaggctgt ggcagaattt tgacattaca 3060

gagctgcgtc tgcgctgcga tgtgaagatg ggtggcgaag gaacggtgct ggtaccaagg 3120

gtcaacaacg cccgcgccaa acaactgttt ggaaagaagg tgttggtttc gcaagatggc 3180

gtgacgttct ttgaacgcag tcaaacaggt gggaaaccgc acagcgagaa gcagacggat 3240

ttgaccgaca aggaactaga actaattgcg gaggcggacg aggcgcgcgc caagtcggtc 3300

gtcctctttc gcgatccgtc cgggcacatc ggcaagggcc actggattcg ccaaagggag 3360

ttttggtcgt tggtgaagca aaggattgaa tcgcacacgg cggaaaggat acgggttcgc 3420

ggcgtcggta gctcgctgga t 3441

<210> 7

<211> 3441

<212> DNA

<213> Artificial Sequence

<220>

<223> Humanized AkC2c1 coding sequence

<400> 7

atggccgtga agagcatcaa ggtgaagctg cgcctgagcg agtgccccga catcctggcc 60

ggcatgtggc agctgcaccg cgccaccaac gccggcgtgc gctactacac cgagtgggtg 120

agcctgatgc gccaggagat cctgtacagc cgcggccccg acggcggcca gcagtgctac 180

atgaccgccg aggactgcca gcgcgagctg ctgcgccgcc tgcgcaaccg ccagctgcac 240

aacggccgcc aggaccagcc cggcaccgac gccgacctgc tggccatcag ccgccgcctg 300

tacgagatcc tggtgctgca gagcatcggc aagcgcggcg acgcccagca gatcgccagc 360

agcttcctga gccccctggt ggaccccaac agcaagggcg gccgcggcga ggccaagagc 420

ggccgcaagc ccgcctggca gaagatgcgc gaccagggcg acccccgctg ggtggccgcc 480

cgcgagaagt acgagcagcg caaggccgtg gaccccagca aggagatcct gaacagcctg 540

gacgccctgg gcctgcgccc cctgttcgcc gtgttcaccg agacctaccg cagcggcgtg 600

gactggaagc ccctgggcaa gagccagggc gtgcgcacct gggaccgcga catgttccag 660

caggccctgg agcgcctgat gagctgggag agctggaacc gccgcgtggg cgaggagtac 720

gcccgcctgt tccagcagaa gatgaagttc gagcaggagc acttcgccga gcagagccac 780

ctggtgaagc tggcccgcgc cctggaggcc gacatgcgcg ccgccagcca gggcttcgag 840

gccaagcgcg gcaccgccca ccagatcacc cgccgcgccc tgcgcggcgc cgaccgcgtg 900

ttcgagatct ggaagagcat ccccgaggag gccctgttca gccagtacga cgaggtgatc 960

cgccaggtgc aggccgagaa gcgccgcgac ttcggcagcc acgacctgtt cgccaagctg 1020

gccgagccca agtaccagcc cctgtggcgc gccgacgaga ccttcctgac ccgctacgcc 1080

ctgtacaacg gcgtgctgcg cgacctggag aaggcccgcc agttcgccac cttcaccctg 1140

cccgacgcct gcgtgaaccc catctggacc cgcttcgaga gcagccaggg cagcaacctg 1200

cacaagtacg agttcctgtt cgaccacctg ggccccggcc gccacgccgt gcgcttccag 1260

cgcctgctgg tggtggagag cgagggcgcc aaggagcgcg acagcgtggt ggtgcccgtg 1320

gcccccagcg gccagctgga caagctggtg ctgcgcgagg aggagaagag cagcgtggcc 1380

ctgcacctgc acgacaccgc ccgccccgac ggcttcatgg ccgagtgggc cggcgccaag 1440

ctgcagtacg agcgcagcac cctggcccgc aaggcccgcc gcgacaagca gggcatgcgc 1500

agctggcgcc gccagcccag catgctgatg agcgccgccc agatgctgga ggacgccaag 1560

caggccggcg acgtgtacct gaacatcagc gtgcgcgtga agagccccag cgaggtgcgc 1620

ggccagcgcc gcccccccta cgccgccctg ttccgcatcg acgacaagca gcgccgcgtg 1680

accgtgaact acaacaagct gagcgcctac ctggaggagc accccgacaa gcagatcccc 1740

ggcgcccccg gcctgctgag cggcctgcgc gtgatgagcg tggacctggg cctgcgcacc 1800

agcgccagca tcagcgtgtt ccgcgtggcc aagaaggagg aggtggaggc cctgggcgac 1860

ggccgccccc cccactacta ccccatccac ggcaccgacg acctggtggc cgtgcacgag 1920

cgcagccacc tgatccagat gcccggcgag accgagacca agcagctgcg caagctgcgc 1980

gaggagcgcc aggccgtgct gcgccccctg ttcgcccagc tggccctgct gcgcctgctg 2040

gtgcgctgcg gcgccgccga cgagcgcatc cgcacccgca gctggcagcg cctgaccaag 2100

cagggccgcg agttcaccaa gcgcctgacc cccagctggc gcgaggccct ggagctggag 2160

ctgacccgcc tggaggccta ctgcggccgc gtgcccgacg acgagtggag ccgcatcgtg 2220

gaccgcaccg tgatcgccct gtggcgccgc atgggcaagc aggtgcgcga ctggcgcaag 2280

caggtgaaga gcggcgccaa ggtgaaggtg aagggctacc agctggacgt ggtgggcggc 2340

aacagcctgg cccagatcga ctacctggag cagcagtaca agttcctgcg ccgctggagc 2400

ttcttcgccc gcgccagcgg cctggtggtg cgcgccgacc gcgagagcca cttcgccgtg 2460

gccctgcgcc agcacatcga gaacgccaag cgcgaccgcc tgaagaagct ggccgaccgc 2520

atcctgatgg aggccctggg ctacgtgtac gaggccagcg gcccccgcga gggccagtgg 2580

accgcccagc accccccctg ccagctgatc atcctggagg agctgagcgc ctaccgcttc 2640

agcgacgacc gcccccccag cgagaacagc aagctgatgg cctggggcca ccgcggcatc 2700

ctggaggagc tggtgaacca ggcccaggtg cacgacgtgc tggtgggcac cgtgtacgcc 2760

gccttcagca gccgcttcga cgcccgcacc ggcgcccccg gcgtgcgctg ccgccgcgtg 2820

cccgcccgct tcgtgggcgc caccgtggac gacagcctgc ccctgtggct gaccgagttc 2880

ctggacaagc accgcctgga caagaacctg ctgcgccccg acgacgtgat ccccaccggc 2940

gagggcgagt tcctggtgag cccctgcggc gaggaggccg cccgcgtgcg ccaggtgcac 3000

gccgacatca acgccgccca gaacctgcag cgccgcctgt ggcagaactt cgacatcacc 3060

gagctgcgcc tgcgctgcga cgtgaagatg ggcggcgagg gcaccgtgct ggtgccccgc 3120

gtgaacaacg cccgcgccaa gcagctgttc ggcaagaagg tgctggtgag ccaggacggc 3180

gtgaccttct tcgagcgcag ccagaccggc ggcaagcccc acagcgagaa gcagaccgac 3240

ctgaccgaca aggagctgga gctgatcgcc gaggccgacg aggcccgcgc caagagcgtg 3300

gtgctgttcc gcgaccccag cggccacatc ggcaagggcc actggatccg ccagcgcgag 3360

ttctggagcc tggtgaagca gcgcatcgag agccacaccg ccgagcgcat ccgcgtgcgc 3420

ggcgtgggca gcagcctgga c 3441

<210> 8

<211> 2870

<212> DNA

<213> Artificial Sequence

<220>

<223> pCAG-2AeGFP partial sequence

<400> 8

gacattgatt attgactagt tattaatagt aatcaattac ggggtcatta gttcatagcc 60

catatatgga gttccgcgtt acataactta cggtaaatgg cccgcctggc tgaccgccca 120

acgacccccg cccattgacg tcaataatga cgtatgttcc catagtaacg ccaataggga 180

ctttccattg acgtcaatgg gtggactatt tacggtaaac tgcccacttg gcagtacatc 240

aagtgtatca tatgccaagt acgcccccta ttgacgtcaa tgacggtaaa tggcccgcct 300

ggcattatgc ccagtacatg accttatggg actttcctac ttggcagtac atctacgtat 360

tagtcatcgc tattaccatg ggtcgaggtg agccccacgt tctgcttcac tctccccatc 420

tcccccccct ccccaccccc aattttgtat ttatttattt tttaattatt ttgtgcagcg 480

atgggggcgg gggggggggg ggcgcgcgcc aggcggggcg gggcggggcg aggggcgggg 540

cggggcgagg cggagaggtg cggcggcagc caatcagagc ggcgcgctcc gaaagtttcc 600

ttttatggcg aggcggcggc ggcggcggcc ctataaaaag cgaagcgcgc ggcgggcggg 660

agtcgctgcg ttgccttcgc cccgtgcccc gctccgcgcc gcctcgcgcc gcccgccccg 720

gctctgactg accgcgttac tcccacaggt gagcgggcgg gacggccctt ctcctccggg 780

ctgtaattag cgcttggttt aatgacggct cgtttctttt ctgtggctgc gtgaaagcct 840

taaagggctc cgggagggcc ctttgtgcgg gggggagcgg ctcggggggt gcgtgcgtgt 900

gtgtgtgcgt ggggagcgcc gcgtgcggcc cgcgctgccc ggcggctgtg agcgctgcgg 960

gcgcggcgcg gggctttgtg cgctccgcgt gtgcgcgagg ggagcgcggc cgggggcggt 1020

gccccgcggt gcgggggggc tgcgagggga acaaaggctg cgtgcggggt gtgtgcgtgg 1080

gggggtgagc agggggtgtg ggcgcggcgg tcgggctgta acccccccct gcacccccct 1140

ccccgagttg ctgagcacgg cccggcttcg ggtgcggggc tccgtacggg gcgtggcgcg 1200

gggctcgccg tgccgggcgg ggggtggcgg caggtggggg tgccgggcgg ggcggggccg 1260

cctcgggccg gggagggctc gggggagggg cgcggcggcc cccggagcgc cggcggctgt 1320

cgaggcgcgg cgagccgcag ccattgcctt ttatggtaat cgtgcgagag ggcgcaggga 1380

cttcctttgt cccaaatctg tgcggagccg aaatctggga ggcgccgccg caccccctct 1440

agcgggcgcg gggcgaagcg gtgcggcgcc ggcaggaagg aaatgggcgg ggagggcctt 1500

cgtgcgtcgc cgcgccgccg tccccttctc catctccagc ctcggggctg tccgcagggg 1560

gacggctgcc ttcggggggg acggggcagg gcggggttcg gcttctggcg tgtgaccggc 1620

ggctctagcg cctctgctaa ccatgttcat gccttcttct ttttcctaca gctcctgggc 1680

aacgtgctgg ttattgtgct gtctcatcat tttggcaaag ctagtgaatt ctaatacgac 1740

tcactatagg ccgccaccat gcccaagaag aagaggaagg ttcccggggc tagcccaaag 1800

aagaagagga aagtctctag atacccttat gatgttccag attatgccgg atacccatac 1860

gatgtccctg actatgcagg ctcctaccct tatgacgtcc cagactacgc cggatccagg 1920

tccggcggcg gagagggcag aggaagtctt ctaacatgcg gtgacgtgga ggagaatccc 1980

ggcccaatgg tgagcaaggg cgaggagctg ttcaccgggg tggtgcccat cctggtcgag 2040

ctggacggcg acgtaaacgg ccacaagttc agcgtgtccg gcgagggcga gggcgatgcc 2100

acctacggca agctgaccct gaagttcatc tgcaccaccg gcaagctgcc cgtgccctgg 2160

cccaccctcg tgaccaccct gacctacggc gtgcagtgct tcagccgcta ccccgaccac 2220

atgaagcagc acgacttctt caagtccgcc atgcccgaag gctacgtcca ggagcgcacc 2280

atcttcttca aggacgacgg caactacaag acccgcgccg aggtgaagtt cgagggcgac 2340

accctggtga accgcatcga gctgaagggc atcgacttca aggaggacgg caacatcctg 2400

gggcacaagc tggagtacaa ctacaacagc cacaacgtct atatcatggc cgacaagcag 2460

aagaacggca tcaaggtgaa cttcaagatc cgccacaaca tcgaggacgg cagcgtgcag 2520

ctcgccgacc actaccagca gaacaccccc atcggcgacg gccccgtgct gctgcccgac 2580

aaccactacc tgagcaccca gtccgccctg agcaaagacc ccaacgagaa gcgcgatcac 2640

atggtcctgc tggagttcgt gaccgccgcc gggatcactc tcggcatgga cgagctgtac 2700

aagtaactgc agcgcgggga tctcatgctg gagttcttcg cccaccccaa cttgtttatt 2760

gcagcttata atggttacaa ataaagcaat agcatcacaa atttcacaaa taaagcattt 2820

ttttcactgc attctagttg tggtttgtcc aaactcatca atgtatctta 2870

<210> 9

<211> 1533

<212> DNA

<213> Artificial Sequence

<220>

<223> BPK2104-ccdB partial sequence

<400> 9

tcactgcccg ctttccagtc gggaaacctg tcgtgccagc tgcattaatg aatcggccaa 60

cgcgcgggga gaggcggttt gcgtattggg cgccagggtg gtttttcttt tcaccagtga 120

gacgggcaac agctgattgc ccttcaccgc ctggccctga gagagttgca gcaagcggtc 180

cacgctggtt tgccccagca ggcgaaaatc ctgtttgatg gtggttaacg gcgggatata 240

acatgagctg tcttcggtat cgtcgtatcc cactaccgag atgtccgcac caacgcgcag 300

cccggactcg gtaatggcgc gcattgcgcc cagcgccatc tgatcgttgg caaccagcat 360

cgcagtggga acgatgccct cattcagcat ttgcatggtt tgttgaaaac cggacatggc 420

actccagtcg ccttcccgtt ccgctatcgg ctgaatttga ttgcgagtga gatatttatg 480

ccagccagcc agacgcagac gcgccgagac agaacttaat gggcccgcta acagcgcgat 540

ttgctggtga cccaatgcga ccagatgctc cacgcccagt cgcgtaccgt cttcatggga 600

gaaaataata ctgttgatgg gtgtctggtc agagacatca agaaataacg ccggaacatt 660

agtgcaggca gcttccacag caatggcatc ctggtcatcc agcggatagt taatgatcag 720

cccactgacg cgttgcgcga gaagattgtg caccgccgct ttacaggctt cgacgccgct 780

tcgttctacc atcgacacca ccacgctggc acccagttga tcggcgcgag atttaatcgc 840

cgcgacaatt tgcgacggcg cgtgcagggc cagactggag gtggcaacgc caatcagcaa 900

cgactgtttg cccgccagtt gttgtgccac gcggttggga atgtaattca gctccgccat 960

cgccgcttcc actttttccc gcgttttcgc agaaacgtgg ctggcctggt tcaccacgcg 1020

ggaaacggtc tgataagaga caccggcata ctctgcgaca tcgtataacg ttactggttt 1080

cacattcacc accctgaatt gactctcttc cgggcgctat catgccatac cgcgaaaggt 1140

tttgcgccat tcgatggtgt ccgggatctc gacgctctcc cttatgcgac tcctgcatta 1200

ggaaattaat acgactcact ataggggaat tgtgagcgga taacaattcc cctgtagaaa 1260

taattttgtt taactttaat aaggagatat catatgccca agaagaagag gaaggttccc 1320

ggggctagtc atcaccatca ccaccatcat caccatcact aggcggccgc ataatgctta 1380

agtcgaacag aaagtaatcg tattgtacac ggccgcataa tcgaaattaa tacgactcac 1440

tatagggaat tcggtacctg agaataacta gcataacccc ttggggcctc taaacgggtc 1500

ttgaggggtt ttttgctgaa acctcaggca ttt 1533

<210> 10

<211> 410

<212> DNA

<213> Artificial Sequence

<220>

<223> pUC19-U6 partial sequence

<220>

<221> misc_feature

<222> (283)..(289)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (297)..(375)

<223> n is a, c, g, or t

<400> 10

tgtaaaacga cggccagtga attcgagggc ctatttccca tgattccttc atatttgcat 60

atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 120

ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 180

ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 240

gctttatata tcttgtggaa aggacgaaac accggagaga ccnnnnnnng gtctcannnn 300

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 360

nnnnnnnnnn nnnnnaagct tggcgtaatc atggtcatag ctgtttcctg 410

<210> 11

<211> 476

<212> DNA

<213> Artificial Sequence

<220>

<223> pUC19-U6-AasgRNA1 partial sequence

<400> 11

tgtaaaacga cggccagtga attcgagggc ctatttccca tgattccttc atatttgcat 60

atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 120

ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 180

ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 240

gctttatata tcttgtggaa aggacgaaac accgggtcta aaggacagaa tttttcaacg 300

ggtgtgccaa tggccacttt ccaggtggca aagcccgttg aacttctcaa aaagaacgct 360

cgctcagtgt tctgacgtcg gatcactgag cgagcgatct gagaagtggc acagagaccg 420

agagagggtc tcattttttt taagcttggc gtaatcatgg tcatagctgt ttcctg 476

<210> 12

<211> 476

<212> DNA

<213> Artificial Sequence

<220>

<223> pUC19-U6-AksgRNA partial sequence

<400> 12

tgtaaaacga cggccagtga attcgagggc ctatttccca tgattccttc atatttgcat 60

atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 120

ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 180

ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 240

gctttatata tcttgtggaa aggacgaaac accggtcgtc tataggacgg cgaggacaac 300

gggaagtgcc aatgtgctct ttccaagagc aaacaccccg ttggcttcaa gatgaccgct 360

cgctcagcga tctgacaacg gatcgctgag cgagcggtct gagaagtggc acagagaccg 420

agagagggtc tcattttttt taagcttggc gtaatcatgg tcatagctgt ttcctg 476

<210> 13

<211> 484

<212> DNA

<213> Artificial Sequence

<220>

<223> pUC19-U6-AmsgRNA partial sequence

<400> 13

tgtaaaacga cggccagtga attcgagggc ctatttccca tgattccttc atatttgcat 60

atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 120

ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 180

ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 240

gctttatata tcttgtggaa aggacgaaac accggggaat tgccgatcta taggacggca 300

gattcaacgg gatgtgccaa tgcactcttt ccaggagtga acaccccgtt ggcttcaaca 360

tgatcgcccg ctcaacggtc cgatgtcgga tcgttgagcg ggcgatctga gaagtggcac 420

agagaccgag agagggtctc atttttttta agcttggcgt aatcatggtc atagctgttt 480

cctg 484

<210> 14

<211> 471

<212> DNA

<213> Artificial Sequence

<220>

<223> pUC19-U6-BssgRNA partial sequence

<400> 14

tgtaaaacga cggccagtga attcgagggc ctatttccca tgattccttc atatttgcat 60

atacgataca aggctgttag agagataatt ggaattaatt tgactgtaaa cacaaagata 120

ttagtacaaa atacgtgacg tagaaagtaa taatttcttg ggtagtttgc agttttaaaa 180

ttatgtttta aaatggacta tcatatgctt accgtaactt gaaagtattt cgatttcttg 240

gctttatata tcttgtggaa aggacgaaac accggccata agtcgactta catatccgtg 300

cgtgtgcatt atgggcccat ccacaggtct attcccacgg ataatcacga ctttccacta 360

agctttcgaa tgttcgaaag cttagtggaa agcttcgtgg ttagcacaga gaccgagaga 420

gggtctcatt ttttttaagc ttggcgtaat catggtcata gctgtttcct g 471

<210> 15

<211> 101

<212> DNA

<213> Artificial Sequence

<220>

<223> tracrRNA

<400> 15

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaaaga acgctcgctc agtgttctga c 101

<210> 16

<211> 36

<212> DNA

<213> Artificial Sequence

<220>

<223> crRNA

<400> 16

gtcggatcac tgagcgagcg atctgagaag tggcac 36

<210> 17

<211> 137

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 17

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaaaga acgctcgctc agtgttctga cgtcggatca ctgagcgagc 120

gatctgagaa gtggcac 137

<210> 18

<211> 141

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 18

aactgtctaa aggacagaat ttttcaacgg gtgtgccaat ggccactttc caggtggcaa 60

agcccgttga acttctcaaa aagaacgctc gctcagtgtt ctgacgtcgg atcactgagc 120

gagcgatctg agaagtggca c 141

<210> 19

<211> 139

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 19

ctgtctaaag gacagaattt ttcaacgggt gtgccaatgg ccactttcca ggtggcaaag 60

cccgttgaac ttctcaaaaa gaacgctcgc tcagtgttct gacgtcggat cactgagcga 120

gcgatctgag aagtggcac 139

<210> 20

<211> 127

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 20

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaaaga acgctcgctc agtgttatca ctgagcgagc gatctgagaa 120

gtggcac 127

<210> 21

<211> 99

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 21

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaaaga acgatctgag aagtggcac 99

<210> 22

<211> 93

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 22

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaaagc tgagaagtgg cac 93

<210> 23

<211> 91

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 23

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaagctg agaagtggca c 91

<210> 24

<211> 91

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 24

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaaaactg agaagtggca c 91

<210> 25

<211> 89

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 25

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctcaagcgag aagtggcac 89

<210> 26

<211> 87

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 26

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt ctaagcagaa gtggcac 87

<210> 27

<211> 85

<212> DNA

<213> Artificial Sequence

<220>

<223> sgRNA scaffold

<400> 27

gtctaaagga cagaattttt caacgggtgt gccaatggcc actttccagg tggcaaagcc 60

cgttgaactt caagcgaagt ggcac 85

Claims

1.一种用于对细胞基因组中的靶序列进行定点修饰的基因组编辑系统，其包含以下i)至v)中至少一项：

i)C2c1蛋白或其变体，和向导RNA；

其中所述向导RNA能够与所述C2c1蛋白或其变体形成复合物，将所述C2c1蛋白或其变体靶向所述细胞基因组中的靶序列，导致所述靶序列中的一或多个核苷酸的取代、缺失和/或添加，

其中所述C2c1蛋白是来自Alicyclobacillus acidiphilus的AaC2c1蛋白或者来自Alicyclobacillus kakegawensis的AkC2c1蛋白，其中所述AaC2c1蛋白由SEQ ID NO:1所示的氨基酸序列组成，或者所述AaC2c1蛋白的变体包含与SEQ NO:1具有至少80％序列相同性的氨基酸序列并且具有野生型AaC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性，并且其中所述AkC2c1蛋白由SEQ ID NO:5所示的氨基酸序列组成，或者所述AkC2c1蛋白的变体包含与SEQ NO:5具有至少80％序列相同性的氨基酸序列并且具有野生型AkC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。

2.权利要求1的系统，其中所述AaC2c1蛋白的变体相对于SEQ ID NO:1所示的野生型AaC2c1蛋白包含氨基酸取代R785A并且具有野生型AaC2c1蛋白的RNA介导的DNA结合活性和/或DNA切割活性。

3.权利要求1或2的系统，其中所述AaC2c1蛋白的变体是核酸酶死亡的AaC2c1和脱氨酶的融合蛋白，所述脱氨酶是能够接受单链DNA作为底物的胞嘧啶脱氨酶或能够接受单链DNA作为底物的腺嘌呤脱氨酶。

4.权利要求3的系统，其中所述核酸酶死亡的AaC2c1在相对于SEQ ID NO:1所示的野生型AaC2c1蛋白的第785位的氨基酸被取代。

5.权利要求4的系统，其中所述核酸酶死亡的AaC2c1相对于SEQ ID NO:1所示的野生型AaC2c1蛋白包含氨基酸取代R785A。

6.权利要求1的系统，其中所述向导RNA是sgRNA。

7.权利要求6的系统，所述sgRNA由选自以下之一的核酸序列编码：

其中N_x表示X个连续的核苷酸组成的核苷酸序列，其能够与靶序列的互补序列特异性杂交，N各自独立地选自A、G、C和T；X为18≤X≤35的整数。

8.权利要求7的系统，其中X＝20。

9.一种对细胞基因组中的靶序列进行定点修饰的方法，包括将权利要求1的系统导入细胞中。

10.权利要求9的方法，其中所述细胞来自哺乳动物、家禽或植物。

11.权利要求10的方法，其中所述哺乳动物选自人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；所述家禽选自鸡、鸭、鹅；所述植物选自水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥。

12.权利要求9-11中任一项的方法，其中所述系统通过选自以下的方法导入所述细胞：磷酸钙转染、电穿孔、脂质体转染、微注射、病毒感染、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

13.权利要求1的基因组编辑系统在制备用于治疗有需要的对象中的疾病的药物组合物中的用途，其中所述基因组编辑系统用于修饰所述对象中与所述疾病相关的基因。

14.权利要求13的用途，其中所述对象是哺乳动物。

15.权利要求14的用途，其中所述对象是人。

16.权利要求13-15中任一项的用途，其中所述疾病选自肿瘤、炎症、帕金森病、心血管疾病、阿尔茨海默病、自闭症、药物成瘾、年龄相关性黄斑变性、精神分裂症和遗传性疾病。

17.一种用于治疗有需要的对象中的疾病的药物组合物，其包含权利要求1的基因组编辑系统和药学可接受的载体，其中所述基因组编辑系统用于修饰所述对象中与所述疾病相关的基因。

18.权利要求17的药物组合物，其中所述对象是哺乳动物。

19.权利要求18的药物组合物，其中所述对象是人。

20.权利要求17-19中任一项的药物组合物，其中所述疾病选自肿瘤、炎症、帕金森病、心血管疾病、阿尔茨海默病、自闭症、药物成瘾、年龄相关性黄斑变性、精神分裂症和遗传性疾病。