CN102787125A

CN102787125A - 一种构建tale重复序列的方法

Info

Publication number: CN102787125A
Application number: CN2012102761046A
Authority: CN
Inventors: 黄鹏; 张博; 林硕; 肖安
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2011-08-05
Filing date: 2012-08-03
Publication date: 2012-11-21
Anticipated expiration: 2032-08-03
Also published as: CN102787125B

Abstract

本发明公开了用于构建TALE重复序列的旁单元，其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段，所述的重复单元DNA片段编码含有NI、NG、HD、NK或NN的重复可变二残基RVD的重复单元或其变体，其中，在5’端同尾酶或平末端酶的识别位点中，识别位点的3’端至少有1个核苷酸参与编码旁单元N端的氨基酸；在其3’端同尾酶或平末端酶的识别位点中，识别位点的5’端至少有1个核苷酸参与编码旁单元C端的氨基酸。本发明可以很方便地构建含有任意重复单元数、任意排列顺序的TALE重复序列，含有TALE重复序列的质粒载体，以及编码TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的质粒载体。

Description

一种构建TALE重复序列的方法

技术领域

本发明属于分子生物学领域，涉及一种构建TALE重复序列的方法。

背景技术

对内源基因进行定点修饰不论对于生物学基础研究还是临床治疗都具有极大的吸引力。虽然人工锌指核酸酶（zinc finger nuclease）的出现大大促进了基因组靶向修饰技术，但是筛选出能够高效、特异结合特定DNA序列的锌指蛋白仍然是一个相当大的技术难题。来自于植物病原体Xanthomonas的transcription activator-like effector（TALE）能够侵染植物宿主，通过识别特异的DNA序列调控宿主植物内源基因的表达，降低宿主的抵抗力，提高其易感性（图1）。目前已知TALE家族有超过100个基因成员（Boch,J.& Bonas,U.,2010,Annu Rev Phytopathol,48:419-436.）。研究表明，TALE蛋白中的DNA结合结构域具有特异性识别并结合DNA序列的特性（Boch,J.et al.,Science,2009,326:1509-1512.），它主要由1到33个长度为33-35个氨基酸残基的重复单位（或称重复单元）串联后，再加上末尾的一个含有20个氨基酸残基的半重复单位构成；此外，位于重复区两端的部分非重复序列（N端的136个氨基酸和C端的63个氨基酸）对于TALE蛋白识别并结合DNA的效率和特异性也有重要帮助（图1）。即一个活性和特异性较高的TALE蛋白的DNA结合结构域除了包含1.5-33.5个TALE重复单位之外，应该还包括其N端和C端的部分非重复序列。其中每个重复单位以及末尾的半重复单位可特异地识别并结合一个特定的核苷酸靶位点。在每个重复单位中，+12和+13位的氨基酸残基是实现靶向识别特异DNA碱基的关键位点，被称作重复可变二残基（repeat variable di-residue，简称RVD）位点；其它位点的氨基酸残基则相对固定（图1）。不同的RVD能够分别特异识别A、T、C、G四种碱基。由此可见，相对于锌指蛋白，TALE结合DNA的方式更便于预测和设计，因此在生命科学基础理论研究、疾病模型建立、疾病预防与治疗，以及农林牧渔业经济物种遗传改造等领域具有广阔的应用前景。将TALE的DNA结合结构域与其它蛋白质不同的功能结构域融合后，可以得到各种衍生的融合蛋白，这样，在理论上就能够对特定的基因组位点进行靶向突变和修饰。例如，与FokI核酸内切酶的切割结构域融合后，能够对基因组的特定靶位点进行定向切割，从而实现基因打靶（Christian,M.et al.,2010,Genetics,186:757-761.）；与转录激活结构域或抑制结构域融合后，能够特异调控靶基因的表达（Zhang,F.et al.,2011,Nat Biotechnol,29:149-153.）；与甲基化结构域融合后，应该能够甲基化基因组上的特定位点。TALE的DNA结合结构域与FokI的切割结构域融合形成的人工蛋白质称为TALE核酸酶（TALE nuclease，简称TALEN）（图3中的a）。目前，基于TALE的DNA改造技术越来越受到人们的青睐，而构建识别特定DNA序列的TALE就成为了这一技术中的关键步骤。然而，为了保证TALE蛋白识别DNA序列的特异性，人工构建的TALE蛋白DNA结合结构域通常需要含有10个以上的重复单元，总长度大于1000bp。因此，TALE串联重复序列的构建难度较大，成为TALE应用中的主要瓶颈。目前，构建TALE串联重复序列及TALE蛋白DNA结合结构域的主要方法包括人工合成全长的TALE序列，以及基于Golden Gate的载体克隆技术等两种方法。Golden Gate的基本原理如下：把IIS类限制性内切酶的识别位点分别反向放置在任何一段DNA片段的5’和3’端，通过酶切反应，识别位点本身被切除，并在5’和3’留下粘性末端。如果两段DNA序列具有互补的粘性末端，就可以通过连接反应连接在一起。将多段序列分别设计具有序列不同的互补性的粘性末端，就可以通过一次连接反应将这些序列顺序连接起来（Engler,C.et al.,2009,PLoS ONE,4:e5553.）（图2）。AvrBs3是TALE家族的一个蛋白，它含有17.5个重复单元，每个重复单元含有34个氨基酸。以AvrBs3为框架，通过PCR对分别包括识别四种碱基的RVD的4种重复单位两端引入BsaI的酶切位点和粘性末端序列，可以得到17×4=68种基础模块。由于Golden Gate法每次可以高效连接9个DNA片段，因此可以分两次连接，最终得到含有17.5个重复单位的人工TALE蛋白，该蛋白可识别长度为18个核苷酸的特异的DNA序列（Weber,E.et al.,2011,PLoS ONE,6:e19722.）。Morbitzer等人也报道了分两步构建TALE的类似方法（Morbitzer,R.et al.,2011,Nucleic Acids Res,39:5790-5799.）。另外一种方法对上述的Golden Gate方法进行了一定的改进，主要利用了在每一对天然存在的TALE重复单元之间交界位置的Gly-Leu双氨基酸的编码序列。根据密码子的简并性，编码这两个氨基酸的密码子一共有四个碱基可替换（编码Gly有4个密码子，编码Leu有6个密码子），因此一共可以有24种不同的组合。这样就可以人为设计出24种不同的TALE重复单元的交界序列。在具体实验中，可以先使用12对不同的PCR引物对每一种RVD重复进行克隆，并加入IIS类内切酶的识别位点。酶切后，将每4个重复进行连接，并用PCR进行扩增，得到3组4-重复体；再次酶切、连接并PCR扩增，得到12-重复体。最后连入目的载体中（Zhang,F.et al.,2011,Nat Biotechnol,29:149-153.）。还有一种稍有不同的方法则是利用了存在于AvrBs3等TALE中的IIS型限制性内切酶BsmBI的酶切位点。它紧邻于+18和+19位的密码子，即GCGCTG之后。使用BsmBI酶切后，可产生GCTG凸出的粘性末端。根据密码子的简并性，GC（A/T/C/G）（T或C）TG这8种密码子组合都能产生与内源编码相同的氨基酸密码子，从而可以人工设计出8种不同的粘性末端。接下来分别合成带有这8种末端的含有识别4种碱基的RVD的模块，一共分为8组。使用BsmBI酶切后，可得到独特的5’和3’粘性末端，顺序连接，一次可以合成8个识别特定DNA序列的重复单位。经过二次连接可获得识别16个或24个碱基的重复序列（Li,T.et al.,2011,Nucleic Acids Res,doi:10.1093/nar/gkr188）。总之，这些方法都是基于Golden Gate的载体构建理念，人为地在重复单元的两侧设计出不同的粘性末端序列，并依次连接而成。

直接合成法最大的缺陷在于价格昂贵，并且合成大于1000bp的DNA的成功率和准确率很低。基于Golden Gate的方法在最初需要比较复杂的PCR引物和DNA片段设计，以便得到合适的粘性末端序列，从而将重复序列依次顺序连接。在实验过程中需要构建大量的载体或使用很多引物，有时还需要PCR扩增。而且，Golden Gate的方法是一步法进行酶切和连接，条件控制严格而复杂，需要较长的摸索和调整，效率和成功率有待更多的实践和时间检验。此外，基于一步法连接能够连接的片段长度有限，得到超过10个重复单元的效率因而非常低下。虽然可以通过分步连接获得更多的重复，但是同时又增加了实验操作的难度。这些问题的存在使已知的方法限制了快速常规地构建TALE。

发明内容

为了解决上述问题，本发明提供一种简便的构建TALE重复序列及TALE蛋白DNA结合结构域编码载体的方法，可称为“单元组装”法。

本发明首先提供用于构建TALE重复序列的旁单元，其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段，所述的重复单元DNA片段编码含有NI、 NG、HD、NK或NN的重复可变二残基（RVD）的重复单元或其变体，其中，在5’端同尾酶或平末端酶的识别位点中，识别位点的3’端至少有1个核苷酸参与编码旁单元N端的氨基酸；在3’端同尾酶或平末端酶的识别位点中，识别位点的5’端至少有1个核苷酸参与编码旁单元C端的氨基酸。

本领域技术人员应该理解，本发明所述的重复单元包括本领域技术人员已知的TALE重复单元，或者其变体。本领域技术人员也应当理解，在TALE天然重复序列的非保守区域或非功能区域，如非RVD区域、+14位Gly和+15位Gly，添加、删除或改变一个或几个氨基酸不会影响其重复单元的功能（即识别与结合DNA的能力）。

其中，所述的同尾酶切割后通过粘末端相连或平末端酶切割后平末端连接后的旁单元不改变重复单元氨基酸的编码。

本发明选用了NI、NG、HD、NK和NN这五种重复可变二残基（RVD）用于构建TALE重复中的“旁单元”，它们分别对应识别A、T、C和G等4种核苷酸（其中NK和NN都对应G）。

本发明中，所述的旁单元编码的重复单元的氨基酸序列如SEQ ID No.1~15任一所示，所述的旁单元的核苷酸序列如SEQ IDNo.16~30任一所示。

本发明还提供含有所述的旁单元序列的单一旁单元载体。

在本发明所述单一旁单元载体的一个实施方案中，为了便于进行基因工程操作，还可以在同尾酶或平末端酶识别位点的外侧设计至少一个其它的内切酶识别位点。本发明单一旁单元载体的一个具体实施方案中，在NheI的识别位点的外侧添加了HindIII识别位点。

本发明还提供含有任意重复数、任意排列顺序的旁单元串联重复序列，含有任意重复数、任意排列顺序的旁单元串联重复序列的载体，以及含有所述的旁单元串联重复序列的编码人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的载体。

本发明还提供所述的旁单元串联重复序列的构建方法，其包括如下步骤：

1）用所述的同尾酶分别切割任意旁单元，再将切割的任意旁单元通过粘末端相连，获得头尾相接、串联排列的双旁单元；

2）重复采用步骤1）所述的酶切-连接的操作组装成含有任意重复单元数的旁单元串联重复序列；或

1）用所述的平末端酶分别切割任意旁单元，再将切割的任意旁单元平末端相连，获得获得头尾相接、串联排列的双旁单元；

2）重复采用步骤1）所述的酶切－连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复序列。

本发明还提供所述的含有旁单元串联重复序列的载体的构建方法，其特征在于，包括如下步骤：

1）用所述的互为同尾酶中的一个和所述的内切酶切割任意一个单一旁单元载体，用所述的互为同尾酶中的另一个和所述的内切酶切割任意另一个单一旁单元载体，再将两者含有旁单元的酶切产物进行连接，获得双旁单元载体，该载体含有头尾相接、串联排列的两个旁单元；

2）重复采用步骤1）所述的酶切－连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体；或

1）用其中一个平末端酶和所述的内切酶切割任意一个单一旁单元载体，用其中另一个平末端酶和所述的内切酶切割任意另一个单一旁单元载体，再将两者含有旁单元的酶切产物进行连接，获得双旁单元载体，该载体含有头尾相接、串联排列的两个旁单元；

2）重复采用步骤1）所述的酶切－连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复载体。

在本发明的一个实施方案中，所述的旁单元DNA片段编码典型的天然TALE重复单元中存在的+11位氨基酸残基Ser起至下一重复单元+10位氨基酸残基Ala为止之间的氨基酸序列。通过序列分析后发现，编码Ser的密码子序列为tcn/agt/agc，与之相连的上一个旁单元3’端编码的第一个氨基酸残基应为Ala，相应的密码子为gcn，两个密码子的序列合起来是gcntcn/gcnagt/gcnagc。通过分析发现，限制性内切酶SpeI的识别位点为actagt，该识别位点的3’端的3个核苷酸agt恰好编码该旁单元编码产物N端的氨基酸残基Ser；此外，其完成切割后留下的3’端核苷酸序列是ctagt，因此不会改变该旁单元编码产物N端的第一个氨基酸残基Ser。这样就可以选择SpeI作为该旁单元5’端的一个候选的同尾酶，即将该旁单元的5’端前6位核苷酸的序列设计成SpeI的识别位点。上述序列C端的氨基酸残基为Ala，相应的密码子序列为gcn，与之相连的下一个旁单元5’端编码的第一个氨基酸残基应为Ser，相应的密码子为tcn/agt/agc，两个密码子的序列合起来是gcntcn/gcnagt/gcnagc。通过分析发现，SpeI的同尾酶NheI的识别位点恰好为gctagc。这样就可以选择NheI作为该旁单元3’端的同尾酶，即将该旁单元的3’端最后6位核苷酸的序列设计成NheI的识别位点。对于任意一种TALE单一重复旁单元载体或其变体，使用NheI+HindIII双酶切后，可产生两侧带有粘性末端并且包含旁单元的载体骨架；使用SpeI+HindIII进行双酶切后，可获得两侧带有粘性末端并且主要包含旁单元的DNA片段。由于SpeI和NheI是同尾酶，因此只需要通过简单的连接反应，便可以获得一个带有两个头尾相接、串联排列的旁单元重复单位的双旁单元载体（图3中的c）。同时，连接后获得的双旁单元载体仍然只在双旁单元的5’和3’端分别含有SpeI和NheI的识别位点，而经过上一步同尾连接后产生的新位点actagc将不再被这两种酶所识别，从而可以对这种双旁单元载体继续进行上述的酶切－连接反应，而不会破坏已经连接在一起的双旁单元内部的编码序列。此外，虽然连接后的重复单元序列发生了一个单碱基的变化，即从agt变成agc，但是并不影响其编码功能，依然编码同样的氨基酸（Ser）。因此，上述酶切－连接的操作并不会改变重复单元中的氨基酸序列，而只是将两个旁单元串联在一起。这些双旁单元编码载体可以接下来用来构建含有更多重复单元的多旁单元载体。例如，若要构建一个包含9到16个重复单元的旁单元串联重复载体，只需从双旁单元载体开始，经过3轮简单的酶切－连接循环操作就可以完成，费时不超过一周（图4和图6）。更长的旁单元串联重复序列可以很容易地通过更多的酶切－连接循环反应构建出来。这样，在理论上能够构建含有任意重复单元数、任意排列顺序的旁单元串联重复载体。

本发明还提供编码TALE蛋白DNA结合结构域载体的构建方法，其包括如下步骤：当完成了旁单元串联重复载体的构建后，便可以将其中的旁单元串联重复序列通过亚克隆的方法连入包含TALE蛋白的部分或全部N端和C端非重复序列区编码序列与部分重复单元编码序列的质粒载体中，以获得完整的编码TALE蛋白DNA结合结构域的DNA片段与相应的表达载体。

在本发明的一个实施方案中，采用了pCS2-N+C载体，构建所述的TALE蛋白DNA结合结构域的编码载体。

pCS2-N+C质粒的构建方法如下：PCR扩增Xanthomonas axonopodis pv.citri中pthA 基因的编码紧邻TALE重复序列的N端136aa和C端63aa的序列、编码天然重复单元中5’端的10个氨基酸残基的序列和编码天然TALE重复序列3’端的最后0.5个重复单元中+11位至末端的氨基酸残基的序列（扩增pthA基因N端136aa编码序列+天然重复单元中5’端的10个氨基酸编码序列的引物对：5’-GATGGTACCGTGGATCTACGCACGCTCG-3’，5’-GCCATTGCTAGCGATGGCCACCACCTGCT-3’；扩增天然TALE重复序列3’端的最后0.5个重复单元中+11位至末端的氨基酸残基的编码序列+pthA基因C端63aa编码序列的引物对：Tsense（用于扩增识别T的0.5个重复单元）：5’-GCCATCGCTAGCAATGGCGGCGGCAGGC-3’，Asense（用于扩增识别A的0.5个重复单元）：5’-CATCGCTAGCAATATTGGCGGCAGGCCGGCG-3’，Gsense（用于扩增识别G的0.5个重复单元）：5’-CATCGCTAGCAACAATGGCGGCAGGCCGGCG-3’，Csense（用于扩增识别C的0.5个重复单元）：5’-CATCGCTAGCCATGACGGCGGCAGGCCGGCG-3’，antisense（通用引物）：5’-GATGGATCCGGCAACGCGATGGGATGTG-3’），连入pCS2质粒中。可以进一步通过分子克隆，将该人工TALE蛋白DNA结合结构域跟其它蛋白结构域融合，得到各种衍生的融合蛋白，从而实现对基因组的定点遗传操作或修饰（图5、图9和图12）。例如，如果需要进行基因打靶，就可以将构建好的TALE重复序列通过亚克隆的方法接入pCS2-FokI载体中，构建出编码并表达TALE核酸酶（TALEN）的载体（pCS2-TALEN）（图5、图9和图12）。pCS2-FokI载体是在pCS2-N+C质粒的基础上，进一步将FokI核酸酶切割结构域的编码序列连接到该载体编码区的C端而成（图5、图9和图12）。

本发明的关键点在于：

1.未使用自然的TALE重复单元，而是提出了“旁单元”的概念，采用了自然重复单元中的任意一位氨基酸残基（例如+11位氨基酸残基Ser）的编码序列起至下一重复单元前一位氨基酸残基（例如上例中的+10位氨基酸残基Ala）的编码序列为止之间的序列作为新的重复单元，并在其两端选择/设计同尾酶或不同平末端酶的识别位点，构建出新的序列组合，并将这样的DNA片段称为旁单元，从而简化了TALE重复序列以及TALE蛋白DNA结合结构域及其各种衍生的融合蛋白编码序列的构建。

2.使用了常规的III类限制性核酸内切酶，构建TALE重复序列只需要循环进行简单的酶切－连接等常规操作，大大简化了实验的技术难度。

3.充分利用了同尾酶对（例如NheI和SpeI）识别序列不同但是酶切后产生的粘性末端相同的特点，可以通过切割单一旁单元或多旁单元两端的同尾酶识别位点，将两段编码序列串联在一起；同时，同尾连接后由粘性末端组合产生的新的核苷酸序列不会再被同样的同尾酶对识别，而在新产生的多旁单元序列的两侧则仍然保留了原有同尾酶对的识别位点，这样就可以继续重复酶切－连接的操作，构建重复数更多的新的多旁单元串联序列，而不会破坏已经串联在一起的重复序列（重复单元）。

本发明的有益效果：第一，真正的模块化操作。只需要首先构建含有可分别识别4种单核苷酸的五种最基本的单一旁单元载体，就可以通过简单的酶切－连接循环操作，组装出含有任意重复单元数的旁单元串联重复载体，并通过将旁单元串联重复序列亚克隆到适当的载体质粒中，进一步构建出人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的编码载体。而在Golden Gate方法中，需要针对每一种特定的重复单元在整个重复序列中所处的位置，在两侧设计不同的粘性末端序列，造成起始单元的数量很多，操作起来相对繁琐。第二，本方法具有累积效应。在每次旁单元串联重复序列的构建实验中，每一步酶切、连接后所得到的包括n个重复单元的中间载体均可以保留下来，为构建其它含有相同的n个重复单元（＝识别同样的核苷酸序列）的旁单元串联重复序列所用，都可以作为起始的合成材料直接使用，而不必每次都从单个的旁单元开始载体构建，从而节省时间和成本。可见，随着旁单元串联重复序列构建数目的增加以及中间载体的积累，在后续的新载体的构建过程中可以借鉴的前期构建的中间载体会越来越多，从而使新载体的构建工作会越来越方便、快捷。而之前的所有方法，都只能针对特定的某一个基因的靶序列合成相应的TALE重复序列，终产物通过一步法或者分步法酶切、连接得到，没有或者只有少量中间产物积累，而这些产物也很难再应用于其它实验。第三，可以快速组装含有任意重复单元数量、任意排列顺序的旁单元串联重复序列，无重复数量的上限。而基于Golden Gate的方法，一次连接反应超过10个片段后，效率将会大大降低。第四，大大节约成本。不需要大量的引物构建基本重复单元，无需复杂的实验方法和特殊的连接酶，所有使用的酶均为常规的限制性内切酶，实验操作也很简便，无需特殊的条件。每一个有条件从事基本分子生物学实验的实验室均可以操作。

附图说明

图1所示为TALE蛋白功能结构域示意图和天然TALE重复单元的氨基酸序列特征。其中，a为TALE蛋白功能结构域示意图；b为典型的天然TALE重复单元的氨基酸序列特征（修改自Boch,J.& Bonas,U.,2010,Annu Rev Phytopathol,48:419-436.）。

图2所示为通过Golden Gate技术构建重复单元的原理示意图（修改自Engler,C.et al.,2009,PLoS ONE,4:e5553.）。

图3所示为本发明“单元组装”法的设计原理和起始单一旁单元载体与AT双旁单元载体的构建示例。其中，a为天然TALE重复单元和“单元组装”法使用的旁单元所编码的氨基酸序列示意图（以识别A核苷酸的NI旁单元为例），典型的TALE天然重复单元为34个氨基酸（图中“天然重复单元示例”中的阴影部分所示），“单元组装”法使用的旁单元的编码产物从第+11位氨基酸开始（图中“本发明的旁单元示例”中的阴影部分所示），可以通过同尾酶NheI和SpeI进行操作；b为五种基本的旁单元载体结构示意图，它们分别编码不同的RVD，即NI、NG、NN、NK和HD，分别对应识别单核苷酸A、T、G和C（其中NN和NK都识别G）；c图为通过同尾酶NheI和SpeI分别与HindIII组合进行双酶切和连接反应，得到一种双旁单元载体的过程，图中以识别AT的双旁单元载体的构建为例进行说明；d为NheI+HindIII和SpeI+HindIII酶切单一旁单元载体的电泳结果。

图4所示为利用“单元组装”法构建特定旁单元串联重复序列的设计方案及工作流程示例。

图5所示为利用旁单元串联重复序列构建用于基因打靶的TALEN表达载体的过程示意图。

图6所示为构建用于tnikb基因打靶载体的旁单元串联重复序列的过程示意图；其中，a为斑马鱼tnikb基因的靶位点示意图，小写字母显示第一个内含子的序列，大写字母代表第二个外显子的序列，序列中下划线部分分别标记左侧和右侧的两个TALEN结合位点；b图示以双旁单元载体作为起始材料，使用“单元组装”法，经过三轮酶切－连接循环，构建出识别左侧结合位点的旁单元串联重复序列的过程以及PCR检测结果；c图示以双旁单元载体作为起始材料，使用“单元组装”法，经过三轮酶切-连接循环，构建出识别右侧结合位点的旁单元串联重复序列的过程以及PCR检测结果。

图7所示为利用TALEN靶向突变斑马鱼tnikb基因的效果检测。其中，野生型和FokI均为对照组，NN和NK代表不同TALEN中所使用的识别核苷酸G的RVD。

图8所示为本发明设计并构建的可识别单核苷酸靶位点的单一旁单元载体的结构示意图（包括五种分别识别A、T、C、G的单一旁单元载体，其中识别G的有RVD为NN和NK的两种不同的载体）。

图9所示为本发明利用“单元组装”法构建的含有旁单元串联重复序列的质粒（pMD-TALE）结构示意图。

图10所示为本发明中用于通过pMD-TALE亚克隆来构建编码完整的TALE蛋白DNA结合结构域的载体的pCS2-N+C质粒的结构示意图。

图11所示为本发明构建完成的TALE终载体pCS2-TALE（编码完整的TALE蛋白DNA结合结构域）的质粒结构示意图。

图12所示为本发明中用于通过pMD-TALE亚克隆来构建基因打靶载体TALEN的pCS2-FokI质粒的结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1构建单一旁单元载体

首先人工合成编码五种（依RVD的类型分类）本发明依据同尾酶位点与典型的TALE重复单元编码序列选定的旁单元序列的DNA片段（表1所列的序列）。事先需要对各旁单元使用的密码子进行仔细的挑选，以尽可能地降低各旁单元之间DNA序列的相似性。同时，由于天然重复单元中+4位的氨基酸残基至少存在A、D、E等3种可能性，这样，就由五种旁单元衍生出了本实例所列的15个序列变体。接下来，利用PCR对这五种DNA片段（15个变体）进行扩增。上游引物分别为：Afwd:5’-ACTAGTAATATTGGTGGCAAACAGGCTCTTG-3’(SEQ ID No.39)、Tfwd:5’-ACTAGTAATGGGGGTGGCAAACAGGCTCTTG-3’(SEQ ID No.40)、Cfwd:5’-ACTAGTCATGACGGTGGCAAACAGGC TCTTG-3’(SEQ ID No.41)、GNNfwd:5’-ACTAGTAACAATGGTGG CAAACAGGCTCTTG-3’(SEQ ID No.42)、GNKfwd:5’-ACTAGT AACAAAGGTGGCAAACAGGCTCTTG-3’(SEQ ID No.43)，下游引物均为 rev:5’-AAGCTTGCTAGCAATCGCTACAACTTG-3’(SEQ ID No.44)。将扩增片段连接到pMD18T-simple载体（TaKaRa公司）中。这样得到的质粒在旁单元序列两侧包含有SpeI和NheI的识别位点，还包括一个在载体骨架上引入的、位于NheI下游附近、起辅助作用的HindIII位点（图3中的b和图8）。

表1本发明采用的旁单元及其编码序列示例

注：粗体标记的是RVD及其对应的密码子，下划线标记的是旁单元的编码区序列，斜体标记的是SpeI和NheI的识别位点

实施例2构建双旁单元载体及含有n个重复数的旁单元串联重复载体

为构建双旁单元载体，根据需要识别的两个指定的核苷酸（可以相同或不同），选取相应的两个单一旁单元载体，识别5’端碱基的载体用NheI+HindIII进行双酶切，识别3’端碱基的载体用SpeI+HindIII进行双酶切，然后将两条含有旁单元序列的DNA片段进行连接，从而获得旁单元串联排列的双旁单元载体（图3中的c和图3中的d）。选择分别识别A、T、C、G四种核苷酸的五种基本的单一旁单元载体，两两进行组合连接，一共可以获得25种双旁单元组合，可对应识别全部16种可能的双核苷酸靶位点的组合。使用类似的酶切－连接循环，可以构建识别任意长度、任意排列顺序的核苷酸序列的旁单元串联重复载体（图4）。

实施例3利用“单元组装”法构建识别斑马鱼内源基因tnikb靶序列的旁单元串联重复载体

通过分析找到了位于斑马鱼基因tnikb的一个靶位点，它位于tnikb第一个内含子和第二个外显子交界处。由于FokI切割结构域需要以二聚体的形式切割DNA，因此，在利用TALEN进行基因打靶时，需要设计左侧和右侧两个TALE结合位点，中间的间隔序列（spacer）的长度一般为12~21bp。本实施例中左侧TALE结合位点的长度为15bp，右侧为16bp，两个结合位点之间的间隔为15bp（图6中的a）。左侧结合位点的序列为5’-GTTATTTTCTCCCCT-3’（SEQ ID No.37）。构建结合上述位点的TALE重复序列的步骤如下：第一步，利用实施例1构建的双旁单元载体作为起点，两两酶切、连接，构建可识别四碱基GTTA、TTTT、CTCC的4-单位串联重复旁单元载体；第二步，在4-单位串联重复旁单元载体的基础上，将GTTA和TTTT进行酶切、连接，构建可识别八碱基GTTATTTT的串联重复旁单元载体；通过CTCC和CC酶切、连接，得到可识别六碱基CTCCCC的串联重复旁单元载体；第三步，将上述两个分别识别八碱基和六碱基的串联重复旁单元载体进行酶切、连接，得到可识别除最后一个T之外的整个左侧结合位点的旁单元串联重复载体（图6中的b）。本实施例中编码识别最后一个核苷酸T的部分序列（即0.5单元编码序列）位于用来插入上述旁单元串联重复序列的后续载体（pCS2-N+C或pCS2-FokI）中。右侧结合位点的序列为5’-CCACCAGCTCAAAAAT-3’（SEQ ID No.38），使用类似的酶切－连接循环操作，可以很容易地得到可识别除最后一个T之外的整个右侧结合位点的旁单元串联重复载体（图6中的c）。

实施例4构建识别tnikb靶位点的TALEN表达载体（pCS2-TALEN）

首先通过SpeI和NheI双酶切，将识别tnikb基因靶位点的旁单元串联重复序列片段从上述旁单元串联重复载体中切出；同时用NheI对pCS2-FokI质粒进行单酶切，并去磷酸化防止自连发生（图5）。然后通过连接反应将上述旁单元串联重复序列片段和线性化的pCS2-FokI载体连接，得到备选的TALEN表达载体（pCS2-TALEN）（图11）。通过DNA测序最终选择出插入方向正确的质粒。

本实施例中使用的pCS2-FokI质粒的构建方法如下：PCR扩增Xanthomonas axonopodis pv.citri中pthA基因内紧邻TALE重复序列的N端163aa的编码序列(引物对：5’-GATGGTACCGTGGATCTACGCACGCTCG-3’（SEQ ID No.31），5’-GCCATTGCTAGCGATGGCCACCACCTGCT-3’（SEQ ID No.32）)和C端63aa的编码序列、天然重复单元的5’端10个氨基酸的编码序列和天然TALE重复序列3’端的最后0.5个重复单元中+11位至末端的氨基酸残基的编码序列(引物对：5’-GCCATCGCTAGCAATGGCGGCGGCAGGC-3’（SEQ ID No.33），5’-GATGGATCCGGCAACGCGATGGGATGTG-3’（SEQ ID No.34）），分别连入pCS2质粒中，获得pCS2-N+C质粒（图10）。将FokI的切割结构域克隆到pCS2-N+C质粒中编码区的C端下游得到pCS2-FokI质粒（图12）。

实施例5体外转录获得mRNA

将实施例4构建的TALEN表达载体（pCS2-TALEN）使用NotI进行酶切，纯化得到线性化模板，使用SP6mMESSAGE mMACHINE试剂盒（Ambion公司）进行体外转录实验，获得加帽的mRNA产物。

实施例6检测TALEN对斑马鱼内源基因tnikb的基因打靶效果

向单细胞期斑马鱼胚胎注射400pg实施例5制备的靶向tnikb基因的TALENmRNA对。注射后的胚胎于28.5℃饲养在E3培养基（5mM NaCl,0.17mM KCl,0.33mMCaCl₂,0.33mM MgSO₄）中，在胚胎发育到2dpf（days post fertilization）时，取发育正常的胚胎提取基因组DNA，使用tnikb靶位点两侧的引物进行PCR扩增，（5’-AGGGAAATATTAAATCACAAGAAA-3’（SEQ ID No.35）,5’-GAACCAGATCAAACAGAAAAGTC-3’（SEQ ID No.36）），可以得到大小为353bp的DNA。取2μL PCR产物，使用BamHI（TaKaRa公司）在30℃酶切2小时，使用2%的琼脂糖凝胶进行电泳分析。由于BamHI位于靶位点之中（两个TALEN结合位点之间的spacer中），因此，在野生型对照组中酶切后只能够检测到258bp和95bp的完全酶切条带；但是在注射了TALEN的mRNA之后，则能够看到出现了部分未被切割的条带。这说明部分细胞中的tnikb靶位点受到了破坏（图7），从而失去了BamHI的酶切位点。测序结果证实TALEN能够有效地造成DNA双链断裂，从而导致DNA以非同源重组的末端连接的方式进行修复，并导致产生插入/缺失（indel）突变。上述结果证明了TALEN能够有效地对斑马鱼的内源基因进行靶向定点修饰。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.用于构建TALE重复序列的旁单元，其为两端含有同尾酶或不同的平末端酶识别位点的重复单元DNA片段，所述的重复旁单元的DNA片段编码含有NI、NG、HD、NK或NN的重复可变二残基RVD的重复氨基酸单元或其变体，其中，在5’端同尾酶或平末端酶的识别位点中，识别位点的3’端至少有1个核苷酸参与编码旁单元N端的氨基酸；在3’端同尾酶或平末端酶的识别位点中，识别位点的5’端至少有1个核苷酸参与编码旁单元C端的氨基酸。

2.根据权利要求1所述的旁单元，其特征在于，所述的同尾酶切割后同尾相连或平末端酶切割后平末端连接后的旁单元不改变重复单元氨基酸的编码。

3.根据权利要求1所述的旁单元，其特征在于，所述的重复单元DNA片段编码典型的天然TALE重复单元中存在的+11位氨基酸残基Ser起至下一重复单元+10位氨基酸残基Ala为止之间的氨基酸序列，所述的同尾酶为SpeI和NheI。

4.根据权利要求3所述的旁单元，其特征在于，所述的旁单元编码的重复单元的氨基酸序列如SEQ ID No.1~15任一所示。

5.根据权利要求3所述的旁单元，其特征在于，所述的旁单元的核苷酸序列如SEQID No.16~30任一所示。

6.含有权利要求1~5任一项所述的旁单元的单一旁单元载体。

7.根据权利要求6所述的单一旁单元载体，其特征在于，其中同尾酶或平末端酶识别位点的外侧还含有其它的内切酶识别位点，所述的内切酶识别位点不含于旁单元序列中，并且不同于所述的同尾酶或平末端酶识别位点。

8.根据权利要求7所述的单一旁单元载体，其特征在于，所述的其它的内切酶识别位点为Hind III识别位点。

9.含有任意重复数的权利要求1~5任一项所述的旁单元的旁单元串联重复序列。

10.含有权利要求9所述旁单元串联重复序列的旁单元串联重复载体。

11.含有权利要求9所述的旁单元串联重复序列的编码人工TALE蛋白DNA结合结构域及其衍生的各种融合蛋白的载体。

12.根据权利要求9所述的载体，其特征在于，还含有天然TALE蛋白的N端和C端非重复序列区的部分或全部编码序列及部分重复单元的编码序列及其变体。

13.权利要求9所述的旁单元串联重复序列的构建方法，其特征在于，包括如下步骤：

2）重复采用步骤1）所述的酶切－连接的操作组装成含有任意重复单元数、任意排列顺序的旁单元串联重复序列；或

1）用所述的平末端酶分别切割任意旁单元，再将切割的任意旁单元平末端相连，获得头尾相接、串联排列的双旁单元；

14.权利要求10所述的旁单元串联重复载体的构建方法，其特征在于，包括如下步骤：