CN103695452B

CN103695452B - 一种多模块dna文库及转录激活子样效应因子核酸酶质粒的构建方法

Info

Publication number: CN103695452B
Application number: CN201310659979.9A
Authority: CN
Inventors: 吴昭; 孙文页
Original assignee: SHANGHAI SIDANSAI STEM CELL TECHNOLOGY CO LTD
Current assignee: Shanghai Xuxu Technology Co.,Ltd.
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2017-01-11
Anticipated expiration: 2033-12-09
Also published as: CN103695452A

Abstract

本发明公开了一种DNA文库及转录激活子样效应因子核酸酶质粒的构建方法，一种转录激活子样效应因子连接单元库，包括16组×n个双碱基识别模块和4组×m个单碱基识别模块，每个双碱基识别模块或单碱基识别模块两末端均有经二类限制性内切酶酶切形成第一粘性末端和第二粘性末端，n表示每组双碱基识别模块的数量，m表示每组单碱基识别模块的数量；DNA库包括与Tale连接单元库的连接单元数量相同的质粒，每个质粒包含一个碱基序列互异的连接单元，连接单元两末端与原始载体连接处有BsaⅠ酶切位点。采用本发明的DNA库用于构建转录激活子样效应因子核酸酶质粒，识别模块的酶切和连接能在一个反应中进行，可实现一步将19‑26个识别模块连接起来，速度快，效率高，操作简单，材料易于保存，成本低。

Description

一种多模块DNA文库及转录激活子样效应因子核酸酶质粒的构建方法

技术领域

本发明涉及基因工程领域，尤其涉及一种TALE连接单元库、包含该TALE连接单元库中所有TALE连接单元的DNA文库以及转录激活子样效应因子核酸酶质粒的构建方法。

背景技术

按照人类的意愿对基因组进行定向靶向修饰一直是许多科学家的梦想。在内源的基因组上特异地删除或加入我们需要的序列，一方面可以构建出各种动物模型用于生物学基础研究和疾病机理研究，另一方面可以生产动物反应器用以廉价生产我们需要的又很难从其他途径得到的生物组分。人们一直没有找到简单高效的方法对基因组进行基因组靶向修饰。传统的基因打靶技术依赖于细胞内自然发生的同源染色体随机交换，其打靶效率非常低，通常只有10^-6-10^-8，这种打靶方法只在小鼠中得到了广泛了应用，而在其他模式动物及大型哺乳动物中都因效率太低而得不到广泛应用。

2009年两个研究组发现植物病原体Xanthomonas中的一种可以调节植物基因表达的转录激活子样效应因子（transcription activator-like effector，TALE）表现出DNA结合特异性，而其识别密码具有模块化和简单化的特点，为科学家们开发出更简易的新型基因组靶向修饰技术带来了新希望。

TALE与Fok1融合后即形成转录激活子样效应因子核酸酶（transcriptionactivator-like effector nucleases，TALEN）。TALEs由数十个特异性识别DNA的串联“蛋白模块”和两侧的N-末端及C-末端序列组成。每个“蛋白模块”包含34个氨基酸，第12和13位残基是靶向识别的关键位点，被称作重复可变的di-residues（RVDs）位点。

实践中，TALEN技术大大提高了基因打靶效率，应用范围和可操作性，但如何把十几个高度重复的DNA的识别模块组装起来成为了TALEN广泛应用的一个限制因素。研究者们在怎样制作TALEN做出了各种各样的努力。有的采用化学合成的方法，有的采用两步分子克隆的方法，也有的采用一步分子克隆的方法。但都有各自的缺陷，因为需合成的DNA高度重复的序列化学合成非常困难，成本也非常高；两步法因为需两步连接所以材料成本、时间成本、测序成本都较高；现在公开的唯一一个可一步连接的方法最多只能连接14个识别模块，而自然界中常见的识别模块的长度为12-23，在实际应用中很多情况需要大于14个识别模块的TALEN，14个片段长度的限制不止影响此种方法应用，而且不利于TALEN特异性的提高，并且因其需要酶切，纯化，再连接造成操作繁琐，工艺流程复杂，酶切纯化后的DNA保存困难，特别是单链的尾巴容易降解。

以前有研究者用单模块连接TALEN，如连接18个识别模块，一个反应连接18个片段难度非常大，世界范围内还没有人能实现；以前也有建立在双模块基础上的研究，但其只能连接14个识别模块。

发明内容

本发明还提供一种转录激活子样效应因子（TALE）连接单元库，利用该连接单元库可以连接19个以上的识别模块。

本发明还提供了利用上述连接单元库，连接TALENs识别模块的方法。

技术方案为：

I.转录激活子样效应因子核酸酶质粒的构建方法，包括连接TALENs识别模块的连接，步骤包括：

（1）根据所需识别目的基因靶序列的碱基序列，从多模块单元库中选择对应的连接单元；

所述的多模块单元库包括包括16组×n个双碱基连接单元和4组×m个单碱基识别连接单元，同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同；所需识别的碱基序列长度为2*n+2-m至2*n+1；优选的，n=10-15，m=3-9；本发明的一个优选方式中，n=12，m=7；

所述的单碱基连接单元为识别一个碱基的单碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组单碱基连接单元的粘性末端碱基序列一一对应相同；对单碱基连接单元进行顺序编号，第k个单碱基连接单元I的第二粘性末端与第k+1个单碱基连接单元I的第一粘性末端互补，1≤k≤m-1。所述的单碱基识别模块为编码SEQ ID No.1～4所示氨基酸序列的核苷酸。

所述的双碱基连接单元为识别双碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同。所述的双碱基识别模块为编码SEQ ID No.5～20所示氨基酸序列的核苷酸。

每组双碱基连接单元分为两个部分，第一部分的双碱基连接单元数量为p个，对第一部分双碱基连接单元进行顺序编号，第i个双碱基连接单元的第二粘性末端与第i+1个双碱基连接单元的第一粘性末端互补，1≤i≤p-1；第二部分的双碱基连接单元数量为q个，对第二部分双碱基连接单元进行顺序编号为p+2～n+1，第j个双碱基连接单元的第二粘性末端与第j+1个双碱基连接单元的第一粘性末端互补，p+2≤j≤n+1。其中，每组第一部分的最后一个双碱基连接单元（即第p个双碱基连接单元）的第二粘性末端与编号为第p+1个单碱基连接单元的第一粘性末端互补。每组第二部分的第一个双碱基连接单元（即编号为p+2的双碱基连接单元）的第一粘性末端与编号第p+1个单碱基连接单元的第二粘性末端互补，1<p+1≤m。各组双碱基识别模块的粘性末端碱基序列一一对应相同。优选的，识别4种碱基的第p+1个单碱基识别模块的核苷酸序列如SEQ ID No.21～24所示。其中含有酶切位点，在连接后可酶切测序。

（2）将所选的n+1个连接单元依次相连，每个连接单元第二粘性末端与下一个连接单元的第一粘性末端互补。

具体为，将n+1个连接单元用DNA连接酶连接在一起形成TALENs识别模块，每个连接单元第二粘性末端与下一个连接单元的第一粘性末端互补。连接单元可以是单碱基连接单元或双碱基连接单元；TALENs识别模块的第p+1个连接单元为前述单元库中第p+1个单碱基连接单元，TALENs识别模块的第m+1个至最后一个（即第n+1个）连接单元为双碱基连接单元，TALENs识别模块的第1至第p位、以及第p+2至第n+1位的连接单元为双碱基连接单元、单碱基连接单元或者双碱基连接单元与单碱基连接单元的混合。通过上述方法，所得到的TALENs识别模块可识别至2*n+2-m至2*n+1个碱基。

本发明的一个优选方式中，n=12，m=7；多模块单元库中，双碱基连接单元数量为12个，分为两组，编号为1～p和p+2～13，其第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～44+2×p和SEQ ID No.47+2×p～70的第9-12个碱基所示。单碱基连接单元为7个，编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQID No.21-34的第9-12个碱基所示。编号为p+1的单碱基连接单元第一粘性末端与编号为p的双碱基连接单元第二粘性末端互补，第二粘性末端与编号为p+2的双碱基连接单元第一粘性末端互补。p=2、3、4、5、6或7。

从单元库中选择13个双碱基或单碱基连接单元，用DNA连接酶连接在一起，相邻的两个连接单元之间以粘性末端互补。连接单元可以是单碱基连接单元或双碱基连接单元；TALENs识别模块的第p+1个连接单元为前述单元库中第p+1个单碱基连接单元，TALENs识别模块的第8个至第13个连接单元为双碱基连接单元，TALENs识别模块的第1至第p个、以及第p+2至第7个的连接单元为双碱基连接单元、单碱基连接单元或者双碱基连接单元与单碱基连接单元的混合。通过上述方法，可以一次连接识别长度为19-25个碱基的TALENs。再加上TALENs载体上已有的0-2个识别模块，利用上述的文库和连接方法可以一次连接能识别19-27个碱基的TALENs。

II.或者，转录激活子样效应因子核酸酶质粒的构建方法，包括连接TALENs识别模块的连接，步骤包括：

所述的多模块单元库包括：16组×（n+1）个双碱基连接单元和4组×m个单碱基识别连接单元，所需识别的碱基序列长度为2*n+2-m至2*n+2；n=10-15，m=3-9；

所述的单碱基连接单元为识别一个碱基的单碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组单碱基连接单元的粘性末端碱基序列一一对应相同；对单碱基连接单元进行顺序编号，第k个单碱基连接单元的第二粘性末端与第k+1个单碱基连接单元I的第一粘性末端互补，1≤k≤m-1；所述的单碱基识别模块为编码SEQ ID No.1～4所示氨基酸序列的核苷酸；

所述的双碱基连接单元为识别两个碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同；所述的双碱基识别模块为编码SEQ ID No.5～20所示氨基酸序列的核苷酸。

对每组双碱基连接单元进行编号，第L个双碱基连接单元的第二粘性末端与第L+1个双碱基连接单元的第一粘性末端互补，1≤L≤n；

每个单碱基或双碱基连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的第一粘性末端的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基；正义链的最后两个碱基为甘氨酸密码子的前两个碱基；沿5’-3’方向，反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸，第4个碱基的互补序列为甘氨酸密码子的最后一个碱基；反义链的前两个碱基的互补序列为甘氨酸密码子的前两个碱基；

同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同；

（2）用二类限制性内切酶和DNA连接酶，将连接单元重组接入TALENs载体中，用消化线性DNA的酶进行消化处理，得到转录激活子样效应因子核酸酶质粒。

通过上述方法，可以一次连接识别长度为19-26个碱基的TALENs。再加上TALENs载体上已有的0-2个识别模块，利用上述的文库和连接方法可以一次连接能识别19-28个碱基的TALENs。

优选的，步骤（1）中的多模块单元库中，连接单元连接在载体上。体为PMD18-T载体、topo载体、puc19载体或puc18。

优选的，步骤（2）中，同一体系内，用二类限制性内切酶和DNA连接酶，将连接单元重组接入TALENs载体中，用消化线性DNA的酶进行消化处理，得到转录激活子样效应因子核酸酶质粒。优选的，TALENs载体上还可以含有0个、1个或2个识别模块（所得到的转录激活子样效应因子核酸酶质粒识别的碱基数量比所连连模块的识别数量多0-2个）；并且TALENs载体中带有DNA切割蛋白基因，以及位于转录激活子样效应因子氨基酸序列框架N端和C端的碱基序列（分别如SEQ ID No.49和50）所示。

优选的，所述二类限制性内切酶为Bsa I、BsmB1、BsmA1、Bbs1，DNA连接酶为T4连接酶，消化线性DNA的酶为Plasmid-Safe核酸酶。

所述TALEN载体可选用pEF1a-NLS-TALE backbone-Fok1(R)-pA或pEF1a-NLS-TALEbackbone-Fok1(L)-IRES-PURO-pA，所述DNA切割蛋白基因即为Fok1。TALENs载体预先经二类限制性内切酶酶切，酶切产生的两个粘性末端分别与第1个碱基识别模块的第一粘性末端以及编号为第n+1个连接单元第二粘性末端互补。

通过上述操作，各识别模块之间能够顺序连接；同时，识别模块之间、识别模块与载体之间一旦连接上，就无法被二类限制性内切酶（type IIs enzyme）再切开，所以把几个片断和载体放在同一体系里，用二类限制性内切酶（type IIs enzyme）和DNA连接酶边切边连，即可一步把TALEN连接成功。

一种转录激活子样效应因子多模块连接单元库I，包括16组×n个双碱基连接单元和4组×m个单碱基识别连接单元，同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同；优选的，m=3-9，n=10-15。

所述的单碱基连接单元为识别一个碱基的单碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组单碱基连接单元的粘性末端碱基序列一一对应相同；对单碱基连接单元进行顺序编号，第k个单碱基连接单元的第二粘性末端与第k+1个单碱基连接单元I的第一粘性末端互补，1≤k≤m-1。所述的单碱基识别模块为编码SEQ ID No.1～4所示氨基酸序列的核苷酸。

每组双碱基连接单元分为两个部分，第一部分的双碱基连接单元数量为p个，对第一部分双碱基连接单元进行顺序编号，第i个双碱基连接单元的第二粘性末端与第i+1个双碱基连接单元的第一粘性末端互补，1≤i≤p-1；第二部分的双碱基连接单元数量为q个，对第二部分双碱基连接单元进行顺序编号为p+2～n+1，第j个双碱基连接单元的第二粘性末端与第j+1个双碱基连接单元的第一粘性末端互补，p+2≤j≤n+1。其中，每组第一部分的最后一个双碱基连接单元（即第p个双碱基连接单元）的第二粘性末端与编号为第p+1个单碱基连接单元的第一粘性末端互补。每组第二部分的第一个双碱基连接单元（即编号为p+2的双碱基连接单元）的第一粘性末端与编号第p+1个单碱基连接单元的第二粘性末端互补，1<p+1≤m。

4组单碱基连接单元或单碱基识别模块所编码的氨基酸分别识别A、T、C、G四种碱基。双碱基连接单元或双碱基识别模块所编码的氨基酸分别识别AA、AT、AC、AG、TT、TA、TC、TG、CC、CA、CT、CG、GG、GA、GT、GC。同一组的双碱基识别模块或单碱基识别模块识别同一对碱基或同一个碱基。

每个连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的第一粘性末端的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基；正义链的最后两个碱基为甘氨酸密码子的前两个碱基。沿5’-3’方向，反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸，第4个碱基的互补序列为甘氨酸密码子的最后一个碱基；反义链的前两个碱基的互补序列为甘氨酸密码子的前两个碱基。当相邻的连接单元通过互补的粘性末端连接到一起时，连接单元之间的正义链编码的氨基酸依次为甘氨酸和亮氨酸。

优选的，n=12，m=7，即连接单元库中，每组双碱基连接单元的数量为12，第一部分双碱基连接单元的数量为p，编号为1～p；第二部分双碱基连接单元的数量为12-p，编号为p+2～13；单碱基连接单元的数量为7，编号为1～7；编号为p+1的单碱基连接单元第一粘性末端与编号为p的双碱基连接单元第二粘性末端互补，第二粘性末端与编号为p+2的双碱基连接单元第一粘性末端互补。p=2、3、4、5、6或7，本发明的一个优选实施例中，p=4。

编号为1～p和p+2～13的双碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～44+2×p和SEQ ID No.47+2×p～70的第9-12个碱基所示。编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～-58的第9-12个碱基所示。

从文库中选取13个双碱基或单碱基连接单元，以互补的粘性末端依次连接在一起，可以一次连接识别长度为19-25个碱基的TALENs。再加上TALENs载体上已有的0-2个识别模块，利用上述的文库和连接方法可以一次连接能识别19-27个碱基的TALENs。

或者，一种转录激活子样效应因子多模块连接单元库II，包括16组×（n+1）个双碱基连接单元和4组×m个单碱基识别连接单元，同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同，m=3-9，n=10-15；

所述的双碱基连接单元为识别双碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同；对每组双碱基连接单元进行编号，第L个双碱基连接单元的第二粘性末端与第L+1个双碱基连接单元的第一粘性末端互补，1≤L≤n；所述的双碱基识别模块为编码SEQ ID No.5～20所示氨基酸序列的核苷酸。

每个连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的第一粘性末端的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基；正义链的最后两个碱基为甘氨酸密码子的前两个碱基。沿5’-3’方向，反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸，第4个碱基的互补序列为甘氨酸密码子的最后一个碱基；反义链的前两个碱基的互补序列为甘氨酸密码子的前两个碱基。当相邻的连接单元通过互补的粘性末端连接到一起时，连接单元之间的正义链编码的氨基酸依次为甘氨酸和亮氨酸。优选的，n=12，m=7；编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45-58的第9-12个碱基所示；编号为1～13的双碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～70的第9-12个碱基所示。

由于连接单元本身无法进行很好的保存和扩增，因此将连接单元插入相应的原始载体当中，构成环状结构，以便于保存和扩增。所述的DNA片段可以是重组质粒，也可以是PCR扩增产物，当选择为重组质粒时，原始载体可以是PMD18-T载体、topo、puc19、或puc18。

用二类限制性内切酶和DNA连接酶，将连接单元重组接入TALENs载体中，用消化线性DNA的酶进行消化处理，得到转录激活子样效应因子核酸酶质粒。优选的，在TALENs载体上含有0个、1个或2个识别模块；并且TALENs载体中带有DNA切割蛋白基因，以及位于转录激活子样效应因子氨基酸序列框架N端和C端的碱基序列。所述的位于转录激活子样效应因子氨基酸序列框架N端和C端的碱基序列分别如SEQ ID No.49和50所示。

单个连接单元（识别单碱基或者双碱基）的结构如图5所示，粘性末端有4个碱基，沿5’-3’方向，正义链的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基，正义链的最后两个碱基为甘氨酸密码子的前两个碱基，反义链的第1～3个碱基的互补序列编码亮氨酸。

本发明所述的单碱基识别模块是指该Tale连接单元编码的氨基酸能够识别碱基A、T、C、G。所述的双碱基识别模块是指Tale连接单元编码的氨基酸能够识别AA、AT、AC、AG、TT、TA、TC、TG、CC、CA、CT、CG、GG、GA、GT、GC。同一组的双碱基识别模块或单碱基识别模块识别同一对碱基或同一个碱基。

上述连接单元库I的构建方法为，在单碱基识别模块和双碱基识别模块两端加上酶切位点。步骤包括：编号为1～m的单碱基连接单元的构建：以含有单碱基识别模块的载体为模板，以m对引物序列F₁/R₁～F_m/R_m为引物对进行PCR扩增。编号为1～p和p+2～n+1的双碱基连接单元的构建：以含有双碱基识别模块的载体为模板，以n对引物序列F₁/R₁～F_p/R_p、F_p+2/R_p+2～F_n+1/R_n+1为引物对进行PCR扩增。

本发明优选的方案中，m=7，n=12；这一单元库构建方法为，编号为1～7的单碱基连接单元的构建：以7对引物序列F₁/R₁～F₇/R₇为引物对进行PCR扩增（正向引物F₁～F₇的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；反向引物R₁～R₇的核苷酸序列包括：二类限制性内切酶位识别序列、第二粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；优选的F₁/R₁～F₇/R₇为SEQ ID No.21～34的序列）。每组双碱基连接单元的构建：编号为1～p和p+2～13的双碱基连接单元的构建：分别以引物序列F₁～F_p和F_p+2～F₁₃为引物对进行PCR扩增（正向引物F₁～F_p和F_p+2～F₁₃的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；反向引物R₁～R_p和R_p+2～R₁₃的核苷酸序列二类限制性内切酶位识别序列、第二粘性末端序列以及与编码单碱基识别模块核苷酸序列前10～20位碱基互补的核苷酸序列，优选的R₁～R_p和R_p+2～R₁₃为SEQ ID No.21～20+2×p和SEQ ID No.23+2×p～46的序列）。

每个DNA片段包含一个碱基序列互异的连接单元，连接单元两末端与DNA片段的其余部分连接处有二类限制性内切酶酶切位点。也就是说，利用二类限制性内切酶（type IIsenzyme）对DNA片段进行酶切，就可以得到所述的Tale连接单元。

以20ul连接体系计为：载体：40-200ng；识别模块：50-200ng/识别模块；二类限制性内切酶：0.5-2μL；DNA连接酶：0.5-2ulμL；DNA连接酶缓冲液：2μL；双蒸水：补足至20μL。

连接程序优选为：37℃5min；16℃10min，20个循环；80℃，10min。

所述的带有DNA切割蛋白以及转录激活子样效应因子氨基酸序列框架N端和C端的载体的碱基序列可以如SEQ ID NO.49和50所示。

步骤（2）中，所述的消化线性质粒的质粒酶可以为Plasmid-Safe核酸酶。因为连接时会有连接不完全现象，只连接上部分片段，这种连接不完全的线性DNA会通过重组的方式降低连接的效率，因此，在转化之前用可以消化线性DNA的酶Plasmid-Safe^TMATP-DependentDNase（Epicentre，货号：E3105K）进行消化处理，可以消化线性DNA，提高连接效率。

本发明以24种识别模块为基础，通过设计合适的引物，可以构建得到含有220个连接单元（含有能识别一个或两个碱基的识别模块、二类限制性内切酶位点）的DNA文库；通过该DNA文库，可以把识别模块的酶切和连接放在一个反应中进行，避免了识别模块酶切后的纯化、再连接步骤，提高了生产效率，改进了生产工艺，可以实现一步将19-25个识别模块快速连接起来，得到连接转录激活子样效应因子核酸酶（TALEN）质粒。

本发明可一次连接能识别19-26个碱基的TALEN，再加上质粒所带的0-2个识别模块，所得到的载体可以识别19-28个碱基。

本发明方法使用的识别单元是质粒或质粒的PCR产物，避免了保存酶切产物中遇到的末端单链尾巴破坏和降解的问题，且操作步骤更简单，更节约成本。

附图说明

图1为实施例1中，DNA文库中192个双碱基连接单元示意图；

图2为实施例1中，DNA文库中24个单碱基连接单元I和4个单碱基连接单元II示意图。

图3为最终载体pEF1a-NLS-TALE backbone-Fok1(R)-pA示意图。

图4为最终载体pEF1a-NLS-TALE backbone-Fok1(L)-IRES-PURO-pA示意图。

图5为25个识别模块连接时的连接步骤示意图。

图6为本发明连接单元的结构示意图。

图7为不同数量的识别碱基的相应单双模的选择块示意图。

图8为实施例2中的电泳图（圈中为酶切正确的克隆）；其中，中间为200kb的DNAMarker，marker左面为连接二的酶切图，右面为连接一的酶切图。

具体实施方式

以下实施例中所使用的技术，包括PCR扩增与检测、细胞转染等分子生物学技术，以及细胞培养、检测技术等，除非特别说明，均为本领域内的技术人员已知的常规技术；所使用的仪器设备、试剂和细胞系等，除非是本说明书特别注明，均为一般本领域的研究和技术人员可以通过公共途径获得的。

实施例1 TALENs识别模块之间的连接及重组载体的构建

本发明的一个优选方式中，n=12，m=7，p=4；多模块单元库中，双碱基连接单元数量为12个，分为两组，编号为1～4和6～13，其第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45-52和SEQ ID No.55-70的第9-12个碱基所示。每组单碱基连接单元为7个，编码的氨基酸序列如编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45-58的第9-12个碱基所示。编号为5的单碱基连接单元第一粘性末端与编号为4的双碱基连接单元第二粘性末端互补，第二粘性末端与编号为6的双碱基连接单元第一粘性末端互补。编号为5的单碱基连接单元中，识别模块核苷酸序列如SEQ IDNo.41～44所示。

1、24个识别模块（modular）的获得

（1）分别识别4个单碱基A、T、C、G以及16个双碱基AA、AT、AC、AG、TA、TT、TC、TG、CA、CT、CC、CG、GA、GT、GC、GG的20个识别模块NI、NG、HD、NN、NI5、NG5、HD5、NN5、NI-NI、NI-NG、NI-HD、NI-NN、NG-NI、NG-NG、NG-HD、NG-NN、HD-NI、HD-NG、HD-HD、HD-NN、NN-NI、NN-NG、NN-HD、NN-NN的氨基酸序列如表1，分别如SEQ ID NO:1-20所示；编码识别4个单碱基A、T、C、G和A5、T5、C5、G5以及16个双碱基AA、AT、AC、AG、TA、TT、TC、TG、CA、CT、CC、CG、GA、GT、GC、GG的20个识别模块NI、NG、HD、NN、NI-NI、NI-NG、NI-HD、NI-NN、NG-NI、NG-NG、NG-HD、NG-NN、HD-NI、HD-NG、HD-HD、HD-NN、NN-NI、NN-NG、NN-HD、NN-NN、NI5、NG5、HD5、NN5的上述模块的碱基序列见表2，分别如SEQ ID NO:21-44所示。

表1

表2

2.将基本模块加上酶切位点和接头制作220个质粒库

本实施例中，每组双碱基连接单元的数量为12个，分为两部分，第一部分的数量为4个（如图1中为标号AA1-AA4），第二部分的数量为8个（如图1中为标号AA6-AA13），即n=12，p=4。

每组单碱基连接单元的数量为7个，第5个单碱基连接单元第一粘性末端与每组双碱基连接单元第一部分的第四个双碱基连接单元第二粘性末端与互补，即m=7。

即如图2和图1所示，A5的第一粘性末端与AA4的第二粘性末端互补，A5的第二粘性末端与AA6的第一粘性末端互补。

（1）PCR扩增添加酶切识别序列和连接接头

以F1、R1；F2、R2；F3、R3；F4、R4；F6、R6；F7、R7；F8、R8；F9、R9；F10、R10；F11、R11；F12、R12；F13、R13为引物，以含有16个双模块的T载体为模板做PCR，共16×12=192个；

以F1、R1；F2、R2；F3、R3；F4、R4；F6、R6；F7R7为引物，以含有4个单模块A、T、C、G的T载体为模板做PCR，共4×6=24个；

以引物F5、R5为引物，以含有单模块A5、T5、C5、G5的T载体为模板做PCR，共4个；

共192+24+4=220个。

PCR体系：Plasmid：1ul；Primers：0.1ul+0.1ul；Buffer：1.5ul；dNTP：0.8ul；Mgso4:0.35ul；水：11.48ul；DNA聚合酶：1单位。

PCR程序：95度2min；95度15s，55.8度30s，68度22s，36个循环；68度1min。

F1、R1；F2、R2；F3、R3；F4、R4；F5、R5；F6、R6；F7、R7；F8、R8；F9、R9；F10、R10；F11、R11；F12、R12；F13、R13引物的序列见表2，分别如SEQ ID NO:45-70所示。26条引物都带有Bsa Ⅰ酶切识别序列GGTCTCN‘NNNN。这个酶属于type IIs enzymes，同一个酶切识别序列可以产生多个粘性识别末端，理论上可以产生4⁴个粘性识别末端，再加上每个模块的结尾和开头Gly密码子4种，Leu密码子6种的限制，利用一个type IIs enzyme可以产生24种接头。选取其中的13种设计了引物。引物对序列为BsaⅠ酶切识别序列GGTCTCN‘NNNN、粘性末端及与识别模块互补的10～20个碱基。

表3

TALE-F1	CggtctcCTGACCCCAGAGCAGGTCGTGG
		TALE-R1	CggtctcTtaaaCCGTGCGCTTGGCAC
TALE-F2	CggtctcGtttaACCCCAGAGCAGGTCGTG
		TALE-R2	CggtctcTGAGGCCGTGCGCTTGGCAC
TALE-F3	CggtctcGCCTCACCCCAGAGCAGGTCGTG
		TALE-R3	CggtctcTTAATCCGTGCGCTTGGCAC
TALE-F4	CggtctcGATTAACCCCAGAGCAGGTCGTG
		TALE-R4	CggtctcTAAGTCCGTGCGCTTGGCAC
TALE-F5	CggtctcGACTTACCCCAGAGCAGGTCGTG
		TALE-R5	CggtctcTAAGGCCaTGgGCcTGaCAgAGgAC
TALE-F6	CggtctcGCCTTACCCCAGAGCAGGTCGTG
		TALE-R6	CggtctcTTAGTCCGTGCGCTTGGCAC
TALE-F7	CggtctcGACTAACCCCAGAGCAGGTCGTG
		TALE-R7	CggtctcTGAGCCCGTGCGCTTGGCAC
TALE-F8	CggtctcGGCTCACCCCAGAGCAGGTCGTG
		TALE-R8	CggtctcTTAGCCCGTGCGCTTGGCAC
TALE-F9	CggtctcGGCTAACCCCAGAGCAGGTCGTG
		TALE-R9	CggtctcTTAAGCCGTGCGCTTGGCAC
TALE-F10	CggtctcGCTTAACCCCAGAGCAGGTCGTG
		TALE-R10	CggtctcTTAGGCCGTGCGCTTGGCAC
TALE-F11	CggtctcGCCTAACCCCAGAGCAGGTCGTG
		TALE-R11	CggtctcTTAACCCGTGCGCTTGGCAC
TALE-F12	CggtctcGGTTAACCCCAGAGCAGGTCGTG
		TALE-R12	CggtctcTAAGACCGTGCGCTTGGCAC
TALE-F13	CggtctcGTCTTACCCCAGAGCAGGTCGTG
		TALE-R13	CggtctcTGAGTCCGTGCGCTTGGCAC

注：小写字母为BsaⅠ酶切识别序列。

（2）将220个PCR产物进行胶回收纯化，连接入PMD18-T体系将24个基本模块片段连入PMD18-T载体（购自Takara），连接方法为：①取PCR产物2.7μl；②加入3μl solution1和0.3ul PMD18-T载体；③16℃，2h；④转化DH5a感受态细胞，涂布氨苄霉素平板；⑤挑取克隆、小量提取质粒、PCR鉴定、测序，最后得到连接到载体PMD18-T中的带有BsaⅠ酶切位点和不同接头的220个质粒库。最后得到172质粒库示意图如图1所示。

其中，单个连接单元的结构如图6所示，每个连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的前端即第一粘性末端的第2～4个碱基编码亮氨酸，正义链第一粘性末端的第1个碱基为甘氨酸密码子的最后一个碱基，正义链的最后两个碱基为甘氨酸密码子的前两个碱基。反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸。

PCR库的获得

首先用引物assem-F、assem-R，以220个质粒库为模板PCR，得到220个PCR库。引物所结合的位置分别在识别模块的上下游400bp左右处，加上识别模块PCR片段大小约为1050bp（双模块）或950bp（单模块）。

表4

assem-F	TGTTGTGTGGAATTGTGAGCGGATAAC
		assem-R	TGCAAGGCGATTAAGTTGGGTAACG

PCR扩增体系（50μL）为：DNA模板：0.5μL（约50ng）；引物：每个0.3μL（50μM）；pfx酶（Invitrogen）：0.25μL；10×buffer：5μL；dNTP：2.5μL（2.5μM）；MgSO₄：1μL；ddH₂O：40.15μL。

PCR程序：95℃，2min；95℃，15s，68℃，30s，68℃，50s，36个循环；68℃，5min。

PCR产物纯化：将所得的PCR产物进行琼脂糖凝胶电泳，确定浓度。使用天根公司的通用型DNA纯化回收试剂盒（离心柱型）纯化PCR片段，纯化后在进行琼脂糖凝胶电泳标定各个产物的浓度。

（3）TALEN载体的酶切

两个TALEN载体（pEF1a-NLS-TALE backbone-Fok1(R)-pA；pEF1a-NLS-TALEbackbone-Fok1(L)-IRES-PURO-pA，后者能表达抗puro（嘌呤霉素）蛋白）的结构示意图分别如图3和图4所示。TALEN载体中转录激活子样效应因子氨基酸序列框架N端和C端序列分别下所示；在连接TALEN前需要预先用BsaⅠ酶切两TALEN载体，胶回收后，电泳标定浓度。

N端序列（SEQ ID No.71）：

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATCCACGGggtaccCATGgTAGATTTGAGAACTTTGGGATATTCACAGCAGCAGCAGGAAAAGATCAAGCCCAAAGTGAGGTCGACAGTCGCGCAGCATCACGAAGCGCTGGTGGGTCATGGGTTTACACATGCCCACATCGTAGCCTTGTCGCAGCACCCTGCAGCCCTTGGCACGGTCGCCGTCAAGTACCAGGACATGATTGCGGCGTTGCCGGAAGCCACACATGAGGCGATCGTCGGTGTGGGGAAACAGTGGAGCGGAGCCCGAGCGCTTGAGGCCCTGTTGACGGTCGCGGGAGAGCTGAGAGGGCCTCCCCTTCAGCTGGACACGGGCCAGTTGCTGAAGATCGCGAAGCGGGGAGGAGTCACGGCGGTCGAGGCGGTGCACGCGTGGCGCAATGCGCTCACGGGAGCACCCCTCAACCTGACCgagaccC

C端序列（SEQ ID No.72）：

ggtctcAACTCACGCCTGAGCAGGTAGTGGCTATTGCATCCAATggaGGGGGCAGACCCGCACTGGAGTCAATCGTGGCCCAGCTTTCGAGGCCGGACCCCGCGCTGGCCGCACTCACTAATGATCATCTTGTAGCGCTGGCCTGCCTCGGCGGACGACCCGCCTTGGATGCGGTGAAGAAGGGGCTCCCGCACGCGCCTGCATTGATTAAGCGGACCAACAGAAGGATTCCCGAGAGGACATCACATCGAGTGGCA

(4)TALEN的连接

上文已说明过除了F1与R13外（F1与载体左端连接，R13与载体右端连接），F_n可与R_n-1的粘性末端相连，而不能与其他引物上的粘性末端相连。另外识别模块之间，识别模块与载体之间一旦连接上无法被Bsa Ⅰ在切开，所以把几个片段和载体放在同一体系里，用Bsa Ⅰ和T4连接酶边切边连，即可一步把TALEN连接成功。

下面以26个连接单元的连接为例，说明连接策略。因最后一个可以识别碱基T的半个模块已在载体上，所以只要连25个模块即可，连接示意图见图5。首先选择与靶位点相对应的25个模块再加上TALEN的载体，用BsaⅠ和T4连接酶边切边连。

连接体系为：

Vector：150ng

Modulars：50ng/modular

Bsa Ⅰ（NEB）:1ul

T4Ligase（fermentas）：1ul

T4Buffer（NEB）：2ul

H₂O：补足20ul

连接程序为：37℃5min；16℃10min，20个循环；80℃，10min。

连接步骤见图5。因为连接时会有连接不完全，只连接上1-12个片段，这种连接不完全的线性DNA会通过重组的方式降低连接的效率，所以在转化之前用可以消化线性化DNA的酶Plasmid-Safe^TMATP-Dependent DNase（Epicentre，货号:E3105K）消化线性质粒，体系为：

在20ul酶连体系的基础上加1ul plasmid-safe nuclease和0.5ul ATP，于37℃消化1h。

取10ul转化GBE180感受态，挑克隆，小抽，BamH1/Pst1酶切鉴定，酶切出的较小的片段大小应为连入片段大小加上550bp。把酶切正确的质粒送测序，测序正确即可得到正确的TALEN质粒。测序引物如下表：

表5

Sequence-F	CTCCCCTTCAGCTGGACAC
		Sequence-5F	GTcCTcTGtCAgGCcCAtGGcctt
Sequence-R	AGCTGGGCCACGATTGAC

鉴定步骤如下：

Day1：

连接：5h；

plasmid-safe nuclease消化：1h；

转化：1h；

Day2：

挑克隆：30min；

摇菌：13h；

Day3：

小抽，酶切鉴定送测序；

Day4：

比对序列。

得到确认正确的质粒只需要4天，并且同时，本发明方法使用的识别单元是质粒或质粒的PCR产物，避免了保存酶切产物中遇到的末端单链尾巴破坏和降解的问题，且操作步骤更简单，更节约成本。

同样地，如果是所需的识别碱基是19-25，而不是26，相应的把靠前端双模块换成单模块，每换一个既可减少一个识别模块。不同数量的识别碱基的相应单双模的选择块见图7。

实施例2

连接可识别以下碱基的TALEN。

片段一：CGCGCGCGCGCGCGCGCGCGCGCGCT，

片段二：CGCGCGCGCGCGCGCGCGCGCT，

片段三：CCCACTCGTCCCATCCAGTA；

（1）首先从PCR库中选择所需的识别模块：

CGCGCGCGCGCGCGCGCGCGCGCGCT选择模块CG-1、CG-2、CG-3、CG-4、C-5、GC-6、GC-7、GC-8、GC-9、GC-10、GC-11、GC-12、GC-13；此连接载体为pEF1a-NLS-TALE backbone-Fok1(R)–pA（载体上带有一个T识别模块）。

CGCGCGCGCGCGCGCGCGCGCT选择模块C-1、G-2、C-3、G-4、C-5、GC-6、GC-7、GC-8、GC-9、GC-10、GC-11、GC-12、GC-13。此连接载体为pEF1a-NLS-TALE backbone-Fok1(R)-pA（载体上带有一个T识别模块）。

CCCACTCGTCCCATCCAGTA选择模块C-1、C-2、C-3、A-4、C-5、T-6、C-7、GT-8、CC-9、CA-10、TC-11、CA-12、GT-13。连接载体为pEF1a-NLS-TALE backbone-Fok1(R)-pA（载体上带有一个A识别模块）。

（2）按照以下连接体系：

Vector：150ng

识别模块连接单元：50ng/modular

BsaⅠ（NEB）:1ul

T4Ligase（fermentas）：1ul

T4Buffer（NEB）：2ul

H₂O：补足20ul

连接程序为：37℃5min；16℃10min，20个循环；80℃，10min。

（3）然后plasmid-safe nuclease消化：1h。

（4）转化GBE180感受态，挑克隆，小抽，BamH1\EcoR1酶切鉴定，电泳后凝胶图见图8。

图中，酶切正确的条带分别为：连接一：3.2k和3k；连接二：3.1k和2.8k；如图8（圈中为酶切正确的克隆）：中间为1kb的DNA Marker，marker左面为连接二的酶切图，右面为连接一的酶切图。将酶切正确克隆送测序，结果显示酶切正确的克隆，测序全部正确。说明此方法进行连接效率高，简单，高效。

Claims

1.转录激活子样效应因子核酸酶质粒的构建方法，包括TALENs识别模块的连接，步骤包括：

(1)根据所需识别目的基因靶序列的碱基序列，从多模块单元库中选择对应的连接单元；

所述的多模块单元库包括：

16组×n个双碱基连接单元和4组×m个单碱基连接单元，所需识别的碱基序列长度为2*n+2-m至2*n+1；n＝12，m＝7；

所述的单碱基连接单元为识别一个碱基的单碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组单碱基连接单元的粘性末端碱基序列一一对应相同；对单碱基连接单元进行顺序编号，第k个单碱基连接单元的第二粘性末端与第k+1个单碱基连接单元的第一粘性末端互补，1≤k≤m-1；

所述的单碱基识别模块为编码SEQ ID No.1～4所示氨基酸序列的核苷酸；

所述的双碱基连接单元为识别两个碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同；

所述的双碱基识别模块为编码SEQ ID No.5～20所示氨基酸序列的核苷酸；

每组双碱基连接单元分为两个部分，第一部分的双碱基连接单元数量为p个，对第一部分双碱基连接单元进行顺序编号，第i个双碱基连接单元的第二粘性末端与第i+1个双碱基连接单元的第一粘性末端互补，1≤i≤p-1；第二部分的双碱基连接单元数量为q个，对第二部分双碱基连接单元进行顺序编号为p+2～n+1，第j个双碱基连接单元的第二粘性末端与第j+1个双碱基连接单元的第一粘性末端互补，p+2≤j≤n+1；其中，每组第一部分的最后一个双碱基连接单元的第二粘性末端与编号为第p+1个单碱基连接单元的第一粘性末端互补；每组第二部分的第一个双碱基连接单元的第一粘性末端与编号第p+1个单碱基连接单元的第二粘性末端互补，1<p+1≤m；各组双碱基识别模块的粘性末端碱基序列一一对应相同；p＝2、3、4、5、6或7；

所述多模块单元库中，识别4种碱基的第p+1个单碱基识别模块的核苷酸序列如SEQ IDNo.41～44所示；

编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQID No.45～58的第9-12个碱基所示；编号为1～p和p+2～13的双碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～44+2×p和SEQ ID No.47+2×p～70的第9-12个碱基所示；

(2)用二类限制性内切酶和DNA连接酶，将连接单元重组接入TALENs载体中，用消化线性DNA的酶进行消化处理，得到转录激活子样效应因子核酸酶质粒；

步骤(2)中，将n+1个连接单元用DNA连接酶连接在一起形成TALENs识别模块，每个连接单元第二粘性末端与下一个连接单元的第一粘性末端互补；连接单元选自单碱基连接单元或双碱基连接单元；TALENs识别模块的第p+1个连接单元为所述单元库中第p+1个单碱基连接单元，TALENs识别模块的第m+1个至最后一个连接单元为双碱基连接单元，TALENs识别模块的第1至第p位、以及第p+2至第n+1位的连接单元为双碱基连接单元、单碱基连接单元或者双碱基连接单元与单碱基连接单元的混合。

2.转录激活子样效应因子核酸酶质粒的构建方法，包括TALENs识别模块的连接，步骤包括：

所述的多模块单元库包括：16组×(n+1)个双碱基连接单元和4组×m个单碱基连接单元，所需识别的碱基序列长度为2*n+2-m至2*n+2；n＝10-15，m＝3-9；

所述的单碱基连接单元为识别一个碱基的单碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组单碱基连接单元的粘性末端碱基序列一一对应相同；对单碱基连接单元进行顺序编号，第k个单碱基连接单元的第二粘性末端与第k+1个单碱基连接单元I的第一粘性末端互补，1≤k≤m-1；

编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQID No.45～38的第9-12个碱基所示；编号为1～13的双碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～70的第9-12个碱基所示；

步骤(2)中，将n+1个连接单元用DNA连接酶连接在一起形成TALENs识别模块，每个连接单元第二粘性末端与下一个连接单元的第一粘性末端互补；连接单元选自单碱基连接单元或双碱基连接单元。

3.权利要求1或2所述转录激活子样效应因子核酸酶质粒的构建方法，其特征在于，所述二类限制性内切酶为Bsa I、BsmB1、BsmA1、Bbs1，DNA连接酶为T4连接酶，消化线性DNA的酶为Plasmid-Safe核酸酶。

4.权利要求1或2所述转录激活子样效应因子核酸酶质粒的构建方法，其特征在于，步骤(2)中，所述的TALENs载体上还含有0个、1个或2个识别模块；并且TALENs载体中带有DNA切割蛋白基因，以及位于转录激活子样效应因子氨基酸序列框架N端和C端的碱基序列。

5.权利要求4所述转录激活子样效应因子核酸酶质粒的构建方法，其特征在于，TALEN载体为pEF1a-NLS-TALE backbone-Fok1(R)-pA或pEF1a-NLS-TALE backbone-Fok1(L)-IRES-PURO-pA，所述DNA切割蛋白基因为Fok1；所述的位于转录激活子样效应因子氨基酸序列框架N端和C端的碱基序列分别如SEQ ID No.51和52所示。

6.权利要求1或2所述转录激活子样效应因子核酸酶质粒的构建方法，其特征在于，步骤(1)中，所述的单元库中，连接单元连接在载体上。

7.一种转录激活子样效应因子连接单元库，其特征在于，包括16组×n个双碱基连接单元和4组×m个单碱基连接单元，同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同，n＝12，m＝7；

所述的双碱基连接单元为识别双碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同；

每组双碱基连接单元分为两个部分，第一部分的双碱基连接单元数量为p个，对第一部分双碱基连接单元进行顺序编号，第i个双碱基连接单元的第二粘性末端与第i+1个双碱基连接单元的第一粘性末端互补，1≤i≤p-1；第二部分的双碱基连接单元数量为q个，对第二部分双碱基连接单元进行顺序编号为p+2～n+1，第j个双碱基连接单元的第二粘性末端与第j+1个双碱基连接单元的第一粘性末端互补，p+2≤j≤n+1；其中，每组第一部分最后一个双碱基连接单元的第二粘性末端与编号为第p+1个单碱基连接单元的第一粘性末端互补；每组第二部分的第一个双碱基连接单元的第一粘性末端与编号第p+1个单碱基连接单元的第二粘性末端互补，1<p+1≤m；

每个单碱基或双碱基连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的第一粘性末端的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基；正义链的最后两个碱基为甘氨酸密码子的前两个碱基；沿5’-3’方向，反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸，第4个碱基的互补序列为甘氨酸密码子的最后一个碱基；反义链的前两个碱基的互补序列为甘氨酸密码子的前两个碱基；同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同；

识别4种碱基的第p+1个单碱基识别模块的核苷酸序列如SEQ ID No.41～44所示；

编号为1～7的单碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQID No.45-58的第9-12个碱基所示；编号为1～p和p～13的双碱基连接单元第一粘性末端和第二粘性末端的碱基序列分别如SEQ ID No.45～44+2×p和SEQ ID No.47+2×p～70的第9-12个碱基所示。

8.一种转录激活子样效应因子连接单元库，其特征在于，包括16组×(n+1)个双碱基连接单元和4组×m个单碱基连接单元，同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同，n＝12，m＝7；

所述的双碱基连接单元为识别双碱基的双碱基识别模块及两端经二类限制性内切酶酶切形成的第一粘性末端和第二粘性末端；任意两组双碱基连接单元的粘性末端碱基序列一一对应相同；对每组双碱基连接单元进行编号，第L个双碱基连接单元的第二粘性末端与第L+1个双碱基连接单元的第一粘性末端互补，1≤L≤n；

每个单碱基或双碱基连接单元的粘性末端有4个碱基，沿5’-3’方向，正义链的第一粘性末端的第2～4个碱基编码亮氨酸，正义链的第1个碱基为甘氨酸密码子的最后一个碱基；正义链的最后两个碱基为甘氨酸密码子的前两个碱基；沿5’-3’方向，反义链的第二粘性末端的第1～3个碱基的互补序列编码亮氨酸，第4个碱基的互补序列为甘氨酸密码子的最后一个碱基；反义链的前两个碱基的互补序列为甘氨酸密码子的前两个碱基同一组的所有双碱基连接单元或单碱基连接单元两端粘性末端的序列互不相同；

识别4种碱基的第p+1个单碱基识别模块的核苷酸序列如SEQ ID No.41～44所示。

9.权利要求7或8所述转录激活子样效应因子连接单元库，其特征在于，所述二类限制性内切酶为BsaⅠ、BsmB1、BsmA1或Bbs1。

10.权利要求8所述转录激活子样效应因子连接单元库的构建方法，其特征在于，步骤包括：

编号为1～7的单碱基连接单元的构建：以7对引物序列F₁/R₁～F₇/R₇为引物对进行PCR扩增；所述正向引物F₁～F₇的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述反向引物R₁～R₇的核苷酸序列包括：二类限制性内切酶位识别序列、第二粘性末端序列以及与编码单碱基识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；F₁/R₁～F₇/R₇的引物的核苷酸序列如SEQ ID No.45～58所示；

双碱基连接单元的构建：编号为1～13的双碱基连接单元的构建：分别以引物序列F₁/R₁～F_p/R_p和F_p+2/R_p+2～F₁₃/R₁₃为引物对进行PCR扩增；所述正向引物F₁～F_p和F_p+2～F₁₃的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述反向引物R₁～R_p和R_p+2～R₁₃的核苷酸序列二类限制性内切酶位识别序列、第二粘性末端序列以及与编码单碱基识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；F₁/R₁～F_p/R_p如SEQ ID No.45～44+2×p所示，F_p+2/R_p+2～F₁₃/R₁₃的引物的核苷酸序列如SEQ ID No.47+2×p～70所示。

11.权利要求7所述转录激活子样效应因子连接单元库的构建方法，其特征在于，步骤包括：

编号为1～7的单碱基连接单元的构建：以7对引物序列F₁/R₁～F₇/R₇为引物对进行PCR扩增；所述正向引物F₁～F₇的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述反向引物R₁～R₇的核苷酸序列包括：二类限制性内切酶位识别序列、第二粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述F₁/R₁～F₇/R₇的核苷酸序列如SEQ ID No.45～58所示；

双碱基连接单元的构建：编号为1～13的双碱基连接单元的构建：分别以引物序列F₁/R₁～F₁₃/R₁₃为引物对进行PCR扩增；所述正向引物F₁～F₁₃的核苷酸序列包括：二类限制性内切酶位识别序列、第一粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述反向引物R₁～R₁₃的核苷酸序列包括：二类限制性内切酶位识别序列、第二粘性末端序列以及与编码识别模块核苷酸序列前10～20位碱基互补的核苷酸序列；所述F₁/R₁～F₁₃/R₁₃的核苷酸序列如SEQ ID No.45～70所示。

12.一种多模块DNA库，其特征在于，包括权利要求7或8所述的转录激活子样效应因子连接单元库的所有连接单元数量相同的DNA片段；每个DNA片段包含一个不同的连接单元；每个连接单元两末端与DNA片段的其余部分连接处有二类限制性内切酶酶切位点；所述DNA片段为重组质粒或PCR扩增产物。

13.权利要求12所述的多模块DNA文库，其特征在于，所述重组质粒的原始载体为PMD18-T载体、topo载体、puc19载体或puc18。