CN103193871B

CN103193871B - 根据蛋白质-dna复合物晶体结构设计新型tale的方法

Info

Publication number: CN103193871B
Application number: CN201210021012.3A
Authority: CN
Inventors: 颜宁; 施公; 施一公; 邓东; 闫创业
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2018-05-15
Anticipated expiration: 2032-01-04
Also published as: CN103193871A

Abstract

本发明涉及根据蛋白质‑DNA复合物晶体结构设计新型TALE的方法。本发明提供了设计特异识别DNA的TALE蛋白的方法。

Description

根据蛋白质-DNA复合物晶体结构设计新型TALE的方法

技术领域

本发明涉及生物技术领域，更具体地说，涉及根据蛋白质-DNA复合物晶体结构设计新型TALE的方法。

背景技术

TALEs(Transcription Activator Like Effectors，转录激活子样效应因子)是植物致病菌(Xanthomonas)细胞内的一种蛋白质。当病原菌侵染植株时，病菌会通过其自身的III型分泌系统将包括TALE在内的一系列效应分子注入到植物细胞内。这些效应分子通过影响宿主细胞的信号传递，基因表达等方式来协助病菌进一步扩增。TALE则是这些效应分子中最大的一类，它像植物基因的转录激活子一样行使功能。

TALE家族蛋白一般由3个主要的功能结构域组成，N端结构域与TALE的分泌转运有关；C端具有转录激活结构域和入核信号肽片段；位于TALE中部的区域是DNA结合结构域，但它的DNA结合结构域不同于其他已知的DNA结合结构域，它是由一段串联的重复单元组成，大多数情况下每个重复单元由34个氨基酸组成，个别重复单元由33或35个氨基酸残基组成。这34个氨基酸中除了第12，13位的氨基酸变化较大之外，其他氨基酸高度保守。这两个不保守的氨基酸被命名为RVD(repeat variable diresidue，重复可变双残基)。2009年的两篇文章分别通过实验和生物信息学研究发现每个重复序列中12，13位的氨基酸和识别的核苷酸种类有特殊的对应关系，比如：

TALE蛋白的特异DNA序列识别以及灵活的可组装性为它们在分子生物学中的应用提供了巨大的前景，科学家们可以设计组装任意的TALE单元去识别任意的DNA双螺旋序列。这一特性已经被用来构造切割特异双链DNA序列的DNA酶TALEN(TALE nuclease，TALE核酸酶)，用于在细胞基因组中引入定点突变、定点敲除等操作。在目前所有已知的报道中，TALE识别的都是双链的DNA螺旋(dsDNA)。然而在没有结构结构信息之前，并不知道如何组装、改造TALE蛋白；

发明内容

发明人在世界上首次解析了一个经过改造的TALE蛋白dHax3在没有DNA(图8)和结合DNA(图9)情况下的两个高分辨率晶体结构。

发明人成功解析了一个经过改造的TALE蛋白dHax3DNA结合域与dsDNA的晶体结构。通过对该结构的分析和对比除了不仅揭示出TALEdHax3蛋白每一个组装单元特异识别每一个DNA碱基的分子基础，还显示双链DNA里只有一条编码链与TALE相互作用。

发明人通过生物化学实验发现TALE蛋白可以特异识别甲基化的DNA，并成功解析了dHax3蛋白与包含了5-甲基胞嘧啶的DNA双链(5mC-dsDNA)复合体的晶体结构。

本发明提供了一种设计新型TALE蛋白组装单元的方法，包括以下步骤：

1)位于组装单元第16、17位的残基采用侧链含有氢键供体基团或碱性的氨基酸，例如Arg，Lys，His，Asn，Gln；

2)位于组装单元第12位的残基采用侧链含有氢键供体基团，例如His，Asn，Gln，Ser，Thr，Tyr，Lys，Arg；

3)对于碱基腺嘌呤A，组装单元第13位的残基选自Asn，Asp，Gln，Glu，Ser，Thr；

4)对于碱基鸟嘌呤G，组装单元第13位的残基选自Asn，Gln，Asp，Glu，His，Lys，Arg，Ser，Thr；

5)对于碱基胞嘧啶C，组装单元第13位的残基选自Asp，Asn，Glu，Gln，Ser，Thr，Tyr。

6)对于碱基胸腺嘧啶T，组装单元第13位的残基选自Gly，Ser，Ala；

7)对于碱基5-甲基胞嘧啶5mC，组装单元第13位的残基选自Gly，Ser，Ala。

本发明还提供了一种制备新型TALE蛋白的方法，包括按照上文所述的方法设计所述蛋白，和对所述蛋白进行表达。

附图说明

图1是dHax3与双链DNA的高分辨率晶体结构(1.8埃)示意图。

图2是一幅示意图，表明dHax3与DNA的相互作用主要集中于DNA的编码链。

图3是一幅电泳图，显示了dHax3与双链DNA和5mC-dsDNA的凝胶阻滞实验。

图4显示了dHax3与5mCdsDNA杂合双链复合物的晶体结构。

图5是一幅电泳图，显示了dHax3全长蛋白的纯化结果。泳道标注(Lane#)说明：1.全菌破碎液；2.全菌破碎离心沉淀；3.全菌破碎离心上清液；4.镍柱培养弃液；5.镍柱清洗液；6.镍柱洗脱回收液；7.镍柱柱材；8.分子marker。

图6是一幅电泳图，显示了dHax3截短体蛋白的纯化结果。泳道标注(Lane#)说明：1.全菌破碎液；2.全菌破碎离心沉淀；3.全菌破碎离心上清液；4.镍柱培养弃液；5.镍柱清洗液；6.镍柱洗脱回收液；7.镍柱柱材；8.分子marker。

图7是一幅示意图，显示了真核生物DNA复制原理。

图8显示了dHax3蛋白DNA结合结构域的晶体结构。

图9显示了dHax3蛋白与DNA结合的晶体结构。

图10显示dHax3蛋白DNA结合结构域的每一个重复单元(repeat)具有相同的helix-loop-helix的三维结构。

图11是一幅示意图，显示了重复单元的结构。

图12是结构示意图，显示了dHax3蛋白每一个以及重复组装单元内部氨基酸的结构相互作用，其中第1，6，9，19，22，26位氨基酸通过范德华相互作用支持每一个组装单元的构象。

图13是结构示意图，显示了dHax3蛋白组装相邻单元之间氨基酸的相互作用，其中第1，6，7，9，10，19，22，26，29位氨基酸主要通过范德华相互作用介导组装单元之间的相互作用。

图14是结构示意图，显示了dsDNA中编码链的磷酸骨架被dHax3结合。

图15是结构示意图，显示了dHax3在结合DNA前后的构象变化。

图16是结构示意图，显示了dHax3在结合DNA前后的构象变化是通过每一个组装单元的极微小变化级联放大而成的。

图17是结构示意图，显示了dsDNA中编码链的磷酸骨架被每一个组装单元的第16位和第17位氨基酸特异识别。

图18是结构示意图，是对图17的放大细节显示。其中红色圆球代表水分子。

图19是结构示意图，显示每一个组装单元的第12位氨基酸用于与Ha的第8位氨基酸的羰基形成氢键以固定环区构象。

图20是结构示意图，显示每一个组装单元的第13位氨基酸用于对DNA编码链碱基的特异识别。

图21是示意图，显示了TALE repeat第13位氨基酸对DNA碱基的识别。

具体实施方式

发明人通过结构分析得出如下结论：

1)dHax3蛋白DNA结合结构域的每一个重复单元(repeat)具有相同的helix-loop-helix的三维结构(图10)；

2)每一个重复单元(repeat)的34个氨基酸中，第3-10个氨基酸形成一个α-螺旋(我们命名为Ha)，第15-33个氨基酸形成一个长α-螺旋(我们命名为Hb)。这两个α-螺旋通过一个刚性环区(rigid loop)相连；其中Hb在第23和26个氨基酸的区域出现一个弯折(图8和图11)；

3)每一个重复单元(repeat)中的Ha和Hb通过疏水氨基酸之间的范德华力相互作用，使Ha和Hb形成大约30度角的相对位置(图12)；

4)一个重复单元的Hb(Hb_n)与下一个重复单元的Ha(Ha_n+1)有广泛的以范德华力为主的相互作用，与Hb_n+1也有范德华相互作用(图13)；

5)重复单元围绕DNA的大沟螺旋排布(图14)；

6)dHax3蛋白在结合DNA前后，螺旋的直径没有显著变化，但是螺旋的高度产生显著变化，表明重复单元组成的螺旋结构具有类似弹簧的弹性(图15)；

7)结构比较显示，dHax3蛋白结合DNA前后结构变化的“弹性”主要来自于每个重复单元中Hb的第23-34个氨基酸组成的螺圈，以及一个重复单元的最后一个氨基酸与下一个重复单元第一个氨基酸之间的肽键的极其微小的结构变化引起(图16)；

8)dHax3蛋白只与DNA编码链有特异相互作用，与非编码链基本无特异相互作用(图17)

9)每一个重复单元的第16个氨基酸通过水分子形成与DNA编码链的磷酸骨架的氢键(hydrogen bond)(图18)；

10)每一个重复单元的第17个氨基酸与DNA编码链的磷酸骨架的直接形成氢键(hydrogen bond)(图18)；

11)每一个重复单元的第12个氨基酸，并不与DNA直接接触，而与Ha中的第8位的羰基形成氢键，以稳定环区(loop)的刚性结构(图19)；

12)每一个重复单元的第13个氨基酸直接与DNA编码链(sense strand)的碱基接触(图20)。

如图10、图11和图14所示，根据我们解析的dHax3与DNA双螺旋的高分辨晶体结构以及结构分析，我们发现了DNA与TALE蛋白相互作用的主要基团。这些基团的性质与相对位置决定了设计新型TALE蛋白时的氨基酸选择方法。

1)DNA编码链的的磷酸骨架要被TALE蛋白repeat第16、17位的氨基酸固定，因此位于第16、17位的残基要采用侧链含有氢键受体(Hydrogen bond acceptor)基团或碱性的氨基酸，如：Arg，Lys，His，Asn，Gln。

2)对于碱基腺嘌呤A，主要作用基团是第6位的-NH2和第7位的N。其中第6位的-NH₂基团可以与含有羟基(-OH)或羰基(＝O)侧链的氨基酸形成氢键，所以TALE repeat第13位的残基除了已知的Asn，还可以尝试Asp，Gln，Glu。第7位的N是氢键受体，可以与含有氢键供体基团侧链的氨基酸形成氢键，所以除了已知的Ser，还可以尝试Thr。

3)对于碱基鸟嘌呤G，主要作用基团是第6位的＝O和第7位的N。其中第6位的＝O基团是氢键受体，可能与含有氢键供体基团侧链的氨基酸形成氢键。所以TALE repeat第13位的残基除了已知的Asn，还可以尝试Gln，Asp，Glu，His，甚至Lys和Arg。第7位的N也是氢键受体，可以与含有氢键供体基团侧链的氨基酸形成氢键，所以除了已知的Ser，还可以尝试Thr；

4)对于碱基胞嘧啶C，主要作用基团是第4位的-NH₂，所以TALE repeat第13位的残基除了已经看到的Asp，-NH₂还可以与其他的含有＝O或-OH基团侧链的氨基酸相互作用，比如Asn，Glu，Gln，Ser，Thr，Tyr。

5)对于碱基胸腺嘧啶T，主要作用基团是第5位的-CH₃，所以TALE repeat第13位的残基除了已知的Gly和Ser，还可以尝试侧链比较小的Ala。

6)对于碱基5-甲基胞嘧啶5mC，主要作用基团是第5位的-CH₃，所以TALE repeat第13位的残基除了已知的Gly和Ser，还可以尝试侧链比较小的Ala。

本文所用的术语“TALE蛋白”是指Transcription Activator Like Effectors，即转录激活子样效应因子。TALE蛋白可以为自然界已有的TALE蛋白以及在此基础上通过基因方法突变、修饰获得的保持或增强DNA结合能力的TALE衍生蛋白。

实施例中所采用的各种试剂，包括缓冲液、酶、载体、试剂盒等，均可通过商业途径购得或者按照《分子克隆实验指南》第三版(黄培堂，科学出版社，2002)所推荐的方法配制。

实施例1

1.实验材料及方法

1.1实验材料

1.1.1DNA结合蛋白dHax3

Hax3是TALE蛋白家族的成员之一，它的RVD序列以及在自然界中识别的DNA序列如下：

发明人通过设计组装Hax3的RVD获得了识别如下DNA序列(在此仅显示编码链DNA的序列)的dHax3(designed Hax3)：

dHax3通过全基因合成得到，序列如下：

ATGGACCCAATACGAAGCAGAACGCCATCACCAGCTAGGGAACTTCTCTCTGGACCACAGCCTGATGGAGTTCAGCCAACTGCAGATCGAGGTGTTTCTCCGCCAGCCGGTGGCCCTTTAGATGGTCTCCCAGCAAGAAGAACAATGTCCCGTACCAGACTCCCAAGTCCCCCTGCCCCGTCGCCAGCCTTTTCAGCTGACTCCTTCTCTGATCTTCTTAGGCAATTTGACCCTTCTCTTTTCAATACATCCCTTTTCGATTCACTTCCTCCTTTCGGCGCACATCATACTGAGGCAGCCACCGGCGAATGGGACGAAGTCCAAAGTGGTTTAAGGGCAGCTGATGCTCCACCACCGACGATGAGAGTCGCTGTTACCGCCGCACGTCCTCCTAGAGCCAAGCCAGCCCCTAGAAGACGAGCTGCGCAACCCTCCGATGCAAGCCCTGCAGCTCAAGTAGACCTTCGAACACTAGGTTACTCCCAGCAACAACAAGAAAAAATAAAGCCAAAGGTTAGATCTACAGTTGCACAACATCACGAAGCCCTAGTCGGACACGGATTTACACATGCTCATATCGTGGCTCTTTCACAACATCCTGCAGCTCTTGGAACAGTCGCTGTCAAATATCAGGATATGATTGCTGCATTGCCAGAAGCTACTCACGAAGCTATCGTCGGAGTTGGGAAACAATGGTCAGGCGCAAGAGCATTAGAGGCGCTTCTCACCGTAGCTGGTGAATTACGAGGTCCTCCACTCCAATTGGATACTGGGCAATTATTAAAAATCGCTAAACGAGGTGGAGTCACTGCTGTCGAAGCCGTTCATGCATGGCGTAACGCTCTCACGGGCGCACCACTAAACCTTACTCCTGAACAGGTTGTCGCAATAGCTTCACATGATGGCGGAAAACAAGCTCTTGAAACAGTGCAACGTCTCCTTCCCGTCCTCTGTCAGGCTCACGGATTGACTCCTCAGCAGGTCGTCGCAATTGCATCACATGATGGAGGCAAACAAGCTTTAGAAACAGTACAAAGACTATTGCCCGTTCTTTGCCAAGCGCATGGGTTAACTCCCGAACAAGTCGTTGCCATTGCAAGTCACGACGGAGGTAAACAAGCTCTCGAAACGGTTCAAGCACTTTTACCCGTTCTCTGTCAAGCACATGGACTCACACCTGAACAAGTAGTTGCTATCGCATCGAATGGAGGTGGAAAACAAGCACTGGAAACTGTACAAAGACTTTTGCCAGTTTTATGTCAAGCGCACGGTCTTACTCCTCAACAAGTTGTCGCCATTGCCTCTAACGGTGGTGGAAAACAAGCTCTTGAAACTGTCCAGAGACTTCTGCCCGTTCTATGTCAGGCTCATGGGCTAACCCCTCAACAGGTTGTTGCAATCGCATCTAATGGAGGAGGAAAACAAGCTTTAGAAACTGTCCAACGACTACTGCCCGTTCTCTGCCAAGCACACGGACTTACCCCACAACAAGTTGTGGCAATAGCTTCTAATTCTGGTGGTAAACAAGCCCTTGAGACGGTTCAAAGACTTCTACCAGTTCTTTGTCAGGCACATGGATTGACCCCACAACAGGTCGTAGCAATCGCATCTAATGGAGGTGGTAAGCAAGCTCTAGAAACGGTACAAAGATTACTTCCCGTGCTTTGTCAAGCTCATGGACTCACTCCTCAACAAGTGGTCGCTATTGCAAGTCATGATGGTGGAAAGCAAGCACTAGAAACCGTCCAACGACTCCTTCCTGTTCTCTGTCAAGCACATGGTCTTACGCCCGAACAAGTTGTTGCTATAGCTTCGAACGGAGGTGGAAAACAAGCTCTCGAAACCGTCCAAAGGCTCCTCCCAGTACTTTGCCAAGCACATGGATTAACCCCTGAGCAAGTAGTTGCAATTGCCTCGCACGACGGAGGAAAGCAAGCATTAGAAACTGTTCAGAGACTTTTGCCTGTCCTGTGTCAAGCCCACGGTCTAACACCACAACAAGTCGTCGCAATCGCTAGTAATGGAGGAGGTAGACCTGCATTGGAGTCGATAGTCGCACAACTATCACGACCTGATCCCGCTCTTGCAGCATTGACAAACGATCATTTAGTCGCACTTGCATGTTTAGGAGGACGACCAGCACTTGATGCCGTTAAGAAAGGACTACCGCACGCCCCTGCATTGATTAAAAGAACAAACAGACGAATCCCGGAGAGAACTTCACATCGTGTAGCCGATCATGCTCAAGTCGTAAGAGTTTTGGGTTTCTTCCAATGTCATTCCCACCCAGCTCAAGCTTTTGACGATGCAATGACTCAATTTGGAATGAGTAGACATGGACTCCTGCAATTATTTCGAAGGGTCGGAGTTACAGAGCTCGAAGCCAGGTCAGGAACGCTGCCCCCCGCATCTCAACGATGGGATAGAATTCTCCAAGCCTCTGGAATGAAAAGAGCTAAACCTTCACCAACGTCCACACAAACACCAGACCAAGCTTCTCTCCACGCTTTTGCCGACTCACTAGAGAGAGATCTAGATGCACCGTCACCTATGCATGAAGGAGACCAAACAAGAGCCTCTTCAAGAAAACGTTCTCGTTCTGATAGAGCTGTCACTGGACCTTCCGCCCAACAATCTTTCGAAGTCCGAGTTCCTGAGCAACGAGATGCCCTACACCTGCCTTTGCTTTCTTGGGGAGTTAAGCGACCACGTACTAGAATTGGTGGACTACTCGATCCAGGTACACCAATGGATGCTGATCTCGTTGCTTCCTCTACCGTAGTATGGGAGCAAGACGCAGACCCCTTCGCTGGAACTGCTGACGATTTCCCAGCCTTTAACGAGGAAGAATTGGCTTGGTTAATGGAACTTCTACCGCAATGA (SEQ ID NO：1)

合成的基因直接被连入pET300(invitrogen)质粒。表达出来的全长蛋白，N端有6个Histidine标签，用于蛋白纯化时通过镍柱的亲和纯化。全长蛋白序列如下：

MHHHHHHITSLYKKAGLMDPIRSRTPSPARELLSGPQPDGVQPTADRGVSPPAGGPLDGLPARRTMSRTRLPSPPAPSPAFSADSFSDLLRQFDPSLFNTSLFDSLPPFGAHHTEAATGEWDEVQSGLRAADAPPPTMRVAVTAARPPRAKPAPRRRAAQPSDASPAAQVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAFADSLERDLDAPSPMHEGDQTRASSRKRSRSDRAVTGPSAQQSFEVRVPEQRDALHLPLLSWGVKRPRTRIGGLLDPGTPMDADLVASSTVVWEQDADPFAGTADDFPAFNEEELAWLMELLPQ(SEQ ID NO：2)

dHax3全长蛋白的纯化图如图5所示(利用Histidine₆标签经由镍柱亲和层析纯化，SDS-PAGE电泳后经考马斯亮蓝显色)。

通过蛋白质二级结构预测，发明人发现蛋白质的N端和C端都有一大段没有二级结构区域。这些区域并不适合蛋白质结晶，发明人于是设计了截短体蛋白(包含蛋白序列229-721)来获得性质更加稳定的蛋白质。截短体蛋白被克隆到pET21(Novagen)表达载体中。表达出来的截短体蛋白序列如下，其中C端含有6个His标签，用于蛋白纯化时通过镍柱的亲和纯化：

MQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKLEHHHHHH(SEQ ID NO：3)

dHax3截短体蛋白的纯化图如图6所示(利用Histidine₆标签经由镍柱亲和层析纯化，SDS-PAGE电泳后经考马斯亮蓝显色)。

1.1.2单双链DNA的获得

为了检验dHax3与单双链DNA的结合能力，以及获得蛋白质与dsDNA复合物的晶体，发明人通过化学合成的方法得到单链DNA(17nt)：(Invitrogen&Takara)

5’TG TCCCTTTATCTCT CT 3’(SEQ ID NO：4)

3’AC AGGGAAATAGAGA GA 5’(SEQ ID NO：8)

将合成得到的单链DNA溶解至1mM，等摩尔比将两条单链DNA混合，85℃温浴3min以上，缓慢降温到22℃，此过程不得少于3个小时。为了长期保存退火的双链DNA可以进行冻干超低温保存。

用于凝胶阻滞实验的DNA/RNA oligo的片段(SEQ ID NO：5)，如下表所示：

1.13DNA-RNA杂合链的获得

为了检验dHax3与DNA-RNA杂合链的结合能力，以及获得蛋白质与DNA-RNA复合物的晶体，发明人通过化学合成的方法得到单链DNA(17nt)和RNA：(Invitrogen&Takara)

DNA 5’TG TCCCTTTATCTCT CT 3’(SEQ ID NO：4)

RNA 3’AC AGGGAAAUAGAGA GA 5’(SEQ ID NO：6)

将合成得到的单链DNA或RNA溶解至1mM，等摩尔比将两条单链混合，85℃温浴3min以上，缓慢降温到22℃，此过程不得少于3个小时。为了长期保存退火的DNA-RNA杂合链可以进行冻干超低温保存。

用于凝胶阻滞实验的DNA/RNA oligo的片段，如下表所示：

1.2实验方法

1.2.1.分子克隆及表达载体构建

●PCR扩增目的基因片段

50μl标准PCR反应体系组成如下表所示，如有需要可按照比例扩增体系；

50μl PCR反应标准体系

成功扩增目的片段后，直接使用普通DNA回收试剂盒回收扩增的目的基因片段。注意，如果是点突变的扩增基因片段需要先使用琼脂糖凝胶电泳去除DNA模板，然后使用琼脂糖凝胶DNA回收试剂盒回收目的基因。

●限制性内切酶处理扩增片段和载体

使用相同的限制性内切酶处理扩增片段和载体，从而产生相同的DNA粘性末端。50μl双酶切反应体系成分如下表所示：

50μl标准双酶切反应体系

37℃温浴30～180min，估计反应完全后，进行凝胶电泳，使用琼脂糖凝胶DNA回收试剂盒切胶回收DNA片段。

●DNA连接

使用T4DNA连接酶将酶切后的目的基因片段连入载体，16℃或室温反应30～120min。连接体系如下表所示：

10μl标准连接体系

●转化

将连接产物按照下述方法转入DH5α感受态细胞中，准备筛选阳性克隆：在连接产物中加入50～100μl DH5α感受态细胞，冰上放置30min；42℃热击90s；冰上放置2min；将所有产物加到氨苄抗性琼脂平板上，用涂布棒涂匀，37℃倒置培养14-16小时。

●使用菌落PCR法筛选阳性克隆

在前一步得到的平板上标记4～8个菌落，使用如下体系检验阳性克隆：

菌落PCR体系

使用凝胶电泳确认结果，挑取阳性克隆，在氨苄抗性LB培养基中37℃、220rpm培养过夜。

●质粒提取

使用普通质粒小提试剂盒提取质粒，送公司测序。

1.2.2.dHax3重组蛋白的表达及纯化

●dHax3重组蛋白的诱导表达

在BL21(DE3)感受态细胞中加入1～2μl提取的阳性克隆的质粒进行转化，之后将所有菌液接种到100ml氨苄LB培养基中，37℃×220rpm培养过夜。

按照1(菌液)：100(LB培养基)的比例将培养好的菌液接种到1L氨苄LB培养基中，37℃×200rpm扩大培养，直至OD600达到合适的诱导浓度。加入0.2mM IPTG，22℃×16h诱导表达。

●收集细胞并裂解

诱导表达完成后，使用大容量低速离心机4000rpm×12min收集细胞。按照1L菌液加10ml裂解缓冲液的比例重悬细胞，将细胞悬浊液收集到玻璃烧杯中，使用超声破碎仪破碎细胞。该过程中需注意，高温会导致蛋白变性，所以烧杯要在冰浴保护的情况下超声。超声仪条件设置如下表所示：

●镍柱亲和层析

由于组蛋白可以特异性的结合镍，人们开发出了螯合镍离子的柱材用以结合带有组氨酸标签的重组蛋白，达到纯化的目的。具体步骤如下：

将超声破碎的菌液，高速离心14000rpm/min后取上清，加入亲和层析柱，使其靠重力流出，在必要时重复上样2～3次；

分别用高盐的和含有少量咪唑的清洗缓冲液，交替清洗，以去除非特异性结合蛋白质；

最后使用含有高浓度咪唑的洗脱溶液，将带有组氨酸标签的重组蛋白从镍柱上洗脱。

●肝素亲和层析

可用于纯化DNA结合蛋白，将从镍柱上洗脱下来的蛋白再上样到heparinsepharose柱；

清洗掉没有挂柱的蛋白之后，再用梯度盐浓度的洗脱液洗脱，进一步纯化蛋白。

●脱盐层析

从heparin sepharose柱上洗脱下来的蛋白质存在于高盐溶液中。高盐环境会影响后期的结晶和生化实验。所以将蛋白质过脱盐层析的方法，将蛋白质所在的溶液中的高盐成分除去。

1.2.3.dHax3和DNA复合物的结晶实验

将纯化好的dHax3截短体蛋白(全长序列中的229-721)调整蛋白浓度在6～7mg/ml，加入摩尔比1.5∶1的退火后的双链DNA，4℃孵育30min.

使用蛋白质结晶没有规律可循，所以到目前为止仍然还是一门艺术。起始阶段常用Sparse matrix screen，即购买各公司配置的结晶条件进行筛选。大多数情况下，初筛得到的结晶条件中并不能长出衍射质量高的晶体，在接下来的实验中，发明人又进一步对初始结晶条件的基础上进一步细化，包括调整沉淀剂、pH缓冲液、盐、添加还原剂、去垢剂或醇；调整结晶实验的温度，时间等。最后采用的结晶条件为将如下结晶母液与孵育好的蛋白核酸复合物通过1∶1的体积比混合，通过悬滴法(hanging drop vapor diffusion method)在18℃培养两天，即可获得晶体。

结晶母液：25mM的2-(N-吗啉代)乙磺酸缓冲液(MES)，pH6.0

50mM氯化钠(NaCl)

5mM氯化镁(MgCl₂)

10mM二硫苏糖醇(DTT)

1.2.4.数据收集及处理

使用上海同步辐射中心(SSRF)BL17U线束站或者日本SPRING-8 BL41XU线束站进行数据收集。所有收集的衍射数据用HKL2000软件进行积分计算，进一步的数据处理通过CCP4软件实现。使用不结合DNA的dHax3作为置换的模式，通过分子置换的方法，解析dHax3与DNA复合物的结构。最后使用Phenix和COOT两个软件完成对结构的修正处理。数据处理和结构解析、修正完成之后，dHax3蛋白的结构分辨率达到dHax3蛋白与dsDNA或者DNA-RNA杂合链的复合物结构均达到数据收集和结构修正的统计数据，见下表：

数据收集和结构修正的统计数据

1.2.5.EMSA(electrophoretic mobility shift assay，电泳迁移率变动分析，又称凝胶阻滞实验)

凝胶阻滞实验是一种体外研究DNA/RNA与蛋白质相互作用的特殊的凝胶电泳技术。其基本原理为：在凝胶电泳中，由于电场的作用，小分子的核酸片段比其结合了蛋白质的核酸片段向阳极移动的速度快。因此，可标记短的核酸片段，将其与蛋白质混合，对混合物进行凝胶电泳，若目的DNA与特异性蛋白质结合，其移动的速度受到阻滞，对凝胶进行放射自显影，就可以找到核酸结合蛋白。同时通过统计结合蛋白的DNA和未结合蛋白的DNA的量，可以比较准确的拟合计算出，蛋白质对核酸的结合能力(binding affinity)。

●DNA/RNA末端标记

按照上表设置好反应体系后，轻轻混匀，置于37℃孵育30min；使用G25预装脱盐层析柱出去多余的[γ-³²P]-ATP，加入过量的未标记的互补链，退火生成双链DNA或者DNA-RNA杂合双链。

●DNA/RNA和蛋白相互作用体系

全长蛋白(不同浓度)	5ul
		DNA/RNA	2ul
5X缓冲液	2ul
		ddH20	1ul

将反应成分按上述比例加入反应体系中，混匀后4℃孵育20min；

将反应好的样品跑6％非变性胶；

跑完胶用干胶仪将胶干透，放在磷屏上曝光过夜；

用Typhoon 9400 varible scanner读取图像数据。

2.实验结果

2.1.dHax3蛋白与双链DNA的复合物晶体结构

发明人解析了dHax3与双链DNA(dsDNA)的高分辨率晶体结构(1.8埃)。该结构清晰地展示了dHax3展现右手螺旋结构，将dsDNA包裹于整个复合体的中间。蛋白质缠绕在DNA外面，嵌入DNA的大沟(见图1)。

2.2.dHax3蛋白与dsDNA中的编码链相互作用

结构分析显示dHax3与DNA的相互作用主要集中于编码链，而非编码互补链则几乎不参与蛋白-DNA的相互作用(见图2)。即使非编码链变成RNA，dHax3也同样能结合。

2.3.dHax3可以与5mC-dsDNA的相互作用

根据上述分析，发明人进一步通过凝胶阻滞实验证明了dHax3蛋白可以与把胸腺嘧啶(T)替换为5-甲基胞嘧啶(5mC)的双链DNA相互作用，并保持了很强的结合能力。见图3。

2.4.dHax3与5mC-dsDNA复合物的晶体结构

图4显示了dHax3与5mC-dsDNA杂合双链复合物的晶体结构。

序列表

<110>清华大学

<120>根据蛋白质-DNA复合物晶体结构设计新型TALE的方法

<130>CPCH1260014N

<140>201210021012.3

<141>2012-01-04

<160>8

<170>PatentIn version 3.5

<210>1

<211>2883

<212>DNA

<213>人工序列

<220>

<223>dHax3 DNA序列

<400>1

atggacccaa tacgaagcag aacgccatca ccagctaggg aacttctctc tggaccacag 60

cctgatggag ttcagccaac tgcagatcga ggtgtttctc cgccagccgg tggcccttta 120

gatggtctcc cagcaagaag aacaatgtcc cgtaccagac tcccaagtcc ccctgccccg 180

tcgccagcct tttcagctga ctccttctct gatcttctta ggcaatttga cccttctctt 240

ttcaatacat cccttttcga ttcacttcct cctttcggcg cacatcatac tgaggcagcc 300

accggcgaat gggacgaagt ccaaagtggt ttaagggcag ctgatgctcc accaccgacg 360

atgagagtcg ctgttaccgc cgcacgtcct cctagagcca agccagcccc tagaagacga 420

gctgcgcaac cctccgatgc aagccctgca gctcaagtag accttcgaac actaggttac 480

tcccagcaac aacaagaaaa aataaagcca aaggttagat ctacagttgc acaacatcac 540

gaagccctag tcggacacgg atttacacat gctcatatcg tggctctttc acaacatcct 600

gcagctcttg gaacagtcgc tgtcaaatat caggatatga ttgctgcatt gccagaagct 660

actcacgaag ctatcgtcgg agttgggaaa caatggtcag gcgcaagagc attagaggcg 720

cttctcaccg tagctggtga attacgaggt cctccactcc aattggatac tgggcaatta 780

ttaaaaatcg ctaaacgagg tggagtcact gctgtcgaag ccgttcatgc atggcgtaac 840

gctctcacgg gcgcaccact aaaccttact cctgaacagg ttgtcgcaat agcttcacat 900

gatggcggaa aacaagctct tgaaacagtg caacgtctcc ttcccgtcct ctgtcaggct 960

cacggattga ctcctcagca ggtcgtcgca attgcatcac atgatggagg caaacaagct 1020

ttagaaacag tacaaagact attgcccgtt ctttgccaag cgcatgggtt aactcccgaa 1080

caagtcgttg ccattgcaag tcacgacgga ggtaaacaag ctctcgaaac ggttcaagca 1140

cttttacccg ttctctgtca agcacatgga ctcacacctg aacaagtagt tgctatcgca 1200

tcgaatggag gtggaaaaca agcactggaa actgtacaaa gacttttgcc agttttatgt 1260

caagcgcacg gtcttactcc tcaacaagtt gtcgccattg cctctaacgg tggtggaaaa 1320

caagctcttg aaactgtcca gagacttctg cccgttctat gtcaggctca tgggctaacc 1380

cctcaacagg ttgttgcaat cgcatctaat ggaggaggaa aacaagcttt agaaactgtc 1440

caacgactac tgcccgttct ctgccaagca cacggactta ccccacaaca agttgtggca 1500

atagcttcta attctggtgg taaacaagcc cttgagacgg ttcaaagact tctaccagtt 1560

ctttgtcagg cacatggatt gaccccacaa caggtcgtag caatcgcatc taatggaggt 1620

ggtaagcaag ctctagaaac ggtacaaaga ttacttcccg tgctttgtca agctcatgga 1680

ctcactcctc aacaagtggt cgctattgca agtcatgatg gtggaaagca agcactagaa 1740

accgtccaac gactccttcc tgttctctgt caagcacatg gtcttacgcc cgaacaagtt 1800

gttgctatag cttcgaacgg aggtggaaaa caagctctcg aaaccgtcca aaggctcctc 1860

ccagtacttt gccaagcaca tggattaacc cctgagcaag tagttgcaat tgcctcgcac 1920

gacggaggaa agcaagcatt agaaactgtt cagagacttt tgcctgtcct gtgtcaagcc 1980

cacggtctaa caccacaaca agtcgtcgca atcgctagta atggaggagg tagacctgca 2040

ttggagtcga tagtcgcaca actatcacga cctgatcccg ctcttgcagc attgacaaac 2100

gatcatttag tcgcacttgc atgtttagga ggacgaccag cacttgatgc cgttaagaaa 2160

ggactaccgc acgcccctgc attgattaaa agaacaaaca gacgaatccc ggagagaact 2220

tcacatcgtg tagccgatca tgctcaagtc gtaagagttt tgggtttctt ccaatgtcat 2280

tcccacccag ctcaagcttt tgacgatgca atgactcaat ttggaatgag tagacatgga 2340

ctcctgcaat tatttcgaag ggtcggagtt acagagctcg aagccaggtc aggaacgctg 2400

ccccccgcat ctcaacgatg ggatagaatt ctccaagcct ctggaatgaa aagagctaaa 2460

ccttcaccaa cgtccacaca aacaccagac caagcttctc tccacgcttt tgccgactca 2520

ctagagagag atctagatgc accgtcacct atgcatgaag gagaccaaac aagagcctct 2580

tcaagaaaac gttctcgttc tgatagagct gtcactggac cttccgccca acaatctttc 2640

gaagtccgag ttcctgagca acgagatgcc ctacacctgc ctttgctttc ttggggagtt 2700

aagcgaccac gtactagaat tggtggacta ctcgatccag gtacaccaat ggatgctgat 2760

ctcgttgctt cctctaccgt agtatgggag caagacgcag accccttcgc tggaactgct 2820

gacgatttcc cagcctttaa cgaggaagaa ttggcttggt taatggaact tctaccgcaa 2880

tga 2883

<210>2

<211>977

<212>PRT

<213>人工序列

<220>

<223>dHax3全长蛋白

<400>2

Met His His His His His His Ile Thr Ser Leu Tyr Lys Lys Ala Gly

1 5 10 15

Leu Met Asp Pro Ile Arg Ser Arg Thr Pro Ser Pro Ala Arg Glu Leu

20 25 30

Leu Ser Gly Pro Gln Pro Asp Gly Val Gln Pro Thr Ala Asp Arg Gly

35 40 45

Val Ser Pro Pro Ala Gly Gly Pro Leu Asp Gly Leu Pro Ala Arg Arg

50 55 60

Thr Met Ser Arg Thr Arg Leu Pro Ser Pro Pro Ala Pro Ser Pro Ala

65 70 75 80

Phe Ser Ala Asp Ser Phe Ser Asp Leu Leu Arg Gln Phe Asp Pro Ser

85 90 95

Leu Phe Asn Thr Ser Leu Phe Asp Ser Leu Pro Pro Phe Gly Ala His

100 105 110

His Thr Glu Ala Ala Thr Gly Glu Trp Asp Glu Val Gln Ser Gly Leu

115 120 125

Arg Ala Ala Asp Ala Pro Pro Pro Thr Met Arg Val Ala Val Thr Ala

130 135 140

Ala Arg Pro Pro Arg Ala Lys Pro Ala Pro Arg Arg Arg Ala Ala Gln

145 150 155 160

Pro Ser Asp Ala Ser Pro Ala Ala Gln Val Asp Leu Arg Thr Leu Gly

165 170 175

Tyr Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Arg Ser Thr

180 185 190

Val Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala

195 200 205

His Ile Val Ala Leu Ser Gln His Pro Ala Ala Leu Gly Thr Val Ala

210 215 220

Val Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu

225 230 235 240

Ala Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu

245 250 255

Ala Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu

260 265 270

Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr Ala

275 280 285

Val Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu

290 295 300

Asn Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly

305 310 315 320

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

325 330 335

Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp

340 345 350

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

355 360 365

Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser

370 375 380

His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro

385 390 395 400

Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile

405 410 415

Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu

420 425 430

Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val

435 440 445

Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln

450 455 460

Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln

465 470 475 480

Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr

485 490 495

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

500 505 510

Gln Gln Val Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu

515 520 525

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

530 535 540

Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln

545 550 555 560

Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His

565 570 575

Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly

580 585 590

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

595 600 605

Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly

610 615 620

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

625 630 635 640

Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser

645 650 655

His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro

660 665 670

Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile

675 680 685

Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln

690 695 700

Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu

705 710 715 720

Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys

725 730 735

Lys Gly Leu Pro His Ala Pro Ala Leu Ile Lys Arg Thr Asn Arg Arg

740 745 750

Ile Pro Glu Arg Thr Ser His Arg Val Ala Asp His Ala Gln Val Val

755 760 765

Arg Val Leu Gly Phe Phe Gln Cys His Ser His Pro Ala Gln Ala Phe

770 775 780

Asp Asp Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Leu Gln

785 790 795 800

Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg Ser Gly Thr

805 810 815

Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly

820 825 830

Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Thr Gln Thr Pro Asp Gln

835 840 845

Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala

850 855 860

Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys

865 870 875 880

Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ser

885 890 895

Phe Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu

900 905 910

Leu Ser Trp Gly Val Lys Arg Pro Arg Thr Arg Ile Gly Gly Leu Leu

915 920 925

Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val

930 935 940

Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe

945 950 955 960

Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro

965 970 975

Gln

<210>3

<211>499

<212>PRT

<213>人工序列

<220>

<223>dHax3截短体蛋白，其中C端含有6个His标签

<400>3

Met Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala

1 5 10 15

Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu

20 25 30

Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala

35 40 45

Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln

50 55 60

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

65 70 75 80

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

85 90 95

Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu

100 105 110

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

115 120 125

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

130 135 140

Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His

145 150 155 160

Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

165 170 175

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

180 185 190

Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly

195 200 205

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

210 215 220

Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser

225 230 235 240

Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro

245 250 255

Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile

260 265 270

Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu

275 280 285

Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val

290 295 300

Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln

305 310 315 320

Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln

325 330 335

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

340 345 350

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

355 360 365

Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu

370 375 380

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

385 390 395 400

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

405 410 415

Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His

420 425 430

Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

435 440 445

Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro

450 455 460

Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu

465 470 475 480

Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Leu Glu His His His

485 490 495

His His His

<210>4

<211>17

<212>DNA

<213>人工序列

<220>

<223>合成的单链DNA

<400>4

tgtcccttta tctctct 17

<210>5

<211>49

<212>DNA

<213>人工序列

<220>

<223>用于凝胶阻滞实验的DNA

<400>5

ccacatatgt catacgtgtc cctttatctc tctccagctc gaggaattc 49

<210>6

<211>17

<212>RNA

<213>人工序列

<220>

<223>合成的单链RNA

<400>6

agagagauaa agggaca 17

<210>7

<211>49

<212>RNA

<213>人工序列

<220>

<223>用于凝胶阻滞实验的RNA

<400>7

gaauuccucg agcuggagag agauaaaggg acacguauga cauaugugg 49

<210>8

<211>17

<212>DNA

<213>人工序列

<220>

<223>合成的单链DNA

<400>8

agagagataa agggaca 17

Claims

1.设计特异识别DNA的TALE蛋白的方法，包括以下步骤：

1) 位于组装单元第16、17位的残基采用侧链含有氢键受体基团或碱性的氨基酸;

2）位于组装单元第12位的残基采用侧链含有氢键供体基团;

3) 对于碱基腺嘌呤A，组装单元第13位的残基选自Asn，Asp，Gln，Glu，Ser，Thr;

4) 对于碱基鸟嘌呤G，组装单元第13位的残基选自Asn，Gln，Asp，Glu，His，Lys，Arg，Ser，Thr；

5) 对于碱基胞嘧啶C，组装单元第13位的残基选自Asp，Asn，Glu，Gln, Ser, Thr,Tyr；

6) 对于碱基胸腺嘧啶T，组装单元第13位的残基选自Gly，Ser，Ala；

7) 对于碱基5-甲基胞嘧啶5mC，组装单元第13位的残基选自Gly，Ser，Ala；

其中所述组装单元具有图11所示的序列。

2.权利要求1的方法，其中步骤1）中所述的位于组装单元第16、17位的残基为Arg、Lys、His、Asn、Gln。

3.权利要求1或2的方法，其中步骤2）中所述的位于组装单元第12位的残基为His、Asn、Gln、Ser、Thr、Tyr、Lys、Arg。

4.制备特异识别DNA的TALE蛋白的方法，包括以下步骤：

按照权利要求1的方法设计所述蛋白，和对所述蛋白进行表达。

5.融合蛋白，包含权利要求1至4中任一项所述的TALE蛋白或其DNA结合结构域。

6.权利要求5的融合蛋白，其中所述TALE蛋白或其DNA结合结构域的N端或C端与荧光类蛋白、DNA水解酶或DNA-RNA杂合链核酸酶、或任何靶向基因的转录因子激活结构域融合。

7.权利要求1至4中任一项所述的TALE蛋白或权利要求5或6的融合蛋白在制备用于对细胞生命过程进行干涉的方法的制剂中的用途，其中所述方法包括利用权利要求1至4中任一项所述的TALE蛋白或权利要求5或6的融合蛋白对特定基因表达进行激活或抑制。

8.权利要求1至4中任一项所述的TALE蛋白或权利要求5或6的融合蛋白在制备用于对细胞生命过程进行干涉的方法的制剂中的用途，其中所述方法包括利用权利要求1至4中任一项所述的TALE蛋白或权利要求5或6的融合蛋白对基因组中的特定基因进行敲除、引入定点突变或插入新基因片段。