CN104093855B

CN104093855B - 特异结合和靶定dna‑rna杂合双链的方法

Info

Publication number: CN104093855B
Application number: CN201280060126.7A
Authority: CN
Inventors: 施公; 施一公; 颜宁; 邓东; 闫创业; 潘孝敬
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-01-04
Filing date: 2012-12-21
Publication date: 2018-04-13
Anticipated expiration: 2032-12-21
Also published as: CN104093855A; WO2013102289A1

Abstract

本发明公开了一种特异结合和靶定DNA‑RNA杂合双链的方法。该方法包括用TALE及其衍生蛋白来特异性识别特定的DNA‑RNA杂合双链并与之结合。

Description

特异结合和靶定DNA-RNA杂合双链的方法

技术领域

本发明涉及生物技术领域，更具体地说，涉及特异结合和靶定DNA-RNA杂合双链的方法。

背景技术

TALE（Transcription Activator Like Effectors, 转录激活子样效应因子) 是植物致病菌黄单胞菌属（Xanthomonas）的细胞内的一种蛋白质。当病原菌侵染植株时，病菌会通过其自身的III型分泌系统将包括TALE在内的一系列效应分子注入到植物细胞内。这些效应分子通过影响宿主细胞的信号传递，基因表达等方式来协助病菌进一步扩增。TALE则是这些效应分子中最大的一类，它像植物自身的转录激活子一样行使功能。

TALE家族蛋白一般由3个主要的功能结构域组成，N端结构域与TALE的分泌转运有关; C端具有转录激活结构域和入核信号肽片段；位于TALE中部的区域是DNA结合结构域，但它的DNA 结合结构域不同于其他已知的DNA结合结构域，它是由一段串联的重复单元组成，大多数情况下每个重复单元由34个氨基酸组成，个别重复单元由33或35个氨基酸残基组成。这34个氨基酸中除了第12和13位的氨基酸变化较大之外，其他氨基酸高度保守。这两个不保守的氨基酸被命名为RVD（repeat variable diresidue，重复可变双残基）。J. Boch等人和M.J. Moscou等（参见 J. Boch, H. Scholze, S. Schornack, A. Landgraf, S.Hahn, S. Kay, T. Lahaye, A. Nickstadt, U. Bonas, Breaking the code of DNAbinding specificity of TAL-type III effectors, Science, 326 (2009) 1509-1512和M.J. Moscou, A.J. Bogdanove, A simple cipher governs DNA recognition by TALeffectors, Science, 326 (2009) 1501）已于2009年分别通过实验和生物信息学研究发现每个重复单元中第12和13位的氨基酸（RVD）与识别的核苷酸种类有特殊的对应关系，例如：

表1 部分RVD与DNA碱基序列的对应关系

TALE蛋白的特异DNA序列识别以及灵活的可组装性为它们在分子生物学中的应用提供了巨大的前景，科学家们可以设计组装任意的TALE单元去识别任意的DNA双螺旋序列。这一特性已经被用来构造切割特异双链DNA序列的DNA酶TALEN (TALE nuclease，TALE核酸酶)，用于在细胞基因组中引入定点突变、定点敲除等操作（A.J. Bogdanove, D.F.Voytas, TAL effectors: customizable proteins for DNA targeting, Science, 333(2011) 1843-1846.）。在目前所有已知的报道中，TALE识别的都是双链的DNA螺旋（dsDNA）。

发明内容

本发明提供了一种特异结合DNA-RNA杂合链的方法，包括用TALE及其衍生蛋白来特异性识别特定的DNA-RNA杂合双链并与之结合。

本发明提供了一种抑制以RNA为模板来生成DNA的方法，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合。在一个优选实施方式中，本发明提供了一种抑制逆转录病毒基因组复制的方法，所述方法包括用TALE及其衍生蛋白来特异结合DNA-RNA杂合双链并与之结合。

本发明提供了一种抑制以RNA为引物、DNA为模板来生成DNA的方法，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合。在一个优选实施方式中，本发明提供了一种抑制细胞增殖，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合从而抑制细胞基因组复制。在一个更优选实施方式中，本发明提供了一种抑制肿瘤细胞增殖的方法，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合从而抑制肿瘤细胞基因组复制。

本发明提供了一种抑制以RNA为引物、DNA为模板来生成RNA的方法，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合，条件是生成的RNA能与DNA形成暂时稳定的双链体。

本发明提供了一种保护DNA-RNA杂合链中RNA分子不被RNA水解酶RNase H降解的方法，包括用TALE及其衍生蛋白来特异性识别DNA-RNA杂合双链并与之结合。

TALE蛋白可以为自然界已有的TALE蛋白以及在此基础上通过基因方法突变、修饰、组装获得的保持或增强DNA-RNA杂合链结合能力的TALE衍生蛋白。所述TALE衍生蛋白还包含具有TALE蛋白DNA结合结构域的重组蛋白。

所述DNA还可以包含修饰的DNA衍生物，例如甲基化碱基、羟甲基化碱基等。

所述RNA还可以包含修饰的RNA衍生物，例如甲基化碱基、羟甲基化碱基等。

在一个优选实施方式中，所述逆转录病毒包括逆转录病毒科（Retroviridae）中所属病毒，包括但不限于：人类免疫缺陷病毒（Human Immunodeficiency Virus，HIV）、劳斯肉瘤病毒(Rous Sarcoma Virus，RSV)、鼠白血病病毒（Murine Leukemia Virus，MLV）、人类T细胞白血病病毒（Human T-cell Leukemia Virus，HTLV）等等。所述逆转录病毒还包括在复制过程中形成RNA-DNA杂合双链的或以与已知逆转录病毒基因组复制方式类似的其他RNA病毒，包括尚未发现的病毒种类。

在一个优选实施方式中，所述方法用于抑制哺乳动物中的肿瘤细胞增殖。

本发明提供了TALE蛋白在制备特异性识别DNA-RNA杂合双链的试剂中的用途。

本发明提供了TALE蛋白在制备药物中的用途，所述药物用于治疗或预防由逆转录病毒感染引起的疾病，例如，由逆转录病毒引起的人、畜、植物疾病，包括但不限于人免疫缺陷综合症（AIDS）、人T细胞白血病、人毛细胞白血病、鼠白血病、禽白血病等等。

本发明提供了TALE蛋白在制备药物中的用途，所述药物用于治疗或预防肿瘤。

本发明提供了治疗或预防由逆转录病毒感染引起的疾病的方法，其通过TALE及其衍生蛋白来干扰以RNA为模板的DNA复制来抑制逆转录病毒的复制。

本发明提供了治疗或预防肿瘤的方法，其中通过TALE及其衍生蛋白来干扰以RNA为引物的DNA复制来抑制肿瘤细胞增殖。

本发明提供了用于特异性识别DNA-RNA杂合双链的TALE蛋白。

本发明提供了用于治疗或预防由逆转录病毒感染引起的疾病或用于治疗或预防肿瘤的TALE蛋白。

附图说明

图1是dHax3的DNA结合域（dHax3截短体，标记为dHax3-Δ）与双链DNA的高分辨率晶体结构（1.85埃）示意图。左图中的1-10 表示dHax3的DNA结合域的每个重复单元，其识别右侧对应的DNA序列。每个重复单元由两个α螺旋组成，两个螺旋分别为a和b。该结构已上传到PDB数据库中，代码为：3V6T。其中dHax3 （designed Hax3）指经过改造的TALE蛋白Hax3。

图2是示意图，表明dHax3与DNA的相互作用主要集中于DNA的编码链。A, dHax3的表面电荷势，显示dHax3表面有一条正电荷分布。蓝色分布刚好与DNA分子的磷酸基团相互作用（DNA 分子位于蛋白的中间，金黄色基团表示磷酸基团）。B，这种相互作用只存在于dHax3与具有其识别序列的DNA链之间。C，每个重复单元中的第16和17位的氨基酸残基K和Q会通过氢键与DNA磷酸基团相互作用。D，每个重复单元中主链也会与DNA磷酸基团形成氢键相互作用。

图3是电泳图，显示了dHax3-NI变体（即dHax3的DNA结合域的第七个重复单元中的RVD——NS——通过点突变技术变成NI。它具有与dHax3相同的DNA识别序列，同时具有更高的识别特异性）与双链DNA（图A泳道1-5, dsDNA）、单链DNA（图A泳道6-10，ssDNA）、DNA–RNA杂合双链（图B, 泳道1-5: fDNA+rRNA，泳道6-10:fRNA+rDNA）、双链RNA（图C泳道1-5,dsRNA）和单链DNA（图C泳道6-10，ssRNA）的凝胶阻滞实验。泳道1-5和6-10中，dHax3-NI蛋白浓度分别为 0、0.15 μM、0.44 μM、1.33 μM和4μM，同时每个泳道中含有大约4 nM 的带有³²P放射性标记的核酸探针。结果显示dHax3-NI可以特异性识别DNA双链和一种DNA-RNA杂合双链。“f”: 正向链。“r”: 反向链。

图4显示了dHax3-NI的DNA结合域(即dHax3-NI的截短体，标记为dHax3-NI-Δ)与DNA-RNA杂合双链复合物的晶体结构。dHax3-NI-Δ以缎带模型表示，“DNA编码链”和“互补RNA链”分别标出。该结构已上传到PDB数据库中，代码为：4GG4。

图5是电泳图，显示了dHax3全长蛋白的纯化结果。泳道标注说明：1. 全菌破碎液；2. 全菌破碎离心沉淀；3. 全菌破碎离心上清液；4. 镍柱培养弃液；5. 镍柱清洗液；6. 镍柱洗脱回收液；7. 镍柱柱材；8. 分子量标志物。

图6是电泳图，显示了dHax3截短体蛋白（dHax3-Δ）的纯化结果。泳道标注说明：A.全菌破碎液；P. 全菌破碎离心沉淀；S. 全菌破碎离心上清液；F. 镍柱穿透液；W1. 镍柱清洗液1；W1. 镍柱清洗液2；E. 镍柱洗脱回收液；R. 镍柱柱材；M. 分子量标志物。

图7是示意图，显示了真核生物DNA复制原理。

图8是电泳图，显示了dHax3-NI保护DNA-RNA，阻止RNase H对DNA-RNA杂合双链中的RNA的酶切。1和2道分别为在没有RNase H情况下，有或者无dHax3-NI的对照组；3为加入RNase H情况下，无dHax3-NI的对照；4~10为加入RNase H情况下，加入梯度浓度的dHax3-NI，蛋白终浓度梯度为0.004、0.015、0.05、0.025、0.1、0.4和1.6 μM。13和14道分别为制备的RNA梯带（T1和A）用于检测RNase H的在DNA-RNA杂合双链中的剪切位置。

图9是电泳图，显示了dHax3-TALE₂₄重复单元嵌合蛋白保护DNA-RNA，阻止RNase H对DNA-RNA杂合双链中的RNA的酶切。0和11道分别为制备的RNA梯带（T1 和 A）用于检测RNase H在DNA-RNA杂合双链中的剪切位置。1和2道分别为在没有RNase H情况下，有或者无dHax3-TALE₂₄重复单元的对照组；3道为加入RNase H情况下，无dHax3-TALE₂₄重复单元的对照；4~10道为加入RNase H情况下，加入梯度浓度的dHax3-TALE₂₄重复单元。蛋白的终浓度依次为：0.004、0.015、0.05、0.025、0.1、0.4和1.6 μM。

图10是电泳图，显示了dHax3-TALE_HIV重复单元嵌合蛋白保护DNA-RNA，阻止RNaseH对DNA-RNA杂合双链中的RNA的酶切。1和2道分别为在没有RNase H情况下，有或者无dHax3-TALE_HIV重复单元的对照组；3道为加入RNase H情况下，无dHax3-TALE_HIV重复单元的对照；4~10道为加入RNase H情况下，加入梯度浓度的dHax3-TALE_HIV重复单元，蛋白的终浓度分别为：0.004、0.015、0.05、0.025、0.1、0.4和1.6 μM；11和12道分别为在加入dHax3-TALE_HIV重复单元情况下，有或者无RNase H的对照；13和14 道分别为在加入BSA情况下，有或者无RNase H的对照。

具体实施方式

发明人成功解析了经过改造的TALE蛋白Hax3（在本文中称为dHax3 （designedHax3））的DNA结合结构域与dsDNA的复合物晶体结构。该结构除了揭示出TALE蛋白特异识别每一个DNA碱基的分子基础，还显示双链DNA里只有一条链（即具有TALE识别序列的链）与TALE相互作用。

发明人通过生物化学实验发现TALE蛋白可以特异识别DNA－RNA杂合双链，并成功解析了dHax3蛋白的DNA结合结构域与DNA－RNA杂合双链复合体的晶体结构。

发明人通过结构观察与生物化学手段首次发现TALE蛋白可以特异识别DNA – RNA杂合双链，这一发现拓宽了TALE蛋白的应用前景。

(1) 对逆转录病毒的治疗。

逆转录病毒，以RNA作为其遗传物质，比如对人类造成严重疾病的人类免疫缺陷病毒、人类T细胞白血病病毒等等。它们要实现扩增，都必须通过在宿主细胞内逆转录的方式来完成病毒基因组的复制。逆转录病毒在通过侵染宿主复制自身的过程中，关键一步是在宿主内以病毒RNA基因组作为模板，合成与RNA互补的DNA链。当基因组信息被传递到单链的DNA上后，病毒逆转录酶（Reverse Transcriptase）上的RNA水解酶结构域RNase H，会将DNA- RNA杂合双链中的RNA链降解掉，释放出来的单链DNA再作为模板，病毒逆转录酶将其复制成双链DNA，最后将双链DNA插入到宿主的基因组中。

在病毒复制过程中，如果逆转录酶上的RNase H结构域在逆转录之后不能降解RNA，病毒就不能完成基因组复制。根据这个原理，以及发明人新发现的TALE蛋白可以特异结合DNA-RNA结合的特性，可以推测，当TALE特异的结合DNA-RNA杂合双链时，会占据逆转录酶和RNase H的结合位点，使得RNase H不能降解RNA，从而达到抑制病毒复制的目的。

发明人首次发现的TALE可以结合DNA-RNA杂合链的现象为抑制逆转录病毒基因组复制过程提供了一种新型方式，从而为治疗由逆转录病毒引发的诸如人免疫缺陷综合症、人T细胞白血病提供了一种新型的思路和方法。该方法还可用于治疗由在复制过程中形成RNA-DNA杂合双链的病毒引发的疾病，所述病毒包括以与已知逆转录病毒基因组复制方式类似的其他RNA病毒和尚未发现的病毒。

(2) 影响真核生物的DNA复制，从而为抑制肿瘤细胞增殖提供新方法。

如图7所示，真核生物基因组中，双链DNA以线性形式存在。由于DNA的复制方向从5’3’，其中前导链可以从5’端向3’端连续复制下去；而滞后链则要以RNA为引物，从5’端向3’端合成一段一段的冈崎片段（Okazaki fragment）。

现在发明人发现TALE可以有效结合DNA-RNA杂合链，那就可能与DNA聚合酶竞争对于DNA-RNA杂合链的结合，从而抑制DNA复制。这样的后果是可能抑制细胞分裂，从而对抑制肿瘤细胞增殖提供了一个新思路和新方法。

基于这种特异识别DNA-RNA杂合双链的新方法，为干扰细胞内所有通过形成DNA-RNA杂合双链的过程，比如逆转录病毒在宿主细胞内的复制、细胞基因组DNA的复制等重要过程，提供了新方法。

除非本文另有定义，本发明使用的相关科学和技术术语具有本领域普通技术人员通常理解的含义。而且，除非上下文有其它规定，单数形式的术语应当包括复数，而复数形式的术语应当包括单数。通常，与本文所述的分子生物学、生物化学、结构生物学及相关使用的命名以及技术，是本领域众所周知且普遍使用的那些。除非另有说明，下面的术语应当理解为具有下述含义：

本文所用的术语“TALE蛋白”是指Transcription Activator Like Effectors，即转录激活子样效应因子。TALE蛋白可以为自然界已有的TALE蛋白以及在此基础上通过基因方法突变、修饰、组装获得的保持或增强DNA、或DNA-RNA杂合链结合能力的TALE衍生蛋白。

本文所用的术语“Hax3”是指TALE蛋白家族的成员之一。Hax的全称为“Homolog ofavrBs3 in Xanthomonas”,而Hax3是从野油菜黄单胞菌变种Armoraciae（Xanthomonas campestris pv. Armoraciae）鉴定出的3个同源蛋白之一。作为TALE蛋白家族的成员之一，它的功能与其他已知的TALE蛋白如AvrBs3的功能类似（参见S. Kay, J. Boch, U. Bonas,Characterization of AvrBs3-like effectors from a Brassicaceae pathogenreveals virulence and avirulence activities and a protein with a novel repeatarchitecture, Molecular plant-microbe interactions : MPMI, 18 (2005) 838-848.）。

本文所用的术语“dHax3”是指人工改造的Hax3（designed Hax3），其基因的核苷酸序列为SEQ ID NO:1，氨基酸序列可参见SEQ ID NO:2（其中插入了6XHis标签）。M.M.Mahfouz等人设计了dHax3以使其具有特异识别如下DNA序列的能力：TCCCTTTATCTCT（M.M.Mahfouz, L. Li, M. Shamimuzzaman, A. Wibowo, X. Fang, J.K. Zhu, De novo-engineered transcription activator-like effector (TALE) hybrid nuclease withnovel DNA binding specificity creates double-strand breaks, Proceedings ofthe National Academy of Sciences of the United States of America, 108 (2011)2623-2628.）。

本文所用的术语“dHax3截短体蛋白”(“dHax3-Δ”)是指去除了N端结构域和C端结构域的dHax3截短体蛋白，其为dHax3蛋白序列230-721，具有11.5个重复单元。

本文所用的术语“dHax3-NI”是指dHax3的一种变体，其中在DNA结合域第七个重复单元中的NS通过点突变技术变成NI以获得与相应DNA链更特异性的结合能力。dHax3-NI与dHax3 都具有特异识别如下DNA序列的能力：TCCCTTTATCTCT。

本文所用的术语“dHax3-NI-Δ”是指dHax3-NI变体的蛋白序列230-721的截短体。

本文所用的术语“TALE₂₄重复单元”是指一种人工合成的DNA结合域的重复单元，其具有24个重复单元，具体设计和制备参见P. Yin, D. Deng, C. Yan, X. Pan, J.J. Xi,N. Yan, Y. Shi, Specific DNA-RNA Hybrid Recognition by TAL Effectors, Cellreports, 2 (2012) 707-713。

本文所用的术语“TALE_HIV重复单元”是指一种人工合成的的DNA结合域的重复单元，其特异性识别HIV基因组中特定片段，具体设计和制备参见P. Yin, D. Deng, C. Yan,X. Pan, J.J. Xi, N. Yan, Y. Shi, Specific DNA-RNA Hybrid Recognition by TALEffectors, Cell reports, 2 (2012) 707-713。

本文所用的术语“dHax3-TALE₂₄重复单元”是指用TALE₂₄重复单元来置换dHax3的DNA结合域中的重复单元从而形成的嵌合蛋白。

本文所用的术语“dHax3-TALE_HIV重复单元_”是指用TALE_HIV重复单元来置换dHax3的DNA结合域中的重复单元从而形成的嵌合蛋白。

由于所有TALE蛋白中的RVD识别DNA碱基的分子机制相同，虽然不同的TALE蛋白存在一定序列差异性，但是涉及实施例中dHax3特异性识别DNA-RNA杂合双链的能力也同样适用于其他不同于实施例dHax3序列的其他TALE蛋白。同时，未使用表1中RVD的TALE蛋白，例如具有ND，NK，NH，HG，N*（*代表任意氨基酸）等等RVD的TALE蛋白，都与dHax3使用相同的分子机制识别DNA，也同样具有识别DNA-RNA杂合双链的能力，所以也在本专利的保护范围之内。

实施例中所采用的各种试剂，包括缓冲液、酶、载体、试剂盒等，均可通过商业途径购得或者按照《分子克隆实验指南》第三版(黄培堂, 科学出版社, 2002)所推荐的方法配制。

实施例

实施例1：几种TALE蛋白的构建以及纯化

1. 分子克隆及表达载体构建的实验方法如下：

●PCR扩增目的基因片段

50 µl标准PCR反应体系组成如下表所示，如有需要可按照比例扩增体系；

50 µl PCR反应标准体系

成功扩增目的片段后，直接使用普通DNA回收试剂盒回收扩增的目的基因片段。注意，如果是点突变的扩增基因片段需要先使用琼脂糖凝胶电泳去除DNA模板，然后使用琼脂糖凝胶DNA回收试剂盒回收目的基因。

●限制性内切酶处理扩增片段和载体

使用相同的限制性内切酶处理扩增片段和载体，从而产生相同的DNA粘性末端。50µl双酶切反应体系成分如下表所示：

50 µl标准双酶切反应体系

37 ℃温浴30~180 min，估计反应完全后，进行凝胶电泳，使用琼脂糖凝胶DNA回收试剂盒切胶回收DNA片段。

●DNA连接

使用T4 DNA连接酶将酶切后的目的基因片段连入载体，16℃或室温反应30~120min。连接体系如下表所示：

10 µl标准连接体系

●转化

将连接产物按照下述方法转入DH5α感受态细胞中，准备筛选阳性克隆：在连接产物中加入50~100µl DH5α感受态细胞，冰上放置30min；42℃热击90s；冰上放置2min；将所有产物加到氨苄抗性琼脂平板上，用涂布棒涂匀，37 ℃倒置培养14-16小时。

●使用菌落PCR法筛选阳性克隆

在前一步得到的平板上标记4~8个菌落，使用如下体系检验阳性克隆：

菌落PCR体系

使用凝胶电泳确认结果，挑取阳性克隆，在氨苄抗性LB培养基中37 ℃、220 rpm培养过夜。

●质粒提取

使用普通质粒小提试剂盒提取质粒，测序由金唯智（genewiz）生物科技有限公司完成。

●重组蛋白的诱导表达

为了获得大量纯化的蛋白，需要进行过量表达。现有的过量表达体系有大肠杆菌(E.coli)、酵母、昆虫细胞等。不同的蛋白可能适合在不同的体系中表达。目的蛋白是革兰氏阴性菌中的一种蛋白，所以选择大肠杆菌作为表达体系进行蛋白表达纯化。

纯化出性质好，纯度高的蛋白质是进行生化实验及结晶实验的前提条件。从大肠杆菌中纯化重组表达蛋白技术已经相当成熟。为了方便的使用亲和层析进行纯化，构建了带有各种标签的重组蛋白。经过比较，采用带有组氨酸标签的重组蛋白进行后续实验。6个组氨酸组成的组氨酸标签可以以配位键的形式结合到带有镍等金属原子的柱材上。经过镍柱亲和层析和肝素亲和层析纯化就可以得到纯度大约95%以上的蛋白。

具体纯化步骤如下：

a. 将转有TAL effector表达质粒的BL21(DE3)或者ROSETTA(DE3)接入50ml 含有氨苄青霉素或者氨苄青霉素/氯霉素双抗的LB培养基，并置于37℃摇床培养过夜。

b. 将5-10ml的小瓶培养液转接到1L含有抗生素的LB培养基于37℃摇床培养约3小时。当0D600=0.8~1.0时，加入0.2mM 终浓度的IPTG22℃诱导表达14~16小时。

c. 完成诱导的大肠杆菌于4℃4400rpm离心10min，弃上清。每升培养液离心收集的湿菌用20 ml 裂菌液（25 mM Tris-HCl pH 8.0， 500 mM NaCl）重悬。

d. 超声破菌后，14000rpm离心50min，取上清进行后续纯化。

e. 将上清缓缓加入事先用裂菌液（25 mM Tris-HCl pH 8.0，500 mM NaCl）平衡好的镍柱中。将穿过液重复上述操作1~2次。

f. 加入清洗缓冲液I（25 mM Tris-HCl pH 8.0， 1000 mM NaCl）10ml, 除去部分杂质。重复上述操作3次。

g. 加入清洗缓冲液II（25 mM Tris-HCl pH 8.0；100 mM NaCl；10mM Imidazole）10ml，进一步除去杂蛋白。

h. 加入洗脱缓冲液（25 mM Tris-HCl pH 8.0，50 mM NaCl，300mM Imidazole）10ml，将目的蛋白从镍柱上洗脱。用考马斯亮蓝G-250检测是否洗脱干净，如洗脱不完全，重复上述操作。

i. 将洗脱下来的蛋白缓缓加入事先已用缓冲液(25 mM Tris-HCl pH 8.0，50 mMNaCl)平衡好的肝素柱（heparin sepharose 6 Fast Flow）。将穿过液重复上述操作1~2次。

j. 加入清洗缓冲液I（25 mM Tris-HCl pH 8.0， 100 mM NaCl）10 ml, 除去杂质。重复上述操作3次。

k. 加入洗脱缓冲液（25 mM Tris-HCl pH 8.0，1000 mM NaCl，10 mM DTT）10ml，将目的蛋白从肝素柱上洗脱。用考马斯亮蓝G-250检测是否洗脱干净。如洗脱不完全，重复上述操作。使用SDS-PAGE鉴定蛋白纯度。

l. 经过上述两步亲和层析纯化得到的蛋白，使用超滤浓缩管浓缩到~10mg/ml。最后使用分子筛(Superdax 200) 进一步纯化蛋白并检测蛋白性质，分子筛所使用的缓冲液为25 mM Tris-HCl pH8.0，150 mM NaCl，10 mM DTT。使用脱盐柱（Hiprep 26/10）将dHax3(231~720)蛋白所在缓冲液置换为25 mM MES pH 6.0，50 mM NaCl，5 mM MgCl₂，10mM DTT。

2. dHax3及dHax3-Δ的构建与表达

dHax3（designed Hax3）基因通过全基因合成得到，序列如下（SEQ ID NO:1）：

ATGGACCCAATACGAAGCAGAACGCCATCACCAGCTAGGGAACTTCTCTCTGGACCACAGCCTGATGGAGTTCAGCCAACTGCAGATCGAGGTGTTTCTCCGCCAGCCGGTGGCCCTTTAGATGGTCTCCCAGCAAGAAGAACAATGTCCCGTACCAGACTCCCAAGTCCCCCTGCCCCGTCGCCAGCCTTTTCAGCTGACTCCTTCTCTGATCTTCTTAGGCAATTTGACCCTTCTCTTTTCAATACATCCCTTTTCGATTCACTTCCTCCTTTCGGCGCACATCATACTGAGGCAGCCACCGGCGAATGGGACGAAGTCCAAAGTGGTTTAAGGGCAGCTGATGCTCCACCACCGACGATGAGAGTCGCTGTTACCGCCGCACGTCCTCCTAGAGCCAAGCCAGCCCCTAGAAGACGAGCTGCGCAACCCTCCGATGCAAGCCCTGCAGCTCAAGTAGACCTTCGAACACTAGGTTACTCCCAGCAACAACAAGAAAAAATAAAGCCAAAGGTTAGATCTACAGTTGCACAACATCACGAAGCCCTAGTCGGACACGGATTTACACATGCTCATATCGTGGCTCTTTCACAACATCCTGCAGCTCTTGGAACAGTCGCTGTCAAATATCAGGATATGATTGCTGCATTGCCAGAAGCTACTCACGAAGCTATCGTCGGAGTTGGGAAACAATGGTCAGGCGCAAGAGCATTAGAGGCGCTTCTCACCGTAGCTGGTGAATTACGAGGTCCTCCACTCCAATTGGATACTGGGCAATTATTAAAAATCGCTAAACGAGGTGGAGTCACTGCTGTCGAAGCCGTTCATGCATGGCGTAACGCTCTCACGGGCGCACCACTAAACCTTACTCCTGAACAGGTTGTCGCAATAGCTTCACATGATGGCGGAAAACAAGCTCTTGAAACAGTGCAACGTCTCCTTCCCGTCCTCTGTCAGGCTCACGGATTGACTCCTCAGCAGGTCGTCGCAATTGCATCACATGATGGAGGCAAACAAGCTTTAGAAACAGTACAAAGACTATTGCCCGTTCTTTGCCAAGCGCATGGGTTAACTCCCGAACAAGTCGTTGCCATTGCAAGTCACGACGGAGGTAAACAAGCTCTCGAAACGGTTCAAGCACTTTTACCCGTTCTCTGTCAAGCACATGGACTCACACCTGAACAAGTAGTTGCTATCGCATCGAATGGAGGTGGAAAACAAGCACTGGAAACTGTACAAAGACTTTTGCCAGTTTTATGTCAAGCGCACGGTCTTACTCCTCAACAAGTTGTCGCCATTGCCTCTAACGGTGGTGGAAAACAAGCTCTTGAAACTGTCCAGAGACTTCTGCCCGTTCTATGTCAGGCTCATGGGCTAACCCCTCAACAGGTTGTTGCAATCGCATCTAATGGAGGAGGAAAACAAGCTTTAGAAACTGTCCAACGACTACTGCCCGTTCTCTGCCAAGCACACGGACTTACCCCACAACAAGTTGTGGCAATAGCTTCTAATTCTGGTGGTAAACAAGCCCTTGAGACGGTTCAAAGACTTCTACCAGTTCTTTGTCAGGCACATGGATTGACCCCACAACAGGTCGTAGCAATCGCATCTAATGGAGGTGGTAAGCAAGCTCTAGAAACGGTACAAAGATTACTTCCCGTGCTTTGTCAAGCTCATGGACTCACTCCTCAACAAGTGGTCGCTATTGCAAGTCATGATGGTGGAAAGCAAGCACTAGAAACCGTCCAACGACTCCTTCCTGTTCTCTGTCAAGCACATGGTCTTACGCCCGAACAAGTTGTTGCTATAGCTTCGAACGGAGGTGGAAAACAAGCTCTCGAAACCGTCCAAAGGCTCCTCCCAGTACTTTGCCAAGCACATGGATTAACCCCTGAGCAAGTAGTTGCAATTGCCTCGCACGACGGAGGAAAGCAAGCATTAGAAACTGTTCAGAGACTTTTGCCTGTCCTGTGTCAAGCCCACGGTCTAACACCACAACAAGTCGTCGCAATCGCTAGTAATGGAGGAGGTAGACCTGCATTGGAGTCGATAGTCGCACAACTATCACGACCTGATCCCGCTCTTGCAGCATTGACAAACGATCATTTAGTCGCACTTGCATGTTTAGGAGGACGACCAGCACTTGATGCCGTTAAGAAAGGACTACCGCACGCCCCTGCATTGATTAAAAGAACAAACAGACGAATCCCGGAGAGAACTTCACATCGTGTAGCCGATCATGCTCAAGTCGTAAGAGTTTTGGGTTTCTTCCAATGTCATTCCCACCCAGCTCAAGCTTTTGACGATGCAATGACTCAATTTGGAATGAGTAGACATGGACTCCTGCAATTATTTCGAAGGGTCGGAGTTACAGAGCTCGAAGCCAGGTCAGGAACGCTGCCCCCCGCATCTCAACGATGGGATAGAATTCTCCAAGCCTCTGGAATGAAAAGAGCTAAACCTTCACCAACGTCCACACAAACACCAGACCAAGCTTCTCTCCACGCTTTTGCCGACTCACTAGAGAGAGATCTAGATGCACCGTCACCTATGCATGAAGGAGACCAAACAAGAGCCTCTTCAAGAAAACGTTCTCGTTCTGATAGAGCTGTCACTGGACCTTCCGCCCAACAATCTTTCGAAGTCCGAGTTCCTGAGCAACGAGATGCCCTACACCTGCCTTTGCTTTCTTGGGGAGTTAAGCGACCACGTACTAGAATTGGTGGACTACTCGATCCAGGTACACCAATGGATGCTGATCTCGTTGCTTCCTCTACCGTAGTATGGGAGCAAGACGCAGACCCCTTCGCTGGAACTGCTGACGATTTCCCAGCCTTTAACGAGGAAGAATTGGCTTGGTTAATGGAACTTCTACCGCAATGA。

合成的基因直接被连入pET300（invitrogen）质粒。表达出来的全长蛋白，N端有6个组氨酸标签，用于蛋白纯化时通过镍柱的亲和纯化。全长蛋白序列如下（SEQ ID NO:2）：

MHHHHHHITSLYKKAGLMDPIRSRTPSPARELLSGPQPDGVQPTADRGVSPPAGGPLDGLPARRTMSRTRLPSPPAPSPAFSADSFSDLLRQFDPSLFNTSLFDSLPPFGAHHTEAATGEWDEVQSGLRAADAPPPTMRVAVTAARPPRAKPAPRRRAAQPSDASPAAQVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAFADSLERDLDAPSPMHEGDQTRASSRKRSRSDRAVTGPSAQQSFEVRVPEQRDALHLPLLSWGVKRPRTRIGGLLDPGTPMDADLVASSTVVWEQDADPFAGTADDFPAFNEEELAWLMELLPQ。

dHax3全长蛋白的纯化图如图5所示（利用6×组氨酸标签经由镍柱亲和层析纯化，SDS-PAGE电泳后经考马斯亮蓝显色）。

通过蛋白质二级结构预测，发明人发现蛋白质的N端和C端都有一大段没有二级结构区域。这些区域不适合蛋白质结晶，发明人于是设计了截短体蛋白（dHax3截短体，标记为dHax3-Δ），包含蛋白序列230-721）来获得性质更加稳定的蛋白质。dHax3截短体被克隆到pET21(Novagen)表达载体中。表达出来的dHax3截短体蛋白序列如下，其中C端含有His₆标签，用于蛋白纯化时通过镍柱的亲和纯化（SEQ ID NO:3）：

MQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKLEHHHHHH。

dHax3截短体蛋白的纯化图如图6所示（利用Histidine₆标签经由镍柱亲和层析纯化，SDS-PAGE电泳后经考马斯亮蓝显色）。

3. dHax3-NI及dHax3-NI-Δ的构建与表达

发明人还构建并表达了dHax3-NI-Δ蛋白用于与DNA-RNA共结晶实验，在DNA结合域第七个重复单元中的NS通过点突变技术变成NI ，并且构建并表达了dHax3-NI用于EMSA实验以及RNase H 酶切保护实验。dHax3-NI-Δ的氨基酸序列如下（SEQ ID NO:4）：

MQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKLEHHHHHH。

4. TALE₂₄重复单元及TALE_HIV重复单元的构建

另外设计了两种TALE的DNA结构域的重复单元（TALE_HIV重复单元和TALE₂₄重复单元）。相应DNA结合域的重复单元通过合成得到。在合成的DNA结合域的重复单元两端分别存在SpeI 和 SalI的限制性酶切位点。TALE₂₄重复单元以及TALE_HIV重复单元的DNA序列和蛋白序列如下表2：

表2：TALE₂₄重复单元和TALE_HIV重复单元的DNA序列和蛋白序列

表中SpeI (ACTAGT)和SalI (GTCGAC)被突出显示。

5. dHax3-TALE₂₄重复单元嵌合蛋白与dHax3-TALE_HIV重复单元嵌合蛋白的构建

将合成的TALE₂₄重复单元或dHax3-TALE_HIV重复单元插入dHax3基因的NheI和SalI之间，从而取代dHax3重复单元形成两种嵌合蛋白 dHax3-TALE₂₄重复单元与dHax3-TALE_HIV重复单元。

实施例2：获得dHax3-Δ与双链DNA的复合物晶体结构以及dHax3-NI-Δ与DNA-RNA双链体复合物的晶体结构

●单双链DNA的获得

为了检验dHax3与单双链DNA的结合能力，以及获得蛋白质与dsDNA复合物的晶体，发明人通过化学合成的方法得到单链DNA（17nt）：（Invitrogen & Takara）

5’ TG TCCCTTTATCTCT CT 3’ (SEQ ID NO:9 )

3’ AC AGGGAAATAGAGA GA 5’ (SEQ ID NO:10)

将合成得到的单链DNA溶解至1 mM, 等摩尔比将两条单链DNA混合，85℃温浴3min以上，缓慢降温到22℃，此过程不得少于3个小时。为了长期保存退火的双链DNA可以进行冻干超低温保存。

●DNA-RNA杂合链的获得

为了检验dHax3与DNA-RNA杂合链的结合能力，以及获得蛋白质与DNA-RNA复合物的晶体，发明人通过化学合成的方法得到单链DNA（17nt）和RNA：（核酸的合成由Invitrogen& Takara公司完成）

DNA 5’ TG TCCCTTTATCTCT CT 3’ (SEQ ID NO:9)

RNA 3’ AC AGGGAAAUAGAGA GA 5’ (SEQ ID NO:11)

将合成得到的单链DNA或RNA溶解至1 mM, 等摩尔比将两条单链混合，85℃温浴3min以上，缓慢降温到22℃，此过程不得少于3个小时。为了长期保存退火的DNA-RNA杂合链可以进行冻干超低温保存。

●复合物结晶的获得

将纯化好的dHax3-Δ(全长序列中的231-720)调整蛋白浓度在6~7 mg/ml，加入摩尔比1.5 ：1的退火后的双链DNA，4 ℃孵育30 min.

前期的结晶条件筛选主要是基于商业化的Screen Kit，包括：Hampton公司的SaltRX，Natrix，PEG/Ion，Crystal Screen，Index；Emerald公司的Wizard I， II ，III ；Molecular dimension的ProPlex。

从上述Kit中筛选出蛋白结晶的条件，通过调节沉淀剂浓度，种类；盐离子的浓度和种类；缓冲液的浓度和种类优化结晶条件。使用Addtive Screen和Detergent ScreenKit对晶体进行优化。同时对晶体进行脱水，退火等尝试，以提高晶体的衍射质量。

使用蛋白质结晶没有规律可循，所以到目前为止仍然还是一门艺术。起始阶段常用Sparse matrix screen，即购买各公司配置的结晶条件进行筛选。大多数情况下，初筛得到的结晶条件中并不能长出衍射质量高的晶体，在接下来的实验中，发明人又进一步对初始结晶条件的基础上进一步细化，包括调整沉淀剂、pH缓冲液、盐、添加还原剂、去垢剂或醇；调整结晶实验的温度，时间等。最后采用的结晶条件为将如下结晶母液与孵育好的蛋白核酸复合物通过1:1的体积比混合，通过悬滴法（hanging drop vapor diffusion method）在18 ℃培养两天，即可获得晶体。

结晶母液：8-10% PEG3350 (w/v)，12% ethanol，0.1 M MES pH 6.0。

●数据收集及处理

使用上海同步辐射中心（SSRF）BL17U线束站或者日本SPRING-8 BL41XU线束站进行数据收集。所有收集的衍射数据用HKL2000软件进行积分计算，进一步的数据处理通过CCP4软件实现。使用不结合DNA的dHax3作为置换的模式，通过分子置换的方法，解析dHax3与DNA复合物的结构。最后使用Phenix 和 COOT 两个软件完成对结构的修正处理。数据处理和结构解析、修正完成之后，dHax3蛋白的结构分辨率达到2.4Å，dHax3-Δ蛋白与dsDNA复合物结构均达到1.85Å; dHax3-NI-Δ蛋白结合DNA-RNA双链体的晶体结构达到2.5 Å。数据收集和结构修正的统计数据，见表4-表5：

数据收集和结构修正的统计数据

表4. dHax3晶体结构以及DNA-结合的dHax3-Δ复合物晶体结构的数据收集和结构修正的统计数据

表5.dHax3-NI-Δ-DNA/RNA双链体复合物晶体结构的数据收集和结构修正的统计数据

发明人解析了dHax3-Δ与双链DNA（dsDNA）的高分辨率晶体结构（1.85埃）。该结构清晰地展示了dHax3展现右手螺旋结构，将dsDNA包裹于整个复合体的中间。蛋白质缠绕在DNA外面，嵌入DNA的大沟（见图1）。

结构分析显示dHax3与DNA的相互作用主要集中于具有识别序列的DNA链，而其互补链则不参与蛋白-DNA的相互作用（见图2）。即使互补链变成RNA，dHax3也应同样能结合。结构分析还进一步显示：非编码链不直接与dHax3接触，因此可以容忍相当程度针对碱基及骨架的修饰，即非编码链可以是DNA、RNA，或者它们的衍生、修饰后分子。

图4显示了dHax3-NI-Δ与DNA-RNA杂合双链复合物的晶体结构。

实施例3：凝胶阻滞实验验证dHax3-NI可以与DNA – RNA 杂合双链相互作用

●EMSA（electrophoretic mobility shift assay，电泳迁移率变动分析，又称凝胶阻滞实验）

凝胶阻滞实验是一种体外研究DNA/RNA 与蛋白质相互作用的特殊的凝胶电泳技术。其基本原理为：在凝胶电泳中，由于电场的作用，小分子的核酸片段比其结合了蛋白质的核酸片段向阳极移动的速度快。因此，可标记短的核酸片段，将其与蛋白质混合，对混合物进行凝胶电泳，若目的DNA与特异性蛋白质结合，其移动的速度受到阻滞，对凝胶进行放射自显影，就可以找到核酸结合蛋白。同时通过统计结合蛋白的DNA 和未结合蛋白的DNA的量，可以比较准确的拟合计算出，蛋白质对核酸的结合能力（binding affinity）。

●DNA/DNA oligo和DNA/RNA oligo

用于凝胶阻滞实验的DNA/DNA oligo的片段，如下表所示：

用于凝胶阻滞实验的DNA/RNA oligo的片段，如下表所示：

●DNA/RNA 末端标记

按照上表设置好反应体系后，轻轻混匀，置于37℃孵育30分钟37℃孵育30分钟37℃孵育30分钟37℃孵育30分钟37 ℃孵育30 min；使用G25 预装脱盐层析柱出去多余的[γ-³²P]-ATP，加入过量的未标记的互补链，退火生成双链DNA或者DNA–RNA 杂合双链。

●DNA/RNA和蛋白相互作用体系

全长蛋白(不同浓度)	5 ul
		DNA /RNA	2 ul
5X缓冲液	2 ul
		ddH20	1 ul

将反应成分按上述比例加入反应体系中，混匀后4 ℃孵育20 min；将反应好的样品跑6 % 非变性胶；

跑完胶用干胶仪将胶干透，放在磷屏上曝光过夜；

用Typhoon 9400 varible 扫描仪读取图像数据。

发明人通过凝胶阻滞实验证明了dHax3-NI蛋白可以与DNA – RNA 杂合双链相互作用，并保持了很强的结合能力，详见图3。

实施例4：RNase H酶切保护实验验证

用于RNase H酶切保护实验的DNA-RNA链的序列如下：

获得DNA-RNA杂合双链的与EMSA实验相同，但是用于RNase H酶切保护实验的DNA-RNA的杂合双链进行了放射性标记。

将带有P³²标记的DNA-RNA双链核酸分别与上述三种TALE蛋白质（dHax3-NI、TALE24和TALE_HIV repeats）混合或者与作为对照的BSA混合后置于冰上孵育20分钟。孵育的缓冲体系为：20 mM Tris-HCl (pH 8.0), 50 mM NaCl, 5 mM MgCl₂, 10 mM DTT。孵育结束后加入0.1 U/μl RNase H (Takara)于室温反应5分钟，使用酚氯仿终止反应，使用乙醇沉淀纯化反应后生成的核酸片段。经过醇沉处理的样品重悬于RNA-上样缓冲液 (95%甲酰胺、18mM EDTA, 0.025% 二甲苯蓝, 0.025% 溴酚蓝)。样品使用12% 7 M尿素聚丙烯酰胺凝胶进行鉴定。跑完胶用干胶仪将胶干透，放在磷屏上曝光过夜；使用Typhoon 9400 读取图像数据。RNA梯带使用RNase T1或者RNase A酶切ssRNA制备。

如图8所示，dHax3-NI 保护DNA-RNA，阻止RNase H对DNA-RNA杂合双链中的RNA的酶切。第1和2道分别为在没有RNase H情况下，有或者无dHax3的对照组中，RNA没有明显的降解条带出现；在第3道中，加入RNase H情况下，无dHax3的对照实验发现：RNA绝大部分都被降解成小片段；在第4~10道中在加入RNase H情况下同时加入梯度浓度的dHax3-NI（0.004，0.015，0.05，0.025，0.1，0.4，1.6 μM），出现如箭头所示的部分降解RNA条带，这些RNA条带直接说明了dHax3-NI结合到DNA-RNA双链上，直接起到了保护的作用，阻止了RNaseH对DNA-RNA双链中RNA链的降解。13和14道分别为制备的RNA梯带（T1和A）用于检测RNase H的在DNA-RNA杂合双链中的剪切位置。

为了研究TALE蛋白对DNA-RNA双链保护作用是否具有普遍性，即这种保护作用是否只存在于dHax3一种TALE蛋白，发明人设计了另一种具有不同长度的重复单元——TALE24重复单元，其具有24个重复单元，能识别更长的DNA-RNA杂合双链（参见P. Yin, D.Deng, C. Yan, X. Pan, J.J. Xi, N. Yan, Y. Shi, Specific DNA-RNA HybridRecognition by TAL Effectors, Cell reports, 2 (2012) 707-713）。如图9所示，通过RNase H保护实验，发明人惊讶地发现dHax3-TALE₂₄重复单元嵌合蛋白也可以保护DNA-RNA，阻止RNase H对DNA-RNA杂合双链中的RNA的酶切。因此，TALE24重复单元同样可以阻止RNase H对DNA-RNA双链中RNA链的降解。

为了研究TALE在HIV治疗中的潜在作用，发明人设计了可以特异性识别HIV基因组中特定片段的TALE_HIV重复单元（参见P. Yin, D. Deng, C. Yan, X. Pan, J.J. Xi, N.Yan, Y. Shi, Specific DNA-RNA Hybrid Recognition by TAL Effectors, Cellreports, 2 (2012) 707-713），并构建了dHax3-TALE_HIV重复单元嵌合蛋白进行RNase H降解实验。发明人惊讶地发现，TALE_HIV重复单元阻止RNase H对DNA-RNA双链中RNA链的降解。如图10所示，在梯度浓度的dHax3-TALE_HIV重复单元（0.004，0.015，0.05，0.025，0.1，0.4，1.6 μM）蛋白保护下RNA的降解逐渐减弱。这里没有出现部分降解的原因是因为暴露在TALE_HIV重复单元保护外面的DNA-RNA双链较短。这表明具有TALE_HIV重复单元的TALE蛋白能够在HIV基因组的复制过程中，阻止RNA链的降解。

HIV在核酸复制过程中，通过逆转录酶将RNA逆转录生成DNA，进一步逆转录酶上的RNase H结构域将RNA降解，得到释放的单链DNA会利用DNA聚合酶复制出互补DNA链，形成DNA双链，因此DNA-RNA双链中RNA的降解是HIV复制过程中一个必须环节。利用识别HIV基因组中特定片段的TALE能够阻止HIV基因组在复制过程中，RNA链的降解。从而达到抑制或者减缓HIV复制过程的功能。

尽管在本文中参考示例性的实施方案详细描述了本发明，但是应当理解的是，本发明不限于所述实施方案。具有本领域普通技能且可获取本文教导的人员会认识到在本发明范围内的其它变化、修改和实施方案。因此，本发明应与后面所述的权利要求一致地被广义地解释。

序列表

<110> 清华大学

<120> 特异结合和靶定DNA-RNA杂合双链的方法

<130> FPCH12160040P

<150> CN 201210021004.9

<151> 2012-01-04

<160> 20

<170> PatentIn version 3.3

<210> 1

<211> 2883

<212> DNA

<213> 人工的

<220>

<223> dHax3 DNA序列

<400> 1

atggacccaa tacgaagcag aacgccatca ccagctaggg aacttctctc tggaccacag 60

cctgatggag ttcagccaac tgcagatcga ggtgtttctc cgccagccgg tggcccttta 120

gatggtctcc cagcaagaag aacaatgtcc cgtaccagac tcccaagtcc ccctgccccg 180

tcgccagcct tttcagctga ctccttctct gatcttctta ggcaatttga cccttctctt 240

ttcaatacat cccttttcga ttcacttcct cctttcggcg cacatcatac tgaggcagcc 300

accggcgaat gggacgaagt ccaaagtggt ttaagggcag ctgatgctcc accaccgacg 360

atgagagtcg ctgttaccgc cgcacgtcct cctagagcca agccagcccc tagaagacga 420

gctgcgcaac cctccgatgc aagccctgca gctcaagtag accttcgaac actaggttac 480

tcccagcaac aacaagaaaa aataaagcca aaggttagat ctacagttgc acaacatcac 540

gaagccctag tcggacacgg atttacacat gctcatatcg tggctctttc acaacatcct 600

gcagctcttg gaacagtcgc tgtcaaatat caggatatga ttgctgcatt gccagaagct 660

actcacgaag ctatcgtcgg agttgggaaa caatggtcag gcgcaagagc attagaggcg 720

cttctcaccg tagctggtga attacgaggt cctccactcc aattggatac tgggcaatta 780

ttaaaaatcg ctaaacgagg tggagtcact gctgtcgaag ccgttcatgc atggcgtaac 840

gctctcacgg gcgcaccact aaaccttact cctgaacagg ttgtcgcaat agcttcacat 900

gatggcggaa aacaagctct tgaaacagtg caacgtctcc ttcccgtcct ctgtcaggct 960

cacggattga ctcctcagca ggtcgtcgca attgcatcac atgatggagg caaacaagct 1020

ttagaaacag tacaaagact attgcccgtt ctttgccaag cgcatgggtt aactcccgaa 1080

caagtcgttg ccattgcaag tcacgacgga ggtaaacaag ctctcgaaac ggttcaagca 1140

cttttacccg ttctctgtca agcacatgga ctcacacctg aacaagtagt tgctatcgca 1200

tcgaatggag gtggaaaaca agcactggaa actgtacaaa gacttttgcc agttttatgt 1260

caagcgcacg gtcttactcc tcaacaagtt gtcgccattg cctctaacgg tggtggaaaa 1320

caagctcttg aaactgtcca gagacttctg cccgttctat gtcaggctca tgggctaacc 1380

cctcaacagg ttgttgcaat cgcatctaat ggaggaggaa aacaagcttt agaaactgtc 1440

caacgactac tgcccgttct ctgccaagca cacggactta ccccacaaca agttgtggca 1500

atagcttcta attctggtgg taaacaagcc cttgagacgg ttcaaagact tctaccagtt 1560

ctttgtcagg cacatggatt gaccccacaa caggtcgtag caatcgcatc taatggaggt 1620

ggtaagcaag ctctagaaac ggtacaaaga ttacttcccg tgctttgtca agctcatgga 1680

ctcactcctc aacaagtggt cgctattgca agtcatgatg gtggaaagca agcactagaa 1740

accgtccaac gactccttcc tgttctctgt caagcacatg gtcttacgcc cgaacaagtt 1800

gttgctatag cttcgaacgg aggtggaaaa caagctctcg aaaccgtcca aaggctcctc 1860

ccagtacttt gccaagcaca tggattaacc cctgagcaag tagttgcaat tgcctcgcac 1920

gacggaggaa agcaagcatt agaaactgtt cagagacttt tgcctgtcct gtgtcaagcc 1980

cacggtctaa caccacaaca agtcgtcgca atcgctagta atggaggagg tagacctgca 2040

ttggagtcga tagtcgcaca actatcacga cctgatcccg ctcttgcagc attgacaaac 2100

gatcatttag tcgcacttgc atgtttagga ggacgaccag cacttgatgc cgttaagaaa 2160

ggactaccgc acgcccctgc attgattaaa agaacaaaca gacgaatccc ggagagaact 2220

tcacatcgtg tagccgatca tgctcaagtc gtaagagttt tgggtttctt ccaatgtcat 2280

tcccacccag ctcaagcttt tgacgatgca atgactcaat ttggaatgag tagacatgga 2340

ctcctgcaat tatttcgaag ggtcggagtt acagagctcg aagccaggtc aggaacgctg 2400

ccccccgcat ctcaacgatg ggatagaatt ctccaagcct ctggaatgaa aagagctaaa 2460

ccttcaccaa cgtccacaca aacaccagac caagcttctc tccacgcttt tgccgactca 2520

ctagagagag atctagatgc accgtcacct atgcatgaag gagaccaaac aagagcctct 2580

tcaagaaaac gttctcgttc tgatagagct gtcactggac cttccgccca acaatctttc 2640

gaagtccgag ttcctgagca acgagatgcc ctacacctgc ctttgctttc ttggggagtt 2700

aagcgaccac gtactagaat tggtggacta ctcgatccag gtacaccaat ggatgctgat 2760

ctcgttgctt cctctaccgt agtatgggag caagacgcag accccttcgc tggaactgct 2820

gacgatttcc cagcctttaa cgaggaagaa ttggcttggt taatggaact tctaccgcaa 2880

tga 2883

<210> 2

<211> 977

<212> PRT

<213> 人工的

<220>

<223> dHax3蛋白氨基酸序列

<400> 2

Met His His His His His His Ile Thr Ser Leu Tyr Lys Lys Ala Gly

1 5 10 15

Leu Met Asp Pro Ile Arg Ser Arg Thr Pro Ser Pro Ala Arg Glu Leu

20 25 30

Leu Ser Gly Pro Gln Pro Asp Gly Val Gln Pro Thr Ala Asp Arg Gly

35 40 45

Val Ser Pro Pro Ala Gly Gly Pro Leu Asp Gly Leu Pro Ala Arg Arg

50 55 60

Thr Met Ser Arg Thr Arg Leu Pro Ser Pro Pro Ala Pro Ser Pro Ala

65 70 75 80

Phe Ser Ala Asp Ser Phe Ser Asp Leu Leu Arg Gln Phe Asp Pro Ser

85 90 95

Leu Phe Asn Thr Ser Leu Phe Asp Ser Leu Pro Pro Phe Gly Ala His

100 105 110

His Thr Glu Ala Ala Thr Gly Glu Trp Asp Glu Val Gln Ser Gly Leu

115 120 125

Arg Ala Ala Asp Ala Pro Pro Pro Thr Met Arg Val Ala Val Thr Ala

130 135 140

Ala Arg Pro Pro Arg Ala Lys Pro Ala Pro Arg Arg Arg Ala Ala Gln

145 150 155 160

Pro Ser Asp Ala Ser Pro Ala Ala Gln Val Asp Leu Arg Thr Leu Gly

165 170 175

Tyr Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Arg Ser Thr

180 185 190

Val Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala

195 200 205

His Ile Val Ala Leu Ser Gln His Pro Ala Ala Leu Gly Thr Val Ala

210 215 220

Val Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu

225 230 235 240

Ala Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu

245 250 255

Ala Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu

260 265 270

Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr Ala

275 280 285

Val Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu

290 295 300

Asn Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly

305 310 315 320

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

325 330 335

Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp

340 345 350

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

355 360 365

Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser

370 375 380

His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro

385 390 395 400

Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile

405 410 415

Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu

420 425 430

Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val

435 440 445

Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln

450 455 460

Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln

465 470 475 480

Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr

485 490 495

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

500 505 510

Gln Gln Val Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu

515 520 525

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

530 535 540

Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln

545 550 555 560

Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His

565 570 575

Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly

580 585 590

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

595 600 605

Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly

610 615 620

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

625 630 635 640

Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser

645 650 655

His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro

660 665 670

Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile

675 680 685

Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln

690 695 700

Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu

705 710 715 720

Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys

725 730 735

Lys Gly Leu Pro His Ala Pro Ala Leu Ile Lys Arg Thr Asn Arg Arg

740 745 750

Ile Pro Glu Arg Thr Ser His Arg Val Ala Asp His Ala Gln Val Val

755 760 765

Arg Val Leu Gly Phe Phe Gln Cys His Ser His Pro Ala Gln Ala Phe

770 775 780

Asp Asp Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Leu Gln

785 790 795 800

Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg Ser Gly Thr

805 810 815

Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly

820 825 830

Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Thr Gln Thr Pro Asp Gln

835 840 845

Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala

850 855 860

Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys

865 870 875 880

Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ser

885 890 895

Phe Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu

900 905 910

Leu Ser Trp Gly Val Lys Arg Pro Arg Thr Arg Ile Gly Gly Leu Leu

915 920 925

Asp Pro Gly Thr Pro Met Asp Ala Asp Leu Val Ala Ser Ser Thr Val

930 935 940

Val Trp Glu Gln Asp Ala Asp Pro Phe Ala Gly Thr Ala Asp Asp Phe

945 950 955 960

Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro

965 970 975

Gln

<210> 3

<211> 499

<212> PRT

<213> 人工的

<220>

<223> dHax3截短体氨基酸序列（C端含有6个His标签）

<400> 3

Met Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala

1 5 10 15

Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu

20 25 30

Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala

35 40 45

Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln

50 55 60

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

65 70 75 80

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

85 90 95

Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu

100 105 110

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

115 120 125

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

130 135 140

Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His

145 150 155 160

Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

165 170 175

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

180 185 190

Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly

195 200 205

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

210 215 220

Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser

225 230 235 240

Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro

245 250 255

Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile

260 265 270

Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu

275 280 285

Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val

290 295 300

Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln

305 310 315 320

Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln

325 330 335

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

340 345 350

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

355 360 365

Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu

370 375 380

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

385 390 395 400

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

405 410 415

Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His

420 425 430

Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

435 440 445

Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro

450 455 460

Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu

465 470 475 480

Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Leu Glu His His His

485 490 495

His His His

<210> 4

<211> 499

<212> PRT

<213> 人工的

<220>

<223> dHax3-NI截短体氨基酸序列（C端含有6个His标签）

<400> 4

Met Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala

1 5 10 15

Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu

20 25 30

Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala

35 40 45

Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln

50 55 60

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

65 70 75 80

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

85 90 95

Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu

100 105 110

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

115 120 125

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

130 135 140

Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His

145 150 155 160

Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

165 170 175

Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln

180 185 190

Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly

195 200 205

Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu

210 215 220

Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser

225 230 235 240

Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro

245 250 255

Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile

260 265 270

Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu

275 280 285

Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val

290 295 300

Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln

305 310 315 320

Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln

325 330 335

Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr

340 345 350

Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro

355 360 365

Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu

370 375 380

Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu

385 390 395 400

Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln

405 410 415

Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His

420 425 430

Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly

435 440 445

Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro

450 455 460

Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu

465 470 475 480

Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Leu Glu His His His

485 490 495

His His His

<210> 5

<211> 794

<212> PRT

<213> 人工的

<220>

<223> TALE24重复单元氨基酸序列

<400> 5

Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

1 5 10 15

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala

20 25 30

Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

35 40 45

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val

50 55 60

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

65 70 75 80

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

85 90 95

Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu

100 105 110

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

115 120 125

Pro Ala Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala

130 135 140

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

145 150 155 160

Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys

165 170 175

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

180 185 190

His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly

195 200 205

Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys

210 215 220

Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn

225 230 235 240

Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val

245 250 255

Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala

260 265 270

Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

275 280 285

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala

290 295 300

Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

305 310 315 320

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val

325 330 335

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

340 345 350

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

355 360 365

Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu

370 375 380

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

385 390 395 400

Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala

405 410 415

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

420 425 430

Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys

435 440 445

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

450 455 460

His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly

465 470 475 480

Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys

485 490 495

Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His

500 505 510

Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val

515 520 525

Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala

530 535 540

Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

545 550 555 560

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala

565 570 575

Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

580 585 590

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val

595 600 605

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

610 615 620

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

625 630 635 640

Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu

645 650 655

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

660 665 670

Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala

675 680 685

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

690 695 700

Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys

705 710 715 720

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

725 730 735

His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly

740 745 750

Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys

755 760 765

Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn

770 775 780

Asn Gly Gly Arg Arg Cys Tyr Lys Ala Leu

785 790

<210> 6

<211> 760

<212> PRT

<213> 人工的

<220>

<223> TALEHIV 重复单元氨基酸序列

<400> 6

Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

1 5 10 15

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala

20 25 30

Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

35 40 45

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val

50 55 60

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

65 70 75 80

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

85 90 95

Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu

100 105 110

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

115 120 125

Pro Ala Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala

130 135 140

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

145 150 155 160

Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys

165 170 175

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

180 185 190

His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly

195 200 205

Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys

210 215 220

Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn

225 230 235 240

Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val

245 250 255

Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala

260 265 270

Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

275 280 285

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala

290 295 300

Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

305 310 315 320

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val

325 330 335

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

340 345 350

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

355 360 365

Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu

370 375 380

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

385 390 395 400

Pro Ala Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala

405 410 415

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

420 425 430

Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys

435 440 445

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

450 455 460

His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly

465 470 475 480

Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys

485 490 495

Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn

500 505 510

Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val

515 520 525

Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala

530 535 540

Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu

545 550 555 560

Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala

565 570 575

Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg

580 585 590

Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val

595 600 605

Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val

610 615 620

Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala

625 630 635 640

Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu

645 650 655

Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr

660 665 670

Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala

675 680 685

Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly

690 695 700

Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys

705 710 715 720

Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala

725 730 735

His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly

740 745 750

Gly Arg Arg Cys Tyr Lys Ala Leu

755 760

<210> 7

<211> 2397

<212> DNA

<213> 人工的

<220>

<223> TALE24重复单元DNA序列

<400> 7

attctagaag acactagtca tgacggtggc aaacaggctc ttgagaccgt ccaacgcctt 60

ctaccagttc tctgtcaagc ccacggacta accccagcgc aagttgtagc gattgctagt 120

catgacggtg gcaaacaggc ccttgagaca gtccaacgcc ttctaccagt tctctgccaa 180

gcacacggac taaccccagc gcaagttgta gcgattgcta gtcatgacgg tggcaaacag 240

gctcttgaaa ccgtgcaacg actgctccca gttctctgtc aagcccacgg cctcaccccg 300

gcgcaagttg tagcgattgc tagtaatggg ggtggcaaac aggctcttga aaccgtgcaa 360

cgactgctcc cagttctctg tcaagcccac ggcctcaccc cggcgcaagt tgtagcgatt 420

gctagtaatg ggggtggcaa acaggcactt gagactgttc agcgactact accagttctc 480

tgccaagccc acggacttac cccagatcaa gttgtagcga ttgctagtaa tgggggtggc 540

aaacaggcac ttgagactgt tcagcgacta ctaccagttc tctgccaagc ccacggactt 600

accccagatc aagttgtagc gattgctagt aatattggtg gcaaacaggc acttgagacg 660

gttcagcgcc tccttccagt tctttgtcaa gctcacggac tcaccccaga tcaagttgta 720

gcgattgcta gtaatggggg tggcaaacag gctcttgaaa ccgtgcaacg actgctccca 780

gttctctgtc aagcccacgg cctcaccccg gcgcaagttg tagcgattgc tagtcatgac 840

ggtggcaaac aggctcttga aaccgtgcaa cgactgctcc cagttctctg tcaagcccac 900

ggcctcaccc cggcgcaagt tgtagcgatt gctagtaatg ggggtggcaa acaggctctt 960

gaaaccgtgc aacgactgct cccagttctc tgtcaagccc acggcctcac cccggcgcaa 1020

gttgtagcga ttgctagtca tgacggtggc aaacaggctc ttgagaccgt ccaacgcctt 1080

ctaccagttc tctgtcaagc ccacggacta accccagcgc aagttgtagc gattgctagt 1140

aatgggggtg gcaaacaggc tcttgaaacc gtgcaacgac tgctcccagt tctctgtcaa 1200

gcccacggcc tcaccccggc gcaagttgta gcgattgcta gtcatgacgg tggcaaacag 1260

gctcttgaga ccgtccaacg ccttctacca gttctctgtc aagcccacgg actaacccca 1320

gcgcaagttg tagcgattgc tagtaatggg ggtggcaaac aggctcttga aaccgtgcaa 1380

cgactgctcc cagttctctg tcaagcccac ggcctcaccc cggcgcaagt tgtagcgatt 1440

gctagtcatg acggtggcaa acaggctctt gaaaccgtgc aacgactgct cccagttctc 1500

tgtcaagccc acggcctcac cccggcgcaa gttgtagcga ttgctagtca tgacggtggc 1560

aaacaggctc ttgagaccgt ccaacgcctt ctaccagttc tctgtcaagc ccacggacta 1620

accccagcgc aagttgtagc gattgctagt aatattggtg gcaaacaggc acttgagacg 1680

gttcagcgcc tccttccagt tctttgtcaa gctcacggac tcaccccaga tcaagttgta 1740

gcgattgcta gtaacaatgg tggcaaacag gctctcgaaa ccgtacaacg actcctccca 1800

gttctctgtc aagcccacgg actaactcct gatcaagttg tagcgattgc tagtcatgac 1860

ggtggcaaac aggctcttga gaccgtccaa cgccttctac cagttctctg tcaagcccac 1920

ggactaaccc cagcgcaagt tgtagcgatt gctagtaatg ggggtggcaa acaggctctt 1980

gaaaccgtgc aacgactgct cccagttctc tgtcaagccc acggcctcac cccggcgcaa 2040

gttgtagcga ttgctagtca tgacggtggc aaacaggctc ttgaaaccgt gcaacgactg 2100

ctcccagttc tctgtcaagc ccacggcctc accccggcgc aagttgtagc gattgctagt 2160

aacaatggtg gcaaacaggc tctcgaaacc gtacaacgac tcctcccagt tctctgtcaa 2220

gcccacggac taactcctga tcaagttgta gcgattgcta gtaatattgg tggcaaacag 2280

gcacttgaga cggttcagcg cctccttcca gttctttgtc aagctcacgg actcacccca 2340

gatcaagttg tagcgattgc tagcaacaat ggcggtcgac gctgctataa agcttta 2397

<210> 8

<211> 2295

<212> DNA

<213> 人工的

<220>

<223> TALEHIV重复单元DNA序列

<400> 8

attctagaag acactagtca tgacggtggc aaacaggctc ttgagaccgt ccaacgcctt 60

ctaccagttc tctgtcaagc ccacggacta accccagcgc aagttgtagc gattgctagt 120

catgacggtg gcaaacaggc tcttgagacc gtccaacgcc ttctaccagt tctctgtcaa 180

gcccacggac taaccccagc gcaagttgta gcgattgcta gtcatgacgg tggcaaacag 240

gctcttgaaa ccgtgcaacg actgctccca gttctctgtc aagcccacgg cctcaccccg 300

gcgcaagttg tagcgattgc tagtaatggg ggtggcaaac aggctcttga aaccgtgcaa 360

cgactgctcc cagttctctg tcaagcccac ggcctcaccc cggcgcaagt tgtagcgatt 420

gctagtaata ttggtggcaa acaggcactt gagacggttc agcgcctcct tccagttctt 480

tgtcaagctc acggactcac cccagatcaa gttgtagcga ttgctagtaa caatggtggc 540

aaacaggctc tcgaaaccgt acaacgactc ctcccagttc tctgtcaagc ccacggacta 600

actcctgatc aagttgtagc gattgctagt aatgggggtg gcaaacaggc tcttgaaacc 660

gtgcaacgac tgctcccagt tctctgtcaa gcccacggcc tcaccccggc gcaagttgta 720

gcgattgcta gtaatggggg tggcaaacag gctcttgaaa ccgtgcaacg actgctccca 780

gttctctgtc aagcccacgg cctcaccccg gcgcaagttg tagcgattgc tagtaatatt 840

ggtggcaaac aggcacttga gacggttcag cgcctccttc cagttctttg tcaagctcac 900

ggactcaccc cagatcaagt tgtagcgatt gctagtaaca atggtggcaa acaggctctc 960

gaaaccgtac aacgactcct cccagttctc tgtcaagccc acggactaac tcctgatcaa 1020

gttgtagcga ttgctagtca tgacggtggc aaacaggctc ttgagaccgt ccaacgcctt 1080

ctaccagttc tctgtcaagc ccacggacta accccagcgc aagttgtagc gattgctagt 1140

catgacggtg gcaaacaggc tcttgaaacc gtgcaacgac tgctcccagt tctctgtcaa 1200

gcccacggcc tcaccccggc gcaagttgta gcgattgcta gtaatattgg tggcaaacag 1260

gcacttgaga cggttcagcg cctccttcca gttctttgtc aagctcacgg actcacccca 1320

gatcaagttg tagcgattgc tagtaacaat ggtggcaaac aggctctcga aaccgtacaa 1380

cgactcctcc cagttctctg tcaagcccac ggactaactc ctgatcaagt tgtagcgatt 1440

gctagtaata ttggtggcaa acaggcactt gagacggttc agcgcctcct tccagttctt 1500

tgtcaagctc acggactcac cccagatcaa gttgtagcga ttgctagtaa caatggtggc 1560

aaacaggctc tcgaaaccgt acaacgactc ctcccagttc tctgtcaagc ccacggacta 1620

actcctgatc aagttgtagc gattgctagt aatattggtg gcaaacaggc acttgagacg 1680

gttcagcgcc tccttccagt tctttgtcaa gctcacggac tcaccccaga tcaagttgta 1740

gcgattgcta gtaacaatgg tggcaaacag gctctcgaaa ccgtacaacg actcctccca 1800

gttctctgtc aagcccacgg actaactcct gatcaagttg tagcgattgc tagtcatgac 1860

ggtggcaaac aggctcttga gaccgtccaa cgccttctac cagttctctg tcaagcccac 1920

ggactaaccc cagcgcaagt tgtagcgatt gctagtaatg ggggtggcaa acaggctctt 1980

gaaaccgtgc aacgactgct cccagttctc tgtcaagccc acggcctcac cccggcgcaa 2040

gttgtagcga ttgctagtca tgacggtggc aaacaggccc ttgagacagt ccaacgcctt 2100

ctaccagttc tctgccaagc acacggacta accccagcgc aagttgtagc gattgctagt 2160

catgacggtg gcaaacaggc ccttgagaca gtccaacgcc ttctaccagt tctctgccaa 2220

gcacacggac taaccccagc gcaagttgta gcgattgcta gccatgacgg cggtcgacgc 2280

tgctataaag cttta 2295

<210> 9

<211> 17

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 5'到3'

<400> 9

tgtcccttta tctctct 17

<210> 10

<211> 17

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 3'到5'

<400> 10

acagggaaat agagaga 17

<210> 11

<211> 17

<212> RNA

<213> 人工的

<220>

<223> 人工合成的RNA链 3'到5'

<400> 11

acagggaaau agagaga 17

<210> 12

<211> 49

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 5'到3'

<400> 12

ccacatatgt catacgtgtc cctttatctc tctccagctc gaggaattc 49

<210> 13

<211> 48

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 5'到3'

<400> 13

gaattcctga gctggagaga gataaaggga cacgtatgac atatgtgg 48

<210> 14

<211> 49

<212> RNA

<213> 人工的

<220>

<223> 人工合成的RNA链 5'到3'

<400> 14

gaauuccucg agcuggagag agauaaaggg acacguauga cauaugugg 49

<210> 15

<211> 31

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 5'到3'

<400> 15

ccacatatgt catacgtgtc cctttatctc t 31

<210> 16

<211> 49

<212> RNA

<213> 人工的

<220>

<223> 人工合成的RNA链 5'到3'

<400> 16

gaauuccucg agcuggagag agauaaaggg acacguauga cauaugugg 49

<210> 17

<211> 43

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链 5'到3'

<400> 17

ccacatatgt catacgtgtc cctttatctc tctccagctc gag 43

<210> 18

<211> 49

<212> RNA

<213> 人工的

<220>

<223> 人工合成的RNA链 5'到3'

<400> 18

gaauuccucg agcuggagag agauaaaggg acacguauga cauaugugg 49

<210> 19

<211> 26

<212> DNA

<213> 人工的

<220>

<223> 人工合成的DNA链

<400> 19

gtgggttccc tagccagaga gctccc 26

<210> 20

<211> 36

<212> RNA

<213> 人工的

<220>

<223> 人工合成的RNA链

<400> 20

agaucugagc cugggagcuc ucuggcuaac uaggga 36

Claims

1.一种非诊断和治疗目的的特异结合DNA-RNA杂合链的方法，包括用TALE蛋白来特异性识别特定的正向链为DNA且反向链为RNA的DNA-RNA杂合双链并与之结合。

2.一种非诊断和治疗目的的抑制以RNA为模板来生成DNA的方法，包括用TALE蛋白来特异性识别正向链为DNA且反向链为RNA的DNA-RNA杂合双链并与之结合。

3.一种非诊断和治疗目的的抑制以RNA为引物、DNA为模板来生成DNA的方法，包括用TALE蛋白来特异性识别正向链为DNA且反向链为RNA的DNA-RNA杂合双链并与之结合。

4.一种非诊断和治疗目的的保护DNA-RNA杂合链中RNA分子不被RNA水解酶RNase H降解的方法，包括用TALE蛋白来特异性识别正向链为DNA且反向链为RNA的DNA-RNA杂合双链并与之结合。

5.权利要求1-4中任一项的方法，其中所述DNA还包含修饰的DNA衍生物，其中所述修饰是甲基化碱基、羟甲基化碱基。

6.权利要求1-4中任一项的方法，其中所述RNA还包含修饰的RNA衍生物，其中所述修饰是甲基化碱基、羟甲基化碱基。