CN105051204B

CN105051204B - 位点特异性酶和使用方法

Info

Publication number: CN105051204B
Application number: CN201380066881.0A
Authority: CN
Inventors: E·M·奥斯特泰格; T·耶什
Original assignee: Poseida Therapeutics Inc
Current assignee: Poseida Therapeutics Inc
Priority date: 2012-11-16
Filing date: 2013-11-18
Publication date: 2023-07-21
Anticipated expiration: 2033-11-18
Also published as: US10415024B2; JP6502259B2; CN105051204A; CA2891510A1; JP2015535010A; AU2013344375A1; AU2017221779B2; BR112015010911A2; AU2019216699A1; US20210062170A1; US10844361B2; AU2017221779A1; CA2891510C; WO2014078819A2; US20200199553A1; AU2019216699B2; ES2778033T3; EP2920319A4; US20160060610A1; EP2920319A2

Abstract

本发明提供与雷尔氏菌蛋白相关的多肽、编码所述多肽的核酸、包含所述多肽的组合物、包含所述多肽的试剂盒、包含所述多肽的非人转基因动物以及使用所述多肽的方法。

Description

位点特异性酶和使用方法

发明领域

本发明部分地涉及雷尔氏菌(Ralstonia)蛋白、编码所述蛋白的核酸、包含所述蛋白的组合物、包含所述蛋白的试剂盒以及使用所述蛋白的方法。

发明背景

具有可编程DNA结合结构域的转录因子针对在内源系统中产生外源生物电路和产生结合于预定DNA序列或个别核酸的设计蛋白质提供一种可能的方法。转录活化因子样(TAL)蛋白最近已经被证实具有模块化且可预测的DNA结合结构域，由此允许重新产生结合于所关注的DNA序列的合成转录因子，且必要时，允许所述蛋白质或多肽上存在第二结构域以进行与DNA有关的活性。TAL蛋白已经源自生物体黄单孢菌(Xanthomonas)。然而，本文中提供以类似于源自黄单孢菌的TAL蛋白的方式起作用的雷尔氏菌蛋白或多肽。本发明涉及源自雷尔氏菌氨基酸序列或与其相关的氨基酸序列的多肽、编码所述多肽的核酸、包含所述多肽的组合物、包含所述多肽的试剂盒、包含所述多肽的非人类转基因动物以及使用所述多肽的方法。

发明概述

本发明部分地基于以下事实，即雷尔氏菌效应子的重复可变双残基(RVD)以直接线性方式对应于其靶标位点中的核苷酸，一种RVD对应于一种核苷酸，具有一些简并性并且无明显背景依赖性。这一发现代表一种用于蛋白质-DNA识别的机理，其使得靶标位点能够预测新的靶标特异性雷尔氏菌效应子。如本文所述，这些蛋白质可适用于研究和生物技术中，作为具有与核酸相关的附属活性(如核酸酶活性)的大型靶向嵌合蛋白的一部分。例如，在一些实施方案中，所述多肽或前核酶可促进基因组工程改造中的同源重组(例如，以增加或增强植物或细菌或动物基因组中的对于生物燃料或生物可再生有用的性状)。这些蛋白质还可适用作例如转录因子，且尤其适用于需要极高程度的特异性的治疗应用，如作为非限制性实例的针对病原体(例如病毒)的治疗剂。在一些实施方案中，本发明的多肽或蛋白质包含至少第一结构域和第二结构域，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列且所述第二结构域包含至少一种针对核酸效应元件的编码序列。

本发明提供包含与SEQ ID NO:1:LSTEQVVAIASX₁X₂GGKQALEAVKAQLLVLRAAPYE(SEQID NO:1)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性的蛋白质；

其中X₁＝天然存在或非天然氨基酸。

X₂＝天然存在或非天然氨基酸。

在一些实施方案中，本发明的多肽包含与SEQ ID NO:1:LSTEQVVAIASX₁X₂GGKQALEAVKAQLLVLRAAPYE至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性；

其中，在任何组合中，X₁和X₂是独立地可变的，且X₁＝A、N、H、R或G；且X₂＝I、N、H、K、Y、T、D、S或P。

在一些实施方案中，本发明的多肽包含与SEQ ID NO:1:LSTEQVVAIASX₁X₂GGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:1)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性；

其中X₁＝S且X₂＝I。

其中X₁＝S且X₂＝N。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASSIGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:2)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASSNGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:3)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASSHGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:4)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNPGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:5)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNHGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:6)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNTGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:7)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNKGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:8)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNPGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:9)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNNGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:10)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNDGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:11)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASNGGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:12)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASHNGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:13)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASHYGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:14)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASHDGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:15)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASHHGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:16)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASRNGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:17)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASRSGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:18)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽包含与LSTEQVVAIASGSGGKQALEAVKAQLLVLRAAPYE(SEQ ID NO:19)至少80％、85％、90％、95％、96％、97％、98％或99％序列同一性。

在一些实施方案中，本发明的多肽或蛋白质包含至少第一结构域和第二结构域，其中所述第一结构域包含至少一种核酸识别元件且其中所述第二结构域包含至少一种核酸效应元件。

发明涉及编码本文所述的任何蛋白质或多肽的核酸序列。

本发明涉及包含任一种或多种编码本文所述的任何蛋白质或多肽的核酸序列的组合物。本发明涉及包含任一种或多种本文所述的氨基酸序列的组合物。

在一些实施方案中，本发明的多肽包含SEQ ID NO:1。在一些实施方案中，本发明的多肽基本上由SEQ ID NO:1组成。在一些实施方案中，本发明的多肽由SEQ ID NO:1组成。在一些实施方案中，本发明的多肽包含SEQ ID NO:1，其中X₁X₂结合于单一核酸。在一些实施方案中，本发明的多肽包含SEQ ID NO:1，其中X₁X₂结合于至少一种核酸。在一些实施方案中，本发明的多肽基本上由SEQ ID NO:1组成，其中X₁X₂结合于核酸。在一些实施方案中，本发明的多肽由SEQ ID NO:1组成，其中X₁X₂结合于核酸。

在一些实施方案中，本发明的多肽包含与选自以下的多肽至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽序列的任何组合中的一者或多者：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20。

在一些实施方案中，本发明的多肽包含与选自以下的多肽至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽序列的任何组合中的一者或多者：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20，其中所述多肽序列中的至少一者的第12个和第13个氨基酸结合至少一种核酸。

在一些实施方案中，本发明的多肽包含与选自以下的多肽80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽序列的任何组合中的一者或多者：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ IDNO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18和SEQ ID NO:19。

在一些实施方案中，本发明的多肽包含第一结构域和第二结构域，其中所述第一结构域是核酸识别结构域，其包含与选自以下的多肽80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽序列的任何组合中的一者或多者：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18和SEQID NO:19。

在一些实施方案中，本发明的多肽包含第一结构域和第二结构域，其中所述第一结构域是核酸识别结构域，其包含与选自以下的多肽80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽序列的任何组合中的一者或多者：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18和SEQID NO:19；其中至少一种多肽序列的第12个和第13个氨基酸结合核酸。

在一些实施方案中，所述多肽包含与SEQ ID NO:1至少80％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少90％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少91％序列同一性。在一些实施方案中，所述多肽包含与SEQ IDNO:1至少92％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少93％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少94％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少95％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少96％序列同一性。在一些实施方案中，所述多肽包含与SEQ IDNO:1至少97％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少98％序列同一性。在一些实施方案中，所述多肽包含与SEQ ID NO:1至少99％序列同一性。

在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少80％序列同一性，且包含选自SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19的任一多肽中的超过一种氨基酸取代。在一些实施方案中，所述蛋白质包含与SEQ IDNO:1至少90％序列同一性，且包含选自SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ IDNO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17、SEQ ID NO:18或SEQ ID NO:19的任一多肽中的超过一种氨基酸取代。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少95％序列同一性，且包含选自SEQ ID NO:2、SEQID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ IDNO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19的任一多肽中的超过一种氨基酸取代。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少99％序列同一性，且包含选自SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQID NO:19的任一多肽中的超过一种氨基酸取代。

在一些实施方案中，所述蛋白质或多肽包含与SEQ ID NO:1、SEQ ID NO:2、SEQ IDNO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性。在一些实施方案中，所述蛋白质或多肽包含至少一种、两种、三种或四种选自包含与SEQ ID NO:1、SEQ ID NO:2、SEQID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ IDNO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽的多肽序列。

本发明还提供编码上文所述的任何蛋白质的核酸。在一些实施方案中，所述核酸包含编码至少2种、3种、4种、5种或更多种多肽的核酸序列，所述多肽选自包含与SEQ IDNO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的多肽。

本发明还提供包含编码上文所述的任何蛋白质的上文所述的任何核酸序列的载体。在一些实施方案中，所述载体是质粒。在一些实施方案中，所述载体是反转录病毒。在一些实施方案中，所述反转录病毒包含长末端重复序列、psi包装信号、克隆位点和编码可选择标记的序列。

本发明还提供包含本文所述的任何核酸或载体的细胞。在一些实施方案中，所述细胞是精子或卵。

本发明还提供包含以下的试剂盒：包含编码本文所述的任何蛋白质的核酸的载体。

本发明还提供包含编码本文所述的任何蛋白质的核酸分子的非人类转基因动物。

本发明还提供修饰多细胞或单细胞生物体的细胞或至少一种细胞的遗传材料的方法，所述方法包括直接向多细胞或单细胞生物体的细胞或至少一种细胞施用任一种或多种本文所述的核酸或本文所述的任何多肽。在一些实施方案中，所述蛋白质是以编码所述蛋白质的核酸形式施用。在一些实施方案中，编码所述蛋白质的核酸是与编码效应子的第二核酸序列一起施用。在一些实施方案中，所述多细胞或单细胞生物体是脊椎动物。在一些实施方案中，所述脊椎动物是哺乳动物。在一些实施方案中，所述脊椎动物是非人类哺乳动物。在一些实施方案中，所述施用是全身性施用。

本发明还提供产生包含生殖系突变的非人类转基因动物的方法，所述方法包括：将包含编码本文所述的任何蛋白质的核苷酸序列的载体引入所述非人类转基因动物的细胞中。

本发明还提供诱变非人类转基因动物的生殖系的方法，所述方法包括：在足以产生转基因动物的条件下将编码本文所述的任何蛋白质的核酸分子引入细胞中。

附图简述

图1描绘经由BLAST与来自细菌菌株的甲基转移酶序列比对的来自黄单孢菌的DNA结合蛋白的共有序列。基于序列比对，预测所述序列的DNA结合功能。

图2描绘证实RTN功能性的凝胶。

实施方案的详述

在一些实施方案中，本发明的多肽或蛋白质包含至少第一结构域和第二结构域，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列且其中所述第二结构域包含至少一种针对核酸效应元件的编码序列。在一些实施方案中，本发明的多肽或蛋白质包含至少第一结构域，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列，所述序列源自源于雷尔氏菌或其变体的氨基酸序列。在一些实施方案中，本发明的多肽或蛋白质包含至少第一结构域，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列，所述序列源自来源于雷尔氏菌的氨基酸序列。

术语“RTN”是指包含至少第一结构域的本发明的多肽或蛋白质，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列，所述序列源自来源于雷尔氏菌的氨基酸序列。在一些实施方案中，术语“RTN”是指包含至少第一结构域和第二结构域的本发明的多肽或蛋白质，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列，所述序列源自来源于雷尔氏菌的氨基酸序列且所述第二结构域包含作为效应蛋白的氨基酸。在一些实施方案中，术语“RTN”是指包含至少第一结构域和第二结构域的本发明的多肽或蛋白质，其中所述第一结构域包含至少一种针对核酸识别元件的编码序列，所述序列源自来源于雷尔氏菌的氨基酸序列，且所述第二结构域包含作为核酸酶的氨基酸。RTN DNA结合特异性视DNA结合结构域中的重复序列结构域的数目和顺序而定。重复序列一般由约30个至约40个氨基酸构成。在一些实施方案中，重复序列结构域包含约32个至约38个氨基酸。在一些实施方案中，核苷酸结合特异性由各重复序列结构域的第12个和第13个氨基酸确定。在一些实施方案中，重复序列结构域包含约33个至约37个氨基酸。在一些实施方案中，重复序列结构域包含约34个至约35个氨基酸。在一些实施方案中，重复序列结构域包含约33个至约36个氨基酸。在一些实施方案中，重复序列结构域包含约33个至约35个氨基酸。在一些实施方案中，重复序列结构域由34个至35个氨基酸组成。在一些实施方案中，重复序列结构域由33个至35个氨基酸组成。在一些实施方案中，重复序列结构域由34个至36个氨基酸组成。

如本文所用的“核酸”或“寡核苷酸”或“聚核苷酸”意指至少两个共价连接在一起的核苷酸。单链的描绘还定义互补链的序列。因此，核酸还涵盖所描绘的单链的互补链。核酸的多种变体可用于与给定的核酸相同的目的。因此，核酸还涵盖基本上同一的核酸和其互补序列。单链提供可在严格杂交条件下与靶标序列杂交的探针。因此，核酸还涵盖在严格杂交条件下杂交的探针。核酸可为单链或双链，或可含有双链和单链序列两者的部分。核酸可为DNA(基因组和cDNA)、RNA，或杂交体，其中核酸可含有脱氧核糖核苷酸和核糖核苷酸的组合，以及包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶和异鸟嘌呤在内的碱基的组合。在一些实施方案中，合成，包含非天然氨基酸修饰。核酸可通过化学合成方法或通过重组方法获得。

如本文所用的“可操作地连接”意指基因的表达是在其空间上连接的启动子的控制下。启动子可定位于在其控制下的基因的5'(上游)或3'(下游)。启动子与基因之间的距离可与在该启动子所源自的基因中该启动子与其控制的基因之间的距离大致相同。本领域中已知，可调节这一距离的变化而不损失启动子功能。

如本文所用的“启动子”意指能够赋与、活化或增强核酸在细胞中的表达的合成或天然来源的分子。启动子可包含一个或多个特异性转录调节序列以进一步增强序列表达和/或改变序列的空间表达和/或暂时表达。启动子还可包含远端增强子或抑制元件，其可位于距转录开始位点多达数千碱基对处。启动子可源自包括病毒、细菌、真菌、植物、昆虫和动物在内的来源。启动子可对于其中表达发生的细胞、组织或器官或对于表达发生时所处的发育阶段或响应于如生理应激、病原体、金属离子或诱导剂的外部刺激物组成型地或差异性地调节基因组分的表达。启动子的代表性实例包括噬菌体T7启动子、噬菌体T3启动子、SP6启动子、lac操纵基因-启动子、tac启动子、SV40晚期启动子、SV40早期启动子、RSV-LTR启动子、CMV IE启动子、SV40早期启动子或SV40晚期启动子和CMV IE启动子。

如本文中所用的“实质上互补”意指第一序列与第二序列的互补序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、180、270、360、450、540个或更多个核苷酸或氨基酸的区域内至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％同一，或这两个序列在严格杂交条件下杂交。

如本文中所用的“实质上同一”意指所述第一序列和第二序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、180、270、360、450、540个或更多个核苷酸或氨基酸的区域内至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％或99％同一，或就核酸来说，如果第一序列与第二序列的互补序列实质上互补。。

本文中关于核酸所用的“变体”意指(i)所提及的核苷酸序列的一部分或片段；(ii)所提及的核苷酸序列或其部分的互补序列；(iii)与所提及的核酸或其互补序列实质上同一的核酸；或(iv)在严格条件下与所提及的核酸、其互补序列或与其实质上同一的序列杂交的核酸。

如本文中所用，“变体”关于肽或多肽在氨基酸序列方面的差异在于氨基酸的插入、缺失或保守性取代，但保留至少一种生物活性。变体还可意指具有与具有保留至少一种生物活性的氨基酸序列的所提及的蛋白质实质上同一的氨基酸序列的蛋白质。氨基酸的保守性取代，即用具有类似特性(例如，亲水性、带电区域的程度和分布)的不同氨基酸置换氨基酸，在本领域中被认为典型地涉及微小改变。这些微小改变可部分地通过考虑氨基酸的亲水指数来鉴定，如本领域中应了解。Kyte等,J.Mol.Biol.157:105-132(1982)。氨基酸的亲水指数是基于对其疏水性和电荷的考虑。本领域中已知，具有类似的亲水指数的氨基酸可被取代并且仍保留蛋白质功能。一方面，具有±2的亲水指数的氨基酸被取代。氨基酸的亲水性还可用于显露将产生保留生物功能的蛋白质的取代。在肽背景下对氨基酸的亲水性的考虑允许计算所述肽的最大局部平均亲水性，这是一种有效的度量，已经报道它与抗原性和免疫原性充分相关。美国专利号4,554,101，以引用的方式完全并入本文。

具有类似的亲水性值的氨基酸的取代可产生保留生物活性(例如，免疫原性)的肽，如本领域中应了解。可利用具有在±2内的亲水性值的氨基酸彼此进行取代。氨基酸的疏水指数和亲水性值均受所述氨基酸的特定侧链影响。与所述观察结果一致，应了解可与生物功能相容的氨基酸取代视氨基酸的相对相似性而定，并且尤其视这些氨基酸的侧链而定，如疏水性、亲水性、电荷、大小和其它特性所显露。

载体

如本文中所用的“载体”意指含有复制起点的核酸序列。载体可为病毒载体、噬菌体、细菌人工染色体或酵母人工染色体。载体可为DNA或RNA载体。载体可为自我复制的染色体外载体，并且优选是DNA质粒。

本发明提供编码所要求的发明的任何多肽或蛋白质的多肽、蛋白质和核酸序列。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少75％序列同一性。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少75％序列同一性并且包含在SEQ ID NO:1的第12个和第13个氨基酸处的核酸结合结构域。在一些实施方案中，本发明的蛋白质或多肽包含选自以下的至少一个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS和GS。在一些实施方案中，本发明的蛋白质或多肽包含选自以下的任何组合中的至少一个或多个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS、NG和GS；其中SI、SN、SH、NP和NH结合任何核酸碱基；其中NT、NK和NN结合腺嘌呤；其中ND、HN、HY、HD和HH结合腺嘌呤和/或鸟嘌呤；其中NG结合胸腺嘧啶；其中RN、RS和GS结合鸟嘌呤。在一些实施方案中，本发明的蛋白质或多肽包含选自以下的任何组合中的至少一个或多个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS、NG和GS；其中SI、SN、SH、NP和NH结合任何核酸碱基；其中NK结合鸟嘌呤，且NN结合腺嘌呤或鸟嘌呤；其中ND、HN、HY、HD和HH结合胞嘧啶；其中NG结合胸腺嘧啶；其中RN、RS和GS结合鸟嘌呤。在一些实施方案中，本发明的蛋白质或多肽包含选自以下的任何组合中的至少一个或多个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS、NG和GS；其中SI结合腺嘌呤；SN结合鸟嘌呤和/或腺嘌呤，SH、NP和NH结合任何核酸碱基；其中NK结合鸟嘌呤；且NN结合腺嘌呤和/或鸟嘌呤；其中ND结合胞嘧啶，HN结合鸟嘌呤，HY、HD和HH结合胞嘧啶；其中NG结合胸腺嘧啶；其中RN结合鸟嘌呤和/或腺嘌呤；其中RS和GS结合鸟嘌呤。在一些实施方案中，本发明的蛋白质或多肽包含任何组合中至少一个或多个RVD序列，其中所述RVD序列中的至少一者为NP、ND或HN；且其中NP结合胞嘧啶、腺嘌呤和鸟嘌呤；其中ND结合胞嘧啶；且其中HN结合腺嘌呤和/或鸟嘌呤。

在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少75％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少80％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少85％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少90％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少91％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ IDNO:1至少92％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少93％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少94％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少95％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少96％序列同一性，并且在SEQID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少97％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少98％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少99％序列同一性，并且在SEQ ID NO:1中的至少一个以下氨基酸位置中包含保守性氨基酸取代：位置12和位置13。

在一些实施方案中，所述蛋白质包含与SEQ ID NO:1至少75％序列同一性。

在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:2至少80％序列同一性，并且包含SEQ ID NO:2中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:2至少85％序列同一性，并且包含SEQ ID NO:2中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:2至少90％序列同一性，并且包含SEQ ID NO:2中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:2至少95％序列同一性，并且包含SEQ ID NO:2中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:2至少99％序列同一性，并且包含SEQ ID NO:2中的至少一种前述氨基酸取代。

在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:3至少80％序列同一性，并且包含SEQ ID NO:3中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:3至少85％序列同一性，并且包含SEQID NO:3中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:3至少90％序列同一性，并且包含SEQ ID NO:3中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:3至少95％序列同一性，并且包含SEQ ID NO:3中的至少一种前述氨基酸取代。在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:3至少99％序列同一性，并且包含SEQ ID NO:3中的至少一种前述氨基酸取代。

在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ IDNO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19中的任一者至少75％序列同一性，并且包含SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ IDNO:19中的超过一种前述氨基酸取代。在一些实施方案中，所述蛋白质(由核酸编码、或呈载体中的核酸形式、或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ ID NO:5、SEQ IDNO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19至少80％序列同一性，并且包含SEQ ID NO:4、SEQ ID NO:5、SEQ IDNO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19中的超过一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19至少85％序列同一性，并且包含SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19中任一者或多者的超过一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19中的任一者或多者至少90％序列同一性，并且包含SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19中的任一者或多者的超过一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ IDNO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ IDNO:19至少95％序列同一性，并且包含SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ IDNO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ IDNO:19中的任一者或多者的超过一种前述氨基酸取代。在一些实施方案中，所述蛋白质(呈核酸形式、呈载体中的核酸形式或呈纯化的重组蛋白形式)包含与SEQ ID NO:4、SEQ IDNO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17、SEQ ID NO:18、SEQ ID NO:19中的任一者或多者至少99％序列同一性，并且包含SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19中的任一者或多者的超过一种前述氨基酸取代。

如本文中所用，“序列同一性”通过使用用于对两个序列进行BLAST(bl2seq)的独立可执行BLAST引擎程序，使用缺省参数来测定，所述BLAST引擎程序可从National Centerfor Biotechnology Information(NCBI)ftp位点检索(Tatusova和Madden,FEMSMicrobiol Lett.,1999,174,247-250；其以引用的方式整体并入本文)。如本文中在两个或更多个核酸或多肽序列的背景下所用的“同一”或“同一性”意指所述序列在指定区域内具有指定百分比的相同的残基。所述百分比可通过最佳地比对两个序列，在特定区域内比较这两个序列，测定同一残基在两个序列中均出现的位置的数目以产生匹配位置的数目，所述匹配位置的数目除以指定区域中的总位置数目，且结果乘以100以产生序列同一性百分比来计算。在两个序列具有不同长度或所述比对产生一个或多个交错末端且指定的比较区域仅包括单一序列的情况下，单一序列的残基包括于所述计算的分母而非分子中。当比较DNA和RNA时，胸腺嘧啶(T)和尿嘧啶(U)可被视为等同物。同一性可手动地或通过使用如BLAST或BLAST 2.0的计算机序列算法来进行。

如本文中所用，“保守性”氨基酸取代可如以下表A、B或C中所陈述来定义。在一些实施方案中，融合多肽和/或编码所述融合多肽的核酸包括已经通过修饰编码本发明多肽的聚核苷酸而引入的保守性取代。氨基酸可根据物理特性和对于二级和三级蛋白质结构的作用来分类。保守性取代在本领域中被视为用一种氨基酸取代具有类似特性的另一种氨基酸。示例性保守性取代陈述于表A中。

表A--保守性取代I

或者，保守性氨基酸可如Lehninger中所述(Biochemistry,第2版；WorthPublishers,Inc.NY,N.Y.(1975),第71-77页)如表B中所陈述来分组。

表B--保守性取代II

或者，示例性保守性取代陈述于表C中。

表C--保守性取代III

/>

应了解，本文所述的多肽意图包括具有氨基酸残基的一个或多个插入、缺失或取代或其任何组合以及除氨基酸残基的插入、缺失或取代以外的修饰的多肽。在一些实施方案中，本文所公开的多肽或核酸含有一个或多个保守性取代。在一些实施方案中，本文所公开的多肽或核酸含有超过一个保守性取代。

如本文中所用，“超过一个”前述氨基酸取代意指2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个所陈述的氨基酸取代。在一些实施方案中，“超过一个”意指2、3、4或5个所陈述的氨基酸取代。在一些实施方案中，“超过一个”意指2、3或4个所陈述的氨基酸取代。在一些实施方案中，“超过一个”意指2或3个所陈述的氨基酸取代。在一些实施方案中，“超过一个”意指2个所陈述的氨基酸取代。

如本文中所用，“内源”是指与靶标基因或其所引入的宿主细胞天然地缔合的核酸或蛋白质序列。

如本文中所用，“外源”是指不与靶标基因或其所引入的宿主细胞天然地缔合的核酸或蛋白质序列，包括天然存在的核酸(例如DNA序列)的非天然存在的多个拷贝，或位于非天然存在的基因组位置中的天然存在的核酸序列。

如本文中所用，“遗传修饰植物(或转基因植物)”是指在其基因组内包含外源聚核苷酸的植物。通常且优选地，所述外源聚核苷酸稳定地整合于基因组内，使得所述聚核苷酸传代至连续世代。所述外源聚核苷酸可单独或作为重组表达盒的一部分整合于基因组内。“转基因”在本文中用于包括任何细胞、细胞系、愈伤组织、组织、植物部分或植物，其基因型已经由于外源核酸的存在而改变，包括最初如此改变的那些转基因以及通过从初始转基因有性繁殖或无性繁殖而产生的那些转基因。如本文中所用的术语“转基因”不涵盖通过常规植物育种方法或通过天然存在的事件，如随机异体受精、非重组病毒感染、非重组细菌转化、非重组转位或自发突变而发生的基因组(染色体或染色体外)改变。

如本文中所用的术语“修饰”意图意指序列被认为仅通过结合多肽而修饰。其不意图表明核苷酸序列发生改变，不过所述改变(和其它改变)可能在多肽结合于所关注的核酸后发生。在一些实施方案中，核酸序列是DNA。所关注的核酸(在经过修饰而含有模块化重复单元的多肽结合于其的情况下)的修饰可能以多种方法(例如，凝胶迁移率变动测定、使用标记的多肽(标记可能包括放射性、荧光、酶或生物素/抗生蛋白链菌素标记))中的任一种检测到。所关注的核酸序列的修饰(和其检测)可为所需的一切(例如，在疾病的诊断中)。然而，理想地进行样品的进一步加工。合适地，所述多肽(和特异性结合于其的核酸序列)与样品剩余部分分离。有利地，多肽-DNA复合物结合于固相支撑物，以促进所述分离。例如，所述多肽可存在于丙烯酰胺或琼脂糖凝胶基质中或更优选地，固定于膜表面上或微量滴定板的孔中。

在一些实施方案中，本发明的融合蛋白包含至少两个结构域，其中第一结构域是雷尔氏菌DNA结合元件且第二结构域是甲基酶。

本发明的DNA序列可提供于表达盒中用于在任何原核或真核细胞和/或所关注的生物体(包括但不限于细菌、真菌、藻类、植物和动物)中表达。所述盒将包括可操作地连接于本发明的DNA序列的5'和3'调节序列。“可操作地连接”意图意指两个或更多个元件之间的功能连接。例如，在所关注的聚核苷酸或基因与调节序列(即，启动子)之间的可操作的连接是允许所关注的聚核苷酸的表达的功能性连接。可操作地连接的元件可为邻近的或非邻近的。当用于指两个蛋白质编码区的接合时，可操作地连接意指所述编码区是在同一阅读框架中。所述盒可另外含有至少一个将要共同转化至生物体中的额外基因。或者，所述额外基因可提供于多个表达盒上。所述表达盒被提供多个限制位点和/或重组位点以在调节区的转录调节下插入DNA序列。所述表达盒可另外含有可选择标记基因。

所述表达盒将以5'-3'转录方向包括在植物或其它生物体或非人类宿主细胞中具功能性的转录和翻译起始区(即，启动子)、本发明的DNA序列以及转录和翻译终止区(即，终止区)。调节区(即，启动子、转录调节区和翻译终止区)和/或本发明的DNA序列可为宿主细胞天然的/类似于宿主细胞，或彼此为天然的/类似的。或者，所述调节区和/或本发明的DNA序列可对于宿主细胞为异源的或彼此为异源的。如本文中所用，关于序列的“异源”是源自于外来物种或如果源自于相同物种，那么通过有意的人为干预在组成和/或基因组基因座方面从其天然形式进行实质上修饰的序列。例如，可操作地连接于异源聚核苷酸的启动子是来自与所述聚核苷酸所源自的物种不同的物种，或如果来自相同/类似物种，那么一者或两者从其最初形式和/或基因组基因座进行实质上修饰，或所述启动子不是可操作地连接的聚核苷酸的天然启动子。如本文中所用，嵌合基因包含可操作地连接于转录起始区的编码序列，所述转录起始区与所述编码区是异源的。

所述终止区可对于转录起始区为天然的，可对于可操作地连接的所关注的DNA序列为天然的，可对于宿主为天然的，或可相对于启动子、所关注的DNA序列、植物宿主或其任何组合源自另一来源(即，外来或异源)。用于植物中的合适终止区可获自农杆菌(A.tumefaciens)的Ti质粒，如章鱼碱合酶和胭脂碱合酶终止区。还参见Guerineau等(1991)Mol.Gen.Genet.262:141-144；Proudfoot(1991)Cell 64:671-674；Sanfacon等(1991)Genes Dev.5:141-149；Mogen等(1990)Plant Cell 2:1261-1272；Munroe等(1990)Gene 91:151-158；Ballas等(1989)Nucleic Acids Res.17:7891-7903；以及Joshi等(1987)Nucleic Acids Res.15:9627-9639。

适当时，聚核苷酸可针对在转化的生物体中的增加的表达而优化。即，聚核苷酸可使用宿主偏好用于改进的表达的密码子来合成。关于宿主偏好的密码子使用的论述，参见例如Campbell和Gown(1990)Plant Physiol.92:1-11。本领域中可获得用于合成宿主偏好的基因，尤其植物偏好的基因的方法。参见例如美国专利号5,380,831和5,436,391，以及Murray等(1989)Nucleic Acids Res.17:477-498，以引用的方式并入本文。

已知额外序列修饰增强细胞宿主中的基因表达。这些修饰包括消除编码假性聚腺苷酸化信号、外显子-内含子剪接位点信号、转座子样重复序列的序列和其它可对基因表达有害的所述充分表征的序列。所述序列的G-C含量可调节至给定的细胞宿主的平均水平，如通过参考在宿主细胞中表达的已知基因来计算。在可能的情况下，修饰所述序列以避免预测的发夹二级mRNA结构。

所述表达盒可另外含有5'引导序列。所述引导序列可用于增强翻译。翻译引导子为本领域中已知的且包括：小核糖核酸病毒引导子，例如EMCV引导子(脑心肌炎5'非编码区)(Elroy-Stein等(1989)Proc.Natl.Acad.Sci.USA 86:6126-6130)；马铃薯Y病毒属引导子，例如TEV引导子(烟草蚀纹病毒)(Gallie等(1995)Gene 165(2):233-238)、MDMV引导子(玉米矮花叶病毒)(Virology 154:9-20)和人类免疫球蛋白重链结合蛋白(BiP)(Macejak等(1991)Nature 353:90-94)；来自苜蓿花叶病毒的外壳蛋白mRNA(AMV RNA 4)的未翻译引导子(Tabling等(1987)Nature 325:622-625)；烟草花叶病毒引导子(TMV)(Gallie等(1989)Molecular Biology of RNA,Cech编(Liss,New York),第237-256页)；和玉米萎黄病毒引导子(MCMV)(Lommel等(1991)Virology 81:382-385)。还参见Della-Cioppa等(1987)Plant Physiol.84:965-968。

在制备表达盒时，可操作各种DNA片段，以便提供呈恰当取向且适当时位于恰当阅读框架中的DNA序列。为此，可使用接头或连接子以接合DNA片段或其它操作可涉及提供合适的限制位点、去除多余DNA、去除限制位点等。为此，可涉及体外诱变、引物修复、限制、退火、再取代(例如转换和颠换)。

本发明涵盖分离的或实质上纯化的聚核苷酸或蛋白质组合物。“分离的”或“纯化的”聚核苷酸或蛋白质或其生物活性部分实质上或基本上不含如其天然存在环境中所发现通常伴随所述聚核苷酸或蛋白质或与所述聚核苷酸或蛋白质相互作用的组分。因此，分离的或纯化的聚核苷酸或蛋白质当通过重组技术产生时实质上不含其它细胞材料或培养基，或当以化学方式合成时实质上不含化学前体或其它化学品。最佳地，“分离的”聚核苷酸不含在所述聚核苷酸所源自的生物体的基因组DNA中天然侧接所述聚核苷酸(即，位于所述聚核苷酸的5'和3'末端的序列)的序列(最佳是蛋白质编码序列)。例如，在各种实施方案中，分离的聚核苷酸可含有少于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的在所述聚核苷酸所源自的细胞的基因组DNA中天然侧接所述聚核苷酸的核苷酸序列。实质上不含细胞材料的蛋白质包括具有少于约30％、20％、10％、5％或1％(以干重计)的污染蛋白质的蛋白质制剂。当本发明蛋白质或其生物活性部分是重组产生时，最佳地培养基表示少于约30％、20％、10％、5％或1％(以干重计)的化学前体或所关注非蛋白质的化学品。

本发明还涵盖所公开的DNA序列和由此编码的蛋白质的片段和变体。“片段”意指所述DNA序列的一部分或所述氨基酸序列的一部分和因此由此编码的蛋白质。包含编码序列的DNA序列的片段可编码保留天然蛋白质的生物活性和因此对于如本文所述的靶标DNA序列的DNA识别或结合活性的蛋白质片段。或者，用作杂交探针的DNA序列的片段一般不编码保留生物活性的蛋白质或不保留启动子活性。因此，DNA序列的片段可在至少约20个核苷酸、约50个核苷酸、约100个核苷酸和至多本发明的全长聚核苷酸范围内。

在一些实施方案中，所述蛋白质包含SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQID NO:16、SEQ ID NO:17、SEQ ID NO:18和/或SEQ ID NO:19。在一些实施方案中，多肽序列SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18和/或SEQ ID NO:19中的任一者重复至少一次。在一些实施方案中，所述多肽不包含表1中的任何序列。在一些实施方案中，所述多肽包含表1中的单一序列，但不包含表1中的替代序列中的至少一者或多者。在一些实施方案中，所述替代序列包含SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19。

本发明还提供编码本文所述的多肽蛋白质中的任一者的核酸。因此，本发明提供编码包含与SEQ ID NO:1至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质的核酸。

在一些实施方案中，所述核酸编码包含与SEQ ID NO:1至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质，其中X₁X₂是天然存在的氨基酸与非天然存在的氨基酸的任何组合。

给定遗传密码中的冗余度，本领域技术人员可能产生众多编码任何特定蛋白质的核苷酸序列。所有所述核苷酸序列均涵盖于本文中。

本发明还提供包含任何上述核酸的载体。因此，本发明提供包含编码包含与SEQID NO:1至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质的核酸的载体。本发明提供包含编码至少一种蛋白质的核酸的载体，所述蛋白质包含与SEQ ID NO:1至少75％(或80％、85％、90％、95％或99％)序列同一性，并且包含在SEQ ID NO:1的其第12个和第13个氨基酸处的选自以下的至少一个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS和GS。在一些实施方案中，本发明的蛋白质或多肽包含选自以下的任何组合中的至少一个或多个RVD序列：SI、SN、SH、NP、NH、NT、NK、NN、ND、HN、HY、HD、HH、RN、RS、NG和GS；其中SI、SN、SH、NP和NH结合任何核酸碱基；其中NT、NK和NN结合腺嘌呤；其中ND、HN、HY、HD和HH结合腺嘌呤和/或鸟嘌呤；其中NG结合胸腺嘧啶；其中RN、RS和GS结合鸟嘌呤。在一些实施方案中，NK结合鸟嘌呤，NG结合胸腺嘧啶，NN结合于鸟嘌呤或腺嘌呤，和/或HD结合胞嘧啶。在一些实施方案中，SI结合腺嘌呤，SN结合鸟嘌呤或腺嘌呤，ND结合胞嘧啶，HN结合鸟嘌呤，和/或RN结合鸟嘌呤或腺嘌呤。

在一些实施方案中，所述多肽包含至少第一结构域和第二结构域，其中所述第一结构域包含至少一种包含上述单一RVD序列的多肽单体。在一些实施方案中，所述第一结构域包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20种或更多种单体，其中各单体包含由两个氨基酸组成的单一核酸结合结构域或RVD。在本发明的一些实施方案中，所述第一结构域包含至少两种单体，其中各单体由至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多个氨基酸的间隔子分离。

在一些实施方案中，所述第二结构域包含与由第一结构域的存在赋予的核酸结合互补的另一功能。在一些实施方案中，所述第二结构域是核酸酶或核酸酶的功能片段。在一些实施方案中，所述第二结构域是核酸内切酶或核酸内切酶的功能片段。在一些实施方案中，所述第二结构域是切口酶或切口酶的功能片段。在一些实施方案中，所述第二结构域是抑制因子或抑制因子的功能片段。在一些实施方案中，所述第二结构域是转录活化因子或转录活化因子的功能片段。

在一些实施方案中，所述载体包含包含编码本文所述的各多肽中的一者或多者的序列的核酸。在一些实施方案中，所述载体包含包含编码选自以下的各多肽中的一者或多者的序列的核酸：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18或SEQ ID NO:19。

在一些实施方案中，所述载体是质粒。在其它实施方案中，所述载体是反转录病毒。在一些实施方案中，所述载体是线性DNA分子。在一些实施方案中，所述反转录病毒包含长末端重复序列、psi包装信号、克隆位点和编码可选择标记的序列。在一些实施方案中，所述载体是病毒载体，如pLXIN(Clontech)。

本发明还提供包含任何上述核酸的细胞或生物体。因此，本发明提供包含编码包含与SEQ ID NO:1至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质的核酸的细胞或生物体。本发明提供包含核酸的细胞或生物体，所述核酸编码包含与呈任何组合的以下多肽中的任一者或多者至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19。本发明提供包含核酸的细胞或生物体，所述核酸编码包含与呈任何组合的以下多肽中的任一者或多者至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19；并且包含在SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ IDNO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17、SEQ ID NO:18或SEQ ID NO:19中任一者的位置12和13处的至少一个RVD结构域处的至少一种突变。本发明提供包含核酸的细胞或生物体，所述核酸通过与包含与呈任何组合的以下多肽中的任一者或多者至少75％(或80％、85％、90％、95％或99％)序列同一性的蛋白质接触而突变：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18或SEQ ID NO:19；并且包含在SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ IDNO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19中任一者的位置12和13处的至少一个RVD结构域处的至少一种突变。

在一些实施方案中，所述细胞或生物体包含核酸，所述核酸编码包含与SEQ IDNO:1具有至少75％(或80％、85％、90％、95％或99％)序列同一性的核酸序列的蛋白质。在一些实施方案中，所要求的发明的所述多肽或蛋白质包含多个重复序列结构域，其中至少一个重复序列结构域包含与SEQ ID NO:1-19具有至少75％(或80％、85％、90％、95％或99％)序列同一性的核酸序列或与SEQ ID NO:1-19具有75％(或80％、85％、90％、95％或99％)序列同一性的其变体。

在一些实施方案中，所述细胞包含上述载体或核酸序列的任一种。

在本发明的一方面，本发明多肽包含单体亚单元，其中至少一种单体亚单元包含至少一个包含核苷酸识别元件的源自雷尔氏菌的氨基酸序列。在一些实施方案中，本发明多肽包含单体亚单元，其中至少一种单体亚单元包含至少一个包含核苷酸识别元件的源自雷尔氏菌的氨基酸序列，所述核苷酸识别元件包含与以下多肽中的任一者或多者至少75％(或80％、85％、90％、95％、96％、97％、98％或99％)序列同一性：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19。在一些实施方案中，本发明多肽包含单体亚单元，其中至少一种单体亚单元包含至少一个包含核苷酸识别元件的源自雷尔氏菌的氨基酸序列，所述核苷酸识别元件由与以下多肽中的任一者或多者具有至少75％(或80％、85％、90％、95％、96％、97％、98％或99％)序列同一性组成：SEQ IDNO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19。在一些实施方案中，本发明的核酸分子包含编码一种或多种单体亚单元的核酸序列，其中所述一种或多种单体亚单元在编码时包含两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、十个或更多个、十一个或更多个或十二个或更多个连续单体，各单体包含至少一个包含核苷酸识别元件的源自雷尔氏菌的氨基酸序列。在一些实施方案中，本发明的核酸分子包含编码一种或多种单体亚单元的核酸序列，其中所述一种或多种单体亚单元在编码时包含两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、十个或更多个、十一个或更多个或十二个或更多个连续单体，各单体包含至少一个包含核苷酸识别元件的源自雷尔氏菌的氨基酸序列，所述核苷酸识别元件由与以下多肽中的任一者或多者至少75％(或80％、85％、90％、95％、96％、97％、98％或99％)序列同一性组成：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ IDNO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物。在一些实施方案中，所述蛋白质包含一个或多个编码一个或多个包含源自雷尔氏菌的核酸识别元件的多肽序列的核酸序列，和一个或多个编码一个或多个包含源自黄单孢杆菌的核酸识别元件的多肽序列的核酸序列。在一些实施方案中，所述融合蛋白包含作为DNA识别元件的连续、独立可变单体亚单元，其中所述单体亚单元中的至少一者或多者是源自本文所公开的雷尔氏菌序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续、独立可变单体亚单元的融合蛋白，其中所述单体亚单元中的至少一者或多者是源自表1所公开的雷尔氏菌序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ IDNO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，其中各单体结合DNA靶标序列的一个核苷酸。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ ID NO:1、SEQ ID NO:2、SEQ IDNO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ ID NO:1、SEQ ID NO:2、SEQID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ IDNO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，其中所述融合蛋白进一步包含至少一个作为效应蛋白/多肽的多肽序列。在一些实施方案中，所述融合蛋白包含结合DNA靶标序列的第一结构域和具有效应子功能的第二结构域。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ ID NO:1、SEQ ID NO:2、SEQID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ IDNO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，其中所述融合蛋白进一步包含至少一个作为效应蛋白/多肽的多肽序列。在一些实施方案中，所述融合蛋白包含结合DNA靶标序列的第一结构域和具有核酸酶功能的第二结构域。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的组合：SEQ ID NO:1、SEQ ID NO:2、SEQID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ IDNO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ IDNO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，其中所述融合蛋白进一步包含至少一个作为效应蛋白/多肽的多肽序列。在一些实施方案中，所述融合蛋白包含结合DNA靶标序列的第一结构域和具有切口酶或连接酶功能的第二结构域。在一些实施方案中，所述融合蛋白包含结合DNA靶标序列的第一结构域和具有核酸酶功能的第二结构域。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的任何组合：SEQID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ IDNO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，并且其中所述融合蛋白进一步包含至少一个作为效应蛋白/多肽的多肽序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的任何组合：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，并且其中所述融合蛋白进一步包含至少一个作为效应蛋白/多肽的多肽序列且进一步包含至少一个具有任何公开的效应蛋白功能的多肽序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的任何组合：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，并且其中所述融合蛋白进一步包含至少两个包含效应蛋白/多肽功能或作为效应蛋白或其变体的多肽序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的任何组合：SEQID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ IDNO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ IDNO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18或SEQID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，并且其中所述融合蛋白进一步包含至少三个或更多个包含效应子/蛋白功能的多肽序列。在一些实施方案中，本发明涉及包含作为DNA识别元件的连续单体亚单元的融合蛋白，其中所述融合蛋白包含选自以下多肽序列中的至少一者的连续多肽的任何组合：SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ IDNO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18或SEQ ID NO:19或其任何变体或类似物，所述变体或类似物为其至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％百分比同源的，其中各单体在核酸序列存在下结合DNA靶标序列的一个核苷酸，并且其中所述融合蛋白进一步包含至少四个或更多个包含效应蛋白/多肽的多肽序列。

本发明的核酸或蛋白质可通过模块化方法通过在靶标载体中预组装单体单元和/或重复单元来构建，所述靶标载体可随后组装至最终目的载体中。在本发明的一方面，本发明的多肽包含本发明的重复单体且可通过模块化方法通过在靶标载体中预组装重复单元来构建，所述靶标载体可随后组装至最终目的载体中。本发明提供由这种方法产生的多肽以及编码所述多肽的核酸序列和包含所述DNA序列的宿主生物体和细胞。

特异性修饰DNA序列以便获得用于特定氨基酸的指定密码子的技术为本领域中已知的。用于诱变和聚核苷酸改变的方法已经广泛地加以描述。参见例如Kunkel(1985)Proc.Nat！.Acad.Sci.USA 82:488-492；Kunkel等(1987)Methods in Enzymol.154:367-382；美国专利号4,873,192；Walker和Gaastra编(1983)Techniques in MolecularBiology(MacMillan Publishing Company,New York)以及其中引用的参考文献。所用这些公布均以引用的方式并入本文。

以下实施例提供用于构建新的重复单元和测试人工构建的特异性识别靶标DNA序列中的碱基对的重复单元的特异性结合活性的方法。将要用于重复序列结构域中的重复单元的数目可由本领域技术人员通过常规实验来确定。一般来说，至少1.5个重复单元被视为最小值，不过典型地将使用至少约8个重复单元。所述重复单元不是必须为完全重复单元，如可使用一半大小的重复单元。此外，本文所公开的方法和多肽确实视具有特定数目的重复单元的重复序列结构域而定。因此，本发明多肽可包含例如1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、30.5、31、31.5、32、32.5、33、33.5、34、34.5、35、35.5、36、36.5、37、37.5、38、38.5、39、39.5、40、40.5、41、41.5、42、42.5、43、43.5、44、44.5、46、46.5、47、47.5、48、48.5、49、49.5、50、50.5个或更多个重复单元。

在本发明中，可设计包含具有重复单元的重复序列结构域的多肽，其中在所述重复单元中包括高变区，所述高变区确定靶标DNA序列中碱基对的识别。在本发明的一个实施方案中，各重复单元均包括高变区，所述高变区确定靶标DNA序列中一个碱基对的识别。在另一实施方案中，包括重复序列结构域中的1或2个不特异性识别靶标DNA序列中的碱基对的重复单元。考虑到由本发明人发现的识别密码，重复单元的模块化布置是可行的，其中各重复单元负责靶标DNA序列中一个碱基对的特异性识别。因而，重复单元的序列对应于靶标DNA序列中碱基对的序列，使得1个重复单元与一个碱基对匹配。

本发明提供一种用于由多肽选择性识别靶标DNA序列中的碱基对的方法，其中所述多肽包含至少一个包含重复单元的重复序列结构域，其中在所述重复单元中，各重复单元包含至少一个RVD区域，所述区域确定所述靶标DNA序列中碱基对或核苷酸的识别。更具体说来，本发明人已经确定DNA结合多肽中负责选择性识别靶标DNA序列中的碱基对的那些氨基酸。通过识别密码的说明，已经确定关于由多肽中的所选氨基酸识别靶标DNA序列中的特异性碱基对的一般原则。本发明人已经发现，作为具有变化的氨基酸长度的重复单元阵列(或聚合物)的一部分的不同类型的单体具有识别一种指定的/特异性碱基对的能力。在形成重复序列结构域的各重复单元内，RVD区域负责靶标DNA序列中碱基对的特异性识别。

因此，本发明不仅提供一种用于由包含至少一个包含重复单元的重复序列结构域的多肽选择性识别靶标DNA序列中的碱基对的方法，而且提供其中可产生由多肽中的重复序列结构域选择性识别的靶标DNA序列的方法。这些多肽适用于分子生物学工具以便在实验室中克隆、诱变或以其它方式改变分离的核酸序列或其它体内序列。这提供一种有效的选择性诱变方式。

本发明还提供一种用于构建和/或产生识别特异性DNA序列的多肽的方法。本发明的这些多肽包含本发明的重复单体且可通过模块化方法通过在靶标载体中预组装重复单元来构建，所述靶标载体可随后组装至最终目的载体中。在一些实施方案中，所述DNA构建体是经过密码子优化以重组产生和/或分泌本文所公开的多肽。本领域中的任何重组系统均可用于产生所述重组蛋白。实例包括杆状病毒细胞、其它真核细胞(如哺乳动物细胞)或细菌细胞。

如果已知靶标DNA序列且需要由蛋白质识别所述序列，那么本领域技术人员能够特异性构建重复单元的模块化系列，包括特异性识别氨基酸序列，并且以适当顺序将这些重复单元组装成多肽以使得能够识别且结合于所需的靶标DNA序列。任何多肽均可通过与本发明的模块化重复单元DNA结合结构域合并来修饰。所述实例包括作为转录活化因子和抑制蛋白、抗性介导蛋白、核酸酶、拓扑异构酶、连接酶、整合酶、重组酶、解离酶、甲基酶、乙酰化酶、脱甲基酶、脱乙酰化酶的多肽，和能够修饰DNA、RNA或蛋白质的任何其它多肽。

本发明的模块化重复单元DNA结合结构域可与细胞区室定位信号(如核定位信号)合并，以在任何其它调节区，包括但不限于转录调节区和翻译终止区中起作用。

在本发明的另一实施方案中，这些模块化设计的重复单元是与核酸内切酶结构域合并，所述核酸内切酶结构域当邻近DNA时由于所述重复序列结构域的结合而能够裂解DNA。已知所述内切核苷酸断裂在真核细胞(包括真菌、植物和动物)中刺激同源重组的速率。在特异性位点处由于位点特异性内切核苷酸断裂而刺激同源重组的能力允许回收已经在所述特异性位点处整合所关注的DNA序列的转化的细胞，比未进行所述位点特异性断裂的情况下的可能情形频繁得多。另外，内切核苷酸断裂(如由重复序列结构域和核酸内切酶结构域形成的多肽所致的那些断裂)有时是由细胞DNA代谢机构以在断裂位点处改变序列的方式修复，例如通过在断裂位点处引起比未改变的序列短的插入或缺失。这些序列改变可引起基因或蛋白质功能的失活，例如通过改变蛋白质编码序列以产生非功能蛋白质，修饰剪接位点使得基因转录物未恰当地裂解，产生非功能转录物，改变基因的启动子序列使得其无法再适当地转录等。

使用位点特异性核酸内切酶断裂DNA可增加断裂区域中同源重组的速率。在一些实施方案中，Fok I(海床黄杆菌)核酸内切酶可用于效应子中以诱导DNA断裂。Fok I核酸内切酶结构域独立于DNA结合结构域起作用，且典型地将双链DNA切割为二聚体(Li等(1992)Proc.Natl.Acad.Sci.U.S.A 89(10):4275-4279，和Kim等(1996)Proc.Natl.Acad.Sci.U.S.A 93(3):1156-1160；其公开内容以引用的方式整体并入本文)。单链FokI二聚体也已经得到开发且也可能使用(Mino等(2009)J.Biotechnol.140:156-161)。可构建含有用于识别所需的靶标DNA序列的重复序列结构域以及类似于使用锌指核酸酶进行的前述工作在靶标DNA序列处或附近诱导DNA断裂的FokI核酸内切酶结构域的效应子(Townsend等(2009)Nature 459:442-445；Shukla等(2009)Nature 459,437-441，其均以引用的方式整体并入本文)。使用所述效应子可能使得能够在基因组中产生包括添加、缺失和其它修饰的靶向改变，类似于根据Bibikova等(2003)Science 300,764；Urnov等(2005)Nature 435,646；Wright等(2005)The Plant Journal 44:693-705；和美国专利号7,163,824和7,001,768(其均以引用的方式整体并入本文)针对锌指核酸酶所报道的那些用途。

FokI核酸内切酶结构域可通过PCR由通过标准方法制备的海洋细菌海床黄杆菌(ATCC)的基因组DNA克隆。FokI核酸内切酶的序列可在Pubmed上获得(登录号M28828和登录号J04623，其公开内容以引用的方式整体并入本文)。来自酵母酿酒酵母的I-Sce I核酸内切酶已经用于产生增加同源重组的速率的DNA断裂。I-Sce I是由线粒体内含子编码的核酸内切酶，所述线粒体内含子具有18bp的识别序列且因此在给定的DNA内，甚至在大基因组内具有极低的识别位点出现率(Thierry等(1991)Nucleic Acids Res.19(1):189-190；其公开内容以引用的方式整体并入本文)。I-SceI识别的裂解位点较少使其适合用于增强同源重组。关于I-Sce I用于诱导所述DNA断裂的用途的额外描述可发现于美国专利申请20090305402中，所述专利申请以引用的方式整体并入本文。

针对I-Sce I的识别位点已经被引入一系列不同系统中。随后用I-Sce I切割这一位点会增加已经引入所述位点的位置处的同源重组。增强的同源重组出现率已经用引入爪蟾卵母细胞中的染色体外DNA、小鼠基因组以及烟草植物皱叶烟草(Nicotianaplumbaginifolia)的基因组DNA中的I-Sce I位点获得。参见例如Segal等(1995)Proc.Natl.Acad.Sci.U.S.A.92(3):806-810；Choulika等(1995)Mol.Cell Biol.15(4):1968-1973；以及Puchta等(1993)Nucleic Acids Res.21(22):5034-5040；其公开内容以引用的方式整体并入本文。应了解，对异源DNA结合结构域起作用的任何其它核酸内切酶结构域均可用于效应子中且I-Sce I核酸内切酶是一种所述非限制性实例。具有DNA识别和结合结构域的核酸内切酶(如I-Sce I)的使用限制是如果所述识别位点尚未存在于所需位置中，那么所述位点必须在使用所述核酸内切酶来增强在所述位点处的同源重组之前通过标准同源重组方法引入所需位置处。已经报道使得能够设计和合成新型核酸内切酶的方法，如通过修饰已知的核酸内切酶或产生一种或多种所述核酸内切酶的嵌合型式，使得识别新型靶标DNA序列，因此为产生所述工程改造的核酸内切酶结构域以裂解所关注的内源性靶标DNA序列做好准备(Chevalier等(2002)Molecular Cell 10:895-905；WO2007/0604 95；WO2009/095793；Fajardo-Sanchez等(2008)Nucleic Acids Res.36:2163-2173，均以全文引用的方式并入)。因而，可设想所述核酸内切酶结构域可类似地进行工程改造以使DNA结合活性变为非功能性的，但使DNA裂解功能为活性的且类似于以上FokI的使用将所述类似地工程改造的核酸内切酶裂解结构域用于效应子中以诱导DNA断裂。在所述应用中，靶标DNA序列识别将优选地由效应子的重复序列结构域提供，但DNA裂解将由工程改造的核酸内切酶结构域实现。

如上文所提及，效应子包括对所需的特异性靶标序列具特异性识别的重复序列结构域。在优选的实施方案中，效应子特异性结合于内源染色体DNA序列。所述特异性核酸序列或更优选地特异性内源染色体序列可为需要增强同源重组的核酸区域中的任何序列。例如，所述核酸区域可为含有其中需要引入突变(如点突变或缺失)的基因的区域，或需要引入赋予所需表型的基因的区域。

其它实施方案涉及产生其中已经引入所需添加的修饰植物的方法。所述方法可包括获得包括需要引入修饰的内源靶标DNA序列的植物细胞；在所述内源靶标DNA序列中用包括结合于内源靶标DNA序列的重复序列结构域和核酸内切酶结构域的效应子产生双链切割；在允许同源重组发生在外源核酸与所述内源靶标DNA序列之间的条件下，将包括与所述内源靶标DNA的至少一部分同源的序列的外源核酸引入所述植物细胞中；以及由其中已经发生同源重组的植物细胞产生植物。其它实施方案涉及遗传修饰的细胞和根据上文和本文所述的方法产生的植物。应注意，所述靶标DNA序列可为人工的或天然存在的。应了解，所述方法可使用本领域中已知的技术和方法用于任何生物体(所述非限制性生物体包括动物、人类、真菌、卵菌细菌和病毒)中且用于所述生物体中的所述目的。

在本发明的另一实施方案中，这些模块化设计的重复序列结构域是与一个或多个负责调节或控制基因(例如，植物基因、动物基因、真菌基因、卵菌基因、病毒基因或人类基因)表达的结构域组合。通过产生含有锌指结构域的DNA结合多肽来调节基因表达的方法为本领域中已知的(美国专利号7,285,416、7,521,241、7,361,635、7,273,923、7,262,054、7,220,719、7,070,934、7,013,219、6,979,539、6,933,113、6,824,978，各以引用的方式整体并入本文)。例如，雷尔氏菌样家族的这些效应子经过修饰以便结合于特异性靶标DNA序列。此类多肽可能例如是转录活化因子或转录抑制蛋白，其通过本发明方法修饰以特异性结合于所关注的启动子中的遗传控制区或针对所关注的基因的其它调节区以便活化、抑制或以其它方式调节所述基因的转录。

在本发明的又一实施方案中，所述靶标DNA序列经过修饰以便由天然存在的重复序列结构域或由修饰的重复序列结构域特异性识别。举一个例子，针对雷尔氏菌样家族成员的靶标DNA序列可插入启动子中以产生新型可控制启动子，所述启动子可由相应的效应子诱导。可使用反式活化因子和靶标基因构建二级诱导系统，其中所述反式活化因子是多肽，其中所述多肽包含至少一个包含本发明重复单元的重复序列结构域，所述重复单元结合于所述靶标基因且诱导表达。所述反式活化因子和所述靶标基因可引入一种细胞系中，但也可存在于不同细胞系中且以后进行基因渗入。在另一实施方案中，疾病抗性植物可通过将本发明的含有重复序列结构域的多肽的靶标DNA序列插入到表达后通过活化抗性介导基因而引起植物防御反应的基因前面来构建。

在另一实施方案中，定制的DNA结合多肽可通过重排重复单元类型，因此允许产生具有新型靶标DNA结合特异性的重复序列结构域来构建。个别重复单元在DNA层面上几乎同一，这排除了经典克隆策略。本发明提供一种快速且廉价的策略来组装本发明的定制的具有重复序列结构域的多肽。为了改进此类多肽的克隆多面性，设计一种两步骤组装方法。这种方法是用于组装具有新型重复类型的多肽以研究其靶标DNA识别和结合特异性。

概括地，任何DNA序列均可通过将碱基对引入任何DNA区域或基因的特异性区域或遗传控制元件中以特异性靶向具有包含重复单元的重复序列结构域的多肽而经过修饰以使得能够结合本发明的含有重复序列结构域的多肽，所述重复单元将结合所述修饰的DNA序列以便促进特异性识别和彼此结合。

在一些实施方案中，多肽可使用有机化学合成的一般技术人员所熟悉的已知氨基酸化学以合成方式生产。所述程序包括溶液和固相程序，例如使用Boc和Fmoc方法。本发明化合物可使用固相合成技术来合成。Fmoc-N保护的β-氨基酸可用于通过常规人工固相合成程序在标准条件下在多种固体支撑物(包括邻氯-三苯甲基氯树脂)上合成聚-α/β-肽。用邻氯-三苯甲基树脂酯化Fmoc-β-氨基酸可根据Barlos等,Tetrahedron Lett.,1989,30,3943的方法进行。所述树脂(150mg，1.05mmol Cl)在2ml CH₂Cl₂中溶胀10分钟。接着相继添加Fmoc保护的β-氨基酸于CH₂Cl₂中的溶液和iPr₂EtN且所述悬浮液在氩气下混合4小时。随后，过滤所述树脂且用CH₂Cl₂/MeOH/iPr₂EtN(17:2:1，3x3min)、CH₂Cl₂(3x3min)、DMF(2x3min)、CH₂Cl₂(3x3min)和MeOH(2x3min)洗涤。在3mg样品上通过在300nm下测量二苯并富烯加合物的吸光度来测定树脂的取代。在Ar鼓泡下使用含20％DMF中的哌啶(4ml，2x20min)去除Fmoc基团。接着过滤树脂且用DMF(6x3min)洗涤。对于每一个偶联步骤，所述β-氨基酸(3当量)、BOP(3当量)和HOBT(3当量)于DMF(2ml)中的溶液以及iPr₂EtN(9eq)相继添加至树脂中且所述悬浮液在Ar下混合1小时。用2,4,6-三硝基苯-磺酸(TNBS)进行偶联反应的监测(W.S.Hancock和J.E.Battersby,Anal.Biochem.(1976),71,260)。在阳性TNBS测试(指示不完全偶联)的情况下，使所述悬浮液再反应1小时。接着过滤树脂且用DMF(3x3min)洗涤，随后进行下面的Fmoc脱保护步骤。在去除最后的Fmoc保护基后，树脂用DMF(6x3min)、CH₂Cl₂(3x3min)、Et₂O(3x3min)洗涤且在真空下干燥3小时。最后，在Ar下使用含2％ CH₂Cl₂中的TFA(2ml，5x15min)从树脂裂解所述多肽。去除溶剂且在乙醚中研磨油性残留物以生成粗多肽。通过HPLC进一步纯化所述化合物。

本发明还提供一种通过以下步骤来进行基因表达的靶向调节的方法：构建对所关注的靶标DNA序列具特异性的模块化重复单元，添加所述重复单体来修饰多肽以使得所述多肽现在能够识别所述靶标DNA，在原核细胞或真核细胞中引入或表达所述修饰的多肽以使得所述修饰的多肽能够识别所述靶标DNA序列，以及由于所述识别而调节所述靶标基因在所述细胞中的表达。

本发明还提供一种通过构建至少包括本发明的重复序列结构域的多肽来定向修饰靶标DNA序列的方法，所述重复序列结构域识别所述靶标DNA序列且所述多肽还含有能够修饰所述靶标DNA(如经由位点特异性重组、供体靶标序列的限制或整合)的功能结构域，由此使得能够进行复杂基因组中的靶向DNA修饰。

本发明进一步提供包括包含重复单元的至少重复序列结构域的修饰多肽的产生，其中在各重复单元内的高变区确定靶标DNA序列中碱基对的选择性识别。在本发明的另一实施方案中，提供编码含有如本文所述的重复序列结构域的多肽的DNA。

在本发明的另一实施方案中，提供经过修饰以包括一个或多个位于靶标DNA序列中的碱基对的DNA，使得所述碱基对各自可由包括具有相应重复单元的重复序列结构域的多肽特异性识别，各重复单元包含确定所述DNA中相应碱基对的识别的高变区。

在本发明的又一实施方案中，提供那些多肽和DNA的用途。另外提供用本发明的分离核酸分子和由本发明的编码序列编码的蛋白质或多肽转化的植物、植物部分、种子、植物细胞和其它非人类宿主细胞。另外，本文所述的多肽和DNA可引入动物和人类细胞以及如真菌或植物的其它生物体的细胞中。总之，本发明集中在一种用于由多肽选择性识别靶标DNA序列中的碱基对的方法，其中所述多肽至少包含包含重复单元的重复序列结构域，其中各重复单元含有确定所述靶标DNA序列中碱基对的识别的高变区，其中连续重复单元对应于所述靶标DNA序列中的连续碱基对。在一些实施方案中，本发明涉及包含本文所公开的蛋白质或核酸序列中的任一者或组合的人类细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如人类细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如非人类动物细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如昆虫细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如植物细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如鱼细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如哺乳动物细胞。在一些实施方案中，本发明涉及包含通过引入一种或多种本文所公开的核酸或多肽而引起的突变、异源基因、变体或其它基因修饰的细胞，如真核细胞。

另一方面，提供一种调节细胞中靶标基因的表达的方法。所述细胞可优选地是植物细胞、人类细胞、动物细胞、真菌细胞或任何其它活细胞。所述细胞含有多肽，其中所述多肽包含包含重复单元的至少重复序列结构域，并且这些重复单元含有高变区且各重复单元负责所述靶标DNA序列中1个碱基对的识别。所述多肽是作为编码所述多肽的DNA引入，或所述多肽本身通过本领域中已知的方法引入细胞中。不考虑如何引入，所述多肽应包括至少一个特异性识别且优选地结合于碱基对的靶标DNA序列且调节靶标基因的表达的重复序列结构域。在优选实施方案中，所有重复单元均含有确定靶标DNA序列中碱基对的识别的高变区。

可连接于本发明的多肽或RTN的用于促进效应子摄取至细胞中的肽序列的实例包括但不限于：HIV的tat蛋白的11个氨基酸的肽；对应于p16蛋白的氨基酸84 103的20个残基的肽序列(参见Fahraeus等(1996)Current Biology 6:84)；控制触角的基因(Antennapedia)的60个氨基酸长的同源结构域的第三螺旋(Derossi等(1994)J.Biol.Chem.269:10444)；信号肽的h区，如卡波西成纤维细胞生长因子(K-FGF)h区；或来自HSV的VP22易位结构域(Elliot和O'Hare(1997)Cell 88:223 233)。提供增强的细胞摄取的其它合适化学部分也可以化学方式连接至效应子。如本文所述，效应子可设计成识别任何合适的靶标位点，用于调节所选的任何内源基因的表达。适用于调节的内源基因的实例包括VEGF、CCR5、ER.α.、Her2/Neu、Tat、Rev、HBV C、S、X和P、LDL-R、PEPCK、CYP7、纤维蛋白原、ApoB、Apo E、Apo(a)、肾素、NF-.κ.B、I-.κ.B、TNF-.α.、FAS配体、淀粉样前体蛋白、心房钠尿因子、ob-瘦素、ucp-1、IL-1、IL-2、IL-3、IL-4、IL-5、IL-6、IL-12、G-CSF、GM-CSF、Epo、PDGF、PAF、p53、Rb、胎儿血红蛋白、抗肌萎缩蛋白、发育营养正常促进剂(eutrophin)、GDNF、NGF、IGF-1、VEGF受体flt和flk、拓扑异构酶、端粒酶、bcl-2、细胞周期蛋白、血管抑素、IGF、ICAM-1、STATS、c-myc、c-myb、TH、PTI-1、聚半乳糖醛酸酶、EPSP合酶、FAD2-1、δ-12去饱和酶、δ-9去饱和酶、δ-15去饱和酶、乙酰基-CoA羧化酶、酰基-ACP-硫酯酶、ADP-葡萄糖焦磷酸化酶、淀粉合酶、纤维素合酶、蔗糖合酶、衰老相关基因、重金属螯合剂、脂肪酸氢过氧化物裂解酶、病毒基因、原生动物基因、真菌基因和细菌基因。一般来说，待调节的合适基因包括细胞因子、淋巴因子、生长因子、有丝分裂因子、趋化因子、自身活性因子(onto-activefactor)、受体、钾通道、G蛋白、信号转导分子、疾病抗性基因以及其它疾病相关基因。

毒素分子也具有转运多肽通过细胞膜的能力。通常，所述分子由至少两个部分构成(称为“二元毒素”)：易位或结合结构域或多肽和独立毒素结构域或多肽。典型地，所述易位结构域或多肽结合于细胞受体，并且接着毒素转运至细胞中。包括产气荚膜梭菌ι毒素、白喉毒素(DT)、假单胞菌外毒素A(PE)、百日咳毒素(PT)、炭疽杆菌毒素以及百日咳腺苷酸环化酶(CYA)在内的数种细菌毒素已经用于尝试递送呈内部或氨基端融合体形式的肽至细胞的细胞溶质(Arora等(1993)J.Biol.Chem.268:3334 3341；Perelle等(1993)Infect.Immun.61:5147 5156(1993)；Stenmark等(1991)J.Cell Biol.113:1025 1032(1991)；Donnelly等(1993)Proc.Natl.Acad.Sci.USA 90:3530 3534；Carbonetti等(1995)Abstr.Annu.Meet.Am.Soc.Microbiol.95:295；Sebo等(1995)Infect.Immun.63:38513857；Klimpel等(1992)Proc.Natl.Acad.Sci.USA 89:10277 10281；以及Novak等(1992)J.Biol.Chem.267:17186 17193)。

效应子也可经由脂质体和脂质体衍生物(如免疫脂质体)引入动物细胞中，优选地是哺乳动物细胞。术语“脂质体”是指包含一个或多个同心排序的脂质双层的囊泡，其封装水相。所述水相典型地含有待递送至细胞的化合物，在这种情况下是效应子。脂质体与质膜融合，由此释放效应子至细胞溶质中。或者，脂质体被细胞吞噬或吸收到转运囊泡中。一旦在核内体或吞噬体中，脂质体即降解或与转运囊泡的膜融合并且释放其内容物。

本发明尤其涉及植物和农业技术领域。一方面，本发明涉及一种调节植物细胞中靶标基因的表达的方法，所述方法包括提供具有根据本发明修饰的多肽的植物细胞，所述多肽能够特异性识别靶标基因内的靶标核苷酸序列或其互补链；以及使所述多肽识别且尤其结合于所述靶标核苷酸序列，由此所述植物细胞中所述靶标基因的表达得到调节。

所述多肽可经由本领域中已知的任何合适方法提供至植物细胞。例如，所述蛋白质可外源性添加至植物细胞中并且所述植物细胞维持在一定条件下，使得所述多肽引入所述植物细胞中，结合于靶标核苷酸序列且调节所述植物细胞中靶标基因的表达。或者，编码所述多肽的核苷酸序列(例如DNA或RNA)可在所述植物细胞中表达并且所述植物细胞维持在一定条件下，使得所述表达的多肽结合于靶标核苷酸序列且调节所述植物细胞中靶标基因的表达。

调节植物细胞中靶标基因的表达的优选方法包括以下步骤：a)提供具有用于根据本发明修饰的多肽的表达系统的植物细胞，所述多肽能够特异性识别且优选地结合于靶标基因的表达控制元件(优选地是启动子)内的靶标核苷酸序列或其互补链；和b)在其中所述多肽产生且结合于所述靶标核苷酸序列的条件下培养所述植物细胞，由此所述植物细胞中所述靶标基因的表达得到调节。

任何靶标核苷酸序列均可通过本发明方法调节。例如，所述靶标核苷酸序列可对于所述靶标基因为内源或外源的。在本发明的一个实施方案中，所述靶标核苷酸序列可存在于活细胞中或存在于体外。在特定实施方案中，所述靶标核苷酸序列对于植物为内源的。所述靶标核苷酸序列可位于相对于所述靶标基因的任何合适位置中。例如，所述靶标核苷酸序列可在所述靶标基因的编码区的上游或下游。或者，所述靶标核苷酸序列是在所述靶标基因的编码区内。优选地，所述靶标核苷酸序列是基因的启动子。

任何靶标基因均可通过本发明方法调节。例如，所述靶标基因可编码影响肽、蛋白质、寡核苷酸、核酸、维生素、寡糖、碳水化合物、脂质或小分子的生物合成、修饰、细胞穿梭、代谢和降解的产物。此外，效应子可用于工程改造植物的性状，如增加的疾病抗性、结构改变和存储多糖、调味剂、蛋白质以及脂肪酸、果实成熟、产率、色泽、营养特征、改进的存储能力等。

因此，本发明提供一种改变靶标细胞中所关注的基因的表达的方法，其包括：测定(必要时)所关注的基因的结构区和/或调节区的DNA序列的至少一部分；设计包括根据本发明修饰的重复单元的多肽以识别已知序列的DNA上的特异性碱基对，以及使所述修饰的多肽存在于所述靶标细胞中(优选地在其细胞核中)。(显而易见的是，如果所述DNA序列是已知的，那么其无需进行测定。)

本发明还提供包含以下的试剂盒：(1)任何上述载体，或(2)任何上述蛋白质或多肽。本发明还提供包含以下的试剂盒：(1)任何上述载体，或(2)任何上述蛋白质或多肽；以及(3)本文所公开的任何上述细胞(修饰或未修饰)。

在另一实施方案中，本发明涉及用于在干细胞中产生位点特异性突变的试剂盒，所述干细胞可用于产生遗传修饰的生物体。所述试剂盒典型地包括一种或多种位点特异性遗传工程改造技术，如RTN。所述试剂盒还可含有一个或多个用于位点特异性修饰的干细胞或胚细胞的集合。所述干细胞可包括但不限于精原干细胞(SSC)，以及使SSC生长所必需的培养基和条件。所述试剂盒可包括用于位点特异性基因组引入的外源序列，如但不限于报道基因或可选择标记。所述试剂盒可包括关于以下的说明书：(i)将RTN引入干细胞中，(ii)鉴定已经位点特异性修饰的干细胞，(iii)使位点特异性修饰的干细胞在干细胞产生遗传修饰的生物体所必需的培养基或条件中生长并且至所需的数目，(iv)使用生长的干细胞以产生遗传修饰的生物体，(v)鉴定哪些生物体或后代具有所关注的位点特异性突变。

在一些实施方案中，本发明提供包括不同或独特的遗传修饰SSC的混合群体的试剂盒，所述SSC可为定制的。所述遗传修饰SSC的混合群体可以用于直接注射至不育雄性接受者中的合适量提供以在单一步骤中产生多种遗传修饰的生物体。所述独立或独特的遗传修饰SSC的混合群体可由至少两种遗传修饰SSC、至少两种遗传修饰SSC、至少三种遗传修饰SSC、至少四种遗传修饰SSC、至少五种遗传修饰SSC、至少六种遗传修饰SSC、至少七种遗传修饰SSC、至少八种遗传修饰SSC、至少九种遗传修饰SSC、至少十种遗传修饰SSC、至少二十种遗传修饰SSC、至少三十种遗传修饰SSC、至少四十种遗传修饰SSC、至少五十种遗传修饰SSC、至少一百种遗传修饰SSC、至少一千种遗传修饰SSC、至少一万种遗传修饰SSC、至少三万种遗传修饰SSC组成或与在生物体基因组中的每一种基因内均具有遗传修饰的遗传修饰SSC一致。

在一些实施方案中，本发明提供包括不同或独特的遗传修饰干细胞或胚细胞的混合群体的试剂盒，所述细胞可为通过任何本文所公开的方法定制的。所述遗传修饰干细胞或胚细胞的混合群体可以用于直接注射至不育雄性接受者中的合适量提供以在单一步骤中产生多种遗传修饰的生物体。所述独立或独特的遗传修饰干细胞或胚细胞的混合群体可由至少两种遗传修饰干细胞或胚细胞、至少两种遗传修饰干细胞或胚细胞、至少三种遗传修饰干细胞或胚细胞、至少四种遗传修饰干细胞或胚细胞、至少五种遗传修饰干细胞或胚细胞、至少六种遗传修饰干细胞或胚细胞、至少七种遗传修饰干细胞或胚细胞、至少八种遗传修饰干细胞或胚细胞、至少九种遗传修饰干细胞或胚细胞、至少十种遗传修饰干细胞或胚细胞、至少二十种遗传修饰干细胞或胚细胞、至少三十种遗传修饰干细胞或胚细胞、至少四十种遗传修饰干细胞或胚细胞、至少五十种遗传修饰干细胞或胚细胞、至少一百种遗传修饰干细胞或胚细胞、至少一千种遗传修饰干细胞或胚细胞、至少一万种遗传修饰干细胞或胚细胞、至少三万种遗传修饰干细胞或胚细胞组成或与在生物体基因组中的每一种基因内均具有遗传修饰的遗传修饰干细胞或胚细胞一致。

在一些实施方案中，本发明提供包括一个或多个用于位点特异性修饰的干细胞或胚细胞或SSC的集合的试剂盒。所述SSC的集合可源自具有不同疾病状态的充分表征的生物体。所述SSC可含有多种突变，所述突变可由遗传修饰或天然地或通过任何方法获得。所述试剂盒可包括使疾病状态SSC生长的培养基和条件，以及用于产生遗传修饰生物体的不育雄性接受者。

在一些实施方案中，本发明提供一种试剂盒，所述试剂盒包括用于从生物体或组织样品衍生SSC系的必需工具，以及遗传修饰所衍生的SSC并且从所衍生的SSC产生遗传修饰生物体的必需工具。所述试剂盒可包括用于收集的细胞收集工具(如精母细胞)，和SSC选择工具(如层粘连蛋白选择)，和SSC增殖和冷冻保存工具，以及SSC验证工具，所述验证工具可包括细胞表面标记染色。所述试剂盒还可包括使所述SSC生长的培养基和条件，用于所述SSC的遗传修饰的工具，以及用于从所述SSC产生遗传修饰生物体的不育雄性接受者。

在一些实施方案中，本发明提供一种试剂盒，其包括已经从诱导性多能干(iPS)细胞产生的SSC。所述iPS细胞可源自充分表征的不同遗传背景，包括疾病状态以及地区性、菌株、种族遗传背景。所述试剂盒还可包括使所述iPS生长的培养基和条件，用于所述iPS的遗传修饰的工具，以及用于从所述iPS产生遗传修饰生物体的不育雄性接受者。

用于转基因动物或修饰细胞的转化和产生的其它方法出现于PCT申请序列号PCT/US2012/038465中，所述申请的内容以引用的方式整体并入。

本发明的一方面涉及一种用于递送融合蛋白至靶标细胞中的方法，其中所述融合蛋白包含效应蛋白。产生本发明的融合蛋白涉及从培养基分离一种或多种多肽组合，且随后使一种多肽组分的游离氨基端接合至第二多肽组分的羧基端。在其它实施方案中，融合蛋白可通过简单多肽合成产生和或通过将核酸序列克隆至表达载体中来表达。在从表达本发明的表达构建体的基于细胞的重组系统进行蛋白质纯化的情况下，本领域技术人员可鉴定相容性分泌信号，如果所述表达构建体是转化至细菌宿主细胞中用于蛋白质产生，那么可容易地测定将要使用的任何特定III型分泌系统的相容性分泌信号。通过鉴定通常由III型分泌系统分泌的蛋白质，有可能制备缺失通常由所述分泌系统分泌的全长蛋白质的各种片段的缺失突变体。使用针对所表达的各种缺失片段的表位(即，N端表位、C端表位等)所产生的标记抗体，有可能鉴定所分泌的缺失突变体和未分泌的那些缺失突变体。因此，全长蛋白质的分泌所必需的蛋白质结构域可容易地进行鉴定。一旦所述蛋白质结构域已经进行鉴定且测序，它们就可用作本发明的融合蛋白中的分泌信号。

典型地，所述分泌信号是通常由所述特定III型分泌系统分泌的蛋白质的N端结构域，例如来自梨火疫病欧文氏菌(Erwinia amylovora)的DspE蛋白的N端结构域的201个氨基酸的序列(参见例如1999年7月9日提交的美国专利申请序列号09/350,852，其以引用的方式并入本文)。梨火疫病欧文氏菌DspE的所述201个氨基酸的分泌信号可与梨火疫病欧文氏菌的分泌系统相容。可与各种III型分泌系统相容的其它分泌信号已经描述于本领域中且其它信号继续进行鉴定。

纯化的效应蛋白可通过数种方法获得。所述蛋白质或多肽优选地通过常规技术以纯化形式(至少约80％、90％纯)产生。因为重组宿主细胞表达III型分泌系统，所以所述蛋白质或多肽分泌至重组宿主细胞的生长培养基中。在所述情况下，为了分离所述蛋白质，使重组宿主细胞增殖，离心生长培养基以分离细胞组分与含有所分泌的蛋白质或多肽的上清液，并且移出所述上清液。接着使所述上清液经受连续硫酸铵沉淀。使含有所述多肽或蛋白质的部分在适当大小的葡聚糖或聚丙烯酰胺柱中经受凝胶过滤以分离所述蛋白质。必要时，所述蛋白质部分可进一步通过HPLC纯化。

携带蛋白质转导结构域的效应蛋白也可独立于所述III型分泌系统通过使用用于由重组大肠杆菌细胞制备大量的纯化蛋白质的现有技术来制备。所述技术使用强诱导性启动子和肽标签(如His6)，用于从大肠杆菌细胞溶解产物进行重组蛋白的单步亲和纯化。

在一个实施方案中，所述靶标细胞为真核细胞。所述真核细胞包括在组织培养物中的那些细胞，如HeLa细胞，或在整个动物中的那些细胞，如经由腹膜内注射递送至小鼠的那些细胞(Schwarze等,“Protein Transduction:Unrestricted Delivery into allCells？”Trends Cell Biol.10:290-295(2000)，其以引用的方式并入本文)。

在本发明的一方面，本发明的DNA结合或识别元件可以模块化方式融合在一起以产生结合于所选DNA靶标序列的一串氨基酸。在本发明的另一方面，所述一种或多种DNA结合识别元件可结合于一种或多种效应蛋白。所述效应蛋白可由细菌植物病原体、动物病原体或根际细菌，包括但不限于致肠病的大肠杆菌、鼠伤寒沙门氏菌(Salmonellatyphimurium)、志贺氏菌属(Shigella spp.)、耶尔森氏菌属(Yersinia spp.)、丁香假单胞菌(Pseudomonas syringae)、野油菜黄单孢菌(Xanthomonas campestris)、青枯雷尔氏菌(Ralstonia solanacearum)、梨火疫病欧文氏菌、荧光假单胞菌(Pseudomonasfluorescens)以及绿脓假单胞菌(Pseudomonas aeruginosa)产生。合适的效应蛋白包括过敏反应激发子、无毒蛋白、过敏反应和病原性依赖性外膜蛋白、毒性蛋白以及病原性蛋白。效应蛋白的实例包括HopPsyA AAF71481(丁香假单胞菌)、HopPtoA AF232006(丁香假单胞菌)、Tir BAA96815(大肠杆菌)、ExoS AAG07228(绿脓假单胞菌)、ExoT AAG03434(绿脓假单胞菌)、ExoY AAG05579(绿脓假单胞菌)、SopE AAC02071(鼠伤寒沙门氏菌)、SopB AAF21057(SigA)(鼠伤寒沙门氏菌)、SipA CAA63302(鼠伤寒沙门氏菌)、SptP AAC44349(鼠伤寒沙门氏菌)、IpaB A34965(志贺氏菌属)、IpaA AAA26525(志贺氏菌属)、IpaD SI 5579(志贺氏菌属)、YopE SI 4242(耶尔森氏菌属)、YopH AAC69768(耶尔森氏菌属)、YpkA AAC69765(耶尔森氏菌属)、YopJ AAC69766(YopP)(耶尔森氏菌属)、AvrPto AAA25728(丁香假单胞菌)、AvrBs2 AAD 1 1434(野油菜黄单孢菌)以及AvrBs3 CAA34257(野油菜黄单孢菌)(参见例如Galan等,“Type III Secretion Machines:Bacterial Devices for Protein Deliveryinto Host Cells,”Science 284:1322-1328(1999)，其以引用的方式并入本文)。在一个实施方案中，所述效应蛋白对于所述靶标细胞是异源的(即，通常不存在)。

根据如本文中所体现且广泛描述的本发明的目的，本发明涉及使用干细胞和配子的RTN进行位点特异性遗传工程改造的方法，所述细胞包括但不限于多能细胞、全能细胞、成体干细胞、精原干细胞(SSC)、胚胎干(ES)细胞、诱导性多能干(iPS)细胞、胚胎、生殖细胞、原生殖细胞(PGC)、植物管细胞、花粉细胞以及孢子。用于干细胞的位点特异性工程改造的方法包括但不限于使用位点特异性DNA结合和裂解蛋白，如RTN。

干细胞的位点特异性工程改造引起基因或基因产物的改变的功能和遗传修饰的生物体，并且细胞或组织培养模型由这些工程改造的干细胞产生。修饰的干细胞和生物体包括敲除和敲入细胞和生物体。

另一方面，本发明涉及使用RTN通过位点特异性工程改造产生的遗传修饰的生物体，包括但不限于哺乳动物，包括大鼠、小鼠、猪、兔、豚鼠、狗、非人类灵长类动物、小种猪，以及植物，包括但不限于玉米、大豆、稻米、马铃薯、小麦、烟草、西红柿和拟南芥，以及所述生物体的后代和祖先。

在另一实施方案中，本发明提供用于在干细胞中产生位点特异性突变的试剂盒，所述干细胞可用于产生遗传修饰的生物体。所述试剂盒典型地包括一种或多种位点特异性遗传工程改造技术，如RTN。所述试剂盒还可包含一个或多个用于位点特异性修饰的干细胞的集合。在本发明的一些实施方案中，所述干细胞可包括但不限于精原干细胞(SSC)，以及使SSC生长所必需的培养基和条件。在一些实施方案中，所述试剂盒包含用于位点特异性基因组引入的外源序列，如但不限于报道基因或可选择标记。在一些实施方案中，所述试剂盒包含关于以下的说明书：(i)将RTN(或编码所述RTN的核酸序列)引入干细胞中，(ii)鉴定已经由XTN位点特异性修饰的干细胞，(iii)使位点特异性修饰的干细胞在干细胞产生遗传修饰的生物体或在动物中实现生殖系传递所必需的培养基或条件中生长并且至所需的数目；(iv)使用或移植生长的干细胞以产生遗传修饰的生物体；和/或(v)鉴定哪些生物体或后代包含所关注的位点特异性突变。在本发明的一些实施方案中，组合物包含一种或多种干细胞或一种或多种胚胎，所述一种或多种干细胞或一种或多种胚胎包含一种或多种以下突变：(i)缺失突变；(ii)敲除突变；和/或(iii)添加异源核酸序列；所述(i)、(ii)和/或(iii)的一种或多种突变是由RTN引起的位点特异性突变。

在本发明的一些实施方案中，所述异源核酸序列是选自可选择标记或直向同源基因。在本发明的一些实施方案中，所述一种或多种干细胞是选自精原干细胞(SSC)、胚胎干细胞或诱导性多能干细胞。

在本发明的一些实施方案中，所述一种或多种干细胞源自动物或植物的生殖系谱系。在本发明的一些实施方案中，所述一种或多种干细胞或所述一种或多种胚胎进一步包含转座子或其变体的至少一种反向串联重复序列。

在本发明的一些实施方案中，所述一种或多种干细胞是成体干细胞。在本发明的一些实施方案中，生物体包含一种或多种干细胞，所述一种或多种干细胞包含一种或多种以下突变：(i)缺失突变；(ii)敲除突变；和/或(iii)添加异源核酸序列；所述(i)、(ii)和/或(iii)的一种或多种突变是由RTN引起的位点特异性突变。在本发明的一些实施方案中，所述一种或多种干细胞包含SSC。

在本发明中，所述效应蛋白是融合至本文所公开的至少一种DNA识别元件或其衍生物或功能类似物以产生融合蛋白。

本发明的一方面涉及一种用于递送效应蛋白至靶标细胞中的方法。这种方法涉及向靶标细胞中引入与多肽融合的效应蛋白，所述多肽包括本发明的至少一种识别所述靶标DNA或其衍生物或功能类似物的重复序列结构域或DNA识别元件。本发明的另一方面涉及一种DNA构建体，其包括编码效应蛋白的第一DNA分子和可操作性地与所述第一DNA分子缔合且编码多肽的第二DNA分子，所述多肽包括本发明的至少一种识别所述靶标DNA或其衍生物或功能类似物的重复序列结构域。

本发明方法允许有效递送效应蛋白至细胞中，尤其哺乳动物细胞中。这种方法还允许递送用于医药、杀虫剂、杀真菌剂、除草剂和其它应用中的效应蛋白。具体说来，本发明将允许递送呈蛋白质疗法形式的效应蛋白至患者中。使用生物活性全长蛋白质的疗法将允许使用这些蛋白质对其靶标的固有进化特异性，由此潜在地避免使用小分子疗法时有时可见的非特异性效应。此外，当与组织特异性病毒载体联合使用时，本发明的使用允许将效应蛋白靶向递送至特定细胞，具有使所述效应蛋白在初始靶向后二次再分布的附加的益处。这种方法的先例可发现于其中VP22蛋白转导结构域融合至p53肿瘤抑制蛋白的实验中(Phelan等,“Intercellular Delivery of Functional p53 by the HerpesvirusProtein VP22,”Nat.Biotechnol.16:440-443(1998)，其以引用的方式并入本文)。

在一些实施方案中，本发明涉及一种包含一种或多种核酸序列的组合物，所述序列具有插入的核酸序列。在一些实施方案中，所述插入的核酸包含至少一种转录活性基因，所述基因是能够在细胞内条件下表达的编码序列，例如与在靶标细胞的细胞内环境中表达所需的任何必要表达调控元件组合的编码序列，所述靶标细胞的基因组通过任何本文所述的多肽的结合和后续作用来修饰。所述核酸的转录活性基因可包含核苷酸结构域，即包括可操作性地与必要的转录介导或调控元件连接的核苷酸的编码序列的表达模块。可存在于所述表达模块中的必要的转录介导元件包括但不限于启动子、增强子、终止和聚腺苷酸化信号元件、剪接信号元件等。在本发明的一些实施方案中，所述一种或多种干细胞进一步包含转座子或其变体的至少一种反向末端重复序列。

在一些实施方案中，所述表达模块包括提供宽宿主范围中所述基因的表达的转录调控元件。已知多种所述组合，其中特异性转录调控元件包括但不限于：SV40元件、源自劳氏肉瘤病毒的LTR的转录调控元件、源自人类细胞肥大病毒(CMV)的LTR的转录调控元件、hsp70启动子等。

在一些实施方案中，存在于所述插入的核酸中的至少一种转录活性基因或表达模块充当可选择标记。多种不同基因已经用作可选择标记，并且为方便起见主要选择在本文所述的载体中用作可选择标记的特定基因。已知的可选择标记基因包括但不限于：胸腺嘧啶激酶基因、二氢叶酸还原酶基因、黄嘌呤-鸟嘌呤磷酸核糖基转移酶基因、CAD、腺苷脱氨酶基因、天冬酰胺合成酶基因、多种抗生素抗性基因(四环素、氨苄西林、卡那霉素、新霉素等)、氨基糖苷磷酸转移酶基因、潮霉素B磷酸转移酶基因，以及其表达直接或间接地提供可检测产物的存在的基因(如β-半乳糖苷酶、GFP等)。

在一些实施方案中，本发明的核酸包含至少一种转录活性基因，所述核酸的部分还包含至少一种限制核酸内切酶识别的位点，例如充当用于插入外源核酸的位点的限制位点。多种限制位点为本领域中已知的且包括但不限于：HindIII、PstI、SalI、AccI、HincII、XbaI、BamHI、SmaI、XmaI、KpnI、SacI、EcoRI等。在一些实施方案中，所述载体包括聚合连接子，即一系列或一批紧密布置的由多种不同限制酶(如本文所公开的那些酶)识别的位点。在其它实施方案中，所述插入的外源核酸可能包含重组酶识别位点，如LoxP、FRT或AttB/AttP位点，其分别由Cre、Flp和PhiC31重组酶识别。

另一方面，本发明涉及一种用于产生编码对结合所选核苷酸序列具特异性的多肽的核酸的方法，所述方法包括：(1)用PspXl或核酸酶使起始质粒线性化，所述起始质粒包含编码第一单体的核苷酸序列，所述第一单体包含对所选核苷酸序列的第一核苷酸具特异性的RVD，其中所述第一单体在其3'末端具有独特的PspXl或核酸酶位点；(2)在起始质粒PspXl位点中接合编码一种或多种包含对所选核苷酸序列的以下核苷酸具特异性的RVD的单体的DNA模块，其中所述DNA模块具有Xhol粘性末端；以及(3)重复步骤(1)和(2)，直到所述核酸编码能够结合于所选核苷酸序列的多肽。所述方法可进一步包括在所述接合后测定所述DNA模块在所述PspXl位点或核酸酶位点中的取向。所述方法可包括重复步骤(1)和(2)达1至30次。

当DNA结合结构域的来源是编码本发明多肽的核酸时，所述编码所述多肽或蛋白质的核酸一般是如上文所述的表达模块的一部分，其中额外元件提供所需的转座酶的表达。

在一些实施方案中，可使用由本文所公开的组合物致有丝分裂的细胞产生多细胞生物体。在一些实施方案中，所述多细胞或单细胞生物体是植物或动物。在一些实施方案中，所述多细胞或单细胞生物体是脊椎动物。在一些实施方案中，所述脊椎动物是哺乳动物，如啮齿动物(小鼠或大鼠)、家畜(猪、马、牛等)、宠物(狗或猫)以及灵长类动物(如人类)。

本文所述的方法可用于其中需要将外源核酸引入且稳定地整合至靶标细胞的基因组中的多种应用中。将外源核酸整合至靶标细胞中的体内方法是已知的。所述核酸结合系统施用至所述多细胞或单细胞生物体的途径视数种参数而定，所述参数包括：携带系统组分的载体的性质、递送媒介物的性质、所述多细胞或单细胞生物体的性质等，其中所述施用模式的共同特征在于，其提供核酸结合系统组分至靶标细胞的体内递送。在某些实施方案中，使用线性或环状DNA(如质粒)作为用于递送所述核酸结合系统至所述靶标细胞的载体。在所述实施方案中，所述质粒可在水性递送媒介物(如生理盐水溶液)中施用。或者，可使用调节所述载体在所述多细胞或单细胞生物体中的分布的试剂。例如，在包含本发明系统组分的载体是质粒载体的情况下，可使用基于脂质的(如脂质体)媒介物，其中所述基于脂质的媒介物可靶向用于所述载体的细胞或组织特异性递送的特异性细胞类型。或者，基于聚赖氨酸的肽可用作载体，其可用或可不用靶向部分等修饰(Brooks等,J.Neurosci.Methods,1998,80,137-47；和Muramatsu等,Int.J.Mol.Med.,1998,1,55-62)。所述系统组分也可并入至病毒载体上，如腺病毒来源的载体、辛德毕斯病毒来源的载体、反转录病毒来源的载体、杂合载体等。上述载体和递送媒介物仅是代表性的。可使用任何载体/递送媒介物组合，只要其提供所述核酸结合系统至所述多细胞或单细胞生物体和靶标细胞的体内施用。

包含所述核酸结合元件的载体核酸的量和在许多实施方案中引入细胞中的编码所述多肽的载体核酸的量足以提供核酸结合核酸至靶标细胞基因组的所需切除和插入。因而，所引入的载体核酸的量应提供足量的DNA结合活性和需要插入靶标细胞中的核酸的充足拷贝数目。引入靶标细胞中的载体核酸的量视所用的特定引入方案的效率而改变，所述方案如所用的特定体内施用方案。

施用至所述多细胞或单细胞生物体的系统的各组分的特定剂量视所述核酸结合核酸的性质而改变，例如所述表达模块和基因的性质、组分元件存在于其上的载体的性质、所述递送媒介物的性质等。剂量可容易地由本领域技术人员凭经验确定。例如，在小鼠中，其中所述核酸结合系统组分是存在于在生理盐水溶液媒介物中静脉内施用至哺乳动物的独立质粒上，所施用的核酸结合质粒的量在许多实施方案中典型地介于约0.5至40μg范围内且典型地为约25μg，而所施用的核酸结合系统编码质粒的量典型地介于约0.5至25μg范围内且通常为约1μg。

本发明方法可用于结合和影响各种大小的核酸。一般来说，使用本发明方法插入至靶标细胞基因组中的DNA的大小是介于约0.5kb至100.0kb，通常约1.0kb至约60.0kb，或约1.0kb至约10.0kb范围内。

本发明可用于例如大鼠、小鼠或其它脊椎动物中的生殖系诱变；大鼠、小鼠或其它脊椎动物中的体细胞诱变；大鼠、小鼠或其它脊椎动物中的转基因；和人类基因疗法中的用途。在其中每一者中，所述组合物可以DNA、RNA或蛋白质形式递送。

如果可选择标记作为所引入的DNA序列的一部分包括在内，那么转化的细胞和/或转基因生物体(如含有插入至宿主细胞的DNA中的DNA的那些细胞和/或生物体)可选自未转化的细胞和/或转化的生物体。可选择标记包括例如提供抗生素抗性的基因；修饰宿主的生理系统的基因，如绿色荧光蛋白，以产生改变的可见表型。含有这些基因的细胞和/或生物体能够在杀死未转化的细胞/生物体的抗生素、杀虫剂或除草剂存在下存活，或产生改变的可见表型。使用本领域技术人员已知的标准技术(如DNA印迹和聚合酶链反应的技术)，可从转基因细胞和/或生物体分离DNA以确认已经插入所引入的DNA。

为了可更有效地理解本文所公开的发明，下文提供实施例。应了解，这些实施例仅仅是用于说明性目的且不应解释为以任何方式限制本发明。在这些实施例中，除非另外注明，否则根据Maniatis等,Molecular Cloning-A Laboratory Manual,第2版,Cold SpringHarbor Press(1989)中所述的方法，使用市售的试剂来进行分子克隆反应和其它标准重组DNA技术。

在本发明的其它方面，本发明涉及包含任一种或超过一种本文所公开的核酸序列的病毒载体。所述病毒载体是任选地选自包含反转录病毒载体、腺病毒载体、腺相关病毒载体、spumaviral、慢病毒载体以及质粒或本申请中所述的其它载体(如转座子)的群组。所述反转录病毒载体任选地包含致癌反转录病毒载体。所述反转录病毒载体任选地包含慢病毒载体。

本申请包括用于向受试者提供RTN编码核酸分子的组合物和方法，使得所述分子在细胞中的表达向那些细胞提供由所述编码核酸分子编码的多肽的生物活性。如本文中所用的编码核酸意指包含指定相应雷尔氏菌氨基酸序列的RTN氨基酸序列或其部分的核苷酸的核酸。编码序列可包含起始密码子和/或终止序列。

在一些实施方案中，本发明的组合物是药物组合物。用于治疗具有疾病、病症或异常身体状态的患者的本申请的药物组合物可能包括可接受的载体、助剂或赋形剂。

所述药物组合物任选地通过离体和体内方法，如电穿孔、DNA显微注射、脂质体DNA递送以及具有RNA或DNA基因组的病毒载体(包括反转录病毒载体、慢病毒载体、腺病毒载体以及腺相关病毒(AAV)载体、塞姆利基森林病毒)施用。这些载体的衍生物或杂交体也是适用的。

待施用的剂量视患者需要、所需效应以及所选施用途径而定。表达盒任选地使用离体或体内递送媒介物，如脂质体或DNA或RNA病毒载体引入至细胞或其前体中。也任选地使用物理技术(如显微注射)或化学方法(如共沉淀)将它们引入至这些细胞中。所述药物组合物典型地通过用于制备施用至患者的药学上可接受的组合物的已知方法来制备，且使得有效量的核酸分子与药学上可接受的媒介物合并成混合物。合适的媒介物描述于例如Remington's Pharmaceutical Sciences(Remington's Pharmaceutical Sciences,MackPublishing Company,Easton,Pa.,USA)中。任何可选择的标记基因均可用于本发明中。

在此基础上，所述药物组合物可能包括与一种或多种药学上可接受的媒介物或稀释剂联合的活性化合物或物质，如核酸分子，并且以合适pH和与生理性液体的等渗性包含于缓冲溶液中。组合表达盒与媒介物或将它们与稀释剂组合的方法为本领域技术人员众所周知的。所述组合物可能包括用于转运活性化合物至细胞内的指定位点的靶向剂。所述表达盒还可包含用于选择转化的细胞的可选择标记基因。可选择标记基因是用于选择转化的细胞或组织。标记基因包括编码抗生素抗性的基因，如编码新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT)的那些基因，以及对除草剂化合物(如草铵膦、溴苯腈、咪唑啉酮以及2,4-二氯苯氧基乙酸酯(2,4-D))赋予抗性的基因。额外的可选择标记包括表型标记，如.β.-半乳糖苷酶和荧光蛋白，如绿色荧光蛋白(GFP)(Su等(2004)Biotechnol Bioeng 85:610-9和Fetter等(2004)Plant Cell 16:215-28)、青色荧光蛋白(CYP)(Bolte等(2004)J.Cell Science 117:943-54和Kato等(2002)Plant Physiol 129:913-42)以及黄色荧光蛋白(来自Evrogen的PhiYFP.TM.，参见Bolte等(2004)J.Cell Science 117:943-54)。关于额外的可选择标记，一般参见Yarranton(1992)Curr.Opin.Biotech.3:506-511；Christopherson等(1992)Proc.Natl.Acad.Sci.USA 89:6314-6318；Yao等(1992)Cell 71:63-72；Reznikoff(1992)Mol.Microbiol.6:2419-2422；Barkley等(1980)The Operon,第177-220页；Hu等(1987)Cell 48:555-566；Brown等(1987)Cell 49:603-612；Figge等(1988)Cell 52:713-722；Deuschle等(1989)Proc.Natl.Acad.Aci.USA 86:5400-5404；Fuerst等(1989)Proc.Natl.Acad.Sci.USA 86:2549-2553；Deuschle等(1990)Science248:480-483；Gossen(1993)Ph.D.Thesis,University of Heidelberg；Reines等(1993)Proc.Natl.Acad.Sci.USA 90:1917-1921；Labow等(1990)Mol.Cell.Biol.10:3343-3356；Zambretti等(1992)Proc.Natl Acad.Sci.USA 89:3952-3956；Baim等(1991)Proc.Natl.Acad.Sci.USA 88:5072-5076；Wyborski等(1991)Nucleic Acids Res.19:4647-4653；Hillenand-Wissman(1989)Topics Mol.Struc.Biol.10:143-162；Degenkolb等(1991)Antimicrob.Agents Chemother.35:1591-1595；Kleinschnidt等(1988)Biochemistry 27:1094-1104；Bonin(1993)Ph.D.Thesis,University of Heidelberg；Gossen等(1992)Proc.Natl.Acad.Sci.USA 89:5547-5551；Oliva等(1992)Antimicrob.Agents Chemother.36:913-919；Hlavka等(1985)Handbook of ExperimentalPharmacology,第78卷(Springer-Verlag,Berlin)；Gill等(1988)Nature 334:721-724。这些公开以引用的方式并入本文。

众多植物转化载体和用于转化植物的方法为可用的。参见例如An,G.等(1986)Plant Pysiol.,81:301-305；Fry,J.等(1987)Plant Cell Rep.6:321-325；Block,M.(1988)Theor.Appl Genet.76:767-774；Hinchee等(1990)Stadler.Genet.Symp.203212.203-212；Cousins等(1991)Aust.J.Plant Physiol.18:481-494；Chee,P.P.和Slightom,J.L.(1992)Gene.118:255-260；Christou等(1992)Trends.Biotechnol.10:239-246；D'Halluin等(1992)Bio/Technol.10:309-314；Dhir等(1992)Plant Physiol.99:81-88；Casas等(1993)Proc.Nat.Acad Sci.USA 90:11212-11216；Christou,P.(1993)In Vitro Cell.Dev.Biol.-Plant；29P:119-124；Davies等(1993)Plant Cell Rep.12:180-183；Dong,J.A.和Mchughen,A.(1993)Plant Sci.91:139-148；Franklin,C.I.和Trieu,T.N.(1993)Plant.Physiol.102:167；Golovkin等(1993)Plant Sci.90:41-52；Guo Chin Sci.Bull.38:2072-2078；Asano等(1994)Plant CellRep.13；Ayeres N.M.和Park,W.D.(1994)Crit.Rev.Plant.Sci.13:219-239；Barcelo等(1994)Plant.J.5:583-592；Becker等(1994)Plant.J.5:299-307；Borkowska等(1994)Acta.Physiol Plant.16:225-230；Christou,P.(1994)Agro.Food.Ind.Hi Tech.5:17-27；Eapen等(1994)Plant Cell Rep.13:582-586；Hartman等(1994)Bio-Technology 12:919923；Ritala等(1994)Plant.Mol.Biol.24:317-325；以及Wan,Y.C.和Lemaux,P.G.(1994)Plant Physiol.104:3748。

本发明方法涉及将包含DNA序列的聚核苷酸构建体引入宿主细胞中。“引入”意图以使得所述构建体可以接近所述宿主细胞的内部的方式向植物呈递聚核苷酸构建体。本发明方法并不视用于将聚核苷酸构建体引入至宿主细胞中的特定方法而定，只要所述聚核苷酸构建体可以接近所述宿主的一种细胞的内部。用于将聚核苷酸构建体引入至细菌、植物、真菌以及动物中的方法为本领域中已知的，包括但不限于稳定转化方法、短暂转化方法以及病毒介导的方法。

“稳定转化”意指引入至植物中的所述聚核苷酸构建体整合至所述宿主的基因组中并且能够由其后代继承。“短暂转化”意指引入至所述宿主中的聚核苷酸构建体并未整合至所述宿主的基因组中。

本申请包括用于向个体的细胞提供编码核酸分子的方法和组合物，使得所述编码核酸分子在所述细胞中的表达提供由所述编码核酸分子编码的多肽的生物活性或表型。所述方法还涉及一种通过施用本申请的核酸分子来向具有疾病、病症或异常身体状态的个体提供生物活性多肽的方法。所述方法可离体或体内进行。基因治疗方法和组合物例如在美国专利号5,869,040、5,639,642、5,928,214、5,911,983、5,830,880、5,910,488、5,854,019、5,672,344、5,645,829、5,741,486、5,656,465、5,547,932、5,529,774、5,436,146、5,399,346以及5,670,488、5,240,846中得到证实。多肽的量将随个体的需要而改变。载体的最佳剂量可容易地使用经验技术，例如通过递增剂量来测定(关于递增剂量的实例参见美国专利号5,910,488)。含有本申请的核酸分子的载体典型地在基因疗法中使用下文所述的技术施用至哺乳动物，优选地人类。由所述核酸分子产生的多肽也任选地施用至哺乳动物，优选地人类。本申请涉及一种通过向有需要的哺乳动物(优选地人类)施用本申请的载体或含有本申请的载体的细胞来对所述哺乳动物进行医学治疗的方法。典型地向发展不利事件(如移植物抗宿主疾病)的接受者(优选地是人)施用药物，如AZT，它是用于本申请的修饰tmpk分子的底物。容易治疗的疾病，如血液疾病或神经疾病(神经退化性)描述于本申请中并且为本领域中已知的(例如通过施用如加拿大专利申请号2,246,005中所述的球蛋白基因来治疗的疾病，如地中海贫血或镰状细胞贫血)。可通过干细胞移植治疗的血液疾病包括白血病、骨髓发育异常症候群、干细胞病症、骨髓增生性病症、淋巴组织增生病症、吞噬细胞病症、遗传代谢病症、组织细胞病症、遗传红血球异常、遗传免疫系统病症、遗传血小板异常、浆细胞病症、恶性肿瘤(还参见Medical Professional's Guide to Unrelated DonorStem Cell Transplants,第4版)。将要通过神经干细胞移植治疗的干细胞神经疾病包括导致神经细胞损坏或损失的疾病，例如瘫痪、帕金森氏病、阿尔茨海默氏病、ALS、多发性硬化)。本申请的载体适用作干细胞标记并且适用于表达使干细胞分化的基因(例如生长因子)。

可使用各种基因治疗方法。本申请包括一种用于向人类提供治疗性多肽的方法，其包括：将人类细胞引入至人类中，所述人类细胞已经体外或离体治疗以在其中插入本申请的载体，所述人类细胞在所述人类中体内表达治疗有效量的所述治疗性多肽。

所述方法还涉及一种通过产生适用于基因疗法的病毒来产生重组病毒的储备液的方法，所述病毒包含修饰的DNA编码球蛋白。这种方法优选地涉及转染允许用于病毒复制的细胞(所述病毒含有修饰的球蛋白)并且收集所产生的病毒。

可使用共转染(在独立分子上的DNA和标记)(参见例如美国专利号5,928,914和美国专利号5,817,492)。另外，检测盒或标记(如绿色荧光蛋白标记或衍生物、CD19或CD25)可在所述载体本身(优选地病毒载体)内使用。

本发明的方法可用于使任何真核干细胞突变，所述真核干细胞包括但不限于单倍体、二倍体、三倍体、四倍体或非整倍体。在一个实施方案中，所述细胞是二倍体。其中可有利地使用本发明方法的干细胞包括但不限于如成体干细胞、SSC、ES细胞、iPS细胞、胚胎的干细胞，或能够发展成一种或多种生物体的任何细胞。

在一个实施方案中，本发明涉及一种产生位点特异性敲除、敲入或以其它方式遗传修饰的干细胞的方法。所述位点特异性突变是使用裂解所需位点的RTN，随后使用NHEJ产生的，导致缺失突变。所述位点特异性突变可在精原干细胞(SSC)中产生，所述精原干细胞是用于产生杂合或纯合遗传修饰的生物体。

在另一实施方案中，本发明涉及一种产生位点特异性敲除、敲入或以其它方式遗传修饰的干细胞的方法。所述位点特异性突变是使用裂解所需位点从而导致缺失突变的RTN产生。所述位点特异性突变是在胚胎干(ES)细胞中产生，所述胚胎干细胞是用于产生杂合或纯合遗传修饰的生物体。

在另一实施方案中，本发明包含产生位点特异性敲除、敲入或以其它方式遗传修饰的干细胞的方法。所述位点特异性突变是使用裂解所需位点从而导致缺失突变的RTN产生。所述位点特异性突变是在诱导性多能干(iPS)细胞中产生，所述多能干细胞是用于产生杂合或纯合遗传修饰的生物体。

在另一实施方案中，本发明包含产生位点特异性敲除、敲入或以其它方式遗传修饰的干细胞的方法。所述位点特异性突变是使用裂解所需位点从而导致缺失突变的RTN产生。所述位点特异性突变是在胚胎中产生，所述胚胎是用于产生杂合或纯合遗传修饰的生物体。

在本发明的某些实施方案中，细胞可在生物体内或在天然环境内如同在组织外植体内突变(例如，体内或原位)。或者，使用本领域已知的方法和基因从所述生物体分离的组织或干细胞可根据本发明方法突变。所述组织或干细胞是维持在培养物中(例如，体外)，或再移植至组织或生物体内(例如，离体)。

包含效应蛋白功能的RTN，如核酸酶。

在一些实施方案中，本发明涉及包含实施例2中所述的任一核酸或多肽或其片段的组合物。

在一些实施方案中，本发明涉及包含本文中所述的任一核酸或多肽的组合物。

在本发明的一些实施方案中，使用RTN对SSC进行的遗传修饰涉及在独立的SSC或SSC系中产生多种突变，随后汇集或合并独立的SSC或SSC系并且注射至单一雄性接受者中，其涉及产生多种含有一种或多种突变的遗传修饰的生物体，与使用其它系统可能出现的情况相比具有较少的实验步骤并且在较短的时间范围内。所述独立的干细胞或干细胞系可为15种或更多种。在本发明的一些实施方案中，使用RTN对干细胞进行的遗传修饰涉及在独立的干细胞或干细胞系中产生多种突变，随后汇集或合并独立的干细胞或干细胞系并且注射至单一雄性接受者中，其涉及产生多种含有一种或多种突变的遗传修饰的生物体，与使用其它系统可能出现的情况相比具有较少的实验步骤并且在较短的时间范围内。所述独立的干细胞或干细胞系可为15种或更多种。

在本发明的一些实施方案中，增加可用于产生遗传修饰的生物体的遗传修饰SSC或修饰干细胞或胚细胞的独特或独立的库或系的数目，不会增加工作量、时间以及所用的资源，以及不会降低遗传修饰的生物体产生的效率。多种独立且独特的遗传修饰的SSC可移植至单一不育接受者中。源自来自两个或更多个库至十五个或更多个库的独立细胞库的独特遗传修饰细胞(SSC或干细胞)的混合群体在所述不育接受者内成熟。所述不育接受者接着与多个野生型雌性交配，所述野生型雌性可为两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、十个或更多个、十一个或更多个、十二个或更多个、十三个或更多个、十四个或更多个、十五个或更多个、十六个或更多个、十七个或更多个、十八个或更多个、十九个或更多个、二十个或更多个。这多个雌性产生已经在其生殖系中包括所需突变的后代。

在本发明的一些实施方案中，增加可用于产生遗传修饰的生物体的遗传修饰细胞的独特或独立的库或系的数目，不会增加工作量、时间以及所用的资源，以及不会降低遗传修饰的生物体产生的效率。不育接受者大鼠可为用于多轮的独立或独特的遗传修饰细胞的接受者。所述不育大鼠可为十五种或更多种不同的遗传修饰细胞的接受者并且与二十个或更多个野生型雌性交配以产生十五种或更多种独立遗传修饰的生物体。在第一轮育种后，所述不育雄性可进行处理以消除所述第一轮的遗传修饰细胞并且变成另一轮的十五种或更多种独立或独特的遗传修饰细胞的接受者，与二十个或更多个野生型雌性交配以产生十五种或更多种独立遗传修饰的生物体。所述不育雄性可为十五种或更多种遗传修饰细胞的混合群体的接受者并且与二十个或更多个野生型雌性交配两次或更多次、三次或更多次、四次或更多次或五次或更多次。

在本发明的一些实施方案中，增加可用于产生遗传修饰的生物体的遗传修饰细胞的独特或独立的库或系的数目，不会增加工作量、时间以及所用的资源，以及不会降低遗传修饰的生物体产生的效率。增加遗传修饰的细胞的数目不需要其它细胞系统的工作和资源，如胚胎干(ES)细胞或胚胎。增加用于遗传修饰的生物体产生的遗传修饰的ES细胞的量需要增加技术步骤(如胚泡注射)的数目，以及输卵管转移手术的数目。在本发明的一些实施方案中，所述方法不包含胚泡注射、输卵管转移、DNA显微注射、所注射的受精卵的再移植或嵌合后代的育种。所述细胞系统可在单一步骤中产生用于遗传修饰的生物体产生的十五种或更多种独立遗传修饰的干细胞群体，而为了产生十五种或更多种独立遗传修饰的ES细胞，必须在所述程序的所有层面进行十五个或更多个独立步骤，其包括但不限于胚泡注射、输卵管转移、受精卵产生、DNA制备、DNA显微注射、所注射的受精卵的再移植或嵌合后代的育种。

在本发明的一些实施方案中，使用RTN对SSC进行的遗传修饰涉及产生遗传修饰的生物体，而不需要由替代的干细胞产生遗传修饰的生物体所需的步骤，可选的干细胞包括但不限于胚胎干细胞、胚胎、诱导性多能干(iPS)细胞、成体干细胞。可选的干细胞中的遗传修饰包括但不限于受精卵产生、DNA制备、DNA显微注射、所注射的受精卵的再移植或嵌合后代的育种。

在一些实施方案中，本发明的干细胞包含一种或多种转座子、其变体的转座子的一种或多种反向末端重复序列(ITR)。在一些实施方案中，本发明的干细胞包含一种或多种转座子、源自表2的序列的变体的转座子的一种或多种反向末端重复序列(ITR)。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少70％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向串联重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少75％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向串联重复序列(ITR)，其中变体序列反向末端重复序列与已知的ITR和已知的转座子元件(表2中所示)至少80％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少85％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少90％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少95％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少96％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少97％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少98％同源。

在一些实施方案中，本发明包含一种或多种转座子、转座子的一种或多种反向末端重复序列(ITR)，其中变体序列反向串联重复序列与已知的ITR和已知的转座子元件(表2中所示)至少99％同源。

表2

转座子ITR

Sleeping Beauty

5’反向串联重复序列：

CAGTTGAAGTCGGAAGTTTACATACACTTAAGTTGGAGTCATTAAAACTCGTTTTTCAACTACTCCACAAATTTCTTGTTAACAAACAATAGTTTTGGCAAGTCAGTTAGGACATCTACTTTGTGCATGACACAAGTCATTTTTCCAACAATTGTTTACAGACAGATTATTTCACTTATAATTCACTGTATCACAATTCCAGTGGGTCAGAAGTTTACATACACTAAGT

3’反向串联重复序列：

ATTGAGTGTATGTAAACTTCTGACCCACTGGGAATGTGATGAAAGAAATAAAAGCTGAAATGAATCATTCTCTCTACTATTATTCTGATATTTCACATTCTTAAAATAAAGTGGTGATCCTAACTGACCTAAGACAGGGAATTTTTACTAGGATTAAATGTCAGGAATTGTGAAAAAGTGAGTTTAAATGTATTTGGCTAAGGTGTATGTAAACTTCCGACTTCAACTG

piggyBac

5’反向串联重复序列：

CCCTAGAAAGATAGTCTGCGTAAAATTGACGCATGCATTCTTGAAATATTGCTCTCTCTTTCTAAATAGCGCGAATCCGTCGCTGTGCATTTAGGACATCTCAGTCGCCGCTTGGAGCTCCCGTGAGGCGTGCTTGTCAATGCGGTAAGTGTCACTGATTTTGAACTATAACGACCGCGTGAGTCAAAATGACGCATGATTATCTTTTACGTGACTTTTAAGATTTAACTCATACGATAATTATATTGTTATTTCATGTTCTACTTACGTGATAACTTATTATATATATATTTTCTTGTTATAGATATC(最小序列是加下划线且粗体，即第一个35bp)

3’反向串联重复序列：

TAAAAGTTTTGTTACTTTATAGAAGAAATTTTGAGTTTTTGTTTTTTTTTAATAAATAAATAAACATAAATAAATTGTTTGTTGAATTTATTATTAGTATGTAAGTGTAAATATAATAAAACTTAATATCTATTCAAATTAATAAATAAACCTCGATATACAGACCGATAAAACACATGCGTCAATTTTACGCATGATTATCTTTAACGTACGTCACAATATGATTATCTTTCTAGGG(最小序列是加下划线且粗体，即第一个35bp)

本发明还包含编码具有本文所公开的多种重复单元的任一本文所述的多肽的DNA。

任何本发明多肽或编码本发明多肽的核酸均可用于PCT申请号PCT/IB2010/000154中所述的方法中，所述申请以引用的方式整体并入本文。

在本发明的一方面，本发明涉及包含一种或多种由一种或多种本文所公开的多肽修饰的细胞的组合物。在本发明的一些实施方案中，本发明的组合物包含一种或多种干细胞。在本发明的一些实施方案中，本发明的组合物包含一种或多种由一种或多种本文所公开的多肽修饰的哺乳动物干细胞。在本发明的一些实施方案中，本发明的组合物包含一种或多种由一种或多种本文所公开的多肽修饰的iPSC细胞。在本发明的一些实施方案中，本发明的组合物包含一种或多种由一种或多种本文所公开的多肽修饰的人类干细胞。在本发明的一些实施方案中，本发明的组合物包含一种或多种由一种或多种本文所公开的多肽修饰的精原干细胞。在本发明的一些实施方案中，所述细胞源自哺乳动物。在一些实施方案中，所述细胞来自大鼠或小型猪。在本发明的一些实施方案中，所述哺乳动物是不育雄性大鼠或不育雄性小型猪。在本发明的一些实施方案中，所述大鼠或小型猪是DAZL缺乏或DAZL-/-。在本发明的一些实施方案中，本发明涉及遗传修饰的生物体的集落，其包含：

至少一种包含一种或多种干细胞的生物体，所述一种或多种干细胞包含一种或多种以下突变：(i)缺失突变；(ii)敲除突变；和/或(iii)添加异源核酸序列；所述(i)、(ii)和/或(iii)的一种或多种突变是由一种或多种本文所公开的多肽(一种或多种RTN)引起的位点特异性突变；和(b)子部分(a)的生物体的后代。

在本发明的一些实施方案中，所述细胞或转基因动物、其集落或后代包含异源核酸序列，所述异源核酸序列包含可选择标记或直向同源基因。在本发明的一些实施方案中，所述至少一种生物体和所述后代进一步包含转座子或其变体的至少一种反向末端重复序列。

在本发明的一些实施方案中，所述至少一种生物体和所述后代进一步包含包含与以下任一者或其组合至少70％同源的核酸序列的核酸：SEQ ID NO:1-19，或表1的任何序列，或其任何变体或功能片段。在本发明的一些实施方案中，本发明涉及一种产生一种或多种遗传修饰的生物体的方法，所述方法包括：(a)使至少一种源自动物或植物的生殖系谱系的干细胞通过所述干细胞与：(i)至少一种使所关注的基因突变的RTN；或(ii)至少一种编码使所关注的基因突变的RTN的表达载体接触，由此产生至少一种在所关注的基因处包含至少一种突变的干细胞；(b)使所述至少一种在所关注的基因处包含至少一种突变的干细胞的体外培养物扩增；(c)将一种或多种来自步骤(b)的培养物的干细胞移植至生物体中。

在本发明的一些实施方案中，本发明涉及一种产生一种或多种遗传修饰的生物体的方法，所述方法包括：(a)使源自动物或植物的生殖系谱系的干细胞的至少第一集合和第二集合与：(i)至少一种使所关注的基因突变的RTN；或(ii)至少一种编码使所关注的基因突变的RTN的表达载体接触，由此产生在所关注的基因处包含至少一种突变的干细胞的至少第一集合和第二集合；(b)使所述至少一种在所关注的基因处包含至少一种突变的干细胞的体外培养物扩增；(c)将一个或多个来自步骤(b)的培养物的干细胞的集合移植至生物体中。在一些实施方案中，所述方法进一步包含已经以位点特异性方式通过RTN突变的干细胞的第三、第四、第五、第六、第七、第八、第九或十个或更多个集合并且在所述情况下，在突变的干细胞的所述第三、第四、第五、第六、第七、第八、第九或十个或更多个集合中的每一者均扩增后，将各集合移植至单一生物体中。在一些实施方案中，所述包含突变的干细胞的集合的单一生物体是不育雄性。

在本发明的一些实施方案中，所述生物体能够通过生殖系传递将在所关注的基因处的至少一种突变传代至后代。在本发明的一些实施方案中，所述遗传修饰的生物体是哺乳动物。在本发明的一些实施方案中，所述遗传修饰的生物体是大鼠或小型猪。在本发明的一些实施方案中，所述遗传修饰的生物体是不育雄性大鼠或不育雄性小型猪。

在本发明的一些实施方案中，所述方法进一步包括：使移植有所述一种或多种干细胞的生物体与另一动物交配以产生一种或多种包含突变的所关注基因的后代。在本发明的一些实施方案中，所述方法进一步包括：使移植有干细胞的所述一个或多个集合的生物体与另一动物交配以产生一种或多种包含所述一种或多种突变的所关注基因的后代，所述一种或多种突变的所关注基因对应于所述突变的干细胞系中的每一者。

在本发明的一些实施方案中，所述后代是哺乳动物。

在本发明的一些实施方案中，一种对遗传修饰的生物体的集落进行育种的方法，其包括：

(a)使至少一种源自动物或植物的生殖系谱系的干细胞通过所述干细胞与：(i)至少一种使所关注的基因突变的RTN；或(ii)至少一种编码使所关注的基因突变的RTN的表达载体接触，由此产生在所关注的基因处包含至少一种突变的干细胞；

(b)使所述在所关注的基因处包含至少一种突变的干细胞的体外培养物扩增；

(c)将来自步骤(b)的培养物的所述至少一种在所关注的基因处包含至少一种突变的干细胞移植至第一生物体中。

(d)使所述第一生物体与相同物种的第二生物体交配；

(e)选择所述第一和第二生物体的在所关注的基因处包含所述至少一种突变的后代；以及

(f)使所述后代育种以产生在所关注的基因处包含所述至少一种突变的生物体的集落。

在本发明的一些实施方案中，所述第一和第二生物体是哺乳动物。

在本发明的一些实施方案中，所述第一和第二生物体是大鼠或小型猪。

在本发明的一些实施方案中，本发明涉及一种产生遗传修饰的生物体的第一子代的方法，所述子代包含生物体的两个或更多个独特子集，所述方法包括：

(a)使第一干细胞与：(i)使所关注的第一基因突变的RTN；或(ii)编码使所关注的第一基因突变的RTN的表达载体接触；由此产生包含第一突变的第一干细胞；

(b)使第二干细胞与修饰剂接触，由此产生包含第二突变的第二干细胞；

(c)使所述第一和所述第二干细胞中每一者的体外培养物扩增；

(d)将包含所述第一和所述第二干细胞的干细胞混合群体移植至生物体中；

(e)使所述生物体与相同物种的另一生物体交配。

在本发明的一些实施方案中，遗传修饰的生物体的所述第一子代包含生物体的两个或更多个集合，各集合包含源自移植至所述生物体的亲代中的独特干细胞的单体型的独特的所关注突变。

在本发明的一些实施方案中，所述混合群体的至少一种干细胞是哺乳动物的精原干细胞。

在本发明的一些实施方案中，所述生物体是哺乳动物。

在本发明的一些实施方案中，一种试剂盒包含：

(a)RTN或编码使所关注的基因处的核酸序列裂解的RTN的核酸序列；和

(b)包含指示的说明书；以及任选地，

在本发明的一些实施方案中，一种试剂盒包含：

(a)在本发明的一些实施方案中；以及任选地

(b)用于所述一种或多种干细胞或一种或多种胚胎的培养基。

在本发明的一些实施方案中，所述试剂盒包含：

(a)RTN或编码使所关注的基因处的核酸序列裂解的RTN的核酸序列；以及任选地，

(b)用于所述一种或多种干细胞或一种或多种胚胎的培养基。

在本发明的一些实施方案中，所述试剂盒包含：

(b)源自动物或植物的生殖系谱系的一种或多种干细胞系；以及任选地

(c)用于所述一种或多种干细胞或一种或多种胚胎的培养基；以及任选地

(d)包含关于如何用所述RTN或编码使所关注的基因处的核酸序列裂解的RTN的核酸序列使所述一种或多种干细胞突变的说明的说明书。

表1

/>

除本文所描述的那些修饰外，本领域技术人员由前述描述还将显而易知本发明的各种修饰。所述修饰还意图在随附权利要求书的范围内。本申请中所引用的各参考文献(包括但不限于期刊文章、美国和非美国专利、专利申请公布、国际专利申请公布、基因库登录号等)均以引用的方式整体并入本文。

实施例

实施例1：使用功能分析产生具有雷尔氏菌TAL(RTAL)的核酸载体

雷尔氏菌基因组的序列同源的聚类分析和回顾披露与已知的TAL序列同源的SEQID NO：1序列。

编码要求保护的发明的多肽的核酸序列将通过本领域技术人员已知的分子生物学技术制备。例如，DNA序列将由侧接编码本发明多肽的各核酸序列的XbaI和/或SalI限制位点合成。将进行聚合酶链反应以用某些限制核酸内切酶位点扩增所述DNA。序列将进行凝胶纯化，分离并且在水或用于接合反应的合适缓冲液中重构。编码包含必要的调控元件的具有效应子功能(如核酸酶功能)的蛋白质的质粒将接合至一种或多种编码在质粒多克隆位点处的以下序列的核酸序列：

a.LSTEQVVAIAS NK GGKQALEAVKAHLLDLLGAPYV

b.LSTEQVVAIAS NN GGKQALEAVKAQLLELRAAPYE

c.LSTAQVVAIAS NG GGKQALEGIGEQLLKLRTAPYG

d.LSTAQVVAIAS HD GGKPALEAVWAKLPVLRGVPYA

e.LSTEQVVTIAS SI GGKQALEAVKVQLPVLRAAPYE

质粒序列将在用于产生质粒的高拷贝数的合适细菌中转化。含有上述至少一种多肽的质粒可使用抗生素选择来选择，使用本领域技术人员已知的技术从细菌细胞分离且纯化。

还将建立质粒并且将使用Nature Biotechnology 2012年5月；30(5)：460-5.“FLASH assembly of TALENs for high-throughput genome editing.”Reyon D，TsaiSQ，Khayter C，Foden JA，Sander JD，Joung JK(其以全文引用的方式并入)中所述的方法验证所表达的DNA结合多肽的体外测试。

构建编码预组装的TALE重复序列的质粒档案

我们设法使用由Miller，J.C.等“A TALE nuclease architecture forefficient genome editing.”，Nat Biotechnol.2011；29：143-148首先描述的相同结构来构建TALE重复序列阵列，在所述结构中在氨基酸和DNA序列方面略微不同的独特TALE重复序列骨架是以重复模式出现。在一些实施方案中，我们指定阵列中的第一个氨基端TALE重复序列为α单元。其后为β、□以及δ单元并且接着为与所述α单元基本上同一但IIS型限制位点在5’末端上的定位不同的ε单元(为了使得能够在克隆所需的α单元上产生独特的垂悬物而需要)。所述ε单元后面接着又是β、□、δ以及ε单元。由于与克隆所需的3’末端的产生相关的限制，需要略微修饰的DNA序列来用于TALE重复序列阵列，所述阵列以羧基端

□或ε单元结束。

制备用于FLASH组装的TALE重复序列编码性DNA片段

为了制备用于FLASH组装的编码α单元的DNA片段，我们将使用引物oJS2581(5’-生物素–TCTAGAGAAGACAAGAACCTGACC–3’)和oJS2582(5’–GGATCCGGTCTCTTAAGGCCGTGG–3’)以各α单元质粒作为模板来进行20轮PCR。所得PCR产物将在5’末端为生物素化的。各αPCR产物将接着用40个单位的BsaI-HF限制酶消化以产生4bp悬垂物，使用QIAquick PCR纯化试剂盒(QIAGEN)根据制造商的说明书纯化，除了最终产物将在50μl 0.1X EB中洗脱。

为了制备编码多肽重复序列的DNA片段，我们将在37℃下在NEBuffer 2中用50个单位的BbsI限制酶消化10μg的这些质粒中的每一者持续2小时，随后在37℃下在NEBuffer4中使用100单位的将以5分钟时间间隔添加的XbaI、BamHI-HF以及SalI-HF酶中的每一者进行连续限制消化。将设计限制消化的后一集合以裂解质粒骨架，从而确保这一较大DNA片段将不会干扰在FLASH组装过程期间进行的后续接合。这些限制消化反应将接着使用QIAquick PCR纯化试剂盒(QIAGEN)根据制造商的说明书纯化，除了最终产物将在180μl0.1X EB中洗脱。

自动化FLASH组装

FLASH组装的所有步骤均使用Sciclone G3液体操作工作站(Caliper)或由另一公司出售的类似装置在96孔板中且使用SPRIplate 96-环形磁铁(Beckman CoulterGenomics)和DynaMag-96 Side磁铁(Life Technologies)进行。在FLASH的第一步骤中，生物素化的α单元片段将接合至第一个β□δε片段并且接着所得αβ□δε片段将结合于2X B&W缓冲液中的Dynabeads MyOne C1抗生蛋白链菌素涂布的磁性珠粒(Life Technologies)。珠粒将接着通过将所述板放在所述磁铁上而被吸引至孔的侧面，并且接着将用具有0.005％ Tween 20(Sigma)的100μl B&W缓冲液且再用100μl 0.1mg/ml牛血清白蛋白(BSA)(New England Biolabs)洗涤。额外β□δε片段将通过从所述磁铁移出所述板，将所述珠粒再悬浮于各孔中的溶液中，用BsaI-HF限制酶消化珠粒结合的片段，将所述板放在所述磁铁上，相继用100μl B&W/Tween20、100μl 0.1mg/ml BSA洗涤且接着接合下一片段来接合。这一过程将用额外β□δε单元重复多次以延长珠粒结合的片段。待接合的最后一个片段始终是αβ、β□*、β□δ或δε*单元以使得全长片段能够克隆至表达载体中(注意，以δε*单元结束的片段前面将始终是β□单元的接合)。

最终的全长珠粒结合的片段将用40个单位的BsaI-HF限制酶、接着25个单位的BbsI限制酶(New England Biolabs)消化。用BbsI消化将从所述珠粒释放所述片段且产生用于所述片段的克隆的独特5’悬垂物。用BsaI-HF消化导致产生用于克隆的独特3’悬垂物。

TALE重复序列阵列编码性DNA片段亚克隆至TALEN表达载体中

我们将亚克隆编码FLASH组装的TALE重复序列阵列的DNA片段至TALE表达载体中。在一些实施方案中，将存在4种或更多种独立质粒。在一些实施方案中，载体将包括CMV启动子、针对哺乳动物细胞表达优化的翻译起始密码子、三FLAG表位标签、核定位信号、来自TALE 13蛋白的氨基酸153至288(如由Miller等6编号)、两种独特且紧密定位的IIS型BsmBI限制位点、0.5 TALE重复序列结构域编码性RVD、来自TALE 13蛋白的氨基酸715至777以及野生型FokI裂解结构域。

由FLASH组装的所有DNA片段均将具有使得能够定向克隆至将用BsmBI消化的任一表达载体中的悬垂物。标准TALEN表达载体(各具有不同的0.5 TALE重复序列)可获自如Addgene的供应商并且这些质粒的全序列可自由地在专门用于这些构建体的网页上获得：http://www.addgene.org/talengineering/expressionvectors/，针对合成构建。

为了制备用于亚克隆的TALEN表达载体，我们将在55℃下在NEBuffer 3中用50单位的BsmBI限制酶(New England Biolabs)消化5μg质粒DNA持续8小时。消化的DNA将使用90μl Ampure XP 珠粒(Agencourt)根据制造商的说明书纯化并且将在1mM TrisHCl中稀释至5ng/μl的最终浓度。FLASH组装的TALE重复序列阵列将使用400U T4 DNA连接酶(NewEngland Biolabs)接合至TALEN表达载体中。接合产物将转化至化学感受态XL-1 Blue细胞中。典型地，将针对各接合挑选六个集落并且质粒DNA将通过碱性溶解miniprep程序来分离。同时，将通过PCR使用引物oSQT34(5’-GACGGTGGCTGTCAAATACCAAGATATG-3’)和oSQT35(5’-TCTCCTCCAGTTCACTTTTGACTAGTTGGG-3’)筛选相同集落。PCR产物将在QIAxcel毛细管电泳系统(Qiagen)上进行分析。来自含有恰当大小的PCR产物的克隆的Miniprep DNA将发送用于由引物oSQT1(5’-AGTAACAGCGGTAGAGGCAG-3’)、oSQT3(5’-ATTGGGCTACGATGGACTCC-3’)和oJS2980(5’-TTAATTCAATATATTCATGAGGCAC-3’)进行DNA序列确认；oSQT1在TALE重复序列阵列编码序列的5’末端退火并且将使得能够进行所组装的阵列的一半的氨基端测序，oSQT3在TALE重复序列阵列编码序列的3’末端退火并且使得能够进行所组装的阵列的一半的羧基端测序，并且oJS2980在FokI结构域的编码序列内(oSQT3的下游)引发并且将使得能够进行羧基端0.5 TALE重复序列结构域的测序和验证。

我们将针对如上文所述的各组装筛选六个集落，随后必要时再筛选六个集落。使用这种方法，一种或多种序列验证的克隆用于>90％的组装反应。这些百分数将主要由设计为构建编码16.5 TALE重复序列的DNA片段的实验推导。

EGFP TALEN活性和毒性测定

EGFP报道基因测定将在具有组成性表达EGFP-PEST融合蛋白的整合构建体的克隆U2OS人类细胞系中进行。这种克隆系源自多克隆U2OS EGFP-PEST报道基因系。克隆U2OSEGFP-PEST细胞将在补充有10％ FBS、2mM GlutaMax(Life Technologies)、青霉素/链霉素以及400μg/ml G418的Advanced DMEM(Life Technologies)中培养。细胞将用500ng各TALEN质粒DNA和50ng ptdTomato-N1质粒DNA使用Lonza 4D-Nucleofector系统、SolutionSE以及程序DN-100根据制造商的说明书一式三份转染。1μg ptdTomato-N1质粒将单独作为阴性对照一式三份转染。细胞将在转染后2天和5天使用BD FACSAriaII流式细胞器测定EGFP和tdTomato表达。

内源性人类基因的PCR扩增和序列验证

扩增靶向基因座的PCR反应将使用补充表5中所示的引物进行。使用Phusion HotStart II高保真度DNA聚合酶(Thermo-Fisher)的标准PCR条件将根据制造商的说明书进行35个周期(98℃，10秒变性；68℃，15秒退火；72℃，30秒延伸)。关于不在标准条件下扩增的基因座，我们将使用以下修饰之一：1)添加甜菜碱至最终浓度1.8M，2)用1.8M甜菜碱进行降落PCR([98℃，10秒；72-62℃，-1℃/周期，15秒；72℃，30秒]_10个周期，[98℃，10秒；62℃，-1℃/周期，15秒；72℃，30秒]_25个周期)，以及3)添加3％或5％ DMSO并且退火温度为65℃。PCR产物将在QIAxcel毛细管电泳系统上分析恰当大小。恰当大小的产物将用ExoSap-IT(Affymetrix)处理以去除未并入的核苷酸或引物并且发送用于DNA测序以确认所述内源性基因序列。

用于定量NHEJ介导的内源性人类基因突变的T7核酸内切酶I测定

U2OS-EGFP细胞将如上文所述一式两份培养且转染。基因组DNA是使用高通量基于磁性珠粒的纯化系统(Agencourt DNAdvance)根据制造商的说明书从用TALEN编码性或对照质粒转染的细胞分离。扩增内源性基因座的PCR将如上文所述进行35个周期并且片段是用Ampure XP(Agencourt)根据制造商的说明书纯化。200ng纯化的PCR产物将在NEBuffer 2(New England Biolabs)中使用温度循环器根据以下方案(95℃，5分钟；95-85℃，在-2℃/秒下；85-25℃，在-0.1℃/秒下；保持在4℃下)变性且再退火。33种杂交的PCR产物在37℃下用10U T7核酸内切酶I以20μl的反应体积处理15分钟。反应通过添加2μl 0.5M EDTA来终止，用Ampure XP纯化，并且在QIAxcel毛细管电泳系统上使用方法OM500定量。TALEN特异性裂解峰下面积的总和(表述为亲代扩增子峰的百分数，表示裂解的分率)是用于如先前所述使用以下方程来估计基因修饰程度。

(％基因修饰＝100x(1-(1-裂解的分率)^1/2)

实施例2

合成以下所示的五种片段且各片段克隆至修饰的pUC57中：pUC57-ΔBsaI(如Juong等FLASH assembly paper中所公开的载体)。其含有单一碱基对改变以用XbaI和BamHI中断BsaI位点。

RTN1 EBE：

NK：

XbaI BbsI

ATGCA T^CTAGA-GAAGACAA^CTGA-GCACCGAGCAGGTGGTGGCCATCGCCAGCAACAAGGGCGGCAAGCAGGCCCTGGAGGCCGTGAAGGCCCACCTGCTGGACCTGCTGGGCGCCCCCTACGAG-CTGA^AGAGACC-G^GATCC(CGGGC) BsaI

BamHI

NN：

ATGCATCTAGAGAAGACAACTGAGCACCGAGCAGGTGGTGGCCATCGCCAGCAACAACGGCGGCAAGCAGGCCCTGGAGGCCGTGAAGGCCCAGCTGCTGGAGCTGAGGGCCGCCCCCTACGAGCTGAAGAGACCGGATCCCGGGC

NG：

ATGCATCTAGAGAAGACAACTGAGCACCGagCAGGTGGTGGCCATCGCCAGCAACGGCGGCGGCAAGCAGGCCCTGGAGGGCATCGGCGAGCAGCTGCTGAAGCTGAGGACCGCCCCCTACGAGCTGAAGAGACCGGATCCCGGGC

HD：

ATGCATCTAGAGAAGACAACTGAGCACCGagCAGGTGGTGGCCATCGCCAGCCACGACGGCGGCAAGCCCGCCCTGGAGGCCGTGTGGGCCAAGCTGCCCGTGCTGAGGGGCGTGCCCTACGAGCTGAAGAGACCGGATCCCGGGC

SI：

ATGCATCTAGAGAAGACAACTGAGCACCGAGCAGGTGGTGACCATCGCCAGCAGCATCGGCGGCAAGCAGGCCCTGGAGGCCGTGAAGGTGCAGCTGCCCGTGCTGAGGGCCGCCCCCTACGAGCTGAAGAGACCGGATCCCGGGC

关于原理验证，这些克隆的片段将根据Joung的FLASH TALEN论文中的精确方案用于产生融合至FokI核酸酶的六个重复单元的嵌合蛋白，即靶向一串A(C、T以及G)核苷酸的嵌合蛋白。这些嵌合蛋白将接着使用报道基因构建体测试对所需DNA碱基的结合/靶向效率。

一旦这些单元的结合效率得到确认，就将产生雷尔氏菌EBE的文库，所述文库将为FALSH TALEN的黄单孢菌EBE文库的精确拷贝。这一文库可接着根据FLASH TALEN系统的精确方案用于产生雷尔氏菌TALEN。

实施例3.产生具有甲基酯酶的核酸载体

从其它物种克隆或从相同物种克隆的额外序列可在功能上单独用作酶，或连续地用作用于以DNA识别进行任何本文所公开的实验的单体或聚合物(蛋白质融合)。使用本领域中已知的序列优化技术产生RVD鉴定共有序列。在细菌物种内的甲基酯酶序列内进行BLAST搜索(参见图1)。以下多肽是鉴定为具有类似于本文中所公开的核酸序列和多肽SEQID NO:1-19的DNA碱基对识别能力：

针对甲基酯酶的TAL EBE

#1

黄单孢菌共有EBE

LTPDQVVAIASNGGGKQALETVQRLLPVLCQDHG

LTPEQVVAIANNNGGKQALETVQRLLPVLCQAHG

LTPDQVVAIASHDGGKQALETVQRLLPVLCQAHG

LTPAQVVAIASNIGGKQALETVQRLLPVLCQDHG

#2

/>

实施例4

一对Bmpr2特异性EBE(雷尔氏菌DNA结合结构域，各为16EBE)进行基因合成且克隆至XTN-BB(融合至FokI的黄单孢菌TAL骨架)中。这些构建体共转染至大鼠C6细胞中并且在48小时后进行gDNA提取，用于Cel1测量员核酸酶测定(Cel1 surveyor nuclease assay)。如果成功的话，那么所述测定应从所述基因座的原始400bp扩增子产生240bp和150bp亚群。结果显示于图2中。

所述测定披露在雷尔氏菌和黄单孢菌TALEN转染的细胞中的预期250bp和150bp带，其在WT阴性对照中不存在。这指示雷尔氏菌EBE靶向这一基因座并且FokI核酸酶与雷尔氏菌EBE的融合导致基因组DNA的靶向消化。使用所述250bp带，关于XTN为5.75％，关于RTN为1.82％。使用所述150bp带，关于XTN为3.66％，关于RTN为5.43％。

注意：所述靶向位点的第一个和最后一个核苷酸(加下划线)未由RTN指定。这些核苷酸是由黄单孢菌TALEN骨架指定。

Bmpr2 FWD RTN EBE的氨基酸序列：

Bmpr2 FWD RTN DNA序列：

(粗体字体：合成的雷尔氏菌EBE)这一序列是连接的：

/>

Bmpr2 REV RTN EBE的氨基酸序列：

Bmpr2 REV RTN DNA序列：

(粗体字体：合成的雷尔氏菌EBE)这一序列是连接的：

/>

实施例5

制备雷尔氏菌EBE的文库和骨架载体，其可能用于使用金门组装方法将全长雷尔氏菌DNA结合结构域组装至雷尔氏菌或黄单孢菌TALEN骨架中。所述RTN共转染至大鼠C6细胞系中并且在转染后48小时进行gDNA提取，用于分析。含有RTN结合位点的420bpgDNA片段通过PCR扩增。这一扩增子接着使用测量员突变检测试剂盒(Transgenomic)根据制造商方案经受Cel1测定。简单地说，所述扩增子变性成单链DNA并且缓慢地再退火回双链DNA。在这一过程期间，考虑到原始库是WT和突变序列的混合物，在WT与突变链之间将存在交叉杂交，导致异源双链分子形成。在用所述测量员核酸酶处理这一再退火的库后，其识别所述异源双链分子且使其裂解，从而由(255bp和165bp)所述原始扩增子(420bp)产生两种较短片段。

术语：

pRVD：含有单一雷尔氏菌EBE的质粒。个别EBE进行基因合成并且克隆于FLASH-XTN子阵列骨架(XbaI、BamHI)中。

pFus X：保持任何给定的RTN的前10个EBE的子阵列质粒。所需的部分进行基因合成且克隆于pHSG-298(SacI、SbfI)中。

pFUS Z：将EBE 11保持于任何给定的RTN的倒数第二个EBE上的子阵列质粒。

Eg：Z4保持EBE 11-14，Z5保持EBE 11-15并且Z6保持EBE 11-16。进行基因合成且克隆于pHSG-298(SacI、SbfI)中。

XTN-bb：含有融合至FokI核酸酶的N端和C端黄单孢菌TAL结构域的黄单孢菌TAL骨架。这一骨架指定由所述EBE指定的靶标序列的T核苷酸5’。它还含有指定所述靶向序列的最后一个核苷酸的最后半个EBE。因此存在四种XTN-bb质粒，各质粒指定所述靶向序列的不同的最终核苷酸(与FLASH XTN骨架相同)。

所有质粒均在150ng/ul下存储于0.1xTE缓冲液中。

方法：(建立16EBE DNA结合结构域并且将其克隆于黄单孢菌TALEN骨架中)。

定制的TALEN或TAL效应构建体的组装涉及两个步骤：(i)将重复模块(pRVD)组装至1-10个重复序列的子阵列中，和(ii)将所述子阵列接合于骨架中以制备最终构建体。

由17 RVD阵列(5’-TGATAGTCGC-CTTATG-T-3’)构建TALEN单体。在使用以所述顺序编号的质粒的阵列中从所述pRVD质粒选择编码RVD 1–10的那些质粒。例如，用于第一个RVD的质粒将为gRTN-1T，第二个为gRTN-2G，第三个为gRTN-3A等。来自这些质粒的模块将被克隆至子阵列质粒pFUS-X中。接着在再次以从1编号的质粒为起始物的16RVD阵列中，选择用于RVD 11–16的模块。因此，关于RVD 11将使用gRTN-1C，关于RVD 12将使用gRTN-2T等。所述pFUS-Z质粒被编号为1–10并且应根据正在使用的EBE的数目进行选择。因此，在我们的实施例中，应使用pFUS-Z6。

所述pRVD和子阵列质粒(各150ng)在含有1ul BsaI(10U，New England BioLabs)和1ul T4 DNA连接酶(2000U，New England BioLabs)于T4DNA连接酶缓冲液(New EnglandBioLabs)中的单一20ul反应中经受消化和接合。所述反应在温度循环器中孵育10个周期：在37C下5分钟和在16C下10分钟，接着加热至50C持续5分钟且接着加热至80C持续5分钟。接着，添加1ul 25mM ATP和1ul Plasmid Safe DNA酶(10U，Epicentre)。所述混合物在37C下孵育1小时，接着用于转化大肠杆菌细胞。细胞涂于含有50mg/ml卡那霉素的LB琼脂上，在37℃下过夜。

用M13 fwd和rev引物，经由集落PCR筛选来自各转化的至多六个集落，以鉴定含有全长子阵列的克隆。全长pFUS-X子阵列克隆应产生1.1kb带并且全长pFUS-Z6克隆应产生700bp带(关于各EBE或多或少地添加或减去105bp)。开始培养全长pFUS-X和全长pFUS-Z6克隆的培养物过夜。

从pFUS-X和pFUS-Z培养物分离质粒DNA。子阵列接合至四种骨架质粒之一中。用各150ng的pFUS-X和pFUS-Z质粒、150ng所述骨架质粒(在这种情况下XTN-bbT)、1ul Esp3I(10U，Thermo Scientific)和1ul T4 DNA连接酶(2000U，New England Biolabs)在T4 DNA连接酶缓冲液中制备20ul消化和接合反应混合物。所述反应接着在温度循环器中孵育3个周期：在37C下10分钟和在16C下15分钟。所述反应接着在37C下再孵育30分钟且加热至50C持续5分钟，接着加热至80C持续5分钟。在冷却至室温后，添加1ul 25mM ATP和1ul PlasmidSafe DNA酶(10U，Epicenter)且在37C下孵育1小时。所述反应接着如上文用于转化大肠杆菌，除了Plasmid Safe。另外，在这一步骤中，氨苄西林(100mg/ml)代替卡那霉素用于选择转化体。

经由集落PCR使用XTN-VF和XTN-VR2引物筛选来自各转化的至少三个集落并且开始用于各RTN的1个全长克隆的培养物过夜(2.1kb带指示17EBE阵列)。接着分离质粒DNA并且通过用XTN-VF、XTN-VR1和XTN-VR2进行DNA测序来鉴定含有最终全长重复序列阵列的克隆。

XbaI和BamHI消化XTN子阵列骨架(加下划线的位点)：

(BamHI)GGATCCCGGGCCCGTCGACTGCAGAGGCCTGCATGCAAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGAgCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATT

TCCCCGAAAAGTGCCACCTGACGTCTAAGAAACCATTATTATCATGACATTAACCTATAAAAATAGGCGTATCACGAGGCCCTTTCGTCTCGCGCGTTTCGGTGATGACGGTGAAAACCTCTGACACATGCAGCTCCCGGAGACGGTCACAGCTTGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGAGCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGCATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTCGAGCTCGGTACCTCGCGAATGCATCTAGA(XbaI)

XTN-bb(BsmBI消化，位点在消化期间从所述骨架自我切除)：

加下划线的序列与子阵列pFUS-X和pFUS-Z重叠。

XTN-bbA：NNNNNNNNN用TCTAACATC置换

XTN-bbC：NNNNNNNNN用TCCCACGAC置换

XTN-bbG：NNNNNNNNN用AATAATAAC置换

XTN-bbT：NNNNNNNNN用TCTAATGGG置换

pFUS-Z重叠CTGACACCCGAACAGGTGGTCGCCATTGCTNNNNNNNNNGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAACTAGTCAAAAGTGAACTGGAGGAGAAGAAATCTGAACTTCGTCATAAATTGAAATATGTGCCTCATGAATATATTGAATTAATTGAAATTGCCAGAAATTCCACTCAGGATAGAATTCTTGAAATGAAGGTAATGGAATTTTTTATGAAAGTTTATGGATATAGAGGTAAACATTTGGGTGGATCAAGGAAACCGGACGGAGCAATTTATACTGTCGGATCTCCTATTGATTACGGTGTGATCGTGGATACTAAAGCTTATAGCGGAGGTTATAATCTGCCAATTGGCCAAGCAGATGAAATGCAACGATATGTCGAAGAAAATCAAACACGAAACAAACATATCAACCCTAATGAATGGTGGAAAGTCTATCCATCTTCTGTAACGGAATTTAAGTTTTTATTTGTGAGTGGTCACTTTAAAGGAAACTACAAAGCTCAGCTTACACGATTAAATCATATCACTAATTGTAATGGAGCTGTTCTTAGTGTAGAAGAGCTTTTAATTGGTGGAGAAATGATTAAAGCCGGCACATTAACCTTAGAGGAAGTCAGACGGAAATTTAATAACGGCGAGATAAACTTTTAAGGGCCCTTCGAAGGTAAGCCTATCCCTAACCCTCTCCTCGGTCTCGATTCTACGCGTACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCTAGGGGGTATCCCCACGCGCCCTGTAGCGGCGCATTAAGCGCGGCGGGTGTGGTGGTTACGCGCAGCGTGACCGCTACACTTGCCAGCGCCCTAGCGCCCGCTCCTTTCGCTTTCTTCCCTTCCTTTCTCGCCACGTTCGCCGGCTTTCCCCGTCAAGCTCTAAATCGGGGCATCCCTTTAGGGTTCCGATTTAGTGCTTTACGGCACCTCGACCCCAAAAAACTTGATTAGGGTGATGGTTCACGTAGTGGGCCATCGCCCTGATAGACGGTTTTTCGCCCTTTGACGTTGGAGTCCACGTTCTTTAATAGTGGACTCTTGTTCCAAACTGGAACAACACTCAACCCTATCTCGGTCTATTCTTTTGATTTATAAGGGATTTTGGGGATTTCGGCCTATTGGTTAAAAAATGAGCTGATTTAACAAAAATTTAACGCGAATTAATTCTGTGGAATGTGTGTCAGTTAGGGTGTGGAAAGTCCCCAGGCTCCCCAGGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCCCGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCCATTCTCCGCCCCATGGCTGACTAATTTTTTTTATTTATGCAGAGGCCGAGGCCGCCTCTGCCTCTGAGCTATTCCAGAAGTAGTGAGGAGGCTTTTTTGGAGGCCTAGGCTTTTGCAAAAAGCTCCCGGGAGCTTGTATATCCATTTTCGGATCTGATCAGCACGTGTTGACAATTAATCATCGGCATAGTATATCGGCATAGTATAATACGACAAGGTGAGGAACTAAACCATGGCCAAGCCTTTGTCTCAAGAAGAATCCACCCTCATTGAAAGAGCAACGGCTACAATCAACAGCATCCCCATCTCTGAAGACTACAGCGTCGCCAGCGCAGCTCTCTCTAGCGACGGCCGCATCTTCACTGGTGTCAATGTATATCATTTTACTGGGGGACCTTGTGCAGAACTCGTGGTGCTGGGCACTGCTGCTGCTGCGGCAGCTGGCAACCTGACTTGTATCGTCGCGATCGGAAATGAGAACAGGGGCATCTTGAGCCCCTGCGGACGGTGTCGACAGGTGCTTCTCGATCTGCATCCTGGGATCAAAGCGATAGTGAAGGACAGTGATGGACAGCCGACGGCAGTTGGGATTCGTGAATTGCTGCCCTCTGGTTATGTGTGGGAGGGCTAAGCACTTCGTGGCCGAGGAGCAGGACTGACACGTGCTACGAGATTTCGATTCCACCGCCGCCTTCTATGAAAGGTTGGGCTTCGGAATCGTTTTCCGGGACGCCGGCTGGATGATCCTCCAGCGCGGGGATCTCATGCTGGAGTTCTTCGCCCACCCCAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGTATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTC

GACGGATCGGGAGATCTCCCGATCCCCTATGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAgTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAATTAATACGACTCACTATAGGGAGACCCAAGCTGGCTAGCACCATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACpFUS-X 重叠

BamHI和XbaI侧接pRVD片段(基因合成，BamHI-EBE-XbaI))：

gXTN-1C：

TCTAGAGGTCTCATTGACCCCAGACCAGGTAGTCGCAATCGCGTCAcatgacGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCAGAGACCGGATCC

gXTN-2C：

TCTAGAGGTCTCACGGCctgactcccgatcaagttgtagcgattgcgtcgCATGACggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggAGAGACCGGATCC

gXTN-3C：

TCTAGAGGTCTCAacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAGCcatgatGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGAGAGACCGGATCC

gXTN-4C：

TCTAGAGGTCTCACATGGActgaccccagaccaggtagtcgcaatcgcgtcaCATGACgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacAGAGACCGGATCC

gXTN-5C：

TCTAGAGGTCTCAccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCAcatgacGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCAAGAGACCGGATCC

gXTN-6C：

TCTAGAGGTCTCAACCACGGCctgactcccgatcaagttgtagcgattgcgtcgCATGACggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccAGAGACCGGATCC

gXTN-7C：

TCTAGAGGTCTCAgcccacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAGCCATGATGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATAGAGACCGGATCC

gXTN-8C：

TCTAGAGGTCTCAGGATCATGGActgaccccagaccaggtagtcgcaatcgcgtcacatgacgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaAGAGACCGGATCC

gXTN-9C：

TCTAGAGGTCTCAaagaccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCAcatgacGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGAGAGACCGGATCC

gXTN-10C：

TCTAGAGGTCTCACAAGACCACGGCctgactcccgatcaagttgtagcgattgcgtcgcatgacggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccaTggAAGAGACCGGATCC

gXTN-1T：

TCTAGAGGTCTCATTGACCCCAGACCAGGTAGTCGCAATCGCGTCAAACGGAGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCAGAGACCGGATCC

gXTN-2T：

TCTAGAGGTCTCACGGCctgactcccgatcaagttgtagcgattgcgtcgAACGGTggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggAGAGACCGGATCC

gXTN-3T：

TCTAGAGGTCTCAacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCTCGAATGGCGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGAGAGACCGGATCC

gXTN-4T：

TCTAGAGGTCTCACATGGActgaccccagaccaggtagtcgcaatcgcgtcaaacggagggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacAGAGACCGGATCC

gXTN-5T：

TCTAGAGGTCTCAccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCAaacggaGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCAAGAGACCGGATCC

gXTN-6T：

TCTAGAGGTCTCAACCACGGCctgactcccgatcaagttgtagcgattgcgtcgAACGGTggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccAGAGACCGGATCC

gXTN-7T：

TCTAGAGGTCTCAgcccacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAGCaatggcGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATAGAGACCGGATCC

gXTN-8T：

TCTAGAGGTCTCAGGATCATGGActgaccccagaccaggtagtcgcaatcgcgtcaAACGGAgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaAGAGACCGGATCC

gXTN-9T：

TCTAGAGGTCTCAaagaccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCAAACGGAGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGAGAGACCGGATCC

gXTN-10T：

TCTAGAGGTCTCACAAGACCACGGCctgactcccgatcaagttgtagcgattgcgtccaacggtggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccaTggAAGAGACCGGATCC

gXTN-1A：

TCTAGAGGTCTCATTGACCCCAGACCAGGTAGTCGCAATCGCGTCAaacattGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCAGAGACCGGATCC

gXTN-2A：

TCTAGAGGTCTCACGGCctgactcccgatcaagttgtagcgattgcgtcgaacattggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggAGAGACCGGATCC

gXTN-3A：

TCTAGAGGTCTCAacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAGCaatattGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGAGAGACCGGATCC

gXTN-4A：

TCTAGAGGTCTCACATGGActgaccccagaccaggtagtcgcaatcgcgtcaAACATTgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacAGAGACCGGATCC

gXTN-5A：

TCTAGAGGTCTCAccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCAAGAGACCGGATCC

gXTN-6A：

TCTAGAGGTCTCAACCAtGGCctgactcccgatcaagttgtagcgattgcgtcgaacattggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccAGAGACCGGATCC

gXTN-7A：

TCTAGAGGTCTCAgcccacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATAGAGACCGGATCC

gXTN-8A：

TCTAGAGGTCTCAGGATCATGGActgaccccagaccaggtagtcgcaatcgcgtcgaacattgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaAGAGACCGGATCC

gXTN-9A：

TCTAGAGGTCTCAaagaccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGAGAGACCGGATCC

gXTN-10A：

TCTAGAGGTCTCACAAGACCACGGCctgactcccgatcaagttgtagcgattgcgtcgAACATTggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccaTggAAGAGACCGGATCC

gXTN-1G：

TCTAGAGGTCTCATTGACCCCAGACCAGGTAGTCGCAATCGCGaacaataatGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCAGAGACCGGATCC

gXTN-2G：

TCTAGAGGTCTCACGGCctgactcccgatcaagttgtagcgattgcgaataacaatggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggAGAGACCGGATCC

gXTN-3G：

TCTAGAGGTCTCAacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGAGAGACCGGATCC

gXTN-4G：

TCTAGAGGTCTCACATGGActgaccccagaccaggtagtcgcaatcgcgaacaataatgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacAGAGACCGGATCC

gXTN-5G：

TCTAGAGGTCTCAccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGAACAATAATGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCAAGAGACCGGATCC

gXTN-6G：

TCTAGAGGTCTCAACCAtGGCctgactcccgatcaagttgtagcgattgcgaataacaatggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccAGAGACCGGATCC

gXTN-7G：

TCTAGAGGTCTCAgcccacggtTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATAGAGACCGGATCC

gXTN-8G：

TCTAGAGGTCTCAGGATCATGGActgaccccagaccaggtagtcgcaatcgcgaacaataatgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaAGAGACCGGATCC

gXTN-9G：

TCTAGAGGTCTCAaagaccacggcCTGACCCCAGACCAGGTAGTCGCAATCGCGAACAATAATGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGAGAGACCGGATCC

gXTN-10G：

TCTAGAGGTCTCACAAGACCACGGCctgactcccgatcaagttgtagcgattgcgaataacaatggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccaTggAAGAGACCGGATCC

SbfI和SacI侧接pFUS片段(基因合成，SbfI-pFUS-SacI)

pFUS-X：

(SbfI)CCTGCAGGTCGACCGTCTCAGAACTTGAAGAGACCGTACGTGATCGTGGTCTCATggaTTGAAGAGACG GGTACCGAGCTC(SacI)

pFUS-Z1：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCACGGCctgaAGAGACGGGTACCGAGCTC

pFUS-Z2：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAacggtctgaAGAGACGGGTACCGAGCTC

pFUS-Z3：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCACATGGActgaAGAGACGGGTACCGAGCTC

pFUS-Z4：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAccacggcctgaAGAGACGGGTACCGAGCTC

pFUS-Z5：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAACCACGGCctgaAGAGACGGGTACCGAGCTC

pFUS-Z6：CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAgcccacggtctgaAGAGACGGGTACCGAGCTC

pFUS-Z7：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAGGATCATGGActgaAGAGACGGGTACCGAGCTC

pFUS-Z8：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCAaagaccacggcctgaAGAGACGGGTACCGAGCTC

pFUS-Z9：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCACAAGACCACGGCctgaAGAGACGGGTACCGAGCTC

pFUS-Z10：

CCTGCAGGTCGACCGTCTCATTGAAGAGACCGTACTGgatcgtGGTCTCATggActgaAGAGACGGGTACCGAGCTC

实施例7

甲基酯酶和甲基转移酶34aa共有EBE(nn由相关RVD置换)：

QTTERIVAIGT nn GGTQALEAVLTALPRVCPGMV

34aa QTTERIVAIGT SH GGTQALEAVLTALPRVCPGMV的Backtranseq(SH是非特异性RVD)

CAGACCACCGAGAGGATCGTGGCCATCGGCACCAGCCACGGCGGCACCCAGGCCCTGGAGGCCGTGCTGACCGCCCTGCCCAGGGTGTGCCCCGGCATGGTG

甲基酯酶EBE(XTN骨架中的14EBE)：

蓝色字体：甲基酯酶EBE。在这一实施例中均具有非特异性RVD SH。

黑色字体：FLASH XTN骨架。

所述序列是连接的：

/>

Claims

1.一种融合蛋白，其包含：

(a)结合DNA靶标序列的结构域，该结构域的氨基酸序列为：

(i)以下序列：

LSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYVLSTEQVVAIASNNGGKQALEAVKAQLLELRAAPYELSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNNGGKQALEAVKAQLLELRAAPYELSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYVLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYVLSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNNGGKQALEAVKAQLLELRAAPYELSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYV；或

(ii)以下序列：

LSTEQVVAIASNNGGKQALEAVKAQLLELRAAPYELSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYVLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNNGGKQALEAVKAQLLELRAAPYELSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYALSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTEQVVAIASNKGGKQALEAVKAHLLDLLGAPYVLSTAQVVAIASNGGGKQALEGIGEQLLKLRTAPYGLSTAQVVAIASHDGGKPALEAVWAKLPVLRGVPYA；

和

(b)效应子结构域，

其中，所述效应子结构域包含核酸酶、切口酶、转录活化因子、转录抑制因子、甲基转移酶、脱乙酰基酶或其任何功能片段。

2.如权利要求1所述的融合蛋白，其中，所述效应子结构域包含至少一种核酸酶。

3.如权利要求1或2所述的融合蛋白，其中，所述核酸酶包含核酸内切酶。

4.如权利要求3所述的融合蛋白，其中，所述核酸内切酶包含Fok I核酸内切酶。

5.如权利要求3所述的融合蛋白，其中，所述核酸内切酶包含I-SceI核酸内切酶。

6.如权利要求1或2所述的融合蛋白，其中，所述效应子结构域包含锌指核酸酶。

7.一种核酸，其编码如权利要求1至6中任一项所述的融合蛋白。

8.一种载体，其包含编码如权利要求1至6中任一项所述的融合蛋白的核酸。

9.如权利要求8所述的载体，所述载体是质粒或RNA分子。

10.如权利要求8或9任一项所述的载体，所述载体是反转录病毒。

11.如权利要求10所述的载体，其中所述反转录病毒包含长末端重复序列、psi包装信号、克隆位点和编码可选择标记的序列。

12.一种细胞，其包含如权利要求7所述的核酸，其中，所述细胞不是动物的胚胎干细胞、生殖细胞、受精卵或可用作植物的繁殖材料的植物细胞。

13.一种细胞，其包含如权利要求8至11中任一项所述的载体，其中，所述细胞不是动物的胚胎干细胞、生殖细胞、受精卵或可用作植物的繁殖材料的植物细胞。

14.一种试剂盒，其包含编码如权利要求1至6中任一项所述的融合蛋白的核酸的载体。

15.一种细胞，其包含编码如权利要求1至6中任一项所述的融合蛋白的核酸分子，其中，所述细胞不是动物的胚胎干细胞、生殖细胞、受精卵或可用作植物的繁殖材料的植物细胞。