CN103025344B

CN103025344B - 新型dna-结合蛋白及其用途

Info

Publication number: CN103025344B
Application number: CN201180034243.1A
Authority: CN
Inventors: P·D·格雷戈里; J·C·米勒; D·帕斯乔恩; E·J·瑞巴; S·谭; F·诺弗; L·张
Original assignee: Sangamo Biosciences Inc
Current assignee: Sangamo Therapeutics Inc
Priority date: 2010-05-17
Filing date: 2011-05-17
Publication date: 2016-06-29
Anticipated expiration: 2031-05-17
Also published as: US20170016030A1; KR20130111219A; US10253333B2; US20220356493A1; EP3156062A1; US8912138B2; IL222961A0; US20140134741A1; AU2011256838A1; US11661612B2; WO2011146121A1; US20140134740A1; US9493750B2; US20190169640A1; IL222961B; JP6208580B2; JP2016182143A; CN103025344A; EP2571512B1; US9322005B2

Abstract

本文公开了多肽、编码多核苷酸、包含新型DNA-结合结构域的细胞和生物，该新型DNA-结合结构域包括TALE DNA-结合结构域。也公开了使用这些新型DNA-结合结构域用于调节内源性细胞序列的基因表达和/或基因组编辑的方法。

Description

新型DNA-结合蛋白及其用途

相关申请的交叉引用

本申请要求2010年5月17日提交的美国临时申请No.61/395,836；2010年8月12日提交的61/401,429；2010年10月13日提交的61/455,121；2010年12月20日提交的61/459,891；2011年2月2日提交的61/462,482；2011年3月24日提交的61/465,869的权益，所述申请的公开内容通过引用方式整体并入。

在政府资助研究下进行的发明权利声明

不适用。

发明领域

本发明提供使用工程化DNA结合蛋白用于内源性基因和其他基因组基因座的基因修饰以及表达状态的调节的方法。

发明背景

许多、可能大部分的生理和病理生理过程可通过选择性上调或下调节基因表达来控制。通过选择性调节可控制的病理学的例子包括在类风湿性关节炎中促炎细胞因子的不恰当表达、在高胆固醇血症中肝LDL受体的低表达、在实体瘤生长中促进血管新生因子的过表达以及抗血管生成因子的低表达，仅示出几个例子。此外，诸如病毒、细菌、真菌和原生动物的病原生物可通过改变它们的宿主细胞的基因表达来控制。因此，对于能够简单上调有益基因和下调导致疾病基因的治疗途径的需求明显尚未满足。

此外，使得可选择性过表达和低表达选择的基因的简单方法在科学界具有巨大用途。使得可在细胞模型体系、转基因动物和转基因植物中调节基因的方法可广泛用于学术实验室、制药公司、基因公司以及生物技术领域。

通常通过改变称为转录因子的序列特异性DNA结合蛋白的功能来控制基因表达。它们用于影响在启动子处转录起始复合物的形成或功能的效果。转录因子可以积极方式(激活)或消极方式(抑制)作用。

转录因子功能可以为构成性(总是“作用”)或者条件性。可通过各种方式来赋予转录因子条件性功能，但是大量这些调控机制依赖于在细胞质中因子的隔绝，以及诱导性释放和随后核转位、DNA结合和激活(或者抑制)。以这种方式作用的转录因子的例子包括孕酮受体、固醇应答元件结合蛋白(SREBP)和NF-κB。有通过改变转录因子结合它们同源DNA识别序列的能力来应答磷酸化或小分子配体的转录因子的例子(Hou等，Science256：1701(1994)；Gossen&Bujard，Proc.Nat’lAcadSci89：5547(1992)；Oligino等，GeneTher.5：491-496(1998)；Wang等，GeneTher.4：432-441(1997)；Neering等，Blood88：1147-1155(1996)；以及Rendahl等，Nat.Biotechnol.16：757-761(1998))。

包含来自锌指蛋白(″ZFP″)的DNA结合结构域的重组转录因子具有调节内源性基因的基因表达的能力(参见，例如美国No.6,534,261；6,599,692；6,503,717；6,689,558；7,067,317；7,262,054)。使用这些包含工程化转录因子的锌指蛋白的临床试验已经显示：这些新型转录因子能够治疗各种病症。(参见，例如Yu等(2006)FASEBJ.20：479-481)。

在基因组生物学、特别是关于测定大量基因组中完整核苷酸序列中另一主要目标区是基因组序列的靶向改变。这些靶向切割活动可用于例如诱导细胞DNA序列的靶向诱变、诱导靶向缺失，以及促进在预定染色体基因座处靶向重组。参见，例如，美国专利公开20030232410；20050208489；20050026157；20050064474；20060188987；2008015996；以及国际公开WO2007/014275，其公开内容以引用方式整体并入以用于所有目的。也参见Santiago等(2008)ProcNatlAcadSciUSA105：5809-5814；Perez等(2008)NatBiotechnol26：808-816(2008)。

已将连接核酸酶的切割结构域至设计的DNA-结合蛋白(例如，连接至来自诸如FokI的核酸酶切割结构域的锌指蛋白(ZFP))的人工核酸酶用于在真核细胞中靶向切割。例如，已经显示，锌指核酸酶-介导的基因组编辑修饰在特定位置处人基因组的序列，通过(1)在期望修饰的靶位点处特异性产生在活细胞的基因组中双链断裂(DSB)；以及通过(2)使得可以天然机制来DNA修复以“治愈”该断裂。

为了增加特异性，使用在结合DNA时二聚化的一对或多对定制设计的锌指核酸酶来诱导切割活动以形成催化活性核酸酶复合物。此外，通过使用包括工程化切割半结构域的一对或多对锌指核酸酶来进一步增加特异性，该工程化切割半结构域仅在形成异源二聚体时切割双链DNA。参见，例如美国专利公开No.20080131962，其以引用方式整体并入本文中。

通过人工核酸酶产生的双链断裂(DSB)已经用于例如诱导细胞DNA序列的靶向诱变、诱导靶向缺失；以及促进在预定染色体基因座处靶向重组。参见，例如，美国专利公开20030232410；20050208489；20050026157；20050064474；20060188987；20060063231；20070218528；20070134796；20080015164和国际公开No.WO07/014275以及WO2007/139982，其公开内容以引用方式整体并入以用于所有目的。因此，在靶基因组位置处产生DSB的能力使得可基因组编辑任何基因组。

存在修复DSB-同源重组和非同源末端接合(NHEJ)的两个主要和不同的途径。同源重组需要作为模板(称为“供体”)的同源序列的存在以引导细胞修复过程，并且修复的结果是无误差的和可预测的。在缺乏同源重组的模板(或“供体”)序列下，细胞通常尝试通过NHEJ的易错过程来修复DSB。

已知黄单胞菌属(Xanthomonas)的植物致病细菌导致在重要作物中许多疾病。黄单胞菌属的致病性依赖于保守III型分泌(T3S)系统，其注入多于25种不同的效应物蛋白至植物细胞内。其中注入的蛋白为转录激活因子样效应物(“TALE”或“TAL-效应物”)，该转录激活因子样效应物模拟植物转录激活因子以及操纵植物转录组(参见Kay等(2007)Science318：648-651)。这些蛋白包含DNA结合结构域以及转录激活结构域。最良好表征的TALE之一是来自野油菜黄单胞菌辣椒斑点病菌(Xanthomonascampestrispv.Vesicatoria)的AvrBs3(参见Bonas等(1989)MolGenGenet218：127-136以及WO2010079430)。TALE包含介导DNA识别的集中重复结构域，其各重复单元包含指定一个靶碱基的约33-35个氨基酸。TALE也包含核定位序列和多个酸性转录激活结构域(关于概述参见SchornackS，等(2006)JPlantPhysiol163(3)：256-272)。此外，在植物致病细菌青枯雷尔氏菌(Ralstoniasolanacearum)的两个基因中，已经发现，指定的brg11和hpx17与在青枯雷尔氏菌生物变型1菌株GMI1000和在生物变型4菌株RS1000中黄单胞菌属的AvrBs3家族同源(参见Heuer等(2007)ApplandEnvirMicro73(13)：4379-4384)。这些基因的核苷酸序列彼此具有98.9％同一性，但是区别在于在hpx17的重复结构域中1,575bp的缺失。然而，两基因产物与黄单胞菌属的AvrBs3家族蛋白具有小于40％序列同一性。

这些TALE的DNA-结合特异性依赖于在串联TALE重复单元中发现的序列。重复的序列包含约33-35个氨基酸，并且重复序列(repeat)通常彼此具有91-100％同源性(Bonas等，同上)。在TALE靶序列中在位置12和13处高变二残基的同一性与毗连核苷酸的同一性之间似乎有一一对应性(参见Moscou和Bogdanove，(2009)Science326：1501以及Boch等(2009)Science326：1509-1512)。这些两个相邻氨基酸称为重复可变二残基(RVD)。经实验，已经确定这些TALE的DNA识别的天然编码，使得在位置12和13处HD序列可导致与胞嘧啶(C)结合；NG结合T；NI结合A；NN结合G或A；以及NG结合T。已经将这些特异性测定TALE重复单元组装至具有天然TALE重复单元和可变数量的重复序列的新组合的蛋白内，从而制备不同TALE蛋白。在这些天然结构中，这些变体能够与新序列相互作用，并且激活在植物细胞中报道基因的表达(Boch等，同上)。然而，这些蛋白保持天然(全长型)TALE蛋白结构，并且仅在构建体内TALE重复单元的数目和同一性改变。也已经将全部或几乎全部TALE蛋白稠合至FokI蛋白的核酸酶结构域以产生TALE-核酸酶融合蛋白(“TALEN”)，并且已经显示，这些TALEN切割在酵母细胞中游离报道基因(Christian等(2010)Genetics186(2)：757-61；Li等(2011a)NucleicAcidsRes.39(1)：359-372)。当采用合适的序列扩增方案时，这些构建体也修饰在酵母细胞中内源性基因至可量化水平，并且可修饰在哺乳动物和植物细胞中内源性基因至可检测、但无法量化水平。参见，Li等(2011b)NucleicAcidaRes.epubdoi：10.1093/nar/gkr188；Cermak等(2011)NucleicAcidsRes.epubdoi：10.1093/nar/gkr218。需要两步骤富集方案以检测在植物和动物细胞中活性的事实表明：在几乎全部TALE蛋白以及来自FokI蛋白的核酸酶结构域之间的融合没有有效修饰在植物和动物细胞中内源性基因。换而言之，在这些研究中使用的连接TALE重复阵列至FokI切割结构域的肽不能通过在高级真核生物中内源性基因的FokI结构域来有效切割。因此，这些研究强调对开发能够用于连接TALE阵列与核酸酶结构域的组合物的需求，该核酸酶结构域使得在内源性真核环境中高度有效切割。

对于工程化DNA结合结构域仍然有需求以增加这些结合蛋白在各种应用中的范围、特异性和有用性，包括在各种细胞类型和工程化核酸酶中调节内源性基因的工程化转录因子，该工程化转录因子可类似地用于各种模型、诊断和治疗体系、以及基因组工程化和编辑应用的各种方式中。

发明概述

因此，本发明提供靶向操纵内源性基因座的表达状态或序列的方法。在本发明的一些实施方案中，本发明的方法使用包含融合至功能蛋白结构域(通称“TALE-融合”)的一个或多个TALE-重复单元的DNA-结合蛋白以形成工程化转录因子、工程化核酸酶(“TALEN”)、重组酶、转座酶、整合酶、甲基化酶、酶结构域和报道基因。在一些方面中，多肽包括连接至另外的TALE蛋白序列的至少一个TALE重复单元，用于在内源性靶DNA处有效和特异作用。连接TALE重复结构域的N-末端和任选的C-末端的这些另外的序列也称为“N帽”和“C帽”序列。因此，本发明提供包含一个或多个(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或更多)TALE重复和/或半重复单元的多肽。

因此，在一方面中，本文提供包含至少一个TALE重复单元(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多重复单元)的DNA-结合多肽。多肽通常包括支持TALE重复单元的DNA-结合功能或者TALE融合蛋白的功能活性的任意长度的N帽序列(多肽)。任选地，多肽还可包括C帽序列(多肽)，例如小于约250个氨基酸(C+230C帽；从残基C-20至残基C+230)的C帽序列。此外，在某些实施方案中，如本文所述的TALE多肽的TALE重复单元的至少一个包括非典型的重复可变二残基(RVD)区域。TALE重复单元可以是从黄单胞菌属、青枯菌属(Ralstonia)或另外相关的细菌中分离的野生型结构域和/或可以一些方式将其工程化(例如，可以为非天然存在的)。在某些实施方案中，至少一个TALE重复单元被工程化(例如，非天然存在的、非典型的、密码子优化的、其组合等)。在某些实施方案中，将在TALE重复结构域(例如，在TALE重复单元之一内RVD)中一个或多个氨基酸改变，使得结构域结合选择的靶序列(通常与通过天然存在的TALEDNA结合结构域结合的靶序列不同)。在其他实施方案中，将至少一个TALE重复单元在TALE重复单元内在位置4、11、12、13或32处在一些或所有氨基酸处修饰。在一些实施方案中，将至少一个TALE重复单元在一个TALE重复单元内在位置2、3、4、11、12、13、21、23、24、25、26、27、28、30、31、32、33、34或35处在1个或多个氨基酸处修饰。在其他实施方案中，将编码TALE重复单元的核酸修饰，使得DNA序列改变，但是氨基酸序列未改变。在一些实施方案中，DNA修饰的目的是密码子优化。在进一步的实施方案中，通过联合上述修饰来改变至少一个TALE重复单元。在一些实施方案中，提供包含多个修饰的TALE重复单元的TALE蛋白。也提供天然存在的和非天然存在的TALE重复单元的组合。在优选的实施方案中，TALE蛋白(野生型或工程化)进一步包含N帽和任选的C帽序列，用于在内源性靶DNA处有效和特异性作用。在一些实施方案中，N帽包含残基N+1至N+136(参见图1B，用于描述残基编号方案)或其任意片段。在其他实施方案中，C帽包含残基C-20至C+28、C-20至C+39、C-20至C+55、或者C-20至C+63、或其全长型TALEC-末端的任意片段。在某些实施方案中，包含TALE重复结构域、以及N帽和任选的C帽序列的多肽进一步包含调控或功能结构域，例如，转录激活因子、转录抑制因子、核酸酶、重组酶、转座酶、整合酶、甲基化酶等。

编码这些蛋白的多核苷酸也提供为药物组合物。此外，本发明包括包含这些蛋白/多核苷酸和/或被这些蛋白修饰的(例如，传递至子代的基因组修饰)宿主细胞、细胞系和转基因生物(例如，植物、真菌、动物)。示例性细胞和细胞系包括动物细胞(例如，包括人的哺乳动物；细胞，例如干细胞)、植物细胞、细菌细胞、原生动物细胞、鱼细胞或真菌细胞。在另一实施方案中，细胞是哺乳动物细胞。也提供制备和使用这些蛋白和/或多核苷酸的方法。

在一方面中，本文提供包含一个或多个工程化TALE重复单元、N帽、和任选的C帽序列的融合蛋白，该融合蛋白可操作连接至一个或多个异源性多肽结构域，例如功能(调控)结构域。包含TALE重复单元的组件的文库提供为用于连接工程化TALE重复单元与目标功能蛋白结构域的任选结构的或柔性接头。功能蛋白结构域(例如，转录激活因子、抑制因子或核酸酶)可定位在融合蛋白的C-或N-末端处。也提供如本文所述的制备融合蛋白的方法。

本发明也提供用于鉴定工程化TALE融合蛋白的合适的靶序列(位点)的方法。在一些实施方案中，与天然TALE靶序列相比，经鉴定的靶位点具有增加数量的鸟嘌呤核苷酸(“G”)。在其他实施方案中，靶无需旁侧胸腺嘧啶核苷酸(“T”)，如通常天然存在的TALE蛋白那样。在一些实施方案中，在工程化TALE蛋白中选择使用的RVD包含在靶序列中用于识别G核苷酸的一个或多个NK(天冬酰胺-赖氨酸)RVD。此外，在本发明中提供新型(非天然存在的)RVD，与天然存在的相区别，其能够识别核苷酸碱基。提供非典型或非天然存在的RVD(在TALE重复单元的位置12和13处氨基酸序列)的非限制性例子包括如表30A所示出的RVD，例如，VG和IA用于识别T；RG用于识别A和T；以及AA用于识别A、C、和T。也提供与所有核苷酸碱基(例如A、C、T和G)同等相互作用的RVD。在组合物中使用的另外的RVD以及本文所述的方法示出在表27中。

通过本发明也提供根据用户选择限制或不限制在通过TALE-核酸酶(“TALEN”)异源二聚体来修饰的核酸上两个靶位点之间的距离或缺口间距(gapspacing)的方法。在一些实施方案中，将缺口间距限制至12-13个碱基对，而在其他实施方案中，工程化TALEN经设计以切割包含12至21个碱基对的缺口间距的DNA靶。在一些实施方案中，TALEN异源二聚体经设计以切割包含在各单体结合位点之间1至34个核苷酸的缺口的序列。在另一实施方案中，将TALEN限制为利用包含+28C-末端截断(C+28C帽)的TALEN结构来切割具有12或13个碱基对缺口的靶。在其他实施方案中，使得设计的TALEN使用包含+63C-末端截断的TALEN结构来切割包含12至21个碱基对缺口间距的靶核酸，由于在缺口间距需求上的灵活性，其增加能够鉴定合适的TALEN靶位点的可能性。在一些实施方案中，TALEN具有工程化R1/2重复单元，使得R1/2重复单元能够靶向除T外的核苷酸碱基。

在另一方面中，本发明提供了工程化TALEDNA结合结构域融合的载体，其中载体包含TALE重复序列旁侧的TALEN帽和C帽序列以及使得可克隆多个TALE重复单元、接头序列、启动子、可选择标志物、多腺苷酸化信号位点、功能蛋白结构域等的位置。通过本文中发明也提供构建包括至少一个TALE-重复单元(例如，工程化)的组件档案文库的方法，用于快速组装特异性TALEDNA结合结构域结构域和包含这些结构域(例如，TALEN)的融合蛋白。

在又一方面中，本发明提供调节在细胞中内源性细胞基因的表达的方法，该方法包括以下步骤：使在内源性细胞基因中第一靶位点接触融合至功能结构域(例如，转录调节结构域)的第一工程化TALE，从而调节内源性细胞基因的表达。在另一方面中，本发明提供调节在细胞中内源性细胞基因的表达的方法，该方法包括以下步骤：使在内源性细胞基因中靶位点接触融合TALE蛋白，其中TALE包含工程化TALE重复结构域，使得TALE具有对所需序列的特异性。在一些实施方案中，调节作用是用于激活内源性基因的表达。在一些实施方案中，内源性基因的表达被抑制。在又一实施方案中，通过结合TALE融合蛋白来调节内源性基因的激活或抑制，使得内源性激活因子或抑制因子不能结合目标基因的调节区域。

在一个实施方案中，接触步骤进一步包括使在内源性细胞基因中第二靶位点接触第二工程化TALE融合蛋白，从而调节第二内源性细胞基因的表达。在另一实施方案中，第一和第二靶位点相邻。在某些实施方案中，第一和第二靶位点在不同基因中以例如使用TALE-转录因子来调节两个或更多个基因的表达。在其他实施方案中，例如当一对TALEN融合蛋白用于切割相同基因时，第一和第二靶位点在相同基因中。通过任意碱基对(“缺口大小”)，例如，1至20(或之间任意数目)或甚至更多碱基对来分离第一和第二靶位点。在另一实施方案中，接触步骤包括使接触多于两个靶位点。在某些实施方案中，通过两对TALEN来使两组靶位点接触，并且该两组靶位点用于在两组靶处产生特异性缺失或插入。在另一实施方案中，第一TALE蛋白是包含调控或功能结构域的融合蛋白。在另一实施方案中，第一TALE蛋白是包含至少两个调控或功能结构域的融合蛋白。在另一实施方案中，第一和第二TALE蛋白是各自包含调控结构预的融合蛋白。在另一实施方案中，第一和第二TALE蛋白是各自包含两个调控结构域的融合蛋白。可将一个或多个功能结构域融合至TALE蛋白的各(或两)端。任意TALE融合蛋白可提供为编码这些蛋白的多核苷酸。

在又一方面中，本发明提供连接核酸酶结构域至TALE重复结构域的如本文所述的C帽的组合物，其中所得融合蛋白展现出高活性核酸酶功能。在一些实施方案中，C帽包含来自天然TALEC-末端旁侧序列的肽序列。在其他实施方案中，C帽包含来自TALE重复结构域的肽序列。在又一实施方案中，C帽包含不是源于TALE蛋白的序列。C帽还可展现出例如包含来自天然TALEC-末端旁侧序列和/或TALE重复结构域和/或非TALE多肽的肽序列的嵌合结构。

在本文所述的任意组合物或方法中，调控或功能结构域选自转录抑制因子、转录激活因子、核酸酶结构域、DNA转甲基酶、蛋白乙酰转移酶、蛋白脱乙酰基酶、蛋白甲基转移酶、蛋白脱氨基酶、蛋白激酶和蛋白磷酸酶。在一些方面中，功能结构域是表观遗传性调节子。在植物中，通过使用标准技术的异交(out-crossing)可去除TALE融合。在这些实施方案中，融合蛋白包含表观遗传性调节子，例如限制性例子为组蛋白甲基转移酶、DNA甲基转移酶、或组蛋白脱乙酰基酶。参见，例如，共同拥有的美国专利7,785,792。

因此，在一些方面中，TALE融合蛋白包含融合至核酸酶结构域(“TALEN”)的TALE-重复结构域。如上所示，在一些实施方案中，将TALE重复结构域进一步融合至N帽序列，以及任选地C帽序列。在其他实施方案中，通过提供核酸酶结构域的有效催化功能的接头肽序列使核酸酶结构域连接N帽的氨基末端或者C帽的羧基末端。核酸酶结构域可以为天然存在的或者可以为工程化或非天然存在的。在一些实施方案中，核酸酶结构域源于IIS型核酸酶(例如FokI)。在其他实施方案中，TALEDNA结合结构域可操作连接至BfiI核酸酶结构域。在一些实施方案中，FokI结构域是包含两个切割半结构域的单链核酸酶结构域，并且在其他中，其是FokI切割半结构域。在本发明的一些方面中，单个TALEN蛋白单独使用以诱导在靶DNA中双链断裂，而在其他中，TALEN用作一对核酸酶的一部分。在一些实施方案中，该对核酸酶包含两个TALEN，该TALEN包含FokI半结构域，其中FokI半结构域的对需要获得DNA切割，而在其他情况下，将TALEN蛋白联合锌指核酸酶使用，其中两个FokI切割结构域的对需要达到DNA切割。在一些实施方案中，将TALEDNA结合结构域融合至锌指以制备锌指/TALE杂交DNA结合结构域。在一些例子中，杂交DNA结合结构域能够跳过在DNA靶结合位点内与DNA碱基的相互作用。在一些实施方案中，FokI结构域能够形成同型二聚体，以及在其他例子中，对靶向切割活性需要来自TALEN对的各成员的两不相同的FokI切割结构域的杂二聚化。在这些杂二聚化的TALEN对中，相同类型的两FokI结构域不能产生同型二聚化。在其他实施方案中，使用TALEN对，其中一个FokI切割结构域失活，使得可出现配对，但是将靶DNA切口以产生在DNA分子的一个链上的切口，而不是切割双链。

在本文所述的任意组合物或方法中，通过TALE融合蛋白核酸可编码TALE融合蛋白。在某些实施方案中，编码TALE融合蛋白的序列可操作连接至启动子。因此，在某些实施方案中，调节内源性基因表达或基因组修饰的方法进一步包括将编码TALE蛋白的核酸第一次施用至细胞的步骤。TALE-融合蛋白可以从表达载体中表达，例如逆转录病毒的表达载体、腺病毒表达载体、DNA质粒表达载体或AAV表达载体。在一些实施方案中，表达载体是慢病毒载体，并且在这些实施方案的一些中，慢病毒载体是缺陷性整合酶。

在本发明中也提供对在任意细胞类型中任意期望靶基因座(例如，内源性基因)特异的TALEN(例如，TALEN对)。非限制性例子包括对NTF3、VEGF、CCR5、IL2Rγ、BAX、BAK、FUT8、GR、DHFR、CXCR4、GS、Rosa26、AAVS1(PPP1R12C)、MHC基因、PITX3、ben-1、Pou5F1(OCT4)、C1、RPD1等特异的TALEN。

如本文所述的TALE-重复结构域在内源性细胞基因的转录起始位点的上游或邻近处可结合靶位点。可选择地，靶位点可邻近在内源性细胞基因的转录起始位点下游处的RNA聚合酶中断位点。在又进一步的实施方案中，TALE融合蛋白(例如，TALEN)结合在诸如前导序列、尾随序列或内含子的基因的编码序列内或者在基因内或邻近基因处的非编码序列中的位点；或者在编码区的上游或下游的非转录的区域内。

在另一方面中，本文描述用于切割在细胞中一个或多个目标基因的方法，该方法包括：(a)将在使得将TALEN蛋白表达以及一个或多个基因被切割的条件下在一个或多个基因中结合靶位点的一个或多于一个、或者更多个TALEN蛋白(或者编码TALEN的多核苷酸)引入细胞内。在引入两个或更多个TALEN蛋白的实施方案中，可将一个、一些或全部作为多核苷酸或作为多肽引入。在一些方面中，所述基因切割导致靶向基因的功能破坏。靶向DNA的切割可在NHEJ之后，其中将小插入或缺失(插入/缺失(indel))在切割的位点处插入。然后通过在切割位置处引入非特异性突变这些插入/缺失导致功能破坏。

在又一方面中，本文描述引入外源性序列进入细胞的基因组的方法，该方法包括以下步骤：(a)将在使得将TALEN蛋白表达以及在基因内一个或多个靶位点被切割的条件下结合在靶基因中靶位点的一个或多个TALEN蛋白(或编码TALEN蛋白的多核苷酸)引入细胞内；以及(b)使细胞接触外源性多核苷酸；使得DNA靶位点的切割刺激外源性多核苷酸，从而通过同源重组整合至基因组内。在某些实施方案中，可将外源性多核苷酸物理整合至基因组内。在其他实施方案中，通过经与双链断裂的同源重组修复(homology-directedrepair)(HDR)相关的专门的核酸复制过程来拷贝外源性序列至宿主细胞基因组内将外源性多核苷酸整合至基因组内。在又一其他实施方案中，通过非同源依赖性靶向性整合(例如“末端捕获”)来整合至基因组内。在一些实施方案中，外源性多核苷酸包含通过同源重组酶(例如分别Cre或FRT)识别的重组酶识别位点(例如loxP或FLP)。在某些实施方案中，将外源性序列整合至小动物(例如兔或诸如小鼠、大鼠等的啮齿动物)的基因组内。在一个实施方案中，TALE-融合蛋白包含转座酶、重组酶或整合酶，其中将TALE-重复结构域工程化以识别特异性所需靶序列。在一些实施方案中，使用TALE多肽。在一些方面中，TALE-融合蛋白包含转座酶或整合酶，并且用于开发CHO-细胞特异性转座酶/整合酶体系。

在一些实施方案中，TALE-融合蛋白包含甲基转移酶，其中将TALE-重复结构域工程化以识别特异性所需靶序列。在一些实施方案中，将TALE-重复结构域融合至用于作用基因组或染色质的表观遗传修饰的蛋白复合物的亚单位。

在又进一步的实施方案中，TALE-融合进一步包含报道基因或选择标志物，其中TALE-重复结构域被工程化以识别特异性所需靶序列。在一些方面中，报道基因是荧光标志物，而在其他方面中，报道基因是酶。

在另一方面中，本文描述包含一种或多种TALE-融合蛋白的组合物。在某些实施方案中，组合物包含一种或多种TALE-融合蛋白与药学上可接受的赋形剂的组合。在一些实施方案中，组合物包含编码TALE融合蛋白的多核苷酸。一些实施方案包含组合物，该组合物包含编码TALEN的DNA分子。在其他实施方案中，组合物包含编码TALEN的RNA分子。一些组合物进一步包含核酸供体分子。

在另一方面中，本文描述编码本文所述的一种或多种TALE-融合蛋白的多核苷酸。多核苷酸可以是例如mRNA。

在另一方面中，本文描述TALE-融合蛋白表达载体，该TALE-融合蛋白表达载体包含编码本文所述的一种或多种TALE-融合蛋白的多核苷酸；所述多核苷酸可操作连接至启动子(例如，构成型、诱导型、组织特异性等)。

在另一方面中，本文描述宿主细胞，该宿主细胞包含一种或多种TALE-融合蛋白和/或一种或多种多核苷酸(例如，编码如本文所述的TALE-融合蛋白的表达载体)。在某些实施方案中，宿主细胞进一步包含一种或多种锌指蛋白和/或编码载体的ZFP。使用一种或多种这些蛋白表达载体可将宿主细胞稳定地转化或暂时性转染或其组合。在其他实施方案中，一种或多种蛋白表达载体在宿主细胞中表达一种或多种融合蛋白。在另一实施方案中，宿主细胞可进一步包含外源性多核苷酸供体序列。可采用任何原核或真核宿主细胞，包括但不限于细菌、植物、鱼、酵母、藻、昆虫、蠕虫或哺乳动物细胞。在一些实施方案中，宿主细胞是植物细胞。在其他方面中，宿主细胞是植物组织的一部分，例如植物的营养部分、贮藏器官、水果、花和/或种子组织。在进一步的实施方案中，宿主细胞是藻类细胞。在其他实施方案中，宿主细胞是成纤维细胞。在任一实施方案中，本文所述的宿主细胞可包含干细胞，例如胚胎干细胞。干细胞可以是哺乳动物干细胞，例如造血干细胞、间质干细胞、胚胎干细胞、神经元干细胞、肌肉干细胞、肝干细胞、皮肤干细胞、诱导多能干细胞和/或其组合。在某些实施方案中，干细胞是人诱导多能干细胞(hiPSC)或人胚胎干细胞(hESC)。在任一实施方案中，本文所述的宿主细胞可包含胚胎细胞，例如一种或多种小鼠、大鼠、兔或其他哺乳动物细胞胚胎。在一些方面中，干细胞或胚胎细胞在开发转基因动物中使用，该转基因动物包括具有TALE-介导的基因组修饰的动物，该TALE-介导的基因组修饰被整合至种系内，使得突变可遗传。在进一步的方面中，这些转基因动物用于研究目的，即小鼠、大鼠、兔；而在其他方面中，转基因动物是家畜动物，即牛、鸡、猪、氧等。在又进一步的方面中，转基因动物是用于治疗目的的那些，即，山羊、牛、鸡、猪；以及在其他方面中，转基因动物是同伴动物(companionanimal)，即猫、狗、马、牛或鱼。

通过本发明提供的另一方面是用于鉴定TALE结合的合适的核酸靶的方法。在一些实施方案中，基于其与通过典型的、天然存在的TALE蛋白使用的靶位点的类似性来选择靶。在其他实施方案中，因为工程化TALE蛋白已经以使得它们能够与非典型靶序列相互作用的方式改变，所以选择未被典型的、天然存在的TALE蛋白利用的靶。在一些实施方案中，这种改变包括非典型(非天然存在的或稀少的)RVD序列的选择。在进一步的实施方案中，使用的非典型RVD是在所需靶序列中用于识别G残基的‘NK’RVD。在其他实施方案中，因为工程化TALE蛋白已经以使得它们能够与非天然比例的核酸碱基相互作用的方式改变，所以选择包含非天然比例的核酸碱基的靶。在一些实施方案中，在所需靶序列中碱基比例包含异常数目的G残基。在其他实施方案中，在所需靶序列中碱基比例包含异常数目的非典型二核苷酸、三核苷酸或四核苷酸。进一步提供用于鉴定TALE-DNA结合相互作用的最佳靶的设计规则。这些规则提供对选择包含优化二核苷酸和三核苷酸对的靶位点序列的指导。此外，这些规则也提供对更少二核苷酸和三核苷酸对的指导，从而技术人员可根据需要避开这些序列。也提供能够与所有核苷酸相互作用的RVD，从而提供用户选择靶序列的更大的灵活性。

在一方面中，本发明提供用于体内基因组操纵的组合物和方法。在某些实施方案中，可将编码TALEN的mRNA注射至生殖腺、卵子或胚胎内以用于引入如所述的特异性DSB。在一些实施方案中，将供体核苷酸与TALENmRNA共同递送以产生在生物中特异性靶向性整合。

在又进一步的方面中，本文提供包含本发明的TALE-结构域蛋白(以及包含这些TALE-重复蛋白的融合蛋白)的试剂盒。这些试剂盒可用于帮助用户的基因组操纵以及可提供例如切割在基因组内所需靶或者安全港基因座(safeharborlocus)的TALEN。可将TALEN作为核酸(例如DNA或RNA)提供或者作为蛋白提供。在一些例子中，可配制蛋白以增加稳定性，或者以干燥形式提供蛋白。在一些例子中，试剂盒用于诊断目的。在一些例子中，在试剂盒中包括的TALE-融合是转录调节因子。在一些例子中，TALE-融合包含报道基因。

附图简述

图1，图A和B示出TALE蛋白。图1A示出TALE蛋白的结构域结构的示意图(未按比例显示)。‘N’和‘C’分别指示氨基和羧基末端。TALE重复结构域、N帽和C帽被标记，并且示出在该蛋白中用于N帽和C帽的残基编码方案。“R0”表示在第一串联TALE重复序列前面的34个氨基酸，该第一串联TALE重复序列可与TALE重复单元具有一些结构同源性以及可指定在DNA靶序列中胸腺嘧啶。“R_1/2”表示C-末端TALE“半重复序列”，其是与典型TALE重复序列的前20个残基具有同源性的20个残基肽序列(编号C-20至C-1的残基)。NLS是核定位序列。AD是酸性激活结构域。图1B(SEQIDNO：135)显示使用克隆方案分离的克隆的天然TALE蛋白(下文称为“TALE13”)，设计该克隆方案以缺失N-末端1-152个氨基酸残基。在序列下通过粗黑线来表示N帽和C帽；示出在N帽中位置N+1和N+136以及在C帽中C+1和C+278。半重复序列是C帽的前20个残基以及表示为“C+1”的位置正前方的末端。在TALE重复序列和半重复序列中下划线残基表示氨基酸(RVD)，该氨基酸(RVD)指定在靶结合中通过重复序列接触的DNA核苷酸。

图2，图A和B显示使用TALE13(TR13)的预测靶的报道基因构建体。图2A(SEQIDNO：136)显示指示将1-4TR13靶插入载体内使用的克隆位点的报道基因载体的示意图。斜体区域是荧光素酶基因的启动子区域。图2B(SEQIDNO：137)显示包含两个TR13靶的使用的接头序列。

图3，图A和B显示包含0-4TR13靶(图3A)的报道基因构建体以及在荧光素酶报道基因构建体上通过TALE13-VP16融合蛋白(TR13-VP16，与来自VP16的激活结构域连接的TALE13)协同报道基因激活的示意图，该荧光素酶报道基因构建体包含分别表示为R13x1至R13x4的1至4个多个TR13靶(图3B)。pGL3是缺乏任意TR13靶元件的对照报道基因载体。

图4，图A和B显示通过TALEVP16融合蛋白的报道基因激活。图4A是添加或没有添加VP16结构域的TALE蛋白以及在研究中使用的报道基因构建体的示意图。R13x2示出其中两个TALE13(TR13)靶被插入的构建体，而R15x2示出其中两个TALE15(TR15)靶被插入的构建体。图4B显示通过具有VP16融合的TALE蛋白而不是通过TALE蛋白自身的报道基因激活。因此，在该测定中存在于TALE蛋白中天然转录激活结构域在哺乳动物细胞中没有功能。而且，观察到的转录活性对报道基因激活具有特异性，该报道基因激活仅出现在当正确的靶与它们对应的TALEVP16融合匹配时。克隆的TALE13和TALE15分别表示为TR13和TR15。TR13-VP16和TR15-VP16与具有稠合至它们的C-末端的另外的VP16激活结构域的TR13和TR15类似。

图5，图A和B示出相对启动子的靶序列布置的位置作用。图5A显示报道基因构建体的示意图，其中靶序列位于SV40启动子的近端(R13x4)或远端(R13x4D)。图5B显示通过指示的TALE的报道基因激活。“nR13V-d145C”是指含有SV40核定位序列、具有从C-末端缺失145个氨基酸残基的TR13序列(产生C+133C帽)以及VP16激活结构域的表达构建体，而“R13-VP16”是指包含TALE13序列和VP16激活结构域的表达构建体。如所示，(i)报道基因激活无需全长TALE的C-末端145个氨基酸；以及(ii)当使靶序列位于启动子序列的近端时，报道基因激活最大。

图6，图A和B是示出使用TALE融合的报道基因(荧光素酶)激活的图。图6A示出使用包含工程化TALE18蛋白(此处R23570，在此后图中称为NT-L)的融合蛋白的报道基因激活。报道基因构建体包含在荧光素酶基因上游的工程化TALE18靶的2个拷贝。仅观察到R23570V的该报道基因的激活，该R23570V包含17.5个工程化重复序列(17个完整TALE重复序列以及一个半重复序列)、TR13旁侧的串联TALE重复序列的N-和C-末端序列(N帽和C帽)以及VP16激活结构域。N-和C-末端旁侧序列(N帽和C帽)的缺失破坏活性(比较nR23570S-dNC与模拟物(mock)。nR23570S-dNC包含SV40NLS(n)、融合至单个p65激活结构域(S)的17.5个工程化TALE重复序列，但是缺乏来自TALE(dNC)的N-和C-末端序列(N帽和C帽)。除了nR23570SS-dNC具有两个p65结构域外，它与nR23570S-dNC相同。R0-VP16构建体与R23570相同，但缺乏串联TALE重复序列。“模拟物”显示没有表达构建体的实验结果。图6B示出在染色体环境中通过包含工程化(非天然存在的)TALE18结构域的融合蛋白的内源性基因的激活。设计靶向NTF3基因的工程化TALE18(R23570V)可导致内源性NTF3mRNA水平的大量增加。在相同条件下，NTF3mRNA的表达不受R0-VP16或GFP的影响。如上示出R23570V和R0-VP16。

图7，图A至D示出另外的示例性NTF3-特异性TALE转录因子融合。图7A示出在NTF3启动子(SEQIDNO：138)中示例性蛋白和它们的靶的图。两种TALE转录因子变体连接至VP16激活结构域，并且表达在HEK293细胞中。在底部处序列显示人NTF3的启动子近端区域。划下划线的碱基示出NT-LTALE重复结构域的靶位点。弯曲箭头显示NTF3转录的起始位点。图7B显示在图7A中描绘的表达最多或最少蛋白的在HEK293细胞中NTF3mRNA相对水平。“eGFP”表示经增加GFP表达的对照质粒转染的细胞。以一式四份进行测定，并且误差条线示出标准偏差。图7C示出从在7A中描绘的表达最多或最少蛋白的HEK293细胞分泌的NTF3蛋白的水平。使用ELISA测定以一式两份进行测定，并且误差条线示出标准偏差。“Neg.”表示经空白载体对照转染的细胞。图7D显示RVD(字母最上一行)、预期结合位点(字母第二行)和NT-L的由SELEX衍生的碱基频率矩阵(在底部图)。除了在矩阵中第一和第五位置处外，最常选择的碱基匹配靶基因座序列。

图8，图A和B是示出如通过ELISA测定的各种工程化TALEDNA结合结构域的一系列N-和C-末端截断的DNA结合能力的图。图8A示出包含9.5个TALE重复序列的NT3-特异性TALEDNA结合结构域的数据；而图8B示出包含9.5个TALE重复序列的VEGF-特异性TALEDNA结合结构域的数据。对于两组数据，当制备N-末端截断时，在C+95位置处保留C-末端，而对于C-末端截断，在N+137位置处保留N-末端(这些构建体具有附接N+136N帽残基的甲硫氨酸残基)。如所示，当将蛋白在比N+134位置更远的N-末端截断时，在该测定的条件下两种蛋白相对DNA亲和力均显示明显降低。此外，当将C-末端截断跨过氨基酸C+54时，在该测定的条件下两种蛋白相对DNA亲和力均显示明显降低。

图9，图A和B示出如通过ELISA测定的如上所述一系列N-和C-末端截断的DNA结合活性。在图9A中，显示NTF3-特异性TALEDNA结合结构域的数据，但在该例子中，当待测试N-末端截断时，在C+54位置处保持C-末端。对于C-末端截断，N-末端氨基酸是N+134位置。在图9B中，显示VEGF-特异性TALEDNA结合结构域的数据。如所示，如上图9A所示保持N-和C-末端。

图10显示包含活性的TALE功能结构域的剖析。研究如表16中所图示的指示构建体的报道基因激活活性。结果显示(i)在该测试中有效功能需要N-末端152个氨基酸和C-末端183个氨基酸；以及(ii)包括R0区域和富含亮氨酸的结构域的串联TALE重复序列旁侧的序列恢复在该测试中细胞中功能活性。在第一TALE重复序列之前的N-末端序列或者在最后重复序列的后面的C-末端序列的缺失均破坏该测试中功能。R13V-d145C具有C+133C帽；R13V-d182C具有C+95C帽；R13V-dC具有C+22C帽；nR13V-dN具有N+8N帽；nR13V-d223N具有N+52N帽以及nR13V-d24具有N+34N帽。

图11，图A和B示出在K562细胞中连接FokI结构域的两个拷贝的TALE13的核酸酶活性。图11A示出在哺乳动物细胞中检测核酸酶活性的基于单链退火的报道基因测定(SSA)的示意图。在该测试中报道基因构建体(SSA-R13)含有TALE13靶，该TALE13靶夹在GFP编码序列的N-末端(GF)和C-末端部分(FP)之间。质粒SSA-R13自身不能驱动GFP表达，但R13靶的切割促进GFP的N-末端(GF)和C-末端(FP)部分的同源重组，从而形成功能性GFP。因此，通过分析GFP阳性细胞的百分比例来评估TALEN蛋白的核酸酶活性。图11B通过TALEN蛋白证实核酸酶活性。与没有核酸酶质粒的对照实验(模拟物)相比，使用TALEN(R13d182C-scFokI；C+95C帽)从SSA-R13报道基因构建体产生的GFP阳性细胞显著增加。除了通过FokI结构域之间GGGGS序列的12个拷贝连接的FokI结构域的两个拷贝用于替代VP16激活结构域之外，R13d182C-scFokI与如上所述的R13V-d182C相同。

图12示出显示TALE-13效应物结构域-FokI切割半结构域体外融合的核酸酶活性的溴化乙锭凝胶。列显示四种TALE结构域核酸酶切割蛋白的数据：使用L2或L8接头与N+137、C+28构型的核酸酶融合(参见实施例7)；使用L2接头与N+137、C+39构型的核酸酶融合；以及使用L2接头的N+137、C+63融合。在两个靶位点之间的缺口间距显示在孔下方，其中数目表示在靶之间的bp数目。“S”表示仅该对的一半的单个靶位点。“PmlI”表示使用标准限制性酶的切割以及空白表示没有核酸酶编码质粒下进行的实验结果。

图13是通过表示的TALE13-FokI切割半结构域融合获得的DNA切割的图。“二聚体缺口”表示两个靶位点之间bp的数目，以及“DNA切割％”表示在反应中有多少DNA被切割。结果表示在这些反应条件下使用四种测试的核酸酶中三种几乎可获得100％DNA切割。

图14示出显示TALE结构域-FokI半切割结构域融合的核酸酶活性的溴化乙锭染色凝胶。在该实验中，N-末端不同，而C-末端保持C+63构型。对于图12，Pml1和Blank对照相同。在该实验中测试的N-末端截断是N+137、N+134、N+130和N+119。不同DNA靶位点示出在图12中，除了标记是在同源泳道上而不是在其下面。当N-末端比约+134至+137更短时，核酸酶的活性减弱。承载在5bp缺口和8bp缺口靶的各泳道中DNA的量不均匀，所以由于在反转重复序列中无效PCR而难于确定在这些泳道中较低带是否存在DNA切割产物或者本底带。

图15，图A和B示出在K562细胞中TALEN活性。图15A(SEQIDNO：342)示出在报道基因质粒中用于靶向TALE对的NTF3使用的靶序列，其也包括用于CCR5-特异性ZFN(8267/8196)的对的结合位点。图15B是示出SSA核酸酶测定的结果的图，其中(-)NT3R18C28L8(浅灰色条；C+28C帽，L8接头)示出当NTF3-特异性对的仅一个成员出现时观察到的数据，而(+)NT3R18C28L8(深灰色条)示出当该对的两个成员均出现时的结果。“8267EL8196KK”示出使用CCR5-特异性ZFN对的结果。

图16示出在经各对靶向TALEN的NTF3处理的细胞上Cel-ISurveyor^TM错配测定(Transgenomics，“Cel-I测定”)的结果。编号为1-30的样品如文本中所述。(+)表示添加Cel-I酶；(-)表示没有添加酶的测定。在大部分样品中约226bp的带明显，这表示由通过核酸酶的内源性NTF3靶的切割诱导的错配，随后为引入具有野生型序列的错配区域的非同源性末端接合。“gfp”表示对照，其中仅使用GFP编码质粒来转染细胞。在凝胶上定量的NHEJ活性％表示在包含Cel-I酶的各样品中。凝胶证实这些对诱导在这些样品中在哺乳动物细胞中该内源性基因座处至多8.66％的总等位基因的靶向基因座破坏。

图17，图A至C示出在K562细胞中NTF3-特异性TALEN的活性。图17A显示称为NT-R的工程化TALEN蛋白的SELEX特异性数据，该NT-R是用于NT-LTALEN融合制备的工程化配偶体(partner)。预期碱基和对应的RVD显示在绘图上。+63C-末端旁侧区用于该SELEX实验。图17B显示在K562细胞中使用四个NTF3-特异性TALEN对的Cel-I测定的凝胶结果，其中培养条件为30℃或37℃。如从呈现数据可见，大多数活性对在37℃下显示3％的基因修饰水平并且在冷激条件(30℃)下显示9％的基因修饰水平。(Doyon等(2010)NatMethods8(1)：74-9.Epub2010年12月5日和美国申请No.12/800，599)。然后将冷激研究中来自PCR池的84扩增子测序，并且鉴定七种突变等位基因，其显示在图17C(SEQIDNO：343-350)中。如所示出，观察到插入/缺失。

图18，图A和B示出在K562细胞中使用TALEN进行NTF3基因座的内源性切割后所观察到的测序结果。图18A示出染色体序列(SEQIDNO：139-140)以及方框描绘两个TALEN的结合位点。图18B示出来自经在实施例8中所述的与野生型(“wt”)序列(SEQIDNO：141-175)比对的不同NTF3TALEN对处理的细胞的NTF3基因座的测序结果的编辑。

图19示出在内源性基因处通过由NTF3-特异性TALEN诱导的DSB的靶向性整合事件(targetedIntegrationevent)的结果。合成在DSB中捕获用寡核苷酸，使其包含与在TALEN结合位点之间空间内所有可能序列相对应的突出端(overhang)。使用一组引物来进行PCR，该引物将插入的寡核苷酸和区引出设想切割位点处。测试八(8)个不同对的NTF3-特异性TALEN，其中这些对标记A-H。图例显示凝胶部分，该凝胶部分示出如何读出泳道。

图20，图A至D显示在该基因座处通过TALEN对诱导DSB之后在内源性染色体基因座处通过NHEJ介导的寡核苷酸双链体的捕获。图20A显示NTF3靶基因座的一部分(双链体顶部，SEQIDNO：351)以及用于该研究的寡核苷酸双链体之一(双链体底部，SEQIDNO：352)。在顶部序列中NT-L+28和NT-R+63的结合位点划下划线。也突出显示最有效捕获双链体(5’CTGG)的切割突出端。图20B显示NTF3靶基因座的一部分(顶部双链体，SEQIDNO：353)以及用于该研究的第二寡核苷酸双链体(底部序列，SEQIDNO：354)。在顶部序列中NT-L+28和NT-R+63的结合位点划下划线。也显示最有效捕获该第二双链体(5’TGGT)的切割突出端。图20C(SEQIDNO：355-357)显示在图20A中所示寡核苷酸双链体的存在下在K562细胞中进行NT-L+28和NT-R+63表达后的结果。然后使用在双链体内退火的一种引物以及与天然NTF3基因座退火的一种引物将在成功整合的双链体和基因组DNA之间的接点扩增。将所得扩增子克隆和测序。在顶部处“预期”序列表示由寡核苷酸双链体完全连接至切割的基因座的序列。方框突出显示在连接序列中双链体突出端的位置。底部的两根线提供由该研究获得的连接序列。如所示，11种连接序列由双链体完全连接至切割突出端而产生，而一个连接序列展现出与在通过NHEJ修复之前的切除一致的短缺失(12bp)。图20D(SEQIDNO：358-362)显示除了使用在图20B中所示寡核苷酸双链体之外如在图20C中所示的实验结果，其具有被与在图20A中所示的双链体相关的一个碱基转移的4bp突出端。最低处四根线提供从该研究中获得的连接序列。如所示，鉴定四种不同序列，其分别展现出与在NHEJ-介导的修复之前的切除一致的短缺失。

图21示出在PCR扩增时在天然TALE重复结构域中形成的多种预测的可能的二级DNA结构，该PCR扩增可破坏模板的有效扩增。使用Mfold来进行TALE-重复蛋白的DNA序列分析(M.ZukerNucleicAcidsRes.31(13)：3406-15，(2003))。在编码第一完整TALE重复序列的核酸5’端处开始核酸序列的800个碱基对分析。分析的序列包含约7.5个重复序列。分析揭示多种非常稳定的二级结构。

图22示出显示在34个氨基酸重复单元中各位置处保守氨基酸的来自黄单胞菌属细菌的1963个TALE重复序列的计算机模拟(insilico)分析的图片结果(pictoralresult)。字母大小与在任意给定位置处观察到的多样性反相关：字母越大，表示多样性的公差越小；而字母越小，表示在给定位置处可观察到的氨基酸可替换。不同颜色阴影表示不同氨基酸的化学分类。在1963个TALE重复序列的该样品中，频率最高的RVD是：28.8％HD、20.6％NI、15.1％NN、13.2％NG、8.5％NS、5.5％HG以及5.5％NG*(其中星号表示：在33个残基的TALE重复序列中而非更典型的34个残基重复序列观察到RVD)。在该样品中观察到15种其他RVD序列，但这些全部具有小于1％的频率。

图23示出用于串联连接选择的TALE重复组件的PCR扩增子以及连接它们至载体主链内以产生所需TALE融合蛋白的方法示意图。特异性引物列出在实施例11中。也示出载体主链，组装的TALE融合克隆至其内。融合配偶体结构域是FokI核酸酶催化结构域以使得可制备TALEN对的一个成员。

图24，图A和B示出使用TALEN来驱动异源编码RFLP的短片段至内源性CCR5基因座内的基于同源性转移。图24A显示测试的示意图以及示出使用的PCR引物和BglI位点的位置。图24B示出显示将46bp供体序列插入通过CCR5-特异性TALEN对引入的DSB内的凝胶。供体序列包含独特的BglI限制性位点，所以如图所示，靶位点经PCR扩增后，然后使用BglI消化PCR产物，通过TALEN对已经切割以及已经插入46bp供体序列的序列将具有两种BglI切割产物。

图25，图A和B是示出如与靶缺口间距相比较的TALEN的切割效率的图。图25A示出一组具有+28/+28配对(在两TALEN上的C+28C帽)的CCR5-特异性TALEN对活性的图，而图25B示出一组包含+63/+63配对(在两个TALEN上C+63C帽)的CCR5-特异性TALEN对活性的图。如所示，+28/+28对的活性受到在两个靶序列之间的12或13bp缺口间距的更严格限制，而+63/+63对在12-23bp的缺口间距范围内展现出活性。

图26是示出具有不同长度C帽序列(或者以另外方式表述，连接完整TALE重复序列的阵列至核酸酶结构域的不同序列)的CCR5-特异性TALEN对的内源性活性的图。穿过C-末端序列来制备C末端截断以产生由C-2至C+278的C帽。在K562细胞中测试这些构建体对具有18bp缺口间距的内源性靶的TALEN活性，其中将细胞在37℃(浅正方形)或者冷激条件(30℃，深菱形)下孵育。活性高度取决于用于连接完整TALE重复序列的阵列与FokI切割结构域的序列的识别。注意，C帽符号不包括C+0，所以描绘在X＝0处的C-1C帽值以及C-2描绘为X＝-1。C+5、C+28等描绘为X＝5、X＝28等。观察到C+63C帽序列的峰活性。

图27示出RVD分析选择的示例性TALEN的特异性。TALEN经设计结合11个碱基靶序列5’-TTGACAATCCT-3’(SEQIDNO：178)。当在位置6处改变该靶，使得在位置5-7处靶识别为CAA(设计的靶)、CGA、TCG或TTG时，显示通过ELISA分析测定的DNA结合结果。

图28是经测定的所有测试的RVD的ELISA亲和力的图形显示。在20x20格子中显示数据，其中RVD的第一氨基酸(位置12)示出在格子的垂直左方以及RVD的第二氨基酸(位置13)示出格子的水平上方。在各格子中字母A、C、G、和T的大小与CAA位点、CCA位点、和CGA位点以及CTA位点各自的归一化ELISA信号的平方根成比例。相对于天然存在的HD、NI、NG、NS、NN、IG、HG和NKRVD，许多RVD已经改善DNA结合性能。在自然界中最常见的四种RVD(HD、NG、NI、和NN)框选作为参照。对于该四种RVD，通过ELISA的优选碱基匹配预期优选碱基。

图29是示出TALEN活性的测定结果的凝胶，其中C-末端半重复序列在RVD处改变以使得与核苷酸碱基而非T可相互作用。显示如通过如上所述的Cel-I测定确定的TALEN活性。箭头表示在插入/缺失处Cel-I切割的结果的带。泳道分配列出在实施例16，表32中。这些结果证实：可将TALENC-末端半重复序列工程化以结合如所需的各核苷酸碱基。

图30是示出使用具有TALE重复单元的TALEN来测定TALEN活性的凝胶，该TALE重复单元包含完整非典型RVD(完全取代)；重复结构域，其中一种重复单元或特异性重复单元的全部被非典型RVD(类型取代)取代(例如具有指定为‘T’等的RVD的所有重复单元)；或者TALEN，其中具有阵列的仅一个重复单元被包含非典型RVD的重复单元(单取代)取代。活性测试时在37度或在冷激条件(30度)下进行，并且任意可测定NHEJ活性的量显示在泳道上。

图31是在新生大鼠中在进行大鼠胚胎的TALEN处理之后示出NHEJ事件的存在的一系列凝胶。将基因组DNA从幼鼠中分离，然后在核酸酶靶位点周围的区域进行PCR。然后使用T7核酸内切酶来检测产物的由NHEJ诱导的错配。箭头表示在错配的存在下生成的带。检测的66只幼鼠中7只(11％)为NHEJ事件阳性。

发明详述

简介

本申请证实，可将TALE-重复结构域工程化以识别所需内源性DNA序列以及融合功能结构域至这些工程化TALE-重复结构域可用于修饰包括基因的内源性细胞基因座的功能状态或者实际基因组DNA序列，该内源性细胞基因座存在于它的天然染色质环境中。因此，本发明提供已经工程化以特异性识别包括基因的高效、内源性细胞基因座的TALE-融合DNA结合蛋白。因此，通过内源性基因转录的激活和表达，本发明的TALE-融合可用于调控内源性基因表达。TALE-融合也可连接诸如核酸酶、转座酶或甲基化酶的其他调控或功能结构域以修饰内源性染色体序列。

本文所述的方法和组合物使得可用于人和哺乳动物的新型治疗应用中，例如治疗遗传疾病；癌症；真菌、原生动物、细菌和病毒感染；局部缺血；血管疾病；关节炎；免疫失调等，以及可用于提供功能基因组测定，以及产生用于研究和药物筛选的工程化细胞系，以及开发包括但不限于增加抗病性和改变水果成熟特征、糖和油组合物、产量和颜色的具有改变的表型的植物的方法。

如本文所述的，可将两种或多种TALE-融合施用至任何细胞，该两种或多种TALE-融合识别相同靶内源性细胞基因或不同靶内源性细胞基因。

在另一实施方案中，TALE-融合蛋白连接下述的至少一个或多个调节结构域。调控或功能结构域的非限制性例子包括转录因子抑制因子或激活因子结构域例如KRAB和VP16、辅助抑制因子和辅助激活因子结构域、DNA转甲基酶、组蛋白乙酰转移酶、组蛋白脱乙酰基酶及诸如来自核酸内切酶Fokl的切割结构域的DNA切割结构域。

本文也描述包括融合蛋白的组合物和方法，该融合蛋白包含一个或多个TALE-重复单元、N帽以及任选地融合至核酸酶结构域的C帽，该组合物和方法用于外源性序列的基因组编辑(例如，基因的切割；基因的改变，例如通过外源性序列的插入(物理插入或通过同源重组修复的插入)后切割和/或通过NHEJ后切割；一个或多个基因的部分或完全失活；具有内源性基因的不同功能状态的等位基因的产生；调控元件的插入等)以及在种系中进行的基因组改变。也公开制备和使用例如用于编辑(改变)在靶细胞中一个或多个基因的这些组合物(试剂)的方法。因此，本文所述的方法和组合物提供用于改变靶向基因(例如，敲入)和/或敲除(部分或完全)一个或多个基因和/或用于使任意靶等位基因随机突变因而使得可生成人疾病的动物模型的高效方法。

本文也公开用于连接核酸酶结构域至提供高活性核酸酶功能的TALE重复阵列的组合物(C帽)。在一些实施方案中，C帽包含来自天然TALEC-末端旁侧序列的肽序列。在其他实施方案中，C帽包含来自TALE重复结构域的肽序列。在又一实施方案中，C帽包含非-TALE序列。C帽也可展现出包含来自天然TALEC-末端旁侧序列和/或TALE重复结构域和/或非这些来源的肽序列的嵌合结构。

也可将TALEN工程化以使得可将目标供体插入安全港基因座内，例如AAVS1(参见共同拥有的美国专利公开20080299580)或者CCR5(参见共同拥有的美国专利公开20080159996)。供体可包含目标基因或者可编码目标RNA，例如shRNA、RNAi或miRNA。

通过作为典型的tet-调节体系和RU-486体系的体系也可控制工程化TALE-融合蛋白(例如，转录激活因子、转录抑制因子和核酸酶)的表达(参见，例如Gossen&Bujard，ProcNatlAcadSci89：5547(1992)；Oligino等，GeneTher.5：491-496(1998)；Wang等，GeneTher.4：432-441(1997)；Neering等，Blood88：1147-1155(1996)；以及Rendahl等，Nat.Biotechnol.16：757-761(1998))。这些赋予对TALE-融合激活因子和抑制因子表达的小分子控制，因而赋予对目标靶基因的小分子控制。该有益特征可用于细胞培养模型中、基因治疗中以及转基因动物和植物中。

概述

除非另有说明，本文所公开的方法的实施以及组合物的制备和使用采用在分子生物学、生物化学、染色质结构和分析、计算化学、细胞培养、重组DNA和相关领域中常规技术，这些技术均在本领域的技术范围内。这些技术在文献中完整地解释。参见，例如，Sambrook等MOLECULARCLONING：ALABORATORYMANUAL，第二版，ColdSpringHarborLaboratoryPress，1989以及第三版，2001；Ausubel等，CURRENTPROTOCOLSINMOLECULARBIOLOGY，JohnWiley&Sons，纽约，1987以及定期更新；系列METHODSINENZYMOLOGY，AcademicPress，SanDiego；Wolffe，CHROMATINSTRUCTUREANDFUNCTION，第三版，AcademicPress，SanDiego，1998；METHODSINENZYMOLOGY，304卷，“CHROMATIN”(P.M.Wassarman和A.P.Wolffe编辑)，AcademicPress，SanDiego，1999；以及METHODSINMOLECULARBIOLOGY，119卷，“ChromatinProtocols”(P.B.Becker编辑)HumanaPress，Totowa，1999。

定义

术语“核酸”、“多核苷酸”和“寡核苷酸”可交换使用并且是指直线或环状构象的单或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开，这些术语不应当解释为对聚合物长度的限制。术语可涵盖天然核苷酸以及碱基、糖和/或磷酸部分(例如，硫代磷酸主链)被修饰的核苷酸的已知类似物。通常，特定核苷酸的类似物具有相同碱基配对特异性，即，A的类似物将与T碱基配对。

术语“多肽”、“肽”和“蛋白”可交换使用以表示氨基酸残基的聚合物。术语也应用于氨基酸聚合物，其中一种或多种氨基酸是对应天然存在的氨基酸的化学类似物或修饰衍生物。

“结合”是指在大分子之间(例如，蛋白和核酸之间)序列特异性、非共价相互作用。并非所有组分的结合相互作用都需要序列特异性(例如，在DNA主链中与磷酸残基作用)，只要作为总体的相互作用为序列特异性的。这些相互作用特征通常在于10^-6M或更低的离解常数(K_d)。“亲和力”是指结合强度：亲和力增加与较低K_d相关。

“结合蛋白”是能够非共价结合另一分子的蛋白。结合蛋白可结合例如DNA分子(DNA-结合蛋白)、RNA分子(RNA-结合蛋白)和/或蛋白分子(蛋白-结合蛋白)。在蛋白-结合蛋白的情况下，它可结合自身(以形成同型二聚体、同型三聚体等)和/或它可结合一种或多种不同蛋白的一种或多种分子。结合蛋白可具有多于一种结合活性。例如，锌指蛋白具有DNA-结合、RNA-结合和蛋白-结合活性。

“TALE-重复结构域”(也称为“重复阵列”)是牵涉TALE与其同源靶DNA序列结合的序列，以及该序列包含一个或多个TALE“重复单元”。单个“重复单元(也称为“重复序列”)的长度通常为33-35个氨基酸以及与在天然存在的TALE蛋白内其他TALE重复序列展现出至少一些序列同源性。如本文所述的TALE重复单元通常是形式(X)^1至11-(X^RVD)₂-(X)_20-22(SEQIDNO：399)，其中在天然存在的TALE蛋白中X^RVD(位置12和13)展现出高可变性。改变在位置12和13处的氨基酸同一性可改变与重复单元相互作用的DNA核苷酸(或者在双链DNA中互补核苷酸对)的同一性的优选性。“非典型的”RVD是在自然中较稀少或不存在的RVD序列(位置12和13)，例如，小于5％的天然存在的TALE蛋白，优选小于2％的天然存在的TALE蛋白和甚至更优选小于1％的天然存在的TALE蛋白。非典型RVD可以为非天然存在的。

术语“N帽”多肽和“N-末端序列”用于指旁侧连接TALE重复结构域的N-末端部分的氨基酸序列(多肽)。N帽序列可以具有任意长度(包括没有氨基酸)，只要TALE-重复结构域用于结合DNA。因此，N帽序列可牵涉提供TALE重复结构域的合适结构稳定性和/或与DNA的非特异性接触。N帽序列可以为天然存在的或非天然存在的，例如它可由任意全长TALE蛋白的N-末端区衍生。N帽序列优选为全长型TALE蛋白中存在的多肽片段(截断)，例如在足够支撑TALE-重复结构域的DNA-结合功能或者提供对TALE融合蛋白活性的支撑的天然存在的TALE蛋白中旁侧连接TALE重复结构域的N-末端区的任意截断。当各TALE-重复单元包含典型RVD时和/或当C帽包含TALE蛋白的全长型天然存在的C-末端区时，N帽序列不包含天然存在的TALE蛋白的全长型N-末端区。因此，如上所述，该序列不必牵涉DNA识别，但可增强内源性靶DNA处有效和特异性功能或者TALE融合蛋白的有效活性。最靠近TALE重复结构域的N-末端部分的N帽序列部分可与TALE重复单元具有一些同源性并且称为“R0重复序列”。通常，在靶位点的5′位置处的优选核苷酸是胸腺嘧啶(T)。也可以是，N帽的R0重复部位优选与通过TALE重复序列指定的靶序列相邻的T(或者在双链DNA中与T配对的A碱基)相互作用。以下示出R0序列的一个例子：

LDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLN(SEQIDNO：1)

术语“C帽”或“C-末端区”是指可旁侧连接TALE重复结构域的C-末端部分的任选存在的氨基酸序列(多肽)。C帽也可包含末端C-末端TALE重复序列的任意部分，包括0残基、TALE重复序列的截断或完整TALE重复序列。C-末端区的前20个残基通常与TALE重复单元的前20个残基同源以及可包含能够指示通过TALE重复结构域表示的DNA序列的核苷酸3′的优选性的RVD序列。当存在时，与TALE重复序列的前20个残基同源的C-末端区的该部分也称为“半重复序列”。在C-末端区中残基的编码方案反映该典型部分同源性，其中编码方案开始于C-20，朝向多肽的C-末端递增至C-19、C-18、C-17、C-16、C-15、C-14、C-13、C-12、C-11、C-10、C-9、C-8、C-7、C-6、C-5、C-4、C-3、C-2、C-1，递增至C+1，然后递增至C+2、C+3等。C+28C帽是指来自残基C-20至残基C+28(包含在内)的序列，因而其具有48个残基的长度。C帽序列可以为天然存在的(例如，天然存在的蛋白的片段)或非天然存在的(例如，包含一个或多个氨基酸缺失、取代和/或添加的天然存在的蛋白的片段)，或者具有用作C帽能力的任意其他天然或非天然序列。对于TALE重复结构域的DNA-结合功能，不是绝对需要C-末端区；但是，在一些实施方案中，C帽可与DNA相互作用以及也可增强例如在包含核酸酶的融合蛋白中在C-末端至TALE重复结构域处功能结构域的活性。

“锌指DNA结合蛋白”(或结合结构域)是在通过一个或多个锌指以序列特异性方式结合DNA的蛋白或较大蛋白内的结构域，其是在结合结构域内氨基酸序列的区，该结合结构域的结构通过锌离子的配位来稳定。术语锌指DNA结合蛋白通常简称为锌指蛋白或ZFP。

包含TALE-重复结构域的“选择的”锌指蛋白或蛋白是主要由经验过程制备的蛋白，例如噬菌体展示、相互捕获或杂交选择。参见，例如，US5,789,538；US5,925,523；US6,007,988；US6,013,453；US6,200,759；WO95/19431；WO96/06166；WO98/53057；WO98/54311；WO00/27878；WO01/60970；WO01/88197以及WO02/099084。

术语“序列”是指任意长度的核苷酸序列，其可以为DNA或RNA；可以为线性、环状或分支以及可以为单链或双链。术语“供体序列”是指被插入基因组内的核苷酸序列。供体序列可以具有任意长度，例如长度为2至10,000个核苷酸(或者在其中或其上的任意整数)，优选长度为约100至1,000核苷酸(或其中的任意整数)，更优选长度为约200至500核苷酸。

“同源、不同的序列”是指与第二序列具有一定程度的序列同一性的第一序列，但这些序列与第二序列并不相同。例如，包含突变基因的野生型序列的多核苷酸与突变基因的序列同源但不相同。在某些实施方案中，两种序列之间的同源程度足够使得可利用常规细胞机制来在它们之间同源重组。两种同源、不同的序列可以为任意长度以及它们非同源程度可以小到仅单个核苷酸(例如，通过靶向同源重组来校正基因组点突变)或者大到10或更多千碱基(例如，在染色体中在预定的异位位点处插入基因)。包含同源、不同的序列的两种多核苷酸不需要长度相同。例如，可使用20至10,000个核苷酸或核苷酸对的外源性多核苷酸(即，供体多核苷酸)。

测定核酸和氨基酸序列同一性的技术是本领域已知的。通常，这些技术包括测定基因的mRNA的核苷酸序列和/或测定由此编码的氨基酸序列，以及比较这些序列与第二核苷酸或氨基酸序列。也可以这种方式来测定和比较基因组序列。通常，识别是指两种多核苷酸或多肽序列分别的精确核苷酸至核苷酸或者氨基酸至氨基酸对应。通过测定它们识别百分比同一性可比较两个或更多个序列(多核苷酸或氨基酸)。无论核酸或氨基酸序列，两种序列的百分比同一性是在两个比对序列之间精确匹配数目除以较短序列的长度，然后乘以100。

可选择地，通过在使得可在同源区之间形成稳定双链体的条件下杂交多核苷酸，然后使用单链特异性核酸酶来消化，以及测定消化的片段大小可测定多核苷酸之间的序列类似性程度。如使用以上方法测定，当在限定长度的分子上序列展现出至少约70％-75％、优选80％-82％、更优选85％-90％、甚至更优选92％、又更优选95％、以及最优选98％序列同一性时，两种核酸或两个多肽序列基本上彼此同源。如本文所使用，基本上同源也是指显示与指定的DNA或多肽序列完全同一性的序列。基本上同源的DNA序列可在例如特定体系所限定的严格的条件下的Southern杂交试验中鉴定。所限定的合适杂交条件是在本领域技术范围内。参见，例如Sambrook等，同上；NucleicAcidHybridization：APractical Approach，B.D.Hames和S.J.Higgins编辑，(1985)Oxford；Washington，DC；IRLPress)。

“重组”是指在两种多核苷酸之间交换遗传信息的过程。为了本公开，“同源重组(HR)”是指例如在细胞中通过同源重组修复机制在双链断裂的修复时发生的这些交换的指定形式。该过程需要核苷酸序列同源性，使用“供体”分子以模板化“靶”分子(即，经过双链断裂的一者)的修复，并且因为它导致遗传信息由供体转移至靶，该过程分别称为“非交叉基因转换”或者“短段基因转换(shorttractgeneconversion)”。不希望受任何特定理论的约束，这些转移可包括在破碎的靶和供体之间形成的异源双链DNA的错配校正；和/或“合成依赖性链退火(synthesis-dependentstrandannealing)”，其中供体用于再合成将成为靶的一部分的遗传信息，和/或相关过程。这些指定的HR通常导致靶分子的序列改变，使得一部分或所有供体多核苷酸的序列被并入靶多核苷酸内。

在本公开的方法中，如本文所述的一种或多种靶向核酸酶在靶序列(例如，细胞染色质)中预定位点处产生双链断裂，以及可将与在断裂区中核苷酸序列具有同源性的“供体”多核苷酸引入细胞内。已经显示双链断裂(DSB)的存在有助于供体序列的整合。可将供体序列物理整合；或者可选择地，供体多核苷酸用作通过同源重组的断裂修复的模板，导致所有或者一部分核苷酸序列作为供体被引入细胞染色质内。因此，在细胞染色质中第一序列可改变；以及在某些实施方案中，可将该第一序列转化为存在于供体多核苷酸中序列。因此，术语“使置换”或“置换”的使用可理解为表示一个核苷酸序列被另一个置换(即，在信息意义上序列的置换)；以及一个多核苷酸不一定需要被另一多核苷酸物理或化学置换。在一些实施方案中，通过本文所述的靶向核酸酶来引入两个DSB，这导致在DSB之间的DNA缺失。在一些实施方案中，“供体”多核苷酸插入两个DSB之间。

因此，在某些实施方案中，与目标区中序列同源的供体序列部分与被置换的基因组序列展现出约80至99％(或之间的任意整数)序列同一性。在其他实施方案中，例如如果在超过100个连续碱基对的供体和基因组序列之间仅有1个核苷酸不同，则在供体和基因组序列之间的同源性高于99％。在某些情况下，供体序列的非同源性部分可含有在目标区中不存在的序列，使得新序列被引入目标区中。在这些例子中，这些非同源序列通常旁侧连接与目标区中序列同源或相同的50-1,000碱基对(或其中的任意整数值)或者大于1,000的任意数目的碱基对的序列。在其他实施方案中，供体序列与第一序列非同源，以及通过非同源重组机制插入基因组内。

在本文所述的任意方法中，融合至核酸酶结构域的另外的TALE-融合蛋白以及TALE-(或锌指)核酸酶的另外的对可用于在细胞内另外的靶位点的另外的双链切割。

通过破坏目标基因的表达的供体序列的靶向性整合，本文所述的任意方法可用于在细胞中一个或多个靶序列的部分或完全失活。也提供具有部分或完全失活基因的细胞系。

而且，如本文所述的靶向性整合方法也可用于整合一个或多个外源性序列。外源性核酸序列可包含例如一种或多种基因或者cDNA分子、或者任意类型的编码或非编码序列、以及一种或多种控制元件(例如，启动子)。此外，外源性核酸序列可制备一种或多种RNA分子(例如，发夹RNA(shRNA)、抑制RNA(RNAi)、微RNA(miRNA)等)。

“切割”是指DNA分子的共价主链断裂。可通过包括但不限于磷酸二酯键的酶或化学水解的各种方法来开始切割。可能为单链切割和双链切割，并且双链切割可由两个不同单链切割事件所致。DNA切割可导致平端或交错末端。在某些实施方案中，融合多肽用于靶向的双链DNA切割。

“切割半结构域”是连同第二多肽(相同或不同)形成具有切割活性(优选双链切割活性)的复合物的多肽序列。术语“第一和第二切割半结构域”、“+和-切割半结构域”以及“左和右切割半结构域”可交换使用以表示二聚化的切割半结构域的对。

“工程化切割半结构域”是经修饰以形成具有另一切割半结构域(例如，另一工程化的切割半结构域)的专性异源二聚体的切割半结构域。也参见，美国专利公开No.2005/0064474；2007/0218528和2008/0131962，其以引用方式整体并入本文中。

“染色质”是包含细胞基因组的核蛋白结构。细胞染色质包含主要为DNA的核酸以及包括组蛋白和非组蛋白染色体蛋白的蛋白。大部分真核细胞染色质以核小体形式存在，其中核小体核心包含与包含各组蛋白H2A、H2B、H3和H4中两种的八聚合体相关的DNA的约150个碱基对；以及接头DNA(取决于生物体具有各种长度)延伸在核小体核心之间。组蛋白H1的分子通常与接头DNA相关。为了本公开，术语“染色质”意指涵盖原核和真核的所有类型的细胞核蛋白。细胞染色质包括染色体和附加体染色质。

“染色体”是包含所有或者一部分细胞基因组的染色质复合物。通常细胞的基因组的特征在于它的核型，其是包含细胞的基因组的所有染色体的集合。细胞的基因组可包含一种或多种染色体。

“附加体(episome)”是包含不是细胞的染色体核型的一部分的核酸的复制核酸、核蛋白复合物或其他结构。附加体的例子包括质粒和某些病毒基因组。

“靶位点”或“靶序列”是定义为在结合充足条件存在下，结合分子结合至的核酸一部分的核酸序列。例如，序列5’-GAATTC-3’是EcoRI限制性核酸内切酶的靶位点。

“植物”细胞包括但不限于单子叶(单子叶植物类)或双子叶(双子叶植物类)植物的细胞。单子叶植物类的非限制性例子包括谷类植物，例如玉米、水稻、大麦、燕麦、小麦、高粱、黑麦、蔗糖、凤梨、洋葱、香蕉和椰子。双子叶植物类的非限制性例子包括香烟、西红柿、向日葵、棉花、甜菜、马铃薯、生菜、甜瓜、大豆、油菜籽(canola)(油菜籽(rapeseed))和苜蓿。植物细胞可来自植物的任意部位和/或来自植物生长的任意阶段。

“外源性”分子是通常不出现在细胞中，但是可通过一种或多种遗传、生化或其他方法引入细胞内的分子。在细胞的特定发育阶段和环境条件下测定“在细胞中正常存在”。因此，例如，仅在肌肉的胚胎发育中出现的分子对于成年人肌肉细胞来说为外源性分子。类似地，通过热激引入的分子相对未进行热激的细胞而言为外源性分子。外源性分子可包含例如功能失常性内源性分子的功能版本或者正常功能内源性分子的功能失常版本。外源性分子也可以是通常在另一物种中出现的分子，例如，被引入动物基因组的人序列。

除这些之外，外源性分子可以为例如通过组合化学方法产生的小分子或者诸如蛋白、核酸、糖类、脂质、糖蛋白、脂蛋白、多糖、以上分子的任意修饰的衍生物、或者包含以上分子的一种或多种的任意复合物的大分子。核酸包括DNA和RNA；可以为单链或双链；可以为直链、分支或环状；以及可具有任意长度。核酸包括能够形成双链体的核酸，以及形成三链体的核酸。参见，例如，美国专利No.5,176,996和5,422,251。蛋白包括但不限于：DNA-结合蛋白、转录因子、染色质重塑因子、甲基化的DNA结合蛋白、聚合酶、甲基化酶、脱甲基化酶、乙酰基转移酶、脱乙酰基酶、激酶、磷酸酶、整合酶、重组酶、连接酶、拓扑异构酶、促旋酶和解旋酶。

外源性分子可以为内源性分子的相同类型的分子，例如外源性蛋白或核酸。例如，外源性核酸可包含在细胞中通常不存在的引入细胞或染色体的感染病毒基因组、质粒或附加体。将外源性分子引入细胞内的方法是本领域技术人员已知的，并且这些方法包括但不限于：脂质介导的转移(即，脂质体，包括中性和阳离子脂质)、电穿孔、直接注射、细胞融合、粒子轰击、磷酸钙共沉淀、DEAE-葡聚糖-介导的转移以及病毒载体介导的转移。

相反，“内源性”分子是在特定环境条件下在特定发育阶段通常存在于特定细胞中的一种分子。例如，内源性核酸可包含染色体、线粒体的基因组、叶绿体或其他细胞器、或者天然存在的附加体核酸。另外的内源性分子可包括蛋白，例如转录因子和酶。

“融合”分子是其中两个或更多个亚单位分子连接(优选共价)的分子。亚单位分子可以为相同化学类型的分子，或者可以为不同化学类型的分子。第一类融合分子的例子包括但不限于融合蛋白(例如，在TALE-重复结构域和切割结构域之间的融合)和融合核酸(例如，编码以上所述的融合蛋白的核酸)。第二类融合分子的例子包括但不限于形成三链体的核酸和多肽之间的融合；以及小沟结合物(minorgroovebinder)和核酸之间的融合。

可由融合蛋白递送至细胞或者通过递送编码融合蛋白的多核苷酸至细胞来导致在细胞中融合蛋白的表达，其中多核苷酸被转录，转录物被翻译以生成融合蛋白。反式剪接、多肽切割和多肽连接也可牵涉在细胞中蛋白的表达。多核苷酸和多肽递送至细胞的方法呈现在该公开的其他地方。

为了本公开，无论这些调控序列是否与编码和/或转录的序列相邻，“基因”包括编码基因产物的DNA区(见下)、以及调节基因产物的生成的所有DNA区。因此，基因包括但未必限于启动子序列、终止子、诸如核糖体结合位点和内部核糖体进入位点的翻译调控序列、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。

“基因表达”是指在基因中包含的信息转化至基因产物内。基因产物可为基因的直接转录产物(例如，mRNA、tRNA、rRNA、反义RNA、核酶、结构RNA、shRNA、RNAi、miRNA或任意其他类型的RNA)或者通过翻译mRNA制备的蛋白。基因产物也包括通过诸如加帽、多腺苷酸化、甲基化和编辑的方法来修饰的RNA以及通过诸如甲基化、乙酰化、磷酸化、遍在蛋白化、ADP-核糖基化、肉豆蔻基化(myristilation)和糖基化来修饰的蛋白。

“缺口大小”是指在核酸靶上两个TALE靶位点之间的核苷酸。缺口可以为任意大小，包括但不限于1至100个碱基对；或者5至30个碱基对；优选10至25个碱基对；以及更优选12至21个碱基对。因此，优选的缺口大小可以为12、13、14、15、16、17、18、19、20或21个碱基对。

基因表达的“调节”是指基因的活性改变。表达的调节可包括但不限于基因激活和基因抑制。基因组编辑(例如，切割、改变、失活、供体整合、随机突变)可用于调节表达。基因失活是指与不包括如本文所述的修饰剂的细胞相比基因表达的任何减少。因此，基因失活可以为部分或全部的。

“目标区”是细胞染色质的任何区，例如基因或在基因内或邻近基因处的非编码序列，其中需要使其结合外源性分子。结合可以用于靶向DNA切割和/或靶向重组的目的。目标区可存在于例如染色体、附加体、细胞器的基因组(例如，线粒体、叶绿体)或者感染病毒基因组。目标区可以在基因的编码区内；在转录的非编码区内，例如引导序列、尾随序列或内含子；或者在非转录的区域内，在编码区的上游或下游。目标区的长度可以小到为单个核苷酸对或者至多2,000个核苷酸对，或者核苷酸对的任意整数值。

术语“操作性连接”和“操作性连接的”(或者“可操作连接的”)在提及两个或更多个组件(例如序列元件)的并列时可交换使用，其中布置组件使得两组件正常运作以及使得组件中至少一个可介导在其他组件中至少一个上发挥的功能的可能性。以示意的方式，如果转录调控序列控制与存在或不存在一个或多个转录调控因子相对应的编码序列的转录水平，则诸如启动子的转录调控序列操作性连接至编码序列。转录调控序列通常顺式操作性连接编码序列，但不需要直接连接编码序列。例如，尽管它们不是连续的，但增强子操作性连接至编码序列的转录调控序列。

关于融合多肽，术语“操作性连接的”可以指与其他组件连接的各组件进行与它们未如此连接时的相同功能的事实。例如，对于其中TALE-重复结构域融合至切割结构域的融合多肽，如果在融合多肽中，TALE-重复结构域部分能够结合它的靶位点和/或它的结合位点，而切割结构域能够切割在靶位点附件的DNA时，则TALE-重复结构域和切割结构域操作性连接。

蛋白、多肽或核酸的“功能性片段”是其序列与全长型蛋白、多肽或核酸不同，但与全长型蛋白、多肽或核酸相比保持相同功能或具有增强功能的蛋白、多肽或核酸。此外，功能性片段可具有比全长型蛋白、多肽或核酸更弱的功能，但是还具有如通过用户限定的足够功能。功能性片段可具有如对应的天然分子的更多、更少或相同数目的残基；和/或可含有一种或多种氨基酸或核苷酸取代。测定核酸功能(例如，编码功能、与另一核酸杂交的能力)的方法是本领域公知的。类似地，测定蛋白功能的方法是公知的。例如，通过诸如滤膜结合、电泳泳动移位或免疫沉淀法可测定多肽的DNA-结合功能。通过凝胶电泳可测定DNA切割。参见Ausubel等，同上。通过例如免疫共沉淀、双杂交测定或者互补可遗传和生化测定蛋白与另一蛋白相互作用的能力。参见，例如，Fields等(1989)Nature340：245-246；美国专利No.5,585,245以及PCTWO98/44350。

例如通过工程化诸如在TALE蛋白内重复单元的位置12和/或13处的高变二残基区(改变一种或多种氨基酸)，可将TALE-重复结构域“工程化”以结合预定核苷酸序列。在一些实施方案中，可工程化在位置4、11、和32处氨基酸。在其他实施方案中，可选择非典型RVD用在工程化TALE蛋白中，使能指定更宽范围的非天然靶位点。例如，可选择NKRVD用于识别在靶序列中G核苷酸。在其他实施方案中，可改变在重复单元中氨基酸以改变重复单元的特征(即稳定性或二级结构)。因此，工程化TALE蛋白是非天然存在的蛋白。在一些实施方案中，将编码TALE重复结构域的基因在DNA水平下工程化，使得指定TALE重复序列氨基酸的密码子被改变，但指定的氨基酸未改变(例如，通过密码子优化的已知技术)。工程化TALE蛋白的非限制性例子是通过设计和/或选择获得的那些。设计的TALE蛋白是自然界不存在的蛋白，其设计/组成主要源于合理标准。设计的合理标准包括应用取代规则和计算机算法以用于处理在储存存在的TALE设计和结合数据的信息的数据库中的信息。“选择的”TALE-重复结构域是非天然存在的或者非典型的结构域，其制备主要源于诸如噬菌体展示、相互捕获或杂交选择的经验方法。

“多聚化结构域”是在TALE-融合蛋白的氨基、羧基或者氨基和羧基末端区并入的结构域。这些结构域使得可多聚化多种TALE-融合蛋白单元。多聚化结构域的例子包括亮氨酸拉链。也可通过小分子来调控多聚化结构域，其中多聚化结构域具有合适的构象以使得仅在小分子或外部配体的存在下可与另一多聚化结构域相互作用。以这种方式，外源性配体可用于调控这些结构域的活性。

在以上方法中可使用的靶位点可经其他标准来评估或者可将靶位点直接用于设计或选择(如果需要)以及制备对该位点特异的TALE-融合蛋白。用于评估可能靶位点的进一步的标准是在基因内邻近特定区的那些。可选择不必一定包括或者重叠使用靶基因可证实生物意义的片段的靶位点，例如调控序列。用于进一步评估靶片段的其他标准包括结合至这些片段或相关片段的TALE-融合蛋白的现有可用性，和/或易于设计新TALE-融合蛋白以结合给定靶片段。

在选择靶片段之后，可通过各种途径来提供结合片段的TALE-融合蛋白。一旦已经选择、设计TALE-融合蛋白或者另外提供至给定靶片段，则合成TALE-融合蛋白或编码其的DNA。用于合成和表达编码包含TALE-重复结构域的蛋白的DNA的示例性方法示出如下。然后可将TALE-融合蛋白或者编码它的多核苷酸用于调节表达或者分析TALE-融合蛋白结合的包含靶基因的靶位点。

TALEDNA结合结构域

本文所述的多肽包含一个或多个(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或甚至更多)个TALE-重复单元。已经研究包含多个TALE-重复单元的TALEDNA结合结构域以测定负责特异性的序列。在一种生物体内，TALE重复序列通常被高度保守的(除了RVD)，但在不同物种可以为未较好保守的。

本文所述多肽中发现的TALE-重复单元通常具有形式：X¹-X²-X³-X⁴-X⁵-X⁶-X⁷-X⁸-X⁹-X¹⁰-X¹¹-(X^RVD)₂-(X)_20-22(SEQIDNO：399)，其中X是牵涉DNA结合的任意氨基酸和X^RVD(位置12和13)。这些结构域的非限制示例性实施方案包括：其中X¹包含亮氨酸(L)或甲硫氨酸(M)残基的实施方案；其中X¹⁰包含丙氨酸(A)残基或缬氨酸(V)残基的实施方案；其中(X)_20-22包含序列(Gly或Ser)-(X)_19-21(SEQIDNO：400)的实施方案；其中(X)_20-22包含序列(X)_3-4-(Ala或Thr)-(X)_16-17(SEQIDNO：401)的实施方案；其中(X)_20-22包含序列(X)_4-5-(Leu或Val)-(X)_15-16(SEQIDNO：402)的实施方案；以及以上实施方案的任意组合(例如，X¹包含亮氨酸(L)或甲硫氨酸(M)残基以及X¹⁰包含丙氨酸(A)残基；X¹包含L或M以及(X)_20-22包含序列Gly/Ser-(X)_19-21；(X)_20-22包含序列Gly/Ser-(X)_2-3-Ala/Thr-(X)_16-17；X¹⁰包含丙氨酸(A)或缬氨酸(V)残基以及(X)_20-22包含序列Gly/Ser-(X)_19-21等)。

本文所述的组合物和方法的TALE-重复单元可由任意合适的TALE-蛋白衍生。TALE蛋白的非限制性例子包括由青枯菌属或者黄单胞菌属衍生的TALE蛋白。因此，在一些实施方案中，DNA-结合结构域包含一种或多于一种、或者多种由植物病原体黄单胞菌属衍生的天然存在的和/或工程化的TALE-重复单元(参见Boch等，(2009)Science326：1509-1512以及Moscou和Bogdanove，(2009)Science326：1501)。在其他实施方案中，DNA-结合结构域包含一种或多种由植物病原体青枯雷尔氏菌衍生的天然存在的和/或工程化的TALE-重复单元、或者来自TALE蛋白家族的其他TALEDNA结合结构域。如本文所述的TALEDNA结合结构域(包含至少一个TALE重复单元)可包括(i)一个或多个在自然界中未发现的TALE重复单元；(ii)一个或多个天然存在的TALE重复单元；(iii)具有非典型RVD的一个或多个TALE重复单元；以及(i)、(ii)和/或(iii)的组合。在一些实施方案中，本发明的TALEDNA结合结构域由完全非天然存在的或非典型的重复单元组成。而且，在包含两个或更多个TALE-重复单元的如本文所述的多肽中，TALE-重复单元(天然存在的或工程化的)可由相同物种衍生或者可选择地可由不同物种衍生。

表1显示在两个TALE蛋白内示例性重复单元的比对。各TALE重复序列显示在各列中单独行处，其表示重复序列类型、该重复序列的起始位置、重复序列的名称、在高变位置处的残基以及全部重复序列。

表1：来自黄单胞菌属的两种TALE的TALEDNA结合结构域比较

已经鉴定以及可在标准GenBank检索中找到一些TALEDNA结合蛋白，包括：AAB00675.1(13.5个TALE重复序列)；AAB69865.1(13.5个重复序列)；AAC43587.1(17.5个重复序列)；AAD01494.1(12.5个重复序列)；AAF98343.1(25.5个重复序列)；AAG02079.2(25.5个重复序列)；AAN01357.1(8.5个重复序列)；AAO72098(17.5个重复序列)；AAQ79773.2(5.5个重复序列)；AAS46027.1(28.5个重复序列)；AAS58127.2(13.5个重复序列)，AAS58128.2(17.5个重复序列)；AAS58129.3(18.5个重复序列)；AAS58130.3(9.5个重复序列)；AAT46123.1(22.5个重复序列)；AAT46124.1(26.5个重复序列)；AAW59491.1(5.5个重复序列)；AAW59492.1(16.5个重复序列)；AAW59493.1(19.5个重复序列)；AAW77510.1(5.5个重复序列)；AAY43358(21.5个重复序列)；AAY43359.1(11.5个重复序列)；AAY43360.1(14.5个重复序列)；AAY54166.1(19.5个重复序列)；AAY54168.1(16.5个重复序列)；AAY54169.1(12.5个重复序列)；AAY54170.1(23.5个重复序列)；ABB70129.1(21.5个重复序列)；ABB70183.1(22.5个重复序列)；ABO77779.1(17.5个重复序列)等。

也在细菌青枯雷尔氏菌中发现TALE类型蛋白，并且表2列出这些DNA结合结构域的两个例子的类似比较：

表2：来自青枯菌属的两种TALE的TALEDNA结合结构域比较

来自青枯菌属的TALE类型蛋白的另外的例子包括ABO27069.1(10.5个重复序列)；ABO27070.1(11.5个重复序列)；ABO27071.1(7.5个重复序列)；ABO27072.1(3.5个重复序列)等。

包含如本文所述的TALE-重复结构域的DNA-结合多肽也可包括另外的TALE多肽序列，例如N-末端(N帽)序列以及任选的旁侧连接重复结构域的C-末端(C帽)序列。N帽序列可以为任意长度的天然或非天然存在的序列以维持DNA-结合多肽和融合蛋白的功能(例如，DNA-结合、切割、激活等)，该DNA-结合多肽和融合蛋白包含这些含有TALE-重复结构域的DNA-结合多肽。在某些实施方案中，蛋白包含N帽序列，该N帽序列包含TALE蛋白N-末端的区至重复结构域(例如，包含重复结构域的TALE多肽N-末端的至少130至140个残基(例如，131、132、133、134、135、136、137、138、139或140个残基))的片段(截断)。在其他实施方案中，如本文所述的TALE-重复结构域多肽，蛋白包含C帽序列，该C帽序列包含TALE蛋白C-末端至重复结构域(例如，包含C-20至C+28、C-20至C+55或C-20至C+63的C帽序列)的片段(截断的)区。在某些实施方案中，C帽序列包含半重复序列(C-20至C-1)。如本文所述的TALEDNA-结合多肽可包括N帽、C帽序列或者N帽和C帽序列两者。

在表1和2中显示的TALE重复序列的完整蛋白序列(包括TALE重复结构域以及N-末端和C-末端序列)显示在以下表3中。表1和2的TALE重复序列以粗体表示。

表3：GenBank登录号AAA27592.1、AAA92974.1、ABO27067.1和ABO27068.1的完整氨基酸序列

使用天然或工程化TALE重复单元可制备人工TALE蛋白和TALE融合蛋白以结合新型序列(参见Boch等，同上和Morbitzer等，(2010)Proc.Natl.Acad.Sci.USA107(50)：21617-21622)。也参见例如WO2010/079430。当将该新型靶序列插入在植物细胞中报道基因的上游时，研究者能够证实报道基因的激活。包含FokI切割结构域的人工TALE融合也可切割在活细胞中DNA(参见Christin等，同上，Li等(2011a)和(2011b)同上，Cernak等(2011)Nucl.Acid.Res.epubdoi：10.1093/nar/gcr218。

与天然存在的TALE蛋白相比，工程化TALE蛋白和TALE融合蛋白可具有新型结合特异性。工程化方法包括但不限于合理设计以及选择的各种类型。合理设计包括例如使用包含核苷酸序列的数据库用于单个或多个TALE重复序列的组件。包括噬菌体展示以及两种杂交体系的示例性选择方法公开在美国专利5,789,538；5,925,523；6,007,988；6,013,453；6,410,248；6,140,466；6,200,759；和6,242,568；以及WO98/37186；WO98/53057；WO00/27878；WO01/88197和GB2,338,237中。在天然存在的TALE蛋白中，通常仅采用可能的二肽基序的有限的清单。因此，已经将如本文所述的与TALE相关的包含所有可能的单和二肽序列的结构域构建和组装至候选TALE蛋白内。因此，在某些实施方案中，DNA-结合蛋白的一个或多个TALE-重复单元包含非典型RVD。

此外，在相同物种的天然存在的TALE蛋白中，重复单元通常显示在框架序列(即，不牵涉直接DNA接触的残基(非RVD残基))内几乎没有可变性。该可变性的缺乏可能是由于大量因素，包括个别TALE重复单元之间的进化关系以及在相邻重复序列之间蛋白折叠需求。然而，在不同植物致病菌之间框架序列可变化。例如在野油菜黄单胞菌辣椒斑点病菌中的TALE重复序列中，蛋白AvrBs3与来自青枯雷尔氏菌的brg11和hpx17重复单元具有小于40％同源性(参见Heuer等(2007)ApplEnvironMicro73(13)：4379-4384)。在诸如来自TALE调节的宿主细胞中基因的序列的各细菌天然环境中TALE重复序列可以在严格功能性选择下。因此，可将在TALE框架(例如，在诸如N帽和C帽序列的重复单元之外的TALE重复单元或序列内)中如本文所述的变体通过经本领域已知各种方法通过靶向或随机突变引入，并且将所得TALE融合蛋白筛选以用于优化活性。

多个TALE重复序列组件也可仅用于组装如上所述的DNA结合结构域(包含至少一个TALE重复单元)，也可用于组装小型TALE多聚体(即，三聚体、四聚体、五聚体等)，其中也用作在小型TALEDNA结合结构域之间的加帽区使得碱基跳跃以及可导致更高的DNA结合特异性。连接的小型TALEDNA结合结构域的使用将缓和在个别TALE重复序列的水平处对严格功能性调节的需求以及使得可开发更复杂和/或特异性更高的DNA识别流程，其中在给定的组件内来自相邻基序的氨基酸可自由与彼此相互作用以用于协作识别所需DNA靶序列。使用具有随机的二肽基序(或者任意其他鉴定的关键位置)的合适的选择体系(即噬菌体展示)可连接和表达小型TALEDNA结合结构域以及可基于它们的核酸结合特征来选择该小型TALEDNA结合结构域。可选择地，多个TALE重复序列组件可用于生成重复组件的档案以使得可快速构建任意特异性所需TALE-融合蛋白。

靶位点的选择以及设计和构建融合蛋白(以及编码其的多核苷酸)的方法是本领域技术人员已知的，并且详细描述在美国专利申请公开No.20050064474和20060188987中，其以引用方式整体并入。

也可制备连接TALEDNA结合结构域至锌指DNA结合结构域的人工融合蛋白。也可将这些融合进一步连接至期望的功能结构域。

此外，如在这些和其他参考文献中所公开，尽管在TALE重复结构域和接头之间的界面处可能需要可用作加帽序列(N帽和C帽序列)的序列，但使用包括长度为5个或更多个氨基酸的接头(例如，TGEKP(SEQIDNO：48)；TGGQRP(SEQIDNO：49)；TGQKP(SEQIDNO：50)；和/或TGSQKP(SEQIDNO：51))的任意合适的接头序列可将TALEDNA结合结构域和/或锌指结构域连接至一起。因此，当使用接头时，五个或更多个氨基酸的接头可连同帽序列用于接合TALEDNA结合结构域至所需融合配偶体结构域。也参见示例性接头序列长度为6个或更多个氨基酸的美国专利No.6,479,626；6,903,185；和7,153,949。此外，在TALE重复结构域和融合的功能蛋白结构域之间接头可构建为柔性或者位置受限以使得基因组修饰效率最大。可测试不同长度的接头和组合物。

融合蛋白

也提供包含如本文所述的DNA-结合蛋白(例如，TALE-融合蛋白)和异源性调控或功能结构域(或其功能性片段)的融合蛋白。常见结构域包括例如转录因子结构域(激活因子、抑制因子、辅助激活因子、辅助抑制因子)；核酸酶结构域；沉默子结构域；致癌基因结构域(例如，myc、jun、fos、myb、max、mad、rel、ets、bcl、myb、mos家族成员等)；DNA修复酶以及它们相关的因子和修饰剂；DNA重排酶以及它们相关的因子和修饰剂；染色质相关的蛋白和它们的修饰剂(例如激酶、乙酰基转移酶和脱乙酰基酶)；以及DNA修饰酶(例如，甲基转移酶、拓扑异构酶、解旋酶、连接酶、激酶、磷酸酶、聚合酶、核酸内切酶)；DNA靶向酶，例如转座子、整合酶、重组酶和解离酶以及它们相关的因子和修饰剂；细胞核激素受体；核酸酶(切割结构域或半结构域)以及配体结合结构域。其他融合蛋白也包括报道基因或选择标志物。报道基因结构域的例子包括GFP、GUS等。在植物细胞中特异性利用的报道基因包括GUS。

用于获得激活的合适的结构域包括HSVVP16激活结构域(参见，例如Hagmann等，J.Virol.71，5952-5962(1997))；细胞核激素受体(参见，例如Torchia等，Curr.Opin.Cell.Biol.10：373-383(1998))；核因子κB的p65亚单位(Bitko&Barik，J.Virol.72：5610-5618(1998)和Doyle&Hunt，Neuroreport8：2937-2942(1997))；Liu等，CancerGeneTher.5：3-28(1998))；或者人工嵌合功能结构域，例如VP64(Beerli等，(1998)Proc.Natl.Acad.Sci.USA95：14623-33)，以及降解决定子(Molinari等，(1999)EMBOJ.18，6439-6447)。另外的示例性激活结构域包括Oct1、Oct-2A、Sp1、AP-2和CTF1(Seipel等，EMBOJ.11，4961-4968(1992)以及p300、CBP、PCAF、SRC1PvALF、AtHD2A和ERF-2。参见，例如，Robyr等(2000)Mol.Endocrinol.14：329-347；Collingwood等(1999)J.Mol.Endocrinol.23：255-275；Leo等(2000)Gene245：1-11；Manteuffel-Cymborowska(1999)ActaBiochim.Pol.46：77-89；McKenna等(1999)J.SteroidBiochem.Mol.Biol.69：3-12；Malik等(2000)TrendsBiochem.Sci.25：277-283；以及Lemon等(1999)Curr.Opin.Genet.Dev.9：499-504。另外的示例性激活结构域包括但不限于：OsGAI、HALF-1、C1、AP1、ARF-5，-6，-7，和-8、CPRF1、CPRF4、MYC-RP/GP和TRAB1。参见，例如，Ogawa等(2000)Gene245：21-29；Okanami等(1996)GenesCells1：87-99；Goff等(1991)GenesDev.5：298-309；Cho等(1999)PlantMol.Biol.40：419-429；Ulmason等(1999)Proc.Natl.Acad.Sci.USA96：5844-5849；Sprenger-Haussels等(2000)PlantJ.22：1-8；Gong等(1999)PlantMol.Biol.41：33-44；以及Hobo等(1999)Proc.Natl.Acad.Sci.USA96：15,348-15,353。

在如本文所述的DNA-结合结构域和功能结构域之间形成融合蛋白(或编码其的核酸)对于本领域技术人员是显而易见的，与激活结构域相互作用的激活结构域或分子适合作为功能结构域。能够募集激活复合物和/或激活活性(例如，组蛋白乙酰化)至靶基因的基本上任意分子用作融合蛋白的激活结构域。绝缘子结构域、定位结构域和诸如包含ISWI的结构域的染色质重塑性蛋白，和/或适合在融合分子中用作功能结构域的甲基结合结构域蛋白描述在例如共同拥有的美国专利公开2002/0115215和2003/0082552中以及在共同拥有的WO02/44376中。

示例性抑制结构域包括但不限于：KRABA/B；KOX；TGF-β-诱导早期基因(TIEG)；v-erbA；SID，MBD2，MBD3，DNMT家族的成员(例如，DNMT1、DNMT3A、DNMT3B)，Rb，以及MeCP2。参见，例如，Bird等(1999)Cell99：451-454；Tyler等(1999)Cell99：443-446；Knoepfler等(1999)Cell99：447-450；以及Robertson等(2000)NatureGenet.25：338-342。另外的示例性抑制结构域包括但不限于，ROM2和AtHD2A。参见，例如，Chem等(1996)PlantCell8：305-321；以及Wu等(2000)PlantJ.22：19-27。

在某些实施方案中，通过TALE-融合蛋白结合的靶位点存在于细胞染色质的可接近区域中。可如在共同拥有的国际公开WO01/83732中测定可接近区域。如果靶位点不存在于细胞染色质的可接近区域中，可如共同拥有的WO01/83793中所述生成一个或多个可接近区域。在另外的实施方案中，无论它的靶位点是否在可接近区域中，融合分子的DNA-结合结构域能够结合细胞染色质。例如，这些DNA-结合结构域能够结合接头DNA和/或核小体的DNA。该类型的“先驱”DNA结合结构域的例子在某些类固醇受体和在肝细胞核因子3(HNF3)中找到。Cordingley等(1987)Cell48：261-270；Pina等(1990)Cell60：719-731；以及Cirillo等(1998)EMBOJ.17：244-254。

如本领域技术人员所已知，使用药学上可接受的载体可配制融合分子。参见，例如，Remington′sPharmaceuticalSciences，第17版，1985；以及共同拥有的WO00/42219。

融合分子的功能组件/结构域可选自一旦融合分子通过它的DNA结合结构域结合靶序列就能够影响基因的转录的各种不同组件的任意类型。因此，功能组件可包括但不限于各种转录因子结构域，例如激活因子、抑制因子、辅助激活因子、辅助抑制因子和沉默子。

另外的示例性功能结构域公开在例如共同拥有的美国专利No.6,534,261和美国专利公开No.2002/0160940中。

也可选择通过外源性小分子或配体调控的功能结构域。例如，可采用技术，其中在外部RheoChem^TM配体的存在下功能结构域仅具有其活性构象(参见例如US20090136465)。因此，TALE-融合蛋白可操作连接至可调控功能结构域，其中TALE-融合蛋白的所得活性可通过外部配体来控制。

在某些实施方案中，通过TALEDNA-结合结构域融合(TALE-重复结构域的N-和/或C-末端、N帽和/或C帽序列)至至少一个核酸酶(切割结构域、切割半结构域)，TALEDNA-结合蛋白或其片段用作核酸酶。可从任意核酸内切酶或核酸外切酶中获得本文所公开的融合蛋白的切割结构域部分。可由其衍生切割结构域的示例性核酸内切酶包括但不限于：限制性核酸内切酶以及归巢核酸内切酶。参见，例如，2002-2003Catalogue，NewEnglandBiolabs，Beverly，MA；以及Belfort等(1997)NucleicAcidsRes.25：3379-3388。切割DNA的另外的酶是已知的(例如，S1核酸酶；绿豆核酸酶；胰DNaseI；微球菌核酸酶；酵母HO核酸内切酶；也可参见Linn等(编辑)Nucleases，ColdSpringHarborLaboratoryPress，1993)。这些酶(或其功能性片段)的一种或多种可用作切割结构域和切割半结构域的来源。

类似地，如上所述，切割半结构域可由需要二聚化以用于切割活性的任意核酸酶或其部分衍生。通常，如果融合蛋白包含切割半结构域，则需要切割两种融合蛋白。可选择地，可使用包含两个切割半结构域的单一蛋白。两个切割半结构域可由相同核酸内切酶(或其功能性片段)衍生，或者各切割半结构域可由不同核酸内切酶(或其功能性片段)衍生。此外，两种融合蛋白的靶位点优选相对彼此设置，使得两种融合蛋白与它们各自靶位点的结合以空间定向彼此来放置切割半结构域，使得例如通过二聚化切割半结构域可形成功能切割结构域。因此，在某些实施方案中，通过5-8个核苷酸或通过15-18个核苷酸来分离靶位点的接近边缘。然而，任意整数的核苷酸或核苷酸对可插入在两个靶位点之间(例如，从2至50个核苷酸对或更多)。通常，切割的位点位于靶位点之间。

限制性核酸内切酶(限制性酶)存在于许多种属中以及能够序列特异性结合DNA(在识别位点处)；以及在结合位点处或靠近结合位点处切割DNA。某些限制性酶(例如，IIS型)在从识别位点处剔除的位点处切割DNA以及具有可分离的结合和切割结构域。例如，IIS型酶FokI在一条链上它的识别位点的9个核苷酸以及在另一条链上它的识别位点的13个核苷酸处催化DNA的双链切割。参见，例如，美国专利5,356,802；5,436,150和5,487,994；以及Li等(1992)Proc.Natl.Acad.Sci.USA89：4275-4279；Li等(1993)Proc.Natl.Acad.Sci.USA90：2764-2768；Kim等(1994a)Proc.Natl.Acad.Sci.USA91：883-887；Kim等(1994b)J.Biol.Chem.269：31,978-31,982。因此，在一个实施方案中，融合蛋白包含来自至少一种IIS型限制性酶的切割结构域(或切割半结构域)以及一个或多个TALEDNA-结合结构域，其可或可不被工程化。

其切割结构域可从结合结构域中分离的示例性IIS型限制性酶包括FokI和BfiI(参见Zaremba等，(2004)JMolBiol.336(1)：81-92)。Fok酶是活性二聚体(参见Bitinaite等(1998)Proc.Natl.Acad.Sci.USA95：10,570-10,575)。对于使用TALE重复结构域-FokI融合(或其进一步包含C帽和N帽的变体)的细胞序列的靶向双链切割和/或靶向置换，各自包含FokI切割半结构域的两种融合蛋白可用于重新组成催化活性切割结构域。可选择地，也可使用包含TALE-重复结构域和两个FokI切割半结构域的单个多肽分子。另一优选IIS型限制性酶是BfiI(参见Zaremba等，(2004)JMolBiol.336(1)：81-92)。该酶的切割结构域可从它的DNA结合结构域中分离，并且可操作连接至TALEDNA结合结构域以生成TALEN。

切割结构域或切割半结构域可以为保留切割活性或者保留多聚化(例如，二聚化)能力以形成功能切割结构域的蛋白的任意部分。

示例性IIS型限制性酶描述在国际公开WO07/014275中，其以引用方式整体并入本文中。另外的限制性酶也含有可分离的结合和切割结构域，并且这些通过本公开所涵盖。参见，例如，Roberts等(2003)NucleicAcidsRes.31：418-420。

在某些实施方案中，为了增强切割特异性，如在美国专利公开No.20050064474；20060188987；20080131962；20090311787；20090305346；20110014616；以及美国专利申请No.12/931,660中所述，切割结构域包含最小化或者防止同型二聚化的一个或多个工程化切割半结构域(也称为二聚化结构域突变体)，其全部公开内容以引用方式并入本文中。在FokI的位置446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538处的氨基酸残基为影响FokI切割半结构域的二聚化的所有靶。

形成专性异源二聚体的FokI的示例性工程化切割半结构域包括其中第一切割半结构域包括在FokI的位置490和538的氨基酸残基处的突变以及第二切割半结构域包括在氨基酸残基486和499处突变的对。

形成专性异源二聚体的FokI的另外的工程化的切割半结构域也可用在本文所述的融合蛋白中。第一切割半结构域包括在FokI的位置490和538的氨基酸残基处突变以及第二切割半结构域包括在氨基酸残基486和499处突变。

因此，在一个实施方案中，在490处突变以使用Lys(K)置换Glu(E)；在538处突变以使用Lys(K)置换Iso(I)；在486处突变以使用Glu(E)替换Gln(Q)；以及在位置499处突变以使用Lys(K)置换Iso(I)。具体地，在一个切割半结构域中通过突变位置490(E→K)和538(I→K)以生成名称为“E490K：I538K”的工程化切割半结构域，以及通过在另一切割半结构域中突变位置486(Q→E)和499(I→L)以生成名称为“Q486E：I499L”的工程化切割半结构域来制备本文所述的工程化的切割半结构域。本文所述的工程化的切割半结构域是专性异源二聚体突变体，其中异常切割被最小化以及消除。参见例如美国专利公开No.2008/0131962的实施例1，其公开内容以引用方式整体并入以用于所有目的。

本文所述的工程化切割半结构域是专性异源二聚体突变体，其中最小化或消除异常切割。参见例如WO07/139898的实施例1。在某些实施方案中，工程化切割半结构域包含在位置486、499和496处突变(相对于野生型FokI编号)，例如在位置486处使用Glu(E)残基置换野生型Gln(Q)残基；在位置499处使用Leu(L)残基置换野生型Iso(I)残基以及在位置496处使用Asp(D)或Glu(E)残基(也分别称为“ELD”和“ELE”结构域)转换野生型Asn(N)残基的突变。在其他实施方案中，工程化切割半结构域包含在位置490、538和537处突变(相对野生型FokI编号)，例如在位置490处使用Lys(K)残基置换野生型Glu(E)残基；在位置538处使用Lys(K)残基置换野生型Iso(I)残基；以及在位置537处使用Lys(K)残基或Arg(R)残基(也分别称为“KKK”和“KKR”结构域)置换野生型His(H)残基的突变。在其他实施方案中，工程化切割半结构域包含在位置490和537处突变(相对野生型FokI编号)，例如在位置490处使用Lys(K)残基置换野生型Glu(E)残基；以及在位置537处使用Lys(K)残基或Arg(R)残基(也分别称为“KIK”和“KIR”结构域)置换野生型His(H)残基的突变。(参见2010年2月8日提交的美国临时申请61/337,769以及2010年9月23日提交的美国临时申请61/403,916)。此外，可使用包括称为“Sharkey”或者“Sharkey‘(原代Sharkey)”突变的突变的FokI核酸酶结构域变体(参见Guo等，(2010)J.Mol.Biol.doi：10.1016/j.jmb.2010.04.060)。

使用任何合适的方法可制备本文所述的工程化切割半结构域，例如，通过如在美国专利公开No.20050064474；20070134796；20080131962所述的野生型切割半结构域(FokI)的定点诱变。

使用在重组遗传学领域常规技术可制备TALE-融合多肽和核酸。公开在该发明中使用常规方法的基本文本包括Sambrook等，MolecularCloning，ALaboratoryManual(第二版，1989)；Kriegler，GeneTransferandExpression：ALaboratoryManual(1990)；以及CurrentProtocolsinMolecularBiology(Ausubel等，编辑，1994))。此外，基本上可从任意各种市售来源中定制任意核酸。类似地，可从任意各种市售来源处定制肽和抗体。

两种可选择的方法通常用于产生表达新设计的DNA-结合肽所需的编码序列。一种方案是利用重叠寡核苷酸的基于PCR的组装方法。这些寡核苷酸在重复的结构域上主要但不限于含有位置12和13的取代，使得它们各自对不同DNA-结合结构域具有特异性。此外，氨基酸取代可以在位置4、11和32处进行。氨基酸取代也可在一个重复单元内位置2、3、4、21、23、24、25、27、30、31、33、34和/或35处进行。在一些实施方案中，重复单元在一个位置中含有取代，以及在其他中，重复单元含有2至18个氨基酸取代。在一些实施方案中，在没有改变氨基酸序列下可改变重复单元的核苷酸序列。

任意本领域技术人员已知的蛋白纯化的合适方法可用于纯化本发明的TALE-融合蛋白(参见Ausubel，同上；Sambrook，同上)。此外，可使用任何合适的宿主，例如，细菌细胞、昆虫细胞、酵母细胞、哺乳动物细胞等。

因此，通过本领域技术人员公知的克隆和生化缀合方法来构建融合分子。融合分子包含DNA-结合结构域和功能结构域(例如，转录激活或抑制结构域)。融合分子也任选包含核定位信号(例如，来自SV40介质T-抗原的信号)以及附加表位(例如，FLAG和血凝素)。设计融合蛋白(以及编码它们的核酸)使得翻译阅读框保留在融合的组件之间。如本文所述的融合蛋白可包括在如本文所述的DNA-结合多肽的N-和/或C-末端处一个或多个功能结构域。

通过本领域技术人员已知的生化缀合方法构建在一侧的功能结构域(或其功能性片段)的多肽组件以及另一侧的非蛋白DNA-结合结构域(例如，抗生素、嵌入剂、小沟结合物、核酸)之间的融合。参见，例如，PierceChemicalCompany(Rockford，IL)目录。已经描述用于制备在小沟结合物和多肽之间的融合的方法和组合物。Mapp等(2000)Proc.Natl.Acad.Sci.USA97：3930-3935。

用于靶向切割的另外的方法

在任意所需基因中具有靶位点的任何核酸酶可用于本文公开的方法中。例如，归巢核酸内切酶和大范围核酸酶具有非常长的识别序列，其中一些基于统计可能存在于人类大小的基因组中。可使用在所需基因中具有靶位点的任何这些核酸酶，而非TALE-重复结构域核酸酶融合或者除了所述融合之外，包括例如用于靶向切割的锌指核酸酶和/或大范围核酸酶。

在某些实施方案中，核酸酶是大范围核酸酶(归巢核酸内切酶)。天然存在的大范围核酸酶识别15-40个碱基对切割位点以及通常分成四个家族：LAGLIDADG家族；GIY-YIG家族；His-Cyst盒家族以及HNH家族。示例性归巢核酸内切酶包括I-SceI、I-CeuI、PI-PspI、PI-Sce、I-SceIV、I-CsmI、I-PanI、I-SceII、I-PpoI、I-SceIII、I-CreI、I-TevI、I-TevII和I-TevIII。它们的识别序列是已知的。也参见美国专利No.5,420,032；美国专利No.6,833,252；Belfort等(1997)NucleicAcidsRes.25：3379-3388；Dujon等(1989)Gene82：115-118；Perler等(1994)NucleicAcidsRes.22，1125-1127；Jasin(1996)TrendsGenet.12：224-228；Gimble等(1996)J.Mol.Biol.263：163-180；Argast等(1998)J.Mol.Biol.280：345-353以及NewEnglandBiolabs目录。

主要来自LAGLIDADG家族的天然存在的大范围核酸酶的DNA-结合结构域已经在植物、酵母、果蝇、哺乳动物细胞和小鼠中用于促进位点特异性基因组修饰，但该方法受到保存大范围核酸酶识别序列的同源基因的修饰(Monet等(1999)，Biochem.Biophysics.Res.Common.255：88-93)或者识别序列被引入其内的预先工程化的基因组的限制(Route等(1994)，Mol.Cell.Biol.14：8096-106；Chilton等(2003)，PlantPhysiology.133：956-65；Puchta等(1996)，Proc.Natl.Acad.Sci.USA93：5055-60；Rong等(2002)，GenesDev.16：1568-81；Gouble等(2006)，J.GeneMed.8(5)：616-622)。因此，已经尝试工程化大范围核酸酶以在医学上或生物技术上相关位点处展现出新型结合特异性(Porteus等(2005)，Nat.Biotechnol.23：967-73；Sussman等(2004)，J.Mol.Biol.342：31-41；Epinat等(2003)，NucleicAcidsRes.31：2952-62；Chevalier等(2002)Molec.Cell10：895-905；Epinat等(2003)NucleicAcidsRes.31：2952-2962；Ashworth等(2006)Nature441：656-659；Paques等(2007)CurrentGeneTherapy7：49-66；美国专利公开No.20070117128；20060206949；20060153826；20060078552；以及20040002092)。

递送

通过任意合适的方式，包括例如通过注射编码TAL-融合蛋白的mRNA可将TALE-融合蛋白、编码其的多核苷酸以及包含本文所述的蛋白和/或多核苷酸的组合物递送至靶细胞。参见，Hammerschmidt等(1999)MethodsCellBiol.59：87-115。

递送包含工程化转录因子的蛋白的方法描述在例如美国专利No.6,453,242；6,503,717；6,534,261；6,599,692；6,607,882；6,689,558；6,824,978；6,933,113；6,979,539；7,013,219和7,163,824中，其所有公开内容以引用方式整体并入本文中。

也可使用包含编码一种或多种TALE-蛋白融合的序列的载体递送如本文所述的TALE-蛋白融合。可使用任意载体体系，包括但不限于质粒载体、逆转录病毒载体、慢病毒载体、腺病毒载体、痘病毒载体、疱疹病毒载体以及腺伴随病毒载体等。也参见美国专利No.6,534,261；6,607,882；6,824,978；6,933,113；6,979,539；7,013,219；和7,163,824，其以引用方式整体并入本文中。而且，显而易见，任意这些载体可包含一种或多种TALE-蛋白融合编码序列。因此，当将一种或多种TALE-蛋白融合(例如，TALEN的对)引入细胞内时，可在相同载体或在不同载体上进行TALE-蛋白融合。当使用多种载体时，各载体可包含编码一种或多种TALE-蛋白融合的序列。

基于常规病毒和非病毒的基因转移方法可用于将编码工程化TALE-蛋白融合的核酸引入细胞(例如哺乳动物细胞)、整个生物或靶组织中。这些方法也可用于施用编码TALE-蛋白融合的核酸至体外细胞。在某些实施方案中，将编码TALE蛋白融合的核酸体内或离体施用。非病毒载体递送体系包括DNA质粒、裸核酸和与诸如脂质体或泊咯沙姆的递送媒介物复合的核酸。病毒载体递送体系包括DNA和RNA病毒，其在递送至细胞后具有附加体或整合的基因组。对于工程化DNA-结合蛋白以及包含这些结合蛋白的融合蛋白的体内递送检索，参见例如Rebar(2004)ExpertOpinionInvest.Drugs13(7)：829-839；Rossi等(2007)NatureBiotech.25(12)：1444-1454以及通常基因递送参考文献，例如Anderson，Science256：808-813(1992)；Nabel&Felgner，TIBTECH11：211-217(1993)；Mitani&Caskey，TIBTECH11：162-166(1993)；Dillon，TIBTECH11：167-175(1993)；Miller，Nature357：455-460(1992)；VanBrunt，Biotechnology6(10)：1149-1154(1988)；Vigne，RestorativeNeurologyandNeuroscience8：35-36(1995)；Kremer&Perricaudet，BritishMedicalBulletin51(1)：31-44(1995)；Haddada等，在CurrentTopicsinMicrobiologyandImmunology中，Doerfler和(编辑)(1995)；以及Yu等，GeneTherapy1：13-26(1994)。

非病毒载体递送体系包括电穿孔；脂质转染；微注射；基因枪法(biolistics)；病毒小体；脂质体；免疫脂质体；聚阳离子或脂质：核酸缀合物；裸DNA；人工病毒颗粒；以及DNA的药物增强摄入。使用诸如Sonitron2000体系(Rich-Mar)的声孔效应也可用于递送核酸。病毒载体递送体系包括DNA和RNA病毒，其在递送至细胞后具有附加型或整合基因组。另外的示例性核酸递送体系包括通过AmaxaBiosystems(Cologne，Germany)；Maxcyte，Inc.(Rockville，Maryland)；BTXMolecularDeliverySystems(Holliston，MA)和CopernicusTherapeuticsInc(参见例如US6008336)提供的那些。脂质转染描述在例如US5,049,386；US4,946,787；和US4,897,355)中以及脂质转染试剂来源于市售(例如，Transfectam^TM和Lipofectin^TM)。适合于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Felgner；WO91/17424；WO91/16024的那些。递送可以至细胞(离体施用)或者靶组织(体内施用)。

包括靶向脂质体的脂质：核酸复合物的制备，例如免疫脂质复合物是本领域技术人员公知的(参见，例如Crystal，Science270：404-410(1995)；Blaese等，CancerGeneTher.2：291-297(1995)；Behr等，BiocojugateChem.5：382-389(1994)；Remy等，BioconjugateChem.5：647-654(1994)；Gao等，GeneTherapy2：710-722(1995)；Ahmad等，CancerRes.52：4817-4820(1992)；美国专利No.4,186,183；4,217,344；4,235,871；4,261,975；4,485,054；4,501,728；4,774,085；4,837,028；和4,946,787)。

递送的另外的方法包括将待递送核酸包装至EnGeneIC递送媒介物(EDV)内的使用。使用双特异性抗体将这些EDV特异地递送至靶组织，其中抗体的一个臂具有对靶组织的特异性以及其他具有对EDV的特异性。抗体携带EDV至靶细胞表面，然后通过胞吞将EDV引入细胞内。一旦在细胞中，内容物被释放(参见MacDiarmid等(2009)NatureBiotechnology卷27(7)643页)。

合适的细胞包括但不限于真核和原核细胞和/或细胞系。这些细胞或者由这些细胞产生的细胞系的非限制性例子包括：COS；CHO(例如，CHO-S、CHO-K1、CHO-DG44、CHO-DUXB11、CHO-DUKX、CHOK1SV)；VERO；MDCK；WI38；V79；B14AF28-G3；BHK；HaK；NS0；SP2/0-Ag14；HeLa；HEK293(例如，HEK293-F、HEK293-H、HEK293-T)；以及perC6细胞；以及昆虫细胞，例如草地贪夜蛾(Spodopterafugiperda)(Sf)；或者真菌细胞，例如酵母菌属、毕赤酵母属和裂殖酵母属(Schizosaccharomyces)。在某些实施方案中，细胞系是CHO-K1、MDCK或HEK293细胞系。此外，可将原代细胞分离和离体使用以用于再引入至在使用TALE-融合治疗之后的待治疗的受试者内。合适的原代细胞包括外周血单核细胞(PBMC)，和其他血细胞子集，例如但不限于CD4+T细胞或CD8+T细胞。合适的细胞也包括干细胞，例如胚胎干细胞、诱导多能干细胞、造血干细胞、神经元干细胞、间质干细胞、肌肉干细胞和皮肤干细胞。

经修饰的干细胞也可用在一些实施方案中。例如，制备对抗细胞凋亡的干细胞可用作治疗组合物，其中干细胞还含有本发明的TALE-融合蛋白。通过例如使用在干细胞中BAX-或BAK-特异性TALEN来敲除BAX和/或BAK或者再次使用诸如半胱天冬酶-6特异性TALEN来敲除在半胱天冬酶中被破坏的那些可产生对细胞凋亡的抗性。

将DNA引入造血干细胞的方法公开在例如美国专利No.5,928,638中。用于引入转基因至诸如CD34+细胞的造血干细胞的载体包括腺病毒35型。

适合引入如本文所述的多核苷酸的载体如本文所述包括非整合型慢病毒载体(IDLV)。参见，例如，Ory等(1996)Proc.Natl.Acad.Sci.USA93：11382-11388；Dull等(1998)J.Virol.72：8463-8471；Zuffery等(1998)J.Virol.72：9873-9880；Follenzi等(2000)NatureGenetics25：217-222；美国专利公开No.2009/054985。如上所述，所公开的方法和组合物可用于任意类型的细胞中。也可使用动物细胞的子代、变体和衍生物。

通过各种常规技术可将DNA构建体引入所需植物宿主(例如，引入其基因组)。对于这些技术的检索，参见，例如，Weissbach&WeissbachMethodsforPlantMolecularBiology(1988，AcademicPress，N.Y.)VIII章，421-463页；以及Grierson&Corey，PlantMolecularBiology(1988，第2版)，Blackie，London，Ch.7-9。

例如，使用诸如植物细胞原生质体的电穿孔和微注射的技术可将DNA构建体直接引入植物细胞的基因组DNA内；或者使用诸如DNA粒子轰击的基因枪法可将DNA构建体直接引入植物组织内(参见，例如Klein等(1987)Nature327：70-73)。可选择地，可将DNA构建体与合适的T-DNA旁侧区合并以及可将DNA构建体引入常规根癌农杆菌(Agrobacteriumtumefaciens)宿主载体。包括分离臂(disarming)和使用双运载体的根癌农杆菌介导的转化技术详细描述科学文献中。参见，例如Horsch等(1984)Science233：496-498；以及Fraley等(1983)Proc.Nat′l.Acad.Sci.USA80：4803。

此外，使用非农杆菌属细菌或病毒，例如根瘤菌属(Rhizobiumsp.NGR234)；苜蓿中华根瘤菌(Sinorhizoboiummeliloti)；百脉根中慢生根瘤菌(Mesorhizobiumloti)；马铃薯病毒X；花椰菜花叶病毒和木薯叶脉花叶病毒和/或烟草花叶病毒可实现基因转移，参见，例如Chung等(2006)TrendsPlantSci.11(1)：1-4。

当使用双TDNA载体(Bevan(1984)Nuc.AcidRes.12：8711-8721)或者共同培养程序(Horsch等(1985)Science227：1229-1231)使细胞感染细菌时，根癌农杆菌宿主的毒力功能引导构建体和相邻标志物插入植物细胞DNA内。通常，农杆菌属转化体系用于工程化双子叶植物(Bevan等(1982)Ann.Rev.Genet16：357-384；Rogers等(1986)MethodsEnzymol.118：627-641)。农杆菌属转化体系也用于转化以及转移DNA至单子叶植物以及植物细胞。参见美国专利No.5,591,616；Hernalsteen等(1984)EMBOJ3：3039-3041；Hooykass-VanSlogteren等(1984)Nature311：763-764；Grimsley等(1987)Nature325：1677-179；Boulton等(1989)PlantMol.Biol.12：31-40.；以及Gould等(1991)PlantPhysiol.95：426-434。

可选择的基因转移以及转换方法包括但不限于通过裸DNA的钙-、聚乙二醇(PEG)-或电穿孔-介导的摄入的原生质体转化(参见Paszkowski等(1984)EMBOJ3：2717-2722，Potrykus等(1985)Molec.Gen.Genet.199：169-177；Fromm等(1985)Proc.Nat.Acad.Sci.USA82：5824-5828；以及Shimamoto(1989)Nature338：274-276)以及植物组织的电穿孔(D′Halluin等(1992)PlantCellReporter4：1495-1505)。植物细胞转化的另外的方法包括微注射、碳化硅介导的DNA摄入(Kaeppler等(1990)PlantCellReporter9：415-418)，以及微粒轰击(参见等(1988)Proc.Nat.Acad.Sci.USA85：4305-4309；以及Gordon-Kamm等(1990)PlantCell2：603-618)。

生物体

本文所述的方法和组合物可应用于任何生物体，其中期望通过基因组修饰来调控基因表达和/或改变包括但不限于真核生物，例如植物、动物(例如，哺乳动物例如小鼠、大鼠、灵长类动物、家畜、兔等)、鱼等的生物体。可使用真核(例如，酵母；植物；真菌；鱼和诸如猫、犬、鼠、牛、羊和猪的哺乳动物细胞)细胞。也可使用含有如本文所述的一个或多个纯合的KO基因座或者其他基因修饰的生物细胞。

示例性哺乳动物细胞包括目标生物体的任何细胞或细胞系，例如卵母细胞、K562细胞、CHO(中国仓鼠卵巢)细胞、HEP-G2细胞、BaF-3细胞、Schneider细胞、COS细胞(表达SV40T-抗原的猴肾细胞)、CV-1细胞、HuTu80细胞、NTERA2细胞、NB4细胞、HL-60细胞以及HeLa细胞、293细胞(参见，例如Graham等(1977)J.Gen.Virol.36：59)，以及骨髓瘤细胞样SP2或NS0(参见，例如Galfre和Milstein(1981)Meth.Enzymol.73(B)：346)。也可使用外周血单核细胞(PBMC)或T细胞，如可使用胚胎和成人干细胞。例如，可使用的干细胞包括胚胎干细胞(ES)、诱导多能干细胞(iPSC)、间质干细胞、造血干细胞、肝干细胞、皮肤干细胞和神经元干细胞。

示例性靶植物和植物细胞包括但不限于单子叶和双子叶植物的那些，例如包括谷类作物(例如，小麦、玉米、水稻、小米、大麦)；水果作物(例如，西红柿、苹果、梨、草莓、橘子)；饲料作物(例如，苜蓿)；根茎类蔬菜作物(例如，胡萝卜、马铃薯、甜菜、薯蓣)；叶类蔬菜作物(例如，生菜、菠菜)；消费用蔬菜作物(例如，大豆和其他豆类、南瓜、辣椒、茄子、芹菜等)的作物；开花植物(例如，矮牵牛花、玫瑰、菊花)；针叶树和松树(例如，冷杉、云杉)；杨树(例如欧洲山杨(P.tremula)x银白杨(P.alba))；纤维作物(棉花、黄麻、亚麻、竹)；在植物除污中使用的植物(例如，累积重金属的植物)；油料作物(例如，向日葵、油菜籽)和用作实验目的的植物(例如，拟南芥(Arabidopsis))。因此，本公开的方法和组合物使用包括但不限于来自天门冬属(Asparagus)、燕麦属(Avena)、芸苔属(Brassica)、柑桔属(Citrus)、西瓜属(Citrullus)、辣椒属(Capsicum)、南瓜属(Cucurbita)、胡罗卜属(Daucus)、飞蓬属(Erigeron)、大豆属(Glycine)、棉属(Gossypium)、大麦属(Hordeum)、莴苣属(Lactuca)、黑麦草属(Lolium)、番茄属(Lycopersicon)、苹果属(Malus)、木薯属(Manihot)、烟草属(Nicotiana)、诸葛菜属(Orychophragmus)、稻属(Oryza)、鳄梨属(Persea)、菜豆属(Phaseolus)、豌豆属(Pisum)、梨属(Pyrus)、樱桃属(Prunus)、萝卜属(Raphanus)、黑麦属(Secale)、茄属(Solanum)、高粱属(Sorghum)、小麦属(Triticum)、葡萄属(Vitis)、豇豆属(Vigna)以及玉蜀黍属(Zea)物种的广泛的植物。术语植物细胞包括分离的植物细胞以及整个植物或整个植物的部分，例如种子、愈伤组织、叶子、根等。本公开也涵盖上述植物的种子，其中种子具有转基因或基因构建体和/或使用本文所述的组合物和/或方法来修饰。本公开进一步涵盖上述转基因植物的子代、克隆、细胞系或细胞，其中所述子代、克隆、细胞系或细胞具有转基因或基因构建体。

藻类被越来越多地用于制备目标化合物，即生物燃料、塑料、烃类等。示例性藻类物种包括微藻类，该微藻类包括硅藻和蓝细菌以及布朗葡萄藻(Botryococcusbraunii)、小球藻属(Chlorella)、杜氏藻(Dunaliellatertiolecta)、江蓠属(Gracileria)、颗石藻(Pleurochrysiscarterae)、马尾藻属(Sorgassum)以及石莼属(Ulva)。

测定通过TALE融合蛋白的基因表达调控的测试

各种测试可用于测定通过TALE-融合蛋白的基因表达调控水平。通过测定例如蛋白或mRNA水平；产物水平；酶活性；肿瘤生长；报道基因的转录激活或抑制；第二信使水平(例如，cGMP、cAMP、IP3、DAG、Ca²⁺)；细胞因子和激素生成水平；以及新血管形成，使用例如免疫测定法(使用抗体的ELISA和免疫组织化学测定法)；杂交测定法(例如，RNA酶保护、Northern杂交、原位杂交、寡核苷酸阵列研究)；比色测定法；扩增测定法；酶活性测定法；肿瘤生长测定法；表型测定法等的各种体外和体内测试可评估特定TALE-融合蛋白的活性。

通常首先使用培养的细胞测试TALE-融合蛋白的体外活性，例如293细胞、CHO细胞、VERO细胞、BHK细胞、HeLa细胞、COS细胞、植物细胞系、植物细胞培养物等。优选地，使用人细胞。通常首先使用具有报道基因的瞬时表达体系来测试TALE-融合蛋白，然后测试在细胞和动物体内和离体的靶内源性基因的调控。TALE融合蛋白可被重组表达在细胞中；重组表达在移植入动物或植物内的细胞中；或者重组表达在转基因动物或植物中；以及使用本文所述的递送媒介物可作为蛋白施用至动物、植物或细胞。可将细胞固定在溶液中；注射至动物内；或者细胞可天然存在于转基因或非转基因动物中。

使用本文所述的体外或体内测定法之一来测试基因表达的调节。使用TALE-融合蛋白来处理样品或测定物，并且与没有测试化合物的对照样品比较以测定调节的程度。

通过测定上述任意参数可测定TALE-融合蛋白的作用。可将任何合适的基因表达、表型或生理改变用于评估TALE-融合蛋白的影响。当使用完整细胞或动物来测定功能结果时，人们也可测定各种作用，例如肿瘤生长；新血管形成；激素释放；对已知和未特征化的遗传标志物(例如，Northern印迹或者寡核苷酸阵列研究)的转录改变；细胞代谢物的改变，例如细胞生长或pH改变；以及细胞内第二信使的改变，例如cGMP。

优选可体外进行内源性基因表达的TALE-融合蛋白介导的调节的测定。在一个优选的体外测定方式中，通过使用ELISA测定法测定蛋白生成来测定在培养的细胞中内源性基因表达的TALE-融合蛋白介导的调节。比较试验样品与经空白载体或者靶向另一基因的无关TALE-融合蛋白处理的对照细胞。

在另一实施方案中，通过测定靶基因mRNA表达水平来体外测定内源性基因表达的TALE-融合蛋白-介导的调控。使用扩增来测定基因表达的水平，例如，使用PCR，LCR；或者诸如Northern杂交、RNA酶保护、斑点印迹的杂交测定法。在一个实施方案中使用RNA酶保护。使用直接或间接标记的检测试剂来检测蛋白或mRNA的水平，例如，如本文所述的荧光或放射性标记的核酸；放射性或酶标记的抗体等。

可选择地，可使用靶基因启动子来设计报道基因体系，该靶基因启动子可操作连接至诸如荧光素酶、绿色荧光蛋白、CAT、或β-半乳糖苷酶的报道基因。报道基因构建体通常被共转染至培养的细胞内。在使用选择的TALE-融合蛋白处理之后，根据本领域技术人员已知的标准技术来测定报道基因转录、翻译或活性的量。

用于监控内源性基因表达的TALE-融合蛋白介导的调节的优选测定方式的另一例子为体内进行。该测试特别地用于测定TALE-融合，该TALE-融合抑制肿瘤促进基因、在诸如新血管形成(例如，VEGF)的肿瘤支持中涉及的基因的表达；或者激活诸如p53的肿瘤抑制基因。在该测试中，将表达选择的TALE-融合的培养的肿瘤细胞皮下注入免疫受损的小鼠内，例如无胸腺小鼠、经辐照的小鼠或SCID小鼠。在合适长度的时间之后，优选4-8周，例如通过体积或它的两最大尺寸以及与对照比较来测定肿瘤生长。据认为，具有统计学意义上显著减小的肿瘤(使用例如斯氏T检验(Student′sTtest))生长受到抑制。可选择地，也可测定肿瘤新血管形成程度。使用内皮细胞特异性抗体的免疫测定用于染色肿瘤的血管形成和在肿瘤中血管的计数。据认为，具有统计学意义上显著降低的血管数目(使用例如斯氏T检验)的肿瘤的新血管形成受到抑制。

如上所述的转基因和非转基因植物或动物也用作体内测定内源性基因表达的调节的优选实施方案。转基因生物通常表达选择的TALE-融合。可选择地，可使用暂时性表达选择的TALE-融合，或者在递送媒介物中施用TALE融合蛋白的生物。使用本文所述的任意测定法之一来测试内源性基因表达的调节。

编码TALE-融合蛋白的核酸

常规的基于病毒和非病毒基因转移方法可用于在哺乳动物细胞中、在整个生物体或在靶组织中引入编码工程化TALE结构域融合的核酸。这些方法可用于体外施用编码TALE结构域融合的核酸至细胞。优选地，编码TALE结构域融合的核酸用于体内或离体施用。非病毒载体递送体系包括DNA质粒、裸核酸和与诸如脂质体的递送媒介物复合的核酸。病毒载体递送体系包括DNA和RNA病毒，在递送至细胞之后其具有附加型或整合基因组。对于基因治疗程序检索，参见Anderson，Science256：808-813(1992)；Nabel&Felgner，TIBTECH11：211-217(1993)；Mitani&Caskey，TIBTECH11：162-166(1993)；Dillon，TIBTECH11：167-175(1993)；Miller，Nature357：455-460(1992)；VanBrunt，Biotechnology6(10)：1149-1154(1988)；Vigne，RestorativeNeurologyandNeuroscience8：35-36(1995)；Kremer&Perricaudet，BritishMedicalBulletin51(1)：31-44(1995)；Haddada等，在CurrentTopicsinMicrobiologyandImmunologyDoerflerandBohm(编辑)(1995)；以及Yu等，GeneTherapy1：13-26(1994)。

用于递送编码工程化TALE结构域融合的核酸的基于RNA或DNA病毒的体系的使用利用靶向病毒至身体特定细胞以及运载病毒有效负载至细胞核的的高度进化过程。可将病毒载体直接施用至患者(体内)或者可将它们用于体外处理细胞，并且将修饰的细胞施用至患者(离体)。用于递送TALE结构域融合的常规的基于病毒体系包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺病毒相关和单纯疱疹病毒载体。病毒载体是在靶细胞和组织中当前最有效和通用基因转移方法。在宿主基因组中，使用转录病毒、慢病毒和腺伴随病毒基因转移方法是可能的，这通常导致插入的转基因的长期表达。此外，在许多不同细胞类型和靶组织中已经观察到高转导效率。

通过并入外部包膜蛋白、扩增靶细胞的可能靶种群可改变逆转录病毒的向性。慢病毒载体是能够转导或感染未分裂细胞以及通常产生高病毒滴度的逆转录病毒载体。因此，逆转录病毒的基因转移体系的选择取决于靶组织。逆转录病毒载体由具有至多6-10kb的外部序列的包装容量的顺式作用长末端重复序列组成。最小顺式作用LTR足够用于复制和包装载体，然后将其用于整合治疗基因至靶细胞内以提供永久转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的那些载体(参见，例如Buchscher等，J.Virol.66：2731-2739(1992)；Johann等，JVirol.66：1635-1640(1992)；Sommerfelt等，Virol.176：58-59(1990)；Wilson等，J.Virol.63：2374-2378(1989)；Miller等，J.Virol.65：2220-2224(1991)；PCT/US94/05700)。

在优选TALE结构域融合的瞬时表达的应用中，通常使用基于腺病毒的体系。在许多细胞类型中基于腺病毒的载体能够具有非常高的转导效率，并且无需细胞分裂。使用这些载体，获得高滴度和表达水平。在相对简单体系中可制备大量此类载体。腺伴随病毒(“AAV”)载体也用于转导具有靶核酸的细胞，例如，在体外制备核酸和肽中，以及用于体内和离体基因治疗程序(参见，例如West等，Virology160：38-47(1987)；美国专利No.4,797,368；WO93/24641；Kotin，HumanGeneTherapy5：793-801(1994)；Muzyczka，J.Clin.Invest.94：1351(1994)。重组AAV载体的构建描述在大量出版物中，包括美国专利No.5,173,414；Tratschin等，Mol.Cell.Biol.5：3251-3260(1985)；Tratschin，等，MolCell.Biol.4：2072-2081(1984)；Hermonat&Muzyczka，ProcNatlAcadSciUSA81：6466-6470(1984)；以及Samulski等，J.Virol.63：03822-3828(1989)。

尤其，在临床试验中对于基因转移目前至少六种病毒载体方法可用，其中逆转录病毒载体是迄今为止最常使用的体系。所有这些病毒载体利用牵涉通过与插入基因至辅助细胞系内的缺陷载体互补的方法以生成转导剂。

pLASN和MFG-S是已经用于临床试验的逆转录病毒载体的例子(Dunbar等，Blood85：3048-305(1995)；Kohn等，Nat.Med.1：1017-102(1995)；Malech等，ProcNatlAcadSciUSA94：2212133-12138(1997))。PA317/pLASN是在基因治疗试验中使用的第一治疗载体(Blaese等，Science270：475480(1995))。已经观察到，MFG-S包装的载体的转导效率为50％或更大(Ellem等，ImmunolImmunother.44(1)：10-20(1997)；Dranoff等，Hum.GeneTher.1：111-2(1997)。

重组腺伴随病毒载体(rAAV)是基于缺陷和非病原性细小病毒腺病毒相关2型病毒的基因递送体系的有前景的替代品。所有载体由仅保留在转基因表达盒旁侧的AAV145bp反向末端重复序列的质粒衍生。对于该载体体系，由整合至转导的细胞的基因组内所致的有效基因转移和稳定转基因递送是关键特征(Wagner等，Lancet351：91171702-3(1998)；Kearns等，GeneTher.9：748-55(1996))。

因为可将它们在高滴度下制备以及它们容易感染大量不同细胞类型，所以复制缺陷型重组腺病毒载体(Ad)主要用于结肠癌基因治疗。将大部分腺病毒载体工程化，使得转基因取代AdE1a、E1b和E3基因；随后使复制缺陷型载体在人293细胞中繁殖，该人293细胞以反式提供缺失的基因功能。Ad载体可体内转导多种类型的组织，包括未分裂的、已分化的细胞，例如在肝脏、肾脏和肌肉系统组织中找到的那些细胞。常规Ad载体具有大的承载容量。在临床试验中使用Ad载体的例子包括使用肌内注射的抗肿瘤免疫的多核苷酸治疗(Sterman等，Hum.GeneTher7：1083-9(1998))。腺病毒载体用于基因转移的另外的例子包括：Rosenecker等，Infection24：15-10(1996)；Sterman等，Hum.GeneTher.9：71083-1089(1998)；Welsh等，Hum.GeneTher.2：205-18(1995)；Alvarez等，Hum.GeneTher.5：597-613(1997)；Topf等，GeneTher.5：507-513(1998)；Sterman等，Hum.GeneTher.7：1083-1089(1998)；美国专利公开No.2008/0159996。

包装细胞用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞，和包装逆转录病毒的psi2细胞或PA317细胞。通过包装核酸载体至病毒颗粒内的产病毒细胞系(producercellline)来生成在基因治疗中使用的病毒载体。载体通常含有包装和随后整合至宿主内所需的最小病毒序列、通过待表达蛋白的表达盒替换的其他病毒序列。通过包装细胞系以反式供应缺失的病毒功能。例如，在基因治疗中使用的AAV载体通常仅具有来自AAV基因组的ITR序列，需要将其包装和整合至宿主基因组内。将病毒DNA包装在细胞系中，其含有编码其他AAV基因的辅助质粒，即rep和cap，但没有ITR序列。也使用作为辅助剂的腺病毒来感染细胞系。辅助病毒促进AAV载体的复制以及来自辅助质粒的AAV基因的表达。由于缺乏ITR序列，未以显著量包装辅助质粒。可减少腺病毒的污染。通过例如热处理可减少腺病毒的污染，对于热处理腺病毒比AAV更灵敏。

在许多基因治疗应用中，期望基因治疗载体以高度特异性递送至特定组织类型。通过表达作为在病毒外表面上具有病毒外壳蛋白的融合蛋白的配体，通常将病毒载体修饰以使其对给定细胞类型具有特异性。选择配体以对目标细胞类型上存在的已知受体具有亲和力。例如，Han等，ProcNatlAcadSciUSA92：9747-9751(1995)，报道可将莫洛尼鼠白血病病毒修饰以表达融合至gp70的人调蛋白，以及重组病毒感染表达人表皮生长因子受体的某些人乳腺癌细胞。可将这些原则延伸至表达配体融合蛋白的其他病毒对以及表达受体的靶细胞。例如，可将丝状噬菌体工程化以展示具有对几乎任意选择的细胞受体具有特异性亲和力的抗体片段(例如，FAB或Fv)。尽管以上描述主要应用于病毒载体，但相同原则可应用至非病毒载体。可将这些载体工程化以含有特定摄取序列，据认为，该特定摄取序列有助于通过特定靶细胞的摄取。

通过施用至个别患者可体内递送基因治疗载体，通常通过系统施用(例如，静脉内、腹膜内、肌内、皮下或颅内输注)或者如下所述的局部应用。可选择地，可将载体离体递送至细胞，例如从个别患者中外植的细胞(例如，淋巴细胞、骨髓穿刺液、组织活检)或者普遍的供体造血干细胞，随后为将细胞再植入患者内，通过在选择已经并入载体的细胞之后。

用于诊断、研究或者用于基因治疗的离体细胞转染(例如，通过将转染的细胞再输注至宿主生物体内)是本领域技术人员公知的。在优选的实施方案中，将细胞从主题生物体中分离，使用TALE融合核酸(基因或cDNA)转染，然后再输注至主题生物体(例如，患者)内。适合用于离体转染的各种细胞类型是本领域技术人员公知的(参见，例如Freshney等，CultureofAnimalCells，AManualofBasicTechnique(第三版，1994)以及用于讨论如何分离和培养来自患者的细胞本文所引用的参考文献)。

在一个实施方案中，干细胞用在细胞转染和基因治疗的离体程序中。使用干细胞的优势在于，可将它们体外分化为其他细胞类型，或者可将它们引入哺乳动物内(例如，细胞的供体)，其中它们将被移入骨髓中。使用诸如GM-CSF，IFN-γ和TNF-α的细胞因子体外分化CD34+细胞至临床重要免疫细胞类型的方法是已知的(参见Inaba等，J.Exp.Med.176：1693-1702(1992))。

使用已知方法来分离用于转导和分化的干细胞。例如，通过淘选具有抗体的骨髓细胞将干细胞从骨髓细胞中分离，该抗体结合不需要的细胞，例如CD4+和CD8+(T细胞)、CD45+(panb细胞)、GR-1(粒细胞)以及Iad(分化的抗原提呈细胞)(参见Inaba等，J.Exp.Med.176：1693-1702(1992))。示例性干细胞包括人胚胎干细胞(hES)、诱导多能干细胞(iPSC)、造血干细胞、间质干细胞、神经元干细胞和肌肉干细胞。

也可将包含治疗性TALE结构域融合核酸的载体(例如，逆转录病毒、腺病毒、脂质体等)直接施用至生物体用于体内转导细胞。可选择地，可施用裸DNA。通过用于引入分子至与血液或组织细胞的最大接触内的任意常规使用的方式来施用。可获得施用这些核酸的合适的方法，并且这些方法是本领域技术人员公知的，并且，尽管多于一种途径可用于施用特定组合物，但特定途径比另外的途径可提供更快速和更有效反应。

通过待施用的特定组合物以及通过用于施用组合物的特定方法来部分测定药学上可接受的载体。因此，存在如下所述大量合适的本发明的药物组合物的制剂(参见，例如Remington′sPharmaceuticalSciences，第17版，1989)。

药物组合物和施用

可将TALE-融合和编码TALE融合的表达载体直接施用至患者以用于调节基因表达和用于治疗和预防应用，例如，癌症、局部缺血、糖尿病性视网膜病、黄斑变性、类风湿性关节炎、牛皮癣、HIV感染、镰刀形红细胞贫血病、阿耳茨海默病、肌肉萎缩、神经变性疾病、血管疾病、囊性纤维化、中风等。可通过TALE融合蛋白基因治疗抑制的微生物的例子包括致病细菌，例如，衣原体、立克次体细菌、分枝杆菌、葡萄球菌、链球菌属、肺炎双球菌、脑膜炎球菌和淋球菌、克雷伯氏菌属、变形杆菌属、沙雷氏菌属、假单胞杆菌属、军团菌属、白喉、沙门氏菌属、牙胞杆菌属、霍乱、破伤风、肉毒杆菌、炭疽、鼠疫、钩端螺旋体病和莱姆病细菌；传染性真菌，例如，曲霉属、念珠菌属；原生动物例如孢子虫纲(例如，疟原虫)、根足虫(例如，内变形虫属)和鞭毛虫类(锥体虫属、利什曼原虫属、毛滴虫属、贾第鞭毛虫属等)；病毒疾病，例如，肝炎(A、B、或C)、疱疹病毒(例如VZV、HSV-1、HSV-6、HSV-II、CMV和EBV)、HIV、Ebola、腺病毒、流感病毒、虫媒病毒、艾柯病毒、鼻病毒、柯萨奇病毒、豇豆花叶病毒组、呼吸道合胞病毒、腮腺炎病毒、轮状病毒、麻疹病毒、风疹病毒、细小病毒、牛痘病毒、HTLV病毒、登革病毒、乳头瘤病毒、脊髓灰质炎病毒、狂犬病病毒和虫媒病毒性脑炎病毒(arboviralencephalitisvirus)等。

通过常规施用的任意方式来施用治疗有效量以用于引入TALE-融合至与待治疗的组织的最大接触点处。可以任意合适的方式来施用TALE-融合，优选使用药学上可接受的载体。本领域技术人员可获得以及公知这些调节剂的合适施用方法，并且，尽管多于一种途径可用于施用特定组合物，但通常特定途径比另外的途径可提供更快速和更有效反应。

适合于诸如通过静脉内、肌内、真皮内和皮下途径的胃肠外施用的制剂包括水性和非水性等渗无菌注射溶液，其可含有抗氧化剂、缓冲剂、抑菌剂，和使制剂与预期接受者的血液等渗的溶质；以及水性和非水性无菌混悬液，其可包括混悬剂、增溶剂、增稠剂、稳定剂和防腐剂。在该发明的实施中，可通过诸如静脉输注、口服、局部、腹腔内、膀胱内或鞘内的方式来施用组合物。化合物的制剂可存在于单位剂量或多剂量密封容器内，例如安瓿和小瓶。可由上述种类的无菌粉末、颗粒和片剂来制备注射溶液和混悬液。

在植物中基因表达的调节

TALE-融合可用于工程化植物特征，例如增加抗病性；改变结构和贮存多糖、风味、蛋白和脂肪酸、水果成熟、产量、颜色、营养特征；改善储存能力、对干旱或浸泡/洪水的耐受性等。尤其，用于增加油产量的作为种属的工程化，例如在油籽中制备的脂肪酸的改性是目标。参见，例如美国专利No.7,262,054；以及美国专利公开No.2008/0182332和20090205083。

种子油主要由三酰甘油(TAG)构成，其是脂肪酸的甘油酯。这些植物油的市售产物主要由六种主要油料作物(大豆、油椰、油菜籽、向日葵、棉籽和花生)组成。植物油大部分(90％)作为人造黄油、香酥油、色拉油和煎炸油用于人类消费。剩余10％用于诸如润滑油、油脂化学品、生物柴油、洗涤剂的非食品应用以及其他工业应用中。

在这些应用中的每一种中使用的油的所需特性很不同，特别是在组成TAG的脂肪酸中链长和双键数目上。通过植物来操纵这些性能以控制膜流动性和温度灵敏性。使用TALE结构域融合可控制相同性能以制备具有改善特性的用于食品和工业用途的油。

在油籽作物的TAG中主要脂肪酸的长度为16至18个碳以及包含0至3个双键。棕榈酸(16:0[16个碳：0个双键])、油酸(18:1)、亚油酸(18:2)以及亚麻酸(18:3)占大部分。双键数目或饱和程度决定熔点、活性、冷却性能和所得油的健康属性。

用于转化油酸(18:1)至亚油酸(18:2)(然后其是形成18:3的前体)的酶是DELTA12-油酸去饱和酶，也称为ω-6去饱和酶。在脂肪酸去饱和途径中该步骤的阻断应当导致油酸以多不饱和物的形式聚集。

在一个实施方案中，包含TALE结构域的蛋白用于调节在大豆中FAD2-1基因的表达。目前已经将来自大豆的编码微粒体DELTA.6去饱和酶的两种基因克隆，并且称为FAD2-1和FAD2-2(Heppard等，PlantPhysiol.110：311-319(1996))。在大豆种子中FAD2-1(δ12去饱和酶)似乎控制大部分油酸去饱和。因此，TALE-融合可用于调节植物中FAD2-1的基因表达。具体而言，TALE结构域融合可用于抑制在大豆中FAD2-1基因的表达以增加在油籽中油酸(18:1)的聚集。而且，TALE-融合可用于调节任意其他植物基因的表达，例如δ-9去饱和酶、来自其他植物的δ-12去饱和酶、δ-15去饱和酶、乙酰-CoA羧化酶、酰基-ACP-硫酯酶、ADP-葡萄糖焦磷酸化酶、淀粉合酶、纤维素合成酶、蔗糖合酶、衰老相关基因、重金属螯合剂、脂肪酸氢过氧化物裂解酶、多聚半乳糖醛酸酶、EPSP合酶、植物病毒基因、植物真菌病原体基因以及植物细菌病原体基因。

功能基因组测定

TALE-融合也具有测定表型结果和基因表达的功能的分析用途。目前在分析技术中的进展连同关注的大规模测序努力使得已经创造机会来鉴定和表征许多比之前获得的更大的分子靶。此类关于基因以及它们功能的新信息将加速基本生物学理解，并且呈现出许多新的治疗干预靶。在一些情况下，分析工具与新数据的产生不同步。通过整体差异基因表达(globaldifferentialgeneexpression)测定的最新进展提供例子。以基因表达微阵列法、差异cDNA克隆频率法、减除杂交法和差异显示方法为代表的这些方法可非常快速地鉴定在不同组织中上调或下调或者应答具体刺激的基因。这些方法被越来越多地用于探索诸如转化、肿瘤进展、炎症应答、神经紊乱等的生物过程。人们现在可非常容易地得到与给定生理现象相关的差异表达基因的长清单，但证实个别差异表达基因和现象之间的因果关系很难。迄今为止，用于指定功能以差异表达基因的简单方法还未与监控差异基因表达的能力同步。

使用常规分子方法，通过克隆全长型cDNA、亚克隆其至哺乳动物表达载体内以及转染重组载体至合适的宿主细胞内可完成候选基因的过表达。该方法简单但消耗劳力，特别是当起始候选基因通过简单表达的序列标签(EST)来表示时。在通过“常规”方法来表达候选基因依然存在问题。反义方法以及依赖靶向的核酶的方法均不可靠，随后仅选择小部分的靶。通过同源重组的基因敲除在重组基因干细胞中工作良好，但在源于体细胞的细胞系中非常无效。在任一情况下，同系基因组DNA的大克隆(在10kb的等级上)应当分离用于重组以高效工作。

TALE-融合技术可用于快速分析差异基因表达研究。工程化TALE结构域融合可容易地用于上调或下调任意内源性靶基因。需要非常少的序列信息以生成基因特异性DNA结合结构域。这使得TALE结构域融合技术可理想地用于分析不充分表征的差异表达的基因的长清单。通过在模型体系中同时打开或关闭候选基因，人们可简单地建立用于各候选基因的基于TALE的DNA-结合结构域；生成嵌合的上调和下调人工转录因子以及测试在研究中表型上上调或下调(转化、应答细胞因子等)结果。

使用工程化TALE结构域融合以增加功能信息至基因组数据的该具体例子仅仅示意。可有益于特异性上调或下调一种或多种基因的任何实验情况可从工程化TALE-融合的可靠性和易于使用中获益。

此外，通过TALE结构域融合可比通过更为常规方法赋予更多实验对照。这是由于工程化TALE-融合的生成和/或功能可置于小分子控制下。通过Tet-On体系、蜕皮激素调控体系和合并包括突变孕酮受体的嵌合因子的体系来提供该方法的例子。这些体系均能够间接赋予对任意目标内源性基因或者任意转基因小分子控制，通过该小分子控制来进行这些基因的功能和/或ZFP调节因子表达。

转基因生物

TALE-融合技术的进一步应用是操纵基因表达和/或改变基因组以得到转基因动物或植物。如使用细胞系，内源性基因的过表达或者引入异源性基因至诸如转基因小鼠的转基因动物是相当简单的方法。类似地，制备转基因植物也是公知的。本文所述的TALE结构域融合技术可容易地用于生成转基因动物和植物。

使用工程化TALE结构域融合以操纵基因表达限于使用之前部分所述的小分子调控体系的成年动物。在成年动物发育中可随意关闭或打开基于TALE结构域的抑制因子的表达和/或功能。该途径仅取决于TALE-融合表达组件的添加；而无需同源重组。因为TALE结构域融合抑制因子主要为反式，与种系传递或纯合性没有关系。这些问题显著影响由不充分表征的基因候选物(cDNA或EST克隆)至小鼠模型所需要的时间和劳力。该能力可用于快速鉴定和/或验证用于治疗干预的基因靶；产生新型模型体系以及使得可分析复合体生理现象(发育、造血、转化、神经功能等)。嵌合靶向小鼠可根据Hogan等，ManipulatingtheMouseEmbryo：ALaboratoryManual，(1988)；TeratocarcinomasandEmbryonicStemCells：APracticalApproach，Robertson编辑(1987)；以及Capecchi等，Science244：1288(1989)来得到。

通过递送编码TALE融合的核酸至细胞或胚胎内可得到遗传修饰动物。通常，将胚胎从一个细胞阶段胚胎增殖。可通过任何本领域已知方法来递送核酸，包括微注射至胚胎的细胞核或细胞质内。可将如所需的供体核酸与编码TALE融合的核酸共同递送。然后如本领域已知技术来培养胚胎以发育遗传修饰的动物。

在本发明的一方面中，提供遗传修饰的动物，其中至少一个编码目标基因或基因座的染色体序列已经被编辑。例如，编辑的基因可失活，使得它未被转录或适当翻译。可选择地，可编辑序列，使得基因的可替换形式被表达(例如在表达的蛋白中一个或多个氨基酸的插入(敲入)或缺失(敲除))。此外，目标基因可包含插入的序列，例如调控区。对于编辑的序列，遗传修饰的动物可以为纯合的或者可以为杂合的。在一些实施方案中，遗传修饰的动物可具有插入(敲入)“安全港”基因座的序列，例如Rosa26、HPRT、CCR5或AAVS1(PPP1R12C)基因座。在其他染色体基因座处可另外编辑这些敲入动物。在一些实施方案中，在没有任何选择标志物和/或没有启动子下，将目标序列插入安全港内，因而取决于内源性启动子以驱动表达。在一些方面中，可将遗传修饰的动物“人源化”，使得对宿主种属动物特异性的某些基因被人类同源物置换。以这种方式，使用表达的人基因(例如因子IX)来得到遗传修饰的动物以使得可开发动物模型体系，从而研究人基因、蛋白或疾病。在一些实施方案中，目标基因可进一步包含用于分别识别同源重组酶Cre和FLP的诸如loxP或FRT的重组酶识别位点，其可旁侧连接插入的目标基因。可将包含核酸酶位点的基因插入，使得跨过遗传修饰的动物以及表达同源重组酶(例如Cre)的另一遗传修饰的动物，导致子代缺乏插入的基因。

应用

本公开方法和组合物可用于在所需基因座处控制基因调控。取决于融合至TALE-重复结构域的转录调节结构域，可激活或抑制选择基因。可将TALE激活因子靶向诱导多能性的基因以用于制备来自分化细胞的iPSC的目的。这可用于特异性疾病状态的体外或体内模型发育以及用于开发由iPSC衍生的细胞治疗。

可将TALE-融合自身用作治疗剂，特别是在诸如脑或眼睛的免疫特许组织中。设计的激活因子特别地用于例如增加需要天然剪接变体比例以用于合适功能(例如VEGF)的基因产物的剂量；或者用于过表达处具有毒性的基因。通过使用强加表观遗传改变的功能结构域对设计的TALE调节剂的瞬时暴露也可使得永久开启基因表达状态。该技术可提供用于生成干细胞和控制它们的分化途径的另外的用途。此外，TALE-融合可在免疫受到抑制的患者中使用。

本公开的方法和组合物也可用于任意一个基因或多个基因的基因组编辑。在某些应用中，方法和组合物可用于使基因组序列失活。迄今，基于切割的方法已经用于对包括诸如玉米和大鼠的经济上重要种属的至少九种高级真核生物的基因组的靶向修饰，对于它们，之前无法获得这些能力。在其他应用中，方法和组合物使得可产生随机突变，包括生成基因的新型等位基因形式，与人源化基因的未经编辑的基因或整合相比，该新型等位基因形式具有不同表达或生物性能，该随机突变反之使得生成细胞或动物模型。在其他应用中，本方法和组合物可用于产生在基因的限定位置处随机突变，该基因使得可鉴定或选择携带这些基因的新型等位基因形式的动物。在其他应用中，本方法和组合物使得可靶向性整合外源性(供体)序列至基因组的任何选择的区域内。可将调控序列(例如启动子)以靶向的方式整合在目标位点处。所谓“整合”是指物理插入(例如，至宿主细胞的基因组内)以及此外经过在同源导向的DNA对中发生的指定核酸信息交换过程，通过拷贝供体序列整合至宿主细胞基因组内。

供体序列也可包含核酸，例如shRNA、miRNA等。这些小核酸供体可用于研究它们对在基因组内目标基因的作用。例如通过单个切割时间；通过非同源性末端接合之前的切割；通过同源重组修复机制之前的切割；通过供体序列的物理整合之前的切割；通过在两个位点处接合之前的切割以使两个切割位点之间缺失序列；通过靶向重组错义或无意义密码子至编码区内；通过靶向重组无关序列(即，“填充片段”序列)至基因或其调控区内以破坏基因或调控区；或者通过靶向重组剪接受体序列至内含子内以致错剪接转录物，可实现动物基因的基因组编辑(例如，失活、整合和/或靶向或随机突变)。在一些应用中，使用TALEN-诱导的DSB在指定位置处可将目标转基因整合至在哺乳动物或植物基因组内安全港基因座内。参见，美国专利公开No.20030232410；20050208489；20050026157；20050064474；20060188987；20060063231；以及国际公开WO07/014275，其公开内容以引用方式整体并入以用于所有目的。也可将这些TALEN作为试剂盒的组分来提供以用于靶向基因操纵。

也可将任选具有新型或非典型RVD、以及另外任选连接N帽和/或C帽残基的TALE-重复结构域融合至操纵诸如重组酶、转座酶、解离酶或整合酶的酶的DNA。因此，这些结构域可用于制备靶向的融合蛋白，该靶向的融合蛋白使得可开发这些工具和/或作为靶向的转座子等的治疗剂。此外，任选连接N帽和C帽残基的TALE-重复结构域可融合至核酸酶结构域以产生设计的限制性酶。例如，任选连接N帽和C帽残基的TALE-重复结构域可融合至单链FokI结构域(其中使用选择的接头将两个FokI切割半结构域接合至一起)，使得使用核酸酶融合的DNA制备处理可允许切割精确发生在期望位置处。该技术用于克隆和操纵DNA序列，该DNA序列使用标准限制性酶不容易接近。这些体系也可用在制备中使用的指定的细胞体系中。例如，由CHO衍生的细胞系不具有内源活性转座酶/整合酶体系。由于TALEDNA结合结构域的天然高特异性，可开发TALE-转座酶/整合酶体系以用于在CHO细胞中特异性靶向以及可用于敲除/敲入基因组编辑等。

TALE-融合蛋白可用于防止特异性DNA-结合蛋白结合至给定基因座。例如，可阻断天然调控蛋白与其天然靶在启动子中的结合，简单地由于工程化TALE蛋白已经表达在宿主细胞中，并且其占用在DNA上的位点，因而阻断通过调控蛋白的调节。

可将TALE-融合蛋白工程化以结合RNA。以这种方式，例如，可掩饰剪接供体和/或剪接受体位点，并且将防止在mRNA中特定位置处的剪切。在其他方面中，可将TALE工程化以结合特异性功能RNA，例如shRNA、miRNA或RNAi。

TALE融合蛋白可用于诊断。例如，可将蛋白工程化以鉴定在基因组中某些序列，从而识别已知与特定疾病相关的等位基因。例如，具有指定数目的TALE重复单元的TALE-融合可用作分类的“码尺”以测定在可能具有三核苷酸重复序列紊乱(例如例如亨丁顿蹈症(Huntingdon’sDisease))的患者中三核苷酸重复序列的数目，从而判断患上这些疾病之一的可能性或者从而预测症状的严重程度。也可提供这些融合蛋白作为诊断试剂盒的组分以使得可快速鉴定目标基因组标志物。此外，可从细胞中纯化这些蛋白以及将这些蛋白用在诊断试剂盒中或者用于诊断试剂中，用于例如分析目标基因的等位基因类型、测定mRNA表达水平等。可使TALE融合连接用于多通道或微流体分析的硅片或珠粒。

TALE融合可用于制备环境中。TALE-转录因子融合或TALEN可用在目标细胞系(例如CHO细胞)或者藻类(例如用于制备生物燃料)中。

存在基因或基因座的TALE融合蛋白介导的基因组编辑的各种应用。本文所述的方法和组合物使得可生成人疾病和具有所需特性的植物作物的模型。

本说明书中引用的的所有出版物和专利申请以引用的方式并入本文，如同具体地和单独地指明每个单独的出版物或专利申请以引用的方式并入。

尽管前述发明已以说明和例子的方式详述以便于清楚地理解，但对于本领域普通技术人员显而易见的是，鉴于本发明的教导，在未违背所附权利要求的精神和范围之下可进行某些变化和修改。

实施例

实施例1：

来自地毯草黄单胞菌(Xanthomonasaxonopodis)的天然TALE的克隆

为了鉴定可用作初始设计框架的天然TALE蛋白，鉴定出在哺乳动物细胞中展现出高度特异性以及靶序列结合迹象的标准、天然TALE。具体而言，通过使用以下引物对的PCR扩增将包含12.5个TALE重复序列(12个完整重复序列和半个重复序列，称为TALE13)的TALE蛋白从地毯草黄单胞菌中克隆，所述引物对为

pthA_d152N_EcoR，

ACGTGGATTCATGGTGGATCTACGCACGCTC(SEQIDNO：52)以及

pthA_Sac2_Rev，

TACGTCCGCGGTCCTGAGGCAATAGCTCCATCA(SEQIDNO：53)。

引物对经初始设计以扩增具有N-末端152个氨基酸截断的AvrBs3基因。之前已经显示，必需将这些序列转运至植物细胞内，但对于功能其他则不是必要的(参见Szurek等(2002)Mol.Micro46(1)13-23页)。通过使用这些引物对的PCR来分离特征在于具有不同数目的中心串联重复序列的高度保守序列的多种TALE蛋白。除了已经报道为hssB3.0(Shiotani等(2007)J.Bacteriol189(8)：3271-9)的TALE15外，因为它们尚未在公开文献中报道，分离的其他TALE蛋白表现为新型蛋白。这些包括分别具有13、9和16个TALE重复序列的TALE13、TALE9和TALE16。

TALE13(具有推测的N帽长度)的结构域图谱显示在图1A中，并且表示测定与蛋白相互作用的DNA序列的结构域和氨基酸的序列以及在该产品中位置编号体系的标记示出在图1B中。

实施例2：TALE13和其他TALE的截断以及对DNA结合的影响

当开始研究提供最大活性的大量加帽序列时，制备TALE的多个截断。这些截断显示在表4中。

表4：TALE截断特征

注意：(+)表示存在区域而(-)表示不存在。

如下编号截断的区域：在N-末端上，终点通过列举在从第一个正确TALE重复序列的第一碱基的N-末端方向中氨基酸残基的数目的数字表示(参见图1B)。例如，N+91的标记描述在N-末端上截断，该截断在从第一个正确重复序列的N-末端的N-末端方向中保留完整91个氨基酸。在C末端上，终点通过在从最后完整TALE重复序列的最后氨基酸的C-末端方向中氨基酸的数目来表示。称为TALE-13，克隆#1的截断#1具有移除的全长TALE蛋白的N-末端152个氨基酸以及添加至所得N末端的单个甲硫氨酸残基，因而具有N+137端点(N帽)，使得该克隆的长度为约2.5kb。截断#2也具有移除的全长TALE蛋白的N-末端152个氨基酸以及添加至所得N末端的单个甲硫氨酸残基，因而具有N+137端点以及在NLS的5’边缘下游的C末端序列，使得该克隆的长度为约2.0kb。截断#3类似于克隆#2，除了它具有富含亮氨酸的区域缺失(富含亮氨酸的区域是C-末端至半重复序列以及延伸至C帽的C+52)之外，使得该克隆的长度为约1.6kb。截断#4类似于克隆#2，除了在N-末端上，它始终缺失包括R0重复序列的序列，使得该克隆的长度为约1.6kb。截断#5类似于克隆#4，除了它在C-末端侧的缺失，包括富含亮氨酸序列(类似于克隆#2)，使得该克隆的长度为约1.4kb。全长TALE13蛋白的推测靶序列是TATAAATACCTTCT(SEQIDNO：54)，尽管尚未鉴定该蛋白的内源性靶位点。截断#6具有从N-末端中缺失的152个氨基酸，并且在C-末端区中类似于克隆#2，除了缺失另外的43个氨基酸。截断#7具有从N-末端中缺失的165个氨基酸，并且具有与克隆#6相同的C-末端缺失。截断#6和#7讨论如下。

在截断的TALE蛋白上进行标准SELEX测定以鉴定结合这些蛋白的DNA序列(对于SELEX方法，参见Perez，E.E.等NatureBiotech.26，808-816(2008))，并且结果显示在表5和6中。使用靶文库N18TA来进行在表5中显示的实验。N18TA文库包括具有以下序列的DNA双链体：

N18TA：

5’CAGGGATCCATGCACTGTACGTTTNNNNNNNNNNNNNNNNNNAAACCACTTGACTGCGGATCCTGG3’(SEQIDNO：55)，其中N表示所有四种碱基的混合物。另外的文库(如所示)包括以下序列：

N22AT：

5’CAGGGATCCATGCACTGTACGAAANNNNNNNNNNNNNNNNNNNNNNTTTCCACTT

GACTGCGGATCCTGG3’(SEQIDNO：59)

N21TA：

5’CAGGGATCCATGCACTGTACGTTTNNNNNNNNNNNNNNNNNNNNNAAACCACTTG

ACTGCGGATCCTGG3’(SEQIDNO：60)

N23TA：

5’CAGGGATCCATGCACTGTACGTTTNNNNNNNNNNNNNNNNNNNNNNNAAACCACT

TGACTGCGGATCCTGG3’(SEQIDNO：61)

N26：

5’CAGGGATCCATGCACTGTACGTTNNNNNNNNNNNNNNNNNNNNNNNNNNAACCAC

TTGACTGCGGATCCTGG3’

N30CG：

5’CAGGGATCCATGCACTGTACGCCCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNG

GGCCACTTGACTGCGGATCCTGG3’(SEQIDNo：62)

在下表5中显示碱基频率矩阵的数据。在这些矩阵的各位置处，方框表示预期的RVD靶碱基；数字表示各恢复的碱基类型的相对频率，其中1.0表示100％。

表5：TALE13，克隆#1的SELEX结果

尽管缺乏N-末端152个氨基酸，TALE13克隆#1蛋白呈现出对其结合的高选择性。TALE13，克隆#2的SELEX数据显示在表6中。在该图中，SELEX显示出具有靶序列的两个不同文库重复，并且得到两文库相同结果。

表6：TALE13，克隆#2的SELEX结果

当克隆#3、4和5经历SELEX程序时，未检测到共有序列。因此，似乎TALE结合结构域需要包含在克隆#2中的N-和C-末端帽序列以产生在该测试中的共有序列。

使用基本如Bartsevich等，StemCell.2003；21：632-7所述的DNA结合ELISA测定来制备和测试另外的截断。截断显示在下表7中，其也包括ELISA结果。与如上所讨论的#1、#2、和#3截断中N-末端相同，在这些截断中起始N-末端是在氨基酸152处。在该精密标度的截断系列中，终点如下：

表7：在TALE13的精细截断上ELISA结果

这些数据表明：在该体外测定中，有效TALE结合需要来自N+122至N+137以及来自C+53至C+95(直到以及包括N帽残基对于强有力结合不够以及直到以及包括C+52的C帽残基对于强有力结合不够)的残基。

初步绘图研究使得可评估黄单胞菌属TALE的最小N帽和C帽序列以得到最佳结合活性。对于N-末端帽，据观察，在第一正确重复序列的开始之前的N+122和N+137氨基酸之间包含一定数目氨基酸的序列需要DNA结合活性。基于与黄单胞菌属TALE的结构同源性可制备青枯菌属帽的类似帽的例子(见下表8中)。在C-末端帽中，粗体氨基酸表示RVD。

表8：帽例子

实施例3：天然TALE蛋白9和16的结合特异性

两种另外的天然TALE蛋白经过SELEX程序以鉴定这些蛋白结合的靶DNA序列。TALE9具有详细说明以下DNA靶：TANAAACCTT(SEQIDNO：56)的8.5个TALE重复序列，而TALE16具有预测以下靶：TACACATCTTTAACACT(SEQIDNO：57)的15.5个TALE重复序列。数据显示在表9和10中。在表9中，在克隆#2构型中使用TALE9蛋白，并且显示结果。如使用TALE13克隆#2，使用第二部分随机DNA文库来重复该实验，并且得到与第一文库相类似数据。如以上TALE13所述，TALE9对其靶序列高度特异。

表9：TALE9，克隆#2的SELEX结果

表10显示使用N18TA文库的TALE16蛋白的SELEX数据以及再次证实对鉴定的靶的高度序列特异性。

表10：TALE16，克隆#2的结果

在TALE蛋白中制备另外的截断以进一步研究有效DNA结合的条件。上表4示出这些截断。当在克隆#6截断(表11)中测试TALE9时，保持DNA结合特异性(比较表11和表9)。

表11：TALE9，克隆#6的SELEX结果

实施例4：在哺乳动物细胞中通过TALE-融合蛋白的报道基因激活

为了研究在哺乳动物细胞中TALE结构域融合的功能活性，如下制备工程化报道基因构建体。将克隆的TALE13或TALE15的靶序列的一个或多个拷贝插入在NheI和BglII位点之间的报道基因构建体中，从而将靶放置在pGL3质粒(Promega)中经最小SV40启动子驱动的萤火虫荧光素酶表达单元的上游(参见图2)。pGL3质粒的启动子区显示在图2A中以及含有TALE13的两个预测靶位点的序列显示在图2B中。在示出于图3的实验中，将TALE蛋白构建体连同含有2靶的报道基因质粒(图3A)、以及含有作为内部对照的海肾荧光素酶(Promega)的表达构建体共转染至人293细胞内。然后在转染后2天分析通过各TALE蛋白诱导的萤火虫荧光素酶活性。应答多种靶，TALEVP16融合可协同激活在哺乳动物细胞中报道基因表达(图3)。此外，如图4B中所示，加入VP16激活结构域(TR13-VP16和TR15-VP16)的TALE蛋白激活荧光素酶报道基因。没有VP16结构域的天然TALE蛋白的表达不会激活荧光素酶(TR13和TR15)。因此，仅当正确的靶匹配它们对应的TALE融合时，观察到报道基因激活，这表明转录激活由靶向DNA结合所致。

接着，将TALE靶序列插入相对靶向启动子的远端和近端位置。在该实验中，使用如在图5A中所示的TALE13靶，其中将四个靶序列插入启动子的上游(例如“R13x4”)或者下游(“R13x4D”)。显示在图5B中的结果证实：当将TALE13结合位点放置在靠近目标启动子的上游时，观察到最佳激活。

实施例5：人工TALE转录因子的构建

已经证实，TALE蛋白可连接至转录调节结构域以调节在哺乳动物细胞中报道基因表达，进行实验以工程化具有所需靶向特异性的TALE转录因子。将TR13VP16的沉默突变(即，在没有改变氨基酸序列的核苷酸序列中的改变)引入以在第一串联重复序列的起点和最后串联重复序列的终点处分别产生两个独特限制性位点，ApaI和HpaI。然后将这些ApaI和HpaI位点用于克隆合成的串联重复序列至TR13VP16主链内，从而生成旁侧连接串联重复序列以及VP16激活结构域的具有完整N-和C-末端序列的工程化TALE。

靶向的序列是位于NT3启动子序列内的GGAGCCATCTGGCCGGGT(SEQIDNO：58)。已经显示，之前靶向该序列的ZFPTF23570激活内源性NTF3基因表达(参见共同拥有的美国临时专利申请61/206,770)。来自TALEAvrBs3的17.5个串联重复序列用作主链以工程化TALE18(也称为“NT-L”)，使得将工程化TALE18氨基酸序列的串联重复序列改变以特异化预期靶核苷酸。来自工程化TALE18的DNA-结合结构域的氨基酸序列显示在下表12中，其中RVD以粗体显示在方框中：

表12：工程化TALE18(NT-L)的DNA-结合结构域

除了在之前工程化试验中使用的四种RVD(NI、HD、NN和NG以分别靶向A、C、G和T)之外，如在两种天然存在的蛋白中观察到的同源靶位点鸟嘌呤，我们还在与DNA靶位点中G核苷酸相对应的位置处并入在TALE重复序列的子集中的NKRVD(参见Moscou等，同上)。与之前实验研究一致(参见Boch等，同上)，我们发现NI、HD、NG分别显示对腺嘌呤、胞嘧啶和胸腺嘧啶的强烈优选以及NN显示对鸟嘌呤的优选，但也可结合腺嘌呤。相反，NKRVD显示对鸟嘌呤的强烈优选，这表示对靶位点包括至少一个鸟嘌呤的工程化TALE蛋白的强效改善。

然后由氨基酸序列衍生和通过84个重叠的寡核苷酸合成编码工程化TALE18的17.5个串联重复序列的DNA序列，各长度为如下约40个核苷酸。首先，整个1.8kbDNA序列分成11个嵌段，并且通过基于PCR的方法来组装覆盖各嵌段的重叠寡核苷酸；然后通过重叠PCR将11个嵌段融合在一起至4个更大嵌段内，以及最后通过使用最远端引物对重叠PCR将4个嵌段组装至全长内。如上所述，然后确定合成的串联重复序列的序列，并且将其克隆至TR13-VP16的ApaI和HpaI位点，从而生成靶向NT-3启动子(R23570V)的工程化TALE18(NT-L)的表达构建体。

然后通过SELEX来测定该工程化蛋白(称为NT-L)的特异性，并且结果显示在下表13中。如所示，数据证实可以工程化全部新型的TALE蛋白以结合期望序列。如也显示在表13中，在克隆#6截断中也使用NT-L来进行SELEX选择(见上)，这证实类似于TALE9，在该截断内保持NT-L的特异性。也在克隆#7截断中使用NT-L进行SELEX实验，其显示维持DNA结合特异性。

表13：NT-L，克隆#2、#6、和#7的SELEX结果

然后针对包含靶序列的两个拷贝的荧光素酶报道基因构建体分析工程化NT-L蛋白的转录活性。如下表14和图6A所示，含有工程化17.5个串联重复序列、但其他处与TR13-VP16相同的工程化NT-L融合蛋白(R23570V)能够驱动强效报道基因激活，而没有串联重复序列(R0-VP16)的类似构建体不能激活荧光素酶。对于报道基因激活，当旁侧连接重复序列(分别为nR23570S-dNC和nR23570S-dNC)的N-末端或C-末端序列的缺失破坏转录活性时，则需要旁侧连接全长串联重复序列(N帽和C帽)的TALE序列。称为nR23570S-dNC的构建体含有SV40核定位信号(n)以及融合单个p65激活结构域(S)的工程化NT-L重复序列(R23570)。该构建体仅含有重复序列，但没有来自TALE(dNC)的N-末端或C-末端序列。除了它具有两个p65激活结构域之外，构建的nR23570SS-dNC与如nR23570S-dNC所述相同。

如从表14中可见，使用R23570V构建体可发现最高水平的报道基因激活。注意，当没有N-末端和C-末端加帽区下使用NT-L重复序列时，在该测定中未观察到本底上激活(比较nR23570S-dNC与模拟物)。

表14：NT-L融合的报道基因激活

接着，将构建体用于靶向内源性NTF3基因以观察在哺乳动物细胞中的工程化的融合蛋白是否能够激活在其染色体基因座中内源性基因。在图6B的实验中，将工程化NT-L(R23570V)以及对照构建体(R0-VP16，GFP)瞬时转染至人293细胞内。在转染2天之后，通过Taqman分析来分析NT-3表达水平。如在图6B中所示，工程化NT-L(R23570V)的表达导致在人293细胞中NTF3mRNA表达的显著增加，而对照蛋白(R0-VP16或GFP)的表达对NTF3表达水平没有影响。这是第一次将特异性工程化TALE结构域融合蛋白用于哺乳动物细胞中以激活内源性基因的表达。

制备另外的示例性构建体以确定达到活性是否需要旁侧连接TALE重复结构域的C-末端区的所有278个残基。该另外的构建体(+95)仅含有在TALE重复结构域和VP16激活结构域之间的C-末端区的前95个残基(即，C+95C帽)。图7显示这两个构建体(在图6中，+278构建体称为R23570V)以及在mRNA和蛋白水平下这些蛋白对NTF3激活的影响的图。也显示更长的这些构建体(含有+278C-末端(或全长)结构域)的SELEX结果。如图中可见，两种TALE转录因子构建体均能够上调在mRNA和蛋白水平下的NTF3表达。

也产生对在VEGF、CCR5和PEDF基因的区域特异性结合的构建体。如上所述，将重复结构域工程化以通过上述方法来结合这些靶。这些蛋白的靶位点显示在以下实施例7中。蛋白含有10-重复或18-重复DNA结合结构域。

此外，在9.5重复NTF3-特异性和9.5重复VEGF-特异性TALEDNA结合结构域中制备一系列截断。将截断表达在TNT偶联网织红细胞裂解物系统(Promega)中以及将裂解物用于如下结合DNA片段。通过加入包含250纳克的核酸酶融合克隆质粒的5μL的水至20μL的裂解物以及在30℃下孵育90分钟来表达蛋白。如上所述进行结合测定。使用标准方法的Western印迹证实表达的蛋白全部等同地表达。结合测定的结果显示在图8中。在这些实验中，对于N-末端的截断，C-末端氨基酸保持在C+95处；而对于C-末端截断，N-末端保持在N+137构型。如从图所示，在该测定中，当蛋白在第一正确重复序列的N-末端侧上含有至少134氨基酸以及在半重复序列的C-末端上至少54氨基酸时，观察到最大结合，并且令人感兴趣的是，这对靶向NTF3序列以及靶向VEGF序列的两种TALEDNA结合结构域均适用(比较图A和B)。使用蛋白来重复在关键性134N-末端位置周围的截断，其中将C-末端截断至+54(而不是如上所述的C+95)以及重复C-末端截断，其中N-末端截断至+134位置(而不是N+137)。数据显示在图9中以及当将C末端截断通过+54时和/或当将N末端截断通过+134时，显示如之前实验所观察到的DNA结合的类似的降低。这些数据表明，在该体外亲和力测定中最佳结合的最小帽延伸至N+134和C+54。

实施例6：在哺乳动物细胞中涉及DNA靶向的TALE功能结构域的剖析

在该例子中，产生如下表15中所示在TALE13蛋白的N-末端或C-末端处各种缺失。

表15：TALE13缺失构建体

所有构建体连接至VP16激活结构域(具有VP16的构建体称为“R13V”)以及核定位信号(具有NLS的构建体称为“nR13”)，以及测试来自包含预测的TALE13靶的2个拷贝的报道基因构建体的报道基因激活(图10，上图)。

如在图10中所显示，在该组构建体(参见表15)中保留强报道基因激活活性的最小区是R13V-d182C，其缺少在其N-末端处的152个氨基酸和在其C-末端处183个氨基酸。结果证实，在第一串联重复序列之前的R0区以及在最后重复序列之后的富含亮氨酸区提供在该测定中最佳结合，而在哺乳动物细胞中包含核定位信号的区以及在其C-末端处天然激活结构域对于DNA-靶向不是必要的。

实施例7：证实连接核酸酶结构域的TALE的核酸酶切割活性

接着，评估在人工TALE核酸酶(TALEN)的环境中TALE的DNA靶向能力。如在实施例6中定义的TALE13的DNA靶向结构域连接核酸酶结构域以生成称为R13d182C-scFokI的构建体，除了通过在FokI结构域之间的GGGS序列的12个拷贝连接的FokI核酸酶结构域的两个拷贝用于置换VP16激活结构域之外，该R13d182C-scFokI与如上所述R13V-d182C相同。然后在基于单链退火(SSA)的报道基因测定中测试TALEN构建体的核酸酶活性(参见共同拥有的美国专利公开No.20110014616)。

在该测定中使用的报道基因构建体(图11A，SSA-R13)含有预测的TALE13靶，该TALE13靶夹在GFP编码序列的N-末端(GF)和C-末端部分(FP)之间。报道基因SSA-R13自身不能驱动GFP表达，但在TALE13靶处的切割促进在GFP的N-和C-末端部分之间的同源重组(HR)以形成功能性GFP转基因。在其结果示出在图11B中的实验中，连同或者不连同(模拟)TALEN构建体的SSA-R13报道基因构建体被瞬时核转染至如之前所述的K562细胞内。

在核转染之后两天，通过流式细胞计来分析GFP阳性细胞的百分比例。如在图11B中所示，通过TALEN融合(R13d182C-scFokI)，与在没有TALE质粒(模拟物)的对照实验中的约1.4％相比，约7％GFP阳性细胞从SSA-R13报道基因质粒中生成，这表示在SSA-R13报道基因中TALE13靶处切割的显著增加。

这些数据证实：在哺乳动物细胞中TALEDNA结合结构域可用于生成DNA的位点特异性切割的功能TALEN。

使用FokI切割半结构域也构建TALE结构域融合。对于这些例子，使用野生型FokI半切割结构域，从而对于核酸酶活性，从两个融合中必须形成同型二聚体。对于这些融合，通过克隆TALEDNA结合结构域至邻近FokI-特异化序列的质粒内将TALE13DNA结合结构域融合至各FokI半结构域。此外，测试在DNA结合结构域和核酸酶结构域之间使用的各种接头。如下使用接头L2和L8：L2＝GS(SEQIDNO：71)和L8＝GGSGGSGS(SEQIDNO：72)。将靶位点克隆至具有在各靶结合位点之间不同缺口间距的TOPO2.1靶载体(Invitrogen)内，使得通过2至22bp将两者彼此分离。进行靶载体的约1kb区的PCR扩增以产生靶DNA。如之前所述也截断TALEDNA结合结构域，以及使用在实施例2和6中如上所述的相同术语来描述。通过加入含有250纳克的核酸酶融合克隆质粒的5μL的水至20μL的裂解物以及在30℃下孵育90分钟，TALE结构域核酸酶融合克隆表达在TNT兔网织红细胞裂解物体系中。

然后如下将裂解物用于切割靶DNA：将2.5μL的裂解物加入含有50纳克的PCR扩增的靶DNA以及1X浓度的最终缓冲液2(NewEnglandBiolabs)的50μL反应物。在37℃下进行切割反应一小时，随后是在65℃下的20分钟热失活阶段。然后将反应在高速下离心以从裂解物中分离靶DNA，导致裂解物浓缩在反应孔中小球内。将包含DNA的上清液沉淀以及在溴化乙锭染色的琼脂糖凝胶(Invitrogen)上运行以从切割的靶DNA中分离完整靶DNA。然后使用AlphaEaseFC(AlphaInnotech)软件来分析琼脂糖凝胶以测定存在于由靶DNA的单个切割事件所致大的未切割的DNA带和两个更小的DNA带的靶DNA的量。在承载在凝胶内的靶DNA的总量中切割的DNA的百分率表示在各反应中切割％。

尝试向下修剪融合至有效结合所需的特定区域，我们期望最小化TALE蛋白的旁侧区，据推理，修剪外源性肽序列可提供更多FokI切割结构域的受约束的连接，其可改善TALEN的催化活性。如下所示制备在TALEDNA结合结构域的N-和C-末端末端(SEQIDNO：73和SEQIDNO：369)上制备的截断，其中以上氨基酸序列示出截断位点，并且预测的二级结构(C＝无规卷曲，H＝双螺旋)示出在以下序列中：

C-末端缺失研究的结果显示在图12和13中。通过在溴化乙锭染色的琼脂糖凝胶上可视化切割产物，图12显示靶序列的切割。在图12中，L2或L8表示使用的接头，并且在各泳道下数字表示在二聚体的两个靶DNA结合位点之间的bp缺口。‘S’表示仅存在一个靶DNA结合位点，使得活性核酸酶同型二聚体不能在DNA上形成。“Pmll”表示使用位于靠近TALE结合位点的克隆的DNA靶序列中独特限制性位点的市售限制性酶(NewEnglandBiolabs)切割的阳性对照反应。在PmlI位点处切割表示：克隆的位点存在于PCR扩增的靶DNA中以及也显示切割的DNA的预期大小。空白表示没有TALEN编码质粒的阴性对照TNT反应，使得没有产生TALEN。数据示出在图13中图形格式中，以及显示使用至少9个碱基的间隔子长度的C+28和C+39C帽，蛋白的切割活性极大增加。继续这些实验以及构建进一步的C帽(C-2、C+5、C+11、C+17、C+22、C+25、C+28和C+63)。结果概述在下表16中。“间隔子”表示在靶位点之间的碱基对数目以及“SC”表示在靶中仅含有一个结合位点的这些样品。

表16：TALE13-同型二聚体体外配对的C末端截断

如从以上示出的数据可见，据观察，当将C-末端截断通过约C+5时，在该测定中作为融合核酸酶的蛋白的活性降低。

当示出具有指定间隔子的靶时，也评估具有另外的C-末端截断点的TALE13核酸酶的切割活性，并且结果显示在以下表17中。“S”表示含有TALE13的单个结合位点切割靶。

表17：TALE13核酸酶C-末端截断

类似于在TALE蛋白的C-末端区上进行的工作，也在N-末端中产生缺失。数据示出在图14中以及显然当在相对靠近N+137位置处引入截断时，具有N-末端缺失的蛋白的活性减弱。在该图中，使用相应N-末端截断来标记各列，并且使用单独的克隆数目。“S”表示仅单个结合位点存在于靶中。这些结果的总和表示：当连接FokI半结构域或者连接可在单链构型中相互作用的两个半半结构域时，TALEN的活性可以相当高，但N帽和C帽的长度影响对所得TALEN的DNA切割性能。

构建TALEN以结合在哺乳动物细胞中内源性靶。使10个重复NTF3结合结构域连接如上所述的FokI半结构域。此外，使用标准重叠寡核苷酸构建技术将NTF3特异性配偶体(rNTF3)市售构建。使用在C末端的三种变体：C+63、C+39和C+28来制备合成NTF3配偶体，并且将TALEDNA结合结构域克隆至标准ZFN载体内，该标准ZFN载体附加附加表位和核定位信号至C-末端以及附加野生型FokI切割结构域至C-末端。在这些实验中使用的构建体的完整氨基酸序列显示在实施例23中。

除了9.5重复NTF3-Fok1融合以及18重复NTF3-特异性NT-L蛋白之外，也制备TALEN以靶向VEGFA基因特异性位点。该融合蛋白含有9.5个重复单元以及将该融合蛋白如上所述构建。使用+28、+39或+63的C末端截断也制备18个重复NT-L和VEGF-特异性TALEN。然后将在各种组合中这些合成融合核酸酶体外用于如上核酸酶测定中。使用大写字母以下显示底物序列，该大写字母表示各种融合的靶结合位点：

这些研究的结果以下示出在表18和表19中。

表18：人NTF3的特异性TALEN对

注意，表18显示各TALEN对的复制试验。例如，样品1和16是TALEN单体的相同组合。

表19：靶向NTF3/NTF3或NTF3/VEGF的组合的TALEN

“NN”是指具有左(NT-L)和右(NT-R)NTF3TALEN的结合的内源性NTF3靶的相关部分。#1或#2是指相同构建体的不同克隆。

因此，这些蛋白作为体外核酸酶。

使用上述SSA报道基因体系，这些蛋白也用于在哺乳动物细胞中核酸内切酶活性的测定。将靶底物(在图15A中显示，SEQIDNO：452)克隆在脱节的GFP报道基因之间，使得在切除之前的在NTF3位点处的切割导致全部GFP报道基因能够表达。该底物含有NTF3靶序列以及特异性靶向CCR5基因的靶序列。图15B示出使用NTF3特异性-TALE蛋白的选择的该实验的结果。在该实验中，使用以下NTF3-特异性TALEN融合。TALE13C28L2是具有C+28截断和L2接头的上述的TALE13衍生物。rNT3R17C28L2是具有C+28截断和L2接头的17.5重复NT3-特异性蛋白(就NT3基因的编码链来说其靶向DNA的相反链)。rNT3R17C39L2是与C+39C末端相同的构建体，以及rNT3R17C63L2具有C+63C末端。该rNT3R17DNA结合结构域也称为NT-R。8267EL/8196zKK是使用CCR5特异性锌指核酸酶的对的对照。标记为“-NT3R18C28L8”的数据示出没有NTF3特异性配偶体(就NTF3基因的编码链来说其靶向DNA的前链)的结果，而标记为“+NT3R18C28L8”的数据示出在配偶体的存在下的结果。在这种情况下中，配偶体是在C28位置处截断以及含有L8接头的具有17.5个重复序列的NTF3特异性蛋白。如图所示，TALEN的正确配对导致报道基因的充分切割以及因而表达报道基因。

实施例8：使用工程化TALEN以切割在哺乳动物细胞中内源性基因座

然后测试在哺乳动物细胞中内源性基因座处靶向NTF3基因座(参见表18)的以上所述二聚体对。使用如通过生产商提供的标准方法的AmaxaBiosystems装置(Cologne，Germany)将如所示的二聚体对核转染至K562细胞内，以及在转染之后使该二聚体对经过短暂冷激条件(参见美国专利12/800,599)。

将细胞在30℃下孵育三天，然后分离DNA以及用于Cel-I分析。设计该分析以检测在样品中如与野生型序列相比较的错配。错配是由于通过TALEN的切割在DNA中双链断裂的结果，其通过非同源性末端接合(NHEJ)的易错过程来加热。NHEJ通常引入小的添加或缺失以及设计Cel-I测定以检测那些改变。使用使用下列引物扩增的产物，如例如在美国专利公开No.20080015164；20080131962和20080159996中描述进行测定：LZNT3-F4：5’-GAAGGGGTTAAGGCGCTGAG-3’(SEQIDNO：80)和LZNT3-1077R：5’-AGGGACGTCGACATGAAGAG-3’(SEQIDNO：81)。这些引物从内源性序列扩增272bp扩增子，然后通过Cel-I测定的切割生成约226和46bp的产物。尽管226bp产物是可见的，但由于它们的大小在凝胶上难于观察到46bp产物。结果显示在图16中，其中观察到的基因组修饰％表示在泳道中，该泳道包括Cel-I酶。如从图中显而易见，有核酸酶诱导的突变出现在这些样品中，以及以一式两份制备样品(例如比较泳道7和22；或者泳道12和27)。

在转染之后使用在37℃或30℃下孵育的细胞，使用对15、13、12和10来重复研究(参见表18)，并且结果显示在图17中。首先，如之前所述在SELEX分析中测试NT-RTALEDNA结合结构域，并且结果显示在图17A中。当在K562细胞中表达时，这些蛋白产生如通过Cel-I测定揭示的稳固的基因修饰，在37℃和30℃下对测试的大多数活性异源二聚体(对12)来说具有3％和9％的水平(参见图17B)。而且，Sanger测序鉴定在30℃样品中分析的84种中7种突变的等位基因以及也揭示通过非同源性末端接合(NHEJ)与易错的断裂修复一致的突变光谱(小缺失)(图17C)。

这些研究显示：如本文所述的TALEN结构可在内源性基因座和在哺乳动物细胞中有效驱动NHEJ-介导的基因修饰。

这些研究也揭示，组合物可用于连接核酸酶结构域至提供高活性核酸酶功能的TALE重复阵列。也使样品经过在NTF3基因座的深度测序。使用4bp序列来编码样品以及在Illumina基因组分析仪器(Illumina，SanDiegoCA)上使用50bp阅读长度。使用定制python脚本来处理序列。分析序列中由于通过核酸酶活性诱导的双链断裂产生的、作为非同源性末端接合(NHEJ)活性的标志的添加或缺失(“插入/缺失”)的存在。该结果显示在图18中。在内源性基因座中，在通过这些两种蛋白识别的靶序列之间有12个碱基对缺口(参见图18A)。如在图18B中所显示，存在在哺乳动物细胞中显示对内源性NTF3基因座的活性的多个插入/缺失。在图18B中，在内源性基因座处野生型序列通过“wt”来表示。

实施例9：在TALEN切割之后靶向性整合至内源性基因座内

通过HDRDNA修复途径或者通过NHEJ途径可发生在NTF3处TALE-介导的靶向性整合。基于通过NHEJ的小双链寡核苷酸的捕获，我们设计实验以测定在NTF3处TALE-介导的靶向性整合。我们之前已经显示在ZFN-诱导的DNA双链断裂(DSB)的位点处寡核苷酸的捕获。通过(但不是绝对需要)与通过ZFN对的FokI部分所产生的那些互补的5’突出端的存在来增强该类型的靶向性整合。FokI天然产生4bp5’突出端；在ZFN的环境中，FokI核酸酶结构域产生4bp或5bp5’突出端。由于通过NTF3TALEN留下的突出端的位置和组合物是未知的，我们设计具有在NTF3TALEN结合位点之间(NT3-1F至NT3-9R)在12bp间隔子区域中所有可能的4bp5’突出端的九种双链寡核苷酸供体(参见表20)。

表20：用于靶向性整合测定的PCR引物

注意-*在引物序列中示出两种5’末端硫代磷酸连接。所有引物缺乏5’磷酸。

这些供体含有两种5’末端硫代磷酸连接以及缺乏5’磷酸．以及引物内部F的结合位点。通过加热至95℃以及以0.1°/min冷却至室温，将互补寡核苷酸(例如具有NT3-1R的NT3-1F)在10mMTrispH8.0，1mMEDTA，50mMNaCl中退火。使用设置程序FF-120和使用溶液SF的AmaxaNucleofector(Lonza)，使用在20μL转染混合物中八种不同TALEN对(A-H，400ng各质粒，参见表21)将供体寡核苷酸(5μL的40μM退火的寡核苷酸)单独转染至200,000K562细胞内。

表21：NT3-特异性TALEN对

在转染之后三天收获细胞以及裂解在50μLQuickExtract溶液(Epicentre)中。将一微升的粗品裂解物用于如下所述的PCR分析。

我们分析寡核苷酸供体的靶向性整合至通过使用内部F和GJC273R引物的寡核苷酸和染色体产生的接合物的PCR扩增的NTF3TALEN产生的DSB内。取决于在染色体中断裂位置，基于寡核苷酸供体的完全连接的PCR扩增子的预期大小不同。如在图19中所见，使用TALEN和供体突出端的许多组合来检测供体的整合。使用靠近12bp间隔子区域的中心处CTGG和TGGT突出端来观察最大信号。测序通过NHEJ捕获的含有供体的内源性染色体基因座，并且显示在图20中。显示用于该研究的NTF3靶基因座(双链体顶部)和寡核苷酸双链体之一(底部双链体)，并且在顶部序列中对NT-L+28和NT-R+63中结合位点划下划线。突出显示最有效捕获双链体(5’CTGG)的切割突出端。用于该研究的第二寡核苷酸双链体也显示在图20B中。在顶部序列中对NT-L+28和NT-R+63的结合位点划下划线。也显示最有效捕获该第二双链体(5’TGGT)的切割突出端。然后在图20A中显示的寡核苷酸双链体存在下，TALENNT-L+28和NT-R+63表达在K562细胞中。然后使用在双链体内退火的一种引物以及退火天然NTF3基因座的一种引物将在成功整合的双链体和基因组DNA之间的接合物扩增。将所得扩增子克隆和测序。在图20C中“预期”序列表示可由寡核苷酸双链体完全连接至切割的基因座产生的序列。方框突出显示在连接序列中双链体突出端的位置。底部两条线提供从该研究中获得的连接序列。如所示，11个连接序列由双链体与切割突出端的完全连接所产生，而一个连接序列展现出与通过NHEJ的修复之前的切除一致的短缺失(12bp)。除使用在图20B中寡核苷酸双链体外，图20D显示如在图20C中所示实验结果，相对于在图20A中所示双链体，该寡核苷酸双链体具有通过一个碱基转移的4bp突出端。最低处四条线提供从该研究中获得的连接序列。如所示，鉴定四种不同序列，其各自展现出与在NHEJ-介导的修复之前的切除一致的短缺失。

实施例10：编码新型TALE蛋白的基因的有效组装

在天然蛋白中发现的编码TALE重复序列的DNA序列与它们对应的氨基酸序列一样重复。天然TALE通常仅在各重复序列的序列之间具有差别的少数碱基对。重复DNA序列可使难于有效扩增期望的全长型DNA扩增子。当尝试扩增天然包含TALE蛋白的DNA时，已经将这显示。以上使用Mfold(M.ZukerNucleicAcidsRes.31(13)：3406-15，(2003))的TALE-重复蛋白的DNA序列的进一步分析揭示：它们不仅具有有效破坏扩增的重复序列，它们也含有非常稳定的二级结构。在该分析中，从编码第一完整重复序列的核酸的5’末端处开始分析序列的800个碱基对。因此，分析的核酸序列含有约7.5个重复序列。这些二级结构的某些显示在图21中。

这些结构可出现在任意TALE重复序列之间或者在不相邻的重复序列之间。为了提供含有TALE重复序列的DNA序列的有效扩增，在TALE重复序列的区域中进行沉默突变的引入以破坏该二级结构以及在用于稳定化二级结构的TALE重复序列的区域中使反应向全长型扩增子偏向。然后制备引物以使得可有效扩增TALE序列或目标。然后测序PCR扩增产物以用于验证以及克隆以用于融合蛋白中。此外，在TALE核苷酸序列中制备沉默突变以在哺乳动物细胞中用于密码子优化。类似的密码子优化可用于优化在其他宿主细胞体系(例如植物、真菌等)中的表达。

实施例11：用于快速构建编码TALE融合蛋白的基因的方法

为了使得可快速组装各种TALE融合蛋白，开发产生重复组件的档案(archive)的方法，其可连接至一起以产生对几乎任意选择的靶DNA序列特异的TALEDNA结合结构域。基于所需靶DNA序列，挑选一个或多个组件以及通过基于PCR的方法来重新获得。将组件串联连接以及连接至含有选择的融合配偶体结构域的载体主链内。

构建具有对256种可能的DNA四核苷酸序列(例如，AAAA靶的一种组件、AAAT的一种等)中的每一种具有特异性的含有四个TALE重复单元的组件。此外，对所有64种可能的DNA三核苷酸靶、所有可能的64种二核苷酸DNA靶以及4种单个核苷酸靶也生成组件。对于二肽识别区(也称为RVD-重复可变二肽)，使用以下编码：对于腺嘌呤的识别，RVD是NI(天冬酰胺-异亮氨酸)；对于胞嘧啶，RVD是HD(组氨酸-天冬氨酸)；对于胸腺嘧啶，RVD是NG(天冬酰胺-甘氨酸)；以及对于R(对于鸟嘌呤或腺嘌呤的相对特异性)，RVD是NN(天冬酰胺-天冬酰胺)。此外，在一些工程化TALE中，选择RVDNK(天冬酰胺-赖氨酸)以用于识别G，因为据观察在一些蛋白中它对G比NN具有更高特异性。而且，RVD的倒数第二位置N-末端(重复单元的位置11)是N或天冬酰胺(通常该位置是S或丝氨酸)。通过使用任意其他RVD可扩展该组件库。

具有完好序列重复的DNA的PCR特异性、克隆和操纵存在问题。因此，为了构建档案，分析许多天然TALE重复序列以观察其中可耐受在氨基酸序列中可变性以尝试多样化在DNA水平下重复序列。结果示出在图22中，其中字母大小与在给定位置处观察到的多样性反相关：字母越大表示可变性的公差更低；而字母越小表示其中有时观察到其他氨基酸的位置。例如，在位置1处，观察到的重复单元的第一氨基酸L或亮氨酸基本上未变。然而，在位置4处，有时观察到三种不同的氨基酸：E或谷氨酸；A或丙氨酸；或者D或天冬氨酸。此外，编码各种重复组件的核苷酸序列也改变以利用在遗传密码中冗余度，使得编码特异性氨基酸的密码子可交换，使得编码重复单元的DNA链具有与另一重复单元不同的序列，但氨基酸序列保持相同。将所有这些技术用于组件的池(pool)，该组件可用于构建工程化TALEDNA结合结构域，其中DNA结合结构域的内部可识别任意所需靶。

为了使得设计人员特异化组件的位置，使用IIS型限制性酶，BsaI，其切割DNA靶位点的3’末端。BsaI识别以下所示的序列。也示出在酶切割之后保留的切割的DNA“粘性端”(SEQIDNO：102-105)：

5’...GGTCTCNNNNNN...3’5’...GGTCTCNNNNNN...3’

5’...CCAGAGNNNNNN...3’5’...CCAGAGNNNNNN...3’

识别位点->切割后

如本领域技术人员所理解，粘性端的序列取决于紧接限制性识别位点的3’的DNA序列，因此，这些粘性端彼此之间的连接仅在正确的序列存在时出现。一旦使用BsaI来切割PCR扩增子，利用这个来开发PCR引物以扩增具有已知粘性端的期望组件。然后在BsaI切割之后合并PCR产物以使得产物可仅以用户指定的顺序连接至一起。连接由1至16个完整TALE重复序列组成的至多四种组件的组装方案示出在图23中。使用的引物如下，其中对应的编号显示在图中。尽管预期通过使用相同概念将列出的引物用于连接四种组件，将更多引物添加以连接多于四种组件。

引物：

T1F-BsaGGATCCGGATGGTCTCAACCTGACCCCAGACCAG(SEQIDNO：106)

T1R-BsaGAGGGATGCGGGTCTCTGAGTCCATGATCCTGGCACAGT(SEQIDNO：107)

T2F-BsaGGATCCGGATGGGTCTCAACTCACCCCAGACCAGGTA(SEQIDNO：108)

T2R-BsaGAGGGATGCGGGTCTCTCAGCCCATGATCCTGGCACAGT(SEQIDNO：109)

T3F-BsaGGATCCGGATGGGTCTCAGCTGACCCCAGACCAG(SEQIDNO：110)

T3R-BsaGAGGGATGCGGGTCTCTCAAACCATGATCCTGGCACAGT(SEQIDNO：111)

T4F-BsaGGATCCGGATGGGTCTCATTTGACCCCAGACCAGGTA(SEQIDNO：112)

T4R-BsaCTCGAGGGATGGTCTCCTGTCAGGCCATGATCC(SEQIDNO：113)

当使用该方法，可仅发生BsaI切割的PCR扩增子的连接，其中“A”组件的3’端连接“B”组件的5’端，“B”组件的3’端可仅连接“C”组件的5’端等。此外，将连接组件克隆至其内的载体主链也含有特异性BsaI切割的粘性端，使得仅“A”组件的5’端及仅“D”组件的3’端连接以完成载体循环。因此，通过用户选择的PCR引物测定在工程化TALEDNA结合结构域内各组件的位置。

此时，通常将TALEDNA结合结构域的DNA靶位点旁侧连接在靶的5’端(通过R0重复序列对其识别)以及在靶的3’端(通过R1/2重复序列对其识别)处T核苷酸。因此，已经设计载体主链，使得将含有指定组件的连接的PCR扩增子在载体内R0和R1/2序列之间的框架中克隆。此外，载体含有TALE蛋白的用户指定的C-末端结构域类型(截断或不截断)以及融合配偶体的选择的外源性结构域。在图23中示出的设计中，外源性结构域是使得TALE核酸酶可产生的FokI结构域。载体进一步包含表达融合蛋白必需的序列，例如CMV启动子、核定位信号、用于监控表达的标签以及polyA位点。现可将该载体转染至用户选择的细胞。此外，可将载体进一步修饰以含有如不同细胞体系所期望和/或所需的选择标志物、结构域或其他基因。

实施例12：特异性内源性TALEN的设计和表征

为了评估TALEN设计方法，我们尝试证实在人CCR5基因内靠近δ32突变(以粗下划线如下显示)的位置处TALEN介导的基因修饰(参见StephensJC等，(1998)AmJHumGen62(6)：1507-15)。对于该研究，我们设计在δ32(参见如下)的位置处四种“左”和四种“右”结合位点的簇，其定义一组16种二聚体靶(SEQIDNO：114-122)。

在该组内，通过从5-27bp的一系列缺口大小来分离单个靶。使用在实施例11中描述的方法来组装TALEN蛋白，使得在所有描述的蛋白(除非另有具体说明)中，用“T”表示的RVD是NG，“A”是NI，“C”是HD以及“G”是NN。接着，对于各靶产生具有48或83个残基的C-末端片段的两种可选择的蛋白。最后，将“左”和“右”蛋白(8x8＝64总计)的所有配对组合表达在K562细胞中以及测定内源性基因座的修饰。参见以下表22(第3天和第10天)：

表22：CCR5Δ32-特异性TALEN截断配对组合的活性

第3天修饰水平

第10天修饰水平

因为靶位点含有各种缺口大小，所以也可关于两靶位点之间的距离分析与大部分活性核酸酶相关的数据。除了它显示靶位点的缺口大小之外，在表23中也显示在表22中以上那些的组。

表23：配对组合的缺口大小

*表示配对，其中有如通过CelI测定(与表22，+63/+63比较)分析的＜1％基因修正活性。

因此，可比较表22和表23的数据以确定最具活性的这些对的缺口大小的范围包括12至21bp，但排除小于11bp或者大于23bp的缺口。

为了证实我们TALEN结构可通过其他主要细胞DNA修复途径：同源重组修复(HDR)来诱导基因编辑，靶向已经显示在现有研究中具有作为转基因整合的可能安全港的前景(参见Lombardo等(2007)NatBiotechnol25：1298-1306)的在CCR5(称为基因座162)内第二基因座。指定四个“左”和四个“右”结合位点(见下，SEQIDNO：123-131)，以及将两个可选择的TALEN各自构建(+28和+63变体)，并且使用Cel-I测定(SEQIDNO：370-379)筛选+28/+28和+63/+63配对以用于NHEJ-介导的基因修饰。

如在表24中测试的24对以下所示，16对产生至多21％的水平的可检测的修饰。

表24：靶向CCR5的基因座162的TALEN对的配对组合活性

接着，将两个活性最大的对(L172+28/R185+28和L161+63/R177+63)引入具有供体DNA片段的K562细胞内，设计该供体DNA片段以转移包含BglII限制性位点的46bp插入至靶向基因座内。使用的供体序列显示在实施例23中。

在插入之后，合并的标签供体序列是具有划上下划线的独特的BglI限制性位点的5’-5’TCATCTTTGGTTTTGTGGGCAACATGCTGGTCATCCTCATCTAGATCAGTGAGTATGCCCTGATGGCGTCTGGACTGGATGCCTCGTCTAGAAAACTGCAAAAGGCTGAAGAGCATGACTGACATCTACCTGCTCAAC-3’(SEQIDNO：177)。

如果通过HDR来发生供体插入，含有插入位点的区域可以经PCR扩增以及然后经过BglI消化，如下所示其中顶部链显示靶位点的序列(SEQIDNO：133)以及底部链(SEQIDNO：134)显示靶的序列，该靶的序列具有插入的标签供体。在顶部链中划下划线序列显示TALEN结合位点，而在底部链中划下划线序列显示BglI限制性位点(SEQIDNO：445至450)。

如在图24中所示，在BglI消化之后含有插入物的克隆的PCR产物具有两个片段。PCR和BglI消化方案显示在图24A中，而结果显示在图24B中，并且揭示高效编辑。因此，通过在内源性基因座处HDR我们的TALEN结构诱导有效基因修饰。

实施例13：测定选择的TALEN结构的缺口间距优选值

为了测定两种优选的TALEN结构(C+28C帽或C+63C帽对)的缺口间距优选值，将含有C+28/C+28或C+63/C+63的配对的所有TALEN对的活性根据缺口间距分类。结果显示在图25中，以及证实TALEN蛋白越小，C+28/C+28对具有更受约束的缺口间距优选值，并且在通过12或13碱基对的缺口分离靶序列的靶上活性最大。反之，TALEN蛋白越大，显示在图25B中C+63/C+63对在包含范围为12-23碱基对的缺口间距的靶上具有活性。

实施例14：可用于连接核酸酶结构域至提供高活性核酸酶功能的TALE重复阵列的组合物的系统绘图

可用于连接核酸酶结构域至提供高活性核酸酶功能的TALE重复阵列的组合物的系统绘图。首先，针对单个靶选择在两个结合结构域之间具有限定缺口间距的单个TALEN对。选择的TALEN对是描述在实施例12中的L538/R557对，其对CCR5基因具有特异性以及具有18个碱基对缺口间距。如上所述产生缺失，使得在C帽中产生的截断系列为C-2至C+278。

然后使用Cel-I错配测定将这些截断用于分析在K562细胞中核酸酶活性。结果(NHEJ％)显示在下表25和图26中。

表25：精细绘图C-末端截断的核酸酶活性

数据证实，当C帽是约C+63时，换而言之，当肽LTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVA(SEQIDNO：451)用于连接全长型TALE重复序列的阵列至FokI切割结构域时，出现针对该内源性靶的该核酸酶对的峰活性。在该实验中，如前述在K652细胞中测试核酸酶并且将细胞在30℃或37℃下孵育。与C+278比较的C+63C帽的活性比的初步评估大于37℃孵育下的20倍以及大于30℃孵育下的6倍。

为了更精确表征可用于连接核酸酶结构域至在内源性基因座处具有高效核酸酶功能的全长型TALE重复序列的阵列的这些组合物，构建另外的截断。组装精确系列的截断，所述截断包括以下30个C帽：C-41、C-35、C-28、C-21、C-16、C-8、C-2、C-1、C+5、C+11、C+17、C+22、C+28、C+34、C+39、C+47、C+55、C+63、C+72、C+79、C+87、C+95、C+109、C+123、C+138、C+153、C+183、C+213、C+231和C+278。注意，我们的C帽标示开始于残基-20。因此，C-41、C-35、C-28和C-21表示完全缺乏C帽以及具有从最后完整34残基TALE重复序列的C-末端中去除的20、14、7或0个残基的构建体。测试针对具有在靶位点之间的以下缺口间距的适合的靶位点的构建体的对：0、2、4、7、10、14、18、23、28和34碱基对。在SSA测定以及在针对内源性基因座的哺乳动物细胞中测试报道基因的对。以下示出C帽，其中示图开始于在TALEDNA结合结构域的最后完整重复序列处以及显示朝向C末端的点。

以下示出实验的靶位点，其图示具有7bp缺口间距的对。注意，-C-16、C-21、C-28、C-35和C-41C帽构建体去除在对中各TALEN的在半重复序列中RVD以及这些构建体有效地具有相同靶DNA序列的9bp缺口间距。取决于待测试的缺口间距，通过去除在靶之间的碱基对或者通过插入另外的碱基对构建经测试的所有其他缺口间距的靶位点。

如在实施例11和12所述将编码TALEN蛋白的基因组装以及通过Cel-1测定来评估。数据示出在表26A中。如所示，如本文所述的TALE-蛋白能够耐受相对全长型TALE-蛋白的C-末端截断，包括在没有完全损耗内源性基因座的功能下延伸至半重复序列和TALE重复结构域自身内的截断。

表26A：在哺乳动物细胞中C帽对TALEN活性的作用

此外，如在以下实施例19中所述的DLSSA分析中测试针对报道基因的C-末端截断。在这些实验中，将四对CCR5-特异性TALEN用在报道基因体系中，其中将这些对的靶位点构建至DLSSA报道基因质粒内。四个TALEN的结合位点显示在以上以及将TALEN用作四对：L543+R551(对1)；L538+R551(对2)；L543+R557(对3)；L538+R557(对4)。通过在对的结合位点之间插入或缺失核苷酸来改变缺口间距。以下在表26B-E中示出数据，其中数值表示通过DLSSA分析检测的相对荧光以及切割程度。将所有样品归一化以对照TALEN对，其结合位点也显示在DLSSA插入(阳性对照)。阴性对照是在没有TALEN进行的分析。报道基因#4具有精确DNA结合序列以及与内源性序列相同的序列缺口，因而可以在内源性基因座处比较Cel-I数据。来自报道基因#4的四个TALEN对的DLSSA数据显示在表26A中。这些数据示出使用报道基因体系的结果之间的一般相关性，以及在内源性靶上观察到的那些接近，因而报道基因体系可用作候选核酸酶的筛选工具以在任意内源性分析中测试。当在使用之前模型细胞的体系中使用时或者当预期靶细胞类型不可获得或者难于用于筛选目的，这是有用的工具。当在内源性基因组中不可获得靶序列时，这也是开发和以优化TALEN技术平台的有用的工具。通过DLSSA可鉴定活性核酸酶，然后移入最终评估的内源性体系。

表26B：使用L543-R551TALEN对的DLSSA分析

表26C.使用L538-R551TALEN对的DLSSA分析

表26D.使用L543-R557TALEN对的DLSSA分析

表26E.使用L538-R557TALEN对的DLSSA分析

因此，Cel-I和DLSSA结果显示：当使用适合的C帽以及存在N帽时，这些蛋白具有显著和强活性。而且，缺口间距可在使用较小缺口间距观察的最大活性中起到作用，如与较大缺口间距相比，具有较小C-末端截断的亚型为活性。我们也注意到，DLSSA相对活性未显示与在相同温度(37摄氏度)下获得的相同TALEN的内源性活性线性相关。报道基因结果产生具有C+153、C+183、C+213、C+231、和C+278C帽的构建体比在人细胞的天然内源性基因座处观察到的显著更高的相对活性。因此，在报道基因体系中的活性，甚至在哺乳动物细胞中报道基因体系不一定预测在哺乳动物细胞中天然内源性的活性。

实施例15：新型(非典型的)RVD

研究可选择的(非典型的)RVD以测定在测定DNA结合特异性的位置处其他氨基酸是否改变。构建TALE结合结构域，通过对中间位置处错配敏感的SELEX和ELISA显示其结合活性。该蛋白结合序列5’-TTGACAATCCT-3’(SEQIDNO：178)以及与序列5’-TTGACCATCCT-3’(SEQIDNO：179)、5’-TTGACGATCCT-3’(SEQIDNO：180)、或5’-TTGACTATCCT-3’(SEQIDNO：181)相比显示较低结合活性(ELISA数据显示在图27中)。这些靶称为表示中间三链体核酸的CXA靶，其中X是A、C、T或G。

然后将该TALE主链用于表征TALE重复序列的可选择的RVD(氨基酸12和13)的DNA-结合特异性，该TALE重复序列靶向在第6位置处的碱基。使编码该RVD的两个密码子随机化以及通过测序筛选克隆以确保存在完整重复单元。然后通过针对靶序列的四个版本的DNA-结合ELISA来分析正确的克隆，其中各序列在新型(即，非典型的)RVD相互作用(即，TTGACAATCCT(SEQIDNO：178)；TTGACCATCCT(SEQIDNO：182)；TTGACTATCCT(SEQIDNO：183)或TTGACGATCCT(SEQIDNO：184))的位置处具有A、C、T或G。这些研究的结果显示在以下表27A中，并且证实，该分析鉴定出RVDVG可与T相互作用；RG可与T相互作用；TA可与T相互作用以及AA可与A、C和T相互作用。

表27A：示例性新型RVD

在这些初始研究之后，使用所有可能的RVD组合进行分析，并且鉴定出多者具有高活性和特异性。此外，鉴定出平均地结合至所有测试的碱基的的RVD。数据以数值格式显示在下表27B中以及也在图28中。在以下显示的数据中，通过减去本底ELISA信号来本底校正所有数据，然后归一化至具有CAA位点的NI、具有CCA位点的HD、具有CGA位点的NN以及具有CTA位点的NG的平均值。

表27B：新型RVD

该数据也展示在图28中，其中数据显示在20x20格子中。将RVD的第一氨基酸(位置12)表示在格子的左边以及将RVD的第二氨基酸(位置13)表示在格子的上方。在各格子中字母A、C、G和T的大小与CAA位点、CCA位点和CGA位点以及CTA位点各自的归一化ELISA信号的平方根成比例。方框的RVD表示在通过黄单胞菌属编码的TALE蛋白中发现的经常出现的天然RVD。相对于天然存在的HD、NI、NG、NS、NN、IG、HG和NKRVD，许多RVD具有改善的DNA结合性能。示例性新型RVD和它们同源核苷酸碱基包括其中N表示与所有碱基正相互作用。

A：RI，KI，HI

C：ND，KD，AD

G：DH，SN，AK，AN，DK，HN

T：VG，IA，IP，TP，QA，YG，LA，SG，HA，NA，GG，KG，QG

N：KS，AT，KT，RA.

也进行研究以有目的地改变RVD序列至特异性序列，通过已知RVD的分析假定该特异性序列为候选新型结合。因此，已经测试以下RVD：

制备寡核苷酸以使得特异性改变上述的TALE构建体。然后将这些特异性寡核苷酸克隆至表达载体内以及如在实施例11中所述组装，并且通过DNA-结合ELISA和SELEX来分析所得的蛋白提取物，从而测定RVD的结合特征。

对包含非典型RVD的这些TALEDNA结合结构域的十二种进行如上所述的SELEX分析。SELEX分析的结果显示在下表28中。在表格中，展示天然RVD(在“RVD”列中粗体)的数据以及示例性新型RVD，以及显示在许多情况下，如与天然RVD相比，新型RVD证实对靶向碱基相等或更大的优选性。

表28：来自新型RVD的SELEX结果

然后在全长TALEN的环境中测试这些RVD的活性。使用新型RVD生成CCR5-特异性18重复TALEN以用于与在实施例12中所述CCR5-特异性TALEN比较。该TALEN对的靶位点再次显示如下。101041TALEN单体是经修饰的配偶体，而使用所有天然RVD来保留101047配偶体。

101041(L538)

5′-GTCTTCATTACACCTGCAGCTCTCATTTTCCATACAGTCAGTATCAATTCTGGAAGAATTTCCAGACATTCAGAAGTAATGTGGACGTCGAGAGTAAAAGGTATGTCAGTCATAGTTAAGACCTTCTTAAAGGTCTGTAA-

5′

101047(R557)

此外，也将包含典型和新型(非典型的)RVD的CCR5-特异性TALEN构建在CCR5特异性TALEN中，其中新型RVD被所有的一种类型所取代，例如，识别“T”或“A”的所有RVD。使用典型RVD的在实施例11和12中之前描述的编码，即A＝NI，C＝HD，G＝NN，T＝NG。对于新型RVD，在该起始分析中测试以下：A＝HI、NI或KI；C＝ND、KD、cND；G＝SN、AK、DH、cHN、KN；T＝TP、IA、VG、SGgs或IP。当使用小写字母时，这些表示邻近RVD位置的位置的改变，例如“cND”表示在重复单元中位置11、12和13改变。对于这些研究，通过在表27B中展示的数据选择候选RVD以及将选择候选RVD用于产生主要蛋白的证据。使用来自整组的可选择的非典型RVD可构建另外的TALE蛋白。此外，可选择非典型RVD，使得可产生指定碱基的RVD的混合物(例如使用TP和IARVD可构建一种TALEN蛋白以在不同位置指定“T”)。

重复单元的RVD序列显示在下表29A-29C中，并且所有突变的位置以粗字体表示。

表29A：所有新型(非典型的)RVD取代

表29B：类型取代

表29C：单个RVD取代

然后在30和37℃下测试这些新型TALEN对内源性CCR5基因座的切割活性，并且通过如之前所述通过Cel-I测定来分析，并且显示在诱导性NHEJ下这些新型TALEN具有活性(例如参见图30)。注意，未标记的泳道表示具有移码突变的非功能性TALEN构建体。

结果显示：当在TALEN蛋白中使用时，新型(非典型的)RVD能够切割DNA，其中各TALE-重复单元包括新型RVD以及类型取代或单取代的TALEN。

实施例16：新型TALEC-末端半重复序列

大部分天然TALE使用在C-末端半重复序列中的NGRVD以指定与T核苷酸碱基的相互作用。因此，研究新型C-末端半重复序列的生成以使得可扩展TALE靶向。靶向Pou5F1和PITX3基因的TALEN用作主链，并且使在C-末端半重复序列(C帽氨基酸C-9和C-8)内RVD改变以指定可替换的核酸。在这些突变体中，将NIRVD插入以识别A；HD用于识别C；NK用于识别G；以及对照为用于识别T的NG。使用的TALEN包含在15和18RVD之间，并且靶向在这些两种基因中的各种靶序列。

结果显示在图29中，并且证实，可将在C-末端半重复序列中的RVD位置工程化以与核苷酸碱基(而不是仅T)相互作用，或者可设计该RVD位置以等同地识别所有碱基。如在该Cel-I分析中测定的泳道分配、靶序列和NHEJ％显示在下表30中。

表30：新型C-末端半重复序列靶

该数据证实具有新型半重复序列的TALEN能够切割它们各自的靶。

实施例17：鉴定优化靶序列

为了测定优化靶序列以及所得优化的TALEN蛋白设计，使用来自多次SELEX测定的结果进行计算机模拟分析以确定i)R1重复序列(N-末端重复序列)的最佳靶；以及ii)特异性RVD重复序列如何在二聚体和三聚体环境中它们邻近重复单元的本底中发挥作用。在这些研究中，将NIRVD用于识别A，HD用于识别C，NN用于识别G，以及NG用于识别T。

结果概述在表31、32和33中。在表31中值是作为在靶向的碱基的观察到的频率以及偶然期望的碱基的频率(即0.25)的比率的对数(碱基4)的优势对数得分(log-oddsscore)。1.0的得分表示100％几率观察到靶向的碱基(即，比偶然预期的频率高四倍)；0.0的得分表示25％几率观察到靶向的碱基；并且负数得分表示小于25％的几率观察到靶向的碱基。从由来自62种单独的TALE蛋白的SELEX数据组成的数据集的合适位置的平均碱基频率计算在表31中值。标记“R1RVD”的值是指N-末端TALE重复序列(以及在各结合位点中同源位置)。标记“R2+RVD”的值是指所有其他RVD(以及在各结合位点中同源位置)。该数据表示相对所有其他位置在N-末端位置处具有HD、NN和NGRVD的TALE重复序列特异性显著不同。

在表32和33中显示的值表示相对在二聚体(表32)或者三聚体(表33)环境中的评分对比各碱基单独测定的那些优势对数评分的改变，并且从67种单独的TALE蛋白的SELEX数据中测定该数值。因此，邻近HDRVD的NNRVD的-0.12的值(具有靠近构建体的N-末端的NNRVD以及靠近构建体的C-末端的HDRVD)表示在二聚体中两位置的优势对数评分的总和是0.12，该值小于该两种RVD各自单独发挥作用的预期值。类似地，在表33C中-0.34的值表示NNRVD通过第二NNRVD来旁侧连接在N-末端侧上，并且通过HDRVD来旁侧连接在C-末端侧上表明目标NNRVD具有小于所有NNRVD的平均值的优势对数积分0.34。在表32、33A、33B、33C和33D中，负值表示比它们完全彼此独立时表现更差的邻近RVD的组合。

表31：在单个位置处RVD特异性的优势对数评分

表32：在两种邻近RVD的RVD特异性的优势对数评分中改变

表33A：在三聚体位置、中间NI(A)处RVD特异性的优势对数评分中改变

表33B：在三聚体位置、中间HD(C)中RVD特异性的优势对数评分中改变

表33C：在三聚体位置、中间NN(G)处RVD特异性的优势对数评分中改变

表33D：在三聚体位置、中间NG(T)处RVD特异性的优势对数评分中改变

注意：在表33A至33D中，在数据集中斜体表示小于3个值，其中所有其他数字含有用于确定概率变化的至少3个值。

这些结果证实对于优化重复单元结合有环境依赖性，以及表明对于优化蛋白设计/靶鉴定，重复单元未完全模块化。总之，这些数据可用于提出设计规则以优化特定TALE的靶选择以及用于设计优化的TALEN。例如，据观察，NI是最小环境依赖的RVD，并且在R1位置处最好RVD是NI(例如理想靶位点应当开始于TA以容纳R0和R1-NI)。据观察，AC、AT、CC、CA、TA、AA是最好的靶向二聚体，而GG、GC、AG、TT、CG、GT和TC是最差的。关于三链体，AAC、ATG、GCA、ATA、ACG和ATC是非常良好的靶向三链体，而GGC、AGC、TGC、TTT、GGA、AGT、GGT、GGG、TCT、GTC、CTT和AGG显示最差。因此，可将这些设计规则合并以生成优化结合TALEN。类似地，在表28中使用NK、AK和DKRVD的SELEX研究以及使用NKRVD的另外的SELEX研究(图17A)表明：在位置13处具有赖氨酸(K)的RVD倾向于导致NIRVDC-末端邻近NK、AK或DKRVD以指定G而不是A。因此，用于典型RVD和NKRVD测定的设计规则也应当应用于在位置13处具有相同残基的非典型RVD。

实施例18：在人干细胞中测定TALEN-驱动的靶向性整合

为了证实TALEN体系的多功能性，将TALEN用于驱动在人胚胎干细胞(ESC)中靶向性整合以及诱导多能干细胞(iPSC)。人ESC和iPSC用于另外含有限制性位点的嘌呤霉素供体核酸的靶向性整合至AAVS1基因座内，其中通过AAVS1启动子来驱动嘌呤霉素标志物的表达。供体和进行的方法为之前描述在共同拥有的WO2010117464(也参见Hockemeyer等(2009)NatBiotechnol27(9)：851-857，其中我们证实靶向整个这些构建体至AAVS1基因座内的自发频率低于我们分析的检测限值)中的那些。使用的核苷酸是如在实施例11中所述的对AAVS1基因座特异的TALEN，并且靶结合位点显示如下：

101077

TCCCCTCCACCCCACAGTgggccactagggaxAGGATTGGTGACAGAAAA(SEQIDNO：213)

AGGGGAGGTGGGGTGTCAccccggtgatccctgTCCTAACCACTGTCTTTT(SEQIDNO：214)

101079

首先，使用基因捕获方法来靶向该基因座，其中在内源性PPP1R12C启动子的控制下仅在正确靶向事件之后将嘌呤霉素抗性基因(PURO)表达。其次，使用自动选择盒(autonomousselectioncassette)来靶向PPP1R12C基因座，该PPP1R12C基因座表达来自磷酸甘油酸酯激酶(PGK)启动子的嘌呤霉素抗性基因PURO。使嘌呤霉素抗性细胞的克隆体生长以及使用标准方法通过对限制性DNA的Southern印迹来筛选。在该实验中使用的探针针对PPP1R12C/AAVS1基因座以及识别作为具有合并的供体的DNA的小限制性片段的序列(因而具有高流动性)。靶向效率高度地不依赖于使用的供体，约50％的分离的克隆体具有杂合的或纯合的正确靶向事件以及仅在所需基因座处携带转基因。该效率与之前使用ZFN观察到的相当。靶向PPP1R12C基因座导致引入的转基因的表达。当使用另外携带组成性增强型绿色荧光蛋白(eGFP)表达盒的SA-PURO供体质粒来靶向时，在hESC和iPSC中观察到eGFP的统一表达。重要地，如通过多能性标志物OCT4、NANOG、SSEA4、Tra-1-81和Tra-1-60的表达所示，使用TALEN已经遗传工程化的hESC保留多能型。

也针对人OCT4基因的第一内含子来设计TALEN(OCT4-Int1-TALEN)，并且将结合三种不同供体质粒的靶序列显示如下：

101125：GACCCTGCCTGCTCCT(SEQIDNO：329)

101225：CACCTGCAGCTGCCCAG(SEQIDNO：330)

TALEN利用+63C帽以及使用典型RVD(NI、HD、NN、和NG分别靶向A、C、G、和T)。101125包含15.5个TALE重复序列以及101225包含16.5个TALE重复序列。101225利用具有NNRVD的半重复序列以识别在它的靶位点中的3’G。

正确靶向事件的特征在于在内源性OCT4启动子的控制下表达嘌呤霉素和OCT4外显子1-eGFP融合蛋白。前两个供体质粒被设计为整合剪接受体eGFP-2A-自身切割肽(2A)-嘌呤霉素盒至OCT4的第一内含子内，以及唯一区别在于同源臂的设计，而将第三供体工程化为生成外显子1至eGFP-2A-嘌呤霉素盒的阅读框架的直接融合。如通过Southern印迹分析和单细胞源性克隆的DNA测序所测定，两策略导致正确的靶向基因加入至OCT4基因座。在hESC和iPSC中，靶向效率的范围为67％至100％。

为了测试TALEN是否可用于遗传工程化在hESC中不表达的基因座，将TALEN工程化(使用与101125和101225使用的相同设计和组装方法)为在PITX3基因的第一编码外显子内切割。靶序列显示如下：

101148：GGCCCTTGCAGCCGT(SEQIDNO：331)

101146：CAGACGCTGGCACT(SEQIDNO：332)

在电穿孔之后，使用外部5’和内部3’探针通过Southern印迹分析来评估靶向事件。在平均6％的几率下获得仅在PITX3处携带供体特异的eGFP转基因的单细胞源性克隆。注意，分析的96个hESC克隆体之一在PITX3外显子1(在WI#3中)hESC的两等位基因上携带转基因，这证实在单步骤中未表达的基因的两等位基因的成功的基因修饰。

这些结果证实使用TALEN以驱动靶向性整合至干细胞基因组的能力。

实施例19：TALEN介导的体内基因编辑的例子

在线虫(C.elegans)中TALEN基因组编辑。为了证实TALEN可用在动物的体内基因编辑中，进行以下实验。如Driscoll等((1989)J.Cell.Biol.109：2993-3003)所述将对于秀丽隐杆线虫(Caenorhabditiselegans)ben-1突变特异的TALEN对作为RNA来递送以及筛选苯菌灵抗性。在常规解剖显微镜下在100％的子代中ben-1突变体表型是显性并且可见。简而言之，在注入编码靶向ben-1的TALEN的mRNA之前将野生型线虫雌雄同株培养在常规NGM凝胶板上。

使用标准限制克隆方法将编码TALEN的核酸插入SP6体外转录载体(IVT)内。ICT载体主链源于pJK370以及含有之前显示的5’和3’UTR序列以支持种系翻译(参见Marin和Evans(2003)Development130：2623-2632)。使用mMessage(Ambion)和polyA加尾试剂盒(Ambion)体外进行含有5’CAP结构和polyA的mRNA制备以及在使用NanoDrop分光光度计(Thermoscientific)定量之前过AmbionMEGAClear^TM柱纯化。使用NarishigeIM300注射器在ZeissAxiovert显微镜下进行mRNA注射。根据标准线虫DNA注射方案进行mRNA的注射(参见Stinchcomb等(1985)MolCellBiol5：3484-3496)，差别之处如下：调节调整器，使得来自N2气罐的压力为60psi。将P_注射和P_平衡测量分别调节至15psi和2psi。这些压力值低于DNA注射通常使用的那些压力，从而更加缓和地使流体释放入蠕虫性腺内。以500ng/μL将所有mRNA注入，以及编码TALEN的所有mRNA成对注入，因而针中的总mRNA浓度为1000ng/μL。

在mRNA注入之后，将动物转移至含有7μM苯菌灵的板中。通过接触动物的前侧来筛选F1自交后代作为年轻成虫。使用多个正弦样移动颠倒来使杂合的突变动物反向应答，而野生型动物麻痹以及缺乏这种能力。将未麻痹的F1动物或者单独裂解以用于靶位点(如上所述)的PCR/Cel-I分析；或者单独地转移至新苯菌灵板和通过跨靶位点的测序从未麻痹的F2中分离纯合子。命名为101318/101321的一对TALEN引起ben-1突变表型的逆转，并且发现F1子代对苯菌灵抗性。苯菌灵抗性动物的序列分析揭示在靶位置处的两种不同的真实插入/缺失。如下示出在该TALEN对的靶位点中的基因座，并且这些序列显示在实施例23中。

101318

TCCAGCCTGATGGAACttataagggagaaagtgATTTGCAGTTGGAAAGAA(SEQIDNO：215)

AGGTCGGACTACCTTGaatattccctctttcacTAAACGTCAACCTtTCTT(SEQIDNO：216)

101321

这些数据证实TALEN能够体内基因组编辑。

在大鼠中TALEN基因组编辑。接着，将TALEN用于编辑大鼠基因组。如上述实施例11和12中之前所述构建在内源性大鼠IgM基因中靶向外显子2的大鼠IgM-特异性TALEN对101187/101188。在大鼠基因组中的靶序列显示如下，其中粗体和大写字母表示TALEDNA结合结构域的靶位点以及小写字母表示缺口或间隔子区域：

101187SEQID380：5′-

ttccttctcctggaactACCAGAACAACACTGAA-3′

SEQID381：3′-AAGGACGGGTCGAGGTAaaggaagaggaccttga-5’

101188

然后如在Menoret等(2010)EurJImmunol.Oct；40(10)：2932-41中所述将编码这些TALEN对的核酸注入大鼠胚胎内。以在下表35中显示的剂量将编码TALEN的核酸或者作为原核(PNI，DNA)或者胞质内(IC，RNA)注射注入。

表34：大鼠IgM-特异性TALEN的途径和剂量

*注：不是所有预期母体均被递送，ND＝未测定

将一定百分数的注射的胚胎移植至假孕雌性大鼠内，并且分析所得新生鼠的基因组编辑。将DNA从由原核DNA注射所产生的幼鼠中分离以及如Kim等(2009)基因组Res.19(7)：1279-1288中所述进行T7错配分析。简而言之，使用引物集GJC153F-154R来进行PCR以生成371bpPCR产物。引物对显示如下：

GJC153F引物：5’ggaggcaagaagatggattc(SEQIDNO：453)

GJC154R引物：5’gaatcggcacatgcagatct(SEQIDNO：454)

对于该分析，使用通过标准规程分离的100ng尾gDNA。使用如下5ul的PCR产物允许形成可能的杂交双链：在95℃/95℃至85℃(-2℃/秒)/85℃至25℃(-0.1℃/秒)/4℃下的2’。然后在以下条件下使用T7核酸内切酶I(NEBiolabsref：M0302L)来消化该杂交双链：5ulPCR异源双链体+1ul10xNEB2+0.5ulT7endo+3.5ulH2O/20’à37℃。在消化之后，将反应在0.5xTAE中的1.2％琼脂糖凝胶上进行。通过T7测定66只待分析幼鼠中有7只的NHEJ活性为阳性(显示在图31中)，并且测序揭示与插入/缺失相关(例如在大鼠3.3中1bp缺失以及在大鼠3.4中90bp缺失)的NHEJ的存在。

使用目标核酸也将TALEN对用于靶向性整合至大鼠细胞内以生成转基因动物。被TALEN对所靶向的大鼠细胞是大鼠胚胎干细胞、包含一个或多个细胞的含有GFP的大鼠胚胎或者可转变为诱导多能干(iPS)细胞的任意大鼠细胞类型。TALEN对被递送至细胞以及可以为质粒DNA，该质粒DNA任选含有CAG启动子、最佳地具有5’帽结构和3’聚腺苷尾的mRNA、含有编码TALEN开放阅读框的核酸的纯化蛋白或病毒颗粒。供体DNA可以为在断裂位点的两侧上含有同源的50-1000bp的单或双链环形质粒DNA或者在断裂位点的两侧上含有同源的50-1000bp的单或双链线性质粒DNA。将TALEN和供体通过大鼠细胞或胚胎的微注射；通过电穿孔、脂质类膜融合、磷酸钙沉淀、PEI等来转染大鼠细胞；与纯化的核酸酶蛋白来孵育(例如，如果融合至细胞渗透性肽)；或者用病毒感染大鼠细胞或胚胎来递送。这些方法是本领域已知的。从注射或转染细胞或胚胎中生成修饰的大鼠的方法取决于选择的递送方法。对于胚胎，将胚胎植入假孕大鼠的子宫内以及使得如之前所述来实现。对于修饰的细胞，可以使用三种方法：a)如果大鼠细胞是胚胎干细胞，应当将修饰的大鼠干细胞注入大鼠胚泡。将胚泡植入假孕大鼠的子宫内以及使得可实现；b)应当将细胞(或其细胞核)微注射至无核的卵母细胞(体细胞核转移)，并且将所得的胚胎植入假孕大鼠的子宫内以及使得可实现；或者c)应当将细胞转化为iPS细胞以及应当将其注入大鼠胚泡内。将胚泡植入假孕大鼠的子宫内以及使得可实现。然后通过PCR或任意其他本领域已知方法来分析幼鼠中转基因的存在。

在植物中TALEN基因组编辑。如以上实施例11中所述构建对玉米RPD1和C1基因特异的TALEN对，以及相比RPD1基因座将它们的靶序列(SEQIDNO：382至387)显示如下：

TTATTTGAAGAAACTAT(101389)

TTATTTGAAGAAACT(101388)

TTTGAAGAACTATATT(101390)

TTATTTGAAGAAACTATATTACAGAGCATAAGCTTATGCAACACTCCCACTAGTTGATT

AATAAACTTCTTTGATATAATGTCTCGTATTCGAATACGTTGTGAGGGTGATCAACTAA

TACGTTGTGAGGGT(101391)

TTGTGAGGGTGATCAAGT(101393)

针对C1基因座制备的TALEN对类似地显示如下，(SEQIDNO：388至390)：

TGGGGAGGAGGGCGTGCT(101370)

TGGGGAGGAGGGCGTGCTGCGCGAAGGAAGGCGTTAAGAGAGGGGCGTGGACGAGCAAGG

ACCCCTCCTCCCGCACGACGCGCTTCCTTCCGCAATTCTCTCCCCGCACCTGCTCGTTCC

TCTCTCCCCGCACCTGCT(101371)

针对C1基因座如下制备另外的TALEN对，(SEQIDNO：391至398)：

TGAACTACCTCCGGCCC(101378)

TCCTACGACGAGGAGGAT(101380)

CTGAACTACCTCCGGCCCAACATCAGGCGCGGCAACATCTCCTACGACGAGGAGGATCTCATGATCATCCGCCT

GACTTGATGGAGGCCGGGTTGTAGTCCGCGCCGTTGTAGAGGATGCTGCTCCTCCTAGAGTACTAGTAGGCGGA

TAGAGGATGCTGCTCCT(101379)

CCACAGGCTCCTCGGCAACAGGT

GGTGTCCGAGGAGCCGTTCTCCA

TGTCCGAGGAGCCGTT(101381)

使用双荧光素酶单链退火分析(Dual-LuciferaseSingleStrandAnnealingAssay)(DLSSA)在哺乳动物Neuro2A细胞中测定植物特异性TALEN对的活性。这是用于在瞬时转染细胞中定量ZFN或TALEN活性的新型体系，并且其基于Promega的Dual-Luciferase分析体系。参见实施例13。该体系使得可在单管(孔)内连续测定两种独立报道基因酶(萤火虫和海肾荧光素酶)。将萤火虫和海肾荧光素酶报道基因再次工程化以及使测定条件最佳化。萤火虫荧光素酶报道基因构建体含有萤火虫编码区的两个不完整的拷贝，将其通过ZFN或TALEN的DNA结合位点来分离。在该研究中，5’拷贝源于萤火虫基因的约三分之二N-末端部分以及3’拷贝源于萤火虫基因的约三分之二C-末端部分。两种不完整拷贝含有约600-bp同源臂。单独的萤火虫片段不具有荧光素酶活性。由ZFN或TALEN对所引起的DNA双链的断裂将通过单链退火途径刺激旁侧重复序列之间的重组，然后恢复萤火虫荧光素酶功能。共转染的海肾荧光素酶质粒提供内部对照。在光度计上读取各报道基因的荧光活性。实验报道基因(萤火虫)的活性对报道基因(海肾)的活性的归一化使由细胞活力和/或转染效率的差别导致的实验可变性最小化。归一化值用于测定给定ZFN或TALEN对的活性。当在具有之前模型细胞的体系中使用时或者当无法获得所需的靶细胞类型或者难于用作筛选目的时，这是有用的工具。当在内源性基因组中无法获得靶序列时，这也是用于开发和优化TALEN技术平台的有用的工具。通过DLSSA可鉴定活性核酸酶，然后引入最后评估的内源性体系。下面将在植物靶上的活性TALEN对显示在表35A中。

表35A：植物TALEN

*注：在该分析中的活性以荧光素酶SSA分析中的相对单位来测定。

然后使用标准方法通过金粒子轰击来递送TALEN对至玉米HiII胚芽(Frame等，(2000)体外cellular&developmentalbiology.36(1)：21-29)。总之，每TALEN对约90个授粉的玉米胚芽被转化以及在汇集和冷冻于液N2之前在愈伤组织起始培养基上生长约7天以用于基因组DNA提取。使用DNeasyPlantMiniprep试剂盒(Qiagen)将基因组DNA从每轰击的板的4-6个冷冻的胚胎中分离。然后通过使用来自由三种生物三链体组成的汇集的基因组DNA的High-FidelityPhusionHotStartII聚合酶(NEB)的两步PCR将各TALEN靶扩增。在第一轮中，使用400ng基因组DNA和在表35B中列出的引物在20次循环PCR中扩增各位点。在第二轮中，使用来自第一轮PCR的1ul产物以及引物SOLEXA-OUT-F1和SOLEXA-OUT-R1来进行另外的20个循环以生成完整Illumina测序扩增子。然后将所得PCR产物在QiaquickPCR纯化柱(Qiagen)上纯化；各自归一化至50nM；然后以等体积合并，使得在单个Illumina泳道上总共测序八个位点。将来自未经处理的基因组DNA的对照扩增子提交于单独的泳道中。在ELIMBiopharmaceuticals(Hayward，CA)进行Illumina单独读取100bp测序。

表35B：用于Illumina测序的寡核苷酸引物的序列

如在下表36中所显示，测序揭示在来自经TALEN处理的胚芽的细胞池中存在多种插入/缺失。序列分析的详细情况如下：将源于经TALEN处理的玉米胚芽的条形码序列汇集至一起以及将100bp测序读取长度提交至IlluminaGA2测序器上。将源于经处理的玉米胚芽的模拟物的条形序列汇集至一起以及将100bp测序读取长度提交至相同IlluminaGA2测序器的单独泳道上。通过相对未修饰的基因组序列编条形码和比对来分离在各所得数据文件中的序列。相对于大部分胚芽，小部分的胚芽在C1基因中含有3bp插入。在预定TALEN切割位点中心的10bp窗中由至少2个连续插入的或缺失的碱基组成的插入/缺失被认为是可能的NHEJ事件，并且经进一步处理。在给定TALEN处理的样品和经同源模拟物处理的样品中相类似频率发生的插入/缺失被认为是测序人工产物，并且将其丢弃。

表36，TALEN处理的玉米中的插入/缺失

表37显示在以上所示的八种样品中最常见的插入/缺失，其表明TALEN能够诱导具有两基因靶和所有核酸酶对的NHEJ。对于各样品，显示具有在下划线的两TALEN结合位点之间的缺口的未改变的基因组序列。通过冒号来表示缺失的碱基以及通过括号来表示插入的碱基，其中″{″表示插入序列的起点以及″}″表示插入序列的终点。

表37：在玉米样品中观察到的插入/缺失

在所有样品中插入/缺失频率类似(从0.0087％至0.0185％或者约1/11,000个事件至1/5,400个事件)。这意味着限制因子是基因枪递送至玉米胚芽而不是TALEN活性。将源于经TALEN处理的玉米胚芽的条形码序列汇集至一起以及将100bp测序读取长度提交至IlluminaGA2测序器上。

接着，将这些TALEN用于驱动任意所需目标DNA的靶向性整合(TI)至通过TALEN产生的DSB内。在单子叶植物类和双子叶植物类中使用本领域已知方法可完成TI(参见例如Shukla等(2009)Nature459：437以及Cai等(2009)PlantMolBiol69：699)。也可生成稳定地转基因经选择的所需TALEN的新型植物种属，使得TALEN菌株与另一需要突变的菌株杂交，随后通过子代分离使得一些子代仅含有所需突变以及TALEN转基因已经分离出来。

因此，这些例子证实本发明的新型TALEN能够在植物和动物体系中体内基因组编辑。

实施例21：TALE重复单元的改变

为了探索在TALE重复单元中改变，比较来自黄单胞菌属和青枯菌属的序列。检查来自青枯菌属的52个独特重复单元以观察在各位置处的残基频率，然后比较它们的值。数据展示在表38中，其中氨基酸以一个字母代码从左至右表示以及在重复单元上位置从上至下表示，并且RVD位置以粗体示出：

表38：在青枯菌属重复序列中发现的氨基酸的频率

然后可将这些重复单元与来自黄单胞菌属的那些合并以生成独特的重复单元。重复序列是在青枯菌属重复序列中发现的残基和在黄单胞菌属残基中发现的残基的组合，该重复序列可生成具有改善的性能的蛋白，例如增加的DNA亲和力；增加的DNA结合特异性；或者降低对氧化的敏感性。这些重复单元组合的例子包括具有以粗体和更大字体表示的改变的残基的那些。

LTPDQVVAIASHDGGKQALETVQRLLPVLCQDHG当前黄单胞菌属(SEQIDNO：333)

LTPDQVVAIASHDGGKQALEVLLPVLCQDHGHybrid1(SEQIDNO：334)

LTPDQVVAIASHDGGKQALEVLPVLCQDHGHybrid2(SEQIDNO：335)

LTPDQVVAIASHDGGKQALEVLLPVLCQDHGHybrid3(SEQIDNO：336)

LTPDQVVAIASHDGGKALEVLPVLCQDHGHybrid4(SEQIDNO：337)

LQVVAIASHDGGKQALETVQRLLPVLCQDHGHybrid5(SEQIDNO：338)

LTPDQVVAIASHDGGKQALEVPLCQDHGHybrid6(SEQIDNO：339)

LTPDQVVAIASHDGGKQALETVQRLLPVLQDHGHybrid7(SEQIDNO：340)

LQVVAIASHDGGKQALEVLPVLHGHybrid8(SEQIDNO：341)

为了探索该可能性，构建下表39中所述的重复单元。表格在第一行上显示典型青枯菌属重复单元以及在第二行上显示黄单胞菌属重复单元。包含源于青枯菌属的残基和设计为探测TALE重复序列的序列所需的其他变化形式的新型重复序列显示在随后的行上。下划线表示与第二行上的典型黄单胞菌属重复单元的所有不同之处。接着，通过改变在列3-27中粗体表示的位置来将重复单元工程化。然后将这些新型、工程化的重复单元提交到为了测试实施例15中和图27中所示的新型RVD而设计的体系中，并且将所得构建体体外翻译以及用在ELISA中。在ELISA中使用的靶序列是在实施例15中描述的“C”变体(例如TTGACCATCC，SEQIDNO：182)，使得在所有这些新型框架突变体中的RVD以HD保持恒定地与C相互作用。将显示在表39中的ELISA结果(3个不同实验的平均)归一化至标准序列重复单元序列。

表39：新型重复框架取代

如从ELISA结果可见，包含在位置2、3、4、6、7、8、9、10或11处具有突变的工程化(例如，新型)框架的TALEDNA结合结构域的活性降低(在位置2、3、4、7、和11处的突变具有对结合的最显著作用)。反之，在位置20、21、24、25、26、和27处的许多取代具有对DNA结合的最小作用或者实际上增加DNA结合。当在青枯菌属重复序列中来自位置21-27的一个或更多个残基被黄单胞菌属重复序列取代时，出现结合的最大增加。

将杂交的重复单元串联结合以生成能够识别任意期望蛋白的新型TALE蛋白。这些新型TALEDNA结合结构域还连接到核酸酶结构域、转录调控结构域、或者任意其他活性蛋白结构域以在DNA相互作用之后得到可测定的结果。

实施例21：TALE-锌指DNA结合结构域杂交物的构建

将锌指融合至TALEDNA结合结构域以生成杂交DNA结合结构域，然后使其连接核酸酶。靶DNA序列显示如下，以及包含在CCR5基因内围绕基因座的区域。以上和以下显示的结合位点是TALEDNA结合结构域的靶结合位点，以及锌指结合位点显示在粗体下划线的靶序列上。以粗体/下划线表示的“TAG”序列是来自CCR5-特异性ZFNSBS#8267的第四指的结合位点，而以粗体/下划线表示的“AAACTG”序列是在CCR5-特异性ZFNSBS#8196中第三和第四指的结合位点(参见美国专利申请11/805,707)。以下序列显示：在DNA链上锌指DNA靶与TALEDNA结合结构域靶并未相邻，产生“内部缺口”。因此，如果需要的话在内部缺口区内域，该类型的融合使得操作者可跳过DNA区域。

下表(表40)显示研究的结果。在这些研究中，具有7、10、或13个碱基的内部缺口的一种核酸酶配偶体维持恒定。然后将配偶体核酸酶与包含在4和16个碱基之间的内部缺口的蛋白配对。如在表格中所示，当内部缺口范围为4至16个碱基时，TALE/锌指杂交DNA结合结构域可形成活性核酸酶对。

表40：锌指-TALEDNA结合结构域杂交物

实施例22：TALE-整合酶融合蛋白的构建

在逆转录病毒的生命周期中，尽管对某些热点有优选性，但病毒基因组RNA在许多不同位点处逆向转录以及整合至宿主基因组。对于利用逆转录病毒载体的应用，特别是基因治疗，由于在工程化病毒基因组在致癌基因座附近随机整合引起的逆转录病毒载体的可能致癌性表现为潜在的风险因素。为了克服这些潜在问题，通过利用特异性TALEDNA-结合结构域将病毒整合酶的特异性重新定向至预定位点。使用全部或截断的整合酶以及使用整体或截断的整合酶-结合蛋白(例如HIV整合酶的LEDGF)结合蛋白来制备融合。此外，制备融合对，其中所述对的一个成员被整合融合至一个蛋白(例如蛋白1)以及第二对是TALEDNA结合结构域与另一蛋白(例如蛋白2)的融合，其中蛋白1和蛋白2彼此结合。将融合对克隆至表达载体内，使得所述对被表达在目标细胞中。对于哺乳动物基因组靶，使用哺乳动物表达载体来表达融合对。在TALEN融合的表达中，提供供体DNA，使得在TALEN诱导DNA融合之后，供体被并入切割位点内。

实施例23：不同TALE构建体的序列

DNA和蛋白序列

完整TALEN构建体序列，具有下划线的编码序列(SEQIDNO：217)：

GACTCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAATTAATACGACTCACTATAGGGAGACCCAAGCTGGCTAGCGTTTAAACTTAAGCTGATCCACTAGTCCAGTGTGGTGGAATTCGCCATGGACTACAAAGACCATGACGG TGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCA TTCACGGGGTACCCGCCGCTGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAG GTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAG CCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACG AAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTG AGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGC AGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACTCCCGAACAAGTAGTAGCGATAGCCAGTA ATAACGGAGGTAAACAAGCCTTGGAGACGGTCCAAAGGTTGCTCCCGGTCTTGTGTCAGGCACATGGGCTGACGCCT CAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCT GTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGA CCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAAC AACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGA GCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCT GTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACA GTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACAT CGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGC AGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGC CAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGT CCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACGGCG GTGGAAAACAGGCCCTCGAAACCGTCCAGCGACTGCTCCCCGTACTGTGTCAAGCCCATGGACTTACCCCAGAACAA GTTGTGGCGATTGCCTCTAACAATGGTGGGAAGCAAGCTCTTGAGACGGTGCAGGCGTTGTTGCCCGTGCTTTGTCA AGCTCACGGGCTCACGCCAGAGCAAGTGGTCGCTATCGCGAGTAATAAAGGGGGCAAACAAGCCTTGGAGACAGTGC AAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGC GGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGT TGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGG CACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACAATGGTGGAAAGCAGGCCCTGGAGACAGTCCAA CGGTTGCTGCCGGTCCTTTGCCAGGCTCACGGGTTGACCCCCCAGCAGGTCGTGGCCATTGCCTCAAACAAGGGCGG TAGGCCAGCATTGGAGACGGTGCAGAGGCTTCTGCCTGTGCTCTGCCAAGCGCATGGACTCACCCCCGAGCAAGTGG TTGCTATCGCAAGTAACAACGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCG CACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGC CCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGAG GTTCTGGCGGCAGCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAG TACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGT GATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCT ATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATC GGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTG GAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCC AGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAG ATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCTTGATAACTCGAGTCTAGAGGGCCCGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTACTGGGCGGTTTTATGGACAGCAAGCGAACCGGAATTGCCAGCTGGGGCGCCCTCTGGTAAGGTTGGGAAGCCCTGCAAAGTAAACTGGATGGCTTTCTCGCCGCCAAGGATCTGATGGCGCAGGGGATCAAGCTCTGATCAAGAGACAGGATGAGGATCGTTTCGCATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAAGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGAGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTCTGAATTATTAACGCTTACAATTTCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATACAGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGACAATAACCCTGATAAATGCTTCAATAATAGCACGTGCTAAAACTTCATTTTTAATTTAAAAGGATCTAGGTGAAGATCCTTTTTGATAATCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTCCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGGCTTTTGCTGGCCTTTTGCTCACATGTTCTT

在NTF3修饰和体外切割研究中使用的各TALEN的完整蛋白和编码序列

为了再生各表达构建体的序列，置换具有以下所示的各CDS的以上构建体的下划线区域。

>NT_L+28(SEQIDNO：218)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPAAVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNIGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQALLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGRPALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGGSGGSGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>NT_L+28(SEQIDNO：219)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCGCCGCTGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACTCCCGAACAAGTAGTAGCGATAGCCAGTAATAACGGAGGTAAACAAGCCTTGGAGACGGTCCAAAGGTTGCTCCCGGTCTTGTGTCAGGCACATGGGCTGACGCCTCAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCTGTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGAGCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACATCGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGCAGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGCCAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGTCCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACGGCGGTGGAAAACAGGCCCTCGAAACCGTCCAGCGACTGCTCCCCGTACTGTGTCAAGCCCATGGACTTACCCCAGAACAAGTTGTGGCGATTGCCTCTAACAATGGTGGGAAGCAAGCTCTTGAGACGGTGCAGGCGTTGTTGCCCGTGCTTTGTCAAGCTCACGGGCTCACGCCAGAGCAAGTGGTCGCTATCGCGAGTAATAAAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACAATGGTGGAAAGCAGGCCCTGGAGACAGTCCAACGGTTGCTGCCGGTCCTTTGCCAGGCTCACGGGTTGACCCCCCAGCAGGTCGTGGCCATTGCCTCAAACAAGGGCGGTAGGCCAGCATTGGAGACGGTGCAGAGGCTTCTGCCTGTGCTCTGCCAAGCGCATGGACTCACCCCCGAGCAAGTGGTTGCTATCGCAAGTAACAACGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGAGGTTCTGGCGGCAGCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>NT_L+63(SEQIDNO：220)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNIGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQALLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGRPALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>NT_L+63(SEQIDNO：221)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACTCCCGAACAAGTAGTAGCGATAGCCAGTAATAACGGAGGTAAACAAGCCTTGGAGACGGTCCAAAGGTTGCTCCCGGTCTTGTGTCAGGCACATGGGCTGACGCCTCAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCTGTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGAGCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACATCGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGCAGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGCCAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGTCCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACGGCGGTGGAAAACAGGCCCTCGAAACCGTCCAGCGACTGCTCCCCGTACTGTGTCAAGCCCATGGACTTACCCCAGAACAAGTTGTGGCGATTGCCTCTAACAATGGTGGGAAGCAAGCTCTTGAGACGGTGCAGGCGTTGTTGCCCGTGCTTTGTCAAGCTCACGGGCTCACGCCAGAGCAAGTGGTCGCTATCGCGAGTAATAAAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACAATGGTGGAAAGCAGGCCCTGGAGACAGTCCAACGGTTGCTGCCGGTCCTTTGCCAGGCTCACGGGTTGACCCCCCAGCAGGTCGTGGCCATTGCCTCAAACAAGGGCGGTAGGCCAGCATTGGAGACGGTGCAGAGGCTTCTGCCTGTGCTCTGCCAAGCGCATGGACTCACCCCCGAGCAAGTGGTTGCTATCGCAAGTAACAACGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>NT_R+28(SEQIDNO：222)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>NT_R+28(SEQIDNO：223)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAATCTTACTCCAGAGCAGGTCGTCGCAATCGCGTCGAATAACGGGGGAAAGCAAGCACTGGAAACCGTGCAGAGGTTGTTGCCGGTCTTGTGTCAGGCTCACGGCTTGACACCTGCCCAAGTGGTGGCCATTGCGTCGAACATCGGGGGAAAACAGGCACTTGAAACAGTCCAGAGACTTTTGCCCGTCCTCTGCCAGGCGCACGGCCTCACGCCGGATCAGGTGGTAGCCATCGCGTCAAACATCGGAGGGAAGCAGGCTCTGGAAACGGTGCAGCGGCTTTTGCCGGTACTTTGCCAAGCTCATGGGCTCACGCCAGCCCAAGTGGTAGCTATCGCATCGCACGACGGAGGGAAGCAGGCCTTGGAGACAGTGCAACGGCTCCTCCCCGTGTTGTGCCAGGCACATGGGTTGACTCCAGAGCAGGTCGTAGCAATCGCCTCCAATATCGGGGGAAAGCAAGCGTTGGAGACAGTGCAGCGACTGCTGCCTGTGCTTTGCCAGGCTCATGGCCTGACGCCCGATCAGGTAGTGGCAATCGCGTCAAACAAAGGTGGAAAGCAGGCACTCGAAACGGTACAGCGCTTGCTGCCCGTCTTGTGTCAGGCCCACGGTCTGACACCCGACCAGGTAGTCGCGATTGCGTCGAACATCGGGGGAAAGCAAGCGTTGGAAACGGTACAACGCCTGCTCCCGGTGCTCTGCCAGGCTCATGGACTTACACCCGAGCAGGTGGTCGCCATCGCGTCAAACATCGGAGGCAAACAGGCATTGGAGACAGTGCAGCGCCTTCTCCCAGTCTTGTGTCAGGCCCACGGTCTGACACCCGACCAGGTCGTCGCGATTGCATCGAATGGAGGTGGGAAACAGGCCCTTGAGACAGTACAGAGGCTTTTGCCCGTGTTGTGCCAGGCCCACGGACTCACACCCGAACAAGTCGTCGCCATTGCCAGCCATGATGGAGGTAAACAGGCACTTGAGACTGTCCAGCGCCTCCTGCCGGTGCTGTGCCAAGCACATGGGCTGACCCCGCAGCAAGTCGTAGCGATCGCCTCGAATGGTGGAGGAAAACAAGCGCTTGAAACCGTCCAGAGGTTGCTCCCGGTGCTGTGCCAGGCACATGGCCTTACGCCTGAACAAGTAGTCGCGATTGCCAGCAACAAAGGCGGAAAACAGGCTCTCGAAACGGTCCAGCGGTTGCTGCCGGTGTTGTGCCAGGCGCACGGTCTTACACCGGACCAGGTGGTGGCGATTGCCTCCCACGATGGGGGTAAACAGGCACTGGAAACCGTGCAGAGATTGCTCCCAGTACTTTGTCAGGCACATGGTCTGACTCCTGCTCAAGTGGTCGCGATCGCCTCGAACAATGGCGGAAAGCAGGCGCTCGAAACGGTACAGCGGCTCCTTCCGGTGCTCTGCCAAGCCCACGGATTGACGCCAGAACAGGTCGTGGCAATTGCGTCACACGACGGTGGAAAGCAGGCGCTCGAAACTGTGCAAAGACTCCTGCCCGTACTCTGCCAGGCACACGGTTTGACTCCCCAGCAGGTAGTGGCCATCGCGAGCAATAAGGGAGGAAAGCAGGCGCTTGAAACGGTGCAGAGACTTCTGCCCGTGCTTTGTCAAGCCCACGGGCTGACTCCGGAGCAGGTAGTGGCCATCGCCTCAAACAACGGAGGAAAGCAAGCTCTCGAAACCGTACAGAGGCTTCTCCCCGTGCTCTGTCAGGCCCACGGGTTGACCCCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>NT_R+63，(也称为rNT3C+63)(SEQIDNO：224)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>NT_R+63(SEQIDNO：225)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAATCTTACTCCAGAGCAGGTCGTCGCAATCGCGTCGAATAACGGGGGAAAGCAAGCACTGGAAACCGTGCAGAGGTTGTTGCCGGTCTTGTGTCAGGCTCACGGCTTGACACCTGCCCAAGTGGTGGCCATTGCGTCGAACATCGGGGGAAAACAGGCACTTGAAACAGTCCAGAGACTTTTGCCCGTCCTCTGCCAGGCGCACGGCCTCACGCCGGATCAGGTGGTAGCCATCGCGTCAAACATCGGAGGGAAGCAGGCTCTGGAAACGGTGCAGCGGCTTTTGCCGGTACTTTGCCAAGCTCATGGGCTCACGCCAGCCCAAGTGGTAGCTATCGCATCGCACGACGGAGGGAAGCAGGCCTTGGAGACAGTGCAACGGCTCCTCCCCGTGTTGTGCCAGGCACATGGGTTGACTCCAGAGCAGGTCGTAGCAATCGCCTCCAATATCGGGGGAAAGCAAGCGTTGGAGACAGTGCAGCGACTGCTGCCTGTGCTTTGCCAGGCTCATGGCCTGACGCCCGATCAGGTAGTGGCAATCGCGTCAAACAAAGGTGGAAAGCAGGCACTCGAAACGGTACAGCGCTTGCTGCCCGTCTTGTGTCAGGCCCACGGTCTGACACCCGACCAGGTAGTCGCGATTGCGTCGAACATCGGGGGAAAGCAAGCGTTGGAAACGGTACAACGCCTGCTCCCGGTGCTCTGCCAGGCTCATGGACTTACACCCGAGCAGGTGGTCGCCATCGCGTCAAACATCGGAGGCAAACAGGCATTGGAGACAGTGCAGCGCCTTCTCCCAGTCTTGTGTCAGGCCCACGGTCTGACACCCGACCAGGTCGTCGCGATTGCATCGAATGGAGGTGGGAAACAGGCCCTTGAGACAGTACAGAGGCTTTTGCCCGTGTTGTGCCAGGCCCACGGACTCACACCCGAACAAGTCGTCGCCATTGCCAGCCATGATGGAGGTAAACAGGCACTTGAGACTGTCCAGCGCCTCCTGCCGGTGCTGTGCCAAGCACATGGGCTGACCCCGCAGCAAGTCGTAGCGATCGCCTCGAATGGTGGAGGAAAACAAGCGCTTGAAACCGTCCAGAGGTTGCTCCCGGTGCTGTGCCAGGCACATGGCCTTACGCCTGAACAAGTAGTCGCGATTGCCAGCAACAAAGGCGGAAAACAGGCTCTCGAAACGGTCCAGCGGTTGCTGCCGGTGTTGTGCCAGGCGCACGGTCTTACACCGGACCAGGTGGTGGCGATTGCCTCCCACGATGGGGGTAAACAGGCACTGGAAACCGTGCAGAGATTGCTCCCAGTACTTTGTCAGGCACATGGTCTGACTCCTGCTCAAGTGGTCGCGATCGCCTCGAACAATGGCGGAAAGCAGGCGCTCGAAACGGTACAGCGGCTCCTTCCGGTGCTCTGCCAAGCCCACGGATTGACGCCAGAACAGGTCGTGGCAATTGCGTCACACGACGGTGGAAAGCAGGCGCTCGAAACTGTGCAAAGACTCCTGCCCGTACTCTGCCAGGCACACGGTTTGACTCCCCAGCAGGTAGTGGCCATCGCGAGCAATAAGGGAGGAAAGCAGGCGCTTGAAACGGTGCAGAGACTTCTGCCCGTGCTTTGTCAAGCCCACGGGCTGACTCCGGAGCAGGTAGTGGCCATCGCCTCAAACAACGGAGGAAAGCAAGCTCTCGAAACCGTACAGAGGCTTCTCCCCGTGCTCTGTCAGGCCCACGGGTTGACCCCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+28(也称为rNT#C+28)(SEQIDNO：226)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13_+28(SEQIDNO：227)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+39，(也称为rNT3，C+39)(SEQIDNO：228)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGRPALDAVKKGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13+39(SEQIDNO：229)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGAGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+50(SEQIDNO：230)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13+50(SEQIDNO：231)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+63(SEQIDNO：232)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13+63(SEQIDNO：233)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+79(SEQIDNO：234)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13+79(SEQIDNO：235)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>TALE13+95(SEQIDNO：236)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPSLAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>TALE13+95(SEQIDNO：237)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACGGGGTACCCATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGTCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

2.CCR5研究使用的TALEN构建体和蛋白序列

完整TALEN构建体序列，具有下划线的编码序列(SEQIDNO：238)：

GACTCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAATTAATACGACTCACTATAGGGAGAGCCAAGCTGACTAGCGTTTAAACTTAAGCTGATCCACTAGTCCAGTGTGGTGGAATTCGCCATGGACTACAAAGA CCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGA AGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATC AAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGT CGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAG CCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCG GGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGC GGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAA TCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGC CTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCT CCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAG CATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATC GCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACT CACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGC CGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCT CTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGC GAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGA CGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCT GTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCT GGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCAT CACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACT CCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGT GTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGG AAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCG CATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCC TGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTAC TGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAG TCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATG TCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGC CCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAG TTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGT GGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGG CCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTG TACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGAC CAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCA AAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCTTGATAACTCGAGTCTAGAGGGCCCGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTACTGGGCGGTTTTATGGACAGCAAGCGAACCGGAATTGCCAGCTGGGGCGCCCTCTGGTAAGGTTGGGAAGCCCTGCAAAGTAAACTGGATGGCTTTCTCGCCGCCAAGGATCTGATGGCGCAGGGGATCAAGCTCTGATCAAGAGACAGGATGAGGATCGTTTCGCATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAAGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGAGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTCTGAATTATTAACGCTTACAATTTCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATACAGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGACAATAACCCTGATAAATGCTTCAATAATAGCACGTGCTAAAACTTCATTTTTAATTTAAAAGGATCTAGGTGAAGATCCTTTTTGATAATCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTCCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGGCTTTTGCTGGCCTTTTGCTCACATGTTCTT

各CCR-5靶向的TALEN的完整蛋白和编码序列：

为了再生各表达构建体的序列，置换具有以下所示各CDS的以上构建体的下划线区域

>CCR5L161(+28)(SEQIDNO：239)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L161(+28)(SEQIDNO：240)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L161(+63)(SEQIDNO：241)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELLEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L161(+63)(SEQIDNO：242)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L164(+28)(SEQIDNO：243)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L164(+28)(SEQIDNO：244)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGACCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L164(+63)(SEQIDNO：245)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L164(+63)(SEQIDNO：246)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L167(+28)(SEQIDNO：247)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALEETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L167(+28)(SEQIDNO：248)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAGGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L167(+63)(SEQIDNO：249)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALEETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNFWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEEVRRKFNNGEINFRS

>CCR5L167(+63)(SEQIDNO：250)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAGGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L172(+28)(SEQIDNO：251)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L172(+28)(SEQIDNO：252)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCTAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L172(+63)(SEQIDNO：253)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L172(+63)(SEQIDNO：254)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCTAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R175(+28)(SEQIDNO：255)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R175(+28)(SEQIDNO：256)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R175(+63)(SEQIDNO：257)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNGGGKQALEETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R175(+63)(SEQIDNO：258)ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCTTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R177(+28)(SEQIDNO：259)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R177(+28)(SEQIDNO：260)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R177(+63)(SEQIDNO：261)MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRFALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R177(+63)(SEQIDNO：262)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R178(+28)(SEQIDNO：263)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALEETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R178(+28)(SEQIDNO：264)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTLAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R178(+63)(SEQIDNO：265)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R178(+63)(SEQIDNO：266)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R185(+28)(SEQIDNO：267)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R185(+28)(SEQIDNO：268)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R185(+63)(SEQIDNO：269)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R185(+63)(SEQIDNO：270)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L532(+28)(SEQIDNO：271)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L532(+28)(SEQIDNO：272)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L532(+63)(SEQIDNO：273)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L532(+63)(SEQIDNO：274)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L538(+28)(SEQIDNO：275)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L538(+28)(SEQIDNO：276)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGACCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L538(+63)(SEQIDNO：277)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L538(+63)(SEQIDNO：278)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L540(+28)(SEQIDNO：279)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L540(+28)(SEQIDNO：280)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L540(+63)(SEQIDNO：281)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L540(+63)(SEQIDNO：282)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L543(+28)(SEQIDNO：283)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELTEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L543(+28)(SEQIDNO：284)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5L543(+63)(SEQIDNO：285)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5L543(+63)(SEQIDNO：286)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCCATGATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R549(+28)(SEQIDNO：287)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R549(+28)(SEQIDNO：288)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R549(+63)(SEQIDNO：289)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R549(+63)(SEQIDNO：290)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R551(+28)(SEQIDNO：291)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQTLETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R551(+28)(SEQIDNO：292)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAACATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R551(+63)(SEQIDNO：293)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R551(+63)(SEQIDNO：294)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGATCAAGTCGTGGCCATTGCAAATAATAACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R557(+28)(SEQIDNO：295)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R557(+28)(SEQIDNO：296)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R557(+63)(SEQIDNO：297)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R557(+63)(SEQIDNO：298)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAATAACAATGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAACGGAGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCCACGACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R560(+28)(SEQIDNO：299)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVALASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R560(+28)(SEQIDNO：300)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

>CCR5R560(+63)(SEQIDNO：301)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

>CCR5R560(+63)(SEQIDNO：302)

ATGGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGATGGCCCCCAAGAAGAAGAGGAAGGTGGGCATTCACCGCGGGGTACCTATGGTGGACTTGAGGACACTCGGTTATTCGCAACAGCAACAGGAGAAAATCAAGCCTAAGGTCAGGAGCACCGTCGCGCAACACCACGAGGCGCTTGTGGGGCATGGCTTCACTCATGCGCATATTGTCGCGCTTTCACAGCACCCTGCGGCGCTTGGGACGGTGGCTGTCAAATACCAAGATATGATTGCGGCCCTGCCCGAAGCCACGCACGAGGCAATTGTAGGGGTCGGTAAACAGTGGTCGGGAGCGCGAGCACTTGAGGCGCTGCTGACTGTGGCGGGTGAGCTTAGGGGGCCTCCGCTCCAGCTCGACACCGGGCAGCTGCTGAAGATCGCGAAGAGAGGGGGAGTAACAGCGGTAGAGGCAGTGCACGCCTGGCGCAATGCGCTCACCGGGGCCCCCTTGAACCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAATGGCGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGACTCACCCCAGACCAGGTAGTCGCAATCGCGTCGCATGACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCACATGACGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAACATCGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCAACAACAACGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGGCTGACCCCAGACCAGGTAGTCGCAATCGCGTCGAACATTGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACACCGGAGCAAGTCGTGGCCATTGCATCAAATATCGGTGGCAAACAGGCTCTTGAGACGGTTCAGAGACTTCTCCCAGTTCTCTGTCAAGCCCACGGGCTGACTCCCGATCAAGTTGTAGCGATTGCGAGCAATGGGGGAGGGAAACAAGCATTGGAGACTGTCCAACGGCTCCTTCCCGTGTTGTGTCAAGCCCACGGTTTGACGCCTGCACAAGTGGTCGCCATCGCCTCCAACGGTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGTTTGACCCCAGACCAGGTAGTCGCAATCGCCAACAATAACGGGGGAAAGCAAGCCCTGGAAACCGTGCAAAGGTTGTTGCCGGTCCTTTGTCAAGACCACGGCCTTACGCCTGCACAAGTGGTCGCCATCGCCTCCAATATTGGCGGTAAGCAGGCGCTGGAAACAGTACAGCGCCTGCTGCCTGTACTGTGCCAGGATCATGGCCTGACACCCGAACAGGTGGTCGCCATTGCTAGCAACGGGGGAGGACGGCCAGCCTTGGAGTCCATCGTAGCCCAATTGTCCAGGCCCGATCCCGCGTTGGCTGCGTTAACGAATGACCATCTGGTGGCGTTGGCATGTCTTGGTGGACGACCCGCGCTCGATGCAGTCAAAAAGGGTCTGCCTCATGCTCCCGCATTGATCAAAAGAACCAACCGGCGGATTCCCGAGAGAACTTCCCATCGAGTCGCGGGATCCCAGCTGGTGAAGAGCGAGCTGGAGGAGAAGAAGTCCGAGCTGCGGCACAAGCTGAAGTACGTGCCCCACGAGTACATCGAGCTGATCGAGATCGCCAGGAACAGCACCCAGGACCGCATCCTGGAGATGAAGGTGATGGAGTTCTTCATGAAGGTGTACGGCTACAGGGGAAAGCACCTGGGCGGAAGCAGAAAGCCTGACGGCGCCATCTATACAGTGGGCAGCCCCATCGATTACGGCGTGATCGTGGACACAAAGGCCTACAGCGGCGGCTACAATCTGCCTATCGGCCAGGCCGACGAGATGCAGAGATACGTGGAGGAGAACCAGACCCGGAATAAGCACATCAACCCCAACGAGTGGTGGAAGGTGTACCCTAGCAGCGTGACCGAGTTCAAGTTCCTGTTCGTGAGCGGCCACTTCAAGGGCAACTACAAGGCCCAGCTGACCAGGCTGAACCACATCACCAACTGCAATGGCGCCGTGCTGAGCGTGGAGGAGCTGCTGATCGGCGGCGAGATGATCAAAGCCGGCACCCTGACACTGGAGGAGGTGCGGCGCAAGTTCAACAACGGCGAGATCAACTTCAGATCT

CCR5供体序列：

5’AGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTTTCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCATGATTACGCCAAGCTCAGAATTAACCCTCACTAAAGGGACTAGTCCTGCAGGTTTAAACGAATTCGCCCTTGATACTTATTAACCATACCTTGGAGGGGAAATCACACATGAAAAGTGTCATTTCTTTACTAATCATATTCATGTCTTTTCTCCCCATAGCAAGACAAAGACCTGTTTTAAACACATTTACAACCTATATGTTGCCTTGTACTAGGTAAAAAGTTGTACATTTCTGAAATAATTTTGGTATTTCTGTTCAGATCACTAAACTCAAGAATCAGCAATTCTCTGAGGCTTTCTTTTAAATATACATAAGGAACTTTCGGAGTGAAGGGAGAGTTTGTCAATAACTTGATGCATGTGAAGGGGAGATAAAAAGGTTGCTATTTTTCATCAACATATTTTGATTTGGCTTTCTATAATTGATGGGCTTAAAAGATCTAATCTACTTTAAACAGATGCCAAATAAATGGATGAATCTTAGACCCTCTATAACAGTAACTTCCTTTTAAAAAAGACCTCTCCCACCCCACCCCCAGCCCAGGCTGTGTATGAAAACTAAGCCATGTGCACAACTCTGACTGGGTCACCAGCCCACTTGAGTCCGTGTCACAAGCCCACAGATATTTCCTGCTCCCCAGTGGATCGGGTGTAAACTGAGCTTGCTCGCTCGGGAGCCTCTTGCTGGAAAATAGAACAGCATTTGCAGAAGCGTTTGGCAATGTGCTTTTGGAAGAAGACTAAGAGGTAGTTTCTGAACTTCTCCCCGACAAAGGCATAGATGATGGGGTTGATGCAGCAGTGCGTCATCCCAAGAGTCTCTGTCACCTGCATAGCTTGGTCCAACCTGTTAGAGCTACTGCAATTATTCAGGCCAAAGAATTCCTGGAAGGTGTTCAGGAGAAGGACAATGTTGTAGGGAGCCCAGAAGAGAAAATAAACAATCATGATGGTGAAGATAAGCCTCACAGCCCTGTGCCTCTTCTTCTCATTTCGACACCGAAGCAGAGTTTTTAGGATTCCCGAGTAGCAGATGACCATGACAAGCAGCGGCAGGACCAGCCCCAAGATGACTATCTTTAATGTCTGGAAATTCTTCCAGAATTGATACTGACTGTATGGAAAATGAGAGCTGCAGGTGTAATGAAGACCTTCTTTTTGAGATCTGGTAAAGATGATTCCTGGGAGAGACGCAAACACAGCCACCACCCAAGTGATCACACTTGTCACCACCCCAAAGGTGACCGTCCTGGCTTTTAAAGCAAACACAGCATGGACGACAGCCAGGTACCTATCGATTGTCAGGAGGATGATGAAGAAGATTCCAGAGAAGAAGCCTATAAAATAGAGCCCTGTCAAGAGTTGACACATTGTATTTCCAAAGTCCCACTGGGCGGCAGCATAGTGAGCCCAGAAGGGGACAGTAAGAAGGAAAAACAGGTCAGAGATGGCCAGGTTGAGCAGGTAGATGTCAGTCATGCTCTTCAGCCTTTTGCAGTTTTCTAGACGAGGCATCCAGTCCAGACGCCATCAGGGCATACTCACTGATCTAGATGAGGATGACCAGCATGTTGCCCACAAAACCAAAGATGAACACCAGTGAGTAGAGCGGAGGCAGGAGGCGGGCTGCGATTTGCTTCACATTGATTTTTTGGCAGGGCTCCGATGTATAATAATTGATGTCATAGATTGGACTTGACACTTGATAATCCATCTTGTTCCACCCTGTGCATAAATAAAAAGTGATCTTTTATAAAGTCCTAGAATGTATTTAGTTGCCCTCCATGAATGCAAACTGTTTTATACATCAATAGGTTTTTAATTGCCTACATAGATGTCTACATTGAATTAACTCTCTTTTTGGCCAAGCAATGAAGTTTTGTAGTGAAGGGAAGGTTTGCTGCTAGCTTCCCTGTCCACTAGATGGAGAGCTTGGCTCTGTTGGGGGAATTCATGAAAGCACCATCTCACCAAATAAAATCTTGTGCTCTATAGCACCATGGAGTGAATGAAGCTTTGACAACAATTAAGGGCGAATTCGCGGCCGCTAAATTCAATTCGCCCTATAGTGAGTCGTATTACAATTCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACCCTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTTTCGCCAGCTGGCGTAATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAACAGTTGCGCAGCCTATACGTACGGCAGTTTAAGGTTTACACCTATAAAAGAGAGAGCCGTTATCGTCTGTTTGTGGATGTACAGAGTGATATTATTGACACGCCGGGGCGACGGATGGTGATCCCCCTGGCCAGTGCACGTCTGCTGTCAGATAAAGTCTCCCGTGAACTTTACCCGGTGGTGCATATCGGGGATGAAAGCTGGCGCATGATGACCACCGATATGGCCAGTGTGCCGGTCTCCGTTATCGGGGAAGAAGTGGCTGATCTCAGCCACCGCGAAAATGACATCAAAAACGCCATTAACCTGATGTTCTGGGGAATATAAATGTCAGGCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTCACGTAGAAAGCCAGTCCGCAGAAACGGTGCTGACCCCGGATGAATGTCAGCTACTGGGCTATCTGGACAAGGGAAAACGCAAGCGCAAAGAGAAAGCAGGTAGCTTGCAGTGGGCTTACATGGCGATAGCTAGACTGGGCGGTTTTATGGACAGCAAGCGAACCGGAATTGCCAGCTGGGGCGCCCTCTGGTAAGGTTGGGAAGCCCTGCAAAGTAAACTGGATGGCTTTCTTGCCGCCAAGGATCTGATGGCGCAGGGGATCAAGCTCTGATCAAGAGACAGGATGAGGATCGTTTCGCATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAAGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGAGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTCTGAATTATTAACGCTTACAATTTCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATCAGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTTCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTTCTTTCCTGCGTTATCCCCTGATTCTGTGGATAACCGTATTACCGCCTTTGAGTGAGCTGATACCGCTCGCCGCAGCCGAACGACCGAGCGCAGCGAGTCAGTGAGCGAGGAAGCGGAAG3’(SEQTDNO：176)

3.基因激活研究中使用的TALE构建体和蛋白序列

完整TALE构建体序列，具有下划线的编码序列(SEQIDNO：303)：

TAATACGACTCACTATAGGGAGACCCAAGCTGGCTAGCTTAAGCTGATCCACTAGTCCAGTGTGGTGGAATTCGCTAGCGCCACCATGGCCCCCAAGAAGAAGAGGAAGGTGGGAATCGATGGGGTACCCGCCGCTGTGGATCTACGCACGCTC GGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGT CGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGT ATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCA CGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCT CAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCC TGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGG CTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCA GGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCA TCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGC CTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTT GCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGG CGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATC GCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGAC CCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGG TGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTG GAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAG CCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCC CGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTG CTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGA GACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCC ACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCG GAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCC TGATCCGGCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATG CAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCAT CGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGA TGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCG AAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCAGGGATGAAAAGGGCC AAACCGTCCCCTACTTCAACTCAAACGCCGGACCAGGCGTCTTTGCATGCATTCGCCGATTCGCTGGAGCGTGACCT TGATGCGCCCAGCCCAACGCACGAGGGAGATCAGAGGCGGGCAAGCAGCCGTAAACGGTCCCGATCGG ATCGTGCTGTCACCGGTCCCTCCGCACAGCAATCGTTCGAGGTGCGCGCTCCCGAACAGCGCGATGCGCTGCATTTG CCCCTCAGTTGGAGGGTAAAACGCCCGCGTACCAGTATCGGGGGCGGCCTCCCGGATCCTGGTACGCCCACGGCTGC CGACCTGGCAGCGTCCAGCACCGTGATGCGGGAACAAGATGAGGACCCCTTCGCAGGGGCAGCGGATGATTTCCCGG CATTCAACGAAGAGGAGCTCGCATGGTTGATGGAGCTATTGCCTCAGGACCGCGGCCGCGCCCCCCCGACCGATGTC AGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCT GGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATA TGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAG GACGACGATGACAAGTAAGCTTCTCGAGTCTAGCTAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCTAGGGGGTATCCCCACGCGCCCTGTAGCGGCGCATTAAGCGCGGCGGGTGTGGTGGTTACGCGCAGCGTGACCGCTACACTTGCCAGCGCCCTAGCGCCCGCTCCTTTCGCTTTCTTCCCTTCCTTTCTCGCCACGTTCGCCGGCTTTCCCCGTCAAGCTCTAAATCGGGGCATCCCTTTAGGGTTCCGATTTAGTGCTTTACGGCACCTCGACCCCAAAAAACTTGATTAGGGTGATGGTTCACGTAGTGGGCCATCGCCCTGATAGACGGTTTTTCGCCCTTTGACGTTGGAGTCCACGTTCTTTAATAGTGGACTCTTGTTCCAAACTGGAACAACACTCAACCCTATCTCGGTCTATTCTTTTGATTTATAAGGGATTTTGGGGATTTCGGCCTATTGGTTAAAAAATGAGCTGATTTAACAAAAATTTAACGCGAATTAATTCTGTGGAATGTGTGTCAGTTAGGGTGTGGAAAGTCCCCAGGCTCCCCAGGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCCCGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCCATTCTCCGCCCCATGGCTGACTAATTTTTTTTATTTATGCAGAGGCCGAGGCCGCCTCTGCCTCTGAGCTATTCCAGAAGTAGTGAGGAGGCTTTTTTGGAGGCCTAGGCTTTTGCAAAAAGCTCCCGGGAGCTTGTATATCCATTTTCGGATCTGATCAAGAGACAGGATGAGGATCGTTTCGCATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAGGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGCGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTCTGAGCGGGACTCTGGGGTTCGAAATGACCGACCAAGCGACGCCCAACCTGCCATCACGAGATTTCGATTCCACCGCCGCCTTCTATGAAAGGTTGGGCTTCGGAATCGTTTTCCGGGACGCCGGCTGGATGATCCTCCAGCGCGGGGATCTCATGCTGGAGTTCTTCGCCCACCCCAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGTATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCTCCCGATCCCCTATGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGACTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAAT

在基因激活研究中使用的各TALE的完整蛋白和编码序列

注意，NT-L+95蛋白包括来自SV40的核定位序列(NLS)，而NT-L+278的核引入依赖于在TALEC-末端旁侧区域3中存在的内源性定位序列。

>NT-L+278VP16(SEQIDNO：304)

MVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNIGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQALLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGRPALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAFADSLERDLDAPSPTHEGDQRRASSRKRSRSDRAVTGPSAQQSFEVRAPEQRDALHLPLSWRVKRPRTSIGGGLPDPGTPTAADLAASSTVMREQDEDPEAGAADDFPAFNEEELAWLMELLPQDRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>NT-L+278VP16(SEQIDNO：305)

ATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACTCCCGAACAAGTAGTAGCGATAGCCAGTAATAACGGAGGTAAACAAGCCTTGGAGACGGTCCAAAGGTTGCTCCCGGTCTTGTGTCAGGCACATGGGCTGACGCCTCAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCTGTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGAGCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACATCGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGCAGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGCCAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGTCCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACGGCGGTGGAAAACAGGCCCTCGAAACCGTCCAGCGACTGCTCCCCGTACTGTGTCAAGCCCATGGACTTACCCCAGAACAAGTTGTGGCGATTGCCTCTAACAATGGTGGGAAGCAAGCTCTTGAGACGGTGCAGGCGTTGTTGCCCGTGCTTTGTCAAGCTCACGGGCTCACGCCAGAGCAAGTGGTCGCTATCGCGAGTAATAAAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACAATGGTGGAAAGCAGGCCCTGGAGACAGTCCAACGGTTGCTGCCGGTCCTTTGCCAGGCTCACGGGTTGACCCCCCAGCAGGTCGTGGCCATTGCCTCAAACAAGGGCGGTAGGCCAGCATTGGAGACGGTGCAGAGGCTTCTGCCTGTGCTCTGCCAAGCGCATGGACTCACCCCCGAGCAAGTGGTTGCTATCGCAAGTAACAACGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCGAAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCAGGGATGAAAAGGGCCAAACCGTCCCCTACTTCAACTCAAACGCCGGACCAGGCGTCTTTGCATGCATTCGCCGATTCGCTGGAGCGTGACCTTGATGCGCCCAGCCCAACGCACGAGGGAGATCAGAGGCGGGCAAGCAGCCGTAAACGGTCCCGATCGGATCGTGCTGTCACCGGTCCCTCCGCACAGCAATCGTTCGAGGTGCGCGCTCCCGAACAGCGCGATGCGCTGCATTTGCCCCTCAGTTGGAGGGTAAAACGCCCGCGTACCAGTATCGGGGGCGGCCTCCCGGATCCTGGTACGCCCACGGCTGCCGACCTGGCAGCGTCCAGCACCGTGATGCGGGAACAAGATGAGGACCCCTTCGCAGGGGCAGCGGATGATTTCCCGGCATTCAACGAAGAGGAGCTCGCATGGTTGATGGAGCTATTGCCTCAGGACCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>NT-L+95VP16(SEQIDNO：306)

MAPKKKRKVGIDGVPAAVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFFTHAHVAALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNIGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQALLPVLCQAHGLTPEQVVAIASNKGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNKGGRPALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSGSRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>NT-L+95VP16(SEQIDNO：307)

ATGGCCCCCAAGAAGAAGAGGAAGGTGGGAATCGATGGGGTACCCGCCGCTGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACTCCCGAACAAGTAGTAGCGATAGCCAGTAATAACGGAGGTAAACAAGCCTTGGAGACGGTCCAAAGGTTGCTCCCGGTCTTGTGTCAGGCACATGGGCTGACGCCTCAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCTGTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGAGCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACATCGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGCAGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGCCAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGTCCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACGGCGGTGGAAAACAGGCCCTCGAAACCGTCCAGCGACTGCTCCCCGTACTGTGTCAAGCCCATGGACTTACCCCAGAACAAGTTGTGGCGATTGCCTCTAACAATGGTGGGAAGCAAGCTCTTGAGACGGTGCAGGCGTTGTTGCCCGTGCTTTGTCAAGCTCACGGGCTCACGCCAGAGCAAGTGGTCGCTATCGCGAGTAATAAAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACAATGGTGGAAAGCAGGCCCTGGAGACAGTCCAACGGTTGCTGCCGGTCCTTTGCCAGGCTCACGGGTTGACCCCCCAGCAGGTCGTGGCCATTGCCTCAAACAAGGGCGGTAGGCCAGCATTGGAGACGGTGCAGAGGCTTCTGCCTGTGCTCTGCCAAGCGCATGGACTCACCCCCGAGCAAGTGGTTGCTATCGCAAGTAACAACGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCGGATCCCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>TALE13+278VP16(SEQIDNO：308)

MAPKKKRKVGIDGVPAAVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAFADSLERDLDAPSPTHEGDQRRASSRKRSRSDRAVTGPSAQQSFEVRAPEQRDALHLPLSWRVKRPRTSIGGGLPDPGTPTAADLAASSTVMREQDEDPEAGAADDFPAFNEEELAWLMELLPQDRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>TALE13+278VP16(SEQIDNO：309)

ATGGCCCCCAAGAAGAAGAGGAAGGTGGGAATCGATGGGGTACCCGCCGCTGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGGCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCGAAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCAGGGATGAAAAGGGCCAAACCGTCCCCTACTTCAACTCAAACGCCGGACCAGGCGTCTTTGCATGCATTCGCCGATTCGCTGGAGCGTGACCTTGATGCGCCCAGCCCAACGCACGAGGGAGATCAGAGGCGGGCAAGCAGCCGTAAACGGTCCCGATCGGATCGTGCTGTCACCGGTCCCTCCGCACAGCAATCGTTCGAGGTGCGCGCTCCCGAACAGCGCGATGCGCTGCATTTGCCCCTCAGTTGGAGGGTAAAACGCCCGCGTACCAGTATCGGGGGCGGCCTCCCGGATCCTGGTACGCCCACGGCTGCCGACCTGGCAGCGTCCAGCACCGTGATGCGGGAACAAGATGAGGACCCCTTCGCAGGGGCAGCGGATGATTTCCCGGCATTCAACGAAGAGGAGCTCGCATGGTTGATGGAGCTATTGCCTCAGGACCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>TALE13+133VP16(SEQIDNO：310)

MVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVALASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALTDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGGSGHRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>TALE13+133VP16(SEQIDNO：311)

ATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGTGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGGCGTTGGCCGCGTTGACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCGAAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCGGGGGGATCCGGCCACCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>TALE13+95VP16(SEQIDNO：312)

MVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSGSRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>TALE13+95VP16(SEQIDNO：313)

ATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGGCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCGGATCCCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>TALE13+23VP16(SEQIDNO：314)

MVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLRQAHGLTPEQVVAIASNGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVAGSRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>TALE13+23VP16(SEQIDNO：315)

ATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGGCGTTGGCCGCGTTAACCAACGACCACCTCGTCGCCGGATCCCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

>TALE13Δ1-13VP16(SEQIDNO：316)

MVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAEADSLERDLDAPSPTHEGDQRRASSRKRSRSDRAVTGPSAQQSFEVRAPEQRDALHLPLSWRVKRPRTSIGGGLPDPGTPTAADLAASSTVMREQDEDPFAGAADDFPAFNEEELAWLMELLPQDRGRAPPTDVSLGDELHLDGEDVAMAHADALDDFDLDMLGDGDSPGPGFTPHDSAPYGALDMADFEFEQMFTDALGIDEYGGGRDYKDDDDK

>TALE13Δ1-13VP16(SEQIDNO：317)

ATGGTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCGAAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCAGGGATGAAAAGGGCCAAACCGTCCCCTACTTCAACTCAAACGCCGGACCAGGCGTCTTTGCATGCATTCGCCGATTCGCTGGAGCGTGACCTTGATGCGCCCAGCCCAACGCACGAGGGAGATCAGAGGCGGGCAAGCAGCCGTAAACGGTCCCGATCGGATCGTGCTGTCACCGGTCCCTCCGCACAGCAATCGTTCGAGGTGCGCGCTCCCGAACAGCGCGATGCGCTGCATTTGCCCCTCAGTTGGAGGGTAAAACGCCCGCGTACCAGTATCGGGGGCGGCCTCCCGGATCCTGGTACGCCCACGGCTGCCGACCTGGCAGCGTCCAGCACCGTGATGCGGGAACAAGATGAGGACCCCTTCGCAGGGGCAGCGGATGATTTCCCGGCATTCAACGAAGAGGAGCTCGCATGGTTGATGGAGCTATTGCCTCAGGACCGCGGCCGCGCCCCCCCGACCGATGTCAGCCTGGGGGACGAGCTCCACTTAGACGGCGAGGACGTGGCGATGGCGCATGCCGACGCGCTAGACGATTTCGATCTGGACATGTTGGGGGACGGGGATTCCCCGGGTCCGGGATTTACCCCCCACGACTCCGCCCCCTACGGCGCTCTGGATATGGCCGACTTCGAGTTTGAGCAGATGTTTACCGATGCCCTTGGAATTGACGAGTACGGTGGCGGCCGCGACTACAAGGACGACGATGACAAG

4.各种DNA序列

在图37中描述的实验使用的供体(SEQIDNO：318)

AGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTTTCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCATGATTACGCCAAGCTCAGAATTAACCCTCACTAAAGGGACTAGTCCTGCAGGTTTAAACGAATTCGCCCTTGATACTTATTAACCATACCTTGGAGGGGAAATCACACATGAAAAGTGTCATTTCTTTACTAATCATATTCATGTCTTTTCTCCCCATAGCAAGACAAAGACCTGTTTTAAACACATTTACAACCTATATGTTGCCTTGTACTAGGTAAAAAGTTGTACATTTCTGAAATAATTTTGGTATTTCTGTTCAGATCACTAAACTCAAGAATCAGCAATTCTCTGAGGCTTTCTTTTAAATATACATAAGGAACTTTCGGAGTGAAGGGAGAGTTTGTCAATAACTTGATGCATGTGAAGGGGAGATAAAAAGGTTGCTATTTTTCATCAACATATTTTGATTTGGCTTTCTATAATTGATGGGCTTAAAAGATCTAATCTACTTTAAACAGATGCCAAATAAATGGATGAATCTTAGACCCTCTATAACAGTAACTTCCTTTTAAAAAAGACCTCTCCCACCCCACCCCCAGCCCAGGCTGTGTATGAAAACTAAGCCATGTGCACAACTCTGACTGGGTCACCAGCCCACTTGAGTCCGTGTCACAAGCCCACAGATATTTCCTGCTCCCCAGTGGATCGGGTGTAAACTGAGCTTGCTCGCTCGGGAGCCTCTTGCTGGAAAATAGAACAGCATTTGCAGAAGCGTTTGGCAATGTGCTTTTGGAAGAAGACTAAGAGGTAGTTTCTGAACTTCTCCCCGACAAAGGCATAGATGATGGGGTTGATGCAGCAGTGCGTCATCCCAAGAGTCTCTGTCACCTGCATAGCTTGGTCCAACCTGTTAGAGCTACTGCAATTATTCAGGCCAAAGAATTCCTGGAAGGTGTTCAGGAGAAGGACAATGTTGTAGGGAGCCCAGAAGAGAAAATAAACAATCATGATGGTGAAGATAAGCCTCACAGCCCTGTGCCTCTTCTTCTCATTTCGACACCGAAGCAGAGTTTTTAGGATTCCCGAGTAGCAGATGACCATGACAAGCAGCGGCAGGACCAGCCCCAAGATGACTATCTTTAATGTCTGGAAATTCTTCCAGAATTGATACTGACTGTATGGAAAATGAGAGCTGCAGGTGTAATGAAGACCTTCTTTTTGAGATCTGGTAAAGATGATTCCTGGGAGAGACGCAAACACAGCCACCACCCAAGTGATCACACTTGTCACCACCCCAAAGGTGACCGTCCTGGCTTTTAAAGCAAACACAGCATGGACGACAGCCAGGTACCTATCGATTGTCAGGAGGATGATGAAGAAGATTCCAGAGAAGAAGCCTATAAAATAGAGCCCTGTCAAGAGTTGACACATTGTATTTCCAAAGTCCCACTGGGCGGCAGCATAGTGAGCCCAGAAGGGGACAGTAAGAAGGAAAAACAGGTCAGAGATGGCCAGGTTGAGCAGGTAGATGTCAGTCATGCTCTTCAGCCTTTTGCAGTTTTCTAGACGAGGCATCCAGTCCAGACGCCATCAGGGCATACTCACTGATCTAGATGAGGATGACCAGCATGTTGCCCACAAAACCAAAGATGAACACCAGTGAGTAGAGCGGAGGCAGGAGGCGGGCTGCGATTTGCTTCACATTGATTTTTTGGCAGGGCTCCGATGTATAATAATTGATGTCATAGATTGGACTTGACACTTGATAATCCATCTTGTTCCACCCTGTGCATAAATAAAAAGTGATCTTTTATAAAGTCCTAGAATGTATTTAGTTGCCCTCCATGAATGCAAACTGTTTTATACATCAATAGGTTTTTAATTGCCTACATAGATGTCTACATTGAATTAACTCTCTTTTTGGCCAAGCAATGAAGTTTTGTAGTGAAGGGAAGGTTTGCTGCTAGCTTCCCTGTCCACTAGATGGAGAGCTTGGCTCTGTTGGGGGAATTCATGAAAGCACCATCTCACCAAATAAAATCTTGTGCTCTATAGCACCATGGAGTGAATGAAGCTTTGACAACAATTAAGGGCGAATTCGCGGCCGCTAAATTCAATTCGCCCTATAGTGAGTCGTATTACAATTCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACCCTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTTTCGCCAGCTGGCGTAATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAACAGTTGCGCAGCCTATACGTACGGCAGTTTAAGGTTTACACCTATAAAAGAGAGAGCCGTTATCGTCTGTTTGTGGATGTACAGAGTGATATTATTGACACGCCGGGGCGACGGATGGTGATCCCCCTGGCCAGTGCACGTCTGCTGTCAGATAAAGTCTCCCGTGAACTTTACCCGGTGGTGCATATCGGGGATGAAAGCTGGCGCATGATGACCACCGATATGGCCAGTGTGCCGGTCTCCGTTATCGGGGAAGAAGTGGCTGATCTCAGCCACCGCGAAAATGACATCAAAAACGCCATTAACCTGATGTTCTGGGGAATATAAATGTCAGGCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTCACGTAGAAAGCCAGTCCGCAGAAACGGTGCTGACCCCGGATGAATGTCAGCTACTGGGCTATCTGGACAAGGGAAAACGCAAGCGCAAAGAGAAAGCAGGTAGCTTGCAGTGGGCTTACATGGCGATAGCTAGACTGGGCGGTTTTATGGACAGCAAGCGAACCGGAATTGCCAGCTGGGGCGCCCTCTGGTAAGGTTGGGAAGCCCTGCAAAGTAAACTGGATGGCTTTCTTGCCGCCAAGGATCTGATGGCGCAGGGGATCAAGCTCTGATCAAGAGACAGGATGAGGATCGTTTCGCATGATTGAACAAGATGGATTGCACGCAGGTTCTCCGGCCGCTTGGGTGGAGAGGCTATTCGGCTATGACTGGGCACAACAGACAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAGGGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCTGAATGAACTGCAAGACGAGGCAGCGCGGCTATCGTGGCTGGCCACGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAAGCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGGATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCATGGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCTGCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGTACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAAGAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAAGGCGAGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGCGATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCTGGATTCATCGACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCAGGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCGGCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTCCCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCTTCTGAATTATTAACGCTTACAATTTCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATCAGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTTCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTTCTTTCCTGCGTTATCCCCTGATTCTGTGGATAACCGTATTACCGCCTTTGAGTGAGCTGATACCGCTCGCCGCAGCCGAACGACCGAGCGCAGCGAGTCAGTGAGCGAGGAAGCGGAAG

TALE13报道基因构建体(TALE13结合位点和划下划线的SV40启动子)(SEQIDNO319)：

GGTACCGAGCTCTTACGCGTGCTAGTATAAATACCTTCTGCCTTACTAGTATAAATACCTTCTGCCTTGCTAGCTCGAGATCTGCGATCTGCATCTCAATTAGTCAGCAACCATAGTCCCGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCG CCCAGTTCCGCCCATTCTCCGCCCCATCGCTGACTAATTTTTTTTATTTATGCAGAGGCCGAGGCCGCCTCGGCCTC TGAGCTATTCCAGAAGTAGTGAGGAGGCTTTTTTGGAGGCCTAGGCTTTTGCAAAAAGCTTGGCATTCCGGTACTGTTGGTAAAGCCACCATGGAAGACGCCAAAAACATAAAGAAAGGCCCGGCGCCATTCTATCCGCTGGAAGATGGAACCGCTGGAGAGCAACTGCATAAGGCTATGAAGAGATACGCCCTGGTTCCTGGAACAATTGCTTTTACAGATGCACATATCGAGGTGGACATCACTTACGCTGAGTACTTCGAAATGTCCGTTCGGTTGGCAGAAGCTATGAAACGATATGGGCTGAATACAAATCACAGAATCGTCGTATGCAGTGAAAACTCTCTTCAATTCTTTATGCCGGTGTTGGGCGCGTTATTTATCGGAGTTGCAGTTGCGCCCGCGAACGACATTTATAATGAACGTGAATTGCTCAACAGTATGGGCATTTCGCAGCCTACCGTGGTGTTCGTTTCCAAAAAGGGGTTGCAAAAAATTTTGAACGTGCAAAAAAAGCTCCCAATCATCCAAAAAATTATTATCATGGATTCTAAAACGGATTACCAGGGATTTCAGTCGATGTACACGTTCGTCACATCTCATCTACCTCCCGGTTTTAATGAATACGATTTTGTGCCAGAGTCCTTCGATAGGGACAAGACAATTGCACTGATCATGAACTCCTCTGGATCTACTGGTCTGCCTAAAGGTGTCGCTCTGCCTCATAGAACTGCCTGCGTGAGATTCTCGCATGCCAGAGATCCTATTTTTGGCAATCAAATCATTCCGGATACTGCGATTTTAAGTGTTGTTCCATTCCATCACGGTTTTGGAATGTTTACTACACTCGGATATTTGATATGTGGATTTCGAGTCGTCTTAATGTATAGATTTGAAGAAGAGCTGTTTCTGAGGAGCCTTCAGGATTACAAGATTCAAAGTGCGCTGCTGGTGCCAACCCTATTCTCCTTCTTCGCCAAAAGCACTCTGATTGACAAATACGATTTATCTAATTTACACGAAATTGCTTCTGGTGGCGCTCCCCTCTCTAAGGAAGTCGGGGAAGCGGTTGCCAAGAGGTTCCATCTGCCAGGTATCAGGCAAGGATATGGGCTCACTGAGACTACATCAGCTATTCTGATTACACCCGAGGGGGATGATAAACCGGGCGCGGTCGGTAAAGTTGTTCCATTTTTTGAAGCGAAGGTTGTGGATCTGGATACCGGGAAAACGCTGGGCGTTAATCAAAGAGGCGAACTGTGTGTGAGAGGTCCTATGATTATGTCCGGTTATGTAAACAATCCGGAAGCGACCAACGCCTTGATTGACAAGGATGGATGGCTACATTCTGGAGACATAGCTTACTGGGACGAAGACGAACACTTCTTCATCGTTGACCGCCTGAAGTCTCTGATTAAGTACAAAGGCTATCAGGTGGCTCCCGCTGAATTGGAATCCATCTTGCTCCAACACCCCAACATCTTCGACGCAGGTGTCGCAGGTCTTCCCGACGATGACGCCGGTGAACTTCCCGCCGCCGTTGTTGTTTTGGAGCACGGAAAGACGATGACGGAAAAAGAGATCGTGGATTACGTCGCCAGTCAAGTAACAACCGCGAAAAAGTTGCGCGGAGGAGTTGTGTTTGTGGACGAAGTACCGAAAGGTCTTACCGGAAAACTCGACGCAAGAAAAATCAGAGAGATCCTCATAAAGGCCAAGAAGGGCGGAAAGATCGCCGTGTAATTCTAGAGTCGGGGCGGCCGGCCGCTTCGAGCAGACATGATAAGATACATTGATGAGTTTGGACAAACCACAACTAGAATGCAGTGAAAAAAATGCTTTATTTGTGAAATTTGTGATGCTATTGCTTTATTTGTAACCATTATAAGCTGCAATAAACAAGTTAACAACAACAATTGCATTCATTTTATGTTTCAGGTTCAGGGGGAGGTGTGGGAGGTTTTTTAAAGCAAGTAAAACCTCTACAAATGTGGTAAAATCGATAAGGATCCGTCGACCGATGCCCTTGAGAGCCTTCAACCCAGTCAGCTCCTTCCGGTGGGCGCGGGGCATGACTATCGTCGCCGCACTTATGACTGTCTTCTTTATCATGCAACTCGTAGGACAGGTGCCGGCAGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGCGCCCTGTAGCGGCGCATTAAGCGCGGCGGGTGTGGTGGTTACGCGCAGCGTGACCGCTACACTTGCCAGCGCCCTAGCGCCCGCTCCTTTCGCTTTCTTCCCTTCCTTTCTCGCCACGTTCGCCGGCTTTCCCCGTCAAGCTCTAAATCGGGGGCTCCCTTTAGGGTTCCGATTTAGTGCTTTACGGCACCTCGACCCCAAAAAACTTGATTAGGGTGATGGTTCACGTAGTGGGCCATCGCCCTGATAGACGGTTTTTCGCCCTTTGACGTTGGAGTCCACGTTCTTTAATAGTGGACTCTTGTTCCAAACTGGAACAACACTCAACCCTATCTCGGTCTATTCTTTTGATTTATAAGGGATTTTGCCGATTTCGGCCTATTGGTTAAAAAATGAGCTGATTTAACAAAAATTTAACGCGAATTTTAACAAAATATTAACGCTTACAATTTGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCCCAAGCTACCATGATAAGTAAGTAATATTAAGGTACGGGAGGTACTTGGAGCGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTGAATCGATAGTACTAACATACGCTCTCCATCAAAACAAAACGAAACAAAACAAACTAGCAAAATAGGCTGTCCCCAGTGCAAGTGCAGGTGCCAGAACATTTCTCTATCGATA

TALE13的DNA序列(SEQTDNO：320)：

GTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGTGCCCCCCTGAACCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATATTGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGCGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCAATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGCACAGGTGGTGGCCATCGCCAGCAATATTGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTCGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGACCAGGTGGTGGCCATCGCCAGCAATGGCGGTGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCCACGATGGCGGCAAGCAGGCGCTGGAGACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGCCCATGGCCTGACCCCGGAGCAGGTGGTGGCCATCGCCAGCAATGGCGGCGGCAGGCCGGCGCTGGAGAGCATTGTTGCCCAGTTATCTCGCCCTGATCCGGCGTTGGCCGCGTTGACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGCAGGCACGGGTTGTTACAGCTCTTTCGCAGAGTGGGCGTCACCGAACTCGAAGCCCGCAGTGGAACGCTCCCCCCAGCCTCGCAGCGTTGGGACCGTATCCTCCAGGCATCAGGGATGAAAAGGGCCAAACCGTCCCCTACTTCAACTCAAACGCCGGACCAGGCGTCTTTGCATGCATTCGCCGATTCGCTGGAGCGTGACCTTGATGCGCCCAGCCCAACGCACGAGGGAGATCAGAGGCGGGCAAGCAGCCGTAAACGGTCCCGATCGGATCGTGCTGTCACCGGTCCCTCCGCACAGCAATCGTTCGAGGTGCGCGCTCCCGAACAGCGCGATGCGCTGCATTTGCCCCTCAGTTGGAGGGTAAAACGCCCGCGTACCAGTATCGGGGGCGGCCTCCCGGATCCTGGTACGCCCACGGCTGCCGACCTGGCAGCGTCCAGCACCGTGATGCGGGAACAAGATGAGGACCCCTTCGCAGGGGCAGCGGATGATTTCCCGGCATTCAACGAAGAGGAGCTCGCATGGTTGATGGAGCTATTGCCTCAG

TALEVEGF-1和CCR5-1的蛋白和基因序列

>VEGF-1(SEQIDNO：321)

VDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPQQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMS

>VEGF-1(SEQIDNO：322)

GTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTGACGCCTCAACAGGTCGTCGCGATAGCGTCTAATAATGGAGGAAAGCAAGCTCTGGAAACCGTCCAGCGACTCCTTCCGGTTCTGTGCCAGGCTCATGGTCTGACTCCGCAGCAAGTCGTTGCTATAGCGTCCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGCGGCAAACAAGCCCTTGAGACTGTGCAGAGGCTCTTGCCGGTACTCTGCCAAGCACACGGCTTGACCCCCGAGCAGGTTGTAGCCATAGCTAGTCACGACGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACGGAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCACATGATGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACGGTGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGC

>CCR5-1(SEQIDNO：323)

VDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASNKGGKQALETVQALLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNNGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMS

>CCR5-1(SEQIDNO：324)

GTGGATCTACGCACGCTCGGCTACAGCCAGCAGCAACAGGAGAAGATCAAACCGAAGGTTCGTTCGACAGTGGCGCAGCACCACGAGGCACTGGTCGGCCATGGGTTTACACACGCGCACATCGTTGCGCTCAGCCAACACCCGGCAGCGTTAGGGACCGTCGCTGTCAAGTATCAGGACATGATCGCAGCGTTGCCAGAGGCGACACACGAAGCGATCGTTGGCGTCGGCAAACAGTGGTCCGGCGCACGCGCCCTGGAGGCCTTGCTCACGGTGGCGGGAGAGTTGAGAGGTCCACCGTTACAGTTGGACACAGGCCAACTTCTCAAGATTGCAAAACGTGGCGGCGTGACCGCAGTGGAGGCAGTGCATGCATGGCGCAATGCACTGACGGGGGCCCCCCTGAACCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTAATAAAGGGGGTAAGCAAGCGTTGGAAACGGTGCAAGCACTTCTCCCCGTTCTCTGTCAAGCGCATGGACTTACCCCGGAACAGGTGGTCGCCATTGCAAGCCATGATGGAGGAAAGCAGGCGCTCGAAACAGTCCAGGCACTTTTGCCCGTACTTTGTCAAGCTCACGGTCTCACCCCGGAACAGGTGGTAGCCATTGCATCTAACGGAGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCAACGGCGGAGGTAAGCAAGCATTGGAAACGGTTCAGGCCCTGTTGCCTGTACTTTGCCAGGCGCACGGTCTGACACCTGAGCAGGTTGTCGCCATCGCTAGCAACGGAGGTGGGAAACAGGCACTTGAAACTGTGCAGAGGCTTCTGCCGGTGCTGTGCCAAGCGCATGGCCTTACACCCGAGCAAGTAGTGGCTATTGCGAGTCATGATGGAGGCAAGCAAGCGCTGGAGACTGTCCAACGACTTCTTCCGGTCTTGTGTCAGGCACATGGATTGACCCCTCAACAAGTCGTGGCGATAGCTAGCAACATCGGAGGCAAACAGGCCCTGGAGACCGTGCAGCGGTTGTTGCCTGTGCTTTGCCAAGCCCACGGGCTTACGCCTGAGCAAGTGGTGGCGATTGCCAGTAACAACGGGGGCAAACAAGCCTTGGAGACAGTGCAAAGGCTCCTGCCAGTGCTCTGCCAGGCTCATGGTTTGACACCCGAACAGGTAGTTGCAATAGCGAGTCATGATGGCGGAAAGCAAGCTCTTGAAACTGTGCAGCGGCTGTTGCCTGTACTGTGTCAAGCCCACGGGCTGACACCGGAACAAGTTGTAGCGATCGCTAGCCACGATGGCGGGAAACAAGCTCTGGAAACGGTACAGAGACTCCTCCCAGTGCTTTGTCAGGCACACGGCCTCACGCCAGAGCAGGTTGTCGCCATCGCGTCAAACGGTGGAGGGAAACAAGCGCTCGAAACCGTGCAAAGGTTGCTCCCCGTTCTCTGTCAGGCGCACGGTCTTACGCCACAACAGGTGGTGGCGATTGCATCTAATGGAGGCGGACGCCCTGCCTTGGAGAGCATTGTGGCCCAGCTGTCCAGGCCGGACCCTGCCCTGGCCGCGTTAACCAACGACCACCTCGTCGCCTTGGCCTGCCTCGGCGGACGTCCTGCGCTGGATGCAGTGAAAAAGGGATTGCCGCACGCGCCGGCCTTGATCAAAAGAACCAATCGCCGTATTCCCGAACGCACATCCCATCGCGTTGCCGACCACGCGCAAGTGGTTCGCGTGCTGGGTTTTTTCCAGTGCCACTCCCACCCAGCGCAAGCATTTGATGACGCCATGACGCAGTTCGGGATGAGC

AAVS1-特异性TALEN的基因序列

101077ORF(划下划线的TALE区)(SEQIDNO：325)：

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFT HAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKR GGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALET VQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLC QDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQ VVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDG GKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQ RLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQD HGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVV AIANNNGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGR PALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

101079ORF(划下划线的TALE区)(SEQIDNO：326)：

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFT HAHIVALSQHPAALGTVAVKVQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKR GGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALET VQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLC QDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPDQ VVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNI GGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETV QRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQ DHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQV VAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGG RPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

ben-1特异性TALENORF的序列

101318(SEQIDNO：327)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPDQVVAIANNNGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNFWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

101321(SEQIDNO：328)

MDYKDHDGDYKDHDIDYKDDDDKMAPKKKRKVGIHRGVPMVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPAQVVAIANNNGGKQALETVQRLLPVLCQDHGLTPDQVVAIASHDGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPDQVVAIASNIGGKQALETVQRLLPVLCQAHGLTPAQVVAIASNIGGKQALETVQRLLPVLCQDHGLTPEQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVAGSQLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINFRS

pZMt-101380(SEQIDNO：444)

ctttcctgcgttatcccctgattctgtggataaccgtattaccgcctttgagtgagctgataccgctcgccgcagccgaacgaccgagcgcagcgagtcagtgagcgaggaagcggaagagcgcccaatacgcaaaccgcctctccccgcgcgttggccgattcattaatgcagctggcacgacaggtttcccgactggaaagcgggcagtgagcgcaacgcaattaatacgcgtaccgctagccaggaagagtttgtagaaacgcaaaaaggccatccgtcaggatggccttctgcttagtttgatgcctggcagtttatggcgggcgtcctgcccgccaccctccgggccgttgcttcacaacgttcaaatccgctcccggcggatttgtcctactcaggagagcgttcaccgacaaacaacagataaaacgaaaggcccagtcttccgactgagcctttcgttttatttgatgcctggcagttccctactctcgcgttaacgctagcatggatgttttcccagtcacgacgttgtaaaacgacggccagtcttaagctcgggccccaaataatgattttattttgactgatagtgacctgttcgttgcaacaaattgatgagcaatgcttttttataatgccaactttgtacaaaaaagcaggctccgaattcgcccttttaattaatgcagtgcagcgtgacccggtcgtgcccctctctagagataatgagcattgcatgtctaagttataaaaaattaccacatattttttttgtcacacttgtttgaagtgcagtttatctatctttatacatatatttaaactttactctacgaataatataatctatagtactacaataatatcagtgttttagagaatcatataaatgaacagttagacatggtctaaaggacaattgagtattttgacaacaggactctacagttttatctttttagtgtgcatgtgttctcctttttttttgcaaatagcttcacctatataatacttcatccattttattagtacatccatttagggtttagggttaatggtttttatagactaatttttttagtacatctattttattctattttagcctctaaattaagaaaactaaaactctattttagtttttttatttaataatttagatataaaatagaataaaataaagtgactaaaaattaaacaaataccctttaagaaattaaaaaaactaaggaaacatttttcttgtttcgagtagataatgccagcctgttaaacgccgtcgacgagtctaacggacaccaaccagcgaaccagcagcgtcgcgtcgggccaagcgaagcagacggcacggcatctctgtcgctgcctctggacccctctcgagagttccgctccaccgttggacttgctccgctgtcggcatccagaaattgcgtggcggagcggcagacgtgagccggcacggcaggcggcctcctcctcctctcacggcaccggcagctacgggggattcctttcccaccgctccttcgctttcccttcctcgcccgccgtaataaatagacaccccctccacaccctctttccccaacctcgtgttgttcggagcgcacacacacacaaccagatctcccccaaatccacccgtcggcacctccgcttcaaggtacgccgctcgtcctccccccccccccctctctaccttctctagatcggcgttccggtccatggttagggcccggtagttctacttctgttcatgtttgtgttagatccgtgtttgtgttagatccgtgctgctagcgttcgtacacggatgcgacctgtacgtcagacacgttctgattgctaacttgccagtgtttctctttggggaatcctgggatggctctagccgttccgcagacgggatcgatttcatgattttttttgtttcgttgcatagggtttggtttgcccttttcctttatttcaatatatgccgtgcacttgtttgtcgggtcatcttttcatgcttttttttgtcttggttgtgatgatgtggtctggttgggcggtcgttctagatcggagtagaattctgtttcaaactacctggtggatttattaattttggatctgtatgtgtgtgccatacatattcatagttacgaattgaagatgatggatggaaatatcgatctaggataggtatacatgttgatgcgggttttactgatgcatatacagagatgctttttgttcgcttggttgtgatgatgtggtgtggttgggcggtcgttcattcgttctagatcggagtagaatactgtttcaaactacctggtgtatttattaattttggaactgtatgtgtgtgtcatacatcttcatagttacgagtttaagatggatggaaatatcgatctaggataggtatacatgttgatgtgggttttactgatgcatatacatgatggcatatgcagcatctattcatatgctctaaccttgagtacctatctattataataaacaagtatgttttataattattttgatcttgatatacttggatgatggcatatgcagcagctatatgtggatttttttagccctgccttcatacgctatttatttgcttggtactgtttcttttgtcgatgctcaccctgttgtttggtgttacttctgcaggactagtccagtgtggtggaattcgccatggactacaaagaccatgacggtgattataaagatcatgacatcgattacaaggatgacgatgacaagatggcccccaagaagaagaggaaggtgggcattcacggggtacctatggtggacttgaggacactcggttattcgcaacagcaacaggagaaaatcaagcctaaggtcaggagcaccgtcgcgcaacaccacgaggcgcttgtggggcatggcttcactcatgcgcatattgtcgcgctttcacagcaccctgcggcgcttgggacggtggctgtcaaataccaagatatgattgcggccctgcccgaagccacgcacgaggcaattgtaggggtcggtaaacagtggtcgggagcgcgagcacttgaggcgctgctgactgtggcgggtgagcttagggggcctccgctccagctcgacaccgggcagctgctgaagatcgcgaagagagggggagtaacagcggtagaggcagtgcacgcctggcgcaatgcgctcaccggggcccccttgaacctgaccccagaccaggtagtcgcaatcgcgtcgcatgacgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacggccttacaccggagcaagtcgtggccattgcatcacatgacggtggcaaacaggctcttgagacggttcagagacttctcccagttctctgtcaagcccacgggctgactcccgatcaagttgtagcgattgcgagcaatgggggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggtttgacgcctgcacaagtggtcgccatcgcctccaatattggcggtaagcaggcgctggaaacagtacagcgcctgctgcctgtactgtgccaggatcatggactcaccccagaccaggtagtcgcaatcgcgtcgcatgacgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacggccttacaccggatcaagtcgtggccattgcaaataataacggtggcaaacaggctcttgagacggttcagagacttctcccagttctctgtcaagcccacgggctgactcccgatcaagttgtagcgattgcgagcaacatcggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggtttgacgcctgcacaagtggtcgccatcgcctcccacgacggcggtaagcaggcgctggaaacagtacagcgcctgctgcctgtactgtgccaggatcatgggctgaccccagaccaggtagtcgcaatcgccaacaataacgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacggccttacaccggagcaagtcgtggccattgcatcaaatatcggtggcaaacaggctcttgagacggttcagagacttctcccagttctctgtcaagcccacgggctgactcccgatcaagttgtagcgattgcgaataacaatggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggtttgacgcctgcacaagtggtcgccatcgccaacaacaacggcggtaagcaggcgctggaaacagtacagcgcctgctgcctgtactgtgccaggatcatggtttgaccccagaccaggtagtcgcaatcgcgtcgaacattgggggaaagcaagccctggaaaccgtgcaaaggttgttgccggtcctttgtcaagaccacggccttacaccggatcaagtcgtggccattgcaaataataacggtggcaaacaggctcttgagacggttcagagacttctcccagttctctgtcaagcccacgggctgactcccgatcaagttgtagcgattgcgaataacaatggagggaaacaagcattggagactgtccaacggctccttcccgtgttgtgtcaagcccacggtttgacgcctgcacaagtggtcgccatcgcctccaatattggcggtaagcaggcgctggaaacagtacagcgcctgctgcctgtactgtgccaggatcatggcctgacacccgaacaggtggtcgccattgctagcaacgggggaggacggccagccttggagtccatcgtagcccaattgtccaggcccgatcccgcgttggctgcgttaacgaatgaccatctggtggcgttggcatgtcttggtggacgacccgcgctcgatgcagtcaaaaagggtctgcctcatgctcccgcattgatcaaaagaaccaaccggcggattcccgagagaacttcccatcgagtcgcgggatcccagctggttaaatcagaactcgaagaaaaaaagagcgagctgcggcataaactcaaatatgtccctcatgagtacatagaactgattgaaatcgcccgcaattccacccaggatcggattcttgaaatgaaagtgatggaattttttatgaaagtttacggctatcgcgggaagcaccttggggggtcgcggaagccggacggtgctatttacactgtcggttccccgatcgattatggcgtaattgttgacacgaaagcatattcgggtgggtataatcttcctattggtcaggctgatgagatgcagcggtacgttgaagagaatcagacgcggaacaagcatattaacccaaatgagtggtggaaggtgtatccatcatcggtcaccgaatttaagttcttgtttgtgtcgggccactttaaggggaactacaaggcccaacttaccaggttgaatcacataaccaactgtaacggagctgttctgtcagtagaagagctgttgataggcggggaaatgattaaagcaggtacattaacgttggaggaagtacgccgcaagtttaataacggcgagattaactttagatctgagacctgataaacaaacacacggtctcctcgagctcgcagatcgttcaacatctggcaataaagtttcttaagattgaatcctgttgccggtcttgcgatgattatcatataatttctgttgaattacgttaagcatgtaataattaacatgtaatgcatgacgttatttatgagatgggtttttatgattagagtcccgcaattatacatttaatacgcgatagaaaacaaaatatagcgcgcaaactaggataaattatcgcgcgcggtgtcatctatgttactagatccgataagcttaagggcgaattcgacccagctttcttgtacaaagttggcattataaaaaataattgctcatcaatttgttgcaacgaacaggtcactatcagtcaaaataaaatcattatttgccatccagctgatatcccctatagtgagtcgtattacatggtcatagctgtttcctggcagctctggcccgtgtctcaaaatctctgatgttacattgcacaagataaaaatatatcatcatgcctcctctagaccagccaggacagaaatgcctcgacttcgctgctgcccaaggttgccgggtgacgcacaccgtggaaacggatgaaggcacgaacccagtggacataagcctgttcggttcgtaagctgtaatgcaagtagcgtatgcgctcacgcaactggtccagaaccttgaccgaacgcagcggtggtaacggcgcagtggcggttttcatggcttgttatgactgtttttttggggtacagtctatgcctcgggcatccaagcagcaagcgcgttacgccgtgggtcgatgtttgatgttatggagcagcaacgatgttacgcagcagggcagtcgccctaaaacaaagttaaacatcatgagggaagcggtgatcgccgaagtatcgactcaactatcagaggtagttggcgtcatcgagcgccatctcgaaccgacgttgctggccgtacatttgtacggctccgcagtggatggcggcctgaagccacacagtgatattgatttgctggttacggtgaccgtaaggcttgatgaaacaacgcggcgagctttgatcaacgaccttttggaaacttcggcttcccctggagagagcgagattctccgcgctgtagaagtcaccattgttgtgcacgacgacatcattccgtggcgttatccagctaagcgcgaactgcaatttggagaatggcagcgcaatgacattcttgcaggtatcttcgagccagccacgatcgacattgatctggctatcttgctgacaaaagcaagagaacatagcgttgccttggtaggtccagcggcggaggaactctttgatccggttcctgaacaggatctatttgaggcgctaaatgaaaccttaacgctatggaactcgccgcccgactgggctggcgatgagcgaaatgtagtgcttacgttgtcccgcatttggtacagcgcagtaaccggcaaaatcgcgccgaaggatgtcgctgccgactgggcaatggagcgcctgccggcccagtatcagcccgtcatacttgaagctagacaggcttatcttggacaagaagaagatcgcttggcctcgcgcgcagatcagttggaagaatttgtccactacgtgaaaggcgagatcaccaaggtagtcggcaaataaccctcgagccacccatgaccaaaatcccttaacgtgagttacgcgtcgttccactgagcgtcagaccccgtagaaaagatcaaaggatcttcttgagatcctttttttctgcgcgtaatctgctgcttgcaaacaaaaaaaccaccgctaccagcggtggtttgtttgccggatcaagagctaccaactctttttccgaaggtaactggcttcagcagagcgcagataccaaatactgtccttctagtgtagccgtagttaggccaccacttcaagaactctgtagcaccgcctacatacctcgctctgctaatcctgttaccagtggctgctgccagtggcgataagtcgtgtcttaccgggttggactcaagacgatagttaccggataaggcgcagcggtcgggctgaacggggggttcgtgcacacagcccagcttggagcgaacgacctacaccgaactgagatacctacagcgtgagcattgagaaagcgccacgcttcccgaagggagaaaggcggacaggtatccggtaagcggcagggtcggaacaggagagcgcacgagggagcttccagggggaaacgcctggtatctttatagtcctgtcgggtttcgccacctctgacttgagcgtcgatttttgtgatgctcgtcaggggggcggagcctatggaaaaacgccagcaacgcggcctttttacggttcctggccttttgctggccttttgctcacatgtt

Claims

1.一种分离的、非天然存在的DNA-结合多肽，包含：

至少一个TALE-重复单元，其中至少一个TALE-重复单元包含重复可变二残基(RVD)，所述RVD选自HD、NI、NG、NS、NN、IG、HG、NK、DI、EI、AI、CI、HI、KI、RI、YD、ED、RD、AD、KD、ND、HN、DK、AN、DH、AK、SN、IP、LA、YG、SG、VG和IA；

旁侧连接TALE重复结构域的N-末端部分的N帽多肽；以及

旁侧连接TALE重复结构域的C-末端部分的C帽多肽，其中所述C帽多肽包含TALE蛋白的片段。

2.根据权利要求1中所述的多肽，其中所述C帽多肽的长度小于230个氨基酸。

3.根据权利要求1所述的多肽，其中所述C帽包含TALE重复结构域。

4.一种融合蛋白，其包含根据权利要求1所述的多肽以及至少一个功能结构域，所述功能结构域选自转录激活因子、转录抑制因子、或核酸酶。

5.根据权利要求4所述的融合蛋白，其中所述功能结构域是转录激活因子、或转录抑制因子。

6.根据权利要求4所述的融合蛋白，其中所述功能结构域是核酸酶。

7.根据权利要求6所述的融合蛋白，其中所述核酸酶包含至少一个来自IIS型核酸内切酶的切割结构域或切割半结构域。

8.一种多核苷酸，其编码根据权利要求1所述的多肽或者根据权利要求4至7中任一项所述的融合蛋白。

9.一种宿主细胞，其包含根据权利要求1所述的多肽、根据权利要求4至7中任一项所述的融合蛋白或者根据权利要求8所述的多核苷酸。

10.一种药物组合物，其包含根据权利要求1所述的多肽、根据权利要求4至7中任一项所述的融合蛋白或者根据权利要求8所述的多核苷酸。

11.一种非治疗性的调节内源性基因在细胞中表达的方法，所述方法包括：

将根据权利要求4至7中任一项所述的融合蛋白或者编码所述融合蛋白的多核苷酸引入细胞，其中所述融合蛋白包含TALE-重复结构域，所述TALE-重复结构域结合到所述内源性基因中的靶位点，以及其中所述内源性基因表达被调节。

12.根据权利要求11所述的方法，其中所述调节包括基因激活。

13.根据权利要求11所述的方法，其中所述调节包括基因抑制或失活。

14.根据权利要求13所述的方法，其中所述融合蛋白包含切割结构域或切割半结构域，以及所述内源性基因通过切割而失活。

15.根据权利要求14所述的方法，其中所述失活通过非同源性末端接合(NHEJ)而发生。

16.一种非治疗性的在细胞的基因组中修饰目标区的方法，所述方法包括：

将根据权利要求6或7所述的至少一个融合蛋白、或者编码所述融合蛋白的多核苷酸引入所述细胞，其中所述融合蛋白包含TALE-重复结构域，所述TALE-重复结构域结合在所述细胞的所述基因组中的靶位点，并且所述融合蛋白在所述目标区切割所述基因组。

17.根据权利要求16所述的方法，其中所述修饰包括在所述目标区引入缺失。

18.根据权利要求16所述的方法，其中所述修饰包括将外源性核酸引入所述目标区内，所述方法进一步包括将所述外源性核酸引入所述细胞内，其中通过同源重组或NHEJ介导的末端捕获来将所述外源性核酸整合至所述目标区内。

19.根据权利要求11至18中任一项所述的方法，其中所述细胞是选自植物细胞、动物细胞、和酵母细胞的真核细胞。

20.如权利要求19所述的方法，其中动物细胞是鱼细胞。