CN1416467B

CN1416467B - 锌指结构域及其鉴定方法

Info

Publication number: CN1416467B
Application number: CN018062520A
Authority: CN
Inventors: 金晋秀; 权宁道; 金炫元; 柳银铉; 黄文宣
Original assignee: Toolgen Inc
Current assignee: Toolgen Inc
Priority date: 2000-02-18
Filing date: 2001-02-17
Publication date: 2012-07-04
Anticipated expiration: 2021-02-17
Also published as: NZ521293A; WO2001060970A2; US20020061512A1; EP1259597A4; JP4156840B2; WO2001060970A3; ATE359365T1; AU3771901A; JP2003523195A; DE60127819T2; CA2400772C; EP1259597B1; CA2400772A1; US20070087371A1; DE60127819D1; JP4584840B2; AU781103B2; CN1416467A; JP2006149395A; IL151149A0

Abstract

本发明公开了鉴定识别任何给定靶位点的锌指结构域的体内筛选方法。也公开了识别特定位点的锌指结构域的氨基酸序列。

Description

锌指结构域及其鉴定方法

技术领域

本发明涉及DNA-结合蛋白例如转录因子。

发明背景

大多数基因在转录水平上受与基因中一般是启动子或者增强子区中特异性DNA位点结合的多肽转录因子的调节。这些蛋白质激活或抑制RNA聚合酶在启动子处对转录的起始，从而调节靶基因的表达。很多转录因子，激活剂和抑制剂，结构是模块化的。这样的组件能够折叠为结构上独特的结构域并且具有特异功能，例如DNA结合，二聚化作用，或者与转录机构相互作用。效应子结构域例如激活结构域或抑制结构域当转移到异源转录因子的DNA-结合结构域时保持它们的功能(Brent和Ptashne，(1985)Cell 43：729-36；Dawson等，(1995)Mol.Cell Biol.15：6923-31)。很多三维DNA-结合结构，包括锌指结构域，同源域，和螺旋-转角-螺旋结构域，已经根据NMR和X-射线晶体学数据确定出来。

发明概述

本发明提供快捷并且可定量地对嵌合转录因子鉴定和构建的以细胞为基础的方法。这样的转录因子可以用来例如改变生物药物和生物工程应用中内源基因的表达。在体内，即在完整活细胞中测试转录因子。通过例如在基因组序列筛选中应用该方法能够找到的新的核酸结合结构域也在本发明范围内。

本发明特征在于鉴定识别DNA上靶点的肽结构域的方法。该方法有时在这里称″结构域筛选方法″或者″体内筛选方法″。该方法包括提供(1)包含报道基因构建体的细胞和(2)多个杂合核酸。所述报道基因构建体具有与具有募集位点(recruitment site)和靶位点的启动子可操作连接的报道基因。当转录因子识别(即以高于背景的程度结合)启动子的募集位点和靶位点时，报道基因表达高于给定水平，但是当转录因子只识别启动子的募集位点时则不如此。每一个杂合核酸编码具有下面元件的非天然存在的蛋白质：(i)转录激活结构域，(ii)识别募集位点的DNA结合结构域，和(iii)试验锌指结构域。试验锌指结构域的氨基酸序列随着该多个杂合核酸中的不同成员而不同。该方法还包括：在使至少一个核酸进入至少一个细胞的条件下使该多个核酸接触细胞；在使得杂合核酸在细胞中表达的条件下维持细胞；鉴定高于给定水平表达报道基因的细胞，这是细胞包含编码识别靶位点的试验锌指结构域的杂合核酸的指征。

所述DNA结合结构域，即识别募集位点并且不随着多个核酸各成员而不同的结构域，可以包括，例如，一个，两个，三个，或者多个锌指结构域。该方法中使用的细胞可以是原核细胞或者真核细胞。举例的真核细胞是酵母细胞，例如啤酒酵母(Saccharomyces cerevisiae)，粟酒裂殖酵母(Schizosaccharomyces pombe)，或者，巴斯德毕赤氏酵母(Pichia pasteuris)；昆虫细胞例如Sf9细胞；和哺乳动物细胞例如成纤维细胞或淋巴细胞。

″给定水平″是当转录因子识别募集位点但是不识别靶位点时观察到的表达量。″给定水平″在某些情况下可以是零(至少在应用的测试检测范围内)。

所述方法可以包括从核酸例如基因组DNA，mRNA混合物，或者cDNA扩增编码试验锌指结构域的源核酸产生扩增的片段的附加步骤。使用寡核苷酸引物可以扩增源核酸。所述寡核苷酸引物可以是与编码保守结构域边界的核酸退火的一组简并寡核苷酸(例如，具有不同核酸序列的特异性寡核苷酸的集合，或者具有非天然碱基例如肌苷的特异性寡核苷酸的集合)之一。或者，所述引物可以是特异性寡核苷酸。使用扩增的片段产生杂合核酸用于包含在上述方法中使用的多个杂合核酸中。

所述方法可以进一步包括步骤(i)在序列数据库中鉴定侯选锌指结构域氨基酸序列；(ii)提供编码候选锌指结构域氨基酸序列的侯选核酸；和(iii)使用侯选核酸构建杂合核酸用于包含在上述方法中使用的多个杂合核酸中。所述数据库包括多个氨基酸序列的记录，例如，已知的和/或预测的蛋白质，以及多个核酸序列，例如cDNAs，ESTs，基因组DNA，或者计算机处理去除预测的内含子的基因组DNA。

如果期望，可以重复该方法来鉴定识别第二靶位点的第二试验锌指结构域，所述第二靶位点例如是除了第一试验锌指结构域识别的位点之外的位点。接着可以构建编码第一和第二鉴定的试验锌指结构域的核酸。编码的杂合蛋白特异性识别包括第一试验锌指结构域的靶位点和第二试验锌指结构域的靶位点的靶位点。

本发明特征还在于确定试验锌指结构域是否识别启动子上的靶位点的方法。该方法在这里有时指″位点筛选方法″。该方法包括提供报道基因构建体和杂合核酸的步骤。报道基因可操作连接包括募集位点和靶位点的启动子，并且当转录因子识别启动子的募集位点和靶位点时高于给定水平表达，但是转录因子只识别启动子的募集位点时则不如此。所述杂合核酸编码具有下面元件的非天然存在的蛋白质：(i)转录激活结构域，(ii)识别募集位点的DNA结合结构域，和(iii)试验锌指结构域。该方法还包括：在使得报道基因构建体进入细胞的条件下使报道基因构建体接触细胞；在上述步骤之前，之后，或者同时，在使杂合核酸进入细胞的条件下使杂合核酸与细胞接触；在使杂合核酸在细胞中表达的条件下保持细胞；并且检测细胞中报道基因的表达。报道基因表达水平大于给定水平是试验锌指结构域识别靶位点的指征。

在不同质粒中可以包含报道基因构建体和杂合核酸。这两个质粒同时或相继插入细胞。一个质粒或两个质粒可以含有合适的可选择标记物。报道基因构建体和杂合核酸也可以包含在相同质粒上，在这种情况下只需要一个步骤将两个核酸导入细胞。在另一个实施方案中，这一个或两个核酸被稳定插入细胞的基因组。对于这种方法，和对于这里描述的任何体内方法一样，可以用转录抑制结构域置换转录激活结构域，并且鉴定其中报道基因表达水平低于给定水平的细胞。

本发明的另一个方法有利于通过融合两个细胞快速确定试验锌指结构域的结合偏好(binding preference)。该方法包括：提供含有报道基因的第一细胞；提供含有杂合核酸的第二细胞；融合第一和第二细胞形成融合细胞；在使杂合核酸在融合细胞中表达的条件下保持融合细胞；并且检测融合细胞中报道基因表达，其中报道基因表达水平大于给定水平是试验锌指结构域识别靶位点的指征。例如，所述第一和第二细胞可以是组织培养细胞或真菌细胞。举例的实施方法使用啤酒酵母(S.cerevisiae)细胞。所述第一细胞具有第一接合类型，例如MATa；所述第二细胞具有与第一细胞不同的第二接合类型，例如MATα。这两个细胞彼此接触，酵母接合产生具有含有第一细胞和第二细胞基因组的细胞核的单细胞(例如MATa/α)。该方法可以包括提供多个第一细胞，都具有相同的第一接合类型，其中各个第一细胞包含具有不同的靶位点的报道基因构建体。也提供多个第二细胞，都具有相同的第二接合类型，并且各自具有不同的试验锌指结构域。多个成对接合产生矩阵，例如所有可能的成对接合。利用该方法来测定多个试验锌指结构域对多个结合位点例如一全套可能的靶位点的结合偏好。

本发明也提供了测定试验锌指结构域结合偏好的方法。所述方法包括提供(1)细胞，基本上所有的细胞都包含杂合核酸，和(2)多个报道基因构建体。这多个报道基因构建体的每一个具有与具有募集位点和靶位点的启动子可操作连接的报道基因。当转录因子识别启动子的募集位点和靶位点两者时报道基因表达高于给定水平，但是当转录因子只识别启动子的募集位点时则不这样。多个报道基因构建体的各成员之间第二个靶位点不同。杂合核酸编码具有下面元件的杂合蛋白质：(i)转录激活结构域，(ii)识别募集位点的DNA结合结构域，和(iii)试验锌指结构域。所述方法进一步包括：在使得多个报道基因构建体的至少一种进入至少一个细胞的条件下使多个报道基因构建体接触细胞；在使核酸在细胞中表达的条件下保持细胞；鉴定细胞中包含报道基因构建体并且表达报道基因构建体高于给定水平的细胞，表达报道基因构建体高于给定水平是细胞中报道基因构建体具有锌指结构域识别的靶位点的指征。

如果试验锌指结构域具有与一个以上靶位点的结合偏好，则各自具有不同的靶位点的多个细胞可以用上述方法鉴定。所述方法可以进一步包括鉴定表现出最高水平报道基因表达的细胞。或者，测定报道基因表达的阈值，例如报道基因表达提高2，4，8，20，50，100，1000倍或者更大，选择表现出报道基因表达高于阈值的所有的细胞。

靶结合位点例如可以是2至6个核苷酸长。多个报道基因构建体可以在靶结合位点2个，3个，或者4个或者更多个位置处包括A，T，G，和C核苷酸的每一种可能的组合。

另一方面，本发明特征在于鉴定多个锌指结构域的方法。所述方法包括：实施结构域筛选方法来鉴定第一锌指结构域，并且再次实施结构域筛选方法来鉴定识别不同于第一试验锌指结构域的靶位点的靶位点的第二锌指结构域。特征还在于产生编码嵌合锌指蛋白的核酸的方法，该方法包括实施两次结构域筛选方法来鉴定第一和第二试验锌指结构域，并且构建编码包括第一和第二试验锌指结构域的多肽的核酸。所述核酸可以编码包括特异性识别包括两个亚位点的位点的两个结构域的杂合蛋白。所述亚位点是第一试验锌指结构域的靶位点和第二试验锌指结构域的靶位点。

在另一方面，本发明特征在于鉴定锌指结构域识别的DNA序列的方法。所述方法包括：实施位点筛选方法来鉴定第一试验锌指结构域的第一结合偏好，并且再实施位点筛选方法来鉴定第二试验锌指结构域的第二结合偏好。可以构建编码第一和第二鉴定的试验锌指结构域两者的核酸。所述核酸能编码包括特异性识别包括第一试验锌指结构域的靶位点和第二试验锌指结构域的靶位点的位点的两个结构域的杂合蛋白。

本发明特征还在于鉴定识别DNA上靶位点的肽结构域的方法。所述方法包括提供(1)含有报道基因构建体的细胞和(2)多个杂合核酸。所述报道基因构建体具有与具有募集位点和靶位点两者的启动子可操作连接的报道基因。当转录因子识别(即结合程度高于背景)启动子的募集位点和靶位点两者时报道基因表达低于给定水平，但是当转录因子只识别启动子的募集位点时则不这样。每一个杂合核酸编码具有下面元件的非天然存在的蛋白质：(i)转录抑制结构域，(ii)识别募集位点的DNA结合结构域，和(iii)试验锌指结构域。试验锌指结构域的氨基酸序列随着该多个杂合核酸的成员而不同。该方法进一步包括：在允许该多个核酸至少一个进入至少一个细胞的条件下使该多个核酸接触细胞；在使得杂合核酸在细胞中表达的条件下保持细胞；鉴定报道基因表达低于给定水平的细胞，这是含有编码识别靶位点的试验锌指结构域的杂合核酸的细胞的指征。该方法的另外的实施方案和使用转录激活结构域的相似方法一样。同样，这里描述的任何其它筛选方法可以使用转录抑制结构域代替转录激活结构域进行。

另一方面，本发明特征在于一些纯化的多肽和分离的核酸。本发明的纯化的多肽包括具有下面氨基酸序列的多肽：

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Cys-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQ IDNO：68)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-His-X-Ser-Asn-X_b-X-Lys-His-X_3-5-His(SEQ IDNO：69)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Ser-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQ IDNO：70)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Thr-X_b-X-Val-His-X_3-5-His(SEQ IDNO：71)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Val-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His(SEQ IDNO：72)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Arg-His-X_3-5-His(SEQ IDNO：73)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Val-His-X_3-5-His(SEQ IDNO：74)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His(SEQ IDNO：75)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ala-His-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：150)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Phe-Asn-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：151)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Thr-His-X_3-5-His(SEQ ID NO：152)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Val-His-X_3-5-His(SEQ ID NO：153)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Ile-His-X_3-5-His(SEQ ID NO：154)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：155)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Gln-His-X_3-5-His(SEQ ID NO：156)，

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：157)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Ile-His-X_3-5-His(SEQ ID NO：158)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：159)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Gly-Asn-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：161)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Glu-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：162)，

X_a-X-Cys--Cys-X₃-X_a-X-Arg-X-Asp-His-X_b-X--His-X_3-5-His(SEQ ID NO：163)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-His-X_b-X-Thr-His-X_3-5-His(SEQ ID NO：164)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：165)，

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Ser-His-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：166)，或

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Thr-Asn-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：167)，

其中X_a上苯丙氨酸或酪氨酸，X_b是疏水性残基，和X_c是丝氨酸或苏氨酸。本发明的核酸包括编码上述多肽的核酸。

另外，本发明纯化的多肽可以具有与SEQ ID NOs：23，25，27，29，31，33，35，37，39，41，43，45，47，49，51，53，55，57，59，6l，63，65，67，103，105，107，111，113，115，117，119，121，123，125，127，129，131，133，135，137，141，143，145，147，149，或15150％，60％，70％，80％，90％，93％，95％，96％，98％，99％，或100％相同的氨基酸序列。所述多肽可以与SEQ ID NOs：23，25，27，29，31，33，35，37，39，41，43，45，47，49，51，53，55，57，59，61，63，65，67，103，105，107，111，113，115，117，119，121，123，125，127，129，131，133，135，137，141，143，145，147，149，或151在相应于多肽的核酸接触残基的氨基酸位置相同。或者，所述多肽在相应于多肽的核酸接触残基的至少一个残基处不同于SEQ ID NOs：23，25，27，29，31，33，35，37，39，41，43，45，47，49，51，53，55，57，59，61，63，65，67，103，105，107，111，113，115，117，119，121，123，125，127，129，131，133，135，137，141，143，145，147，149，或151。所述纯化的多肽也可以包括下面的一项或多项：异源DNA结合结构域，核定位信号，小分子结合结构域(例如，甾族化合物结合结构域)，表位标记或纯化手柄(handle)，催化结构域(例如，核酸修饰结构域，核酸切割结构域，或者DNA修复催化结构域)和/或转录功能结构域(例如，激活结构域，抑制结构域等等)。本发明还包括编码上述多肽的分离的核酸序列，在严谨条件下与单链探针杂交的分离的核酸，所述探针序列由SEQ ID NOs：22，24，26，28，30，32，34，36，38，40，42，44，46，48，50，52，54，56，58，60，62，64，66，102，104，106，110，112，114，116，118，120，122，124，126，128，130，132，134，136，140，142，144，146，148，或150或者它们的互补序列。本发明进一步包括在细胞中表达与异源核酸结合结构域融合的本发明多肽的方法。该方法包括将编码上述融合蛋白的核酸导入细胞。异源核酸序列例如可诱导启动子(例如甾族激素调节启动子，小分子调节的启动子，或者工程可诱导体系例如四环素Tet-On和Tet-Off体系)可以操作性地调节本发明的核酸。

术语″碱基接触位置″指结构上相应于SEQ ID NO：21的氨基酸精氨酸73，天冬氨酸75，谷氨酸76，和精氨酸79的锌指结构域的四个氨基酸位置。这些位置也称为位置-1、2、3和6。为了在查询序列中鉴定相应于碱基接触位置的位置，将查询序列对感兴趣的锌指结构域比对，使得查询序列的半胱氨酸和组氨酸残基与Zif268的指3的那些比对。欧洲生物信息所(European Bioinformatics Institute)的The ClustalW WWWService(http://www2.ebi.ac.uk/clustalw；Thompson等(1994)Nucleic Acids Res.22：4673-4680)提供了比对序列的方便的方法。

术语″异源″指在一环境中天然不存在的通过技术导入该环境中的多肽。与内源个体不同的是，异源多肽可以在至少一侧邻连在任何天然存在的多肽中不在其侧翼的多肽序列。术语″杂合″指包含从(i)至少两种不同的天然存在的序列；(ii)至少一种人工序列(即，天然不存在的序列)和天然存在的序列；或者(iii)至少两种不同的人工序列衍生的氨基酸序列的多肽。人工序列的例子包括天然存在的序列和从头设计的序列的突变体。

如这里使用的，术语″在严谨条件下杂交″指45℃下6X氯化钠/柠檬酸钠(SSC)中杂交，接着在65℃下0.2XSSC，0.1％SDS中洗涤两次的条件。

术语″结合偏好″指多肽相对于另一个选择一个核酸结合位点的有识别力的性质。例如，当多肽相对于核酸结合位点的量有限时，更大量的多肽将在这里描述的体内或体外测试中结合相对于其它位点来说偏好的位点。

如这里使用的，术语″识别″指多肽区别一个核酸结合位点和第二个竞争位点的能力，以致在例如这里描述的测试中所述多肽在过量第二位点存在下保持与第一位点结合。所述多肽对于要单独结合的第一位点可以没有足够的亲合力，但是当与结合附近募集位点的另一个核酸融合成本发明的杂合多肽时可以被检测出。

如这里使用的，″简并寡核苷酸″指能够与一个以上的序列例如带有非天然核苷酸例如肌苷的寡核苷酸退火的(a)不同寡核苷酸群体和(b)一种寡核苷酸。

本发明提供了很多好处。筛选识别特定序列的DNA结合结构域的能力使得可以设计结合DNA上特异性位点的新的多肽。因此，本发明有利于常规产生能够调节选定靶标的表达的新的多肽，例如，能够抑制病原体需要的基因，能够抑制癌症生长需要的基因，能够激活并且超表达表达不好的基因或者编码突变蛋白质的基因，等等。

锌指结构域的应用是特别有益的。首先，锌指基序识别非常不同的DNA序列。第二，天然存在的锌指蛋白的结构是模块化的。例如，锌指蛋白Zif268，也称为″Egr-1″，由三个锌指结构域串连排列组成。图1是由与DNA复合的三个指组成的锌指蛋白Zif268的x-射线结晶学结构(Pavletich和Pabo，(1991)Science 252：809-817)。每一个指独立地接触DNA识别位点的3-4碱基对。因此，各个指接触的亚位点可以被认为是独立的分子识别事件。相同多肽链中有多个锌指组件的共同操作作用可实现高亲合力结合。

体内筛选步骤的应用使人直接鉴定胞内介质中结合DNA上的特异性位点的那些多肽。与细胞中特别是真核细胞中的识别作用相关的因素可以大大不同于体外筛选方案中存在的因素。例如，在真核细胞核中，多肽一定会与无数其它核蛋白竞争特异性核酸结合位点。核小体或者其它染色质蛋白质可以占据，闭合，或者竞争结合位点。即使如果不结合，细胞中核酸的构象也易于弯曲，超卷曲，扭转，和解旋。相反地，多肽本身暴露于蛋白酶和伴侣蛋白，以及其它因素。此外，该多肽面对可能的结合位点的整个基因组，因此为了幸免于筛选过程一定会被赋予对于期望位点的高特异性。与体内筛选相反，体外筛选能够筛选最高亲合力结合剂而不是最高特异性结合剂。

利用报道基因来指示表达的多肽嵌合体的结合能力不仅是有效而简单的，而且还避免了发展复杂的相互作用密码的需要，所述密码解释蛋白质-核酸界面的能量学和大量外周因素，例如周围的残基和也影响结合界面的核苷酸。(Segal等(1999)Proc.Natl.Acad.Sci.USA 96：2758-2763)。

本发明利用人基因组或者任何其它基因组中存在的所有的锌指结构域。锌指结构域折叠结构占据的序列空间的不同取样可以具有天然筛选时代固有的另外的优点。此外，通过利用来自宿主物种结构域，通过这里描述的方法进行改造用于基因治疗应用的DNA结合蛋白具有被认为是宿主免疫应答的外来物质的减小的可能性。

附图和下面的说明书中给出本发明的一个或多个实施方案的详细描述。说明书，附图和权利要求书使得本发明的其它特征，目的，和优点清晰可见。

附图描述

图1是对由三个指结构域组成的并且结合DNA序列，5’-GCG TGG GCGT-3’的Zif268锌指蛋白的三维结构的说明。黑色圆圈代表锌离子的位置。

图2是Zif268的氨基酸残基与DNA碱基之间氢键相互作用的说明。沿着α-螺旋的位置-1，2，3，和6处的氨基酸残基与特异性位置处的碱基相互作用。粗体线代表理想氢键，而虚线代表可能的氢键。

图3是总结DNA碱基与沿着锌指结构域α-螺旋的位置-1，2，3，和6处的氨基酸残基之间的相互作用的识别密码表。

图4是氨基酸残基和它们相应的3碱基三联体位置的描述。粗体线代表观察到的主要相互作用，而虚线代表辅助相互作用。

图5是说明这里公开的体内筛选系统的原理图。各种锌指突变体中，锌指结构域A识别靶序列(指定为XXX X)并且激活HIS3报道基因的转录。作为结果，酵母菌落在没有组氨酸的培养基中生长。相反，锌指结构域B不识别该靶序列并且因此该报道基因保持被抑制。作为结果，没有组氨酸的培养基中没有生长菌落。AD代表转录激活结构域。

图6是HIV-1的长末端重复序列(LTR)和CCR5(编码HIV-1共同受体的人基因)的启动子区中发现的10-bp序列表(分别是SEQ IDNOs：1-5)。下划线部分代表该筛选中使用的4-bp靶序列。

图7是与报道基因连接的结合位点的碱基序列的描述(分别是SEQID NOs：6-17)。每个结合位点由4个复合结合序列的串连排列组成。通过连接Zif268的指1和指2识别的截短的结合序列5’-GG GCG-3’和4-bp靶序列构建每个复合结合序列。

图8是pPCFMS-Zif图，pPCFMS-Zif是能用来构建杂合质粒库的质粒(SEQ ID NOs：18和19)。

图9代表编码插入到pPCFMS-Zif中的Zif268锌指蛋白的基因的碱基序列和相应的翻译的氨基酸序列(分别是SEQ ID NOs：20和21)。下划线是限制酶识别的位点。

图10是有使用通过体内筛选系统筛选的锌指蛋白从再转化和交叉转化获得的酵母细胞的培养板的照片。

图11是通过体内系统从由人基因组衍生的锌指库筛选的锌指结构域的一些DNA序列和DNA序列编码的氨基酸序列的列表(SEQ IDNOs：22-33)。相应于用来从人基因组扩增编码锌指结构域的DNA片段的简并PCR引物的DNA序列有下划线。指明了四个可能的碱基接触位置，粗体指示氨基酸残基。斜体字指出预期与锌离子配位的两个Cys残基和两个His残基。

详细描述

本发明特征在于测定试验锌指结构域核酸结合偏好的新的筛选方法。该方法容易改动以适合各种DNA结合结构域，各种这些结构域的来源，和多种文库设计，报道基因，和选择和筛选系统。该筛选方法可以作为高流通量平台加以实施。从该筛选方法获得的信息容易应用于设计人工核酸结合蛋白的方法。该设计方法利用试验锌指结构域的结合偏好指导嵌合核酸结合蛋白的组件装配。可以利用该筛选方法进一步优化或改变设计的蛋白质。

DNA结合结构域

本发明利用具有不同结合特异性的核酸结合结构域的集合。已知各种各样的蛋白质结构以高亲和性和高特异性结合核酸。在多种不同蛋白质中重复使用这些结构来特异性控制核酸功能(关于识别双链DNA的结构基序的综述参见例如，Pabo和Sauer(1992)Annu.Rev.Biochem.61：1053-95；Patikoglou和Burley(1997)Annu.Rev.Biophys.Biomol.Struct.26：289-325；Nelson(1995)Curr Opin Genet Dev.5：180-9)。核酸结合结构域的几个非限制性例子包括：

锌指.锌指是大约30个氨基酸残基的小多肽结构域，其中有四个氨基酸，或者是半胱氨酸或者是组氨酸，适当间隔，使得它们能够配位锌离子(图1；关于综述，参见例如，Klug和Rhodes，(1987)Trends Biochem.Sci.12：464-469(1987)；Evans和Hollenberg，(1988)Cell 52：1-3；Payre和Vincent，(1988)FEBS Lett.234：245-250；Miller等，(1985)EMBO J.4：1609-1614；Berg，(1988)Proc.Natl.Acad.Sci.U.S.A.85：99-102；Rosenfeld和Margalit，(1993)J.Biomol.Struct.Dyn.11：557-570)。因此，锌指结构域可以根据配位锌离子的残基的特性分类，例如分为Cys₂-His₂类，Cys₂-Cys₂类，Cys₂-CysHis类，等等。Cys₂-His₂锌指的锌配位残基一般作如下间隔：X_a-X-C-X_2-5-C-X₃-X_a-X₅--X₂-H-X_3-5-H，其中

(psi)是疏水性残基(Wolfe等，(1999)Annu.Rev.Biophys.Biomol.Struct.3：183-212)(SEQ ID NO：76)，其中″X″代表任何氨基酸，其中Xa是苯丙氨酸或酪氨酸，脚注指示氨基酸的数目，两个脚注指示插入的氨基酸的一般范围。一般情况下，插入的氨基酸折叠形成反平行β-折叠，其对α-螺旋叠集，但是反平行β-折叠可以是短的，非理想的，或者不存在的。折叠位于锌配位侧链，这样它们处于适合配位锌离子的四面体构象。碱基接触残基位于锌指的N-末端并且在前面的环形区中(图2)。锌指DNA-结合蛋白正常地由三个或多个锌指结构域的串连排列组成。

锌指结构域(或″ZFD″)是在从酵母到高级植物到人的物种中发现的最常见的真核细胞DNA结合基序之一。据估计，仅在人基因组中至少存在几千个锌指结构域。可以从锌指蛋白分离锌指结构域。锌指蛋白的非限制性例子包括CF2-II，Kruppel，WTl，碱性核蛋白，BCL-6/LAZ-3，红细胞Kruppel-样转录因子，转录因子Sp1，Sp2，Sp3，和Sp4，转录抑制剂YY1，EGR1/Krox24，EGR2/Krox20，EGR3/Pilot，EGR4/AT133，Evi-1，GLI1，GLI2，GLI3，HIV-EP1/ZNF40，HIV-EP2，KR1，ZfX，ZfY，和ZNF7。

可以利用下面描述的计算机方法来鉴定测序的基因组中或者核酸数据库中编码的所有的锌指结构域。可以使用所有的这样的锌指结构域。另外，例如利用计算机方法设计了人工锌指结构域(例如，Dahiyat和Mayo，(1997)Science 278：82-7)。Dahiyat和Mayo的锌指采用锌指折叠，但是其核心不包含锌离子。这样，就其多肽骨架与天然存在的锌指的折叠的结构类似性来说，而不是就其配合锌离子的功能能力来说，其是锌指。

同源异型域.同源异型域是初级真核细胞结构域，其由接触DNA小沟的N-末端臂，接着的接触大沟的三个α-螺旋组成(关于综述，参见，Laughon，(1991)Biochemistry 30：11357-67)。第三α-螺旋位于大沟中并且包含决定性的DNA-接触侧链。同源异型域具有在导向第三α-螺旋转角处存在的特征性高度保守基序。所述基序包括包在该结构域疏水性中心中的不变的色氨酸。在Prosite数据库(see http://www.expasy.ch/)中该基序被描述为PDOC00027([L/I/V/M/F/Y/G]-[A/S/L/V/R]-X(2)-[L/I/V/M/S/T/A/C/N]-X-[L/I/V/M]-X(4)-[L/I/V]-[R/K/N/Q/E/S/T/A/I/Y]-[L/I/V/F/S/T/N/K/H]-W-[F/Y/V/C]-X-[N/D/Q/T/A/H]-X(5)-[R/K/N/A/I/M/W]；SEQ ID NO：77)。同源异型域一般在决定细胞特性的转录因子中发现并且在生物体发育期间提供位置信息。在基因组中成簇发现这样的标准的同源异型域，使得同源异型域在簇中的顺序大约相应于它们沿着体轴线的表达模式。通过与同源异型域例如Hox-1排列，或者通过与同源异型域分布或者同源异型域隐藏Markov模型(HMM；参见下文)例如，Pfam数据库的PF00046或者SMART数据库(http://smart.embl-heidelberg.de/)的″HOX″排列，或者通过上述Prosite基序PDOC00027，可以鉴定同源异型域。

螺旋-转角-螺旋蛋白.这种DNA结合基序在很多原核转录因子中常见。有很多亚家族，例如，LacI家族，AraC家族，等等。名称中的两个螺旋指紧靠并且位于DNA的大沟中第二α-螺旋组装的第一α-螺旋。通过与HMM，例如，SMART数据库(http://smart.embl-heidelberg.de/)可获得的HTH_ARAC，HTH_ARSR，HTH_ASNC，HTH_CRP，HTH_DEOR，HTH_DTXR，HTH_GNTR，HTH_ICLR，HTH_LACI，HTH_LUXR，HTH_MARR，HTH_MERR，和HTH_XRE分布排列，可以鉴定这些结构域。

螺旋-环-螺旋蛋白.通常在同源和异源二聚转录因子例如MyoD，fos，jun，E11，和肌细胞生成素中常发现这种DNA结合结构域。该结构域由二聚体组成，每一个单体有两个α-螺旋和中间的环。通过与HMM例如SMART数据库(http://smart.embl-heidelberg.de/)可获得的″HLH″分布排列，可以鉴定该结构域。尽管螺旋-环-螺旋蛋白一般是二聚体，但是通过在两个亚基之间基因工程插入多肽连接体使得单一可读框编码这两个亚基和该连接体，能够构建单体形式。

DNA结合结构域的鉴定

可以利用各种各样的方法来鉴定结构域。

计算机方法.可以将通过这里描述的方法分离的DNA结合结构域的氨基酸序列与已知序列的数据库相比较的，所述已知序列的数据库例如蛋白质序列的注释数据库或者包括核酸结合结构域全部的注释数据库。在另一个实施方案中，没有表征的序列例如没有注释的基因组，EST或者全长cDN二A序列的数据库；表征的序列的数据库，例如SwissProt或PDB；和结构域数据库，例如，Pfam，ProDom(http://www.tooulouse.inra.fr/)，和SMART(Simple ModularArchitecture Research Tool，http://smart.embl-heidelberg.de/)能够提供核酸结合结构域序列的来源。为了与查询氨基酸序列相比较的目的在所有六个可读框中可以翻译核酸序列数据库。可以从合适的核酸来源，例如基因组DNA或细胞RNA，扩增标记为编码候选核酸结合结构域的核酸序列。这样的核酸序列可以克隆到表达载体中。以计算机为基础的结构域鉴定程序可以与寡核苷酸合成仪和机器人系统接合，在高流通量平台产生编码结构域的核酸。编码候选结构域的克隆的核酸也可以贮存在宿主表达载体中并且容易穿梭到表达载体中，例如到携带Zif268指1和2的翻译融合载体中，这或者通过限制酶介导的亚克隆或者通过位点特异的，重组酶介导的亚克隆(参见美国专利No.5,888,732)。可以利用高流通量平台来产生含有编码不同的候选核酸结合结构域的核酸的多个微量滴定平板。

从起始序列或者分布(profile)鉴定结构域的详细方法是本领域公知的。参见，例如，Prosite(Hofmann等，(1999)Nucleic Acids Res.27：215-219)，FASTA，BLAST(Altschul等，(1990)J.Mol.Biol.215：403-10.)，等。可以进行简单的字串检索来发现与查询序列或查询分布具有同一性的氨基酸序列，例如，使用Perl(http://bio.perl.org/)来扫描文本文件。这样鉴定序列可以与最初输入的序列有大约30％，40％，50％，60％，70％，80％，90％，或更大的同一性。

可以从公开数据库鉴定与查询结构域类似的结构域，例如，使用Altschul等，(1990)J.Mol.Biol.215：403-10的XBLAST程序(2.0版本)。例如，可以使用如下XBLAST参数进行BLAST蛋白质检索：分数＝50，字长度＝3。根据Altschul等，(1997)Nucleic Acids Res.25(17)：3389-3402所述，可以将间隙引入查询或检索序列。在http://www.ncbi.nlm.nih.gov可获得XBLAST和Gapped BLAST程序的默认参数。

Prosite分布PS00028和PS50157可以用来鉴定锌指结构域。在-SWISSPROT中公开了80,000个蛋白质序列，这些分布分别检测了3189和2316锌指结构域。通过各种各样的不同的技术从相关蛋白质的多个序列排列能够构建分布。Gribskov和同事(Gribskov等，(1990)Meth.Enzymol.183：146-159)利用符号对比表来将残基频率分布及提供的多个序列排列转化为对于每一个位置的加权。参见，例如，PROSITE数据库和Luethy等的工作，(1994)Protein Sci.3：139-1465。

可以从这样的模型的数据库例如Pfam数据库2.1版本产生或获得代表感兴趣的DNA结合结构域的Hidden Markov模型(HMM’s)。例如使用默认参数，使用HMM检索数据库，以发现另外的结构域(参见，例如，http://www.sanger.ac.uk/Software/Pfam/HMM对于默认参数的检索)。或者，使用者可以优化参数。可以选择阈值分数来过滤序列数据库使得分数高于阈值的序列显示是候选结构域。在Sonhammer等，(1997)Proteins 28(3)：405-420中可以找到Pfam数据库的描述，并且例如在Gribskov等，(1990)Meth.Enzymol.183：146-159；Gribskov等，(1987)Proc.Natl.Acad.Sci.USA 84：4355-4358；Krogh等，(1994)J.Mol.Biol.235：1501-1531；和Stultz等，(1993)Protein Sci.2：305-314中可以找到HMMs的详细描述。

HMM’s的SMART数据库(Simple Modular Architecture ResearchTool，http://smart.embl-heidelberg.de/；Schultz等，(1998)Proc.Natl.Acad.Sci.USA 95：5857和Schultz等，(2000)Nucl.Acids Res28：231)提供了锌指结构域目录(ZnF_C2H2；ZnF_C2C2；ZnF_C2HC；ZnF_C3H1；ZnF_C4；ZnF_CHCC；ZnF_GATA；和ZnF_NFX)，是通过HMMer2检索程序的hidden Markov模型分布鉴定的(Durbin等，(1998)Biological sequence analysis：probabilistic models of proteins andnucleic acids.Cambridge University Press.；http://bmmer.wustl. edu/)。

以杂交为基础的方法.可以分析编码不同形式的DNA结合结构域的核酸的集合以获得编码保守氨基-和羧基-末端边界序列的序列分布。可以设计简并寡核苷酸来杂交编码这样的保守边界序列的序列，此外，通过将它们的组成与已知基因组序列中可能的退火位点的频率相比较可以估计这样的简并寡核苷酸的效率。可以利用多次设计来优化简并寡核苷酸。例如，已知Cys₂-His₂锌指的比较揭示了天然序列中相邻指之间的连接体区中共同序列(Agata等，(1998)Gene 213：55-64)。使用这样的简并寡核苷酸扩增多个DNA结合结构域。扩增的结构域作为试验锌指结构域插入杂合核酸中，并且接着通过这里描述的方法测定与靶位点的结合。

文库设计

该方法使得可以对编码DNA结合结构域的核酸的集合(例如，质粒，噬粒，或者噬菌体文库的形式)筛选功能核酸结合性质。该集合能够编码不同组的DNA结合结构域，甚至不同折叠结构的结构域。在一个例子中，该集合编码单一折叠结构的结构域例如锌指结构域。尽管对锌指结构域描述了下面的方法，但是本领域技术人员应该能将它们适用于核酸结合结构域的其它类型。

突变结构域.在另一个例子中，所述集合由从简并模式文库装配的结构域的编码核酸组成。例如，在锌指的例子中，可以利用已知锌指的排列来鉴定各位置处的最佳氨基酸。或者，可以利用结构研究和诱变实验来测定各位置处的氨基酸的优选性质。任何核酸结合结构域可以被用作诱导诱变的结构构架。特别地，对于诱变可以定向紧邻核酸结合界面的位置或者与该位置邻接的位置。利用模式化简并库，突变的试验锌指结构域可以在任何突变位置被约束成可能氨基酸的子集。可以用简并密码子组在各个位置处编码该分布。例如，可获得只编码疏水性残基，脂肪族残基，或者亲水性残基的密码子组。可以对文库筛选编码折叠多肽的全长克隆。Cho等((2000)J.Mol.Biol.297(2)：309-19)提供了使用简并寡核苷酸产生这样的简并文库的方法，还提供了筛选编码全长多肽的文库核酸的方法。对于这里描述的筛选方法，使用常规的限制性酶切位点或者转座酶或重组酶识别位点，可以容易地将这样的核酸插入表达质粒中。

通过简单地检查表示遗传密码的表或者通过计算算法可以确定给定位置处合适的密码子的筛选和各核苷酸的相对比例。例如，Cho等，上文，描述了输入期望的简并蛋白质序列，输出编码该序列的优选寡核苷酸设计的计算机程序。

天然全部结构域的分离.可以从真核细胞生物体例如人的基因组DNA或cDNA构建结构域文库。进行这样的构建有多种方法。例如，如上所述，可以利用可获得氨基酸序列的计算机检索来鉴定结构域。可以分离编码每一个结构域的核酸并且插入到适合在细胞中表达的载体中，例如含有启动子，激活结构域和可选择标记的载体。在另一个实施例中，使用与保守基序杂交的简并寡核苷酸例如通过PCR扩增大量含有该基序的有关结构域。例如，Kruppel-样Cys₂His₂锌指可以通过Agata等，(1998)Gene 213：55-64的方法扩增。该方法也保留了天然存在的锌指结构域连接体肽序列，例如，具有下面模式的序列：Thr-Gly-(Glu/Gln)-(Lys/Arg)-Pro-(Tyr/Phe)(SEQ ID NO：78)。此外，筛选限于感兴趣的结构域的集合，不像筛选没有筛选的基因组或cDNA序列的文库，显著降低了文库的复杂性并且降低了由于完全筛选大的文库所固有的困难而遗失期望的序列的可能性。

人基因组含有多个锌指结构域，其中很多还没有被表征并且没有被鉴定。估计有几千个编码带有锌指结构域的蛋白质的基因(Pellegrino和Berg，(1991)Proc.Natl.Acad.Sci.USA 88：671-675)。这些人锌指结构域代表不同结构域的广泛集合，从中可以构建新的DNA-结合蛋白。如果每一个锌指结构域识别一个独特的3-至4-bp序列，则结合所有可能的3-至4-bp序列所需要的结构域的总数只是64至256(4³至4⁴)。可能的是天然全部人基因组含有足够数目的独特的锌指结构域，跨越所有可能的识别位点。这些锌指结构域是构建人工嵌合DNA-结合蛋白的有价值的来源。天然存在的锌指结构域，不像从人基因组衍生的人工突变体，在天然筛选压力下进化，因此对于结合特异性DNA序列和体内功能可能被天然优化。

例如在基因治疗应用中当导入人体中时，人锌指结构域诱导免疫应答的可能性大大减小。

具有特异性DNA结合性质的锌指结构域的体内筛选

使用下面的体内筛选系统可以鉴定具有期望的DNA识别性质的锌指结构域。将感兴趣的复合结合位点插入报道基因下游使得转录激活结构域募集到复合结合位点，导致提高报道基因转录高于给定水平。构建编码由与固定DNA结合结构域融合的试验锌指结构域和转录激活结构域组成的杂合蛋白的表达质粒。

复合结合位点包括至少两个元件，募集位点和靶位点。该系统经基因工程处理使得固定DNA结合结构域识别募集位点。但是，固定DNA结合结构域对于募集位点的结合亲合力是使得体内它独自不足以转录激活报道基因的亲合力。通过对照实验可以证实这一点。

例如，当在细胞中表达时，固定DNA结合结构域(不存在试验锌指结构域，或者存在已知没有功能或者其已知的DNA接触残基已经被另一种氨基酸例如丙氨酸置换的试验锌指结构域)应该不能激活高于很低水平的报道基因的转录。一些渗漏的或者低水平激活作用是可以的，因为其它方法可以将该系统灵敏化(例如，通过使用报道基因的竞争抑制剂)。预期固定DNA结合结构域不稳定结合募集位点。例如，固定DNA结合结构域能以大约0.1nM，1nM，1μM，10μM，100μM，或者更大的解离常数(K_d)结合募集位点。通过不存在试验锌指结构域或者不存在对于第二靶位点具有特异性的试验锌指结构域下通过电泳迁移率变动分析(EMSA)，可以体外测定DNA结合结构域对于靶位点的K_d。

因此，识别靶位点例如复合结合位点的可变位点的功能试验锌指结构域的连接对于杂合蛋白稳定结合细胞中复合结合位点是必需的，从而激活报道基因。试验锌指结构域对该靶位点的结合偏好导致报道基因表达相对给定水平提高。例如，观察水平除以给定水平所获得的报道基因表达增加的倍数大约是2，4，8，20，50，100，1000倍或者更大。当试验锌指结构域识别靶位点时，DNA结合结构域和试验锌指结构域的转录因子的K_d降低，例如，相对于没有对于靶位点有特异性的试验锌指结构域的转录因子来说。例如，与对其有特异性的靶位点复合的转录因子的解离常数(K_d)可以是大约50nM，10nM，1nM，0.1nM，0.01nM或者更小。通过EMSA可以体外测定K_d。

通过测定试验锌指结构域增加固定DNA结合结构域的体内结合亲合力的能力可以灵敏而精确地测定DNA结合特异性的发现使得从人基因组快速分离和表征新的锌指结构域成为可行。

固定DNA结合结构域包括从天然存在的DNA-结合蛋白例如具有多个结构域或者是寡聚物的天然存在的DNA-结合蛋白分离的组件结构域。例如，可以使用两个已知的锌指例如Zif268的指1和2作为固定DNA结合结构域。本领域技术人员应该能够从众多核酸结合结构域(例如这里描述的结构域家族，例如同源异型域，螺旋-转角-螺旋结构域，或者螺旋-环-螺旋结构域，或者本领域充分表征过的核酸结合结构域)中鉴定适合该系统的固定DNA结合结构域。适当筛选固定DNA结合结构域识别的募集位点也是必需的。募集位点可以是从中获得固定DNA结合结构域的天然存在的DNA结合蛋白的天然结合位点中的亚位点。如果需要，为了使系统变得灵敏，可以将诱变导入固定结构域或者导入募集位点。

适合体内筛选系统的细胞包括真核细胞和原核细胞。举例的真核细胞包括酵母细胞，例如啤酒酵母(Saccharomyces cerevisiae)，Saccharomyces pombe，和巴斯德毕赤氏酵母(Pichia pastoris)细胞。

使用上述筛选系统修饰酵母单杂种系统(one-hybrid system)，使用啤酒酵母，来筛选锌指结构域。首先，制备编码HIS3报道基因的报道质粒。预先测定的4-bp靶DNA序列与截短的结合序列连接，提供用于DNA-结合结构域的复合结合序列，每一个复合结合序列在分开的质粒上与报道基因可操作连接。

杂合核酸序列编码与包括截短的DNA-结合结构域和锌指结构域的DNA-结合结构域连接的转录激活结构域。

这里使用的结合位点不一定是连续的，但是常常使用连续的位点。在核酸结合结构域之间可以使用柔顺的和/或可延伸的连接体来构建识别不连续位点的蛋白质。

根据本发明的一个方面，可以使用由Zif268的指1和指2组成的没有指3的多肽作为固定DNA-结合结构域。(Zif268的三个锌指结构域中，指1指位于N-末端的锌指结构域，指2，中间的锌指结构域，和指3，C-末端的锌指结构域)。或者，其结合位点被表征的任两个锌指结构域可以被用作固定DNA-结合结构域。

其它有用的DNA-结合结构域可以衍生自其它锌指蛋白，例如Sp1，CF2-II，YY1，Kruppel，WT1，Egr2，或者POU-结构域蛋白，例如Oct1，Oct2，和Pit1。举例提供这些，而本发明不局限于此。

根据本发明的一个具体实施例，通过从最佳Zif268识别序列(5’-GCG TGG GCG-3)的5’末端缺失4-bp产生的碱基序列5’-GGGCG-3’，可以被用作募集位点。3至4bp的任何靶序列可以连接该募集位点，得到复合结合序列。

激活结构域.可以在本发明中使用的转录激活结构域包括但不限于来自酵母的Gal4激活结构域和来自单纯疱疹病毒的VP16结构域。细菌中，通过融合能够募集野生型RNA聚合酶α亚基C-末端结构域或者突变体α亚基C-末端结构域的结构域，例如与蛋白质相互作用结构域融合的C-末端结构域，能够模拟激活结构域功能。

抑制结构域.如果期望，可以用抑制结构域代替激活结构域与DNA结合结构域融合。真核细胞抑制结构域的例子包括ORANGE，groucho，和WRPW(Dawson等，(1995)Mol.Cell Biol.15：6923-31)。当使用抑制结构域时，可以使用毒物报道基因和/或非可选择标记来筛选降低的表达。

报道基因.报道基因可以是可选择标记，例如，带来药物抗性的基因或者营养缺陷标记。药物抗性基因的例子包括啤酒酵母环六酰胺抗性(CYH)基因，啤酒酵母刀豆氨酸抗性基因(CAN1)，和潮霉素抗性基因。啤酒酵母营养缺陷标记包括URA3，HIS3，LEU2，ADE2和TRP1基因。当营养缺陷标记是报道基因时，使用没有营养缺陷基因的功能拷贝并且因此缺乏产生特定代谢物能力的细胞。通过在没有所述代谢物的培养基中保持细胞实现编码结合靶位点的试验锌指结构域的构建体的筛选。例如，可以使用HIS3基因作为与his3酵母菌株结合的可选择标记。将编码杂合转录因子的构建体导入之后，细胞在没有组氨酸下生长。对哺乳动物细胞使用的可选择标记，例如胸苷激酶，新霉素抗性，和HPRT，也是技术人员公知的。

或者，报道基因编码其存在可以容易地被检测和/或定量测定的蛋白质。举例的报道基因包括lacZ，氯霉素乙酰转移酶(CAT)，萤光素酶，绿色荧光蛋白(GFP)，β-葡糖醛酸酶(GUS)，蓝色荧光蛋白(BFP)，和GFP的衍生物，例如，具有改变的或增强的荧光性质(Clontech Laboratories，Inc.CA)。通过使菌落在含有比色底物X-gal的平板上生长可以容易地检测表达lacZ的细胞菌落。通过监测激发时的荧光发射可以检测GFP表达。利用荧光激活细胞分拣(FACS)可以鉴定和分离各表达GFP的细胞。

可以用两个报道基因例如可选择报道基因和不可选择报道基因构建该系统。可选择标记有利于快速鉴定感兴趣的结构域，这是在适当的生长条件下，只有携带感兴趣的结构域的细胞生长。不可选择报道基因提供一种检验方法，例如来区别假阳性，和定量测定结合程度的方法。这两个报道基因可以在基因组中分开的位置整合，在基因组中串联整合，包含在相同的染色体外元件(例如质粒)上或者包含在分开的染色体外元件上。

图5说明用来筛选期望的锌指结构域的修饰的单杂种体系的原理。杂合转录因子的DNA-结合结构域由(a)由Zif268的指1和指2组成的截短的DNA-结合结构域和(b)锌指结构域A或B组成。位于报道基因的启动子区的结合位点结合位点的碱基序列是复合结合序列(5’-XXXXGGGCG-3’)，其由4-bp靶序列(核苷酸1-4，5’-XXXX-3’)，和截短的结合序列(核苷酸5-9，5’-GGGCG-3’)组成。

如果杂合转录因子中的试验锌指结构域(图5中的A)识别靶序列，则该杂合转录因子能够结合稳定复合结合序列。这种稳定结合导致报道基因通过杂合转录因子的激活结构域(图5中的AD)的作用表达。作为结果，当使用HIS3作为报道基因时，转化的酵母在没有组氨酸的培养基中生长。或者，当使用lacZ作为报道基因时，转化的酵母在含有lacZ蛋白质的底物X-gal的培养基中作为兰色菌落生长。但是，如果杂合转录因子的锌指结构域(图5中的B)不识别靶序列，则不诱导报道基因的表达。作为结果，转化的酵母不能在没有组氨酸的培养基中生长(当使用HIS3作为报道基因时)或者作为白色菌落在含有X-gal的培养基中生长(当使用lacZ作为报道基因时)。

使用这种修饰的单杂种系统的筛选方法是有利的，因为证明利用该方法筛选的锌指结构域在细胞环境中有功能。因此，推测该结构域能够折叠，进入细胞核，并且经得起胞内蛋白酶和其它有效破坏胞内物质。此外，这里公开的修饰的单杂种系统使得可以快速而简单地分离期望的锌指结构域。修饰的单杂种系统只要求一轮酵母细胞转化来分离期望的锌指结构域。

可以使用这里描述的筛选方法从基因组例如植物或动物物种(例如哺乳动物，例如人)的基因组鉴定锌指结构域。也可以用该方法从例如通过随机诱变制备的突变体锌指结构域文库鉴定锌指结构域。另外，可以结合使用这两种方法。例如，对于特定的3-bp或4-bp DNA序列如果不能从人基因组分离锌指结构域，则可以对通过随机或定向诱变制备的锌指结构域文库鉴定这样的结构域。

虽然酵母中修饰的单杂种系统是筛选识别和结合给定靶序列的锌指结构域的优选方法，但是对本领域技术人员显而易见的是可以使用除酵母单杂种筛选之外的系统。例如，可以使用噬菌体展示筛选来筛选从真核细胞生物体基因组衍生的天然存在的锌指结构域文库。

本发明包括单杂种方法在各种培养细胞中的用途。例如，与靶序列可操作连接的报道基因可以导入培养的原核细胞或动物或植物细胞，然后用锌指结构域文库编码的质粒，噬菌体或病毒转染培养的细胞。然后可以从其中报道基因被激活的分离细胞获得识别靶序列的期望的锌指结构域。

下面公开的实施例证明该方法能够鉴定结合感兴趣位点的的锌指结构域。制备指3位带有各种锌指结构域的杂合转录因子文库。从该文库中筛选的新的锌指结构域(如HSNK，QSTV和VSTR锌指；见下文)中没有一个天然位于其相应的母体锌指蛋白中的C-末端。这清楚地证明锌指结构域是组件的并且通过混合和匹配合适的锌指结构域可以构建新的DNA-结合结构域。

通过本发明方法筛选的锌指结构域可以被用作通过适当重排和重组制备新的DNA-结合蛋白质的构件。例如，可以如下构建识别人HIV-1共同受体CCR5的启动子区的新的DNA结合蛋白。人CCR5的启动子区包含下面的10-bp序列：5’-AGG GTG GAG T-3’(SEQ ID NO：4)(图6)。使用这里公开的修饰的单杂种系统，人们能够分离三种锌指结构域，其中每一种特异识别下面的4-bp靶序列之一；5’-AGGG-3’，5’-GTGG-3’，和5’-GAGT-3’。这些靶序列重叠CCR5靶序列的4-bp片段。为了产生与CCR5启动子特异性结合的新的转录因子，这三种锌指结构域可以连接适当的连接体并且连接调节结构域例如VP16结构域和GAL4结构域或抑制结构域例如KRAB结构域。在基因治疗中可以使用这些锌指蛋白来帮助防止HIV-1的增殖。

高流通量筛选

下面的方法使得可以快速地对集合中各结构域测定多个可能的DNA-结合位点或者甚至所有可能的DNA-结合位点的体内结合亲和性。制备编码核酸结合结构域的核酸的大的集合体。每个核酸结合结构域被编码为杂合核酸构建体中的试验锌指结构域，并且在一种接合型的酵母菌株中表达。因此，产生第一组表达所有可能的或期望的结构域的酵母菌株。在相对接合型中构建含有用于报道构建体中结构域推导的靶位点的报道构建体的第二组酵母菌株。为了产生融合细胞矩阵，该方法要求进行很多或所有的可能的成对匹配，每一个都具有不同的锌指结构域和不同的靶位点报道构建体。对每一个融合细胞测定报道基因表达。从而该方法快速并且容易地测定试验结构域的结合偏好。

例如通过对基因组数据库检索符合给定分布的推导结构域来鉴定结构域的集合。所述集合可以包括例如10至20个结构域，或者所有鉴定的结构域，可能几千个或者更多。利用合成的寡核苷酸扩增编码从数据库鉴定的结构域的核酸。设计这样的合成的寡核苷酸的人工和自动方法是本领域常规的。使用简并引物可以扩增编码另外的结构域的核酸。编码集合的结构域的核酸克隆到上述酵母表达质粒中，这样产生结构域和Zif268的头两个指和转录激活结构域的融合蛋白。为了克隆编码多个结构域的核酸可以以微量滴定平板形式进行扩增和克隆步骤。

或者，可以应用重组克隆方法来将编码结构域的多个扩增的核酸快速插入到酵母表达载体中。描述于美国专利No.5,888,732和″Gateway″指南(Life Technologies-Invitrogen，CA，USA)的该方法，详细描述了包括在扩增引物末端的位点特异性重组酶的定制位点。所述表达载体在插入编码结构域的扩增核酸位置处包含另外的一个或几个位点。设计这些位点使缺少终止密码子。向重组反应加入扩增产物，表达载体，和位点特异性重组酶导致对载体插入扩增的序列。附加特征，例如，成功插入时毒性基因的置换使得该方法对于高流通量克隆是高效并且合适的。

可以利用限制酶介导的和/或重组克隆将编码各鉴定的结构域的核酸插入表达载体。载体可以在细菌中繁殖，并且在编号的微量滴定平板上冷冻，这样每个孔含有携带编码不同的独特的DNA-结合结构域之一的核酸的细胞。

对于每一个结构域获得分离的质粒DNA I并且转化到酵母细胞，例如啤酒酵母MATα细胞中。因为表达载体包含可选择标记，所以转化的细胞在为该标记选择的营养条件下在基本培养基中生长。这样的细胞也可以例如在微量滴定平板中冷冻并且储存以备以后使用。

例如在啤酒酵母MATα细胞中构建第二组酵母菌株。这组酵母菌株含有各种不同的报道基因载体。然后使携带独特DNA-结合结构域的表达载体的各酵母菌株与报道基因组的各酵母菌株接合。因为这两个菌株来自相对接合型并且经基因工程处理而具有不同的辅源营养，因此能够容易地筛选二倍体。这样的二倍体具有报道质粒和表达质粒两者。也在对报道质粒和表达质粒两者选择的营养条件下保持这些细胞。Uetz等(2000)Nature 403：623-7通过产生这样的酵母接合矩阵描述了所有酵母蛋白质的完全双杂种图。

可以以大容量形式例如在微量滴定平板中检测报道基因表达。例如，当使用GFP作为报道基因时，可以荧光扫描含有结合细胞矩阵的平板。

新的DNA-结合蛋白质的组件装配

通过混合和匹配合适的锌指结构域可以合理地构建识别靶9-bp或者更长DNA序列的新的DNA-结合蛋白。锌指结构域的组件结构有利于它们重排构建新的DNA-结合蛋白。如图1所示，天然存在的Zif268蛋白质中的锌指结构域沿着DNA双螺旋串联分布。每一个结构域独立地识别一个不同的3-4bp DNA片段。

锌指结构域数据库.可以应用上述单杂种筛选系统来为每一个可能的3或4碱基对结合位点鉴定一个或多个锌指结构域。这些结果可以保存为矩阵或数据库。数据库可以包括结合每一个位点的锌指结构域的相对亲合力的指征。

也可以在多个不同的融合蛋白中测定这样的锌指结构域来证实它们的特异性。此外，可获得少数结构域的特定结合位点可以是另外的选择筛选的靶物。通过诱变结合类似但不相同的位点的锌指结构域可以制备这样的选择的文库。对于每一个可能的结合位点的锌指结构域的完全矩阵不是必要的，因为为了最佳地使用可获得的结构域，结构域可以相对于靶结合位点交错。这样的交错可以通过最有用的3或4碱基对结合位点中结合位点的解析，以及锌指结构域之间连接体长度的改变来实现。为了对设计的多肽引入选择性和高亲和性，对于期望的位点具有高特异性的锌指结构域侧翼可以有以更高亲和性但是更小特异性结合的其它结构域。可以利用这里描述的体内筛选方法来测定人工装配的锌指蛋白及其衍生物的体内功能，亲和性，和特异性。同样，该方法可以用来优化这样装配的蛋白质，例如，通过创建不同的连接体成份库，锌指结构域组件库，锌指结构域成份库等等。

剖析靶位点.9-bp或者更长的靶DNA序列分成3或4bp部分。鉴定识别每部分3或4bp片段的锌指结构域(例如，从上述数据库鉴定)。更长的靶序列，例如，20bp至500bp序列，也是合适的靶标，因为它们中可以鉴定9bp，12bp，和15bp亚序列。特别地，适合剖析到数据库中完好代表的位点中的亚序列可以作为最初的设计靶标。

构建装配的组件.设计包含多个识别相邻的3或4bp亚位点或者近旁亚位点的锌指结构域的多肽序列。可以合成编码设计的多肽序列的核酸序列。构建合成的基因的方法是本领域常规的。这样的方法包括从常规合成的寡核苷酸构建基因，PCR介导的克隆，和mega-引物PCR。可以合成多种核酸序列例如来形成一个文库。例如，可以设计该文库核酸使得编码任何给定位置的结构域的序列是不同的，使得它们编码不同的锌指结构域，这些锌指结构域的识别特异性适合那个位置。可以利用有性和″DNA改组^TM″(Maxygen，Inc.，CA)来改变每一个位置的锌指结构域的特性。

肽连接体.DNA结合结构域可以通过各种不同的连接体连接。连接体的应用和设计是本领域公知的。特别有用的连接体是核酸编码的肽连接体。因此，人们可以构建编码第一DNA结合结构域，肽连接体，和第二DNA结合结构域的合成基因。为了构建大的合成的多结构域的DNA结合蛋白，可以重复该设计。PCT WO 99/45132和Kim和Pabo((1998)Proc.Natl.Acad.Sci.USA 95：2812-7)描述了适合连接锌指结构域的肽连接体的设计。

形成随机螺旋，α-螺旋或β-折叠三级结构的另外的肽连接体是可获得的。形成合适的柔性连接体的多肽是本领域公知的(参见例如，Robinson和Sauer(1998)Proc Natl Acad Sci USA.95：5929-34)。柔性连接体一般包括甘氨酸，因为这种没有侧链的氨基酸其旋转自由度是独特的。连接体中可以点缀丝氨酸或苏氨酸以提高亲水性。另外，为了提高结合亲合力可以使用能与DNA的磷酸骨架相互作用的氨基酸。正确使用这样的氨基酸使得可以平衡提高亲合力而不降低序列的特异性。如果期望刚性延长作为连接体，α-螺旋连接体，例如可以使用Pantoliano等(1991)Biochem.30：10117-10125中描述的螺旋连接体。也可以通过计算机模拟设计连接体(参见例如美国专利No.4,946,778)。用于分子模拟的软件可以购得(例如，从Molecular Simulations，Inc.，San Diego，Calif.购得)。任选地，应用标准诱变技术和蛋白质工程领域中公知的合适的生物物理试验，和这里描述的功能测试，优化连接体，例如，以减小抗原性和/或提高稳定性。

对于利用锌指结构域的实施方式，锌指之间天然存在的肽可以被用作将指连接在一起的连接体。典型的这样的天然存在的连接体是：Thr-Gly-(Glu或Gln)-(Lys或Arg)-Pro-(Tyr或Phe)(SEQ ID NO：78)(Agata等，上文)。

二聚结构域.连接DNA结合结构域的另一种方法是使用二聚结构域，特别是异源二聚结构域(参见例如，Pomerantz等(1998)Biochemistry37：965-970)。在该实施方案中，DNA结合结构域存在于分开的多肽链中。例如，第一多肽编码DNA结合结构域A，连接体，和结构域B，而第二多肽编码结构域C，连接体，和结构域D。技术人员能够从很多充分鉴定的二聚结构域筛选二聚结构域。如果不期望同源二聚体，则可以使用有利于异源二聚作用的结构域。特别合适的二聚结构域是卷曲螺旋基序，例如二聚平行的或者反向平行的卷曲螺旋。优先形成异源二聚体的卷曲螺旋序列也是可获得的(Lumb和Kim，(1995)Biochemistry 34：8642-8648)。另外一种二聚作用结构域是其中二聚作用由小分子或者由信号作用引发的二聚作用结构域。例如，可以使用FK506的二聚体形式将两个FK506结合蛋白(FKBP)结构域二聚化。可以利用这样的二聚结构域来提供附加水平的调节。

功能测定和应用

除了生物化学分析之外，可以测试或者体内应用通过这里描述的方法设计的例如通过组件装配设计的核酸结合结构域或者蛋白质的功能。例如，可以筛选结合靶位点例如细胞增殖所需要的基因的启动子位点的功能域。通过组件装配，可以设计这样的蛋白质，其包括(1)分别结合跨越靶启动子位点的亚位点的选择的结构域，和(2)DNA抑制结构域，例如，WRPW结构域。

可以将编码设计的蛋白质的核酸序列克隆到表达载体中，例如，Kang和Kim，(2000)J Biol Chem 275：8742中描述的可诱导表达载体。所述可诱导表达载体可以包括可诱导启动子或调节序列。可诱导启动子非限制性例子包括甾族激素响应启动子(例如，蜕皮素响应，雌激素-响应，和glutacorticoid响应启动子)，四环素″Tet-On″和″Tet-Off″系统，和金属响应启动子。能够将构建体转染到组织培养细胞中或者到胚胎干细胞中产生作为模式个体的转基因生物体。通过诱导蛋白质表达和测试组织培养细胞的细胞增殖或者测定转基因动物模型中发育变化和/或肿瘤生长，可以测定设计的蛋白质的效力。另外，通过检测mRNA的常规方法，例如RT-PCR或Northern印迹，可以测定导向的基因的表达水平。更完全的诊断包括从表达和不表达设计的蛋白质的细胞纯化mRNA。使用mRNA的两个库探测含有基因大集合的探针的微阵列，所述基因大集合是例如与感兴趣的状态(例如癌症)相关联的基因的集合或者生物体基因组中鉴定的基因的集合。这样的测试对于测定设计的蛋白质的特异性是特别有价值的。如果蛋白质以高亲和性结合但是几乎没有特异性，则它将通过影响除了涉及的靶物之外的基因的表达而引起多效而不期望的作用。转录物的综合分析揭示这样的作用。

另外，为了调节内源基因可以在试验细胞或试验生物体中产生设计的蛋白质。如上所述装配设计的蛋白质，以结合内源基因的区并且提供转录激活或抑制功能。根据Kang和Kim(上文)所述，编码设计的蛋白质的核酸的表达与可诱导的启动子可操作连接。通过调节启动子的诱导物的浓度，可以以浓度依赖方式调节内源基因的表达。

测定结合位点偏好

通过生物化学分析例如EMSA，DNase足迹法，表面等离子体共振，或者柱结合，可以证实每一个结构域的结合位点偏好。结合底物可以是包括靶位点的合成寡核苷酸。所述测试还可以包括非特异性DNA作为竞争物，或者特异性DNA序列作为竞争物。特异性竞争物DNAs可以包括具有一个，两个或者三个核苷酸突变的识别位点。因此，可以利用生物化学测试不仅测定给定位点结构域的亲和性，而且测定其对相对于其它位点的位点的亲和性。Rebar和Pabo，(1994)Science 263：671-673描述了从EMSA获得对于锌指结构域的表观K_d常数的方法。

通过下面的实施例更详细地描述了本发明。但是，应该注意这些实施例不是要限制本发明的范围。

实施例1

用于杂合转录因子表达的质粒的构建

通过修饰pPC86(Chevray和Nathans，(1991)Proc.Natl.Acad.Sci.USA 89：5789-5793)制备表达锌指转录因子的表达质粒。如Ausubel等人所述(Current Protocols in Molecular Biology(1998)，John Wiley andSons，Inc.)进行DNA操作。将编码Zif268锌指蛋白的DNA片段插入到pPC86的SalI和EcoRI识别位点之间，产生pPCFM-Zif。该克隆步骤的结果是编码后面接三个Zif268锌指的酵母Gal4激活结构域的翻译融合蛋白。pPCFM-Zif转化到酵母细胞中导致包括酵母Gal4激活结构域和Zif268锌指的杂合转录因子的表达。图9给出了克隆到pPCFM-Zif中的编码Zif268锌指蛋白的DNA序列。

质粒pPCFMS-Zif被用作构建锌指结构域库的载体(图8)。通过在pPCFM-Zif指3编码区前面插入含有终止密码子和PstI识别位点的寡核苷酸盒构建pPCFMS-Zif。通过将两个合成的寡核苷酸退火生成所述寡核苷酸盒：5’-TGCCTGCAGCATTTGTGGGAGGAAGTTTG-3’(SEQ ID NO：79)；和5’-ATGCTGCAGGCTTAAGGCTTCTCGCCGGTG-3’(SEQ ID NO：80)。终止密码子的插入防止编码Zif268的指3的质粒库的产生。

所述质粒被用作产生下面实施例2描述的锌指结构域的载体。

另外，根据Hudson等所述((1997)Genome Research 7：1169-1173)，有少量修改，进行编码各锌指结构域的DNA序列的缺口修复克隆。

为了克隆各锌指结构域，合成两种重叠的寡核苷酸。每种寡核苷酸包括用于第二轮PCR(rePCR)的5’末端处21-核苷酸长共有尾部和退火至编码各锌指结构域的核酸的特异性序列。正向和反向引物的序列分别是5’-ACCCACACTGGCCAGAAACCCN_48-51-3’(SEQ ID NO：108)和5’-GATCTGAATTCATTCACCGGTN_42-45-3’(SEQID NO：109)，其中N_48-51和N_42-45相应于退火至编码锌指结构域的核酸的定制序列。通过用两种寡核苷酸等克分子混合物扩增模板核酸制备双链DNA。PCR条件组成如下：94℃进行3分钟一次循环，接着是94℃进行1分钟，50℃进行1分钟，和72℃进行30秒，进行5次循环。

然后将编码各锌指结构域的双链DNA用作第二轮PCR的模板。RePCR引物具有两个区，一个区与酵母载体pPCFM-Zif相同，第二个区与上面描述的21-核苷酸长共有尾部序列相同。正向引物序列是5’-TGTCGAATCTGCATGCGTAACTTCAGTCGTAGTGACCACCTTACCACCCACATCCGGACCCACACTGGCCAGAAACCC-3’(SEQ ID NO：138)，反向引物序列是5’-GGTGGCGGCCGTTACTTACTTAGAGCTCGACGTCTTACTTACTTAGCGGCCGCACTAGTAGATCTGAATTCATTCACCGGT-3’(SEQ ID NO：139)。25微升反应混合物中含有2.5皮摩尔的各种引物，1.5mM Mg²⁺，2单位的Taq聚合酶和0.01单位的Pfu聚合酶。反应在94℃进行3分钟，然后进行94℃进行1分钟，65℃进行1分钟，和72℃进行30秒进行20次循环。通过将已经用MscI和EcoRI消化过的rePCR产物和线性化pPCFM-Zif载体的混合物转化到酵母YW1细胞中进行缺口修复克隆。使与酵母载体pPCFM-Zif相同的区与细胞中的载体进行同源重组。

实施例2

锌指结构域文库的构建

通过从人基因组克隆锌指结构域来制备天然存在的锌指结构域的质粒库。利用PCR和简并寡核苷酸引物从模板人基因组DNA(购自PromegaCorporation，Madison，Wis.，USA)扩增编码锌指结构域的DNA片段。用来克隆人锌指结构域的简并PCR引物的DNA序列如下；5’-GCGTCCGGACNCAYACNGGNSARA-3’(SEQ ID NO：81)和5’-CGGAATTCANNBRWANGGYYTYTC-3’(SEQ ID NO：82)，其中R代表G和A；B代表G，C，和T；S代表G和C；W代表A和T；Y代表C和T；和N代表A，C，G，和T。

简并PCR引物退火至编码氨基酸序列His-Thr-Gly-(Glu或Gln)-(Lys或Arg)-Pro-(Tyr或Phe)(SEQ ID NO：83)的核酸序列，发现该序列位于很多天然存在的锌指蛋白中的锌指结构域之间的连接处(Agata等(1998)Gene 213：55-64)。

PCR反应的缓冲液组成是50mM KCl，3mM MgCl₂，10mM Tris pH 8.3。加入Taq DNA聚合酶并且将反应混合物在94℃下温育30秒，42℃下温育60秒，然后72℃下温育30秒。将该循环重复35次，接着最后在72℃下温育10分钟。

如下将PCR产物克隆到pPCFMS-Zif中：将PCR产物电泳，并且分离相应于大约120bp的DNA片段。用BspEI和EcoRI消化之后，将120-bpDNA片段连接pPCFMS-Zif。作为结果，该质粒库编码的杂合转录因子的DNA-结合结构域由Zif268的指1和指2和从人基因组衍生的锌指结构域组成。从总共10⁶个大肠埃希氏杆菌转化体制备质粒库。该文库构建设计保留了锌指结构域之间发现的天然存在的连接体序列。

实施例3

锌指结构域文库的构建

通过随机诱变制备突变体锌指结构域库。使用Zif268的指3作为多肽结构。沿着α-螺旋在-1，2，3，4，5，和6位置处导入随机突变，分别相应于SEQ ID NO：21的73位点处的精氨酸，75位点处的天冬氨酸，76位点处的谷氨酸，77位点处的精氨酸，78位点处的赖氨酸，和79位点处的精氨酸(Zif268的指3内)。

在编码这些氨基酸的核酸序列位点的每一处导入随机化密码子，5’-(G/A/C)(G/A/C/T)(G/C)-3。该随机化密码子编码16个氨基酸的每一个(不包括四种氨基酸：色氨酸，酪氨酸，半胱氨酸和苯丙氨酸)。也不包括所有三个可能的终止密码子。用从下面两个寡核苷酸构建的寡核苷酸盒导入随机化密码子：

5’-GGGCCCGGGGAGAAGCCTTACGCATGTCCAGTCGAATCTTGTGATAGAAGATTC-3’(SEQ ID NO：84)；和5’-CTCCCCGCGGTTCGCCGGTGTGGATTCTGATATGSNBSNBAAGSNBSNBSNBSNBTGAGAATCTTCTATCACAAG-3’(SEQ ID NO：85)，其中B代表G，T，和C；S代表G和C；和N代表A，G，C，和T。

将这两种寡核苷酸退火之后，通过与Klenow聚合酶反应30分钟合成DNA双螺旋盒。用AvaI和SacII消化之后，DNA双螺旋与用SgrAI和SacII消化过的pPCFMS-Zif连接。从大约10⁹个大肠埃希氏杆菌转化体分离质粒。

实施例4

报道质粒的构建

通过修饰pRS315His(Wang和Reed(1993)Nature 364：121-126)制备包括酵母HIS3基因的报道质粒。所述报道质粒还包含筛选携带该质粒的转化体目的的其天然启动子之下的LEU2标记。首先，通过连接SalI和BamHI消化后的pRS315His的小片段和BamHI和XhoI消化之后的大片段去除pRS315His中的SalI识别位点，制备pRS315HisΔSal。接着，通过将寡核苷酸双螺旋插入pRS315HisΔSal BamHI和SmaI位点之间而在HIS3基因的启动子区内产生新的SalI识别位点。退火产生插入的双螺旋的两种寡核苷酸序列是

5’-CTAGACCCGGGAATTCGTCGACG-3’(SEQ ID NO：86)；和

5’-GATCCGTCGACGAATTCCCGGGT-3’(SEQ ID NO：87)。得到的质粒命名为pRS315HisMCS。

通过将期望的复合序列插入到pRS315HisMCS中构建多种报道质粒。插入所述复合序列成为包含复合序列的四个拷贝的串联排列。靶序列衍生自HIV-1的LTR区中发现的10-bp DNA序列(图6)：

5’-GAC ATC GAG C-3’(SEQ ID NO：1) HIV-1LTR(-124/-115)

5’-GCA GCT GCT T-3’(SEQ ID NO：2) HIV-1LTR(-23/-14)

5’-GCT GGG GAC T-3’(SEQ ID NO：3) HIV-1LTR(-95/-86))

和在人CCR5基因的启动子中发现的10bp DNA序列：

5’-AGG GTG GAG T-3’(SEQ ID NO：4) 人CCR5(-70/-79)

5’-GCT GAG ACA T-3’(SEQ ID NO：5) 人CCR5(+7/+16))。

为了鉴定识别所述位点的各个区的锌指结构域，可以将这些10-bpDNA序列的每一个分成4-bp靶位点成分。利用模块组装方法，这样的锌指结构域可以偶联产生体内识别所述位点的DNA结合蛋白。

图6的下划线部分描述4-bp靶序列的实施例。这些4-bp靶序列的每一个连接5-bp补充序列，5’-GGGCG-3’，它被Zif268的指1和指2识别。得到的9-bp序列构成复合结合序列。每一个复合结合序列具有下面的格式：5’-XXXXGGGCG-3’，其中XXXX是4-bp靶序列并且邻接的5’-GGGCG-3’是补充序列。

图7描述插入的复合结合位点串联阵列的DNA序列，每一个与pRS315HisMCS中的报道基因可操作连接。每个串联阵列包含复合序列的四个拷贝。对于每一个结合位点，合成两个寡核苷酸，退火并且连接到用SalI和XmaI位点限制的pRS315HisMCS中制备报道质粒。

实施例5

报道质粒的构建

如下构建对于每个3碱基对亚位点包括一对报道基因(一个具有lacZ，另一个具有HIS3)的一组报道质粒：通过将期望的靶序列插入pRS315HisMCS和pLacZi中构建报道质粒。对于每个3碱基对靶位点，合成两个寡核苷酸，退火并且连接到pRS315HisMCS的和pLacZi的SalI和XmaI位点中制备报道质粒。所述寡核苷酸的DNA序列如下：5’-CCGGT NNNTGGGCG TAC NNNTGGGCG TCA NNNTGGGCG-3’(SEQ ID NO：88)和5’-TCGA CGCCCANNN TGA CGCCCANNN GTA CGCCCANNN A-3’(SEQ IDNO：89)。合成了共64对寡核苷酸并且插入到两个报道质粒中。

实施例6

具有期望的DNA-结合特异性的锌指结构域的筛选

为了筛选特异性结合给定靶序列的锌指结构域，首先用报道质粒并且然后用编码杂合转录因子的杂交质粒库转化酵母细胞。根据Ausubel等所述(Current Protocols in Molecular Biology(1998)，John Wileyand Sons，Inc.)实施酵母转化和筛选程序。使用酵母菌株yWAM2(MATα(alpha)Δgal4Δgal80 URA3：：GAL1-lacZ lys2801 his3-Δ200trp1-Δ63 leu2 ade2-101CYH2)。

在一个例子中，首先用包含复合结合序列5’-GAGCGGGCG-3’(将4-bp靶序列下划线)的报道质粒转化酵母细胞，其中所述复合结合序列与报道基因可操作连接。然后，将随机诱变制备的突变体锌指结构域的质粒库导入转化的酵母细胞。在没有亮氨酸和色氨酸的培养基中获得大约106个菌落。因为报道质粒和锌指结构域表达质粒分别包含酵母LEU2和TRP1基因作为标记，为了筛选包含报道基因和锌指结构域表达质粒的细胞在没有亮氨酸和色氨酸的培养基中培养酵母细胞。

在一个实施方案中，将从人基因组衍生的锌指结构域库转化到携带报道质粒的细胞中。对5个不同的宿主细胞菌株进行转化，包含5个不同的靶序列之一的各菌株与报道基因可操作连接。在没有亮氨酸和色氨酸的培养基中每一次转化获得大约10⁵菌落。转化体在含有没有亮氨酸和色氨酸的合成培养基的培养皿中生长。温育之后，通过对平板施加10％无菌甘油溶液，将菌落刮到溶液中，并且提取溶液，收集转化的细胞。细胞以甘油溶液中冷冻等份贮存。将一等份散布到没有亮氨酸，色氨酸和组氨酸的培养基中。向生长培养基中加入0，0.03，0.1和0.3mM终浓度的3-氨基三唑(AT)。AT是His3的竞争抑制剂并且用滴定法测定HIS3筛选体系的灵敏性。AT抑制His3的基本活性。这样的基本活性能从报道质粒上HIS3基因的渗漏表达产生。培养基上散布大约10⁷个以上酵母细胞，在没有AT的选择性培养基中生长着几百数量级个菌落。菌落的数目随着AT浓度的增加而逐渐减少。含有0.3mM AT的选择性培养基中生长着几十数量级个菌落。从没有AT的培养基和含有0.3mM AT的培养基随机选出几个菌落。从酵母细胞分离出质粒并且转化到大肠埃希氏杆菌菌株KC8(pyrF leuB600 trpC hisB463)中。分离编码锌指转录因子的质粒，并且测定筛选的锌指结构域的DNA序列。

从DNA序列推导出各筛选的锌指结构域的氨基酸序列。根据碱基接触位置，即沿着α-螺旋的-1，2，3，和6位点处四个氨基酸残基命名各锌指结构域。结果如表1所示。根据碱基接触位置处四个氨基酸命名鉴定的锌指结构域。序列分析表明在某些情况下重复获得相同的锌指结构域。表1中圆括号中的数据代表获得了多少次相同的锌指结构域。例如，四个碱基接触位点处具有CSNR的两个锌指被鉴定为结合GAGC核酸位点(参见第3栏，″GAGC/人基因组″)。

表1

*第6栏以右的四字母标识符是对于每一个靶序列分离的锌指结构域的描述符。尽管这些名称指示了碱基接触位点处的氨基酸残基，但是它们不是多肽的序列。

图11给出了编码筛选的人锌指结构域的全长DNA序列和它们翻译的氨基酸序列。与用来扩增编码人基因组中锌指结构域的DNA片段的简并PCR引物互补的DNA序列带下划线。由于在扩增期间导入等位差异和改变，所以该序列可以不同于报道的人基因组序列的原碱基序列。

根据本发明筛选鉴定的大多数人锌指结构域是新的多肽或者相对于无名可读框。例如，在功能未知的蛋白质中发现指定为HSNK(包含在GenBank登记号AF155100报道的序列中)和VSTR(包含在GenBank登记号AF02577报道的序列中)的锌指结构域。这里描述的结果不仅表明这些锌指结构域能够作为序列特异性DNA结合结构域而发挥功能，而且也证明了嵌合蛋白中优选的结合位点偏好。

另外，本发明阐明从人基因组获得的锌指结构域可以被用作构建新的DNA-结合蛋白的组件结构单元。当与Zif268的指1和指2的C-末端连接时，作为它们体内功能的结果，获得本发明的人锌指结构域。因此，鉴定的锌指结构域能够识别人工序列中的特异序列，并且适合作为设计合成转录因子的组件结构单元。

实施例7

成对接合

为了有利于鉴定与每个三碱基对靶位点结合的锌指结构域，利用酵母接合来估计重复性转化酵母细胞的需要和来检索对一次转化的64个报道基因构建体的每一个的阳性结合物。使用两个酵母菌株，YWI(MATα接合型)和YPH499(MATα接合型)。为了产生yWAM2的ura3-衍生物，通过筛选对5-氟代乳清酸(FOA)有抗性的克隆，从yWAM2衍生YW1。

通过酵母转化将锌指结构域的质粒库导入YW1细胞。通过用10％的甘油溶液刮洗平板从大约10个独立的转化菌落收集细胞。将溶液冻干成等份。也将64个报道质粒的每一对(衍生自pLacZi或pRS315 His)共转染到酵母菌株YPH499中。将包含两种报道质粒的转化体收集并且冷冻。

解冻之后，酵母细胞在基本培养基中生长至对数中期。然后混合这两种细胞类型并且使在YPD中接合5小时。在含有X-gal和AT(1mM)但是没有色氨酸，亮氨酸，尿嘧啶，和组氨酸的基本培养基中筛选二倍体细胞。几天之后，分离在选择平板上生长的兰色菌落。从兰色菌落分离编码锌指结构域的质粒，并且测定筛选的锌指结构域的DNA序列。

将从兰色菌落分离的核酸分别转化到YW1细胞中。对于每一种分离的核酸，再转化的YW1细胞在96-孔板中与含有64种LacZ报道质粒的一种的YPH499细胞接合，然后散布在含有X-gal但是没有色氨酸和尿嘧啶的基本培养基中。通过兰色强度测定锌指结构域对于64种靶序列的DNA结合亲合力和特异性。使用Zif268锌指结构域的对照实验表明锌指结构域和结合位点之间的阳性相互作用产生暗至浅兰色菌落，(其兰色强度与结合亲合力成正比)，并且阴性相互作用产生白色菌落。

实施例8

鉴定的锌指结构域与相互作用密码的比较

将选择的锌指结构域关键碱基接触位置处的氨基酸残基与从锌指结构域-DNA相互作用密码推导出的那些相比较(图3)。大多数锌指结构域表现出预期的模式，即关键位置处的氨基酸残基与从密码子推导出的那些匹配很好。

例如，从随机诱变产生的库筛选的锌指结构域中的共有氨基酸残基是-1位处的R(Arg；7/14)或者K(Lys；2/14)，3位处的N(Asp；6/14)，和6位处的R(9/14)(表1)。使用GAGC质粒筛选这些锌指结构域。(其中复合结合序列，5’-GAGCGGGCG-3’，与报道基因可操作连接的报道质粒被称作GAGC质粒。同样，其中序列，5’-XXXXGGGCG-3’，与报道基因可操作连接的报道质粒被称作XXXX质粒)。关键碱基接触位置处的这些氨基酸残基与从密码预期的那些精确匹配。[人基因组中大多数锌指结构域在位置2处含有S(丝氨酸)，丝氨酸残基能够与四种碱基中的任一个形成氢键。因此下面将不再考虑该位置的作用。位置2处的残基在碱基识别中通常只起着小的作用(Pavletich和Pabo(1991)Science 252，809-817)]。

从人基因组获得的锌指结构域中的氨基酸残基也与从密码预期的那些十分匹配。例如，使用GAGC质粒获得的锌指结构域中的位置-1，3，和6处的共有氨基酸残基分别是R，N，和R(表1，第3栏)。这些氨基酸正是从密码推导出的那些。

使用GCTT质粒获得的锌指结构域中的位置-1，3，和6处的氨基酸残基分别是V，T和R(表1，第4栏)。T和R残基正是从密码预测的那些。与GCTT位点的碱基T(下划线)相互作用的位置-1处的密码子推测的氨基酸残基是L，T或N。使用GCTT质粒筛选的VSTR锌指结构域含有V(缬氨酸)，与该位置处的L(亮氨酸)相似的疏水性氨基酸。

总之，筛选的锌指结构域中的氨基酸残基与三个关键位置中至少两个位置处的密码子预测的那些匹配。表1中下划线的是从密码子预测的筛选的锌指结构域中的氨基酸残基。这些结果有力证明这里公开的体内筛选系统正如所预期的发挥功能。

实施例9

再转化和交叉转化

为了排除假阳性结果的可能性和研究上述锌指蛋白的序列特异性，使用分离的质粒进行酵母细胞的再转化和交叉转化。

首先用报道质粒和编码锌指结构域的杂交质粒共转染酵母细胞。将酵母转化体接种到没有亮氨酸和色氨酸的基本培养基中并且温育36小时。将生长培养基中大约1,000个细胞直接点斑到没有亮氨酸，色氨酸和组氨酸的固体培养基中(图10中指定为-组氨酸)和没有亮氨酸和色氨酸的固体培养基中(图10中指定为+组氨酸)。然后将这些细胞在30℃下温育50小时。这些结果在图10中给出。

预期当杂合转录因子的锌指部分结合复合结合序列时，菌落能够在没有组氨酸的培养基中生长，使得杂合转录因子激活HIS3报道基因的表达。当转录因子的锌指部分不结合复合结合序列时，菌落不能够在没有组氨酸的培养基中生长。

如图10所示，分离的锌指结构域能够结合相应的靶序列并且证明序列特异性与Zif268的显著不同。Zif268表现出与GCGT质粒比与其它5种质粒高的活性，并且使用GAGT质粒有相对高活性。具有包含其它结合位点并且表达Zif268蛋白质的报道基因的菌株没有形成菌落。

最初使用GAGC报道质粒筛选从随机突变体库分离的KTNR锌指结构域。根据所期望的，只有用GAGC质粒形成菌落。从人基因组衍生的库获得的锌指结构域也表现出预期的特异性。例如，HSNK，其是用GACT质粒筛选的，当再转化到酵母细胞中时只有用GACT质粒才使细胞生长。VSTR，其是用GCTT质粒筛选的，表现出与GCTT质粒的最高活性。RDER，其是用GAGT质粒筛选的，在四个碱基接触位置具有和Zif268的指3相同的氨基酸残基。根据所期望的，该锌指结构域表现出与指3的相似的序列特异性。用GAGC和GAGT质粒筛选的SSNR使细胞在有GAGC质粒但是没有GAGT质粒的组氨酸-缺乏培养基上生长。用ACAT质粒获得的QSTV使用该项测试中测试的任何质粒都不使细胞生长。但是，根据下面所证明的，该锌指结构域能体外紧密结合ACAT序列。

实施例10

凝胶移位分析

含有使用修饰的单杂种系统筛选的锌指结构域的锌指蛋白在大肠杆菌中表达，纯化，并且在凝胶移位分析中使用。通过用SalI和NotI消化分离杂合质粒中编码锌指蛋白的DNA片段并且插入pGEX-4T2(Pharmacia Biotech)SalI和NotI位点之间。锌指蛋白在大肠杆菌菌株BL21中表达为与GST(谷胱甘肽-S-转移酶)连接的融合蛋白。使用谷胱甘肽亲和层析(Pharmacia Biotech，Piscataway，N.J.)纯化融合蛋白，然后用凝血酶消化，其裂解GST部分和锌指蛋白之间的连接位点。纯化的锌指蛋白含有Zif268的指1和指2和C-末端处的选择的锌指结构域。

合成下面的探针DNAs，退火，使用T4多核苷酸激酶用³²P标记，并且在凝胶移位分析中使用。

GCGT ；5′-CCGGGTCGCGCGTGGGCGGTACCG-3′(SEQ ID NO：90)

3′-CAGCGCGCACCCGCCATGGCAGCT-5′(SEQ IDNO：91)

GAGC；5′-CCGGGTCGCGAGCGGGCGGTACCG-3′(SEQ ID NO：92)

3′-CAGCGCTCGCCCGCCATGGCAGCT-5′(S EQ IDNO：93)

GCTT ；5′-CCGGGTCGTGCTTGGGCGGTACCG-3′(SEQ ID NO：94)

3′-CAGCACGAACCCGCCATGGCAGCT-5′(SEQ IDNO：95)

GACT；5′-CCGGGTCGGGACTGGGCGGTACCG-3′(SEQ ID NO：96)

3′-CAGCCCTGACCCGCCATGGCAGCT-5′(SEQ IDNO：97)

GAGT；5′-CCGGGTCGGGAGTGGGCGGTACCG-3′(SEQ ID NO：98)

3′-CAGCCCTCACCCGCCATGGCAGCT-5′(SEQ IDNO：99)

ACAT；5′-CCGGGTCGGACATGGGCGGTACCG-3′(SEQ ID NO：100)

3′-CAGCCTGTACCCGCCATGGCAGCT-5′(SEQ IDNO：101)

室温下在20mM Tris pH 7.7，120mM NaCl，5mM MgCl₂，20μM ZnSO₄，10％甘油，0.1％Nonidet P-40，5mM DTT，和0.10mg/mL BSA(牛血清白蛋白)中将不同量的锌指蛋白与标记的探针DNA温育1小时，然后使反应混合物进行凝胶电泳。通过PhosphorImager(TM)分析(MolecularDynamics)定量测定放射性信号，根据(Rebar和Pabo(1994)Science263：671-673)所述测定解离常数(K_d)。表2中描述了结果。在至少两个独立的实验中测定所有的常数，指明平均值的标准误差。表2也表明酵母转化体在组氨酸缺乏的基本培养基上的细胞生长(图10)。

表2

*+++，20至100％生长；++，5至20％生长；+，1-5％生长；-，＜1％生长。

使细胞在组氨酸缺乏平板上生长的锌指蛋白紧密结合相应的探针DNAs。例如，用作对照的Zif268蛋白质使携带GCGT和GAGT报道质粒的细胞生长，使用相应的探针DNAs体外测定的解离常数分别是0.024nM和0.17nM。相反，Zif268蛋白质没有使携带其它质粒的细胞生长，并且使用相应的探针DNAs体外测定的解离常数高于1nM。

含有新的锌指结构域的锌指蛋白也表现出相似结果。例如，KTNR蛋白对于GAGC探针DNA表现出强亲和性，解离常数是0.17nM，但是对于GCGT或GACT探针DNA没有表现出强亲和性，解离常数分别是5.5nM或30nM。这种蛋白质只使携带GAGC质粒的细胞生长。HSNK蛋白能紧密结合GACT探针DNA(Kd＝0.32nM)，但是不能结合GCGT或GAGT探针DNA；如所预期的，HSNK蛋白只使携带GACT质粒的细胞生长。

当再转化到酵母中时，使用ACAT报道质粒筛选的QSTV蛋白不能促进携带任何其它报道质粒的细胞生长。凝胶移位分析证明这种蛋白质比对其它探针DNAs更紧密地结合ACAT探针DNA。即，QSTV结合ACAT探针DNA分别比结合GCTT或GCGT探针强13倍或4.3倍。

一般情况下，例如具有三个锌指结构域的锌指蛋白结合DNA序列，解离常数低于1nM，其使得细胞生长，而当锌指蛋白以高于1nM的解离常数结合DNA序列时，其不使细胞生长。以高于1nM但是小于5nM的解离常数结合的锌指蛋白例如在具有四个锌指结构域的嵌合锌指蛋白中也是有用的。

实施例11：TG-ZFD-001″CSNR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-001″CSNR1″。其氨基酸序列是YKCKQCGKAFGCPSNLRRHGRTH(SEQ ID NO：23)。下面的人核酸序列编码该氨基酸序列：

5’-

TATAAATGTAAGCAATGTGGGAAAGCTTTTGGATGTCCCTCAAACCTTCGAA

GGCATGGAAGGACTCAC-3’(SEQ ID NO：22).

作为与Zif268的指1和2融合的多肽，TG-ZFD-001″CSNR1″证明对3-bp靶序列GAA，GAC，和GAG的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GAA＞GAC＞GAG＞GCG。在EMSA中，与Zif268的指1和2融合的TG-ZFD-001″CSNR″融合物和GST纯化手柄对于含有GAC的位点具有0.17nM的表观K_d，对于含有GAG的位点是0.46nM，对于含有GCG的位点是2.7nM。

TG-ZFD-001″CSNR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA，GAC，或GAG的DNA位点的目的。

实施例12：TG-ZFD-002″HSNK″

通过体内从人基因组序列筛选来鉴定TG-ZFD-002″HSNK″。其氨基酸序列是：YKCKECGKAFNHSSNFNKHHRIH(SEQ ID NO：25)。下面的人核酸序列编码该氨基酸序列：

5’-

TATAAGTGTAAGGAGTGTGGGAAAGCCTTCAACCACAGCTCCAACTTCAATA

AACACCACAGAATCCAC-3’(SEQ ID NO：24).

作为与Zif268的指1和2融合的多肽，TG-ZFD-002″HSNK″证明对3-bp靶序列GAC的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GAC＞GAG＞GCG。在EMSA中，与Zif268的指1和2和GST纯化手柄融合的TG-ZFD-002″HSNK″融合物对于含有GAC的位点具有0.32nM的表观K_d，对于含有GAG的位点是3.5nM，对于含有GCG的位点是42nM。

TG-ZFD-002″HSNK″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAC的DNA位点的目的。

实施例13：TG-ZFD-003″SSNR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-003″SSNR″。其氨基酸序列是：YECKECGKAFSSGSNFTRHQRIH(SEQ ID NO：27)。下面的人核酸序列编码该氨基酸序列：

5’-

TATGAATGTAAGGAATGTGGGAAAGCCTTTAGTAGTGGTTCAAACTTCACTC

GACATCAGAGAATTCAC-3’(SEQ ID NO：26).

作为与Zif268的指1和2融合的多肽，TG-ZFD-003″SSNR″证明对3-bp靶序列GAG的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GAG＞GAC＞GCG。在EMSA中，与Zif268的指1和2和GST纯化手柄融合的TG-ZFD-003″SSNR″融合物对于含有GAG的位点具有0.45nM的表观K_d，对于含有GAC的位点是0.61nM，对于含有GCG的位点是3.8nM。

TG-ZFD-003″SSNR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAG或GAC的DNA位点的目的。

实施例14：TG-ZFD-004″RDER1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-004″RDER1″。其氨基酸序列是：YVCDVEGCTWKFARSDELNRHKKRH(SEQ ID NO：29)。下面的人核酸序列编码该氨基酸序列：

5’-

TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATGAGC

TCAACAGACACAAGAAAAGGCAC-3’(SEQ ID NO：28).

作为与Zif268的指1和2融合的多肽，TG-ZFD-004″RDER1″证明对3-bp靶序列GCG的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GCG＞GTG，GAG＞GAC。在EMSA，与Zif268的指1和2和GST纯化手柄融合的TG-ZFD-004″RDER1″融合物对于含有GCG的位点具有0.027nM的表观Kd，对于含有GAG的位点是0.18nM，对于含有GAC的位点是28nM。

TG-ZFD-004″RDER1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG，GTG or GAG的DNA位点的目的。

实施例15：TG-ZFD-005″QSTV″

通过体内从人基因组序列筛选来鉴定TG-ZFD-005″QSTV″。其氨基酸序列是：YECNECGKAFAQNSTLRVHQRIH(SEQ ID NO：31)。下面的人核酸序列编码该氨基酸序列：

5’-

TATGAGTGTAATGAATGCGGGAAAGCTTTTGCCCAAAATTCAACTCTCAGAG

TACACCAGAGAATTCAC-3’(SEQ ID NO：30).

作为与Zif268的指1和2融合的多肽，TG-ZFD-005″QSTV″证明对3-bp靶序列ACA的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是ACA＞GCG＞GCT。在EMSA中，与Zif268的指1和2和GST纯化手柄融合的TG-ZFD-005″QSTV″融合物对于含有ACA的位点具有2.3nM的表观Kd，对于含有GCG的位点是9.8nM，对于含有GCT的位点是29nM。

TG-ZFD-005″QSTV″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列ACA的DNA位点的目的。

实施例16：TG-ZFD-006″VSTR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-006″VSTR″。其氨基酸序列是：YECNYCGKTFSVSSTLIRHQRIH(SEQ ID NO：33)。下面的人核酸序列编码该氨基酸序列：

5’-

TATGAGTGTAATTACTGTGGAAAAACCTTTAGTGTGAGCTCAACCCTTATTA

GACATCAGAGAATCCAC-3’(SEQ ID NO：32).

作为与Zif268的指1和2融合的多肽，TG-ZFD-006″VSTR″证明对3-bp靶序列GCT的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GCT＞GCG＞GAG。在EMSA中，与Zif268的指1和2和GST纯化手柄融合的TG-ZFD-006″VSTR″融合物对于含有GCT的位点具有0.53nM的表观K_d，对于含有GCG的位点是0.76nM，对于含有GAG的位点是1.4nM。

TG-ZFD-006″VSTR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCT或GCG的DNA位点的目的。

实施例17：TG-ZFD-007″CSNR2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-007″CSNR2″。其氨基酸序列是：YQCNICGKCFSCNSNLHRHQRTH(SEQ ID NO：35)。下面的人核酸序列编码该氨基酸序列：

5’-TATCAGTGCAACATTTGCGGAAAATGTTTCTCCTGCAACTCCAACCTCCA

CAGGCACCAGAGAACGCAC-3’(SEQ ID NO：34).

作为与Zif268的指1和2融合的多肽，TG-ZFD-007″CSNR2″证明对3-bp靶序列GAA，GAC，和GAG的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GAA＞GAC＞GAG。

TG-ZFD-007″CSNR2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA，GAC，或GAG的DNA位点的目的。

实施例18：TG-ZFD-008″QSHR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-008″QSHR1″。其氨基酸序列是：YACHLCGKAFTQSSHLRRHEKTH(SEQ ID NO：37)。下面的人核酸序列编码该氨基酸序列：

5’-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGAGTTCTCACCTTAG

AAGACATGAGAAAACTCAC-3’(SEQ ID NO：36).

作为与Zif268的指1和2融合的多肽，TG-ZFD-008″QSHR1″证明对3-bp靶序列GGA，GAA，和AGA的识别特异性。根据体内筛选结果和EMSA测定，其结合位点偏好是GGA＞GAA＞AGA。

TG-ZFD-008″QSHR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA，GAA，或AGA的DNA位点的目的。

实施例19：TG-ZFD-009″QSHR2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-009″QSHR2″。其氨基酸序列是：YKCGQCGKFYSQVSHLTRHQKIH(SEQ ID NO：39)。下面的人核酸序列编码该氨基酸序列：

5’-TATAAATGCGGCCAGTGTGGGAAGTTCTACTCGCAGGTCTCCCACCTCA

CCCGCCACCAGAAAATCCAC-3’(SEQ ID NO：38).

作为与Zif268的指1和2融合的多肽，TG-ZFD-009″QSHR2″证明对3-bp靶序列GGA的识别特异性。

TG-ZFD-009″QSHR2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA的DNA位点的目的。

实施例20：TG-ZFD-010″QSHR3″

通过体内从人基因组序列筛选来鉴定TG-ZFD-010″QSHR3″。其氨基酸序列是：YACHLCGKAFTQCSHLRRHEKTH(SEQ ID NO：41)。下面的人核酸序列编码该氨基酸序列：

5’-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGTGTTCTCACCTTAG

AAGACATGAGAAAACTCAC-3’(SEQ ID NO：40).

作为与Zif268的指1和2融合的多肽，TG-ZFD-010″QSHR3″证明对3-bp靶序列GGA和GAA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GGA＞GAA。

TG-ZFD-010″QSHR3″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA或GAA的DNA位点的目的。

实施例21：TG-ZFD-011″QSHR4″

通过体内从人基因组序列筛选来鉴定TG-ZFD-011″QSHR4″。其氨基酸序列是：YACHLCAKAFIQCSHLRRHEKTH(SEQ ID NO：43)。下面的人核酸序列编码该氨基酸序列：

5’-TATGCATGTCATCTATGTGCAAAAGCCTTCATTCAGTGTTCTCACCTTAGA

AGACATGAGAAAACTCAC-3’(SEQ ID NO：42).

作为与Zif268的指1和2融合的多肽，TG-ZFD-011″QSHR4″证明对3-bp靶序列GGA和GAA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GGA＞GAA。

TG-ZFD-011″QSHR4″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA或GAA的DNA位点的目的。

实施例22：TG-ZFD-012″QSHR5″

通过体内从人基因组序列筛选来鉴定TG-ZFD-012″QSHR5″。其氨基酸序列是：YVCRECGRGFRQHSHLVRHKRTH(SEQ ID NO：45)。下面的人核酸序列编码该氨基酸序列：

5’-TATGTTTGCAGGGAATGTGGGCGTGGCTTTCGCCAGCATTCACACCTGGT-

CAGACACAAGAGGACACAT-3’(SEQ ID NO：44).

作为与Zif268的指1和2融合的多肽，TG-ZFD-012″QSHR5″证明对3-bp靶序列GG；A，AGA，GAA，和CGA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GGA＞AGA＞GAA＞CGA。

TG-ZFD-012″QSHR5″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA，AGA，G从，或CGA的DNA位点的目的。

实施例23：TG-ZFD-013″QSNR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-013″QSNR1″。其氨基酸序列是：FECKDCGKAFIQKSNLIRHQRTH(SEQID NO：47)。下面的人核酸序列编码该氨基酸序列：

5’-TTTGAGTGTAAAGATTGCGGGAAAGCTTTCATTCAGAAGTCAAACCTCA

TCAGACACCAGAGAACTCAC-3’(SEQ ID NO：46).

作为与Zif268的指1和2融合的多肽，TG-ZFD-013″QSNR1″证明对3-bp靶序列GAA的识别特异性。

TG-ZFD-013″QSNR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA的DNA位点的目的。

实施例24：TG-ZFD-014″QSNR2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-014″QSNR2″。其氨基酸序列是：YVCRECRRGFSQKSNLIRHQRTH(SEQ ID 30 NO：49)。下面的人核酸序列编码该氨基酸序列：

5’-TATGTCTGCAGGGAGTGTAGGCGAGGTTTTAGCCAGAAGTCAAATCTCA

TCAGACACCAGAGGACGCAC-3’(SEQ ID NO：48).

作为与Zif268的指1和2融合的多肽，TG-ZFD-014″QSNR2″证明对3-bp靶序列GAA的识别特异性。

TG-ZFD-014″QSNR2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA的DNA位点的目的。

实施例25：TG-ZFD-015″QSNV1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-015″QSNV1″。其氨基酸序列是：YECNTCRKTFSQKSNLIVHQRTH(SEQ ID NO：51)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAATGTAACACATGCAGGAAAACCTTCTCTCAAAAGTCAAATCTCAT

TGTACATCAGAGAACACAC-3’(SEQ ID NO：50).

作为与Zif268的指1和2融合的多肽，TG-ZFD-015″QSNV1″证明对3-bp靶序列AAA和CAA的识别特异性。根据体内筛选结果测定，其结合位点偏好是AAA＞CAA。

TG-ZFD-015″QSNV1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AAA和CAA的DNA位点的目的。

实施例26：TG-ZFD-016″QSNV2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-016″QSNV2″。其氨基酸序列是：YVCSKCGKAFTQSSNLTVHQKIH(SEQ ID NO：53)。下面的人核酸序列编码该氨基酸序列：

5’-TATGTTTGCTCAAAATGTGGGAAAGCCTTCACTCAGAGTTCAAATCTGAC

TGTACATCAAAAAATCCAC-3’(SEQ ID NO：52).

作为与Zif268的指1和2融合的多肽，TG-ZFD-016″QSNV2″证明对3-bp靶序列AAA和CAA的识别特异性。根据体内筛选结果测定，其结合位点偏好是AAA＞CAA。

TG-ZFD-016″QSNV2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AAA和CAA的DNA位点的目的。

实施例27：TG-ZFD-017″QSNV3″

通过体内从人基因组序列筛选来鉴定TG-ZFD-017″QSNV3″。其氨基酸序列是：YKCDECGKNFTQSSNLIVHKRIH(SEQ ID NO：55)。下面的人核酸序列编码该氨基酸序列：

5’-TACAAATGTGACGAATGTGGAAAAAACTTTACCCAGTCCTCCAACCTTA

TTGTACATAAGAGAATTCAT-3’(SEQ ID NO：54).

作为与Zif268的指1和2融合的多肽，TG-ZFD-017″QSNV3″证明对3-bp靶序列AAA的识别特异性。

TG-ZFD-017″QSNV3″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AAA的DNA位点的目的。

实施例28：TG-ZFD-018″QSNV4″

通过体内从人基因组序列筛选来鉴定TG-ZFD-018″QSNV4″。其氨基酸序列是：YECDVCGKTFTQKSNLGVHQRTH(SEQ ID NO：57)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAATGTGATGTGTGTGGAAAAACCTTCACGCAAAAGTCAAACCTTG

GTGTACATCAGAGAACTCAT-3’(SEQ ID NO：56).

作为与Zif268的指1和2融合的多肽，TG-ZFD-018″QSNV4″证明对3-bp靶序列AAA的识别特异性。

TG-ZFD-018″QSNV4″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AAA的DNA位点的目的。

实施例29：TG-ZFD-019″QSSR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-019″QSSR1″。其氨基酸序列是：YKCPDCGKSFSQSSSLIRHQRTH(SEQ ID NO：59)。下面的人核酸序列编码该氨基酸序列：

5’-TATAAGTGCCCTGATTGTGGGAAGAGTTTTAGTCAGAGTTCCAGCCTCAT

TCGCCACCAGCGGACACAC-3’(SEQ ID NO：58).

作为与Zif268的指1和2融合的多肽，TG-ZFD-019″QSSR1″证明对3-bp靶序列GTA和GCA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GTA＞GCA。

TG-ZFD-019″QSSR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GTA或GCA的DNA位点的目的。

实施例30：TG-ZFD-020″QSSR2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-020″QSSR2″。其氨基酸序列是：YECQDCGRAFNQNSSLGRHKRTH(SEQ ID NO：61)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAGTGTCAGGACTGTGGGAGGGCCTTCAACCAGAACTCCTCCCTGG

GGCGGCACAAGAGGACACAC-3’(SEQ ID NO：60).

作为与Zif268的指1和2融合的多肽，TG-ZFD-020″QSSR2″证明对3-bp靶序列GTA的识别特异性。

TG-ZFD-020″QSSR2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GTA的DNA位点的目的。

实施例31：TG-ZFD-021″QSTR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-021″QSTR″。其氨基酸序列是：YKCEECGKAFNQSSTLTRHKIVH(SEQ ID NO：63)。下面的人核酸序列编码该氨基酸序列：

5’-TACAAATGTGAAGAATGTGGCAAAGCTTTTAACCAGTCCTCAACCCTTA

CTAGACATAAGATAGTTCAT-3’(SEQ ID NO：62).

作为与Zif268的指1和2融合的多肽，TG-ZFD-021″QSTR″证明对3-bp靶序列GTA和GCA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GTA＞GCA。

TG-ZFD-021″QSTR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GTA和GCA的DNA位点的目的。

实施例32：TG-ZFD-022″RSHR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-022″RSHR″。其氨基酸序列是：YKCMECGKAFNRRSHLTRHQRIH(SEQ ID NO：65)。下面的人核酸序列编码该氨基酸序列：

5’-TATAAGTGCATGGAGTGTGGGAAGGCTTTTAACCGCAGGTCACACCTCA

CACGGCACCAGCGGATTCAC-3’(SEQ ID NO：64).

作为与Zif268的指1和2融合的多肽，TG-ZFD-022″RSHR″证明对3-bp靶序列GGG的识别特异性。

TG-ZFD-022″RSHR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGG的DNA位点的目的。

实施例33：TG-ZFD-023″VSSR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-023″VSSR″。其氨基酸序列是：YTCKQCGKAFSVSSSLRRHETTH(SEQ ID NO：67)。下面的人核酸序列编码该氨基酸序列：

5’-TATACATGTAAACAGTGTGGGAAAGCCTTCAGTGTTTCCAGTTCCCTTCG

AAGACATGAAACCACTCAC-3’(SEQ ID NO：66).

作为与Zif268的指1和2融合的多肽，TG-ZFD-023″VSSR″证明对3-bp靶序列GTT，GTG，和GTA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GTT＞GTG＞GTA。

TG-ZFD-023″VSSR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GTT，GTG，或GTA的DNA位点的目的。

实施例34：TG-ZFD-024″QAHR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-024″QAHR″。其氨基酸序列是：YKCKECGQAFRQRAHLIRHHKLH(SEQ ID NO：103)。下面的人核酸序列编码该氨基酸序列：

5’-TATAAGTGTAAGGAATGTGGGCAGGCCTTTAGACAGCGTGCACATCTT

ATTCGACATCACAAACTTCAC-3’(SEQ ID NO：102).

作为与Zif268的指1和2融合的多肽，TG-ZFD-024″QAHR″证明对3-bp靶序列GGA的识别特异性。

TG-ZFD-024″QAHR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA的DNA位点的目的。

实施例35：TG-ZFD-025″QFNR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-025″QFNR″。其氨基酸序列是：YKCHQCGKAFIQSFNLRRHERTH(SEQ ID NO：105)。下面的人核酸序列编码该氨基酸序列：

5’-TATAAGTGTCATCAATGTGGGAAAGCCTTTATTCAATCCTTTAACCTTC

GAAGACATGAGAGAACTCAC-3’(SEQ ID NO：104).

作为与Zif268的指1和2融合的多肽，TG-ZFD-025″QFNR″证明对3-bp靶序列GAC的识别特异性。

TG-ZFD-025″QFNR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAC的DNA位点的目的。

实施例36：TG-ZFD-026″QGNR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-026″QGNR″。其氨基酸序列是：FQCNQCGASFTQKGNLLRHIKLH(SEQ ID NO：107)。下面的人核酸序列编码该氨基酸序列：

5’-TTCCAGTGTAATCAGTGTGGGGCATCTTTTACTCAGAAAGGTAACCTCC

TCCGCCACATTAAACTGCAC-3’(SEQ ID NO：106).

作为与Zif268的指1和2融合的多肽，TG-ZFD-026″QGNR″证明对3-bp靶序列GAA的识别特异性。

TG-ZFD-026″QGNR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA的DNA位点的目的。

实施例37：TG-ZFD-028″QSHT″

通过体内从人基因组序列筛选来鉴定TG-ZFD-028″QSHT″。其氨基酸序列是：YKCEECGKAFRQSSHLTTHKIIH(SEQ ID NO：111)。下面的人核酸序列编码该氨基酸序列：

5’-TACAAATGTGAAGAATGTGGCAAAGCCTTTAGGCAGTCCTCACACCTTA

CTACACATAAGATAATTCAT-3’(SEQ ID NO：110).

作为与Zif268的指1和2融合的多肽，TG-ZFD-028″QSHT″证明对3-bp靶序列AGA，CGA，TGA，和GGA的识别特异性。根据体内筛选结果测定，其结合位点偏好是(AGA和CGA)＞TGA＞GGA。

TG-ZFD-028″QSHT″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AGA，CGA，TGA，和GGA的DNA位点的目的。

实施例38：TG-ZFD-029″QSHV″

通过体内从人基因组序列筛选来鉴定TG-ZFD-029″QSHT″。其氨基酸序列是：YECDHCGKSFSQSSHLNVHKRTH(SEQ ID NO：113)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAGTGTGATCACTGTGGAAAATCCTTTAGCCAGAGCTCTCATCTGAA

TGTGCACAAAAGAACTCAC-3’(SEQ ID NO：112).

作为与Zif268的指1和2融合的多肽，TG-ZFD-029″QSHV″证明对3-bp靶序列CGA，AGA，和TGA的识别特异性。根据体内筛选结果测定，其结合位点偏好是CGA＞AGA＞TGA。

TG-ZFD-029″QSHV″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列CGA，AGA，和TGA的DNA位点的目的。

实施例39：TG-ZFD-030″QSNI″

通过体内从人基因组序列筛选来鉴定TG-ZFD-030″QSNI″。其氨基酸序列是：YMCSECGRGFSQKSNLIIHQRTH(SEQ ID NO：115)。下面的人核酸序列编码该氨基酸序列：

5’-TACATGTGCAGTGAGTGTGGGCGAGGCTTCAGCCAGAAGTCAAACCTC

ATCATACACCAGAGGACACAC-3’(SEQ ID NO：114).

作为与Zif268的指1和2融合的多肽，TG-ZFD-030″QSNI″证明对3-bp靶序列AAA和CAA的识别特异性。

TG-ZFD-029″QSHV″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AAA或CAA的DNA位点的目的。

实施例40：TG-ZFD-031″QSNR3″

通过体内从人基因组序列筛选来鉴定TG-ZFD-031″QSNR3″。其氨基酸序列是：YECEKCGKAFNQSSNLTRHKKSH(SEQ ID NO：117)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAATGTGAAAAATGTGGCAAAGCTTTTAACCAGTCCTCAAATCTTA

CTAGACATAAGAAAAGTCAT-3’(SEQ ID NO：116).

作为与Zif268的指1和2融合的多肽，TG-ZFD-031″QSNR3″证明对3-bp靶序列GAA的识别特异性。

TG-ZFD-031″QSNR3″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAA的DNA位点的目的。

实施例41：TG-ZFD-032″QSSR3″

通过体内从人基因组序列筛选来鉴定TG-ZFD-032″QSSR3″。其氨基酸序列是：YECNECGKFFSQSSSLIRHRRSH(SEQ ID NO：119)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAGTGCAATGAATGTGGGAAGTTTTTTAGCCAGAGCTCCAGCCTCA-

TTAGACATAGGAGAAGTCAC-3’(SEQ ID NO：118).

作为与Zif268的指1和2融合的多肽，TG-ZFD-032″QSSR3″证明对3-bp靶序列GTA和GCA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GTA＞GCA。

TG-ZFD-032″QSSR3″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GTA或GCA的DNA位点的目的。

实施例42：TG-ZFD-033″QTHQ″

通过体内从人基因组序列筛选来鉴定TG-ZFD-033″QTHQ″。其氨基酸序列是：YECHDCGKSFRQSTHLTQHRRIH(SEQ ID NO：121)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCA

CTCAGCACCGGAGGATCCAC-3’(SEQ ID NO：120).

作为与Zif268的指1和2融合的多肽，TG-ZFD-033″QTHQ″证明对3-bp靶序列AGA，TGA，和CGA的识别特异性。根据体内筛选结果测定，其结合位点偏好是AGA＞(TGA和CGA)。

TG-ZFD-033″QTHQ″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列AGA，TGA，和CGA的DNA位点的目的。

实施例43：TG-ZFD-034″QTHR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-034″QTHR1″。其氨基酸序列是：YECHDCGKSFRQSTHLTRHRRIH(SEQ ID NO：123)。下面的人核酸序列编码该氨基酸序列：

5’-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCA

CTCGGCACCGGAGGATCCAC-3’(SEQ ID NO：122).

作为与Zif268的指1和2融合的多肽，TG-ZFD-034″QTHR1″证明对3-bp靶序列GGA，GAA，和AGA的识别特异性。根据体内筛选结果测定，其结合位点偏好是GGA＞(GAA和AGA)。

TG-ZFD-034″QTHR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA，GAA，和AGA的DNA位点的目的。

实施例44：TG-ZFD-035″QTHR2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-035″QTHR2″。其氨基酸序列是：HKCLECGKCFSQNTHLTRHQRT(SEQ ID NO：125)。下面的人核酸序列编码该氨基酸序列：

5’-CACAAGTGCCTTGAATGTGGGAAATGCTTCAGTCAGAACACCCATCTG

ACTCGCCACCAACGCACCCAC-3’(SEQ ID NO：124).

作为与Zif268的指1和2融合的多肽，TG-ZFD-035″QTHR2″证明对3-bp靶序列GGA的识别特异性。

TG-ZFD-035″QTHR2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGA的DNA位点的目的。

实施例45：TG-ZFD-036″RDER2″

通过体内从人基因组序列筛选来鉴定TG-ZFD-036″RDER2″。其氨基酸序列是：YHCDWDGCGWKFARSDELTRHYRKH(SEQ ID NO：127)。下面的人核酸序列编码该氨基酸序列：

5’-TACCACTGTGACTGGGACGGCTGTGGATGGAAATTCGCCCGCTCAGAT

GAACTGACCAGGCACTACCGTAAACAC-3’(SEQ ID NO：126).

作为与Zif268的指1和2融合的多肽，TG-ZFD-036″RDER2″证明对3-bp靶序列GCG和GTG的识别特异性。根据体内筛选结果测定，其结合位点偏好是GCG＞GTG。

TG-ZFD-036″RDER2″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG和GTG的DNA位点的目的。

实施例46：TG-ZFD-037″RDER3″

通过体内从人基因组序列筛选来鉴定TG-ZFD-037″RDER3″。其氨基酸序列是：YRCSWEGCEWRFARSDELTRHFRKH(SEQ ID NO：129)。下面的人核酸序列编码该氨基酸序列：

5’-TACAGATGCTCATGGGAAGGGTGTGAGTGGGCGTTTTGCAAGAAGTGAT

GAGTTAACCAGGCACTTCCGAAAGCAC-3’(SEQ ID NO：128).

作为与Zif268的指1和2融合的多肽，TG-ZFD-037″RDER3″证明对3-bp靶序列GCG和GTG的识别特异性。

TG-ZFD-037″RDER3″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG和GTG的DNA位点的目的。

实施例47：TG-ZFD-038″RDER4″

通过体内从人基因组序列筛选来鉴定TG-ZFD-038″RDER4″。其氨基酸序列是：FSCSWKGCERRFARSDELSRHRRTH(SEQ ID NO：131)。下面的人核酸序列编码该氨基酸序列：

5’-TTCAGCTGTAGCTGGAAAGGTTGTGAAAGGAGGTTTGCCCGTTCTGATG

AACTGTCCAGACACAGGCGAACCCAC-3’(SEQ ID NO：130)

作为与Zif268的指1和2融合的多肽，TG-ZFD-038″RDER4″证明对3-bp靶序列GCG和GTG的识别特异性。

TG-ZFD-038″RDER4″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG和GTG的DNA位点的目的。

实施例48：TG-ZFD-039″RDER5″

通过体内从人基因组序列筛选来鉴定TG-ZFD-039″RDER5″。其氨基酸序列是：FACSWQDCNKKFARSDELARHYRTH(SEQ ID NO：133)。下面的人核酸序列编码该氨基酸序列：

5’-TTCGCCTGCAGCTGGCAGGACTGCAACAAGAAGTTCGCGCGCTCCGAC

GAGCTGGCGCGGCACTACCGCACACAC-3’(SEQ ID NO：132).

作为与Zif268的指1和2融合的多肽，TG-ZFD-039″RDER5″证明对3-bp靶序列GCG的识别特异性。

TG-ZFD-039″RDER5″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG的DNA位点的目的。

实施例49：TG-ZFD-040″RDER6″

通过体内从人基因组序列筛选来鉴定TG-ZFD-040″RDER6″。其氨基酸序列是：YHCNWDGCGWKFARSDELTRHYRKH(SEQ ID NO：135)。下面的人核酸序列编码该氨基酸序列：

5’-TACCACTGCAACTGGGACGGCTGCGGCTGGAAGTTTGCGCGCTCAGAC

GAGCTCACGCGCCACTACCGAAAGCAC-3’(SEQ ID NO：134).

作为与Zif268的指1和2融合的多肽，TG-ZFD-040″RDER6″证明对3-bp靶序列GCG和GTG的识别特异性。根据体内筛选结果测定，其结合位点偏好是GCG＞GTG。

TG-ZFD-040″RDER6″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GCG和GTG的DNA位点的目的。

实施例50：TG-ZFD-041″RDHR1″

通过体内从人基因组序列筛选来鉴定TG-ZFD-041″RDHR1″。其氨基酸序列是：FLCQYCAQRFGRKDHLTRHMKKSH(SEQ ID NO：137)。下面的人核酸序列编码该氨基酸序列：

5’-TTCCTCTGTCAGTATTGTGCACAGAGATTTGGGCGAAAGGATCACCTGA

CTCGACATATGAAGAAGAGTCAC-3’(SEQ ID NO：136).

作为与Zif268的指1和2融合的多肽，TG-ZFD-041″RDHR1″证明对3-bp靶序列GAG和GGG的识别特异性。

TG-ZFD-041″RDHR1″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAG和GGG的DNA位点的目的。

实施例51：TG-ZFD-043″RDHT″

通过体内从人基因组序列筛选来鉴定TG-ZFD-043″RDHT″。其氨基酸序列是：FQCKTCQRKFSRSDHLKTHTRTH(SEQ ID NO：141)。下面的人核酸序列编码该氨基酸序列：

5’-TTCCAGTGTAAAACTTGTCAGCGAAAGTTCTCCCGGTCCGACCACCTGA

AGACCCACACCAGGACTCAT-3’(SEQ ID NO：140).

作为与Zif268的指1和2融合的多肽，TG-ZFD-043″RDHT″证明对3-bp靶序列TGG，AGG，CGG，和GGG的识别特异性。

TG-ZFD-043″RDHT″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列TGG，AGG，CGG，和GGG的DNA位点的目的。

实施例52：TG-ZFD-044″RDKI″

通过体内从人基因组序列筛选来鉴定TG-ZFD-044″RDKI″。其氨基酸序列是：FACEVCGVRFTRNDKLKIHMKH(SEQ ID NO：143)。下面的人核酸序列编码该氨基酸序列：

5’-TTTGCCTGCGAGGTCTGCGGTGTTCGATTCACCAGGAACGACAAGCTGA

AGATCCACATGCGGAAGCAC-3’(SEQ ID NO：142).

作为与Zif268的指1和2融合的多肽，TG-ZFD-044″RDKI″证明对3-bp靶序列GGG的识别特异性。

TG-ZFD-044″RDKI″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGG的DNA位点的目的。

实施例53：TG-ZFD-045″RDKR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-045″RDKR″。其氨基酸序列是：YVCDVEGCTWKFARSDKLNRHKKRH(SEQ ID NO：145)。下面的人核酸序列编码该氨基酸序列：

5’-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATA

AGCTCAACAGACACAAGAAAAGGCAC-3’(SEQ ID NO：144).

作为与Zif268的指1和2融合的多肽，TG-ZFD-045″RDKR″证明对3-bp靶序列GGG和AGG的识别特异性。根据体内筛选结果测定，其结合位点偏好是GGG＞AGG。

TG-ZFD-045″RDKR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GGG和AGG的DNA位点的目的。

实施例54：TG-ZFD-046″RSNR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-046″RSNR″。其氨基酸序列是：YICRKCGRGFSRKSNLIRHQRTH(SEQ ID NO：147)。下面的人核酸序列编码该氨基酸序列：

5’-TATATTTGCAGAAAGTGTGGACGGGGCTTTAGTCG′GAAGTCCAACCTTA

TCAGACATCAGAGGACACAC-3’(SEQ ID NO：146).

作为与Zif268的指1和2融合的多肽，TG-ZFD-046″RSNR″证明对3-bp靶序列GAG和GTG的识别特异性。根据体内筛选结果测定，其结合位点偏好是GAG＞GTG。

TG-ZFD-046″RSNR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAG和GTG的DNA位点的目的。

实施例55：TG-ZFD-047″RTNR″

通过体内从人基因组序列筛选来鉴定TG-ZFD-047″RTNR″。其氨基酸序列是：YLCSECDKCFSRSTNLIRHRRTH(SEQID NO：149)。下面的人核酸序列编码该氨基酸序列：

5’-TATCTATGTAGTGAGTGTGACAAATGCTTCAGTAGAAGTACAAACCTCA

TAAGGCATCGAAGAACTCAC-3’(SEQ ID NO：148).

作为与Zif268的指1和2融合的多肽，TG-ZFD-047″RTNR″证明对3-bp靶序列GAG的识别特异性。

TG-ZFD-047″RTNR″可以被用作构建包括多个锌指结构域的嵌合DNA结合蛋白的组件，例如，为了识别含有序列GAG的DNA位点的目的。

现已描述了本发明的很多实施方案。然而，应当明白不超出本发明的精神和范围可以进行各种各样的修饰。因此，其它实施方案在下面的权利要求书范围内。

Claims

1.一种鉴定识别DNA上靶位点的锌指结构域的方法，该方法包括：

(a)提供包含报道构建体的细胞，所述构建体包含与启动子可操作连接的报道基因，其中当转录因子识别启动子的募集位点和靶位点两者时报道基因表达被激活高于给定水平或被抑制低于给定水平，但是当转录因子只识别启动子的募集位点时则不这样；

(b)提供多个杂合核酸，其中每一个编码包含(i)转录激活或抑制结构域，(ii)识别募集位点的DNA结合结构域，和(iii)试验锌指结构域的非天然存在的蛋白质，其中编码的试验锌指结构域的氨基酸序列在所述多个杂合核酸的成员间各不相同；

(c)在使得所述多个杂合核酸中的至少一个进入至少一个细胞的条件下使所述多个杂合核酸接触所述细胞；

(d)在使杂合核酸在所述细胞中表达的条件下保持所述细胞；和

(e)鉴定含有(b)的杂合核酸并且激活报道基因表达高于给定水平或者抑制报道基因表达低于给定水平的细胞，激活报道基因表达高于给定水平或者抑制报道基因表达低于给定水平是细胞包含编码识别靶位点的试验锌指结构域的杂合核酸的指征。

2.权利要求1的方法，其中所述细胞是真核细胞。

3.权利要求2的方法，其中所述细胞是酵母细胞。

4.权利要求3的方法，其中所述细胞是啤酒酵母细胞。

5.权利要求1的方法，其中所述报道基因是可选择标记。

6.权利要求5的方法，其中所述可选择标记选自URA3，HIS3，LEU2，ADE2，和TRP1。

7.权利要求1的方法，其中所述报道基因选自lacZ，CAT，萤光素酶，GUS，和GFP。

8.权利要求1的方法，其中所述DNA结合结构域包含锌指结构域。

9.权利要求8的方法，其中所述DNA结合结构域包含两个锌指结构域。

10.权利要求9的方法，其中所述DNA结合结构域包含三个锌指结构域。

11.权利要求1的方法，进一步包括步骤(i)使用与编码保守结构域边界的序列退火的寡核苷酸引物，从基因组核酸，信使RNA(mRNA)混合物，或者互补DNA(cDNA)混合物扩增编码试验锌指结构域的源核酸，产生扩增的片段；和(ii)使用扩增的片段构建用于包含在步骤(b)中的多个杂合核酸中的杂合核酸。

12.权利要求1的方法，进一步包括步骤(i)在序列数据库中鉴定候选锌指结构域氨基酸序列；(ii)提供编码候选锌指结构域氨基酸序列的候选核酸，和(iii)使用候选核酸构建用于包含在步骤(b)中的多个杂合核酸中的杂合核酸。

13.权利要求5的方法，其中可选择标记是代谢物的合成所需要的辅源营养基因；细胞的基因组缺少所述辅源营养基因的功能拷贝；而且，在步骤(d)期间，细胞维持在没有代谢物制备的培养基中。

14.权利要求1的方法，其中重复步骤(a)-(e)来鉴定识别第二靶位点的第二试验锌指结构域。

15.权利要求14的方法，进一步包括构建编码包含第一试验锌指结构域和第二试验锌指结构域的多肽的核酸。

16.权利要求1的方法，其中鉴定的锌指结构域具有SEQ ID NO：23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、103、105、107、111、113、115、117、119、121、123、125、127、129、131、133、135、137、141、143、145、147和149中任何一个所示的氨基酸序列。

17.权利要求1的方法，其中编码试验锌指结构域的杂合核酸是编码SEQ ID NO：23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、103、105、107、111、113、115、117、119、121、123、125、127、129、131、133、135、137、141、143、145、147和149中任何一个所示氨基酸序列的核酸序列。