CN1610737A

CN1610737A - 嵌合蛋白质的表型筛选

Info

Publication number: CN1610737A
Application number: CNA028244125A
Authority: CN
Inventors: 金晋秀; 朴卿顺; 李东起; 薛媛基; 李镐琳; 李成一; 梁效荣; 李良顺; 张永纯
Original assignee: Toolgen Inc
Current assignee: Toolgen Inc
Priority date: 2001-12-07
Filing date: 2002-12-07
Publication date: 2005-04-27
Anticipated expiration: 2022-12-07
Also published as: EP1451297A1; EP1451297A4; WO2003048345A1; AU2002365796A1; CN100463962C; JP2005511049A; KR20040065235A; US7514257B2; US20040209277A1; US20030194727A1; CA2469477A1

Abstract

一方面，本发明涉及筛选编码不同人工嵌合蛋白质的核酸文库以鉴定改变细胞或生物体表型特性的嵌合蛋白质。所述嵌合蛋白质可不通过特定靶基因或通路的先验知识而鉴定。一些嵌合蛋白质包括多个锌指结构域并可以诱导，例如，耐热性，溶剂耐受性，改变的细胞生长，胰岛素产生，分化和药物抗性。

Description

嵌合蛋白质的表型筛选

背景技术

大多数基因在转录水平上受结合于基因内、典型地是启动子或增强子区域内的特异DNA位点的多肽转录因子调控。这些蛋白质激活或阻抑RNA聚合酶在启动子上的转录起始，因而调控靶基因的表达。许多转录因子，无论激活子还是阻抑子，结构上均含有具有例如DNA结合，二聚体化，或与转录机制相互作用等特殊功能的独特结构域。转录因子的DNA结合部分本身可以由和DNA接触的单独结构域组成。许多DNA结合结构域，包括锌指结构域，同源结构域，和螺旋-转角-螺旋结构域的三维结构已经被NMR和X一射线晶体学数据确定。效应子结构域例如激活结构域或阻抑结构域在转移到异源转录因子的DNA结合结构域时保留了其功能(Brent和Ptashne，(1985)Cell 43：729-36；Dawson等，(1995)Mol.Cell Biol.15：6923-31)。

可以产生锌指结构域的嵌合体的人工转录因子。例如，WO 01/60970(Kim等)描述了确定锌指结构域的特异性和构建识别特异靶位点的人工转录因子的方法。一个关于人工转录因子的申请是去改变特异靶基因的表达。鉴别靶基因中调控区的靶位点，并对人工转录因子进行工程化以识别一个或多个所述的靶位点。当这样的人工转录因子被导入细胞后，他们可以结合相应的靶位点来调节转录。这样控制靶基因表达的策略有时被称为鉴定转录因子的“靶驱动(target-driven)”方法。

发明内容

一方面，本发明描述了一种方法，其包括：(1)提供了一种细胞文库，该文库包含多种细胞，每种细胞均具有表达一种人工嵌合多肽的异源核酸，该多肽包含第一和第二结合结构域，其中第一和第二结合结构域互相异源，并且所述多种细胞中每个成员的第一和第二结合结构域与其他成员是互异的；和(2)鉴别文库中与参照细胞相比发生特性(trait)改变的细胞。结合结构域可以是，例如，独立折叠组件(module)，例如锌指结构域。在许多实施方式中，结合结构域是DNA结合结构域。典型的，参照细胞是不含有文库中的核酸或是含有对照核酸的细胞。参照细胞可以是产生细胞文库的亲代细胞或其衍生细胞。

特性可以是任何可探测的表型，例如可被观察到的，选择的，推断的和/或量化的表型。此处使用的嵌合蛋白质包含至少两个互为异源的结合结构域。这两个结合结构域可以来自不同的天然产生的蛋白质。这两个区域也可以来自相同的天然产生的蛋白质，但是与相应的天然产生的蛋白质相比，它们在嵌合蛋白质中位于不同的构型中。

在许多实施方式中，细胞不含有报道基因。换言之，细胞不通过有关由于嵌合多肽的表达使其调控发生改变的靶基因的先验信息而进行筛选。另外，细胞可以含有报道基因作为与特性有关或无关的附加的指示标记。同样，筛选前，可以获知一个或多个靶基因的信息。

在另一实施方式中，特性是产生一个化合物(例如天然或人工化合物)。该化合物可以是抗生素，抗增生药物，止痛剂，蛋白质等等。

在另一实施方式中，特性是对环境条件，例如重金属，盐度，环境毒素，生物毒素，病原体，寄生虫，其它环境极限条件(例如干燥，热，冷)等等的抗性。在一相关的实施方式中，特性是应激抗性(例如，对热，冷，极端pH，化学药品，如氨，药物，渗透压，和离子辐射)。在另一实施方式中，特性是药物抗性。特性的改变可以是双向的，例如敏感性或增强的抗性。

在另一实施方式中，细胞是植物，动物(例如哺乳动物)，真菌，或细菌细胞。对哺乳动物而言，特性可以是细胞增殖，细胞因子、激素或信号分子的产生，细胞信号通路的激活，生理通路(例如葡萄糖动态平衡，代谢，肥胖)的激活。

DNA结合结构域可以是，例如，锌指结构域。典型的，文库中核酸的第一个锌指结构域变化多样，文库中核酸的第二个锌指结构域也变化繁多。核酸还可以表达至少一个第三DNA结合结构域，例如第三锌指结构域。

每个表达的多肽的锌指结构域可以与不同的天然产生的蛋白质的锌指结构域相同，或者与天然产生的蛋白质不同，例如在DNA接触位置的突变体。天然产生的蛋白质可以是任何真核锌指蛋白质：例如，真菌(例如酵母)，植物，或动物蛋白质(例如哺乳动物蛋白质，例如人或鼠蛋白质)。每种多肽可以还包含第三，第四，第五，和/或第六个锌指结构域。每个锌指结构域可以是哺乳动物的，例如人的锌指结构域。

任选地，所述多种细胞的核酸编码足够数目的不同的锌指结构域以识别至少10，20，30，40，或50个不同的3碱基对的DNA位点。在一个实施方式中，核酸编码了足够数目的不同的锌指结构域以识别不超过30，20，10，或5个不同的3碱基对的DNA位点。

表达自细胞文库的核酸的多肽也可以包括功能性转录调控结构域，例如转录激活、阻抑结构域甲基化结构域，乙酰化结构域，或去乙酰化结构域。而且许多嵌合多肽没有融合到特殊的转录调节结构域中时也是有功能的。编码多肽的核酸可以是可操纵地连接组成性或可诱导的启动子。

该方法可进一步包含从鉴定的细胞中分离核酸。该核酸可被测序。核酸编码的多肽可被分离。该方法还可包含鉴定多肽特异识别的核酸结合位点。结合位点可被鉴定，例如通过对序列数据库，特别是调控序列数据库进行计算机字串搜索(string search)或分布图搜索(profile search)，或通过体外选择结合多肽的核酸(例如SELEX)。可分析核酸序列的计算机数据库以确定鉴定的核酸结合位点相似于鉴定的结合位点的出现情况。

该方法还可包含分析鉴定的细胞中一或多个内源基因的表达或一或多个内源表达的多肽的水平/活性，例如使用mRNA检测(mRNAprofiling)(例如使用微阵列分析)，2-D凝胶电泳，蛋白质配体(例如抗体)阵列，和/或质谱法。并且，单一或小数目的基因或蛋白质也可被检测。在另一实施方式中，比较表达受鉴定的嵌合多肽表达改变的基因的调控区来鉴定可以决定因嵌合多肽的表达直接或间接导致的协调调控的候选位点。

该方法还可包括培养细胞以产生可改变的特性。例如，如果改变的特性是增加产生代谢物，该方法可包括培养细胞以产生代谢物。该细胞可以来自于文库，或者是导入了编码嵌合多肽核酸的细胞。嵌合多肽的表达可被调节，例如通过可诱导的启动子，以便可细微地区分特性，或者与另一个条件启动子区分(例如细胞类型特异启动子)。含有编码嵌合多肽核酸的细胞可被导入生物体(例如离体处理)，或用于产生转基因生物。

在一实施方式中，至少一些文库成员编码了具有不同调控结构域的蛋白质。例如，一些文库成员可以包括激活结构域，而其它成员包含抑制结构域。例如，在某种情况下文库中DNA结合结构域的特定组合可表示为与激活结构域融合，在另一种情况下，与阻抑结构域融合。在另一实施方式中，一些文库成员包含激活结构域，然而其它不含有调控结构域。

以下是一些示范表型：扩增干细胞群(例如造血干细胞，神经干细胞，表皮干细胞，或脐带血干细胞)和其它在体外扩增能力有限的细胞；抑制干细胞的分化；细胞(例如分化细胞或干细胞)的多能性增加；改变的应激抗性(例如对环境条件如热，冷，极端pH，化学试剂如细胞培养中产生的氨，药物，盐(渗透压)，离子辐射等抗性增加或降低)；对离子辐射或毒性试剂(例如抗肿瘤药物细胞)敏感性增加，例如肿瘤细胞中敏感性升高；支持病毒感染/复制(例如丙型肝炎病毒的复制)；抗病原体，例如病毒，细菌，或原生生物的能力；细胞内RNAi效率的增加；转化效率的增加；细胞或生物体衰老过程的阻滞或延迟；在无血清，无生长因子的化学合成培养基中生长；包涵体形成的减少或丧失；和细胞蛋白质分泌的增加。

这些方法的典型应用包含：鉴定病原体(例如病原微生物)中必需基因，鉴定微生物的致病所需的(宿主或病原体的)基因，鉴定候选药物靶，发现信号传导通路基因，微生物工程和工业生物技术，增加具有商业价值的代谢物的产量，和调节生长习性(例如提高微生物生长，或者减少肿瘤细胞生长)。

在另一方面，本发明提供了一种培养细胞，其含有(a)编码蛋白质的(内源或外源)基因，和(b)人工转录因子，其中该细胞以比含有该基因但不含有该转录因子的同种细胞更高的水平表达该蛋白质，并且其中转录因子以不是结合可操纵地连接该基因的调控区域的方式影响蛋白质的生产。术语“人工”指非天然产生。术语“基因”指“编码序列”，可以是cDNA或基因组(即具有内含子)的，且可以是内源或外源的(瞬时或稳定转染)。

人工转录因子可含有至少包括两个，三个，或四个锌指结构域的嵌合DNA结合结构域。人工转录因子还可包括调控结构域(摘要中所列激活和抑制结构域)。至少一或两个单独的锌指结构域可以天然产生(例如哺乳动物，植物，或人)。在一实施方式中，所有锌指结构域都是天然产生的。

人工转录因子可由该细胞的异源基因编码。编码异源转录因子的异源基因可被可诱导的启动子调控。该细胞还可包括至少一个第二人工转录因子。

例如，(i)人工转录因子引起该细胞或缺失第一个基因但在其他方面均与之相同的一种培养细胞产生的由可操纵地连接到一个调控区域(其不是可操纵地连接到第一个基因的调控区域)的第二个基因编码的蛋白质水平比含有第二个基因但没有该转录因子的同种细胞要高，且(ii)该转录因子通过不同于结合到可操纵地连接到该第二个基因的调控区域的方式影响第二种蛋白质的生产。在另一实施方式中，(i)该细胞进一步包括编码第二种蛋白质的第二个基因，(ii)该细胞产生的第二种蛋白质比含有该第二个基因但不含有该转录因子的同种细胞的水平要高，和(iii)该转录因子通过不同于结合到可操纵地连接到该第二个基因的调控区域的方式影响该第二种蛋白质的生产。可操纵地连接到第一个基因的调控区域可以和可操纵地连接到第二个基因的调控区域不同。

第一个和第二个转录因子选自于：

a)含有SEQ ID NO：21

(FECKDCGKAFIQKSNLIRHQRTHTGEKPYACPVESCDRRFSDSSNLTRHIRIHTGEKPYACPVESCDRRFSDSSNLTRHIRIH)的氨基酸序列的多肽；

b)含有SEQ ID NO：22

(SCGICGKSFSDSSAKRRHCILHTGEKPYVCDVEGCTWKFARSDKLNRHKKRHTGEKPYVCDVEGCTWKFARSDELNRHKKRHTGEKPYECHDCGKSFRQSTHLTRHRRIH)的氨基酸序列的多肽；

c)含有SEQ ID NO：23

(YECDHCGKSFSQSSHLNVHKRTHTGEKPYRCEECGKAFRWPSNLTRHKRIHTGEKPYRCEECGKAFRWPSNLTRHKRIHTGEKPFACPECPKRFMRSDNLTQHIKTH)的氨基酸序列的多肽。

在另一实施方式中，本发明提供了生产蛋白质的方法。该方法包括提供了此处描述的细胞(例如上述)；在可以允许比含有基因但没有转录因子的同种细胞产生的水平要高的水平(例如至少两，十或一百倍)生产蛋白质的条件下培养细胞；检测细胞生产的蛋白质和/或从细胞和/或从细胞周围的培养基中纯化表达的蛋白质。基因可是内源或外源基因。内源基因可是天然产生的基因或是相对于天然产生的基因经遗传改变的基因(例如插入或修饰调控序列)。内源基因的实例包括编码激素，细胞表面受体，抗体，生长因子，粘附因子，神经递质，和酶的基因。外源基因可被可操纵地连接到病毒启动子，例如CMV或腺病毒启动子。细胞可以是哺乳动物细胞。

该方法还可包括导入细胞到对象中。方法还可包括用药物学可接受的载体配制纯化的蛋白质。

该方法可包括一个或多个下述特征：细胞中转录因子的量可有效提高可操纵地连接到CMV启动子的基因所编码的萤光素酶标记蛋白质的生产达至少1.1倍，或2倍；细胞中转录因子的量可有效提高可操纵地连接到SV40启动子的基因所编码的分泌的碱性磷酸酶标记蛋白质的生产达至少2，5，7，10倍；转录因子直接改变许多内源基因的表达；转录因子改变细胞分裂的速度；转录因子竞争结合PB08、K_F02或K_D10特异识别的天然产生的DNA结合位点，并且对DNA位点具有低于50nM的解离常数；转录因子特异识别与PB08、K_F02或K_D10特异识别的DNA结合位点部分重叠的DNA位点；转录因子包括两个连续锌指结构域，其选自于QSNR-DSNR；DSNR-DSNR；DSAR-RDKR；RDKR-RDER；RDER-QTHR；QSHV-WSNR；WSNR-WSNR；WSNR-RDNQ，QSNR1-QSNK；QSNK-CSNR1，其中每4个字母标识识别锌指结构域的-1，+2，+3，和+6位DNA接触残基的氨基酸；转录因子含有SEQ ID NO：21，22或23的氨基酸序列。

转录因子可含有SEQ ID NO：21，22或23的1到8个氨基酸取代、插入或删除的氨基酸序列。取代可在不同于DNA接触残基的位置，例如金属协同半胱氨酸和-1位之间。取代可以是连续取代。转录因子包含图17，18和19的核酸序列编码的氨基酸。

在另一实施方式中，转录因子含有下述三个锌指结构域：

a)Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQID NO：24)；

b)Cys-X_2-5-Cys-X₃-X_a-X-Asp-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQID NO：25)；和

c)Cys-X_2-5-Cys-X₃-X_a-X-Asp-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQID NO：26)，例如在不变位置具有一到三个取代。

在另一实施方式中，转录因子含有至少3个下述4个锌指结构域(如此顺序)：

a)Cys-X_2-5-Cys-X₃-X_a-X-Asp-X-Ser-Ala-X_b-X-Arg-His-X_3-5-His(SEQID NO：27)；

b)Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Arg-His-X_3-5-His(SEQID NO：28)；

c)Cys-X_2-5-CyS-X₃-X_a-X-Arg-X-Asp-Glu-X_b-X-Arg-His-X_3-5-His(SEQID NO：29)；和

d)Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Arg-His-X_3-5-His (SEQID NO：30)，例如，在不变位置具有一到三个取代。

a)Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Val-His-X_3-5-His(SEQID NO：31)；

b)Cys-X_2-5-Cys-X₃-X_a-X-Trp-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQID NO：32)；

c)Cys-X_2-5-Cys-X₃-X_a-X-Tip-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His(SEQID NO：33)；和

d)Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Asn-X_b-X-Lys-His-X_3-5-His(SEQID NO：34)，例如，在不变位置具有一到三个取代。上述序列中，X_a是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和X_b是任意氨基酸，或任选地为一种疏水氨基酸。

另一方面，本发明提供了一种生产靶蛋白质的方法，包括在细胞中(例如体外或体内)表达编码该靶蛋白质的核酸，其中的细胞包含异源人工转录因子，相对于没有该异源转录因子的细胞，其可提高蛋白质的产量。在一个实施方式中，该异源转录因子通过不同于直接调控编码靶蛋白质的基因的转录的机制引起产量升高。例如，异源转录因子不结合直接调控编码靶基因的核酸的转录调控区域。转录因子可作为蛋白质或通过导入和转录编码其的核酸导入细胞。该方法可含有其它此处描述的特征。

在另一个方面，本发明提供了一种鉴定转录因子的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码一种不同的人工转录因子，每个转录因子含有至少2个互为嵌合的锌指结构域；导入文库成员到一种细胞；鉴定第一种靶蛋白质生产提高的细胞，其中第一种靶蛋白质由可操纵地连接到第一个转录调控序列的基因编码；评估文库成员提高生产第二种靶蛋白质的能力，该第二种靶蛋白质由可操纵地连接到不同于该第一个转录调控序列的第二个转录调控序列的基因编码。

该方法可以包含一个或多个下述特征：第一种和第二种靶蛋白质相同；文库成员导入的细胞每种都含有编码可操纵地连接到第二个转录调控序列的第二种靶蛋白质的基因；细胞是真核细胞；第一个和/或第二个转录调控序列包括病毒调控序列；该方法进一步包括制备含有编码提高第一种和第二种靶蛋白质生产的文库成员编码的转录因子的基因的宿主细胞；该方法进一步包括生产第三种靶蛋白质，其不同于宿主细胞的第一种和第二种靶蛋白质；并且评估，包括评估鉴定的细胞。第二种或第三种靶蛋白质可以是，例如，分泌蛋白质，例如，促红细胞生成素，血小板生成素，生长因子，白细胞介素，或化学因子。在另一实施方式中，靶蛋白质是酶，例如催化代谢物生成通路反应的酶。也可包括此处描述的其它特征。

在一相关方面，本发明提供了一种鉴定蛋白质嵌合体的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码含有至少两个锌指结构域的不同的人工蛋白质嵌合体；提供在特定条件下生产指定水平的第一种靶蛋白质的检测细胞；其中第一种靶蛋白质是可操纵地连接到第一个转录调控序列的基因编码的；将每个成员导入检测细胞的复制体以提供多种转化细胞；从所述多种转化细胞或其子代细胞中鉴定在特定条件下，生产与指定水平不同的水平的第一种靶蛋白质的细胞；并且评估文库成员在鉴定的细胞中提高第二种靶蛋白质生产的能力，该第二种靶蛋白质是由可操纵地连接到不同于第一个转录调控序列的一个第二个转录调控序列的基因编码的。也可包括此处描述的其它特征。

另一方面，本发明提供了一种宿主细胞，其遗传物质包括：编码可提高靶蛋白质生产的人工转录因子的异源基因，其中该靶蛋白质的生产与缺少该异源基因但其他方面均相同的对照宿主细胞相比至少提高了30％。在一个实施方式中，转录因子不直接调控靶蛋白质的转录。在另一实施方式中，转录因子直接调控靶蛋白质的转录。宿主细胞可以包括一段序列或一个报道构建体，如可操纵地连接到启动子(例如病毒启动子)的编码lacZ，分泌的碱性磷酸酶(SEAP)，GFP，萤光素酶等的序列。也可包括此处描述的其它特征。

另一方面，本发明提供了一种宿主细胞，其遗传物质包括编码含有至少2，3，或4个锌指结构域，结合天然产生的DNA位点，例如具有小于50nM的平衡解离常数并且与PB08，K_F02，或K_D10竞争结合天然产生的DNA结合位点的多肽的基因。细胞可以包括此处描述的其它特征。

另一方面，本发明提供了一种宿主细胞，其遗传物质包括编码靶蛋白质的第一个异源基因，和编码可提高靶蛋白质生产的人工转录因子的第二个异源基因，其中该靶蛋白质的生产与缺少该第二个异源基因但其他方面均相同的对照宿主细胞相比至少提高了30％％，其中转录因子不直接调控靶蛋白质的转录。细胞可包括此处描述的其它特征。

在另一方面，本发明提供了一个分离的多肽，其包括：序列：X_a-X-Cys-X_2-5-Cys-X₃-X_a-X₅-X_b-X-Arg-His-X_3-5-His-X_1-6-X_a-X-Cys-X_2-5-Cys-X₃-X_a-X₅-X_b-X-Arg-His-X_3-5-His-X_1-6-X_a-X-Cys-X_2-5-Cys-X₃-X_a-X₅-X_b-X-Arg-His-X_3-5-His(SEQ ID NO：35)，而且在有效浓度时在人293细胞中其具有一或多个下述效果：a)提高编码可操纵地连接到CMV启动子的萤光素酶的基因表达至少2倍；b)提高编码可操纵地连接到SV40启动子的SEAP的基因表达至少2倍和c)提高或降低细胞分裂速度至少50％。

在另一方面，本发明提供了改变后生动物细胞(metazoan cell)分化状态的方法，该方法包括：在细胞中表达有效量的人工转录因子以改变细胞的分化状态。在一个实施方式中，分化状态特征为神经表型(例如轴突伸展，突触形成，或神经标记表达)或成骨细胞表型(例如成骨细胞标记表达)。在一个实施方式中，分化状态被改变以提高细胞的多能性，例如使其少分化，例如功能上作为干细胞或前体细胞。在一个实施方式中，分化状态从一个分化状态改变为另一个(例如从成肌细胞状态到成骨细胞状态，从神经元状态到胶质细胞状态，等等)。在一个实施方式中，人工转录因子引起轴突伸展。细胞可以是，例如，干细胞，神经元细胞，神经鞘细胞，或神经祖细胞。人工转录因子可以是此处描述的转录因子，例如Neuro1-p65或Neuro1相关分子(见下)。人工转录因子可以和Neuro1-p65竞争结合天然DNA结合位点。人工转录因子可以结合与Neuro1-p65相同的位点或重叠Neuro1-p65结合的DNA位点。

在另一实施方式中，人工转录因子诱导了成骨细胞特异性标记，例如在起先不是成骨细胞，例如成肌细胞中诱导了成骨细胞特异性标记。

在另一实施方式中，本发明提供了鉴定转录因子的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子包含至少2个锌指结构域；导入文库成员到细胞中；和鉴定改变了分化状态的细胞。该方法包括一或多个下述特征：细胞是干细胞；细胞是神经元细胞，神经鞘细胞，或神经祖细胞；和分化状态包括神经元长出(outgrowth)或轴突形成。也可包括其它特征。

在另一方面，本发明提供了鉴定多种转录因子的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码一个人工转录因子，每个转录因子含有至少2个锌指结构域；鉴定文库的第一个成员，其改变了细胞的给定特性；和筛选细胞以鉴定细胞的给定特性被进一步改变的，其中每种筛选的细胞表达文库的第一个成员编码的转录因子和同一核酸文库或另一人工转录因子核酸文库的第二个成员编码的转录因子。该方法可以包括在存在第一个和第二个转录因子时进行更多轮筛选。有时，该方法包括鉴定文库第二个成员，其反向改变第一个成员影响的表型状态。该方法可以包括此处描述的其它特征。

另一方面，本发明提供了制备修饰细胞的方法，该方法包括提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子包括至少2个锌指结构域；鉴定第一个和第二个文库成员，其改变了细胞的给定特性；和制备表达第一种和第二种多肽的细胞，第一种和第二种多肽由第一个和第二个鉴定的文库成员分别编码。该方法也可延伸到更多成员，例如第三个成员。该方法也可包括评估制备细胞的给定特性。

该方法也可包括一或多个下述特征：制备步骤包括将编码第一种多肽的第一个基因和编码第二种多肽的第二个基因导入细胞；第一个和第二个基因是同一核酸的成分；其中制备步骤包括将具有编码第一种多肽的第一个基因的第一种细胞与具有编码第二种多肽的第二个基因的第二种细胞融合；给定的特性是生产代谢物；给定的特性是生产靶多肽；生产包括分泌。也可应用此处描述的其它特征。

下述方法与使用病毒筛选生物ZFP文库有关。鉴定转录因子的方法包括：提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子包含至少2个锌指结构域；组装每个文库成员到可感染哺乳动物的病毒或病毒颗粒以形成多种病毒或病毒颗粒；将所述多种病毒或病毒颗粒导入非人哺乳动物对象中；和鉴定改变了表型的对象。例如，每个对象具有可检测的异常；多种病毒或病毒颗粒被分成池(pool)，每个池被导入对象之一；所述多种病毒或病毒颗粒包括分离的样品，每个样品具有包装其中的核酸文库的一种核酸，并且单个样品被导入每个对象。

一方面，本发明提供了修饰的细胞，其包含编码人工转录因子的异源核酸，该人工转录因子使得修饰的细胞相对于参照细胞而言具有应激抗性，所述参照细胞基本上与修饰的细胞相同但缺少该异源核酸和人工转录因子。例如，人工转录因子包含至少2个锌指结构域。一或多个锌指结构域可是天然产生的，例如表1的天然产生的结构域。示范的人工转录因子包含具有一或多个此处描述的连续的基序的转录因子，例如此处描述的耐热或耐溶剂的蛋白质。

修饰的细胞可以是原核或真核细胞。应激抗性可包含一或多个下述特性：抗热，抗溶剂，抗重金属，抗渗透压，抗极端pH，抗化学物，抗冷，和抗基因毒剂，抗放射性。应激抗性使抗性细胞可在非抗性细胞死亡或不能生长的条件下存活或生长。例如，修饰的细胞可表达人工转录因子而在比缺少人工转录因子的基本上相同的培养细胞更广的范围内抵抗刺激。本发明也提供了这样的人工蛋白质，而且蛋白质改变了细胞相对于不含有该核酸的同种细胞的对毒性试剂的敏感性。

另一方面，该方法包括生产细胞产物的方法。该方法包括提供含有编码人工转录因子的异源核酸的修饰的细胞；在产生人工转录因子的条件下维持修饰的细胞；和回收培养细胞产生的产物，其中产物不是人工转录因子。例如，人工转录因子可产生应激抗性，或另一个此处描述的性质，例如，改变的蛋白质生产，改变的代谢物生产等等。例如，人工转录因子包含至少2个锌指结构域。一或多个锌指结构域可是天然产生的，例如，表1的天然产生的结构域。示范的人工转录因子包含此处描述的具有一或多个连续基序(例如至少2，3，或4个连续的基序，或至少3个同样的基序，包括非连续的)的转录因子。

示范的产物包括代谢物或蛋白质(例如，内源或异源蛋白质。例如，修饰的细胞包含编码不是人工转录因子的异源蛋白质的核酸，而且产物是异源蛋白质。另一实施方式中，修饰的细胞进一步包含第二个编码异源蛋白质的核酸，异源蛋白质参与代谢物的生产。修饰的细胞可维持在20℃和40℃之间或高于37℃。一个实施方式中，修饰的细胞维持在抑制缺少人工转录因子的基本同种的细胞生长的条件下。

一个实施方式中，锌指结构域包含一套相应于表15所列的锌指结构域的DNA接触残基的DNA接触残基。相关实施方式中，人工转录因子包含一组至少3个锌指结构域，其中该组的每个锌指结构域的DNA接触残基分别对应于表15的一行中所列的任何3个连续锌指结构域的DNA接触残基。一个实施方式中，人工转录因子与含有表15的一行中所列的一组锌指结构域相竞争。

另一方面，本发明提供了包含编码靶蛋白质的基因(例如，内源或异源基因)和含有编码人工蛋白质嵌合体序列的异源核酸的细胞，该人工蛋白质嵌合体(1)使该细胞生产的蛋白质量相对于不含有异源核酸细胞的生产量升高，并且(2)不结合直接调控编码靶蛋白质的基因转录的转录调控区。例如，人工转录因子包括至少2个锌指结构域，和，例如，结合DNA。一或多个锌指结构域可以是天然产生的，例如，表1的天然产生的结构域。示范的人工转录因子包括具有一或多个此处描述的连续基序的转录因子。一个实施方式中，细胞是真核细胞，而且人工蛋白质嵌合体与PB08，K_F02，或K_D10竞争结合基因组DNA位点。

一个实施方式中，人工蛋白质嵌合体改变了(例如，增加或减少)细胞的细胞周期进展的速率。本发明还提供了此种人工转录因子。

细胞可被用于生产蛋白质的方法中，该方法包括：提供细胞，和在人工蛋白质嵌合体提高了该细胞相对于不含有异源核酸细胞生产的靶蛋白质的量的条件下维持细胞。例如，蛋白质是分泌蛋白质，细胞质蛋白质，或核蛋白质。

另一方面，本发明提供了含有编码分泌蛋白质的内源基因和包括编码人工转录因子的序列的异源核酸的细胞，该人工转录因子提高了该细胞相对于不含有异源核酸的细胞生产的分泌蛋白质的量。一个实施方式中，细胞是真核细胞，且分泌蛋白质是胰岛素。一个实施方式中，人工转录因子特异地结合也是08_D04_p65特异性结合的内源DNA位点。另一实施方式中，人工转录因子特异性结合内源DNA位点而且人工转录因子与08_D04_p65竞争结合该内源DNA位点。例如，人工转录因子包括如下氨基酸序列：

CX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDHJXTHX_(3-5)H(SEQ ID NO：45)；或

CX_(2-5)CXXXBXRXDHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSSJXRHX_(3-5)H(SEQ ID NO：46)

其中B是苯丙氨酸或酪氨酸；和J是一种疏水氨基酸。

细胞可被用于生产分泌蛋白质(例如胰岛素)的方法中。例如，细胞维持在人工转录因子提高细胞相对于不含有异源核酸的细胞生产的胰岛素量的条件下。同样，本发明提供了含有至少2个锌指结构域的人工转录因子，其中人工转录因子诱导了哺乳动物细胞内源胰岛素基因的表达，该细胞在没有人工转录因子时是不表达内源胰岛素基因的。

另一方面，本发明提供了人工转录因子，其改变细胞相对于不含有该核酸的细胞对毒性试剂(例如，药物，例如，抗真菌药物，例如，酮康唑)的敏感性。敏感性可被增加或降低。一个实施方式中，细胞是真菌细胞。例如，人工转录因子包括至少2个锌指结构域，例如，至少3个。一或多个锌指结构域可以是天然产生的，例如，表1的天然产生的结构域。示范的人工转录因子包括具有此处描述的一或多个连续基序的转录因子。例如，人工转录因子结合内源DNA位点和人工转录因子表5所列锌指蛋白质竞争结合内源DNA位点。

另一方面，本发明提供了改变真菌细胞药物抗性的方法。该方法包括改变一种蛋白质的表达或活性，该蛋白质与所述细胞内的AQY1，YJR147W，YLL052C，YLL053C或YPL091W具有至少70％的相同性。表达可被改变，例如使用转录因子。

另一方面，本发明提供了鉴定改变细胞对毒性试剂敏感性的人工嵌合蛋白质的方法，该方法包括：提供包含多种核酸的核酸文库，每种核酸编码一种嵌合蛋白质，该嵌合蛋白质包括一组至少3个锌指结构域，其中至少2个邻近的锌指结构域在天然产生的蛋白质中是不互相邻近的；导入文库成员到检测细胞的复制细胞以产生转化细胞；在存在毒性试剂下培养转化细胞；和从转化细胞中鉴定相对于测试细胞改变了对毒性试剂敏感性的细胞。例如，测试细胞是真菌细胞，而毒性试剂是抗真菌试剂。另一实施方式中，测试细胞是癌细胞，而毒性试剂是抗有丝分裂试剂。每种核酸编码的嵌合蛋白质可包括转录调控结构域。

该方法还可包括构建编码第二种嵌合蛋白质的核酸，该嵌合蛋白质包含一组所选细胞的文库成员编码的嵌合蛋白质的锌指结构域，但不包含鉴定细胞的文库成员编码的嵌合蛋白质的转录调控结构域。该方法还包括构建编码第二种嵌合蛋白质的核酸，该嵌合蛋白质包括(i)一组所选细胞的文库成员编码的嵌合蛋白质的锌指结构域，和(ii)转录调控结构域，其不同于鉴定细胞中的由文库成员编码的嵌合蛋白质的转录调控结构域。

另一方面，本发明提供了包含含有3个锌指结构域的编码人工转录因子的序列的核酸，其中人工转录因子的表达在至少一个脊椎动物细胞中诱导了神经元表型。一个实施方式中，至少一个锌指结构域具有序列：

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：250)

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：251)；或

Cys-X_2-5-Cys-X₃-X_a-X-Cys-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：252)，

其中X_a是苯丙氨酸或酪氨酸；和X_b是疏水氨基酸。例如，人工转录因子包括序列：Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Cys-X_b-X-Ser-Asn-His-X_3-5-His(SEQ IDNO：253)，其中X_a是苯丙氨酸或酪氨酸；和X_b是一种疏水氨基酸。

一个方法包括提供含有核酸的脊椎动物细胞(例如，哺乳动物细胞，人)；和在产生人工转录因子和诱导轴突形成的条件下维持脊椎动物细胞。一个实施方式中，脊椎动物细胞在产生人工转录因子前是干细胞。

另一方面，本发明提供了含有包含3个锌指结构域的人工转录因子的序列的核酸，其中人工转录因子的表达在至少一个脊椎动物细胞中诱导了骨生成。例如，至少1个锌指结构域具有序列：

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：254)；

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Thr-His-His-X_3-5-His(SEQ ID NO：255)；

Cys-X_2-5-Cys-X₃-X_a-X-Val-X_b-X-Ser-Thr-His-X_3-5-His(SEQ ID NO：256)或；

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：257)，

其中X_a是苯丙氨酸或酪氨酸；和X_b是一种疏水氨基酸；或人工转录因子包含氨基酸序列：

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Thr-His-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Val-X_b-X-Ser-Thr-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：258)，其中X_a是苯丙氨酸或酪氨酸；和X_b是疏水氨基酸。

一个方法包含提供含有该核酸的脊椎动物细胞；和在产生人工转录因子和诱导骨生成的条件下维持脊椎动物细胞。

另一方面，本发明提供了改变干细胞分化能力的方法。该方法包括：提供干细胞和含有编码具有多个锌指结构域的转录因子的序列的核酸，其中人工转录因子改变了干细胞的分化能力；导入核酸到干细胞；和在产生人工转录因子因而改变干细胞分化能力的条件下维持干细胞。例如，人工转录因子诱导干细胞的分化。另一实施方式中，人工转录因子提高了干细胞的自我恢复潜力。干细胞可是胚胎干细胞，脊椎动物干细胞，植物干细胞，造血干细胞，神经元祖细胞或肌肉祖细胞。

另一方面，本发明提供了一个方法，包括：提供了含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个人工转录含有一组至少2个锌指结构域和激活或抑制转录的调控结构域；提供了具有给定特性的细胞；导入核酸文库成员到细胞；鉴定改变了特性的文库成员；和制备含有编码DNA结合多肽序列的编码核酸，该DNA结合多肽包含一组鉴定的锌指结构域，但不包含与鉴定的成员的调控结构域相同的调控结构域。例如，DNA结合多肽缺少鉴定的成员的调控结构域。另一实施方式中，DNA结合多肽包含与鉴定的成员的调控结构域相比突变了的调控结构域。一个实施方式中，DNA结合多肽包含与鉴定的成员相比具有相反功能的调控结构域。

该方法还可包含导入该编码核酸到细胞并分析细胞的给定特性。鉴定的步骤可包括鉴定鉴定具有选自下组特性的细胞：对一定环境条件的抗性；分化；去分化；增殖；凋亡；非血清依赖性；病原抗性；和病原敏感性。

另一方面，本发明提供了编码人工转录因子的分离的核酸，该人工转录因子增加了产生该人工转录因子的细胞内的一种异源的、过表达的蛋白质的溶解性。例如，人工转录因子包括大量锌指结构域。细胞可以是细菌细胞或真核细胞。一个实施方式中，蛋白质是哺乳动物蛋白质，例如，AKT蛋白质。一个实施方式中，所述多个锌指结构域包括结构域：QSTR-DSAR-RDHT-WSNR或VSTR-DGNV-QSNR-QSNK。本发明还提供了含有权利要求99到104任一项的异源核酸的修饰的细胞。本发明还提供了生产异源靶蛋白质的方法。该方法包括提供修饰的细胞，其中修饰的细胞包含含有编码异源靶蛋白质的第二种核酸；和在产生人工转录因子和异源靶蛋白质的条件下维持修饰的细胞。修饰的细胞可是培养的细胞或体内细胞，例如，在对象内。

另一方面，本发明提供了将改变的特性从第一种细胞转移到第二种细胞中的方法。该方法包括：提供包含多种核酸的核酸文库，每种核酸编码不同的含有至少2个锌指结构域的人工蛋白质嵌合体；导入核酸文库成员到具有给定特性的第一种细胞以提供转化细胞；从文库成员改变了给定特性的转化细胞中鉴定改变了的细胞；从鉴定的、改变的细胞中回收核酸文库成员；导入该核酸文库成员到第二种细胞，其中第二种细胞通过不同于所给定特性的表型特性与第一种细胞相区别；和评价含有核酸文库成员和表达核酸文库成员编码的人工蛋白质嵌合体的第二种细胞。例如，第一种和第二种细胞是真核细胞，例如，酵母细胞或哺乳动物细胞。第一种和第二种细胞可通过增殖特性或分化特性区分。例如，第一种细胞是癌细胞，和第二种细胞是非癌细胞，或反过来。评价的第二种细胞可通过给定特性的改变来评价。

另一方面，本发明提供了含有编码含有3个锌指结构域的人工转录因子序列的核酸。例如，人工转录因子的表达改变了至少一个真核细胞的特性，其中特性选自于病毒复制，病毒产生，和病毒感染；人工转录因子的表达改变了真核细胞调控和真核细胞共培养的或在真核细胞条件培养基中培养的干细胞的能力；人工转录因子的表达改变了哺乳动物培养细胞(例如，CHO细胞)糖基化分泌蛋白质(例如，抗体)的能力；和人工转录因子的表达改变了细胞摄入外源核酸的能力。

另一方面，本发明提供了鉴定转录因子的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子含有至少2个锌指结构域；导入核酸文库成员到具有给定特性的细胞中；鉴定改变了给定特性的文库成员；和制备含有多种核酸的第二个文库，每种核酸编码(1)与对应于鉴定的成员的人工蛋白质嵌合体区别为1到6个氨基酸发生取代，插入，或缺失的变体，(2)蛋白质嵌合体，其含有对应于鉴定的成员的人工蛋白质嵌合体的锌指结构域和另外的锌指结构域，其中另外的锌指结构域在第二个文库成员中是不同的，(3)对应于鉴定的成员的人工蛋白质嵌合体的变体，其中变体具有部分锌指结构域位置被其它锌指结构域取代和至少一个不变锌指结构域，该不变锌指结构域与对应于鉴定的成员的人工蛋白质嵌合体的相应位置的锌指结构域相同，和/或(4)对应于鉴定的成员的人工蛋白质嵌合体的变体，其中，第二个文库成员中，一或多个锌指结构域位置不同，所以在该位置对应于鉴定的成员的人工蛋白质嵌合体的特定结构域出现的频率要高于在该位置的其它锌指结构域。该方法可包括其它此处描述的特征。

另一方面，本发明提供了鉴定转录因子的方法，该方法包括：提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子含有具有至少2个锌指结构域的DNA结合成分和第一个激活或抑制转录的调控结构域；导入核酸文库成员到具有给定特性的细胞中；鉴定改变了给定特性的文库成员；和制备编码鉴定的成员的DNA结合成分和与第一个调控结构域不同的第二个调控结构域的核酸。相关的方法包括鉴定缺少调控结构域的转录因子，并添加一个；或从含有的转录因子中除去调控结构域。一些转录因子可以在没有转录调控结构域时起作用。本发明还提供了包含大量锌指结构域和第一个调控结构域的人工转录因子。人工转录因子当在细胞中产生时会产生第一个特性，但当第一个调控结构域失活并含有与第一个功能相反的第二个调控结构域时会产生第二个特性。

一个实施方式中，第一个调控结构域激活了转录而第二个调控结构域抑制转录。另一实施方式中，第一个调控结构域抑制转录而第二个调控结构域激活转录。另一实施方式中，第一个调控结构域激活转录到第一种程度而第二个调控结构域激活转录到比第一种程度至少低50％的程度。该方法还可包括导入制备的核酸到测试细胞并评价该测试细胞，例如，评价测试细胞的给定特性。一个实施方式中，鉴定的成员增加了细胞分裂的速度，而该制备的核酸编码降低细胞分裂速度的转录因子。另一实施方式中，鉴定的成员引起了对化合物的抗性，而该制备的核酸编码了引起对化合物抗性的转录因子。

另一实施方式中，本发明提供了鉴定转录因子的方法，该方法包括：提供含有第一种和第二种多种核酸的核酸文库，其中每个第一种核酸编码含有至少2个锌指结构域和激活转录的调控结构域的不同的人工转录因子，和每个第二种核酸编码含有至少2个锌指结构域和抑制转录的调控结构域的不同的人工转录因子；导入核酸文库成员到具有给定特性的细胞中；和鉴定改变了给定特性的文库成员。

本发明还提供了包括评价第一种细胞中的嵌合人工锌指蛋白质的表型，在第二种细胞中表达蛋白质，和评价第二种细胞的表型的方法。例如，该方法可包括鉴定改变第一种细胞(例如酵母株活人细胞系如293细胞)给定表型的转录因子文库的成员，然后在不同细胞中表达该成员(例如不同的酵母株或Hela细胞)。第一种细胞比其它株或细胞系更易于筛选。

另一方面，本发明提供了改变真菌株对抗真菌试剂敏感性的方法。该方法包括：导入编码包含至少3个锌指结构域的人工嵌合蛋白质的核酸到真菌细胞中；和在可以让细胞表达导入的核酸的条件下维持真菌细胞。例如，真菌细胞是酵母细胞，例如，念珠菌，毕赤酵母，Hanseula，组织胞浆菌，或隐球菌。一个实施方式中，人工嵌合蛋白质含有选自K1到K11的蛋白质的锌指结构的氨基酸序列(见实施例3)。

该方法包括一或多个下述特征：人工嵌合蛋白质含有转录调控结构域(例如，激活或阻抑结构域)；在细胞中人工嵌合蛋白质的表达改变了水转运子(water transporter)的转录水平；在酿酒酵母细胞中人工嵌合蛋白质的表达改变了YLL053基因或PDR5基因的转录水平；人工嵌合蛋白质与选自K1到K11的多肽竞争结合特异的DNA位点。

另一方面，本发明提供了改变真菌株对抗真菌试剂敏感性的方法。该方法包括改变一种蛋白质的活性或表达，该蛋白质含有至少50个氨基酸的氨基酸序列，所述氨基酸序列与YLL053，AQY1，YJR147W，YLL052C，或YPL091W具有至少30％，50％，60％，70％，80％，90％，或95％相同。例如，真菌细胞是酵母细胞，例如，念珠菌，毕赤酵母，Hanseula，组织胞浆菌，或隐球菌。一个实施方式中，活性或表达升高以降低敏感性，即增加抗性。另一实施方式中，活性或表达降低以增加敏感性。改变活性或表达可以包括表达人工转录因子，将细胞和包含至少20个核苷酸的与YLL053，AQY1，YJR147W，YLL052C，或YPL091W基因互补的序列的双链RNA(dsRNA)接触，或将细胞和化学化合物接触。

相关的方法包括筛选与这种蛋白质相互作用的测试化合物(例如，小分子有机化合物)，例如，鉴定YLL053/AQY1-相关蛋白质的抑制剂或筛选测试化合物改变AQY1，YJR147W，YLL052C，YLL053C或YPL091W的活性或表达的能力。

另一方面，本发明提供了鉴定改变真菌株对抗真菌试剂敏感性的人工嵌合蛋白质的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸含有编码人工，嵌合蛋白质的编码序列，该蛋白质含有一组至少3个锌指结构域，其中至少2个邻近的锌指结构域在天然产生的蛋白质中是不互相邻近的；导入每种核酸到真菌细胞以产生转化的真菌细胞；在存在抗真菌试剂的条件下维持(例如，培养)转化的真菌细胞；和从转化的真菌细胞中选择细胞，其对抗真菌试剂的敏感性相对于对照真菌细胞已经改变了。

该方法包括一或多个下述特征：对照真菌细胞不是转化的或用参照核酸转化；每种核酸编码的嵌合蛋白质含有转录调控结构域；真菌细胞是病原性真菌细胞，例如，念珠菌，组织胞浆菌，或隐球菌。

本方法还可包括，例如，构建编码第二种嵌合蛋白质的核酸，该蛋白质(i)在选择的细胞中含有文库成员编码的嵌合蛋白质的锌指结构域，和(ii)在选择的细胞中含有不同于文库成员编码的嵌合蛋白质转录调控结构域的转录调控结构域。该方法可包括其它此处描述的特征。

另一方面，本发明提供了鉴定抵消真菌细胞对抗真菌试剂抗性的试剂的方法。该方法包括：将测试化合物与含有YJR147W，YLL052C，YLL053C或YPL091W的多肽接触；和评价测试试剂和多肽的相互作用，其中相互作用表明测试试剂可被用作抵消抗真菌试剂抗性的试剂。该方法还可包括将真菌细胞和测试化合物和抗真菌试剂接触，例如，和评价细胞存活率或生长。细胞可是抗抗真菌试剂(例如，酮康唑)的细胞。

另一方面，本发明提供了鉴定人工转录因子调控的靶基因的方法。该方法包括：提供含有多种核酸的核酸文库，每种核酸编码不同的人工转录因子，每个转录因子含有至少2个锌指结构域；导入每个成员到测试的复制细胞中以提供多种转化细胞；从多种转化细胞中鉴定多种表型改变的细胞，其中每种表型改变的细胞具有相对于测试细胞改变了的表型；和鉴定一或多个转录子或蛋白质，其丰度相对于测试细胞在至少2个表型改变的细胞中改变相似。

一个实施方式中，该方法还包括，在测试细胞中，改变转录子或蛋白质的活性，其丰度在至少2个表型改变的细胞中改变相似，例如，遗传改变(例如突变或过表达)或其它(例如，RNA干涉，反义，或抗体结合)。有些情况下，转录子或蛋白质的活性改变。

一个实施方式中，相似改变的转录子或蛋白质通过在每个表型改变的细胞中检测转录子或蛋白质丰度的分布图而提供每个表型改变的细胞的分布图；和相互比较分布图来鉴定。可通过使用，例如，核酸或蛋白质阵列，SAGE标签，差异展示，或减法杂交获得分布图。

一个实施方式中，细胞是癌细胞，例如，人癌细胞。一或多个鉴定的转录子可是在存在任何人工转录因子时细胞缺少的转录子。

鉴定的转录子编码的多肽可被用作靶多肽以筛选发现和目的物相互作用的化合物。测试化合物被评价以确定是否它们增加或抑制靶多肽的活性。一个实施方式中，测试化合物是具有小于10，5或2kD分子量的小分子。

对于此处描述的所有方法，可以使用编码嵌合锌指蛋白质的核酸文库。术语“文库”指相似的但不相同的生物分子的物理集合(physicalcollection)。集合可以，例如，共同在一个容器中，或在分开的容器中或固体支持物的分开的位置上物理地分开(成组或单独)。集合中可以存在单个文库成员的重复。一个文库可以包括至少10，10²，10³，10⁵，10⁷，或10⁹不同的成员，或少于10¹³，10¹²，10¹⁰，10⁹，10⁷，10⁵，或10³不同的成员。

第一个示范文库包括多种核酸，每种核酸编码一种多肽，其含有至少第一个，第二个，和第三个锌指结构域。如此处所用，“第一个，第二个和第三个”表示在多肽中以任意顺序排列的三个分开的结构域：即每个结构域可以在另一个或另两个的N末端或C末端。第一个锌指结构域在多种核酸中不同。第二个锌指结构域在多种核酸中不同。文库中至少存在10个不同的第一个锌指结构域。一个实施方式中，至少0.5％，1％，2％，5％，10％，或25％的文库成员具有如下一个或两个特点：(1)在体内，每个抑制至少一个p1G报道质粒的转录至少2.5倍；和(2)每个结合至少一个靶位点，解离常数低于7，5，3，2，1，0.5，或0.05nM。第一个和第二个锌指结构域可与天然产生的蛋白质不同或者构型中的位置与它们在天然产生的蛋白质中的相对位置不同。例如，第一个和第二个锌指结构域在多肽中可以邻近，但是在天然产生的蛋白质中被一或多个插入的锌指结构域分开。

第二个示范文库包括多种核酸，每种核酸编码一种多肽，其包括至少第一个和第二个锌指结构域。每种多肽的第一个和第二个锌指结构域(1)和不同的天然产生的蛋白质的锌指结构域相同(一般不发生在相同的天然产生的蛋白质中或位于与它们在天然产生的蛋白质的相对位置不同的构型中)，(2)与天然产生的蛋白质的结构域具有不多于4个，3个，2个，或1个氨基酸残基的不同，或(3)是天然产生的蛋白质的非邻近的锌指结构域。相同的锌指结构域指从第一个金属配位残基(metalcoordinating residue)(代表为半胱氨酸)到最后一个金属配位残基(代表为组氨酸)每个氨基酸都相同的锌指结构域。第一个锌指结构域在多种核酸中不同，而且第二个锌指结构域在多种核酸中也不同。天然产生的蛋白质可以是任何真核锌指蛋白质：例如，真菌(例如，酵母)，植物，或动物蛋白质(例如，哺乳动物蛋白质，如人或鼠蛋白质)。每种多肽还可包括第三个，第四个，第五个，和/或第六个锌指结构域。每个锌指结构域可是哺乳动物的锌指结构域，例如，人的锌指结构域。

也可使用其它类型的文库，例如，包括突变的锌指结构域。

一些实施方式中，编码锌指蛋白质的核酸文库或这些蛋白质文库可包括具有不同调控结构域的成员。例如，文库可包括至少10％的成员具有激活结构域，和至少另10％的成员具有阻抑结构域。另一实施方式中，至少10％具有激活结构域或阻抑结构域；另有至少10％不具有调控结构域。另一实施方式中，一些包括激活结构域；其它具有阻抑结构域；另外的根本没有调控结构域。也可使用其它百分比，例如至少20％，25％，30％，40％，50％，60％。

1.Neuro1p65和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSNJXKHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXCXSNJXRHX_(3-5)H(SEQ ID NO：36)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为疏水氨基酸。这个序列也可简写为：QSNR-QSNK-CSNR。其它示范人工多肽包括：

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSNJXKHX_(3-5)H(SEQ ID NO：37)，和

CX_(2-5)CXXXBXQXSNJXKHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXCXSNJXRHX_(3-5)H(SEQ ID NO：38)。

多肽可以，例如，当在小鼠Neuro2a细胞中存在了有效浓度时诱导轴突。例如，分离的多肽可以包括与SEQ ID NO：2中锌指序列相同的或者与SEQ ID NO：2中锌指结构域不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可以是保守取代。分离的多肽可具有与SEQ IDNO：2的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方式中，多肽可特异性结合靶DNA位点。例如，多肽可以和Neuro1p嵌合ZFP(SEQ ID NO：2)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1个，2个，或3个或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：2氨基酸的分离多肽可被含有SEQ ID NO：1的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列(insulator sequence)，非翻译调控区，polyA添加位点，等等。一个实施方式中，编码核酸是可操纵地连接到条件启动子例如可诱导的启动子或细胞类型特异的启动子。核酸可被包括在一个载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包括上述的多肽。宿主细胞可包括上述核酸和表达该核酸。例如，宿主细胞可以是神经元细胞，其延展轴突(例如，至少部分的是由于多肽的结果)。

2.Osteo1p65和相关分子

另一实施方式中，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSTJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)H(SEQ ID NO：39)，

其中，B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也可简写为：RDKR-QTHR-VSTR-RDKR。其它示范人工多肽包括：

CX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSTJXRHX_(3-5)H(SEQ ID NO：40)；

CX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSTJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)H(SEQ ID NO：41)；

CX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：42)；和

CX_(2-5)CXXXBXVXSTJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)H(SEQ ID NO：43)。

多肽可以，例如，当以有效浓度存在于C2C12成肌细胞系细胞中时，诱导碱性磷酸酶或其它成骨细胞分化的指示物。例如，分离的多肽可包括与SEQ ID NO：4中的锌指序列相同的或与SEQ ID NO：4中锌指序列不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可以具有与SEQ ID NO：4的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽特异的结合靶DNA位点。例如，多肽可以和Osteo1嵌合ZFP(SEQ IDNO：4)竞争结合靶DNA位点，例如，具有小于10nM K_d的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：4的氨基酸的分离的多肽可被含有SEQ ID NO：3序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物细胞)，其包括上述多肽。宿主细胞可包括上述的核酸和表达该核酸。例如，宿主细胞可是具有成骨细胞表型的干细胞，例如，至少部分的是由于人工嵌合多肽的结果。

3.08_D04_6和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSSJXRHX_(3-5)H(SEQ ID NO：44)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：RSHR-RDHT-VSSR。其它示范人工多肽包括：

CX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDHJXTHX_(3-5)H(SEQ ID NO：45)；和

多肽可以，例如，诱导胰岛素表达，例如，当其在人293细胞中以有效浓度存在时。例如，分离的多肽可以包括与SEQ ID NO：6中锌指序列相同的或与SEQ ID NO：6中锌指结构域不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可以是保守取代。分离的多肽可以具有与SEQ ID NO：6的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可以特异性结合靶DNA位点。例如，多肽可以与08_D04_6嵌合ZFP(SEQ ID NO：6)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，包含SEQ ID NO：6的氨基酸的分离的多肽，其可被含有SEQ ID NO：5序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子上。核酸可被包括在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包含上述的多肽。宿主细胞可包括上述核酸和表达该核酸。例如，宿主细胞可以是表达胰岛素基因的人细胞，例如，至少部分的由于人工嵌合多肽的后果。本发明还提供了生产胰岛素的方法，其包括体外培养此处所述的细胞，或导入上述多肽或编码多肽的核酸到对象的细胞中而在对象中生产胰岛素。

4.P_B08和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXDXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXDXSNJXRHX_(3-5)H(SEQ ID NO：47)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：QSNR-DSNR-DSNR。其它示范人工多肽包括：

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXDXSNJXRHX_(3-5)H(SEQ ID NO：48)；和

CX_(2-5)CXXXBXDXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXDXSNJXRHX_(3-5)H(SEQ ID NO：49)。

多肽可以，例如，提高异源多肽的表达，例如，当其以有效浓度存在于293细胞中时提高SV40-SEAP报道构建体编码的报道多肽的表达。例如，分离的多肽可以包括与SEQ ID NO：8中的锌指序列相同的或与SEQ ID NO：8中的锌指结构域的不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可以是保守取代。分离的多肽可具有与SEQ IDNO：8的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可以特异性结合靶DNA位点。例如，多肽可以与P_B08嵌合ZFP(SEQ ID NO：8)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：8氨基酸的分离的多肽可以被含有SEQ ID NO：7序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包括上述多肽。宿主细胞包括上述核酸和表达该核酸。例如，宿主细胞可是具有提高了异源多肽生产的哺乳动物细胞。

5.K_D10和相关分子

另一方面，本发明提供了人工多肽，其包含序列：

CX_(2-5)CXXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXWXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXWXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDNJXQHX_(3-5)H(SEQ ID NO：50)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：QSHV-WSNR-WSNR-RDNQ。其它示范人工多肽包括：

CX_(2-5)CXXXBXWXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXWXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDNJXQHX_(3-5)H(SEQ ID NO：51)；和

CX_(2-5)CXXXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXWXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXWXSNJXRHX_(3-5)H(SEQ ID NO：52)。

多肽当在哺乳动物细胞中以有效浓度存在时可降低细胞增殖，例如，降低至少30％，40％，50％，或60％。细胞增殖可通过在预先确定的孵育时间后的细胞数计算。例如，分离的多肽可包括与SEQ ID NO：10的锌指序列相同的或与SEQ ID NO：10的锌指结构域的不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQ ID NO：10的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异的结合靶DNA位点。例如，多肽可与K_D10嵌合ZFP(SEQ ID NO：10)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，包含SEQ ID NO：10的氨基酸的分离的多肽可被含有SEQ ID NO：9序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，真核，例如哺乳动物宿主细胞)，其包含此处所述的核酸，例如，编码此处所述多肽的核酸。宿主细胞也可表达该核酸。例如，宿主细胞可以是哺乳动物细胞，其与不含有该多肽的同种细胞相比，具有降低的增殖速度。

6.K_F02和相关分子

另一方面，本发明提供了一种人工多肽，其包括序列：

CX_(2-5)CXXXBXDXSAJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDEJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：53)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：DSAR-RDKR-RDER-QTHR。其它示范人工多肽包括：

CX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDEJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)(SEQ ID NO：54)；和

CX_(2-5)CXXXBXDXSAJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDEJXRHX_(3-5)H(SEQ ID NO：55)。

多肽可以提高细胞增殖，例如，在哺乳动物细胞中，例如，293细胞中，提高至少50％，100％，或120％。例如，分离的多肽可包括与SEQ IDNO：12的锌指序列相同的或与SEQ ID NO：12的锌指结构域的不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可以是保守取代。分离的多肽可具有与SEQ ID NO：12的锌指锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可以特异性结合靶DNA位点。例如，多肽和K F02嵌合ZFP(SEQ ID NO：12)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：12氨基酸的分离的多肽可被含有SEQ ID NO：11序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列。非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子上。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包括上述核酸。宿主细胞可包括上述核酸和表达该核酸。例如，宿主细胞可是哺乳动物细胞，其与不含有该多肽的同种细胞相比，具有提高的细胞增殖速度。

7.K12_A11和相关分子

另一方面，本发明提供了一种人工多肽，其包括序列：

CX_(2-5)CXXXBXRXDHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSNJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXFNJXRHX_(3-5)H(SEQ ID NO：56)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：RDHT-QSNV-QTHR-QFNR。其它示范人工多肽包括：

CX_(2-5)CXXXBXRXDHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSNJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：57)；和

CX_(2-5)CXXXBXQXSNJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXFNJXRHX_(3-5)H(SEQ ID NO：58)

多肽可提高异源基因表达，例如，在哺乳动物细胞中，可操纵地连接到一个强启动子如病毒启动子的基因。例如，分离的多肽可包括与SEQID NO：260的锌指序列相同的或与SEQ ID NO：260的锌指结构域的不同之处不多于8，6，4，3，或2个取代的氨基酸序列。取代可以是保守取代。分离的多肽可具有与SEQ ID NO：260的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与K12_A_11嵌合ZFP(SEQ ID NO：260)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。因为K12_A_11嵌合ZFP包括一个阻抑结构域，所以不太可能通过直接结合异源基因启动子来提高异源基因表达。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：260氨基酸的分离的多肽可被含有SEQ ID NO：259序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包括上述核酸。宿主细胞可包括上述核酸并表达该核酸。

8.K44-16-E12和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSSJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：59)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：QSHV-QSSR-QTHR。其它示范多肽包括：

CX_(2-5)CXXXBXQXSSJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：60)；和

CX_(2-5)CXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)XBXQXSSJXRHX_(3-5)H(SEQ ID NO：61)。

多肽可提高异源基因的表达，例如，在哺乳动物细胞中，基因被可操纵地连接强启动子如病毒启动子。例如，分离的多肽可包括与SEQ IDNO：262的锌指序列相同的或与SEQ ID NO：262的锌指结构域的不同之处不多于8，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQ ID NO：262的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与K44-16-E12嵌合ZFP(SEQ ID NO：262)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。因为K44-16-E12嵌合ZFP包括阻抑结构域，不太可能通过直接结合异源基因启动子来提高异源基因的表达。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：262氨基酸的分离的多肽可被含有SEQ ID NO：261序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

另外，本发明提供了宿主细胞(例如，哺乳动物宿主细胞)，其包括上述核酸。宿主细胞可包括上述核酸并表达该核酸。例如，宿主细胞可是哺乳动物细胞(例如，293细胞，其具有提高的异源蛋白质生产(例如，被可操纵连接到CMV启动子的基因编码的分泌和细胞内报道蛋白质)的表型)。

9.K13_B08和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSSJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)H(SEQ ID NO：62)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：QSNR-QSSR-QTHR-RDKR。其它示范多肽包括：

CX_(2-5)CXXXBXQXSSJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDKJXRHX_(3-5)H(SEQ ID NO：63)；和

CX_(2-5)CXXXBXQXSNJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSSJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：64)。

多肽可引起可操纵连接到CMV启动子的异源基因编码的SEAP蛋白质的生产提高。例如，分离的多肽可包括与SEQ ID NO：264的锌指序列相同的或与SEQ ID NO：264的锌指结构域的不同之处不多于8，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQID NO：264的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与K13_B08嵌合ZFP(SEQ ID NO：264)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：264氨基酸的分离的多肽可被含有SEQ ID NO：263序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

10.F104_p65和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXRXDHIXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSHJXRHX_(3-5)H(SEQ ID NO：65)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：RDHT-RSHR-QSHR。其它示范多肽包括：

CX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSHJXRHX_(3-5)H(SEQ ID NO：66)；和

CX_(2-5)CXXXBXRXDHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXSHJXRHX_(3-5)H(SEQ ID NO：67)。

例如，分离的多肽可包括与SEQ ID NO：18的锌指序列相同的或与SEQ ID NO：18的锌指结构域的不同之处不多于8，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQ ID NO：18的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与F104_p65嵌合ZFP(SEQ ID NO：18)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：18氨基酸的分离的多肽可被含有SEQ ID NO：17序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

11.F121_p65和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDHJXTHX_(3-5)H(SEQ ID NO：68)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这个序列也简写为：QSHT-RSHR-RDHT。其它示范多肽包括：

CX_(2-5)CXXXBXRXSHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDHJXTHX_(3-5)H(SEQ ID NO：69)；和

CX_(2-5)CXXXBXQXSHJXTHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXSHJXRHX_(3-5)H(SEQ ID NO：70)。

例如，分离的多肽可包括与SEQ ID NO：20的锌指序列相同的或与SEQ ID NO：20的锌指结构域的不同之处不多于8，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQ ID NO：20的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与F121_p65嵌合ZFP(SEQ ID NO：20)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。可应用多肽，例如，调控胰岛素样生长因子2的表达。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：20氨基酸的分离的多肽可被含有SEQ ID NO：19序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

12.K44-11-D01和K44-11-G12和相关分子

另一方面，本发明提供了人工多肽，其包括序列：

CX_(2-5)CXXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXSNJXIHX_(3-5)XCX_(2-5)CXXXBXQXTHJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXCXSNJXRHX_(3-5)H(SEQ ID NO：265)，

CX_(2-5)CXXXBXQXSHJXVHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXVXSTJXRHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXRXDNJXQHX_(3-5)HX_(1-6)BXCX_(2-5)CXXXBXQXTHJXRHX_(3-5)H(SEQ ID NO：266)，

其中B是任意氨基酸，或任选地为苯丙氨酸或酪氨酸；和J是任意氨基酸，或任选地为一种疏水氨基酸。这些序列也简写为：QSHV-SQNI-QTHR-CSNR和QSHV-VSTR-RDNQ-QTHR。

例如，分离的多肽可包括与SEQ ID NO：14或16的锌指序列相同的或与SEQ ID NO：20的锌指结构域的不同之处不多于8，4，3，或2个取代的氨基酸序列。取代可是保守取代。分离的多肽可具有与SEQ IDNO：14或16的锌指序列具有至少80％，85％，90％，95％，或97％相同性的序列。一个实施方案中，多肽可特异性结合靶DNA位点。例如，多肽可与F121_p65嵌合ZFP(SEQ ID NO：14或16)竞争结合靶DNA位点，例如，具有K_d小于10nM的位点。多肽还可包括转录调控结构域，例如，激活或阻抑结构域。多肽可包括1，2，或3或多个另外的锌指结构域。可应用多肽，例如，调控蛋白质生产。

还提供了编码上述多肽的核酸。例如，含有SEQ ID NO：14或16氨基酸的分离的多肽可被含有SEQ ID NO：13或15序列的核酸序列编码。提供的核酸可包括可操纵连接的调控序列，例如，启动子序列，增强子序列，绝缘子序列，非翻译调控区，polyA添加位点，等等。一个实施方案中，编码核酸是可操纵地连接到条件启动子如可诱导的启动子或细胞类型特异的启动子中。核酸可被包含在载体或整合到染色体中。

如此处所用，“解离常数”指肽结合一个含有9碱基对靶位点的28碱基对的双链DNA的平衡解离常数。解离常数是通过使用凝胶迁移分析确定，该方法使用室温时结合束缚在20mM Tris pH7.7，120mM NaCl，5mMMgCl₂，20μM ZnSO₄，10％甘油，0.1％NP40，5mM DTT，和0.10mg/mLBSA(牛血清白蛋白)中的纯化的蛋白质。其它细节在实施例10中和Rebar和Pabo(1994)Science 263：671-673中提供。

如此处所用，术语“筛选”指评价文库成员以发现具有特定特性的一个或多个特定成员的过程。直接筛选中，评价文库中每个成员。例如，评价每种细胞以确定是否伸展出轴突。另一种筛选中，称为“选择”，不是直接评价每个成员。这个评价是将文库成员置于只有具有特定特性的成员能保留下来的环境中。选择可以通过存活(例如，药物抗性)或结合到某种表面(例如，粘附底物)而介导。这种选择包括在术语“筛选”之内。

术语“碱基接触位置”、“DNA接触位置”、或“核酸接触位置”指锌指结构域的4个氨基酸位置，其对应于ZIF268的73位精氨酸，75位天门冬氨酸，76位谷氨酸，和79位精氨酸的氨基酸位置。

Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser

1 5 10 15

Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys

20 25 30

Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His

35 40 45

Leu Thr Thr His Ile Arg Thr His Thr Gly Glu Lys Pro Phe Ala Cys

50 55 60

Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Asp Glu Arg Lys Arg His

65 70 75 80

Thr Lys Ile His Leu Arg Gln Lys Asp(SEQ ID No：71)

85

这些位置也分别称为-1，2，3，和6位。为在要研究的序列中鉴定与碱基接触位置相对应的位置，将要研究的序列与感兴趣的锌指结构域对比，使研究序列的半胱氨酸和组氨酸残基与Zif268锌指3的那些残基对比。欧洲生物信息学院的ClustalW WWW Service(Thompson等，(1994)Nucleic Acids Res.22：4673-4680)提供了一个对比序列的传统方法。

保守氨基酸取代指具有相似侧链的残基的互换。例如，具有脂肪族侧链的一组氨基酸是甘氨酸，丙氨酸，颉氨酸，亮氨酸，和异亮氨酸；具有脂肪羟基侧链的一组氨基酸是丝氨酸和苏氨酸；具有含氨基侧链的一组氨基酸是天冬酰胺和谷氨酰胺；具有芳香族侧链的一组氨基酸是苯丙氨酸，酪氨酸，和色氨酸；具有碱性侧链的一组氨基酸是赖氨酸，精氨酸，和组氨酸；具有酸性侧链的一组氨基酸是天门冬氨酸和谷氨酸；和具有含硫侧链的一组氨基酸是半胱氨酸和蛋氨酸。依赖于环境，同组的氨基酸可以互换。一些另外的保守氨基酸取代组是：颉氨酸-亮氨酸-异亮氨酸；苯丙氨酸-酪氨酸；赖氨酸-精氨酸；丙氨酸-颉氨酸；天门冬氨酸-谷氨酸；和天冬酰胺-谷氨酰胺。

术语“异源多肽”指或者是具有非天然产生的序列的多肽(例如，杂合多肽)或者是具有与天然产生的多肽相同但存在于其天然时不存在的环境中的序列的多肽。

术语“杂合”和“嵌合”指非天然产生的多肽，其含有的氨基酸序列衍生自(i)至少两个不同的天然产生的序列，或相同天然产生的序列的非连续区域，其中在杂合体中非连续区域变为连续的；(ii)至少一个人工序列(即，不是天然产生的序列)和至少一个天然产生的序列；或(iii)至少两个人工序列(相同或不同)。人工序列的实施例包括天然产生的序列的突变体和重新设计的序列。“人工序列”不存在于天然产生的序列中。对于此处描述的任何人工序列(例如，蛋白质或核酸)，本发明还指具有相同元件的序列，但其不存在于基因组已被测序的下述生物中：人，小鼠，拟南芥，果蝇，大肠杆菌，酿酒酵母，和水稻。具有如此序列的分子可在前述任一生物的细胞中被表达为异源分子。

本发明还包括用此处描述的方法制备的序列(不用称为“人工”)，例如，结合编码不同锌指结构域核酸序列的方法或表型筛选的方法。本发明还提供了含有如此序列的细胞。

如此处所用，术语“在严格条件下的杂交”指在6×氯化钠/柠檬酸钠(SSC)，45℃，然后在0.2×SSC，0.1％SDS，65℃洗两次的杂交条件。

术语“结合倾向性”指多肽选择一种核酸结合位点而不是另一个的区别特性。例如，当多肽对于两个不同的核酸结合位点是限制数量时，在此处描述的体内或体外分析中，更多量的多肽将结合优选位点，而不是另一个位点。

“参照细胞”指任何标准细胞。一个实施方式中，参照细胞时表达锌指蛋白质细胞的亲代细胞，例如，与锌指蛋白质表达细胞基本相同，但不产生锌指蛋白质的细胞。

在其它优点中，许多方法和化合物涉及鉴定和使用新的和有用的嵌合蛋白质，例如，嵌合转录因子。一些实施方案可能包括一个或多个下述优点：i)内源基因可上或下调。任意给定的人工嵌合转录因子可通过融合到适当的转录激活结构域而被转变为转录激活子或者通过融合到阻抑结构域而转变为转录阻抑子。而且，即使没有转录调控结构域，嵌合转录因子可是潜在的阻抑子，例如，当它们结合TATA盒和起始元件附近的位点时。而且，可能筛选一个具有不同DNA结合特异性的激活子和阻抑子的文库。ii)基因表达可被精细调控。依赖于DNA结合亲和力，嵌合转录因子可引起一系列效果，例如，中等到强激活和阻抑。这可导致多样的表型，其通过完全失活或高水平过表达特定靶基因不可能获得。例如，某些情况下，广泛特异性是有利的，比如需要几个基因的协同作用而产生特定表型。另一些情况下，需要有限的特异性。一个灵活控制特异性的方法是添加或去除锌指结构域。理论上，3指的ZFP比6指的ZFP调控的基因多。iii)ZFP文库方法是广泛应用的。因为转录调控机制是高度保守的而且因为所有已知的生物都使用DNA和转录生存，结合DNA的嵌合蛋白质可被用来调控任何需要的细胞。而且，如此处所述，许多方法不要求细胞的预先信息(例如，基因组序列)以鉴定有用的嵌合蛋白质。iv)人工嵌合蛋白质可被用作工具去研究细胞内通路。例如，可以鉴定选择的克隆中负责表型变化的靶基因，例如，如此处所述。v)ZFP-TF可以模拟主要调控蛋白质的功能，如主要的调控转录因子。例如，ZFP-TF可以结合与主要调控相同的位点，或重叠位点。vi)基因表达水平改变，因而ZFP-TF生成的表型程度可通过改变细胞中ZFP-TF的表达水平而被精确的控制。

此处引用的所有专利，专利申请，和参考文献被并入参考。下述专利申请：WO01/60970(Kim等)；U.S.Serial No.60/338,441，申请日December 7，2001；U.S.Serial No.60/313,402，申请日August 17，2001；U.S.Serial No.60/374,355，申请日April 22，2002；U.S.Serial No.60/376,053，申请日April 26，2002；U.S.Serial No.60/400,904，申请日August 2，2002；U.S.Serial No.60/401,089，申请日August 5，2002；和U.S.Serial No.10/223,765，申请日August 19，2002，在此并入参考。本发明的一或多个实施方案的细节在随后的图和下述说明书中阐明。此处所述的任何特征可和此处所述其它相合的特征组合。本发明的其它特征，目的，和优点通过本说明书和附图和权利要求书将是显而易见的。

图例说明

图1是酵母质粒pYTC-Lib的区域图。

图2是示范的靶驱动方法的示意图。

图3A是制备示范锌指蛋白质文库的方法示意图。

图3B是示范的表型驱动的方法的示意图。

图4描述了瞬时转染的ZFP的表达分布图。左图，单独表达p65激活结构域的细胞与对照比较。右图，表达锌指蛋白质F121_p65的细胞与对照比较。每个偏离对角线的点表示表达被明显改变的基因。

图5描述了稳定转染的ZFP的表达分布图。

图6A描述了K5 ZFP的DNA结合结构域突变体和效应子结构域改变对药物抗性的作用。

图6B描述了K5和YLL053C过表达的作用。

图7描述了构建多样3指文库的一个方法。

图8是诱导轴突形成的对照和ZFP表达细胞的图。图8A没有维甲酸(RA)处理的pcDNA3(空载体)转染的Neuro2A细胞。图8B没有RA处理的Neuro1-p65(也称作08_D01-65)的表达。图8C使用了10μMRA的pcDNA3(空载体)转染的Neuro2A细胞。图8D使用了10μMRA的Neuro1-p65的表达。

图9描述了胰岛素基因过表达的细胞的比较微阵列数据。嵌合ZFP是08_D04-p65。其序列列于图16。

图10A是列出ZFP DNA结合特异性的删节表。

图10B是说明锌指结构域和识别位点序列对应性的示意图。

图11是鉴定人工ZFP靶的方法的流程图。

图12是鉴定诱导分化的ZFP的方法的示意图。

图13描述了存在F104-p65 ZFP的细胞的不同时间点的比较微阵列数据。

图14列出了诱导轴突的蛋白质Neuro1-p65的编码核酸(SEQ ID NO：1)和氨基酸(SEQ ID NO：2)序列。Neuro1-p65包括锌指结构域QSNR1-QSNK-CSNR1和p65激活结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：QSNR1-QSNK-CSNR1-p65的连续锌指结构域的其它人工蛋白质也可以诱导轴突。

图15列出了诱导骨发生的蛋白质Osteo1-p65的编码核酸(SEQ IDNO：3)和氨基酸(SEQ ID NO：4)序列。Osteo1-p65包括锌指结构域RDKR-QTHR1-VSTR-RDKR和p65激活结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：RDKR-QTHR1-VSTR-RDKR-p65的连续锌指结构域的其它人工蛋白质也可以诱导骨发生。

图16列出了提高胰岛素生成(见图9)的蛋白质08-D04_p65的编码核酸(SEQ ID NO：5)和氨基酸(SEQ ID NO：6)序列。08-D04_p65包括锌指结构域RSHR-RDHT-VSSR和p65激活结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：RSHR-RDHT-VSSR-p65的连续锌指结构域的其它人工蛋白质也可以提高胰岛素生成。

图17列出了提高SV40-SEAP的蛋白质P_B08的编码核酸(SEQ IDNO：7)和氨基酸(SEQ ID NO：8)序列。P_B08包括锌指结构域QSNR1-DSNR-DSNR和p65激活结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：QSNR1-DSNR-DSNR-p65的连续锌指结构域的其它人工蛋白质也可以提高SV40-SEAP。

图18列出了降低细胞增殖的蛋白质K_D10的编码核酸(SEQ ID NO：9)和氨基酸(SEQ ID NO：10)序列。K_D10包括锌指结构域QSHV-WSNR-WSNR-RDNQ和kid阻抑结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：QSHV-WSNR-WSNR-RDNQ的连续锌指结构域的其它人工蛋白质也可以降低细胞增殖。

图19列出了增强细胞增殖的蛋白质K_F02的编码核酸(SEQ ID NO：11)和氨基酸(SEQ ID NO：12)序列。K_F02包括锌指结构域DSAR2-RDKR-RDER1-QHR1和kid阻抑结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：DSAR2-RDKR-RDER1-QHR1-kid的连续锌指结构域的其它人工蛋白质也可以增强细胞增殖。

图20列出了增强蛋白质表达的蛋白质K44_11_D01的编码核酸(SEQID NO：13)和氨基酸(SEQ ID NO：14)序列。K44_11_D01包括锌指结构域QSHV-QSNI-QTHR1-CSNR1和kid阻抑结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：QSHV-QSNI-QTHR1-CSNR1的连续锌指结构域的其它人工蛋白质也可以增强蛋白质表达。

图21列出了增强蛋白质表达的蛋白质K44-11-G12的编码核酸(SEQID NO：15)和氨基酸(SEQ ID NO：16)序列。K44-11-G12包括锌指结构域QSHV-VSTR-RDNQ-QTHR1和kid阻抑结构域。具有至少2或3个与DNA接触残基有相同形式的结构域：QSHV-VSTR-RDNQ-QTHR1的连续锌指结构域的其它人工蛋白质也可以增强蛋白质表达。

图22列出了F104_p65的编码核酸(SEQ ID NO：17)和氨基酸(SEQID NO：18)序列。F104_p65包括锌指结构域RDHT-RSHR-QSHR2-p65。

图23列出了F121_p65的编码核酸(SEQ ID NO：19)和氨基酸(SEQID NO：20)序列。F121_p65包括锌指结构域QSHT-RSHR-RDHT-p65。具有至少2或3个与DNA接触残基有相同形式的结构域：QSHT-RSHR-RDHT的连续锌指结构域的其它人工蛋白质也可以提高胰岛素样生长因子2的转录。

图24列出了K12_A11的编码核酸(SEQ ID NO：259)和氨基酸(SEQID NO：260)序列，其包括锌指结构域RDHT-QSNV2-QTHR1-QFNR-kid。

图25列出了K44-16-E12的编码核酸(SEQ ID NO：261)和氨基酸(SEQ ID NO：262)序列，其包括锌指结构域QSHV-QSSR1-QTHR1-kid。

图26列出了K13_B08的编码核酸(SEQ ID NO：263)和氨基酸(SEQID NO：264)序列，其包括锌指结构域QSNR1-QSSR1-QTHR1-RDKR-KID。

图14至26的DNA序列可包括编码HA标签(灰色下划线)的序列，和编码核定位信号(框中)的序列。起始和终止密码子有下划线。有阴影的字母表示编码调控结构域的序列，例如，p65或kid结构域。小写字母表示连接子序列。对于氨基酸序列，斜体和有阴影的字母表示锌指结构域，而有阴影但不是斜体的字母表示调控结构域，例如，Kid或p65结构域。

图14至24的DNA序列包括编码HA标签(灰色下划线)的序列，和编码核定位信号(框中)的序列。起始和终止密码子有下划线。有阴影的字母表示编码调控结构域的序列，例如，p65或kid结构域。小写字母表示连接子序列。对于氨基酸序列，斜体和有阴影的字母表示锌指结构域，而有阴影但不是斜体的字母表示调控结构域，例如，Kid或p65结构域。

具体实施方式

本发明的一方面，筛选编码不同人工嵌合蛋白质的核酸文库以鉴定改变细胞或生物体表型特性的嵌合蛋白质。嵌合蛋白质可在未知特定靶基因或通路的知识下被鉴定。

一个实施方式中，文库的每种核酸编码含有多个锌指结构域的人工多肽。可制备编码不同嵌合蛋白质的核酸文库，例如，如下部分所描述。文库成员被导入培养基中的细胞或生物体的细胞中。经过表达被编码的蛋白质后，鉴定改变了表型特点的细胞或生物体。这些表型改变的细胞的至少一个的文库核酸被回收，因此鉴定产生表型作用的人工嵌合多肽。

尽管这个方法在锌指结构域的嵌合体文中仅是一般性描述，但其易于适合其它结构性结构域，包括其它DNA结合结构域和细胞信号结构域。

文库构建：1、示范结构性结构域

构建核酸文库，其包括编码和表达人工蛋白质的核酸，该人工蛋白质是一个或多个结构性结构域的嵌合体。某些方面，结构性结构域是特异性不同的核酸结合结构域所以文库编码了大量具有不同结合特异性的蛋白质。

已知多种结构性结构域与核酸高亲和性和高特异性结合。回顾可以识别双链DNA的结构域基序，见，例如，Pabo和Sauer(1992)Annu.Rev.Biochem.61：1053-95；Patikoglou和Burley(1997)Annu.Rev.Biophys.Biomol.Struct.26：289-325；Nelson(1995)Curr Opin GenetDev.5：180-9。一些非限制性的核酸结合结构域的实施例包括：

锌指：锌指是大约30个氨基酸的小多肽结构域，其中存在四个氨基酸，半胱氨酸或组氨酸，空间距离大约可以使其调节一个锌离子(综述见，例如，Klug和Rhodes，(1987)Trends Biochem.Sci.12：464-469(1987)；Evans和Hollenberg，(1988)Cell 52：1-3；Payre和Vincent，(1988)FEBSLett.234：245-250；Miller等，(1985)EMBO J.4：1609-1614；Berg，(1988)Proc.Natl.Acad.Sci.U.S.A.85：99-102；Rosenfeld和Margalit，(1993)J.Biomol.Struct.Dyn.11：557-570)。因此，锌指结构域可以按照残基调节锌离子的特性而被划分，例如，Cys₂-His₂类，Cys₂-Cys₂类，Cys₂-CysHis类，等等。Cys₂-His₂类的锌指调节残基一般空间排列是：X_a-X-C-X_2-5-C-X₃-X_a-X₅-ψ-X₂-H-X_3-5-H(SEQ ID NO：72)，其中ψ(psi)是疏水氨基酸(Wolfe等，(1999)Annu.Rev.Biophys.Biomol.Struct.3：183-212)，其中“X”代表任意氨基酸，其中X_a是苯丙氨酸或酪氨酸，下标表示氨基酸数，连字符连接的数字表示一般间隔氨基酸的数目。典型的，间隔氨基酸折叠以形成与α-螺旋压紧的反平行β-折叠，尽管这个反平行β-折叠可以是短的，非理想的，或非存在的。折叠确定了锌指调节侧链的位置，所以它们在一个适于调节锌离子的四面体构形中。碱基接触残基在锌指的N末端和在前的茎环区中。

为方便，锌指结构域的主要DNA接触残基编号：-1，2，3和6，基于以下实例：

-1 1 2 3 4 5 6

X_a-X-C-X_2-5-C-X₃-X_a-X-C-X-S-N-X_b-X-R-H-X_3-5-H(SEQ ID NO：73)，

其中X_a典型是苯丙氨酸或酪氨酸，和X_b典型是疏水氨基酸。如以上实施例所指出，DNA接触残基是Cys(C)，Ser(S)，Asn(N)和Arg(R)。上述基序可简写为CSNR。如此处所用，这个简写指含有相应基序的一类序列。该类序列还包括包含特定多肽序列的一种序列，典型的序列列于对应于该基序的表1或2中。当两个序列具有相同的基序时，可使用数字表示序列。

锌指蛋白质典型地由3个或多个锌指结构域的串连排列组成。例如，基序连续列出的锌指结构域未被其它折叠结构域间隔，但是可包括一个连接子，例如，此处所述的结构域间的一个灵活的连接子。

锌指结构域(ZFP)是最普通的真核DNA结合基序之一，发现于从酵母到高等植物到人的种类中。据估计，单在人基因组中至少存在几千个锌指结构域，大约至少4500。锌指结构域可从锌指蛋白质中分离出来。非限制性的锌指蛋白质的实例包括CF2-II，Kruppel，WT1，碱性核蛋白(Basonuclin)，BCL-6/LAZ-3，红细胞类Kruppel样转录因子，Sp1，Sp2，Sp3，Sp4，转录阻抑子YY1，EGR1/Krox24，EGR2/Krox20，EGR3/Pilot，EGR4/AT133，Evi-1，GLI1，GLI2，GLI3，HIV-EP1/ZNF40，HIV-EP2，KR1，ZfX，ZfY，和ZNF7。

下述的计算方法可用来鉴定所有测序的基因组或核酸数据库编码的锌指结构域。任何这样的锌指结构域都可使用。另外，已经设计了人工锌指结构域，例如，使用计算的方法(例如，Dahiyat和Mayo，(1997)Science 278：82-7)。

还值得注意的是至少一些锌指结构域结合不是DNA的配体，例如，RNA或蛋白质。因此，锌指结构域或锌指结构域和其它类型的结构域的嵌合体可用来识别多种靶化合物，不只是DNA。

WO 01/60970，U.S.Serial No.60/374,355，申请日April 22，2002，和U.S.Serial No.10/223,765，申请日August 19，2002描述了可用来构建人工锌指蛋白质的示范锌指结构域。见表1，见下。

同源结构域。同源结构域是真核结构域，其组成为接触DNA小沟的N末端臂，然后是接触大沟的3个α-螺旋(综述见，例如，(1991)Biochemistry 30：11357-67)。第三个α-螺旋位于大沟并含有DNA接触侧链。同源结构域具有特征性的高保守的位于导致第三个α-螺旋的转角的基序。该基序包括不变的色氨酸，其位于结构域的疏水核心。这个基序存在于Prosite数据库，是PDOC00027([L/I/V/M/F/Y/G]-[A/S/L/V/R]-X(2)-[L/I/V/M/S/T/A/C/N]-X-[L/I/V/M]-X(4)-[L/I/V]-[R/K/N/Q/E/S/T/A/I/Y]-[L/I/V/F/S/T/N/K/H]-W-[F/Y/V/C]-X-[N/D/Q/T/A/H]-X(5)-[R/K/N/A/I/M/W]。同源结构域在决定细胞特性和在生物体发育中提供定位信息的转录因子中经常发现。这个经典的同源结构域发现于基因组中的簇中所以同源结构域在簇中的顺序大约对应于它们沿身体轴线的表达模式。同源结构域可通过和同源结构域对比而鉴定，例如，Hox-1，或通过和同源结构域分布图或同源结构域的隐藏的马尔可夫模型(HMM；见下)对比，例如，Pfam数据库的PF00046或SMART数据库的“HOX”，或通过上述的Prosite基序PDOC00027。

螺旋-转角-螺旋蛋白质。这个DNA结合基序是普通的真核转录因子。它有很多亚家族，例如，LacI家族，AraC家族，只命名了一些。命名中两个螺旋指压紧和定位DNA大沟中的第二个α-螺旋的第一个α-螺旋。这些结构域可通过和HMM，例如，SMART数据库中可得到的HTH ARAC，HTH_ARSR，HTH_ASNC，HTH_CRP，HTH_DEOR，HTH_DTXR，HTH_GNTR，HTH_ICLR，HTH_LACI，HTH_LUXR，HTH_MARR，HTH_MERR，和HTH_XRE的分布图对比而鉴定。

文库构建：2、鉴定结构性结构域

多个方法可用于鉴定结构性结构域。编码鉴定的结构域的核酸用来构建核酸文库。进而，编码这些结构域的核酸还可变化(例如，突变)以提供文库编码的另外的结构域。

计算方法。为鉴定另外的天然产生的结构性结构域，已知结构性结构域的氨基酸序列可与已知序列的数据库比较，例如，蛋白质或核酸序列的注解数据库。另一实施方式中，非典型序列例如，没注解的基因组，EST或全长cDNA序列的数据库；典型序列的数据库，例如，SwissProt或PDB；和结构域数据库，例如，Pfam，ProDom(Corpet等(2000)Nucleic Acids Res.28：267-269)，和SMART(Simple Modular ArchitectureResearch Tool，Letunic等(2002)Nucleic Acids Res 30，242-244)可以提供结构性结构域序列。核酸序列数据库可被翻译成所有6个阅读框架以和要查询的氨基酸序列比较。标记为编码候选核酸结合结构域的核酸序列可从适当的核酸来源扩增，例如，基因组DNA或细胞RNA。这样的核酸序列可被克隆到表达载体中。基于计算机的结构域鉴定过程可使用寡核苷酸合成仪和自动系统以高产量平台来生产编码结构域的核酸。克隆的编码候选结构域的核酸也可储存在宿主表达载体中并可容易的转移至表达载体中，例如，转移至具有其它结构域(相同的或不同类型)的翻译融合载体中，或通过限制性酶介导的亚克隆或通过位点特异的，重组酶介导的亚克隆(见US专利No.5,888,732)。高产量平台可用来产生含有编码不同候选嵌合体的多孔微量滴定板(multiple微滴定plates)。

从起始序列或分布图鉴定结构域的详细方法为本领域熟知。见，例如，Prosite(Hofmann等，(1999)Nucleic Acids Res.27：215-219)，FASTA，BLAST(Altschul等，(1990)J.Mol.Biol.215：403-10)等。可做简单的字串搜索来发现与要查询的序列或要查询的分布图具有相同性的氨基酸序列，例如，使用Perl扫描文本文件。

如此鉴定的序列可与开始输入的序列具有大约30％，40％，50％，60％，70％，80％，90％，或更高的相同性。

与查询结构域相似的结构域可在公共数据库中发现，例如，使用Altschul等(1990)J.Mol.Biol.215：403-10的XBLAST程序(2.0版本)。例如，BLAST蛋白质搜索可使用如下参数的XBLAST进行：分数(score)＝50，字长(wordlength)＝3。可在查询或搜索的序列中引入缺口，如Altschul等，(1997)Nucleic Acids Res.25(17)：3389-3402中所述。XBLAST和Gapped BLAST程序的缺省参数在National Center for BiotechnologyInformation(NCBI)，National Institutes of Health，Bethesda MD可获得。

Prosite profiles PS00028和PS50157可用来鉴定锌指结构域。SWISSPROT发布了80,000个蛋白质序列，这些分布图分别发现了3189和2316个锌指结构域。分布图可通过多种不同技术产生的相关蛋白质的多序列对比构建。Gribskov和同事(Gribskov等，(1990)Meth.Enzymol.183：146-159)运用符号比较表(symbol comparison table)将具有残基频率分布的多序列对比转化为每个位置的权(weight)。见，例如，PROSITE数据库和Luethy等的结果，(1994)Protein Sci.3：139-1465。

表示感兴趣的DNA结合结构域的隐藏的马尔可夫模型(HMM’s)可从这样模型的数据库产生或获得，例如，Pfam数据库，release2.1。可使用HMM搜索数据库，例如，使用缺省的参数，以发现另外的结构域(见，Bateman等(2002)Nucleic Acids Research 30：276-280)。另外，用户可以优化参数。阈值分数可以选择过滤序列数据库以使分数高于阈值的序列表示为候选结构域。Pfam数据库的描述可见于Sonhammer等，(1997)Proteins 28(3)：405-420，和HMMs的详细说明可见于，例如，Gribskov等，(1990)Meth.Enzymol.183：146-159；Gribskov等，(1987)Proc.Natl.Acad.Sci.USA 84：4355-4358；Krogh等，(1994)J.Mol.Biol.235：1501-1531；和Stultz等，(1993)Protein Sci.2：305-314。

HMM’s的SMART数据库(Simple Modular Architecture ResearchTool，Schultz等，(1998)Proc.Natl.Acad.Sci.USA 95：5857和Schultz等，(2000)Nucl.Acids Res 28：231)提供了通过HMMer2搜索程序(Durbin等，(1998)Biological sequence analysis：probabilistic models ofp7 oteifzs andnucleic acids。Cambridge University Press)的隐藏的马尔可夫模型检测鉴定的锌指结构域(ZnFC2H2；ZnFC2C2；ZnF～C2HC；ZnF C3H1；ZnFC4；ZnF-CHCC；ZnFGATA；和ZnF NFX)。

基于杂交的方法。收集的编码多种结构性结构域的核酸可被分析以检测编码保守氨基-和羧基-末端边界序列的序列。简并的寡核苷酸可被设计为与编码这样保守的边界序列的序列杂交。而且，这样的简并的寡核苷酸的有效性可通过比较它们的组成和已知基因组序列的可能退火位点的频率来估计。如希望，几轮设计可用来优化简并的寡核苷酸。

比较已知的Cys₂-His₂锌指，例如，揭示了天然序列中邻近指间的连接子区的共有序列(Agata等，(1998)Gene 213：55-64)。与编码保守的连接子区的核酸相退火的简并的寡核苷酸用来扩增锌指结构域。扩增的编码结构域的核酸用来构建编码锌指嵌合序列的核酸。

文库构建：3、编码结构性结构域的核酸

用来组成文库的核酸可通过多种方法获得。文库的一些组成核酸可编码天然产生的结构域。另外，一些组成核酸是通过突变或其它随机化方法获得的变体。组成核酸，典型的编码单一结构域，可互相连接而产生编码不同结构域融合体的核酸。

结构域天然结构的分离。结构域文库可通过从真核生物体如人的基因组DNA或cDNA中分离编码结构域的核酸序列而构建。多个方法可以做到。例如，计算机搜索获得的氨基酸序列可用来鉴定结构域，如上所述。编码每个结构域的核酸可被分离和插入适于在细胞中表达的载体中，例如，含有启动子，激活结构域，和选择标记的载体。另一实施方式中，与保守基序杂交的简并寡核苷酸用来扩增，例如，通过PCR，大量含有基序的相关结构域。例如，Kruppel样Cys₂His₂锌指可用Agata等，(1998)Gene 213：55-64的方法扩增。这个方法还保留了天然产生的锌指结构域连接子肽序列，例如，具有：Thr-Gly-(Glu/Gln)-(Lys/Arg)-Pro-(Tyr/Phe)(SEQ ID NO：74)的序列。而且，筛选限于感兴趣的结构域，不筛选非选择的基因组或cDNA序列的文库，显著降低了文库的复杂性和减少了由于完全筛选大文库固有的困难而带来的丢失所需序列的可能性。

人基因组包含大量锌指结构域，许多是为定性和鉴定的。估计有成千上万的基因编码具有锌指结构域的蛋白质(Pellegrino和Berg，(1991)Proc.Natl.Acad.Sci.USA 88：671-675)。这些人锌指结构域代表了可以构建新的DNA结合蛋白质的大量不同的结构域。许多示范的人锌指结构域描述于WO 01/60970，U.S.Serial No.60/374,355，申请日April 22，2002，和U.S.Serial No.10/223,765，申请日August 19，2002。见下表1。

表1

ZFD 氨基酸 SEQ 取代靶位

ID

NO：

CSNR1 YKCKQCGKAFGCPSNLRRHGRTH 75 GAA＞GAC＞GAG

CSNR2 YQCNICGKCFSCNSNLHRHQRTH 76 GAA＞GAC＞GAG

DSAR YSCGICGKSFSDSSAKRRHCILH 77 GTC

DSCR YTCSDCGKAFRDKSCLNRHRRTH 78 GCC

HSNK YKCKECGKAFNHSSNFNKHHRIH 79 GAC

HSSR FKCPVCGKAFRHSSSLVRHQRTH 80 GTT

ISNR YRCKYCDRSFSISSNLQRHVRNIH 81 GAA＞GAT＞GAC

ISNV YECDHCGKAFSIGSNLNVHRRIH 82 AAT

KSNR YGCHLCGKAFSKSSNLRRHEMIH 83 GAG

QAHR YKCKECGQAFRQRAHLIRHHKLH 84 GGA

QFNR YKCHQCGKAFIQSFNLRRHERTH 85 GAG

QGNR FQCNQCGASFTQKGNLLRHIKLH 86 GAA

QSHR1 YACHLCGKAFTQSSHLRRHEKTH 87 GGA＞GAA＞AGA

QSHR2 YKCGQCGKFYSQVSHLTRHQKIH 88 GGA

QSHR3 YACHLCGKAFTQCSHLRRHEKTH 89 GGA＞GAA

QSHR4 YACHLCAKAFIQCSHLRRHEKTH 90 GGA＞GAA

QSHR5 YVCRECGRGFRQHSHLVRHKRTH 91 GGA＞AGA＞GAA＞CGA

QSHT YKCEECGKAFRQSSHLTTHKIIH 92 AGA，CGA＞TGA＞GGA

QSHV YECDHCGKSFSQSSHLNVHKRTH 93 CGA＞AGA＞TGA

QSNI YMCSECGRGFSQKSNLIIHQRTH 94 AAA，CAA

QSNK YKCEECGKAFTQSSNLTKHKKIH 95 GAA＞TAA＞AAA

QSNR1 FECKDCGKAFIQKSNLIRHQRTH 96 GAA

QSNR2 YVCRECRRGFSQKSNLIRHQRTH 97 GAA

QSNR3 YECEKCGKAFNQSSNLTRHKKSH 98 GAA

QSNV1 YECNTCRKTFSQKSNLIVHQRTH 99 AAA＞CAA

QSNV2 YVCSKCGKAFTQSSNLTVHQKIH 100 AAA＞CAA

QSNV3 YKCDECGKNFTQSSNLIVHKRIH 101 AAA

QSNV4 YECDVCGKTFTQKSNLGVHQRTH 102 AAA

QSNT YECVQCGKGFTQSSNLITHQRVH 103 AAA

QSSR1 YKCPDCGKSFSQSSSLIRHQRTH 104 GTA＞GCA

QSSR2 YECQDCGRAFNQNSSLGRHKRTH 105 GTA

QSSR3 YECNECGKFFSQSSSLIRHRRSH 106 GTA＞GCA

QSTR YKCEECGKAFNQSSTLTRHKIVH 107 GTA＞GCA

QSTV YECNECGKAFAQNSTLRVHQRIH 108 ACA

QTEQ YECHDCGKSFRQSTHLTQHRRIH 109 AGA＞CGA，TGA

QTHR1 YECHDCGKSFRQSTHLTRHRRIH 110 GGA＞AGA，GAA

QTHR2 HKCLECGKCFSQNTHLTRHQRT 111 GGA

RDER1 YVCDVEGCTWKFARSDELNRHKKRH 112 GCG＞GTG，GAC

RDER2 YHCDWDGCGWKFARSDELTRHYRKH 113 GCG＞GTG

RDER3 YRCSWEGCEWRFARSDELTRHFRKH 114 GCG＞GTG

RDER4 FSCSWKGCERRFARSDELSRHRRTH 115 GCG＞GTG

RDER5 FACSWQDCNKKKARSDELARHYRTH 116 GCG

RDER6 YHCNWDGCGWKFARSDELTRHYRKH 117 GCG＞GTG

RDHR1 FLCQYCAQRFGRKDHLTRHMKKSH 118 GAG，GGG

RDHT FQCKTCQRKFSRSDHLKTHTRTH 119 AGG，CGG，GGG，TGG

RDKI FACEVCGVRFTRNDKLKIHMRKH 120 GGG

RDKR YVCDVEGCTWKFARSDKLNRHKKRH 121 GGG＞AGG

RSHR YKCMECGKAFNRRSHLTRHQRIH 122 GGG

RSNR YICRKCGRGFSRKSNLIRHQRTH 123 GAG＞GTG

RTNR YLCSECDKCFSRSTNLIRHRRTH 124 GAG

SSNR YECKECGKAFSSGSNFTRHQRIH 125 GAG＞GAC

VSNV YECDHCGKAFSVSSNLNVHRRIH 126 AAT＞CAT＞TAT

VSSR YTCKQCGKAFSVSSSLRRHETTH 127 GTT＞GTG＞GTA

VSTR YECNYCGKTFSVSSTLIRHQRIH 128 GCT＞GCG

WSNR YRCEECGKAFRWPSNLTRHKRIH 129 GGT＞GGA

如果每个锌指结构域识别唯一一个3-到4-碱基对的序列，需要结合每个可能的3-到4-碱基对序列的结构域总数只是64到256个(4³到4⁴)。可能人基因组的天然序列包含足够数目的唯一的锌指结构域包括所有可能的识别位点。这些锌指结构域是珍贵的构建人工嵌合DNA结合蛋白质的资源。核酸文库可包括编码含有天然产生的锌指结构域，该结构域的人工突变体，和其组合的蛋白质的核酸。

突变的结构域。在一个实施方式中，文库包括编码至少一个天然产生序列的人工变体的结构性结构域的核酸。一个实施方式中，这样的变体结构域从简并模式的文库中组装。在核酸结合结构域的情况下，接近核酸结合界面或接近这样的位置的位置可用来产生诱变。突变的测试锌指结构域，例如，通过使用模式化的简并文库，在任何突变的位置可局限于一套可能的氨基酸。简并密码子可用来在各个位置编码分布图。例如，可获得只编码疏水残基，脂肪残基，或亲水残基的密码子。选择文库选择编码折叠多肽的全长克隆。Cho等((2000)J.Mol.Biol.297(2)：309-19)提供了使用简并寡核苷酸的这样的简并文库的产生方法，也提供了选择编码全长多肽的文库核酸的方法。这样的核酸可容易的插入表达质粒中，例如，使用方便的限制性酶切位点。

在给定的位置选择合适的密码子和每个核苷酸的相关比例可通过简单的检查代表遗传密码子的表，或计算代数确定。例如，Cho等，在前，描述了接受蛋白质序列的所需的分布图和输出编码该序列的优选的寡核苷酸设计的计算机程序。

另见Zhang等，(2000)J.Biol.Chem.275：33850-33860；Rebar和Pabo(1994)Science 263：671-673；Segal(1999)Proc.Natl.Acad.Sci USA 96：2758；Gogus等，(1996)Proc.Natl.Acad.Sci.USA.93：2159-2164；Drier等，(2001)J.Biol.Chem.276：29466-29478；Liu等，(2001)J.Biol.Chem.276(14)：11323-11334；和Hsu等，(1992)Science 257：1946-50关于一些可获得的锌指结构域。

文库构建：4、嵌合锌指蛋白质的文库

编码多种嵌合锌指蛋白质的核酸文库可通过系列连接，例如，如实施例1所述而形成。可构建该文库而每种核酸编码具有至少3，4，或5个锌指结构域的蛋白质。一些实施方式中，特别是大文库，每个锌指编码片段被设计为随机编码任一个锌指结构域。可选择一套锌指结构域代表具有一定范围特异性的结构域，例如，包含30，40，50或更多个64种可能的3碱基对位点。该套可包括至少12，15，20，25，30，40或50个不同的锌指结构域。一些或所有这些结构域可是从天然产生的蛋白质种分离的结构域。而且，因为每个3碱基对位点很少或不需要多于一个的锌指结构域，可能使用小数目组成结构域产生一个文库，例如，少于500，200，100，或甚至少于64的总组成结构域。

一个示范文库包括编码具有3个指和在每个指位置的30个可能结构域的嵌合锌指蛋白质的核酸。在其完全的表示形式中，这个文库包括27,000个序列(即，30³的结果)。该文库可通过每步添加选自于编码所有30个可能的结构域的核酸文库中核酸的系列连接构建。

一个实施方式中，该文库储存为随机收集。另一实施方式中，可分离单个成员，储存于可设地址的位置(例如，阵列的)，和测序。高通量筛选4万到5万个构建的文库成员后，错失的嵌合结合可单独组装以获得完全覆盖。一旦被阵列化，例如，在微滴定盘中，每个单独的成员可随后回收以进一步分析，例如，进行表型筛选。例如，等量的每个阵列化的成员可被集中和转化细胞。选择和定性具有所需表型的细胞。另一实施方式中，每个成员是单独转化细胞的，而且定性细胞，例如，使用核酸为阵列来决定是否内源基因的转录被改变(见“检测RegulatoryProperties of a Chimeric Zinc Finger Protein”，下)。

导入核酸文库到细胞

文库核酸可使用多种方法导入细胞。一个实施方式中，文库储存为包含每个文库核酸的多个复制子的随机的池(pool)。等份的池转化入细胞。另一实施方案中，单个的文库成员分别储存(例如，在酶标板单独的孔或阵列的单独地点中)及单独导入细胞。

另一实施方案中，文库成员储存于相对于文库整体而言具有降低的复杂性的池中。例如，每个池可包括10⁵或10⁶不同成员的文库中的10³不同的文库成员。当一个池被鉴定为具有引起特定作用的成员，该池被展开以鉴定介导表型作用的单个文库成员。这个方法当在回收改变的细胞很困难时是有用的，例如，筛选引起凋亡的嵌合蛋白质。

文库核酸可通过多种方法被导入细胞。示范方法包括电穿孔(见，例如，U.S.5,384,253)；微弹轰击技术(microprojectile bombardmenttechniques)(见，例如，U.S.5,550,318；和5,610,042；和WO 94/09699)；脂质体介导的转染(例如，使用LIPOFECTAMINE^TM(Invitrogen)或SUPERFECT^TM(QIAGEN GmbH)；见，例如，Nicolau等，MethodsEnzymol.，149：157-176，1987)；磷酸钙或DEAE葡聚糖介导的转化(见，例如，Rippe等，(1990)Mol.Cell Biol.，10：689-695)；直接微注射或超声装载(sonication loading)；受体介导的转染(见，例如，EP273 085)；和土壤杆菌介导的转化(见，例如，U.S.5,563,055和5,591,616)。术语“转化”，入此处所用，涵盖任何导入外源核酸进入细胞的方法。

还可能应用病毒颗粒体外或体内运输文库核酸进入细胞。一个实施方案中，病毒包装用来运送文库核酸进入生物体细胞中。另一实施方案中，文库核酸体外导入细胞，其后细胞转移至生物体中。

导入文库核酸后，文库核酸被表达以至文库编码的嵌合蛋白质被细胞产生。文库核酸的恒定区域可提供必要的调控和支持序列以可以表达。这样的序列可包括转录启动子，转录终止子，剪接位点供者和受者，非翻译调控区(如polyA添加位点)，细菌的复制起点，指示文库核酸存在的标记或可核酸的选择标记。

筛选编码嵌合蛋白质的核酸文库

筛选中，细胞或生物体被评价以鉴定具有改变了的表型的个体。这个过程可适合于感兴趣的表型。由于可能的表型数目巨大，筛选的可能性也很大。进行大量的遗传筛选和选择以鉴定突变体或导致特定表型的过表达的天然产生的基因。这些方法的任何一个可适于鉴定编码嵌合蛋白质的核酸文库的有用的成员。筛选，或选择可包括评价含有文库核酸的每种细胞或生物体，例如，评价特定处理后存活或抵抗该处理的细胞或生物体。

评价细胞的示范方法包括显微镜(例如，光学，共聚焦，荧光，扫描电子，和发射电子)，基于荧光的细胞分选，差速离心，差异结合，免疫分析，酶促分析，生长分析，和体内分析。

一些筛选涉及特定的环境条件。鉴定对环境敏感或有抗性的细胞。

一些筛选要求监测细胞的特定行为(例如，化学向性，形态变化，或凋亡)，或生物体的特定行为(例如，植物的光向性，果蝇的交配行为，等等)。一个实施方案中，细胞或生物体可被直接评价，例如，通过目测，例如，使用显微镜和任选地的计算机软件去自动检测改变的细胞。另一实施方案中，细胞或生物体可使用分析或其它与所需表型相关的指示剂来评价。

一些筛选涉及细胞繁殖。鉴定与参照细胞(例如，正常细胞)繁殖速度不同的细胞。另外，对繁殖信号(例如生长因子或其它有丝分裂原)反应改变的细胞可被鉴定。这些细胞可对信号更或更不敏感。

也可使用涉及细胞分化的筛选。筛选和应用嵌合锌指蛋白质可用来调节多种细胞的分化和繁殖能力，包括干细胞，如ES细胞和体细胞，人和其它的。锌指蛋白质可指导ES细胞分化到特定品系，如神经元祖细胞或造血干细胞。也可能筛选可以指导分化干细胞为确定的有丝分裂后的细胞类型的锌指蛋白质，例如，指导ES细胞和/或神经干细胞分化为多巴胺能或胆碱能神经元。

在其它评价分化的表型中，可能观察标记基因和标记蛋白质的表达。这样的标记的实施例包括：

■FLK1对于内皮细胞(Cho等，(2001)Blood 98：3635-42；Nishikawa等，Development 125：1747-1757)，

■血管平滑肌细胞特异性肌球蛋白重链对于平滑肌(Drab等，(1997)FASEB J 11：905-15)

■骨特异性碱性磷酸梅(BAP)和骨钙蛋白(osteocalci)对于成骨细胞，(Demers等，(2000)Cancer 88：2919-26)

■CD4，CD8，和CD45对于白细胞(Ody等，(2000)Blood 96：3988-90，Martin等，(2000)Blood 96：2511-9)

■Flk-2和CD34对于造血干细胞，(Julie等，Proc.Natl.Acad.Sci.USA，2001，Vol.98，Issue 25，14541-14546，Woodward &Jenkinson.Eur J Immunol 2001 Nov；31(11)：3329-38，George AA等，Blood 2001 Jun 15；97(12)：3925-30)

■CFU对于造血干细胞、MSC祖细胞(Frimberger等，Exp Hematol2001 May；29(5)：643-52)

■Muc-18(CD146)对于成纤维细胞，(Filshie等，(1998)Leukemia 12：414-21)

■II型胶原，IV型胶原和软骨细胞表达的蛋白-68对于软骨细胞(Carlberg等，(2001)Differentiation 67：128-38，Steck等，(2001)Biochem J 353：169-74)

■脂肪细胞脂质结合蛋白(ALBP)和脂肪酸转运蛋白对于脂肪细胞(Amri等，(1995)J.Biol.Chem.270：2367-2371，Bastie等，(1999)J Biol Chem 274：21920-5，Frohnert等，(1999)J.Biol.Chem.274，3970-3977，Teboul等，(2001)Biochem.J.360：305-312)

■CD133对于神经干细胞(Uchida N等，(2000)Proc.Natl.Acad.Sci.USA 97：14720-5)

■GFAP对于星形细胞(Dai等，(2001)Genes Dev 15：1913-25)

■微管相关蛋白-2对于神经元(Roy等，(2000)Nat Med 6：271-7)

还可能筛选哺乳动物细胞的其它特点，如抗肿瘤生成，改变的凋亡，和抗病毒表型。例如，通过选择对病毒感染或病毒产生具有抗性的细胞，可能鉴定可用作抗病毒药的人工嵌合蛋白质。

通过使用与通路活性或失活性相关的探针或通过与通路的活性或失活性相关的可见指示可以检测细胞信号通路中的相似变化。

一些筛选涉及产生感兴趣的化合物，例如，代谢化合物，分泌蛋白质，和翻译后修饰的蛋白质。例如，可以鉴定生产更多量化合物的细胞。另一实施方式中，可以鉴定生产更少量化合物的细胞，例如，非所需的副产物。感兴趣的细胞可用多种方法鉴定，包括使用应答细胞，微阵列，化学探察分析，和免疫分析。

更多特定实施方案的实施例包括：

1)蛋白质溶解度：大肠杆菌中，很多异源蛋白质被表达为包涵体。我们鉴定了提高在大肠杆菌中表达的人蛋白质溶解部分的嵌合锌指蛋白质。见实施例12。因而，本发明提供了改变(例如，提高)表达的(例如，在细胞中过表达)异源蛋白质溶解度的人工转录因子或嵌合锌指蛋白质。

2)糖基化：包含抗体的治疗蛋白质经常在CHO细胞中生产。然而，这样的蛋白质没有最佳的糖基化模式。一个实施方案中，编码嵌合蛋白质的文库被筛选以鉴定CHO细胞，该细胞被修饰以便分泌蛋白质，例如，抗体，包含一或多个(例如，所有)糖基化而特征化B细胞生产的抗体。因而，本发明提供了改变分泌蛋白质，例如，CHO细胞分泌的蛋白质，例如，CHO细胞分泌的抗体的糖基化的人工转录因子或嵌合锌指蛋白质。

3)病毒滴度：一个实施方案中，编码嵌合蛋白质的文库被筛选以鉴定在细胞培养中提高或降低病毒滴度的嵌合蛋白质。病毒可被用为输送工具，例如，基因输送工具。例如，治疗病毒被发展为治疗某种类型的癌症(例如，腺病毒)。提高病毒滴度对制备治疗病毒有用。另一方面，抑制细胞培养中和体内病毒产生对治疗病毒病有用。因而，本发明提供了改变(例如，提高或降低)细胞，例如，真核或哺乳动物细胞中病毒生产的人工转录因子或嵌合锌指蛋白质。

4)转化效率：很多真核细胞系或原核生物体中的遗传工程被低转染或转化效率而限制。可选择人工转录因子，其可修饰细胞以使转染或转化效率提高。选择这样的因子可通过用报道分子或标记在限定的浓度下进行，然后选择吸收了该报道分子的那些细胞。因而，本发明提供了改变(例如，提高)DNA摄入效率或细胞DNA摄入过程的耐受性的人工转录因子或嵌合锌指蛋白质。

5)饲养细胞。可能鉴定修饰培养细胞特性的的人工转录因子和其它嵌合体以便培养细胞可以支持干细胞的繁殖或分化，例如，因此生产饲养细胞。培养细胞可是人或哺乳动物细胞。该细胞被筛选(例如，通过将文库成员分池(pooling))以鉴定引起在相同环境(例如，相同孔)中培养的干细胞繁殖或分化的细胞。人工转录因子可激活分泌到培养基中的关键细胞因子和生长因子。该培养基可用来诱导分化或繁殖(例如，通过支持自我更新)干细胞。因而，本发明提供了改变(例如，提高)哺乳动物细胞对条件培养基的能力或改变干细胞行为，例如调控干细胞的繁殖或分化的人工转录因子或嵌合锌指蛋白质。

还可能使用一种细胞筛选人工转录因子和然后在第二种细胞中表达该人工转录因子。这个过程可用来一般性的转移转录因子诱导的第一种细胞的表型变化到第二种细胞。例如，我们确定了两种很不同的细胞系总中特定锌指蛋白质的表达分布图；人胚胎肾293细胞，其是非癌性的，和人宫颈癌细胞HeLa。我们发现表达分布图惊人的相似。同样的，在酵母中我们证明了在一个株中ZFP诱导的表型可被转移到不同的株中。

干细胞

此处描述的方法，可以通常应用于任何细胞，还特别对调控来自任何后生生物体的干细胞的行为有用。干细胞是具有自我更新能力和分化潜能的细胞。自我更新可被延长，甚至无限。干细胞可产生高度分化的后代(Watt和Hogan(2000)Science 287：1427-1430)最近成功的在培养的人胚胎干细胞中提供了基于细胞的治疗的细胞源。然而，维持，复制，和分化干细胞可以，至少在一些情况下，是困难的。ES细胞，例如，具有体外随机分化的趋向。

嵌合转录因子文库可用来鉴定可以控制细胞分化，例如，干细胞分化的蛋白质。例如，一个可以鉴定指导干细胞分化为确定的有丝分裂后的细胞亚型(例如，多巴胺能或胆碱能神经元)的嵌合转录因子。

可以鉴定提高自我更新潜能的蛋白质，其阻止了分化，或指导了分化的程度和特征。这些蛋白质一般通过导入编码人工锌指蛋白质的核酸到干细胞或干细胞亲代细胞中而被鉴定，和评价细胞表型。

控制干细胞分化和繁殖潜能的方法可以在其它方面提供给分化细胞大量的供给，和对特别细胞类型的分化调控。这样的控制可适合治疗应用或其它应用(例如，发展转基因动物，体外细胞培养，等等)。

其它实施方式中，可以鉴定指导胚胎干(ES)细胞分化为限定系的嵌合转录因子。因此，可以从ES细胞产生神经元祖细胞或造血干细胞，还可能鉴定嵌合蛋白质，例如，嵌合ZFP，其引起1)分化的细胞以适应不同的分化状态或2)分化的细胞以适应非分化状态，例如，因此产生干细胞或多能祖细胞。

鉴定方法不要求有关特定靶基因的信息。靶基因在筛选后被鉴定，例如，通过转录或蛋白质分布图来鉴定被鉴定的嵌合转录因子改变了表达或活性的基因。鉴定ZFP-TFs调控的基因将提前发现细胞分化。

细胞产物的产生

本发明提供了改变细胞生产细胞产物，例如，蛋白质或代谢产物，能力的人工转录因子(例如，嵌合锌指蛋白质)。细胞产物可是内源或异源分子。例如，可以鉴定提高细胞生产蛋白质，例如特定的蛋白质(例如，特定的内源蛋白质)，过表达的蛋白质，异源蛋白质，或错误折叠的蛋白质能力的人工转录因子。

一个实施方案中，筛选细胞生产报道蛋白质的能力，例如，可被酶促方法或荧光方法检测的蛋白质。一个实施方式中，报道蛋白质在参照细胞中过表达时是不溶的。例如，可筛选细菌细胞的减少包涵体的人工转录因子。另一实施方式中，报道蛋白质是分泌的，例如，被原核或真核细胞分泌。可筛选分泌产量较高的，或提高了翻译后修饰，例如，糖基化，磷酸化，或蛋白水解过程的细胞。

一个实施方案中，筛选改变(例如，提高或降低)两个不同报道蛋白质活性的细胞。报道蛋白质可有不同的，例如，活性，定位(例如，分泌的/细胞质的/核的)，大小，溶解度，等电点，寡聚状态，翻译后调控，翻译调控，和转录调控(例如，编码它们的基因可被不同的调控序列调控)。本发明包括改变这些特性区别的至少两个不同的报道基因的人工转录因子(例如，锌指蛋白质)，和选择性调控报道基因的锌指蛋白质，或这些特性定义的一类报道基因。

因为表型筛选方法可用来分离人工转录因子，不需要知道锌指蛋白质如何介导提高了蛋白质产生。可被证明的可能机制是，包括以下一或多个的改变：翻译机制，转录产物加工，转录，分泌，蛋白质降解，应激抗性，催化活性，例如，代谢物生产。一个实施方式中，人工转录因子可调节代谢通路中一或多个酶的表达和因此提高细胞产物入代谢物或蛋白质的生产。

重复设计(iterative design)

一旦鉴定了嵌合DNA结合蛋白质，其改变细胞表型的能力可通过多种策略进一步提高。小文库，例如，具有大约6到200或50到2000成员的，或大文库可用来优化特定鉴定的嵌合蛋白质的特性。

在第一个重复设计的示范实施方案中，应用诱变技术改变原始的嵌合DNA结合蛋白质。应用该技术来构建第二个文库，其成员包括原始蛋白质的变体，例如，从第一个文库鉴定的蛋白质。这些技术的实例包括：错误倾向的PCR(Leung等.(1989)Technique 1：11-15)，重组，使用随机切割的DNA穿梭(Stemmer(1994)Nature 389-391)，Coco等(2001)Nature Biotech.19：354，定点诱变(Zollner等(1987)Nucl Acids Res 10：6487-6504)，结合简并寡核苷酸(Griffiths等(1994)EMBO J 13：3245)的盒诱变(Reidhaar-Olson(1991)Methods Enzymol.208：564-586)；系列连接，从预制的和阵列化的文库中池ing特异的文库成员，重组(例如，有性PCR和“DNA穿梭^TM”(Maxygen，Inc.，CA))，或这些方法的组合。

一个实施方案中，构建一个文库，其突变了一套氨基酸位置。例如，对于嵌合锌指蛋白质，该套氨基酸位置可位于DNA接触残基的附近，但不是DNA接触残基自身。另一实施方案中，嵌合蛋白质中每个被编码的结构域在文库中是不同的，但是在比开始文库更限制的程度下，从中鉴定了嵌合DNA结合蛋白质。对嵌合锌指蛋白质，编码特定结构域的核酸在其它锌指结构域中是不同的，已知其识别特异性与原始嵌合蛋白质的结构域的相似。

一些技术包括从编码至少两个已知具有特定功能特性的嵌合DNA结合蛋白质的结构域的核酸中产生新的嵌合DNA结合蛋白质。包括DNA穿梭和标准结构域交换的这些技术产生了新的结构域的组合。见，例如，U.S.专利6,291,242。DNA穿梭还可导入另外的点突变到仅仅交换的结构域中。穿梭反应使用编码诱导所需表型的嵌合蛋白质的核酸序列。核酸被穿梭。第二个文库从穿梭产物中产生并筛选诱导所需表型的成员，例如，在相似或更严格的条件下。如果开始的文库是完全的以致筛选所有可能的结构域组合，分离自相同开始文库的结构域的DNA穿梭可能没有结果。DNA穿梭可能在覆盖完全的情况下和全面筛选不实际的情况下有用。

第二个示范的重复设计的实施方案中，产生了所需表型的嵌合DNA结合蛋白质被不同的每个结构域所改变。结构域可按顺序被改变，例如，一个接一个，或同时改变多个。以下实施例提到包括3个锌指结构域的原始嵌合蛋白质：指I，II，和III和产生所需表型的那个。构建第二个文库以便第二个文库的每种核酸成员如最初鉴定的蛋白质那样编码相同的指II和指III。然而，该文库包括与原始蛋白质的指I不同的指I的核酸成员。区别可能是单一核苷酸，其改变了被编码的嵌合蛋白质的氨基酸序列或可能是更基本的差别。可构建第二个文库，例如，所以指I的碱基接触残基是不同的，或者指I的碱基碱基接触残基保留了而临近的残基是不同的。第二个文库还可包括大量足够的锌指结构域以识别至少20，30，40，或60个三核苷酸位点。

筛选第二个文库以鉴定改变细胞或生物体表型的成员。改变的程度可与原始蛋白质产生的相似或比原始蛋白质产生的更大。

目前，或以后，可构建第三个文库，其指II不同，和构建第四个文库，其指III不同。可能不需要进一步改良所有结构域都不同的嵌合蛋白质，如果嵌合蛋白质或已经鉴定的突变体已经足够了。其它情况下，需要再优化每个结构域。

如果其它结构域目前不同，每个特定文库的改良的变体可互相组合以产生另一个文库。相似的筛选这个文库。

重复设计的第三个示范实施方案中，方法包括添加，取代，和缺失一个结构域，例如，锌指结构域或调控结构域。另外的锌指结构域可提高嵌合蛋白质的特异性和提高结合亲和力。某些情况下，提高的结合亲和力可以提高嵌合蛋白质产生的表型。另外的调控结构域，例如，第二个激活结构域或动员辅助因子的结构域，也可以提高嵌合蛋白质产生的表型。缺失可以提高或扩大嵌合蛋白质的活性的特异性，依赖于被缺失的结构域的贡献，等等。

在重复设计的第四个示范实施方案中，方法包括在细胞中共表达原始的嵌合蛋白质和第二个嵌合DNA结合蛋白质。第二种嵌合蛋白质也可通过筛选编码不同嵌合体的核酸文库来鉴定。一个实施方案中，第二种嵌合蛋白质通过筛选在细胞中表达原始嵌合蛋白质的文库来鉴定。另一实施方案中，第二种嵌合蛋白质是独立鉴定的。

嵌合锌指蛋白质的检测调控特性

改变细胞表型的嵌合转录因子可进一步通过鉴定其直接或间接调控的内源基因而定性。典型的，嵌合转录因子是在细胞中产生的。在适当的时间，例如，表型改变发生之前，之中，或之后，分析细胞以确定细胞中或围绕细胞的培养基中的转录产物或蛋白质的水平。例如，可从细胞中收获mRNA并用核酸微阵列分析。

核酸微阵列可通过多种方法构造，例如，光刻方法(见，例如，U.S.专利5,510,270)，机械方法(例如，U.S.专利5,384,261描述的directed-flow法)，和基于针点的(pin based)方法(例如，U.S.5,288,514所描述)。用每个地址处的独特捕获探针合成阵列，每个捕获探针适于检测特定表达基因的核酸。

可通过常规方法分离mRNA，例如，包括Dnase处理以除去基因组DNA和与oligo-dT偶联的固体底物杂交(例如，如Current Protocols inMolecular Biology，John Wiley & Sons，N.Y所述)。洗底物，并洗脱下mRNA。分离的mRNA于是被逆转录和任选地扩增，例如，通过rtPCR，例如，如(U.S.专利4,683,202)所述。核酸可在扩增或逆转录中被标记，例如，通过整合标记核苷酸。优选的标记的实施例包括荧光标记，例如，红色荧光染料Cy5(Amersham)或绿色荧光染料Cy3(Amersham)。另外，核酸可用生物素标记，并在杂交后用标记的链霉亲和素检测，例如，链霉亲和素-藻红蛋百(Molecular Probes)。

标记的核酸于是与阵列接触。另外，对照核酸或参照核酸与相同的阵列接触。对照核酸或参照核酸可用不同于样品核酸标记的标记物标记，例如，使用不同最大发射波长的标记物。标记的核酸在杂交条件下与阵列接触。洗阵列，并成像以检测阵列每个地址的荧光。

产生和评价分布图的一般方法包括检测阵列每个地址的杂交。每个地址杂交的程度是通过数值表示的并储存于，例如，载体，一维矩阵，或一维点阵中。载体x对阵列的每个地址都有一个值。例如，在特定地址杂交程度的数值是储存于变量x_a中。可调整数值，例如，对局部背景水平，样品量，和其它变量。从参照样品中制备核酸并与同一或不同阵列杂交。载体y是与载体x相同的构建体。样品表达分布图和参照分布图可相比较，例如，使用两个载体的函数的数学方程式。比较可评价维数值，例如，分数代表两个分布图的相似性。每个或两个载体可通过矩阵被转化以给阵列不同检测到的基因加上加权值。

表达数据可以储存在数据库中，例如，关系数据库如SQL数据库(例如，Oracle或Sybase数据库环境)。数据库可有多个表格。例如，原始数据可储存在一个表格中，其中每栏对应于被阵列化的基因，例如，地址或阵列，和每排对应于样品。分开的表格可储存鉴定物和样品信息，例如，使用的阵列的批号，日期，和其它质量控制信息。

被相似调控的基因可通过簇表达数据鉴定以鉴定共调控的基因。这样的簇可指示被嵌合锌指蛋白质协同调控的基因。基因可使用分等级的簇而被分簇(见，例如，Sokal和Michener(1958)Univ.Kans.Sci.Bull.38：1409)，贝叶斯簇，k-means簇，和自组织图(见，Tamayo等(1999)Proc.Natl.Acad.Sci.USA 96：2907)。

样品表达分布图(expression profile)对参照表达分布图(例如，对照细胞)的相似性也可，例如，通过比较样品表达水平的对数值和预测值或参照表达值的对数值而确定，并通过对分布图中所有基因预测值的加权因子调整比较值。

也可测量具有活性嵌合蛋白质的细胞中的蛋白质表达分布图。蛋白质分布图一个的示范方法包括2-D凝胶电泳和质谱去定性各个蛋白质种类。2-D凝胶上的各个“点”被蛋白水解，然后在质谱中分析。这个方法可鉴定蛋白质组成和，在很多情况下，鉴定翻译修饰。

蛋白质和核酸表达分布图方法可不仅提供关于嵌合蛋白质特性的信息，也可提供关于细胞中天然机制的信息。例如，通过嵌合蛋白质的表达而上调的蛋白质或核酸可以是嵌合蛋白质表达引起的表型变化的天然效应子。

另外，其它方法可用来鉴定人工嵌合蛋白质直接或间接调控的靶基因和蛋白质。一个实施方式中，定性了补偿(例如，抑制)人工嵌合蛋白质表型作用的改变。这些改变包括遗传改变如染色体基因突变和特定基因过表达，及其它改变，如RNA干涉(例如，通过双链RNA)。

一特定实施方式中，分离了当在细胞中条件表达时，例如，病原体细菌或真菌，引起生长缺陷或致命性的嵌合ZFP。这样的ZFP可通过转化细胞ZFP文库而鉴定，该文库包括编码ZFP的核酸，该核酸的表达受可诱导的启动子控制。转化体培养在非诱导培养基中并在诱导和非诱导板上复制。在非诱导板上正常生长，但在诱导板上显示生长缺陷的菌落被鉴定为“条件致命性”或“条件生长缺陷”菌落。

(a)使用cDNA文库鉴定靶基因

cDNA表达文库被转化入上述的“条件致命性”或“条件生长缺陷”株中。把转化体在诱导板上铺板。分离存活的菌落，尽管存在和表达了引起缺陷的ZFP。定性补偿了缺陷的cDNA的核酸序列。这些cDNA可是介导缺陷的嵌合ZFP调控的直接或间接靶基因的转录产物。

(b)使用二级ZFP文库鉴定靶基因

鉴定了抑制第一种嵌合蛋白质作用的第二种嵌合蛋白质。鉴定了第二种嵌合蛋白质(存在或不存在第一种嵌合蛋白质)的靶。

例如，ZFP文库被转化入“条件致命性”或“条件生长缺陷”菌落(其包含引起缺陷的第一个嵌合ZFP)。把转化体在诱导板上铺板。通过导入的ZFP的表达可以存活的菌落被鉴定为“被抑制的菌株”。第二个靶基因可以通过DNA微阵列分析定性。比较分析可在4个菌株中进行：1)没有ZFP；2)只有第一个ZFP；3)只有第二个ZFP；和4)有第一个和第二个ZFP。例如，被第一个和第二个嵌合ZFP以相反方向调控的基因是介导生长缺陷表型的候选靶。这个方法可用于任何表型，不仅是生长缺陷。

(c)通过表达分布图分析鉴定的共调控基因

通过表达分布图鉴定了嵌合ZFP的候选靶。随后，为确定是否候选靶介导嵌合ZFP的表型，候选靶可独立的过表达或抑制(例如，通过遗传缺失或RNA干涉)。另外，可以应用这个分析到多个候选靶，因为至少一些情况下多于一个候选物需要被干扰以引起表型。这个方法的实施例提供在实施例3中(酮康唑抗性)。

(d)时间过程分析

细胞暴露于嵌合ZFP后，通过基因表达对于时间的变化鉴定嵌合ZFP的靶。例如，编码嵌合ZFP的基因可隶属于一个可诱导的启动子。一个示范的可诱导启动子被小分子如强力霉素调控。编码嵌合ZFP的基因被导入细胞。在诱导了可诱导启动子后的不同时间后，从细胞中获得mRNA样品。见，例如，图13，其描绘了ZFP F104-p65诱导过程中被激活和阻抑的基因。

(e)使用蛋白质转导和cDNA微阵列技术鉴定哺乳动物细胞的ZFP-TFs的主要靶基因。

可以通过转导导入嵌合蛋白质到细胞中。将蛋白质提供至胞外环境，而细胞将蛋白质转移给自身。因此，细胞不必要包括编码嵌合蛋白质的基因。这个方法可以不必考虑外源核酸的整合和扩增等问题。可以精确控制蛋白质的水平。一个实施方案中，嵌合ZFP被融合到Tat或VP22的蛋白质转导结构域中。

为分析培养细胞中转导的嵌合蛋白质的作用，加入嵌合蛋白质到培养基中，例如，融合到蛋白质转导结构域中。可通过加入蛋白质合成抑制剂如放线菌酮提高调控的靶基因的检测。因此，主要靶基因的翻译被阻断，则主要靶基因编码的蛋白质调控的基因可被检测出。主要靶基因的特性可在DNA微阵列分析中发现。

应用放线菌酮鉴定主要靶基因也可用于当嵌合蛋白质被细胞中异源核酸编码的时候。例如，诱导的异源核酸表达少于30，20，15，10，或5分钟时，加入放线菌酮。

(f)活性分析

潜在的靶基因的功能可通过抑制靶基因的活性来评价，例如，用双链RNA(dsRNA)的RNA干涉(RNAi)，反义技术，核酶，或靶向性遗传突变。靶基因活性被降低的细胞或生物体可被评价及与没有RNAi处理的对照细胞或生物体比较。另一实施方式中，表达了被认为调控靶基因的人工锌指蛋白质的细胞或生物体用RNAi处理。人工锌指蛋白质诱导表型的能力在存在和不存在RNAi时评价。一些情况下，如果潜在的靶基因确实是关键靶，RNAi处理失活潜在靶可以减弱人工锌指蛋白质诱导的表型。

dsRNA可通过双向转录一个盒产生，例如，通过在该盒的每一侧都含有T7启动子。选择盒的这个插入以便其包含与潜在的靶基因互补的序列。另见，HiScribe^TM RNAi Transcription Kit(New England Biolabs，MA)和Fire，A.(1999)Trends Genet.15，358-363。dsRNA可被消化为较小的片段。见，例如，US Patent Application 2002-0086356。dsRNA可用来使哺乳动物细胞的基因不表达。见，例如，Clemens等(2000)Proc.Natl.Sci.USA 97，6499-6503；Billy，E.等(2001)Proc.Natl.Sci.USA98，14428-14433；Elbashir等(2001)Nature.411(6836)：494-8；Yang，D.(2002)Proc.Natl.Acad.Sci.USA 99，9942-9947。

靶DNA位点鉴定

对于嵌合DNA结合蛋白质，多种方法可用来确定产生感兴趣表型的嵌合DNA结合蛋白质的靶位点。这样的方法可用来，单独或组合，以发现这样的位点。

一个实施方案中，表达分布图的信息用来鉴定嵌合锌指蛋白质识别的靶位点。比较嵌合锌指蛋白质共调控的基因的调控区域以鉴定与所有或很多调控区域共同的基序。

另一实施方案中，生物化学手段用来确定嵌合锌指蛋白质结合什么样的DNA位点。例如，染色质免疫沉淀实验可用来分离嵌合锌指蛋白质结合的核酸。分离的核酸通过PCR扩增和测序。见，例如，Gogus等(1996)Proc.Natl.Acad.Sci.USA.93：2159-2164。SELEX方法是可使用的示范方法。进而，关于嵌合锌指蛋白质的各个锌指结构域的结合特异性的信息可用来预测靶位点。预测可被验证或可用来指导对其它结果的解释(例如，染色质免疫沉淀，共调控基因的silico分析，和SELEX)。

另一实施方案中，潜在的靶位点是基于关于每个组成的锌指的结合特异性的信息而推断的。例如，如图10A和10B所示，含有锌指结构域的嵌合体，从N-到C-末端，：CSNR，RSNR，和QSNR预期识别靶位点5′-GAAGAGGACC-3′(SEQ ID NO：130)。结构域CSNR，RSNR，和QSNR具有以下分别的DNA结合特异性GAC，CAG，和GAA。预期的靶位点的形成是通过考虑C末端到N末端顺序的结构域和连接它们的识别特异性而获得一条链上5’到3’顺序的靶位点。

尽管大多数情况下，嵌合锌指蛋白质很可能具有转录调节子的功能，有些情况下可能嵌合锌指蛋白质通过结合RNA或蛋白质靶介导表型作用。一些天然产生的锌指蛋白质实际上结合这些巨大分子。

嵌合转录因子的另外特征

对于编码嵌合核酸结合结构域的文库，被编码的多肽也可包括一个或多个以下特征。这些特征可以在所有成员中稳定或可以变化。一个实施方式中，一些核酸编码的多肽含有激活结构域，然而其它含有阻抑结构域，或没有转录调控结构域。

激活结构域。可用于本发明中的转录激活结构域包括但不限于酵母的Gla4激活结构域和单纯疱疹病毒的VP16结构域。证实结构域激活转录的能力可通过融合该结构域到已知DNA结合结构域再确定是否可操纵的连接到被已知DNA结合结构域识别的位点的报道基因被融合蛋白质激活。

示范激活结构域是p65的以下结构域：

YLPDTDDRHRIEEKRKRIYETFKSIMKKSPFSGPTDPRPPPRRIAVPSRS

SASVPKPAPQPYPFTSSLSTINYDEFPTMVFPSGQISQASALAPAPPQVL

PQAPAPAPAPAMVSALAQAPAPVPVLAPGPPQAVAPPAPKPTQAGEGT

LSEALLQLQFDDEDLGALLGNSTDPAVFTDLASVDNSEFQQLLNQGIP

VAPHTTEPMLMEYPEAITRLVTAQRPPDPAPAPLGAPGLPNGLLSGDED

FSSIADMDFSALLSQ(SEQ ID NO：131)

示范的Gla4激活结构域的序列如下：

NFNQSGNIADSSLSFTFTNSSNGPNLITTQTNSQALSQPIASSNVHDNF

MNNEITASKIDDGNNSKPLSPGWTDQTAYNAFGITTGMFNTTTMDDV

YNYLFDDEDTPPNPK KEISMAYPYDVPDYAS(SEQ ID NO：132)

细菌中，激活结构域功能可被一个结构域模仿，该结构域补充了野生型RNA聚合酶α-亚基C末端结构域或突变α-亚基C末端结构域，例如，C末端结构域融合到蛋白质相互作用结构域。

阻抑结构域。如需要，可以将阻抑结构域而不是激活结构域融合到DNA结合结构域。真核阻抑结构域的实施例包括Kid，UME6，ORANGE，groucho，和WRPW的阻抑结构域(见，例如，Dawson等，(1995)Mol.CellBiol.15：6923-31)。证实结构域抑制转录的能力可通过融合该结构域到已知DNA结合结构域并确定是否可操纵连接到被已知DNA结合结构域识别的位点的报道基因被融合蛋白质抑制。

示范阻抑结构域是UME6蛋白质的以下结构域：

NSASSSTKLDDDLGTAAAVLSNMRSSPYRTHDKPISNVNDMNNTNAL

GVPASRPHSSSFPSKGVLRPILLRIHNSEQQPIFESNNSTACI(SEQ IDNO：133)

另一示范阻抑结构域来自Kid蛋白质：

VSVTFEDVAVLFTRDEWKKLDLSQRSLYREVMLENYSNLASMAGFLF

TKPKVISLLQQGEDPW(SEQ ID NO：134)

其它嵌合转录因子既不包括激活又不包括阻抑结构域。可能这样的转录因子通过取代或和结合的内源转录因子(例如，激活子或阻抑子)竞争而改变转录。

肽连接子。DNA结合结构域可通过多种连接子相连。使用和设计连接子为本领域熟知。特定的有用的连接子是核酸编码的肽连接子。因此，可以构建编码第一个DNA结合结构域，肽连接子，和第二个DNA结合结构域的合成基因。这个设计可重复以构建大的，合成的，多结构域的DNA结合结构域。PCT WO 99/45132和Kim和Pabo((1998)Proc.Natl.Acad.Sci.USA 95：2812-7)描述了适合连接锌指结构域的肽连接子。

可获得形成随机卷曲，α-螺旋或β-折叠三级结构的其它肽连接子。形成适当灵活连接子的多肽为本领域熟知(见，例如，Robinson和Sauer(1998)Proc Natl Acad Sci USA.95：5929-34)。灵活连接子典型的包括甘氨酸，因为这个缺少侧链的氨基酸是唯一可以自由转动的氨基酸。丝氨酸或苏氨酸可分布于连接子以提高亲水性。另外，可使用能与DNA磷酸骨架相互作用的氨基酸以提高结合亲和力。明智的使用这些氨基酸可以平衡提高的亲和力和丧失的序列特异性。如果作为连接子需要严格的范围，可以使用α-螺旋连接子，如Pantoliano等(1991)Biochem.30：10117-10125描述的螺旋连接子。连接子也可用计算机模型设计(见U.S.4,946,778)。分子模型软件可商业获得(例如，从Molecular Simulations，Inc.，San Diego，CA)。连接子可任选地优化，例如，使用蛋白质工程领域的标准诱变技术和适当的生物物理测试，和此处描述的功能分析来降低抗原性和/或提高稳定性。

对使用锌指结构域的实施方案，锌指间天然产生的肽可用来连接锌指。天然产生的连接子的实施例是：Thr-Gly-(Glu或Gin)-(Lys或Arg)-Pro-(Tyr或Phe)(SEQ ID NO：74)(Agata等，见上)。通常，连接子被选择或基于连接天然产生蛋白质的锌指的序列。

二聚体结构域。连接DNA结合结构域的另一方法是使用二聚体结构域，特别是异二聚体结构域(见，例如，Pomerantz等(1998)Biochemistry37：965-970)。这个实施方案中，DNA结合结构域位于不同的多肽链中。例如，第一种多肽编码DNA结合结构域A，连接子，和结构域B，而第二种多肽编码结构域C，连接子，和结构域D。技术人员可以从许多熟知的二聚体结构域中选择二聚体结构域。如果不需要同源二聚体，可以使用倾向异源二聚体的结构域。一个特定的可接受的二聚体结构域是卷曲-卷曲基序，例如，二聚体平行或反平行卷曲-卷曲。也可获得优选形成异源二聚体的卷曲-卷曲序列(Lumb和Kim，(1995)Biochemistry 34：8642-8648)。另一类二聚体结构域是被小分子或信号事件引起二聚体化。例如，FK506的二聚体形式可用来二聚体化两个FK506结合蛋白质(FKBP)结构域。这样的二聚体结构域可用来提供另外的调控水平。

对非DNA应用的嵌合蛋白质

还可能修改此处的实施例以建立编码含有不同非DNA结合结构域，例如，细胞内信号转导结构域(例如，SH2，SH3，PDZ，Che结构域，或激酶结构域)的嵌合蛋白质的核酸文库。文库编码的嵌合蛋白质可被细胞表达，并鉴定具有改变了表型特性的细胞。例如，可以鉴定降低或提高细胞繁殖速度的信号结构域不同组合形成的嵌合蛋白质。

表达锌指蛋白质

此处描述的方法可包括使用分子生物学，生物化学，经典遗传学，和重组遗传学领域的常规技术。揭示了本发明中应用的一般方法的基础教材包括Sambrook等Molecular cloning，A Laboratory Manual(2nd ed.1989)；Kriegler，Gene Transfer and Expression：A Laboratory Manual(1990)；和Current Protocols in Molecular Biolog(Ausubel等，eds.，1994)。

除了此处描述的其它方法，编码锌蛋白质的核酸可用合成的寡核苷酸作为连接子构建合成基因来构建。另一实施方式中，使用合成的寡核苷酸和/或引物扩增编码一或多个锌指结构域的序列，例如，从RNA或DNA模板，人工或合成的锌指结构域。见U.S.Patents 4,683,195和4,683,202；PCR Protocols：A Guide to Methods and Applications(Innis等，eds，1990)。如聚合酶链式反应(PCR)的方法可用来直接从mRNA，cDNA，基因组cDNA，或锌指蛋白质文库扩增核酸序列。简并寡核苷酸可设计来使用此处提供的序列扩增同源物。限制性内切酶位点可整合进引物中。

可通过本领域已知的技术，例如mRNA的逆转录和扩增，分离总RNA或polyA⁺RNA，northern印渍，点印渍，原位杂交，RNase保护，核酸阵列技术，例如如此的技术分析锌指蛋白质的基因表达。

编码人工锌指蛋白质的多核苷酸在转化进原核或真核细胞中复制和/或表达前可克隆至载体中。这些载体典型的是原核载体，例如，质粒，噬菌体或穿梭载体，或真核载体。

蛋白质表达。为获得编码人工锌指蛋白质的多核苷酸的重组表达(例如，高水平)，可以亚克隆相关编码核酸到含有指导转录的强启动子，转录/翻译终止子，和为翻译起始的核糖体结合位点的表达载体中。适合的细菌启动子为本领域熟知和描述，例如，Sambrook等，和Ausubel等，见上。可获得为表达的细菌表达系统，例如，大肠杆菌，杆菌属，和沙门氏菌属(Palva等，(1983)Gene 22：229-235；Mosbach等，(1983)Nature302：543-545)。可商业获得这些表达系统的试剂盒。也可商业获得本领域熟知的哺乳动物细胞，酵母(例如，酿酒酵母，裂殖酵母，毕赤酵母，和Hanseula)，和昆虫细胞的真核表达系统。

用于指导异源核酸表达的启动子的选择依赖域于特定的应用。启动子优选的与异源转录起点的位置与其天然状态时转录起点具有相同的距离。但是如本领域所知，这个距离可以变化而不丧失启动子功能。

除了启动子，表达载体典型的包含宿主细胞中表达所需的所有额外元件的转录单位或表达盒。典型的表达盒因此包含可操纵的连接到编码核酸序列的启动子和转录产物有效多腺苷化，核糖体结合位点，和翻译终止所需的信号。该盒的另外元件可包括增强子和，如果基因组DNA用作结构基因，具有功能性剪接供者位点和受者位点的内含子。

除了启动子序列，表达盒还应包含结构基因的转录终止区下游以提供有效的终止。终止区可从启动子序列的同一基因中获得或从不同基因中获得。

用来转运遗传信息到细胞的特定表达载体不是特别重要的。可以使用用于在真核或原核细胞中表达的任何常规载体。标准的细菌表达载体包括质粒如pBR322为基础的质粒，pSKF，pET23D，和融合表达系统如MBP，GST，和LacZ。还可将表位标签加入重组蛋白质中以提供常规的分离方法，例如，c-myc-，或六组氨酸标签。

表达载体可包含真核病毒的调控元件，例如，SV40载体，刺瘤病毒载体，和衍生于Epstein-Barr病毒的载体。其它示范真核载体包括pMSG，pAV009/A⁺，pMTO10/A⁺，pMAMneo-5，杆状病毒pDSVE，和任何其它可以表达在CMV启动子，SV40早期启动子，SV40晚期启动子，金属流因启动子，鼠乳腺癌病毒启动子，劳氏肉瘤病毒启动子，多角体蛋白启动子，或其它所示启动子的指导下可以在真核细胞中有效表达的载体。

真核载体表达蛋白质还可使用可诱导的启动子调控。用可诱导的启动子，表达水平与诱导剂如四环素或蜕化素的浓度相关，其整合这些试剂的反应元件到启动子中。通常，只有存在诱导试剂时可由可诱导的启动子获得高水平的表达；基本表达水平很低。如果感兴趣的蛋白质的表达对真核细胞是致命的，经常选择可诱导的表达载体。

一些表达系统具有提供了基因扩增的标记如胸苷激酶和二氢叶酸还原酶。另外，不涉及基因扩增的高产出表达系统也适用，如使用在多角蛋白启动子或其它强杆状病毒启动子指导下的昆虫细胞的杆状病毒载体，其具有线粒体呼吸链蛋白质编码序列和糖酵解蛋白质编码序列。

典型的包含在表达载体中的元件还包括大肠杆菌中起作用的复制子，其是编码抗生素抗性的基因以允许选择吸收了重组质粒的细菌，和在质粒非基本区域的单一性的限制位点以可以插入真核序列。可选择原核序列以便它们不干扰真核细胞中DNA的复制。

标准的转染方法用来产生表达大量锌指蛋白质的细菌，哺乳动物，酵母或昆虫细胞系，该蛋白质随后使用标准技术纯化(见，例如，Colley等，J.Biol.Chem.264：17619-17622(1989)；Guide to Protein Purification，inMethods in Enzymology，vol.182(Deutscher，eds.，1990))。真核和原核细胞的转化按照标准技术进行(见，例如，Morrison，J.Bact.132：349-351(1977)；Clark-Curtiss & Curtiss，Methods in Enzymology 101：347-362(Wu等，eds，1983)。

可以使用任何熟知的导入外源核苷酸序列进入宿主细胞的方法。这些包括使用磷酸钙转染，原生质体融合，电穿孔，脂质体，微注射，原生质载体，病毒载体和任何其它已知的导入克隆的基因组DNA，cDNA，合成DNA或其它外源遗传物质进入宿主细胞的方法(见，例如，Sambrook等，见上)。不需要使用的特定的遗传工程过程能够成功的导入至少一个基因进入宿主细胞。

表达载体导入细胞后，转染的细胞在适合表达或激活表达的条件下培养。然后可从细胞提取物，细胞膜组分或囊泡，或培养基中分离蛋白质。

具有适当调控序列的表达载体可用来在模型生物体，例如果蝇，线虫，斑马鱼，爪蟾，或小鼠中表达编码人工锌指的异源基因。见，例如，Riddle等，eds.，C.elegans II.Plainview(NV)：Cold Spring Harbor LaboratoryPress；1997。

蛋白质纯化。锌指蛋白质可从任何适合的表达系统，例如，上述那些系统产生的物质中纯化出来。

锌指蛋白质可用标准技术纯化非常纯，包括用如硫酸铵等物质选择沉淀；柱层析，亲和纯化，免疫纯化方法，和其它的方法(见，例如，Scopes，Protein Purification：Principlesand Practice(1982)；U.S.Patent No.4,673,641；Ausubel等，见上；和Sambrook等，见上)。例如，锌指蛋白质可包括用于纯化的亲和标签，例如，和其它步骤组合。

重组蛋白质被转化细菌大量表达，典型的是启动子诱导后；但是表达可是组成性的。用IPTG诱导启动子是可诱导的启动子系统的一个实施例。细菌按照本领域的标准方法生长。新鲜或冻存的细菌细胞用来分离蛋白质。细菌表达的蛋白质可以形成不溶的聚集物(“包涵体”)。几个方法适于从包涵体中纯化蛋白质。见，例如，Sambrook等，见上；Ausubel等，见上。如果蛋白质可溶或运至外周胞质，可从细胞裂解物或外周质制备物中获得。

差速离心。可使用盐溶或盐析以选择沉淀锌指蛋白质或污染蛋白质。一个示范盐是硫酸铵。硫酸铵基于蛋白质的溶解度沉淀蛋白质。蛋白质越疏水，在较低硫酸铵浓度下其越易于沉淀。典型的方法包括加入饱和硫酸铵到蛋白质溶液以便所得硫酸铵浓度在20％-30％之间。这个浓度沉淀许多较疏水的蛋白质。分析沉淀物以确定感兴趣的蛋白质被沉淀了还是在上清中。加入硫酸铵到上清至可以沉淀感兴趣的蛋白质的已知浓度。然后在缓冲液中溶解沉淀，如需要通过透析或过滤浓缩法去除多余的盐。

柱色谱。基于蛋白质的大小，净表面电荷，疏水性，和配体亲和性，可以从其它蛋白质中分离锌指蛋白质。另外，蛋白质的抗体可偶联在柱基质中而免疫纯化蛋白质。所有这些方法为本领域熟知。色谱技术可在任何范围及使用很多不同制造者(例如，Pharmacia Biotech)的设备进行。见，一般的，Scopes，Protein Purification：Principles and Practice(1982)。

类似的常规蛋白质纯化过程可用来回收生产细胞中人工锌指蛋白质表达而改变(例如，提高)了其生产的蛋白质。

以基因和细胞为基础的治疗法

本发明的一个方面，如上述，提供了编码人工锌指蛋白质的分离的DNA分子。这些分离的DNA分子可插入为基因治疗目的的多种DNA构建体和载体。如此处所用，“载体”是可以转运共价连接其上的另一核酸分子的核酸分子。载体包括质粒，粘粒，人工染色体，和病毒元件。载体可在宿主细胞中复制或整合入宿主DNA。病毒载体包括，例如，复制缺陷的逆转录病毒，腺病毒和腺相关病毒。基因治疗载体是设计为施用给对象，例如，哺乳动物的载体，所以对象的细胞可以表达载体含有的治疗基因。

基因治疗载体可包含调控元件，信号序列，5’非翻译区，聚腺苷化位点，和3’调控区。例如，5’调控元件，增强子或启动子可以调控DNA编码治疗多肽的转录。调控可是组织特异性的。例如，调控可以限制所需基因转录至脑细胞中，例如，皮质神经元或胶质细胞；造血细胞；内皮细胞。另外，调控元件可包含在应答外源药物，例如，胆固醇，四环素等的物质中。因此，治疗锌指多肽(例如，调控VEGF的多肽)表达的水平和时间可被控制。

可将用于输送的基因治疗载体制备为裸核酸，如病毒或失活病毒的组分，或脂质体或其它输送工具的内含物。另外，基因输送试剂，例如，病毒载体，可从产生基因输送系统的重组细胞中产生。适当的病毒载体包括逆转录病毒，例如，莫罗尼逆转录病毒，腺病毒，腺相关病毒，和慢病毒，例如，单纯疱疹病毒(HSV)。HSV对感染神经系统细胞是潜在有用的。

基因治疗载体可施用给对象，例如，通过静脉注射，通过局部施用(见U.S.Patent 5,328,470)或通过stereotactic注射(见例如，Chen等(1994)Proc.Natl.Acad.Sci.USA 91：3054-3057)。基因治疗试剂可进一步配方化，例如，通过缓释物质减慢或延长试剂的释放。提供重组治疗3-结构域多肽的方法是插入一个基因治疗载体到对象的骨髓细胞中。细胞被感染，例如，用逆转录病毒基因治疗载体，并在培养基中生长。同时，辐射处理对象以耗竭对象的骨髓细胞。然后将感染的培养细胞补充到对象的骨髓。监测对象恢复及治疗多肽的产生。

基于细胞的治疗方法包括将编码人工锌指蛋白质的可操纵的连接到启动子的核酸导入培养的细胞中。可选择人工锌指蛋白质以调控培养细胞的内源基因或在培养细胞中产生所需的表型。进而，还可能使用核酸重组，例如插入转基因，例如，编码调控内源基因的人工锌指蛋白质的转基因修饰细胞，例如，干细胞。修饰的干细胞可施用于对象。体外培养干细胞的方法描述于，例如，US Application 2002-0081724。一些实施方式中，干细胞被诱导在对象中分化和表达转基因。例如，干细胞可分化为肝，脂肪，或骨骼肌细胞。干细胞可衍生自产生所需组织类型，例如，肝，脂肪，或骨骼肌细胞的细胞系。

另一实施方案中，表达或可以表达人工锌指蛋白质重组细胞，例如，如此处所述，可用于对象中的取代疗法。例如，编码可操纵的连接到启动子(例如，可诱导的启动子，例如，类固醇激素受体调控的启动子)的人工锌指蛋白质的核酸被导入人或非人，例如，哺乳动物，例如，猪重组细胞中。培养细胞并装入生物相容物质的胶囊中，如聚赖氨酸藻酸盐，及随后植入对象。见，例如，Lanza(1996)Nat.Biotechnol.14：1107；Joki等(2001)Nat.Biotechnol.19：35；和U.S.Patent No.5,876,742。在人工锌指蛋白质调控编码分泌蛋白质的内源基因的实施方式中，对象中分泌多肽的产生可通过施用试剂(例如，类固醇激素)给对象而调控。

另一实施方案中，体外培养表达或能够表达人工锌指蛋白质的重组细胞。重组细胞产生的蛋白质可从细胞或从包围细胞的培养基中被回收(例如，纯化)。

改变蛋白质产生的靶

一个实施方案中，筛选核酸文库以鉴定改变一个或多个特定靶蛋白质的产生，合成或活性的人工锌指蛋白质。改变可提高或降低靶蛋白质的活性或丰度。筛选的表型可与一个或多种靶蛋白质的改变的生产或活性相关或是其自身生产或活性的水平。例如，可能筛选核酸文库中在内源靶基因的调控序列(例如，启动子)的控制下激活或抑制报道基因(如编码萤光素酶，LacZ，或GFP的基因)表达的人工转录因子。

一些示范靶蛋白质包括：细胞表面蛋白质(例如，糖基化表面蛋白质)，癌相关蛋白质，细胞因子，化学因子，肽激素，神经递质，细胞表面受体(例如，细胞表面受体激酶，7次跨膜受体，病毒受体和共同受体，胞外基质结合蛋白质，细胞结合蛋白质，病原(例如，细菌抗原，疟疾抗原，等等)抗原)。另外的蛋白质靶包括酶如烯醇酶，细胞色素P450，酰基转移酶，甲基酶，TIM barrel酶，异构酶，酰基转移酶等等。

更特异的实施例包括：整联蛋白，细胞粘附分子或“CAMs”如钙粘着蛋白，选择素，N-CAM，E-CAM，U-CAM，I-CAM等等；蛋白酶(例如，枯草菌素，胰蛋白酶，糜蛋白酶；血浆酶原激活子，如尿激酶或人类组织类型特异纤溶酶原激活剂)；蛙皮素；因子IX，凝血酶；CD-4；血小板衍生生长因子；胰岛素样生长因子-I和II；神经生长因子；纤维细胞生长因子(例如，aFGF和bFGF)；表皮生长因子(EGF)；VEGFa；转化生长因子(TGF，例如，TGF-α和TGF-β)；胰岛素样生长因子结合蛋白质；促红细胞生成素；血小板生成素；粘液素；人血清白蛋白；生长激素(例如，人生长激素)；胰岛素原，胰岛素A链胰岛素B链；甲状旁腺激素；促甲状腺素；甲状腺素；卵泡刺激素；降钙素；心钠肽A，B或C；黄体生成素；胰高血糖素；因子VIII；造血生长因子；肿瘤坏死因子(例如，TNF-α和TNF-β)；脑啡肽酶；缪氏抑制物；促性腺激素相关肽；组织因子蛋白质；抑制素；活化素；血管内皮生长因子；激素或生长因子受体；类风湿因子；骨诱导因子；干扰素，例如，干扰素-α，β，γ；集落刺激因子(CSF)，例如，M-CSF，GM-CSF，和G-CSF；细胞白介素(ILs)例如，IL-1，IL-2，IL-3，IL-4等；促衰变因子；和免疫球蛋白。一些实施方案中，靶和疾病相关，例如，癌。

本发明在下述实施方式中将详细描述。然而，应注意这些实施例不是限制本发明的范围。

实施例1：构建ZFP文库

一个实施方式中，使用锌指蛋白质(ZFP)表达文库通过调控基因表达改变了酿酒酵母的多种表型。这些示范文库的锌指蛋白质组成为3或4个锌指结构域(ZFD)并分别识别9到12碱基对的DNA序列。不需要预先了解靶基因就可鉴定嵌合锌指蛋白质。从文库中ZFP产生了3类不同的转录因子：分离的ZFP，当它们结合启动子区附近的位点时自身作为有效的转录阻抑子；ZFP也表达为融合到转录激活结构域或阻抑结构域的融合以分别产生转录激活子或阻抑子。

我们使用了40个不同的锌指结构域作为模块构建3-指或4-指锌指蛋白质。在其上限，3-指ZFP文库组成为64,000(＝40³)个序列和4-指文库组成为二百六十万(＝40⁴)个序列。

这些ZFP表达质粒文库被转化进酵母细胞。每个转化细胞中，表达不同的ZFP转录因子并调控基因组中未明的靶基因。这个基因表达模式的改变导致表型变化。通过筛选大量转化细胞，可以分离具有所需表型的克隆。另外，在鉴定了导入转化体的锌指蛋白质后，可通过基因组范围的基因表达分布图分析(例如，通过DNA微阵列分析)或或通过对靶DNA序列进行计算机(in silico)预测而鉴定被调控的靶基因。

(1)酵母株

用于这个实验的酿酒酵母株是YPH499a(MATa，ade2-101，ura3-52，lys2-801，trp1-63，his3-200，leu2-1，GAL+)。酵母细胞的转化通过使用醋酸锂转化方法(见，例如，Gietz等，(1992)Nucl.Acids Res 20：1245)进行。

(2)构建质粒p3

用于构建锌指蛋白质文库的亲代载体是质粒p3。p3是通过修饰pcDNA3载体(Invitrogen，San Diego CA)而构建的。pcDNA3载体用HindIII和XhoI消化。将具有相一致的突出端的合成的寡核苷酸双链连接到消化的pcDNA3。该双链含有编码红血球凝聚素(HA)标签和核定位信号的核酸。该双链还包括：BamHI，EcoRI，NotI，和BglII的限制位点。载体的SV40复制起点的XmaI位点用XmaI消化破坏，填平消化的XmaI限制位点的末端，并再连接末端。

(3)构建质粒pYCT-Lib

我们使用pYCT-Lib作为在酵母中条件表达锌指蛋白质的亲代载体。pYCT-Lib是含有可诱导的GAL1启动子的酵母穿梭载体(图1)。其它特征可包括：(i)编码核定位信号(NLS)和红血球凝聚素标签(HA)的序列和(ii)含有在合成的缺少色氨酸的最低培养基中选择含有质粒细胞的TRP1基因的序列。

T7启动子位点到SphI位点区域的多位点接头可包括：

TAATACGACTCACTATAGGGAATATTAAGCTAAGCTCACCATGGGTA

AGCCTATCCCTAACCCTCTCCTCGGTCTCGATTCTACACAAGCTATG

GGTGCTCCTCCAAAAAAGAAGAGAAAGGTAGCTGGATCCACTAGT

AACGGCCGCCAGTGTGCTGGAATTCTGCAGATATCCATCACACTGG

CGGCGCTCGAGGCATGCATCTA(SEQ ID NO：135)

如下构建pYCT-Lib。酵母表达质粒pYESTrp2(InVitrogen，San DiegoCA)用NgoM4消化然后用PstI部分消化以从载体中除去2μ ori片段。NgoM4-PstI消化的载体的5.0kb DNA片段凝胶电泳纯化并和扩增自pRS313(正向引物：5′-CGATCTGCAGGG TCCTTTTCATCACGTGCT-3′(SEQ ID NO：136)，反向引物：5′-CGATCGATGCCGGCGGACGGATCGCTTGCCT(SEQ ID NO：137))的CEN-ARS片段连接。

编码B42激活结构域的DNA片段通过用NcoI和BamHI消化除去并用编码V5表位标签和核定位信号的DNA片段取代。后一个DNA片段是PCR扩增自pYESTrp2(正向引物：5′-AATTCCATGGGTAAGCCTATCCCTAACC-3′(SEQ ID NO：138)，反向引物：5′-AATTGGATCCAGCTACCTTTCTCTTCTT-3′(SEQ ID NO：139))并连接入NcoI和BamHI位点。所得质粒命名为pYCT-Lib(图1)。

(4)构建质粒pYCT-Lib-Gal4

为产生pYCT-Lib-Gal4，Gal4激活结构域用PCR扩增自酵母基因组DNA(正向引物：5′-AAGGAAGGAAGGAAGCGGCCGCAGCCAATTTTAATCAAAGTGG-3′(SEQ ID NO：140)，反向引物：5′-ACATACATGCATGCGCCGTTACTAGTGGATCC-3′序列(SEQ ID NO：141))并插入pYCT-Lib NotI和SphI识别位点之间以产生pYCT-Lib-Gal4。编码Gal4激活结构域的示范序列和连接序列包括：

GGCCGCCAGTGTGCTGGAATTCTGCAGATATCCATCACACTGGCGG

CCGCAGCCAATTTTAATCAAAGTGGGAATATTGCTGATAGCTCATTG

TCCTTCACTTTCACTAACAGTAGCAACGGTCCGAACCTCATAACAA

CTCAAACAAATTCTCAAGCGCTTTCACAACCAATTGCCTCCTCTAAC

GTTCATGATAACTTCATGAATAATGAAATCACGGCTAGTAAAATTGA

TGATGGTAATAATTCAAAACCACTGTCACCTGGTTGGACGGACCAA

ACTGCGTATAACGCGTTTGGAATCACTACAGGGATGTTTAATACCAC

TACAATGGATGATGTATATAACTATCTATTCGATGATGAAGATACCCC

ACCAAACCCAAAAAAAGAGATCTCTATGGCTTACCCATACGATGTT

CCAGATTACGCTAGCTAAGGATCCACTAGTAACGGCGCATGCATCTA

GAGGGCC(SEQ ID NO：142)

(5)构建质粒pYCT-Lib-Ume6

为产生pYCT-Lib-Ume6，编码酿酒酵母Ume6的508至594氨基酸的DNA片段扩增自酵母基因组DNA(正向引物：5′-AAGGAAGGAAGGAAGCGGCCGCAAATTCTGCATCTTCATCTACC-3′(SEQ ID NO：143)，反向引物：5′-ACATACATGCATGCTGTAGAATTGTTGCTTTCG-3′(SEQ ID NO：144))并插入pYCT-Lib的NotI和SphI识别位点之间。这个87个氨基酸的区域功能是作为转录阻抑结构域(Kadosh和Struhl(1997)Cell 89：365-371)。编码Ume6阻抑结构域和连接序列的示范序列包括：

GGCCGCCAGTGTGCTGGAATTCTGCAGATATCCATCACACTGGCGG

CCGCAAATTCTGCATCTTCATCTACCAAACTAGACGACGACTTGGGT

ACAGCAGCAGCAGTGCTATCAAACATGAGATCATCCCCATATAGAA

CTCATGATAAACCCATTTCCAATGTCAATGACATGAATAACACAAAT

GCGCTCGGTGTGCCGGCTAGTAGGCCTCATTCGTCATCTTTTCCATC

AAAGGGTGTCTTAAGACCAATTCTGTTACGTATCCATAATTCCGAAC

AACAACCCATTTTCGAAAGCAACAATTCTACAGCATGCATCTAGAG

GGCC(SEQ ID NO：145)

(6)文库构建

3-指蛋白质文库(“3-F文库”)，编码具有3个ZFD阵列的锌指蛋白质，它可从编码40个不同ZFD或“指”的核酸来构建。一个四指蛋白质文库(“4-F文库”)从编码27个不同ZFD的核酸构建(表2，如下)。

表2：构建3-指或4-指ZFP文库的锌指结构域

结构域来源靶位点氨基酸序列 SEQ 文库

ID

NO：

DSAR Mutated¹ GTC FMCTWSYCGKRFTDRSALARHKRTH 146 3F

DSHR Mutatcd¹ GGC HICHIQGCGKVYGDRSHLTRHLRWH 147 3F

DSKR Mutated¹ GGT FACPECPKRFMDSSKLSRHIKTH 148 3F

DSNR Mutated² GAC YACPVESCDRRFSDSSNLTRHIRIH 149 3F

DSSR Mutated³ GCC HICHIQGCGKVYGDRSSLTRHLRWH 150 3F

HSNK Human GAC YKCKECGKAFNHSSNFNKHHRIH 151 3F

HSSR Human GTT FKCPVCGKAFRHSSSLVRHQRTH 152 3F

ISNR Human GAA＞GAT＞GAC YRCKYCDRSFSISSNLQRHVRNIH 153 3F

KSNR Human GAG YGCHLCGKAFSKSSNLRRHEMIH 154 3F

QAHR Human GGA YKCKECGQAFRQRAHLIRHHKLH 155 3F

QFNR Human GAG YKCHQCGKAFIQSFNLRRHERIH 156 3F

QGNR Human GAA FQCNQCGASFTQKGNLLRHIKLH 157 3F

QNTQ Drosophila⁴ ATA YTCSYCGKSFTQSNTLKQHTRIH 158 3F

QSHR5 Human GGA＞AGA＞GAA＞CGA YVCRECGRGFRQHSHLVRHKRTH 159 3F-

QSHV Human CGA＞AGA＞TGA YECDHCGKSFSQSSHLNVHKRTH 160 3F

QSNI Human AAA，CAA YMCSECGRGFSQKSNLIIHQRTH 161 3F

QSNK Human GAA＞TAA＞AAA YKCEECGKAFTQSSNLTKHKKIH 162 3F

QSTR Human GTA＞GCA YKCEECGKAFNQSSTLTRHKIVH 163 3F

QTHR1 Human GGA＞AGA，GAA＞TGA，CGA YECHDCGKSFRQSTHLTRHRRIH 164 3F

RDHR1 Human GAG，GGG FLCQYCAQRFGRKDHLTRHMKKSH 165 3F

RDKR Human GGG＞AGG YVCDVEGCTWKFARSDKLNRHKKRH 166 3F

RDNQ Mutated⁶ AAG FACPECPKRFMRSDNLTQHIKTH 167 3F

SADR Mutated³ AGA FQCRICMRNFSSPADLTRHIRTH 168 3F

SSNR Human GAG＞GAC YECKECGKAFSSGSNFTRHQRIH 169 3F

TIDR Mutated⁵ ACT FQCRICMRNFSTHIDLIRHIRTH 170 3F

VSNV Human AAT＞CAT＞TAT YECDHCGKAFSVSSNLNVHRRIH 171 3F

VSTR Human GC＞GCG YECNYCGKTPSVSSTLIRHQRIH 172 3F

CSNR1 Human GAA＞GAC＞GAG YKCKQCGKAFGCPSNLRRHGRTH 173 3F-，4F-

DGNV Mutated⁵ AAC FQCRICMRNFSDSGNLRVHIRTH 174 3F-，4F-

QSHR3 Human GGA＞GAA YACHLCGKAFTQCSHLRRHEKTH 175 3F-

QSHT Human AGA，CGA＞TGA＞GGA YKCEECGKAFRQSSHLTTHKIIH 176 3F-，4F-

QSNR1 Human GAA FECKDCGKAFIQKSNLIRHQRTH 177 3F-，4F-

QSNV2 Human AAA，CAA YVCSKCGKAFTQSSNLTVHQKIH 178 3F-，4F-

QSSR1 Human GTA＞GCA YKCPDCGKSFSQSSSLIRHQRTH 179 3F-，4F-

QTHQ Human CGA＞TGA，AGA YECHDCGKSFRQSTHLTQHRRIH 180 3F-，4F-

RDER1 Human GCG＞GTG，GAG YVCDVEGCTWKFARSDELNRHKKRH 181 3F-，4F-

RDHT Human TGG，AGG，CGG，GGG FQCKTCQRKFSRSDHLKTHTRTH 182 3F-，4F-

RSHR Human GGG YKCMECGKAFNRRSHLTRHQRIH 183 3F-，4F-

RSNR Human GAG＞GTG YICRKCGRGFSRKSNLIRHQRTH 184 3F-，4F-

VDYKD Drosophila⁷ TAT，GAT FHCGYCEKSFSVKDYLTKIRTH 185 3F-，4F-

VSSR Human GTT＞GCT＞GTG＞GTA YTCKQCGKAFSVSSSLRRHETTH 186 3F-，4F-

DGAR Mutated³ GTC FQCRICMRNFSDPGALVRHIRTH 187 4F-

DGHR Mutated³ GGC FQCRICMRNFSDPGHLVRHIRTH 188 4F-

DCNR Mutated³ GAC FQCRICMRNFSDPGNLKRHIRTH 189 4F-

DRDR Mutated³ GCC FQCRICMRNFSDCRDLARHIRTH 190 4F-

MHHE Mutated³ TGT YACPVESCDRRFSMSHHLKEHIRTH 191 4F-

QASA Mutated⁸ ATA FQCRICMRNFSQQASLNAHIRTH 192 4F-

QGDR Mutated³ GCA，GCC FQCRICMRNFSQSGDLRRHIRTH 193 4F-

QSDR Mutated⁹ GCT FQCRICMRNFSQSSDLVRHIRTH 194 4F-

QGTR Mutated⁸ ACA FQCRICMRNFSQRGTLRTHIRTH 195 4F-

RDTN Mutated⁵ AAG FQCRICMRNFSRSDTLSNHIRTH 196 4F-

TDKR Mutated³ GGG，GGT FQCRICMRNFSTADKLSRHIRTH 197 4F-

TGNR Mutated³ GAT＞GAA FQCRICMRNFSTSGNLVRHIRTH 198 4F-

TIDR Mutated⁵ ACT FQCRICMRNFSTHIDLIRHIRTH 199 4F-

表2第2栏的上标指1)Zhang等，(2000)J.Biol.Chem.275：33850-33860；2)Rebar和Pabo(1994)Science 263：671-673；3)Segal(1999)Proc.Natl.Acad.Sci.USA 96：2758；4)Gogus等，(1996)Proc.Natl.Acad.Sci.USA.93：2159-2164；5)Drier等，(2001)J.Biol.Chem.276：29466-29478；6)Liu等(2001)J.Biol.Chem.276(14)：11323-11334；7)Hsu等，(1992)Science 257：1946-50。

图7描绘了构建多种3指文库的方法。编码每个ZFD的核酸片段被各个克隆到p3载体中以形成“单指”载体。等量的每个“单指”载体组合形成池。每份等量的池用AgeI和XhoI消化以获得消化的载体片段。这些载体片段用磷酸酶处理30分钟。另一等份的池用XmaI和XhoI消化以获得编码单个指的片段。得自AgeI和XhoI消化的池的消化载体核酸与通过XmaI和XhoI消化从载体释放的核酸片段连接。连接产生各编码2个锌指结构域的载体。转化到大肠杆菌中后，获得大约1.4×10⁴个独立的转化体，因而形成2-指文库。2-指文库的插入区域大小通过PCR分析40个菌落证实。正确大小的插入存在于95％的文库成员中。

为制备3-指文库，编码一个指的DNA片段插入编码2个指的质粒中。2-指文库用AgeI和XhoI消化。消化的质粒，其保留了编码2个锌指结构域的核酸序列，与编码单个指(如上通过用XmaI和XhoI消化制备)的核酸片段池连接。这个连接的产物转化至大肠杆菌中以获得大约2.4×10⁵个独立的转化体。插入区域的验证证实了文库成员主要包括编码3个锌指结构域的序列。

为制备4-指文库，编码2个指的DNA片段插入编码2个指的质粒中。2-指文库用XmaI和XhoI消化以获得编码2个锌指结构域的核酸片段。2-指文库也用AgeI和XhoI消化以获得消化的质粒池。消化的质粒，其保留了编码2个锌指结构域的核酸序列，与编码2个锌指结构域的核酸片段连接以产生大量编码不同4指蛋白质组合的质粒。这个连接的产物转化入大肠杆菌并产出大约7×10⁶个独立的转化体。

(7)构建酵母表达文库

3-指(3-F)和4-指(4-F)文库亚克隆至pYCT-Lib，pYCT-Gal4，和pYCT-Ume6的EcoRI和NotI位点。这些亚克隆过程产生了6个编码具有和没有转录调控结构域的3和4指ZFP的不同的文库。在大肠杆菌中扩增后，每个文库使用醋酸锂转化入酵母株YPH499a中。转化产出了大约1.5×10⁷个菌落。文库插入区域的大小通过PCR分析50个菌落证实。95％的文库成员包含正确的插入大小。转化体重悬于TE缓冲液中并储存于-80℃的甘油中。

实施例2：半乳糖培养基中的生长缺陷转化体

筛选3-F文库以鉴定损害酵母细胞生长的嵌合锌指蛋白质。这个筛选使用GAL启动子去条件表达嵌合锌指蛋白质。以前的研究使用了对酵母cDNA和基因组DNA序列的GAL启动子去鉴定致命过表达的基因(Liu等，(1992)Genetics 132：665-673；Ramer等(1992)Proc.Natl.Acad.Sci.USA 89：11589-11593；Espinet等，(1995)Yeast 11：25-32；Akada等，(1997)Mol.Gen.Genet 254：267-274；Stevenson等，(2001)Proc.Natl.Acad.Sci.USA.98：3946-3951)。

酵母株YPH499a用3-F文库的核酸转化。转化体在含有缺少色氨酸和含有葡萄糖的合成基本培养基平板上在30℃生长2天。每个这些葡萄糖平板replica-plated到半乳糖平板和第二个葡萄糖平板上。复制的平板在30℃生长过夜。鉴定不在半乳糖上生长但是生长在葡萄糖上的菌落。这些菌落从葡萄糖平板上回收并通过在半乳糖培养基streaking选择的菌落再验证。质粒转化入YPH499a以证实生长缺陷是锌指蛋白质过表达引起的。载体质粒pYTC和pYTC-Gal4都不编码任何锌指结构域，作为对照分析。

如表3所示，3-F和4-F文库的0.7％到2.8％的转化体不能生长在半乳糖培养基中。这些百分比明显大于用pYTC-Lib载体对照(0.1％)和pYTC-Lib-Gal4载体对照(0.2％)获得的相似数值。

表3：半乳糖培养基上生长缺陷转化体的比率

文库葡萄糖培养基半乳糖培养基上的生长缺陷突变体

上的集落数(A) 生长缺陷集落数(B) 比例(B/A×100)

3-指 5,820 42 0.7

3-指+Gal4AD 7,428 206 2.8

3-指+Ume6RD 8,400 78 0.93

PYTC-Lib载体 2,690 3 0.1

PYTC-Lib-Gal4载体 2,750 6 0.2

从在是半乳糖生长缺陷的10个菌落中回收质粒。质粒(L1到L10)再转化入酵母细胞。再测试所有10个质粒。用回收的质粒转化的细胞不能在半乳糖培养基生长但能在葡萄糖培养基上生长。这10个质粒编码的锌指蛋白质通过DNA测序定性(表4)。这些蛋白质的潜在靶DNA结合位点从关于组成锌指结构域的结合特异性的信息推断。

表4：分离自生长缺陷转化体的质粒编码的ZFP

No	ZFD名称(N至C)			潜在靶序列
	ZFD名称(N至C)				1	2	3
	L1	RSHR	CSNR1		1	2	3	RDHT	5’-NGG GAV GGG-3’(SEQ ID NO：200)
L2	L1	RSHR	CSNR1	RSNR	RDHT	TDKR	5’-GGK NGG GAG-3’(SEQ ID NO：201)	RDHT	5’-NGG GAV GGG-3’(SEQ ID NO：200)
L2	L3	RDHT	QSHR3	RSNR	RDHT	TDKR	5’-GGK NGG GAG-3’(SEQ ID NO：201)	RDHT	5’-NGG GRA NTT-3’(SEQ ID NO：202)
L4	L3	RDHT	QSHR3	QSDR	RDHT	RSNR	5’-GAANGG GCT-3’(SEQ ID NO：203)	RDHT	5’-NGG GRA NTT-3’(SEQ ID NO：202)
L4	L5	CSNR1	RDTN	QSDR	RDHT	RSNR	5’-GAANGG GCT-3’(SEQ ID NO：203)	VSSR	5’-GTD AAG GAV-3’(SEQ ID NO：204)
L6	L5	CSNR1	RDTN	RDHT	RDHT	RDER1	5’-GHG NGG KGG-3’(SEQ ID NO：205)	VSSR	5’-GTD AAG GAV-3’(SEQ ID NO：204)
L6	L7	QSNR1	RDTN	RDHT	RDHT	RDER1	5’-GHG NGG KGG-3’(SEQ ID NO：205)	QTHQ	5’-HGA AAG GAA-3’(SEQ ID NO：206)
L8	L7	QSNR1	RDTN	TGNR	RDER1	RDHT	5’-NGG GHG GAW-3’(SEQ ID NO：207)	QTHQ	5’-HGA AAG GAA-3’(SEQ ID NO：206)
L8	L9	QSSR1	RDHT	TGNR	RDER1	RDHT	5’-NGG GHG GAW-3’(SEQ ID NO：207)	QTHQ	5’-HGA NGG GYA-3’(SEQ ID NO：208)
L10	L9	QSSR1	RDHT	QSSR1	RDHT	QSNRI	5’-GAA NGG GYA-3’(SEQ ID NO：209)	QTHQ	5’-HGA NGG GYA-3’(SEQ ID NO：208)

实施例3：抗真菌药物抗性

酮康唑是一种口服吸收的咪唑类抗真菌药。它可以用来处理某些粘液。酮康唑阻断了酵母和其它真菌的麦角固醇的生物合成(Burden等，(1989)Phytochemistry 28：1791-1804)并对细胞代谢有额外作用(Kelly等，(1992)In Fernandes，P.B.(Ed.)New Approaches for Antifungal Drug，Birkhuser，Boston，pp.155-187)。

为检查测试株PRH499a对酮康唑的抑制真菌的反应，将YPH499a株的10⁷种细胞铺在含有不同药物浓度的合成培养基的板上。我们发现35μM酮康唑抑制了YPH499a细胞的生长并用这个浓度筛选酮康唑-抗性酵母菌落。

1×10⁷个含有3-指和4-指文库质粒的酵母细胞在含有2％半乳糖的合成液体培养基中30℃培养3小时以诱导锌指蛋白质表达，然后铺在含有35μM酮康唑(ICN Biomedicals)的合成半乳糖琼脂板上。30℃孵育4天后，大约120个克隆在含有35μM酮康唑的半乳糖培养基上形成菌落。挑出这些酮康唑抗性酵母菌落并划线接种在含有35μM酮康唑的新鲜合成的半乳糖琼脂板上。从120个抗性克隆中随机选择23个克隆。对23个克隆中的每一个，通过质粒拯救鉴定抗性表型。分离质粒，转化入大肠杆菌中扩增，并再转化入酵母株YPH499a(Ausubel等(Eds)(1995)Current Protocols in Molecular Biology John Wiley and Sons Ltd，NewYork)。等数量的再转化体铺在含有或没有35μM酮康唑的合成半乳糖琼脂板上。再转化体也铺在含有或没有酮康唑的合成葡萄糖琼脂板上以证实药物抗性是由锌指蛋白质的半乳糖诱导的表达诱导的。

一个实施方式中，每个转化体的5×10⁴种细胞被连续稀释(10^-1，10^-2，和10^-3倍)并铺在添加或未添加35μM酮康唑的半乳糖或葡萄糖培养基中。30℃，4天后监测细胞的生长并与同一板的对照比较。对照包括编码不产生酮康唑抗性的锌指蛋白质的质粒和没有编码锌指蛋白质插入序列的pYTC-Lib质粒。所有23个情况下，测试回收的质粒。另外，酮康唑抗性只在细胞铺在半乳糖培养基上的时候观察到，证实锌指蛋白质的表达产生了酮康唑抗性。

分离自酮康唑抗性转化体的质粒测试并预测它们在酵母基因组中的预期靶序列(表5)。鉴定了11个独特克隆(表5)。

表5：产生酮康唑抗性的ZFP

No.	ZFD名称(N至C)				功能性结构域	潜在靶序列	分离物数量(1)
	ZFD名称(N至C)							#1	#2	#3	#4
	K1	QSNV	QFNR	RSHR				#1	#2	#3	#4	-	UME6	5’-GGG GAG HGA-3’(SEQ ID NO：210)	3
K2	K1	QSNV	QFNR	RSHR	RSNR	RSNR	QSSR1	QSHT	UME6	5’-HGA GYA GAG GAG-3’(SEQ ID NO：211)	1	-	UME6	5’-GGG GAG HGA-3’(SEQ ID NO：210)	3
K2	K3	RSNR	RSNR	QGTR	RSNR	RSNR	QSSR1	QSHT	UME6	5’-HGA GYA GAG GAG-3’(SEQ ID NO：211)	1	QSHR5	UME6	5’-GRA ACA GAG GAG-3’(SEQ ID NO：212)	2
K4	K3	RSNR	RSNR	QGTR	RSNR	RSNR	QGTR	QTHQ	UME6	5’-HGA ACA GAG GAG-3’(SEQ ID NO：213)	1	QSHR5	UME6	5’-GRA ACA GAG GAG-3’(SEQ ID NO：212)	2
K4	K5	VSSR	DGNV	VSSR	RSNR	RSNR	QGTR	QTHQ	UME6	5’-HGA ACA GAG GAG-3’(SEQ ID NO：213)	1	VDYK	GAL4	5’-KAT GTD AAC GTD-3’(SEQ ID NO：214)	2
K6	K5	VSSR	DGNV	VSSR	MHHE	QSNR1	VSSR	QGDR	GAL4	5’-GCA GTD GAA TGT-3’(SEQ ID NO：215)	3	VDYK	GAL4	5’-KAT GTD AAC GTD-3’(SEQ ID NO：214)	2
K6	K7	DGNV	QSHT	QSSR1	MHHE	QSNR1	VSSR	QGDR	GAL4	5’-GCA GTD GAA TGT-3’(SEQ ID NO：215)	3	DGHR	GAL4	5’-GGC GYA HGA AAC-3’(SEQ ID NO：216)	3
K8	K7	DGNV	QSHT	QSSR1	DGAR	RDTN	QTHQ	RDTN	-	5’-AAG HGA AAG GTG-3’(SEQ ID NO：217)	1	DGHR	GAL4	5’-GGC GYA HGA AAC-3’(SEQ ID NO：216)	3
K8	K9	RDHT	QTHQ	QSHT	DGAR	RDTN	QTHQ	RDTN	-	5’-AAG HGA AAG GTG-3’(SEQ ID NO：217)	1	DGNV	-	5’-AAC HGA HGA NGG-3’(SEQ ID NO：218)	1
K10	K9	RDHT	QTHQ	QSHT	RDHT	QTHQ	QSHT	-	-	5’-HGA HGA NGG-3’(SEQ ID NO：219)	5	DGNV	-	5’-AAC HGA HGA NGG-3’(SEQ ID NO：218)	1
K10	K11	RDHT	QSHV	QSHV	RDHT	QTHQ	QSHT	-	-	5’-HGA HGA NGG-3’(SEQ ID NO：219)	5	-	-	5’-HGA HGANGG-3’(SEQ ID NO：220)	1

以下列出了这些蛋白质的氨基酸序列(锌指结构域有下划线和转录调控结构域是黑体)。K1：QSHV-QFNR-RSHR-Ume6包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKPYECDHCGKSFSQSSHLNVHKRTHTGEKP

YKCHQCGKAFIQSFNLRRHERTHTGEKP YKCMECGKAFNRRSHLTRHQRIHAAAANSASSSTKLD

DDLGTAAAVLSNMESSPYRTHDKPISNVNDMNNTNALGVPASRPHSSSFPSKGVLRPILLRIHNS

EQQPIFESNNSTACI(SEQ ID NO：221)

K2：RSNR-RSNR-QSSR1-QSHT-Ume6包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP YICRKCGRGFSRKSNLIRHQRTHTGEKP

YICRKCGRGFSRKSNLIRHQRTHTGEKP YKCPDCGKSFSQSSSLIRHQRTHTGEKP YKCEECGKA

FRQSSHLTTHKIIHAAAANSASSSTKLDDDLGTAAAVLSNMRSSPYRTHDKPISNVNDMNNTNAL

GVPASRPHSSSFPSKGVLRPILLRIHNSEQQPIFESNNSTACI(SEQ ID NO：222)

K3：RSNR-RSNR-QGTR-QSHR5-Ume6包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP YICRKCGRGFSRKSNLIRHQRTHTGEKP

YICRKCGRGFSRKSNLIRHQRTHTGEKP FQCRICMRNFSQRGTLTRHIRTHTGEKP YVCRECGRG

FRQHSHLVRHKRTHAAAANSASSSTKLDDDLGTAAAVLSNMRSSPYRTHDKPISNVNDMNNTNAL

GVPASRPHSSSFPSKGVLRPILLRIHNSEQQPIFESNNSTACI(SEQ ID NO：223)

K4：RSNR-RSNR-QGTR-QTHQ-Ume6包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP YICRKCGRGFSRKSNLIRHQRTHTGEKP

YICRKCGRGFSRKSNLIRHQRTHTGEKP FQCRICMRNFSQRGTLTRHIRTHTGEKP YECHDCGKS

FRQSTHLTQHRRIHAAAANSASSSTKLDDDLGTAAAVLSNMRSSPYRTHDKPISNVNDMNNTNAL

GVPASRPHSSSFPSKGVLRPILLRIHNSEQQPIFESNNSTACI(SEQ ID NO：224)

K5：VSSR-DGNV-VSSR-VDYK-Gal4包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP YTCKQCGKAFSVSSSLRRHETTHTGEKP

FQCRICMRNFSDSGNLRVHIRTHTGEKP YTCKQCGKAFSVSSSLRRHETTHTGEKP FHCGYCEKS

FSVKDYLTTKIRTHAAAANFNQSGNIADSSLSFTFTNSSNGPNLITTQINSQALSQPIASSNVHDNFMNNEITAS

KIDDGNNSKPLSPGWTDQTAYNAFGTTTGMFNTTTMDDVYNYLFDDEDTPPNPKKEISMAYPYDVPDYAS(SEQID NO：225)

K6：MHHE-QSNR1-VSSR-QGDR-Gal4包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP YACPVESCDRRFSMSHHLKEHIRTHTGE

KP FECKDCGKAFIQKSNLIRHQRTHTGEKP YTCKQCGKAFSVSSSLRRHETTHTGEKP FQCRICM

RNFSQSGDLRRHIRTHAAAANFNQSGNIADSSLSFTFTNSSNGPNLTTTQTNSQALSQPIASSNVHDNFMNNE

ITASKIDDGNNSKPLSPGWTDQTAYNAFGTTTGMFNTTTMDDVYNYLFDDEDTPPNPKKEISMAYPYDVPDYA S(SEQ ID NO：226)

K7：DGNV-QSHT-QSSR1-DGHR-Gal4包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP FQCRICMRNFSDSGNLRVHIRTHTGEKP

YKCEECGKAFRQSSHLTTHKIIHTGEKP YKCPDCGKSFSQSSSLIRHQRTHTGEKP FQCRICMRN

FSDPGHLVRHIRTHAAAANFNQSGNIADSSLSFTFINSSNGPNLTTTQTNSQALSQPIASSNVHDNFMNNETTA

SKIDDGNNSKPLSPGWIDQTAYNAFGTTTGMFNTTTMDDVYNYLFDDEDTPPNPKKEISMAYPYDVPDYA S(SEQID NO：227)

K8：DGAR-RDTN-QTHQ-RDTN包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP FQCRICMRNFSDPGALVRHIRTHTGEKP

FQCRICMRNFSRSDTLSNHIRTHTGEKP YECHDCGKSFRQSTHLTQHRRIHTGEKP FQCRICMRN

FSRSDTLSNHIRTHAAAARGMHLEGRIM(SEQ ID NO：228)

K9：RDHT-QTHQ-QSHT-DGNV包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP FQCKTCQRKFSRSDHLKTHTRTHTGEKP

YECHDCGKSFRQSTHLTQHRRIHTGEKP YKCEECGKAFRQSSHLTTHKIIHTGEKP FQCRICMRN

FSDSGNLRVHIRTHAAAARGMHLEGRIM(SEQ ID NO：229)

K10：RDHT-QTHQ-QSHT包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP FQCKTCORKFSRSDHLKTHTRTHTGEKP

YECHDCGKSFRQSTHLTQHRRIHTGEKP YKCEECGKAFRQSSHLTTHKIIHAAAARGMHLEGRIM(SEQ ID NO：230)

K11：RDHT-QSHV-QSHV包括以下氨基酸序列：

MGKPIPNPLLGLNSTQAMGAPPKKKRKVGIRIPGEKP FQCKTCORKFSRSDHLKTHTRTHTGEKP

YECDHCGKSFSQSSHLNVHKRTHTGEKP YECDHCGKSFSQSSHLNVHKRTHAAAARGMHLEGRIM(SEQ ID NO：231)

如上述的任何蛋白质，包含具有相同普通基序(即，4个DNA接触残基)和以相同连续顺序排列的2，3，或多个锌指结构域的其它锌指蛋白质也可以让真菌细胞产生药物抗性。

一些克隆包括了相似的锌指结构域构型。K2，K3，和K4的第一个和第二个指互同。这些克隆中，4个指中有3个与其它蛋白质相应位置的那些指相同。这些ZFP不太可能只是随机相关的(P＜1.6×10^-5)因此，在体内K2，K3，和K4 ZFP可结合相同靶位点并调控相同靶基因。

另外，K10克隆编码的锌指蛋白质与K9和K11克隆编码的那些蛋白质密切相关。在K9，K10，和K10中发现的QTHQ，QSHT，和QSHV指可识别相同的3-bp DNA位点：5’-HGA-3’。鉴于它们的结构相似性，K9，K10，和K11 ZFP在体内可结合相同的靶位点并调控相同的靶基因。两组相关的克隆(即，K2，K3，和K4；和K9，K10，和K11)的每个中，所有ZFP包括相同类型的调控特征。K2，K3，和K4克隆每个包括Ume6阻抑结构域。K9，K10，和K11克隆每个不具有专门的转录调控结构域的功能。

当2个或多个ZFP共转化入细胞时可以产生协同或加合作用。例如，当K4合K5 ZFP共表达时，酵母细胞具有酮康唑的完全抗性。组合产生了大约1000倍增强的表型。

构建了改变DNA接触残基或去除或取代调控结构域的ZFP突变体。一个突变体(VSSR-DGAV-VSSR-VDYK-GAL4AD)中，K5的第二个锌指的天冬酰胺DNA接触残基突变为丙氨酸。凝胶迁移分析证明这个突变的ZFP对预期DNA位点的DNA结合亲和力至少降低了10倍。这个突变的K5蛋白质不使酵母细胞产生药物抗性。另一突变体中，K5锌指蛋白质的Gal4激活结构域通过在编码激活结构域的DNA序列前插入终止密码子而删除。这个蛋白质不产生酮康唑抗性。对其它酮康唑抗性ZFP可获得相似结果。

当融合到K5 ZFP的激活结构域用Ume6阻抑结构域取代时，Ume6-形式蛋白质的表达逆转了酮康唑抗性表型。表达Ume6-形式的细胞比对照细胞对酮康唑更敏感。这个结果显示选择转录因子可通过选择恶化表型的转录因子，然后改变附上的调控结构域(例如，通过转换功能的方向性)来产生具有所需表型作用的转录因子。筛选与所需表型相对的表型可能比筛选所需表型自身更容易。转换功能方向性的取代实例包括用另一种类型的调控结构域取代一种类型的调控结构域和去除调控结构域。K5 ZFP的情况中，通过筛选提高药物抗性的蛋白质并用转录阻抑结构域取代其转录激活结构域而获得了提高药物敏感性的蛋白质。

表6：

酮康唑浓度(uM)	对照		K5		YLL053C
	对照		K5		YLL053C		平均值	S.D.	平均值	S.D.	平均值	S.D.
	0	100	0	100	0	100	平均值	S.D.	平均值	S.D.	平均值	S.D.	0
5	0	100	0	100	0	100	82.7	4.1569	89.9	15.544	84.167	16.003	0
5	10	0.031	0.0044	90.6	5.8207	28.433	82.7	4.1569	89.9	15.544	84.167	16.003	7.0002
15	10	0.031	0.0044	90.6	5.8207	28.433	0.0123	0.0021	82.467	7.7106	15.7	11.95	7.0002
15	20	0.001	0	50.367	4.7014	2.4	0.0123	0.0021	82.467	7.7106	15.7	11.95	0.1
25	20	0.001	0	50.367	4.7014	2.4			4.2	3.1193	0.0233	0.0058	0.1
25	30			0.0433	0.0058	0.0033			4.2	3.1193	0.0233	0.0058	0.0006
35	30			0.0433	0.0058	0.0033			0.0167	0.0058	0.0013	0.0006	0.0006

DNA微阵列分析用来鉴定和药物抗性表型相关的基因。我们认为产生相同表型的ZFP可能调控那些表达直接或间接和表型相关的基因组。3个ZFP-K5，K6，和K7-被选择来做表达分布图分析。所有3个转录因子含有Gal4激活结构域。6400个酵母开放阅读框架中，10个被至少2个不同的ZFP转录因子激活了超过2倍，及4个开放阅读框架倍所有3个测试的ZFP转录因子激活。4个激活的开放阅读框架是：YLL053C，YJR147W，YLL052C，和YPL091W。

表7列出了被超过一个嵌合ZFP调控的基因数。

K5 K6 K7 通常被调节

的基因数量

+ - - 39

+ + - 1

+ - + 2

+ + + 4

- + - 95

- + + 3

- - + 126

已知泵出酮康唑的基因PDR5，通过2个ZFP，即K6和K7，而不是通过K5被激活。这个结果提示K5通过非PDR5依赖的机制产生酮康唑抗性而且至少2个不同的通路可以产生酵母的酮康唑抗性。一个通路依赖PDR的激活，和另一个不依赖PDR5。

为鉴定和药物抗性表型相关的新基因，我们评价了过表达被所有测试的ZFP转录因子激活的4个基因中一个基因的细胞的药物抗性表型。我们发现基因之一--YLL053C一当自身过表达时诱导了酮康唑抗性。见表6，上。YLL053C与白色念珠菌的质膜和水通道蛋白质同源。YLL053C的氨基酸序列如下：

MWFPQIIAGMAAGGAASAMTPGKVLFTNALGLGCSRSRGLFLEMFGTAVLCLTVLMTAVE

KRETNFMAALPIGISLFMAHMALTGYTGTGVNPARSLGAAVAARYFPHYHWIYWISPLLG

AFLAWSVWQLLQILDYTTYVNAEKAAGQKKED(SEQ ID NO：232)

来自白色念珠菌的示范同源通道蛋白质(AQY1)的氨基酸序列如下：

MVAESSSIDNTPNDVEAQRPVYEPKYDDSVNVSPLKNHMIAFLGEFFGTFIFLWVAFVIA

QIANQDPTIPDKGSDPMQLIMISFGFGFGVMMGVFMFFRVSGGNLNPAVTLTLVLAQAVP

PIRGLFMMVAQMIAGMAAAGAASAMTPGPIAFTNGLGGGASKARGVFLEAFGTCILCLTV

LMMAVEKSRATFMAPFVIGISLFLGHLICVYYTGAGLNPARSFGPCVAARSFPVYHWIYW

VGPILGSVIAFAIWKIFKILKYETCNPGQDSDA(SEQ ID NO：233)

YLL053C基因产物可以通过如PDR5基因产物似的泵出酮康唑而产生抗性。这些数据证明和表型改变相关的基因可通过分析细胞的基因表达分布图进行鉴定。基因鉴定还可进一步应用引起相同表型(例如，酮康唑抗性)的不同的嵌合ZFP。

实施例4：耐热转化体筛选

我们筛选了编码产生耐热酵母细胞的蛋白质的核酸的嵌合锌指文库。

含有3-指文库核酸的1×10⁷个酵母细胞在30℃在含2％半乳糖的SD合成液体培养基培养3小时并在52℃(空气温度)缓慢旋转孵育2小时。热处理后，培养物铺在半乳糖培养基上并在30℃孵育5天。生长的酵母菌落悬浮于半乳糖液体培养基中并在52℃孵育2小时以证实耐热表型。从这些细胞中分离质粒并如上述再转化至酵母。转化体在30℃在半乳糖液体培养基培养3小时并在52℃孵育2小时。孵育的转化体以4倍稀释铺在SD半乳糖琼脂板上。为证实耐热性是突变体的锌指蛋白质的表达诱导的，再转化体培养在具有上述条件的SD葡萄糖液体培养基中并铺在SD葡萄糖琼脂板上。具有pYTC载体和编码随机选择的3-指蛋白质的质粒的转化体用作对照。

耐热酵母细胞从转化了锌指蛋白质表达质粒的细胞中鉴定。携带pYTC-Lib质粒或编码随机选择的锌指蛋白质的质粒的野生型细胞用作阴性对照。总共10⁷种细胞生长在半乳糖液体培养基中。半乳糖诱导锌指蛋白质表达。细胞在52℃热处理2小时并铺在半乳糖基本琼脂板上。在30℃孵育5天后，在板上生长了26个菌落。我们从这些菌落中回收质粒并再转化它们至YPH499a中。我们分离了诱导多种程度耐热性的9个克隆。典型的，当在半乳糖培养基而不是葡萄糖培养基中培养时，这些克隆表达的锌指蛋白质使达到10％的细胞在热处理后存活。只有大约0.3％的转化了对照质粒的细胞在相同条件下存活。新生长的再转化细胞在实验条件下比冻存细胞存活的好。这些结果证明特定锌指蛋白质的表达可以诱导酵母细胞的耐热性。通过DNA测序回收的文库质粒定性ZFP(表8)。

表8：耐热转化体分离的质粒编码的ZFP

No.	ZFD基序的名称(N至C)			功能性结构域	潜在的靶序列
	ZFD基序的名称(N至C)					1	2	3
	H1	ISNR	QSNI			1	2	3	RDNQ	UME6	5’-AAG MAA GAH-3’
H2	H1	ISNR	QSNI	QNTQ	QNTQ	HSNK	UME6	5’-GAC ATA ATA-3’	RDNQ	UME6	5’-AAG MAA GAH-3’
H2	H3	QSHR5	DSHR	QNTQ	QNTQ	HSNK	UME6	5’-GAC ATA ATA-3’	DSKR	GAL4	5’-GGT GGC GRA-3’
H4	H3	QSHR5	DSHR	RDKR	QSTR	QSHR5	GAL4	5’-GRA GYA RGG-3’	DSKR	GAL4	5’-GGT GGC GRA-3’
H4	H5	RDHR1	QSSR1	RDKR	QSTR	QSHR5	GAL4	5’-GRA GYA RGG-3’	QSHR5	UME6	5’-GRA GYA GRG-3’
H6	H5	RDHR1	QSSR1	QAHR	RSHR	RSHR	UME6	5’-GGG GGG GGA-3’	QSHR5	UME6	5’-GRA GYA GRG-3’
H6	H7	DSNR	RDHT	QAHR	RSHR	RSHR	UME6	5’-GGG GGG GGA-3’	QNTQ	-	5’-ATA NGG GAC-3’
H8	H7	DSNR	RDHT	ISNR	RSNR	RSNR	-	5’-GAG GAG GAH-3’	QNTQ	-	5’-ATA NGG GAC-3’
H8	H9	RDHT	QSNK	ISNR	RSNR	RSNR	-	5’-GAG GAG GAH-3’	QSTR	-	5’-GYA DAA NGG-3’

实施例5：轴突形成

我们从我们的核酸文库筛选了编码在小鼠神经瘤母细胞系Neuro2A，一个可以分化为神经元细胞的细胞系中诱导轴突发生的锌指蛋白质的核酸。我们鉴定了一个诱导神经元分化的嵌合ZFP，可通过细胞形态变化和表达神经元标记基因证实。

材料和方法

文库构建

见实施例1，见上。如述，3-指和4-指ZFP-Tf文库分别使用40和25个锌指结构域构建。3-指和4-指文库分别识别大约9-和12-bp DNA结合位点。ZFP表达为与p65转录激活结构域和KRAB阻抑结构域的融合蛋白质。

Neuro2A细胞的细胞培养和神经元分化

小鼠神经瘤Neuro2A细胞在37℃，含有95％空气和5％CO₂潮湿气体中，维持在具有10％FBS和抗生素的MEM-a培养基中。细胞在每个96-孔培养板接种8.0×10³种细胞并使用LIPOFECTAMINE PLUS^TM(Invitrogen，CA)试剂，按照厂商方法，用50ng ZFP，和20ng LacZ报道质粒转染。用或不用维甲酸(RA)(10μM)分别进行体外分化，转化后并用G418(1mg/ml)处理24小时以减少未转染细胞数。细胞再培养96小时并固定，对β-半乳糖苷酶染色，并照相。β-半乳糖苷酶阳性细胞中，如果轴突伸展长度至少是胞体直径的2倍时认为细胞发生分化。

结果和讨论

筛选诱导轴突发生的ZFP-TFs

为筛选可以诱导神经元分化的ZFP-TFs，Neuro2A细胞用文库质粒和含有LacZ基因的报道质粒瞬时转染。LacZ表达用来目测转染细胞的形态。因为分化细胞比非分化生长慢因而后者将在细胞数上占优势，转染后我们用G418处理细胞培养24小时以减少未转染的细胞数。5天后，细胞固定并LacZ染色。我们然后通过形态特征定性细胞。特别的，我们鉴定了具有增加了轴突长度和厚度的细胞。

我们鉴定了几个改变轴突发生的ZFP-TFs。这些ZFP-TFs以不同程度影响轴突发生。ZFP-TFs，命名为Neuro1-p65，通过测量其产生的轴突的长度和厚度，其对分化有最明显的作用。当细胞用10μM RA(维甲酸)处理时，在Neuro1-p65转染的Neuro2A细胞中观察到了明显的轴突发生加速。

编码Neuro1-p65和其氨基酸序列的核酸序列示于图14。Neuro1-p65核酸编码含有锌指结构域QSNR1-QSNK-CSNR1的嵌合ZFP。其它具有相同基序ZFP和/或与Neuro1-p65结合位点至少部分重叠位点结合的ZFP也预期调节分化。基于锌指DNA结合位点目录(见表6)，Neuro1的预测结合位点是：5′-GACGAAGAA-3′。

Neuro1-p65需要p65激活结构域以诱导轴突形成。融合到KRAB转录阻抑结构域或没有任何效应子结构域的相同的锌指结构域不引起轴突发生。见图8和表9。而且Neuro1-p65的DNA结合能力是关键，因为预计使Neuro1-p65的锌指结构域丧失DNA结合能力的突变(Neuro1-p65mut)消除了它支持轴突发生的能力。

实时PCR用来定性在细胞Neuro1-p65表达过程中神经元标记基因的表达水平。相似的，核酸微阵列用来比较RA处理的细胞和ZFP-TF处理的细胞间在分化的不同时间点的基因表达模式。Neuro1-p65可以激活神经瘤母细胞至少体外分化所需的通路。

表9：具有轴突细胞的百分比

构建体	无RA RA 10uM
构建体	无RA RA 10uM	pCDNA3(载体)08_D1-p6508_D1mut-p6508_D1 alone08_D1-KRAB	5.77±1.99 14.93±7.6942.39±5.56 41.59±6.465.25±0.71 NA5.85±4.44 NA4.46±0.57 NA

实施例6：骨发生

C2C12细胞系衍生自成肌细胞系，但是在加入骨形态形成蛋白质-2(BMP-2)时可分化为成骨细胞(Katagiri，T等，(1994)J.Cell.Biol.127，1755)。几个天然产生的转录因子被鉴定为控制这个过程的候选因子(Lee，K.-S.等，(2000)Mol.Cell.Biol.20：8783；Nakashima，K.等，(2002)Cell108：17)。

我们筛选了在不存在BMP-2时诱导C2C12成肌细胞转分化为成骨细胞的嵌合锌指蛋白质。我们瞬时转染了编码嵌合锌指蛋白质的核酸文库到C2C12细胞中并筛选了在不存在BMP-2时进行转分化的细胞。转染7天后，转化的细胞对碱性磷酸酶(ALP)染色，其是成骨细胞的标记(Katagiri，T.等，(1994)J.Cell.Biol.127：1755)。从大约2000个ZFP-TFs的筛选中，我们鉴定了一个激活子，Osteo1-p65，其在大约30％的细胞中诱导强ALP染色。ALP染色的细胞百分比与LacZ染色探出的转染细胞的百分比相似。从这些结果，我们推断Osteo1-p65转录因子可以在不存在BMP-2时引起C2C12成肌细胞转分化为成骨细胞。

作为正对照，用1μg/ml的BMP-2处理细胞。几乎100％的正对照细胞在BMP-2处理时对ALP强染色。没有BMP-2处理，转染了对照载体的阴性对照细胞只有背景染色。Osteo1-p65是组成为RDKR-QTHR1-VSTR-RDKR锌指结构域(从N-到C-末端)的4-指蛋白质。见图15。这个蛋白质预计识别DNA元件5′-GGGGCWRGAGGG-3′(SEQ IDNO：234)。

对于这些实验，小鼠成肌细胞系，C2C12，在37℃，含有95％空气和5％CO₂潮湿气体中，维持在含有4.5g/L，10％FBS，和抗生素的DMEM培养基中。细胞以每个96-孔板1.0×10⁴种细胞接种。使用LIPOFECTAMINE PLUS^TM(Invitrogen)，按照厂商方法，用50ng文库核酸转染细胞。转染24小时后，用含2％FBS的DMEM代替生长培养基，细胞再培养6天。

为检查C2C12细胞分化为成骨细胞，ALP染色如Katagiri，T.等，(1994)J.Cell.Biol.127：1755描述的进行。

简言之(指实施例5和6)，我们对人工转录因子文库筛选了可以诱导2个不同细胞分化过程，神经发生和骨发生的蛋白质。再者，该方法不要求特定干细胞的生物学知识。

实施例7：胰岛素调控

我们稳定转染了编码嵌合锌指蛋白质的核酸到人293细胞系，并使用DNA微阵列实验分析了转化的细胞以定性每个嵌合锌指蛋白质调控的基因(见图4，5和9)。我们鉴定了提高人胰岛素基因表达超过60倍的嵌合锌指蛋白质(08D04-p65)。

为测试08_D04-p65是否可以在不同的人细胞系中诱导胰岛素基因表达，我们瞬时转染了编码08_D04-p65的核酸到HeLa细胞中。HeLa细胞中核酸的表达引起了胰岛素基因表达提高80倍。

因此，08_D04-p65，其衍生物，和相似功能的锌指蛋白质可以用作糖尿病的治疗物。编码08_D04-p65的DNA或相似功能的锌指蛋白质可以通过病毒输送或在胶囊(例如，脂质体)中运送给糖尿病人。一旦DNA输送进细胞，可表达锌指蛋白质以诱导产生胰岛素。一些实施方式中，编码锌指蛋白质的核酸可操纵的连接到一个可诱导的启动子上，例如，Tet诱导的启动子。使用强力霉素作为诱导剂可使胰岛素产生的水平被小的化学物调控。因为胰岛素诱导的锌指蛋白质，如08_D04-p65，可以在不同的人细胞系中有功能，它可以在胰腺细胞(例如，beta细胞或非beta细胞)和非胰腺细胞中起作用。

还可能鉴定诱导胰岛素加工酶表达的人工转录因子。工程化细胞以表达这样的转录因子和诱导胰岛素基因的转录因子，例如，08_D04-p65。另外，胰岛素诱导锌指蛋白质还可用来进行离体细胞治疗。一个实施方式中，病人的细胞通过导入编码胰岛素诱导锌指蛋白质的核酸被体外修饰。被修饰的细胞然后被植回病人或另一个对象中。

材料和方法

DNA微阵列分析表达ZFP-TFs的细胞系

编码锌指蛋白质的核酸如厂商方法描述被稳定导入FlpTRex-293细胞系(Invitrogen)。暂时的，pLFD-p65或pLFD-Kid载体的HindIII-XhoI片段被亚克隆至pCDNA5/FRT/TO(Invitrogen CA)。这个片段包含编码锌指蛋白质的序列。所得质粒和pOG44(Invitrogen)共转染至FlpTRex-293细胞中。获得了在强力霉素诱导时表达ZFP-TFs的稳定整合体。

含有7458个人EST克隆的DNA微阵列得自Genomictree(Korea)。稳定表达ZFP-TFs的FlpTRex-293细胞在有(+Dox)或没有(-Dox)1μg/ml强力霉素下生长48小时。从每个样品中制备总RNA。-Dox样品的RNA用作参照(Cy3)，和+Dox的用作实验样品(Cy5)。微阵列分析按照厂商的方法进行。中间数之和小于500的点标为红色，不分析。

编码某种锌指蛋白质的核酸也在HeLa细胞中表达。含有08_D04 ZFP的pLFD-p65使用LIPOFECTAMINE^TM 2000(Invitrogen)瞬时转染入HeLa细胞中。pLFD-p65载体，其不编码锌指蛋白质，也平行转染入细胞中作为对照。

实施例8

我们筛选了编码嵌合锌指的文库以鉴定编码改变哺乳动物细胞中报道基因表达的蛋白质的核酸。

构建文库

2个ZFP文库如4指蛋白质和3指蛋白质构建在P3，修饰的pcDNA3载体中。这些文库的构建见上述。

转染ZFP质粒

人胚胎肾293细胞在含有95％空气和5％CO₂潮湿气体中，用100μl含有10％FBS的DMEM培养，转染前1天接种在96孔板上。分别从每个文库的各个菌落中分离质粒并使用LIPOFECTAMINE PLUS^TM(Invitrogen)如厂商建议转染进293细胞中。为进行MTT分析，50ng含有融合到功能性结构域的锌指蛋白质基因的质粒被转染进以5×10³种细胞/孔培养的细胞中。为进行SEAP分析，10ng Pseap2-对照(Clontech)质粒和50ng含有融合到功能性结构域的锌指蛋白质基因的质粒被共转染进以1×10⁴种细胞/孔培养的细胞中。转染的细胞在分析前在37℃孵育3天。

SEAP分析

转染后3天，培养基转移至新管中并在65℃加热30分钟以失活内源的碱性磷酸酶。25μl培养基和等体积的2×SEAP分析缓冲液(2M二乙醇胺(pH9.8)10ml，1M MgCl₂ 10μl，1M高精氨酸200μl，正氮苯基磷酸44.52mg)混合。37℃在指定的孵育时间，在405nm测量吸收。

萤光素酶分析

对萤光素酶分析，5ng CMV-萤光素酶和pRL-SV40质粒和50ng ZFP编码质粒共转染进接种在96孔板的孔中的293细胞中。孵育3天后，收获细胞并通过双萤光素酶报道分析系统(Dual Luciferase reporter assaysystem(Promega))如厂商建议进行萤光素酶分析。

MTT分析

MTT分析用来测量细胞生长。代谢活性细胞还原的四唑MTT变为黄色。测量黄色的光吸收表示活细胞数。使用MTT分析试剂盒(Trevigen)进行MTT分析。在转染后3天进行MTT分析。简要的，10μl MTT溶液直接加入培养基并在CO₂孵箱中孵育2小时。然后，加入100μl MTT试剂盒中的去垢剂溶液并在使用Power-Wave 340x(Bio-Tek Instrument)测量570nm的吸收前在暗处孵育2小时。

为计数细胞，293细胞在转染前以1.5×10⁴种细胞/孔接种于24孔板。用200ng ZFP编码核酸或对照载体质粒转染3天后，用PBS洗细胞并悬浮于30μl TE(10mM Tris 1mM EDTA，pH8.0)缓冲液中并用血球计数器计数。

结果

蛋白质生产性的变化

我们测试了是否文库核酸可以改变异源核酸的表达。SEAP(分泌性碱性磷酸酶)用作报道蛋白质以测试是否ZFP可以影响细胞内产生的外源蛋白质的量。表10显示了从81个孔得到的代表性结果，每个孔含有转染了编码文库随机的嵌合ZFP的核酸的细胞和3个孔含有转染了对照载体的参照细胞。几个孔展示了相对其它含有转染了编码其它随机ZFP的核酸的细胞的孔和相对含有转染了对照载体的细胞的孔提高了的吸收。

表10：81种随机ZFP存在下的报道分子活性。

ZFP	吸光度(405nm)	ZFP	吸光度(405nm)	ZFP	吸光度(405nm)
ZFP	吸光度(405nm)	ZFP	吸光度(405nm)	ZFP	吸光度(405nm)	A01	0.29	C07	0.12	F01	0.15
A02	0.14	C08	0.16	F02	0.13	A01	0.29	C07	0.12	F01	0.15
A02	0.14	C08	0.16	F02	0.13	A03	0.14	C09	0.18	F03	0.13
A04	0.13	C10	0.17	F04	0.12	A03	0.14	C09	0.18	F03	0.13
A04	0.13	C10	0.17	F04	0.12	A05	0.19	C11	0.18	F05	0.13
A06	0.13	C12	0.15	F06	0.12	A05	0.19	C11	0.18	F05	0.13
A06	0.13	C12	0.15	F06	0.12	A07	0.12	D01	0.17	F07	0.12
A08	0.13	D02	0.15	F08	0.14	A07	0.12	D01	0.17	F07	0.12
A08	0.13	D02	0.15	F08	0.14	A09	0.11	D03	0.14	F09	0.19
A10	0.15	D04	0.14	F10	0.12	A09	0.11	D03	0.14	F09	0.19
A10	0.15	D04	0.14	F10	0.12	A11	0.15	D05	0.12	F11	0.20
A12	0.12	D06	0.13	F12	0.12	A11	0.15	D05	0.12	F11	0.20
A12	0.12	D06	0.13	F12	0.12	B01	0.15	D07	0.21	G01	0.15
B02	0.78	D08	0.12	G02	0.16	B01	0.15	D07	0.21	G01	0.15
B02	0.78	D08	0.12	G02	0.16	B03	0.15	D09	0.14	G03	0.14
B04	0.19	D10	0.15	G04	0.49	B03	0.15	D09	0.14	G03	0.14
B04	0.19	D10	0.15	G04	0.49	B05	0.13	D11	0.20	G05	0.26
B06	0.15	D12	0.12	G06	0.15	B05	0.13	D11	0.20	G05	0.26
B06	0.15	D12	0.12	G06	0.15	B07	0.14	E01	0.16	G07	0.22
B08	2.40	E02	0.13	G08	0.65	B07	0.14	E01	0.16	G07	0.22
B08	2.40	E02	0.13	G08	0.65	B09	0.11	E03	0.12	G09	0.18
B10	0.12	E04	0.41	vector	0.37	B09	0.11	E03	0.12	G09	0.18
B10	0.12	E04	0.41	vector	0.37	B11	0.13	E05	0.12	vector	0.39
B12	0.11	E06	0.15	vector	0.34	B11	0.13	E05	0.12	vector	0.39
B12	0.11	E06	0.15	vector	0.34	C01	0.20	E07	0.12
C02	0.14	E08	0.12			C01	0.20	E07	0.12
C02	0.14	E08	0.12			C03	0.31	E09	0.13
C04	0.13	E10	0.34			C03	0.31	E09	0.13
C04	0.13	E10	0.34			C05	0.13	E11	0.22
C06	0.13	E12	0.11			C05	0.13	E11	0.22

P_B08，融合到p65结构域的锌指蛋白质，显示了最高的SEAP活性。这个ZFP通过在3个分别的转染中用SEAP质粒转染测试。表11说明了一个这样的再测试。这个分析中P_B08的P值是0.008。P_B08比亲代质粒的SEAP活性提高了大约16倍。

表11：293细胞中SV40-SEAP报道分子

表达质粒平均值 S.D.

P_B08 16.51 0.54

载体(HANLS) 1 0.17

因为SEAP分析用于分析外源蛋白质的生产，观察提高的SEAP活性的原因是不同的，例如，直接或间接激活用于pSEAP2-对照质粒的SEAP基因表达的SV40启动子。其它原因包括：在分泌通路中有功能的蛋白质提高了活性或激活蛋白质生产的一般机制。SEAP提高活性的机制可通过确定P_B08对其它蛋白质生产的作用来阐明，例如，使用其它报道蛋白质(例如，非分泌的报道分子)和连接于其它启动子的报道分子。

为研究这点，在293细胞中使用CMV启动子(CMV-SEAP)控制的SEAP报道分子进行了广泛筛选。分离了2个ZFP，K44_11_D01和K44_11_G12，其提高了SEAP蛋白质的活性。这2个ZFP进一步使用2个其它报道质粒，SV40-SEAP和CMV启动子控制的萤光素酶报道分子(CMV-Luc)进行测试。表12列出了一些结果。K44_11_D01和K44_11_G12比亲代质粒(载体)的SEAP活性大约提高了3倍。

K44_11_D01显示激活SV40-SEAP，但不能激活CMV-萤光素酶，提示激活可能与SEAP特异的机制相关，如分泌。相反，K44_11_G12显示激活CMV-萤光素酶和SV40-SEAP大约到2-3倍，提示机制对启动子或报道分子不特异。因此，K44_11_G12可以用于提高细胞中一般蛋白质的生产，例如，真核细胞中。

表12：293F细胞中的CMV-SEAP，CMV-Luc和SV40-SEAP报道分子。

平均值 S.D.

CMV- CMV- SV40- CMV- CMV- SV40-

表达质粒 SEAP Luc SEAP SEAP Luc SEAP

K44_11_D01 3.49 0.87 3.66 0.46 0.26 0.28

K44_11_G12 2.82 2.75 2.14 0.50 0.38 0.15

载体 1 1 1 0.22 0.19 0.17

(HA-NLS)

锌指蛋白质K44_16_E12(图25)和K12_A11(图24)也可以改变蛋白质生产，例如，如CMV-SEAP和SMV-Luc表达所示。

作为类似的实施例，周期蛋白D1的过表达据报导可以引起一些蛋白质生产提高(US patent No.6,210,924 B1)。可以直接或间接激活周期蛋白D1表达的锌指蛋白质可以上调蛋白质生产，尽管锌指蛋白质的作用可能不同，范围更广，或更有效力。造成与周期蛋白D1过表达相同生理作用的其它锌指蛋白质可通过这个分析分离。这样的锌指蛋白质可用于提高感兴趣的蛋白质的生产。

细胞生长速度的变化

2个ZFP融合到kid结构域，K_D10和K_F02，选择作为ZFP调控细胞生长的代表，因为基于MTT分析结果，与对照相比它们显示了最大的变化。为证实MTT分析，293细胞中转染了K_D10和K_F02后计数细胞。结果与用亲代载体转染孔的细胞数比较，并转化为相对百分比并示于表13。与亲代载体相比，与对照比较，K_D10对细胞生长显示了大约3倍的抑制而K_F02显示了2.7倍的激活。K_D10和K_F02的P值分别是0.001和0.01。关于序列信息，见图18和19。

表13：2个ZFP的MTT分析结果。

相对细胞数

平均值 S.D.

K_F02 279.3 6.9

K_D10 27.4 4.3

Vector 99.99 3.4

细胞生长速度的变化

我们鉴定了可以改变细胞生长和繁殖速度的锌指蛋白质。这些重要的表型与疾病如癌和病毒感染及与发育过程有关联。使用锌指蛋白质控制细胞生长和繁殖的能力包括，例如，控制凋亡，细胞分化，宿主细胞防御(例如，抗病毒感染)，和p53介导的信号传导。

产生一个或多个这些表型的锌指蛋白质可以直接或间接调控那些调控细胞生长或信号传导的基因。这里描述的特异的锌指蛋白质产生了对细胞生长可探察的作用如MTT分析。例如，2个锌指蛋白质显示了与对照相比至少2倍的不同。鉴于这个分析是基于观察转染3天后瞬时转染的细胞。2倍不同是显著的。另外，细胞数目的变化证实使用MTT分析发现的不同对这个分析不是特别的。

因为细胞生长是细胞生理学的一个重要参数，这个实验可扩展到大量筛选以分离足够数目的调控细胞生长的锌指蛋白质。cDNA微阵列可用来分析表达每个锌指蛋白质细胞的基因表达分布图。这个分布图可鉴定参与细胞繁殖或凋亡的新的基因和通路。

这些实验显示锌指蛋白质可以诱导哺乳动物细胞的不同表型，例如，在这个例子是改变细胞繁殖。

实施例9：溶剂耐受的细菌细胞

我们筛选了表达人工锌指蛋白质的细菌细胞，细胞具有有机溶剂抗性是因为人工嵌合锌指蛋白质的结果。鉴定了3个不同的锌指蛋白质使大肠杆菌产生己烷耐受性的能力(表13)。己烷耐受性通过比较表达锌指蛋白质-HT-1，HT-2，和HT-3的之一的转化体的存活率和对照细胞的存活率进行评价。对照细胞包括一个空载体(C1)或ZFP-1。ZFP-1构建体编码不产生己烷抗性和含有RDER-QSSR-DSKR的锌指蛋白质。表达产生己烷抗性的锌指蛋白质的细菌细胞显示提高了己烷耐受性有200倍。

表13：烷抗性锌指蛋白质。

表达构建体名称存活率

对照 C1 0.14

对照 ZFP-1 0.05

己烷抗性ZFP HT-1 21.4

己烷抗性ZFP HT-2 1.85

己烷抗性ZFP HT-3 28.6

这些锌指蛋白质的表达质粒包括IPTG-诱导启动子。表达每个产生己烷抗性的ZFP的转化体在存在或不存在IPTG下定性。表达HT-2的转化体在存在IPTG时显示了较高的己烷耐受性，而HT-1或HT-3表达细胞甚至在不存在IPTG时也是己烷耐受的。

表14：在大肠杆菌中产生己烷耐受性的锌指蛋白质。

名称 F1 F2 F3 F4 推定的DNA靶出现的数量

(##)

HT-1 RSHR HSSR ISNR GAH GTT GGG 5

HT-2 ISNR RDHT QTHR VSTR GCT GRA NGG GAH 3

(SEQ ID NO：235)

HT-3 QNTQ CSNR ISNR GAH GAV ATA 1

(##)在第三轮己烷耐受性筛选后能够生长的9个集落中存在ZFP。

构建编码大肠杆菌表达的ZFP的核酸文库。为在大肠杆菌中条件表达锌指蛋白质，我们将克隆在pYTC-Lib酵母载体中的锌指蛋白质亚克隆到pZL.1。pZL.1时通过修饰pBT-LGF2(Clontech，Palo Alto，CA)而构建。Plac-UV5通过PCR从pBT-LGF2中扩增(正向引物：5′-GACAACCGGT CAT CGA TAA GCT AAT TCT CAC-3′(SEQ ID NO：236)；反向引物：5′-TTG TCC ATG GAC GCT GTT TCC TG GTG AAA-3′(SEQ ID NO：237))。PCR产物克隆到pYTC Lib载体的AgeI和NcoI位点间。载体命名为pYTC-lac。pYTC-lac用ClaI和NotI消化以亚克隆含有以下元件的DNA片段：Plac启动子-V5表位-MCS。消化的DNA片段在凝胶电泳后纯化并亚克隆到pBT-LGF2的ClaI和NotI位点。所得载体命名为pZL1。构建于pYTC-Lib的3F-或4F-文库用EcoRI和NotI消化。消化的DNA片段用凝胶纯化并亚克隆到pZL1的EcoRI和NotI位点，因而提供了大肠杆菌表达文库。

筛选溶剂耐受性。大肠杆菌株DH5α用可以原核表达的3-指或4-指ZFP核酸文库转化。转化体在含氯霉素(34μg/ml)LB中培养过夜。过夜培养物在1ml含有1mM IPTG和氯霉素的新鲜LB培养基中稀释至1∶500以诱导ZFP表达。在30℃孵育3小时后，加入己烷到1.5％并迅速振荡以形成己烷和大肠杆菌培养物的乳状液。混合物在37℃振荡(250rpm)孵育3小时并铺在含有氯霉素(c)的LB板上。从生长菌落的池中纯化质粒并转化DH5α。转化体用己烷如上述处理。选择己烷耐受性重复额外2次。第三轮选择后，从20个在含有氯霉素(34μg/ml)的LB板上生长的单个菌落中回收质粒。这些质粒再转化DH5α。每个转化体再如上述测试己烷耐受性。诱导己烷耐受性的质粒倍测序以定性编码的锌指蛋白质。

实施例10：耐热细菌细胞

我们筛选了产生细胞抗热性的锌指蛋白质。编码不同锌指蛋白质的核酸文库转化入大肠杆菌细胞中。细胞暴露于热，和回收具有抗热性的细胞。第三轮表型筛选后从23个选择的单个菌落中纯化质粒。鉴定了10个不同的锌指蛋白质(表15)并通过比较ZFP转化体和对照细胞，C1或ZFP-2在处理后的存活率分析了热耐受性的提高。C1或ZFP-2分别代表空载体或无关ZFP(QTHQ-RSHR-QTHR1)的转化体。超过99.99％的野生型细胞在50℃热处理2小时后死亡。相反，大约6％的转化了某种ZFP-TFs的细胞在这些极端条件下存活，700倍提高的热耐受性表型——即，在刺激条件下存活的表达ZFP-TFs的细胞的百分比(6.3％)除以在相同条件下存活的C1的百分比(0.0085％)。因为IPTG诱导ZFP的表达，分析了诱导热耐受性的ZFP转化体在存在和不存在IPTG时的表型。T1到T10转化体在存在IPTG时显示了较高的热耐受性。

表15：产生热耐受性的ZFP。

名称 F1 F2 F3 F4 推定的DNA靶出现数量

T-1 QSHV VSNV QSNK QSNK 5′ DAA DAA AAT HGA 3′ 6

(SEQ ID NO：238)

T-2 RDHT QSHV QTHR1 QSSR1 5′ GYA GRA HGA NGG K 3′ 3

(SEQ ID NO：239)

T-3 WSNR QSHV VSNV QSHV 5′HGA AAT HGA GGT 3′ 1

(SEQ ID NO：240)

T-4 QTHR1 RSHR QTHR1 QTHR1 5′GRA GRA GGG GRA 3′ 1

(SEQ ID NO：241)

T-5 DSAR RDHT QSHV QTHR1 5′GRA HGA NGG GTC 3′ 2

(SEQ ID NO：242)

T-6 QTHQ RSHR QTHR1 QTHR1 5′GRA GRA GGG HGA 3′ 1

(SEQ ID NO：243)

T-7 QSHV VSNV QSNR1 CSNR1 5′GAV GAA AAT HGA 3′ 3

(SEQ ID NO：244)

T-8 VSNV QTHR1 QSSR1 RDHT 5′NGG GYA GRA AAT 3′ 2

(SEQ ID NO：245)

T-9 RDHT QSHV QTHR1 QSNR1 5′GAA GRA HGA NGG K 3′ 2

(SEQ ID NO：246)

T-10 DSAR RDHT QSNK QTHR1 5′GRA DAA NGG GTC 3′ 2

(SEQ ID NO：247)

筛选热耐受性。如实施例9所述制备原核表达文库。大肠杆菌株DH5α用3-指或4-指ZFP文库转化并在含氯霉素(34μg/ml)的LB上培养过夜。过夜培养物在含1μM IPTG和氯霉素(34μg/ml)的1ml新鲜LB培养基中稀释至1∶500以诱导ZFP表达。在30℃孵育3小时后，100μl培养物转移到微离心管中在50℃水浴孵育2小时。培养物铺在含氯霉素(34μg/ml)的LB板上。从生长菌落池中纯化质粒并转化DH5α。用再转化体重复选择热耐受性。第三轮选择后，从30个生长在LB+氯霉素(34μg/ml)的板上的单个菌落中纯化质粒并再转化DH5α。如上述分析每个转化体的热耐受性。可以诱导热耐受性的质粒被测序以鉴定ZFP。

实施例11：ZFP F121-P65调控的基因

锌指蛋白质F121_p65在人胚胎肾293细胞中表达。这些细胞的转录产物被检测并与相应的不表达F121_p65的对照细胞的分布图比较。F121_p65上调的转录产物的实施例列于表16。F121_p65在其它基因中提高了胰岛素样生长因子2的转录。

表16：F121_p65上调的基因

名称 ID 中值比例(ROM)

胰岛素样生长因子2 H59614 17.71

胰岛素样生长因子2 H59614 16.88

蛋白酪氨酸磷酸酶，受体 R45961 16.45

胰岛素样生长因子2 N54596 14.40

推定的基因产物 H09111 12.35

jun B原癌基因 N94468 11.61

细胞维甲酸结合蛋白2 AA598508 10.30

蛋白磷酸酶2，调节亚基 R59165 9.89

活化T细胞核因子 AA679278 9.64

FK506-结合蛋白8(38kD) R95418 8.66

蛋白磷酸酶2，调节亚基 R59165 8.60

钙粘着蛋白13，H-钙粘着蛋白(心) R41787 7.34

富半胱氨酸蛋白2 AA485427 6.71

与Zfp-36同源的锌指蛋白 R38383 6.46

肿瘤坏死因子(配体)超家族 AI347622 6.15

钙粘着蛋白13，H-钙粘着蛋白(心) R41787 5.90

脑特异性蛋白p25α AA133959 5.71

生长停滞和DNA损伤诱导型 AA404666 5.55

淋巴细胞抗原6复合体，基因座H AI929550 5.50

己酮糖激酶(果糖激酶) T61256 5.28

细胞周期素D1(PRAD1：甲状旁腺腺瘤病) AA487486 5.27

- AA045731 5.27

I型跨膜蛋白的Fn14 AI221536 5.06

实施例12：大肠杆菌中外源蛋白质溶解度的变化

我们筛选了使重组蛋白质，大肠杆菌表达的Akt1的溶解度提高的锌指蛋白质。哺乳动物Akt1基因克隆在pET21b载体中并且GFP连接到Akt1 ORF的C-末端。编码不同锌指蛋白质的核酸文库转化入大肠杆菌细胞中。Akt1:GFP构建体导入ZFP转化体中。通过FACS排序分析Akt1提高的溶解度，因为可溶Akt1表达细胞产生更多的荧光GFP。8轮表型筛选后，选择单个菌落并通过western印迹分析比较ZFP表达和C1表达细胞之间的可溶组分中Akt1的量来分析溶解度的提高。western印迹结果通过成像分析软件，QUANTITY ONE(Bio-Rad，Hercules，CA)量化。C1代表空载体pZL1的转化体。鉴定了2个不同的提高了大肠杆菌表达的重组Akt1蛋白质的溶解度的锌指蛋白质。

C1中可溶和不可溶组分之间的Akt1量的比率是32.5∶67.5。相反，转化了某种锌指蛋白质的细胞显示了可溶组分中Akt11的比率提高了2倍-即，细胞表达ZFP-TFs的可溶组分中Akt1蛋白质的量的百分比(66.1％)除以C1中的量(32.5％)。

表19：提高大肠杆菌中Akt1蛋白质溶解度的ZFP。

表达构建体名称 Akt1蛋白数的比例(％)

可溶成分不溶成分

对照 C1 32.5 67.5

溶解性增加的ZFP S-1 66.1 33.9

溶解性增加的ZFP S-2 45.7 54.3

表20：使大肠杆菌Akt1蛋白质溶解度提高的ZFP。

名称 F1 F2 F3 F4 推定的DNA靶

S-1 QSTR DSAR RDHT WSNR GGT NGG GTC GYA(SEQ ID NO：248)

S-2 VSTR DGNV QSNR QSNK DAA GAA AAC GCT(SEQ ID NO：249)

筛选溶解度提高了的重组蛋白质。

如实施例9所述制备原核表达文库。用ZFP文库和Akt1表达载体共转化大肠杆菌株DH5α并在含氯霉素(34μg/ml)和氨苄青霉素(50μg/ml)的LB上培养过夜。过夜培养物在含1mM IPTG和氯霉素(34μg/ml)和氨苄青霉素(50μg/ml)的1ml新鲜LB培养基中稀释至1∶500以诱导ZFP表达。30℃孵育3小时后，用FACS在FACS Vantage流式细胞仪上分析106种细胞并分选5％到10％表达高荧光的细胞。GFP表达或pET21b空载体转化的细胞用作正或阴性对照以设定背景荧光。

分析的细胞在含氯霉素(34μg/ml)和氨苄青霉素(50μg/ml)的LB培养基中过夜培养。从培养物中纯化质粒并转化入DH5α。用再转化体重复筛选提高溶解度的重组蛋白质。第八轮选择后，从可以在LB+氯霉素(34μg/ml)十氨苄青霉素(50μg/ml)的板上生长的单个菌落中纯化质粒并转化入DH5α。用western印迹分析法分析每个转化体提高的Akt1的溶解度。测序可以提高Akt1溶解度的质粒以鉴定ZFP。

描述了许多本发明的实施方案。然而，应理解可以进行不偏离本发明精神和范围的多种修饰。因此，其它实施方案也在以下权利要求的范围内。

Claims

1.一种修饰的细胞，其包含编码人工转录因子的异源核酸，该人工转录因子使得所述修饰的细胞相对于与修饰的细胞基本相同但缺少所述异源核酸和人工转录因子的参照细胞具有应激抗性。

2.权利要求1的修饰的细胞，其中所述人工转录因子包含2个锌指结构域。

3.权利要求1的修饰的细胞，其中所述细胞是细菌细胞。

4.权利要求1的修饰的细胞，其中所述细胞是真核细胞。

5.权利要求2的修饰的细胞，其中所述应激抗性包括以下一或多种特性：抗热性，溶剂抗性，重金属抗性，渗透压抗性，极端pH抗性，化学物抗性，抗寒性，和遗传毒剂抗性，放射性抗性。

6.权利要求1的修饰的细胞，其中所述细胞表达该人工转录因子并比一种基本上相同但缺少该人工转录因子的培养细胞具有更高程度的应激抗性。

7.产生细胞产物的方法，该方法包括：

提供权利要求1的修饰的细胞；

在产生人工转录因子的条件下维持该修饰的细胞；和

回收该培养细胞产生的产物，其中所述产物不同于该人工转录因子。

8.权利要求7的方法，其中所述修饰的细胞包括编码不同于所述人工转录因子的一种异源蛋白质的核酸，并且所述产物是该异源蛋白质。

9.权利要求7的方法，其中所述产物是一种代谢物或内源蛋白质。

10.权利要求8的方法，其中所述修饰的细胞进一步包括第二个编码异源蛋白质的核酸，并且该异源蛋白质参与代谢物的产生。

11.权利要求7的方法，其中将所述修饰的细胞维持在20℃到40℃之间的温度条件下。

12.权利要求7的方法，其中将所述修饰的细胞维持在与其基本上相同但缺少所述人工转录因子的细胞的生长被抑制的条件下。

13.权利要求7的方法，其中所述人工转录因子包含一个锌指结构域。

14.权利要求13的方法，其中所述锌指结构域包含一套相应于表15所列的锌指结构域的DNA接触残基的DNA接触残基。

15.权利要求14的方法，其中所述人工转录因子包含一组至少3个锌指结构域，其中所述一组中的每个锌指结构域的DNA接触残基分别对应于表15的一行中所列的任意3个连续锌指结构域的DNA接触残基。

16.权利要求7的方法，其中所述应激抗性包括一或多种以下特性：抗热性，溶剂抗性，重金属抗性，渗透压抗性，极端pH抗性，化学物抗性，抗寒性，和放射性抗性。

17.含有编码一种靶蛋白质的基因和一种异源核酸的细胞，所述异源核酸包含编码一种人工蛋白质嵌合体的序列，该人工蛋白质嵌合体1)使得所述细胞产生的蛋白质的量相对于不包含该异源核酸的细胞产生的蛋白质的量是增加的，和2)不结合直接调控编码该靶蛋白质的基因转录的转录调控区域。

18.权利要求17的细胞，其中所述人工蛋白质嵌合体包含2个锌指结构域并结合DNA。

19.权利要求17的细胞，其中所述细胞是真核细胞，且所述人工蛋白质嵌合体与PB08、K_F02、或K_D10竞争结合基因组DNA位点。

20.权利要求17的细胞，其中所述人工蛋白质嵌合体改变了所述细胞的细胞周期进程的速度。

21.权利要求17的细胞，其中所述基因是内源基因。

22.一种人工转录因子，其1)使得一种真核细胞产生的靶蛋白质的量相对于不包含该人工转录因子的细胞产生的靶蛋白质的量是增加的，和2)不结合直接调控编码该靶蛋白质的基因转录的转录调控区域。

23.包含多个锌指结构域的人工转录因子，所述人工转录因子改变了真核细胞的细胞周期进程的速度。

24.生产蛋白质的方法，该方法包含：

提供权利要求17的细胞，和

在所述人工蛋白质嵌合体使得所述细胞产生的靶蛋白质的量较不含有该异源核酸的细胞产生的靶蛋白质的量增加的条件下维持该细胞。

25.权利要求24的方法，其中所述蛋白质是一种分泌蛋白质。

26.含有编码一种分泌蛋白质的内源基因和一种异源核酸的细胞，该异源核酸包含编码一种人工转录因子的序列，该人工转录因子使得所述细胞产生的该分泌蛋白质的量相对于不包含该异源核酸的细胞产生的该分泌蛋白质的量是增加的。

27.权利要求26的细胞，其中所述细胞是真核细胞，而所述分泌蛋白质是胰岛素。

28.权利要求26的细胞，其中所述人工转录因子特异性结合一种内源DNA位点，所述内源DNA位点也由08_D04_p65特异性结合。

29.权利要求26的细胞，其中所述人工转录因子特异性结合一种内源DNA位点，且所述人工转录因子与08_D04_p65竞争结合该内源DNA位点。

30.权利要求26的细胞，其中所述人工转录因子包含如下一种氨基酸序列：

其中B是苯丙氨酸或酪氨酸；和J是一种疏水氨基酸。

31.生产胰岛素的方法，该方法包含：

提供权利要求24的细胞，和

在所述人工转录因子使得该细胞产生的胰岛素的量较不含有该异源核酸的细胞产生的胰岛素的量增加的条件下维持该细胞。

32.包含至少2个锌指结构域的人工转录因子，所述人工转录因子诱导一种哺乳动物细胞表达内源胰岛素基因，而该哺乳动物细胞在缺少所述人工转录因子时不表达内源胰岛素基因。

33.一种人工转录因子，其使得一种细胞对毒性试剂的敏感性相对于不含有该核酸的相同细胞发生改变。

34.含有并表达编码一种人工转录因子的核酸的细胞，其中所述人工转录因子使得该细胞对毒性试剂的敏感性相对于不含有该核酸的相同细胞发生改变。

35.权利要求34的细胞，其中所述毒性试剂是药物。

36.权利要求34的细胞，其中敏感性被提高。

37.权利要求34的细胞，其中敏感性被降低。

38.权利要求34的细胞，其中所述细胞是真菌细胞。

39.权利要求38的细胞，其中所述毒性试剂是酮康唑。

40.权利要求34的细胞，其中所述人工转录因子包含3个锌指结构域。

41.权利要求39的细胞，其中所述人工转录因子结合一种内源DNA位点，并且所述人工转录因子与表5所列的锌指蛋白质竞争结合该内源DNA位点。

42.改变真菌细胞的药物抗性的方法，该方法包含：

改变一种与细胞的AQY1、YJR147W、YLL052C、YLL053C、或YPL091W具有至少70％相同性的蛋白质的表达或活性。

43.一种用于鉴定改变细胞对毒性试剂敏感性的人工嵌合蛋白质的方法，该方法包含：

提供包含多种核酸的核酸文库，其中所述多种核酸中的每种核酸编码包含一组至少3个锌指结构域的嵌合蛋白质，其中至少2个邻近的锌指结构域在天然产生的蛋白质中是相互不邻近的；

将文库成员导入一种测试细胞的复制细胞中以产生转化细胞；

在存在毒性试剂的条件下培养所述转化细胞；和

自所述转化细胞中鉴定一种相对于所述测试细胞而言对毒性试剂的敏感性发生改变的细胞。

44.权利要求43的方法，其中所述测试细胞是真菌细胞，且所述毒性试剂是抗真菌试剂。

45.权利要求43的方法，其中所述测试细胞是癌细胞，且所述毒性试剂是抗有丝分裂剂。

46.权利要求43的方法，其中由所述多种核酸中的每种核酸编码的所述嵌合蛋白质均包含一种转录调控结构域。

47.权利要求46的方法，进一步包含构建编码第二种嵌合蛋白质的核酸，所述第二种嵌合蛋白质包含选定的细胞的文库成员编码的嵌合蛋白质的一组锌指结构域，但是不包含鉴定的细胞的文库成员编码的嵌合蛋白质的转录调控结构域。

48.权利要求47的方法，进一步包含构建编码第二种嵌合蛋白质的核酸，所述第二种嵌合蛋白质包含i)选定的细胞的文库成员编码的嵌合蛋白质的一组锌指结构域，和ii)一种转录调控结构域，其不同于鉴定的细胞的文库成员编码的嵌合蛋白质的转录调控结构域。

49.包含编码包含3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达在至少一种脊椎动物细胞中诱导神经元表型。

50.权利要求49的核酸，其中至少一个锌指结构域具有选自以下一组的一种序列：

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：250)

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：251)；或

Cys-X_2-5-Cys-X₃-X_a-X-Cys-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：252)，

其中X_a是苯丙氨酸或酪氨酸；而X_b是一种疏水氨基酸。

51.权利要求50的核酸，其中所述人工转录因子包含以下序列：Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Ser-Asn-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Cys-X_b-X-Ser-Asn-His-X_3-5-His(SEQ ID NO：253)，其中X_a是苯丙氨酸或酪氨酸；而X_b是一种疏水氨基酸。

52.在脊椎动物细胞中诱导轴突形成的方法，该方法包含：

提供含有权利要求44的核酸的脊椎动物细胞；和

在产生所述人工转录因子并诱导轴突形成的条件下维持该脊椎动物细胞。

53.权利要求52的方法，其中的脊椎动物细胞是哺乳动物细胞。

54.权利要求52的方法，其中的哺乳动物细胞是人的细胞。

55.权利要求52的方法，其中的脊椎动物细胞在产生该人工转录因子之前是干细胞。

56.包含编码包含3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达在至少一种脊椎动物细胞中诱导骨发生。

57.权利要求56的核酸，其中至少一个锌指结构域具有选自以下一组的一种序列：

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：254)；

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Thr-His-His-X_3-5-His(SEQ ID NO：255)；

Cys-X_2-5-Cys-X₃-X_a-X-Val-X_b-X-Ser-Thr-His-X_3-5-His(SEQ ID NO：256)，或；

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：257)，

其中X_a是苯丙氨酸或酪氨酸；而X_b是一种疏水氨基酸。

58.权利要求57的核酸，其中所述人工转录因子包含以下氨基酸序列：

Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X_b-X-Thr-His-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Val-X_b-X-Ser-Thr-His-X_3-5-His-X_1-6-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X_b-X-Asp-Lys-His-X_3-5-His(SEQ ID NO：258)，其中X_a是苯丙氨酸或酪氨酸；而X_b是一种疏水氨基酸。

59.诱导脊椎动物细胞骨发生的方法，该方法包含：

提供含有权利要求44的核酸的细胞；和

在产生该人工转录因子和诱导骨发生的条件下维持该脊椎动物细胞。

60.改变干细胞分化能力的方法，该方法包含：

提供干细胞和包含编码包含多个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子改变所述干细胞的分化能力；

将所述核酸导入干细胞中；和

在产生所述人工转录因子因而改变所述干细胞的分化能力的条件下维持该干细胞。

61.权利要求60的方法，其中所述人工转录因子诱导所述干细胞分化。

62.权利要求60的方法，其中所述人工转录因子增强所述干细胞的自我更新潜力。

63.权利要求60的方法，其中所述干细胞是胚胎干细胞。

64.权利要求60的方法，其中所述干细胞是是脊椎动物干细胞或植物干细胞。

65.权利要求62的方法，其中所述干细胞是造血干细胞、神经元祖细胞或肌祖细胞。

66.用于鉴定人工转录因子的方法，该方法包含：

提供包含多种核酸的核酸文库，所述多种核酸中的每种核酸编码一种不同的人工转录因子，每种人工转录包含一组至少2个锌指结构域和激活或抑制转录的调控结构域；

提供具有给定特性的细胞；

将所述核酸文库的成员导入所述细胞中；

鉴定使得所述给定特性发生改变的文库成员；和

制备包含编码一种DNA结合多肽的序列的编码核酸，所述DNA结合多肽包含来自该鉴定的成员的一组锌指结构域，但不包括与该鉴定的成员的调控结构域相同的调控结构域。

67.权利要求66的方法，其中所述DNA结合多肽缺少该鉴定的成员的调控结构域。

68.权利要求66的方法，其中所述DNA结合多肽包含相对于该鉴定的成员的调控结构域而言是突变了的调控结构域。

69.权利要求67的方法，其中所述DNA结合多肽包含与该鉴定的成员的调控结构域相比是相反功能的调控结构域。

70.权利要求66的方法，进一步包含将所述编码核酸导入一种细胞中并评价该细胞的所述给定特性。

71.权利要求66的方法，其中的鉴定步骤包括鉴定具有选自以下一组特性的细胞：对给定环境条件的抗性；分化；去分化；增殖；凋亡；非血清依赖性；病原体抗性；和病原体敏感性。

72.包含第一组多种核酸和第二组多种核酸的核酸文库，其中

(a)第一组多种核酸中的每种核酸编码包含至少2个锌指结构域和激活转录的第一个功能性结构域的人工蛋白质嵌合体，和

(b)第二组多种核酸中的每种核酸编码包含至少2个锌指结构域的人工蛋白质嵌合体，且不包括所述第一个功能性结构域。

73.权利要求72的核酸文库，其中所述第二组多种核酸中的每种核酸编码的人工蛋白质嵌合体包含与所述第一个功能性结构域不同的第二个功能性结构域。

74.权利要求72的核酸文库，其中所述第一个功能性结构域是激活结构域而所述第二个功能性结构域是阻抑结构域。

75.权利要求73的核酸文库，其中所述第一个功能性结构域是激活结构域而所述第二个功能性结构域是与所述第一个功能性结构域具有不同效力的激活结构域。

76.权利要求72的核酸文库，其中所述第一个功能性结构域是组蛋白去乙酰化酶结构域。

77.用于鉴定蛋白质嵌合体的方法，该方法包含：

提供权利要求72的核酸文库；

将核酸文库的成员导入具有给定特性的细胞中；和

鉴定使得所述给定特性发生改变的文库成员。

78.用于鉴定多种蛋白质嵌合体的方法，该方法包含：

提供包含编码第一种人工蛋白质嵌合体的核酸的测试细胞的复制细胞，其中所述第一种人工蛋白质嵌合体的表达使得所述测试细胞的一种给定特性发生改变；

将核酸文库的成员导入每种复制细胞中，该核酸文库包含多种核酸，其中每种核酸编码包含2个锌指结构域的不同人工蛋白质嵌合体；和

筛选复制细胞以鉴定所述给定特性被进一步改变的细胞，其中每种复制细胞表达由所述第一种文库成员编码的蛋白质嵌合体和由导入的核酸文库成员编码的第二种蛋白质嵌合体。

79.用于制备修饰的细胞的方法，该方法包含

提供包含多种核酸的核酸文库，其中每种核酸编码不同的人工蛋白质嵌合体，每种蛋白质嵌合体包含至少2个锌指结构域；

鉴定使得细胞的一种给定特性发生改变的第一个和第二个文库成员；和

制备可以表达第一种和第二种多肽的细胞，其中所述第一种和第二种多肽分别由所述第一个和第二个文库成员编码。

80.权利要求79的方法，其中的鉴定步骤包含将核酸文库成员导入所述复制细胞中以提供转化细胞，并鉴定所述给定特性发生改变的第一种和第二种细胞。

81.权利要求79的方法，进一步包含评价制备的细胞的所述给定特性。

82.权利要求79的方法，其中的制备步骤包含将编码所述第一种多肽的第一个基因和编码所述第二种多肽的第二个基因导入所述细胞。

83.权利要求82的方法，其中所述第一个和第二个基因是同一种核酸的组分。

84.权利要求79的方法，其中的制备步骤包含将包含编码所述第一种多肽的第一个基因的第一种细胞与包含编码所述第二种多肽的第二个基因的第二种细胞融合。

85.用于鉴定蛋白质嵌合体的方法，该方法包含：

提供包含多种核酸的核酸文库，每种核酸编码包含至少2个锌指结构域的不同的人工蛋白质嵌合体；

将所述核酸文库的成员导入具有一种给定特性的细胞；

鉴定使得所述给定特性发生改变的文库成员；和

制备包含多种核酸的第二个文库，其中每种核酸编码

(1)通过1到6个氨基酸的取代、插入、或缺失而产生的不同于相应的所述鉴定的成员的人工蛋白质嵌合体的变体，

(2)包含相应于所述鉴定的成员的人工蛋白质嵌合体的锌指结构域和一种额外的锌指结构域的蛋白质嵌合体，其中所述额外的锌指结构域在所述第二个文库成员中是不同的，

(3)相应于所述鉴定的成员的人工蛋白质嵌合体的变体，其中所述变体具有用其它锌指结构域取代所述锌指结构域的一部分位置以及至少一个与相应的所述鉴定的成员的人工蛋白质嵌合体的相应位置的锌指结构域相同的不变锌指结构域，或

(4)相应于所述鉴定的成员的人工蛋白质嵌合体的变体，其中，在所述第二个文库的成员中，一或多个锌指结构域位置是不同的，由此相应于所述鉴定的成员的人工蛋白质嵌合体的特定结构域在该位置上出现的频率较其它锌指结构域在该位置上出现的频率更高。

86.用于鉴定人工转录因子的靶的方法，该方法包含：

提供包含多种核酸的核酸文库，其中每种核酸编码不同的人工转录因子，每个转录因子包含至少2个锌指结构域；

将所述文库的成员导入测试细胞的复制细胞中以提供多种转化细胞；

在表达人工转录因子的条件下维持所述的转化细胞；

自所述多种转化细胞中鉴定多种表型发生改变的细胞，其中每种表型发生改变的细胞与所述测试细胞相比具有改变的表型；

在所述多种表型发生改变的细胞的每种细胞中检测转录产物或蛋白质的丰度的分布图以提供每种表型改变的细胞的分布图；和

互相比较分布图以鉴定一或多种转录产物或蛋白质，其中与所述测试细胞相比，所述一或多个转录产物或蛋白质在至少2种表型发生改变的细胞中的丰度发生相似的改变。

87.用于评价细胞的方法，该方法包含：

提供包含一种异源核酸的修饰的细胞，该异源核酸包含编码具有至少2个锌指结构域的人工转录因子的序列，其中相对于不表达该人工转录因子的参照细胞而言，该人工转录因子的表达改变所述细胞的表型特性；

鉴定与所述参照细胞相比，修饰的细胞中表达被改变的靶基因；和

评价测试细胞的所述表型特性，其中所述测试细胞含有所述异源核酸并表达所述人工转录因子，且在所述靶基因的活性在所述测试细胞中被改变。

88.权利要求87的方法，其中所述靶基因的活性通过基因突变被改变。

89.权利要求87的方法，其中所述靶基因的活性通过用双链RNA或反义寡核苷酸或核酶处理而被改变。

90.权利要求87的方法，其中所述靶基因的活性通过所述靶基因的过表达而改变。

91.用于评价人工转录因子的方法，该方法包含：

提供含有一种异源核酸的修饰的细胞，该异源核酸包含编码具有至少2个锌指结构域的人工转录因子的序列，其中相对于不表达所述人工转录因子的参照细胞而言，所述人工转录因子的表达改变了所述细胞的表型特性；和

将文库核酸导入所述修饰的细胞的复制细胞；和

鉴定减弱由所述人工转录因子引起的所述表型特性变化的一种文库核酸。

92.权利要求91的方法，其中所述文库核酸包含cDNA文库核酸。

93.权利要求91的方法，其中所述文库核酸包含编码不同人工蛋白质嵌合体的核酸。

94.权利要求93的方法，其中所述不同人工蛋白质嵌合体包括不同的锌指结构域。

95.用于鉴定蛋白质嵌合体的方法，该方法包含：

提供包含多种核酸的核酸文库，其中每种核酸编码包含至少2个锌指结构域的不同的人工蛋白质嵌合体，其中至少一个锌指结构域来自天然产生的蛋白质；

将所述核酸文库的成员导入具有一种给定特性的细胞；和

鉴定一种细胞，其中所述文库的成员使得该细胞中的所述给定特性发生改变。

96.用于鉴定蛋白质嵌合体的方法，该方法包含：

提供包含多种核酸的核酸文库，其中每种核酸编码包含至少2个锌指结构域的不同的人工蛋白质嵌合体，其中所述文库的至少一个成员的至少一个锌指结构域包含表1所列的氨基酸序列；

将所述核酸文库的成员导入具有一种给定特性的细胞；和

97.用于鉴定蛋白质嵌合体的方法，该方法包含：

提供细胞文库，该文库包含多种细胞，其中每种细胞包括编码包含第一个和第二个锌指结构域多肽的核酸，其中(1)由所述文库的每种核酸编码的多肽的第一个和第二个锌指结构域均与来自天然产生的蛋白质的锌指结构域相同，且所述第一个和第二个锌指结构域或者(i)不存在于同一种天然蛋白质中或者(ii)存在于同一种天然蛋白质中但与在所述多肽中的构型不同，(2)所述第一个锌指结构域在文库的核酸中是不同的，和(3)所述第二个锌指结构域在文库的核酸中是不同的；

鉴定表型不同于参照细胞的文库细胞；和

从所述鉴定的文库细胞中回收所述核酸。

98.一种分离的核酸，其编码一种人工转录因子，所述人工转录因子在产生该人工转录因子的细胞中增强一种异源的、过表达的蛋白质的溶解度。

99.权利要求98的核酸，其中所述人工转录因子包含多个锌指结构域。

100.权利要求98的核酸，其中所述细胞是细菌细胞。

101.权利要求98的核酸，其中所述蛋白质是哺乳动物蛋白质。

102.权利要求101的核酸，其中所述蛋白质包含AKT蛋白质。

103.权利要求99的核酸，其中所述多个锌指结构域包含结构域QSTR-DSAR-RDHT-WSNR或VSTR-DGNV-QSNR-QSNK。

104.包含权利要求98到103中任一项的异源核酸的修饰的细胞。

105.用于生产异源靶蛋白质的方法，该方法包含：

提供权利要求104的修饰的细胞，其中所述修饰的细胞包含一种包含编码一种异源靶蛋白质的序列的第二种核酸；和

在产生所述人工转录因子和所述异源靶蛋白质的条件下维持该修饰的细胞。

106.权利要求105的方法，其中所述修饰的细胞是培养的细胞。

107.权利要求105的方法，其中所述修饰的细胞在对象中。

108.用于生产细胞产物的方法，该方法包含：

提供权利要求1的修饰的细胞；

在产生所述人工转录因子的条件下维持所述修饰的细胞；和

回收所述培养细胞产生的产物，其中所述产物不同于所述人工转录因子。

109.将改变了的表型自第一种细胞转移到第二种细胞的方法，该方法包含：

提供包含多种核酸的核酸文库，其中每种核酸编码包含至少2个锌指结构域的不同的人工蛋白质嵌合体；

将所述核酸文库的成员导入具有一种给定特性的第一种细胞中以提供转化的细胞；

自所述转化细胞中鉴定一种改变的细胞，其中所述文库的成员改变了所述的给定特性；

从鉴定的改变的细胞中回收核酸文库的成员；

将核酸文库成员导入第二种细胞，其中所述第二种细胞因具有不同于所述给定特性的表型特性而不同于所述第一种细胞；和

评价包括核酸文库成员并表达由所述核酸文库成员编码的人工蛋白质嵌合体的第二种细胞。

110.权利要求109的方法，其中所述第一种和第二种细胞是真核细胞。

111.权利要求110的方法，其中所述第一种和第二种细胞是酵母细胞。

112.权利要求110的方法，其中所述第一种和第二种细胞是哺乳动物细胞。

113.权利要求112的方法，其中所述第一种和第二种细胞具有不同的增殖特点。

114.权利要求113的方法，其中所述第一种细胞是癌细胞，而所述第二种细胞是非癌细胞。

115.权利要求109的方法，其中对被评价的第二种细胞的所述给定特性的变化进行评价。

116.一种分离的多肽，其包含选自SEQ ID NO：2，4，6，8，10，12，14，16，18，20，260，262，或264的一种氨基酸序列。

117.一种分离的核酸，其包含编码权利要求116的多肽的核酸序列。

118.包含编码具有3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达改变至少一种真核细胞的特性，其中所述特性选自于病毒复制、病毒产生、或病毒感染性。

119.包含编码具有3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达改变一种真核细胞调控一种干细胞的能力，其中所述干细胞是与所述真核细胞共培养的或是在所述真核细胞的条件培养基中培养的。

120.包含编码具有3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达改变一种哺乳动物培养细胞对一种分泌蛋白质进行糖基化的能力。

121.权利要求120的核酸，其中所述分泌蛋白质是包含至少一个免疫球蛋白可变结构域的异源蛋白质。

122.权利要求120的核酸，其中所述培养细胞是CHO细胞。

123.包含编码具有3个锌指结构域的人工转录因子的序列的核酸，其中所述人工转录因子的表达改变细胞摄取外源核酸的能力。