CN117413064A - 将工程锌指无缝整合到内源转录因子中以利用其自然功能 - Google Patents

将工程锌指无缝整合到内源转录因子中以利用其自然功能 Download PDF

Info

Publication number
CN117413064A
CN117413064A CN202280026983.9A CN202280026983A CN117413064A CN 117413064 A CN117413064 A CN 117413064A CN 202280026983 A CN202280026983 A CN 202280026983A CN 117413064 A CN117413064 A CN 117413064A
Authority
CN
China
Prior art keywords
leu
ser
lys
arg
thr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280026983.9A
Other languages
English (en)
Inventor
马库斯·诺伊斯
米克·泰帕莱
菲利普·M·金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Toronto
New York University NYU
Original Assignee
University of Toronto
New York University NYU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Toronto, New York University NYU filed Critical University of Toronto
Publication of CN117413064A publication Critical patent/CN117413064A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/02Libraries contained in or displayed by microorganisms, e.g. bacteria or animal cells; Libraries contained in or displayed by vectors, e.g. plasmids; Libraries containing only microorganisms or vectors
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • C40B40/08Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/70Fusion polypeptide containing domain for protein-protein interaction
    • C07K2319/71Fusion polypeptide containing domain for protein-protein interaction containing domain for transcriptional activaation, e.g. VP16
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • C07K2319/81Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor containing a Zn-finger domain for DNA binding

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Toxicology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Revetment (AREA)
  • Bending Of Plates, Rods, And Pipes (AREA)

Abstract

提供了包含引入的锌指DNA结合结构域的经修饰的蛋白质,以及编码所述经修饰的蛋白质的多核苷酸。相对于未经修饰形式的蛋白质的DNA结合位置,经修饰的蛋白质具有改变的DNA结合位置。除了引入的锌指DNA结合结构域之外,经修饰的蛋白质还包含基因表达激活结构域或基因表达阻遏结构域。还提供了使用经修饰的蛋白质激活或阻遏基因表达的方法。该方法包括预防方法和治疗方法。

Description

将工程锌指无缝整合到内源转录因子中以利用其自然功能
相关申请的交叉引用
本申请要求2021年2月4日提交的美国临时专利申请第63/145,929号的优先权,其全部公开内容通过引用并入本文。
关于联邦资助研究的声明
本发明是在美国国立卫生研究院授予的资助号为R01GM118851下的政府支持下完成的。政府对本发明享有一定的权利。
序列表
本申请包含序列表,该序列表已经以ASCII格式电子提交并且通过引用整体并入本文。2022年2月3日创建的所述ASCII副本被命名为NYU_Zinc_Finger_PCT.txt,大小为77,858字节。
技术领域
本公开内容总体上涉及调节基因表达反应的领域,并且更具体地涉及包含DNA结合结构域和在自然背景下发挥功能的转录激活结构域或转录阻遏结构域的经修饰的蛋白质。
背景技术
基因表达的精确调节是大多数生物过程的基础,并且提供了巨大的治疗潜力,因为基因表达的错误调节可能与许多疾病相关,包括癌症、神经退行性疾病和心肌病。例如,估计有超过660个人类基因因单倍体不足而导致疾病,其影响可以通过上调功能等位基因来纠正。相反,许多其他疾病是由基因在错误的组织中表达或通过获得功能性突变引起的。这些疾病可以通过以组织特异性方式下调这些基因来纠正。
转录因子(TF)是天然激活或阻遏靶标基因表达的内源蛋白质。这些因子通过首先利用DNA结合结构域(DBD)结合接近于靶标基因的DNA序列,然后通过二级蛋白质相互作用招募其他蛋白质来对基因表达进行修饰,这些其他蛋白质或者修饰组蛋白或者招募导致转录的中介体(mediator)和/或聚合酶组分。这些二级相互作用由亲本TF内的其他结构域决定,其可以是常见的结构域,例如抑制基因表达的KRAB结构域,或可以是TF进化出的不太常见的蛋白质序列。这些效应结构域通常称为激活结构域或阻遏结构域。通过这种方式,TF的DBD的DNA结合特异性决定了蛋白质将在基因组中结合的位置,从而决定效应结构域的二级相互作用将调节哪些基因。大多数后生动物(包括人类)中的TF所使用的最常见的DBD是Cys2His2锌指(ZF),其占人类TF的近50%。
近年来已经开发了基于CRISPR和TALE的特殊工具来调节基因表达以用于学术和治疗应用,但是一些固有特征会限制它们的治疗功效和它们模拟自然调节过程的能力。例如,这些蛋白质结构域的大小限制了需要AAV递送的应用。此外,在人类和灵长类动物模型中已经报道了对于spCas9的预先存在的免疫反应,而对原核TALE系统的免疫反应尚不清楚,但很可能存在。因此,免疫原性使得这些蛋白质在人体中的长期表达存在显著的治疗风险。此外,这些原核蛋白需要添加在人类中有功能的激活或阻遏结构域,以用于人类治疗目的。这种方法需要表达Cas9或TALE-效应结构域融合体,这将使结构域脱离其自然背景。在一些情况下,脱离其自然背景的效应结构域的表达可能对功效产生重大影响。在另一些情况下,所采用的结构域并非源自人类,从而导致潜在的免疫原性的第二个特征。最后,基于TALE的阻遏物筛选表明,基因组中的结合的位点对阻遏潜力具有相当大的影响,即使对该位点进行很少的碱基改变也会对功效产生很大影响。因此,需要单碱基分辨率的应用将受到Cas9的PAM要求的限制。因此,对用于精确靶向调节基因表达的DNA位置同时使用使免疫原性风险最小化的蛋白质的改进的组合物和方法存在持续且未满足的需求。本公开内容适合于这种需求。
附图说明
图1.关注于界面的ZF筛选的概览。(A)相邻ZF结构域的结构,显示它们非常接近。概述了结构域1的螺旋位置6和结构域2的位置-1。(B)相邻螺旋和DNA之间相互作用的卡通图。三个结构域的六个螺旋位置以圆圈示出,其中由箭头所指的位置-1、2、3和6形成公共接触。指出了重叠环境,其包括与文库相互作用相邻的碱基和用于明确指出该碱基的氨基酸。该环境对于每个文库是独特的。(C)B1H选择的卡通图。三指蛋白表达为与RNA聚合酶的ω亚基的C末端融合。对于每个文库,ZF结构域2在六个螺旋位置上是随机化的,并筛选能够明确指出64个可能的“NNN”靶标中每一个靶标的氨基酸组合。这是在64个独立筛选中完成的。结构域0和1与其已知的优选靶标结合,从而呈现对于该文库来说独特的重叠环境。只有能够在独特的文库重叠环境中结合靶标的螺旋才会招募聚合酶、激活报告子并在选择性培养基上存活。(D)(左)示出了每个筛选文库的结构域0、1和2的螺旋残基。结构域2包含六个螺旋残基的所有可能组合。结构域1在选择中是固定的,但因文库而异。结构域1的第6个残基是将在结构域1和2之间的界面处暴露的侧链。结构域0在除文库1之外的所有文库中都是相同的。(右)结构域2的64个DNA靶标将在64个独立选择中进行筛选。显示了每个文库的结构域1的固定靶标,重叠碱基以粗体显示。(E)(左)为了分析每次选择的成功性,我们从数据中确定聚类,并使用聚类的一个位置处的最大信息内容来提供所有选择之间富集的相对度量。(右)在其先前表征的背景下对所有结构域1螺旋进行分子动力学模拟。示出了每个文库的结构域1和DNA之间建议的接触数量。图1中所示的序列为NSTALQARNDSR(SEQ ID NO:1)F1b-domain10-target、NNNACAAAG(SEQ ID NO:2)、F1c-zfdomain210 NNNACAAAG(SEQ ID NO:3)、F1d-lib1-helix RSDNRA(SEQ ID NO:4)、F1d-lib2-helix,QLATSN(SEQ ID NO:5)、F1d-lib3-helix,DQSNTR(SEQ ID NO:6)、F1d-lib4-helix,FQSGIQ(SEQ ID NO:7)、F1d-lib5-helix,HKRNTD(SEQ ID NO:8)、F1d-lib6-helix,DQSALG(SEQ ID NO:9)、F1d-lib7-helix,TKQNTH(SEQ ID NO:10)、F1d-lib8-helix,QLATSY(SEQ ID NO:11)、F1d-lib9-helix,RNGNTR(SEQ ID NO:12)和F1d-lib10-helix,YQPNIN(SEQ ID NO:13)。
图2.特异性分辨率是文库特异性的。(A)(顶部)提供了1-汉明距离的点图比较,比较了对于三个富含G的靶标(右)和三个缺乏G的靶标(左)在文库1至9中富集的螺旋策略的相似性。点的暗度表示富集群体的相似性,其中深色点表示更相似。空点表示所比较的一个或两个文库的靶标选择失败。(底部)从(左)到(右)列出了从最不相似(左)到最相似(右)的所有文库对于所有靶标的归一化汉明距离。上面比较的靶标用黄色下划线表示缺乏G的靶标,用蓝色下划线表示富含G的靶标。(B)通过MUSI从每个文库选择中富集的螺旋中确定聚类。示出了4个不同结合位点(CCA、TTT、CCG和GAG)的三个聚类。如果在文库选择中富集了聚类,则表中相应的框将被填充为黑色。(C)当天冬酰胺位于相邻指的位置6(文库2环境)或当精氨酸位于相邻指的位置6(文库3背景)时,后跟Ytt的结构域2螺旋QsR位置2处的精氨酸与CCG*靶标的G*之间的氢键示意图(顶部)和分子动力学快照(底部)。(D)(顶部)B1H2指选择的卡通图。(底部)示出了在2指选择中富集的螺旋数量作为它们起源于的单指文库数量的系数。(E)在2指选择中富集的螺旋的比较显示了通过结合位点产生螺旋的单指文库的平均数量。
图3.关注于界面的锌指设计模型。(A)该模型由两个模块组成,这两个模块在单螺旋B1H选择上训练,以预测结合4聚体核苷酸序列的部分掩蔽螺旋中的残基。(B)由这些模块生成的残基嵌入被输入到学习螺旋间兼容性的第三个模块中。在双螺旋B1H选择数据上进行完整模型的训练,以预测结合7聚体核苷酸序列的部分掩蔽的螺旋对中的残基。
图4.双螺旋设计模型的性能。(A)预训练步骤中的训练和验证准确性。(B)微调步骤中的训练和验证准确性。(C)具有不同数量的掩蔽残基的螺旋序列重建精度(reconstruction accuracy)。每组中的条形从左到右分别是6、8、10和12个掩蔽残基。(D)使用开发的模型和ZFPred的预测和实际选择标志(logo)之间的差异的比较。(E)使用双螺旋模型和来自单螺旋设计模型的连结(concatenate)标志的预测和实际选择标志之间的差异的比较。(F)使用双螺旋模型和来自单螺旋B1H选择的连结标志的预测和实际选择标志之间的差异的比较。(G)测试集序列的预测标志、实际B1H标志和连结的单螺旋B1H标志。
图5.锌指设计的核酸酶(A)ZFN间隔5或6bp以尾对尾方向的二聚体形式结合DNA。该卡通图显示了每个单体具有两对ZF,其被碱基跳跃接头分开,总共8指。(B)被选择(每对的左侧条)或设计(每对的右侧条)来切割相同靶标的8指ZFN在GFP破坏(disruption)测定中荧光损失的比较。(C)用选定的指替换设计阵列中的8个指中的2个提高了活性。(D)测试16个12指ZFN(每个单体6个)的荧光损失。(E)六指阵列被设计用于结合14号染色体上的重复序列,表达为GFP融合体,并通过活细胞成像进行可视化。图(E)中显示的序列是AGTCGCCCAGCTGGGGGCGGG(SEQ ID NO:14)。
图6.重编程的转录因子。(A)KLF6的ZF被无缝替换为设计的ZF。(B)GFP报告基因被4ZF设计激活以结合TetO序列。(C)RTF与使用Tet3 ZF阵列的rTetR-VP64激活子的比较。(D)4个KRAB TF的ZF被替换为Tet3 ZF阵列,并挑战阻遏组成型GFP报告基因。(E)通过RT-qPCR测量的Zim3 RTF对内源靶标的阻遏。(F)左,具有被设计用于结合TSS上游序列的7ZF阵列的KLF6 RTF的CDKN1C相对表达。右,在CDKN1C处进行磷酸盐(phosphate)修饰的CDK#200阵列和两个脱靶序列的比较。(G)结构,磷酸盐接触残基(框)的替换可以降低非特异性亲和力。右,通过磷酸盐修饰而失调的基因的表。下,0和8个磷酸盐接触修饰的RNA-seq数据的比较。
图7.DNA结合结构域大小的比较和与DNA的关系。左,与DNA结合的spCas9的X射线晶体结构(10)。右,与DNA结合的锌指的结构(11)。箭头表示结构域的C末端与结合的DNA之间的大致距离。
图8.锌指界面和常见选择策略。A.与DNA相互作用的两个相邻指的卡通图。显示了螺旋的具有碱基指定潜力的六个位置。位置4未显示,因为它通常是堆积在结构域核心中的疏水残基。在任何选择方案中它都不是随机的。界面和重叠接触用椭圆形表示。B.单指选择方法的卡通图,其中所有随机化都在两个指之一上(12-19)。这些大多是通过与选定的指相邻的精氨酸-鸟嘌呤接触(突出显示)完成的(12-15、17-19),或者在一种情况下,文库是N末端指(14)。在随机螺旋上,粗体字母(CFWY)未在OPEN和其他锌指文库中编码(14、15、18、19)。C.显示了选择界面相互作用的文库的两个版本。顶部。许多接触通过5个不完全随机的位置固定。粗体氨基酸这些文库中不可用(20,21)。底部,另一种方法随机化了更多位置,但使用了较小的氨基酸子集。仅列出了可用的氨基酸(22-24)。B中所示的序列是:ACDEFGHIKLMNPQRSTVWYACDEFGHIKLMNPQRSTVWY(SEQ ID NO:15)。相同的序列显示在图8C的顶部图中。图8C底部图的另外的序列是AEKNQRTV(SEQ ID NO:16)、ADHNSTV(SEQ ID NO:17)、ADHKNQRS(SEQ ID NO:18)、NKRS(SEQ ID NO:19)、ADHNQRT(SEQ ID NO:20)、AEKNQRTV(SEQ ID NO:21)、和DHNSTV(SEQ ID NO:22)。
图9.测试的文库和界面的列表。列出了所有如本公开内容中所描述的筛选的文库。显示了每个文库的与文库相邻的锌指的螺旋残基(如图1所示的结构域1)。记录了界面处的残基(下划线)、重叠碱基以及该侧链的生物物理类别。还列出了螺旋富集数和选择成功率。文库1a和1b是相同的文库,但在重叠位置使用不同的碱基。文库3a和3b也是如此。在本公开内容中,这些被称为文库1(A)、1(C)、3(A)和3(G)以指示在选择中使用什么重叠碱基。这就是为什么有10个文库和12次筛选。显示了卡通图以描绘每个文库中选定的锌指所呈现的环境,其中A重叠在左侧,C重叠在右侧,G重叠在底部。图9顶部的表中所示的序列是:S3t-library1a,RSDNLRA(SEQ ID NO:23)、S3t-library1b,RSDNLRA(SEQ ID NO:24)、S3t-library2,QLATLSN(SEQ ID NO:25)、S3t-library3a,DQSNLTR(SEQ ID NO:26)、S3t-library3b,DQSNLTR(SEQ ID NO:27)、S3t-library4,FQSGLIQ(SEQ ID NO:28)、S3t-library5,HKRNLTD(SEQ ID NO:29)、S3t-library6,DQSALLG(SEQ ID NO:30)、S3t-library7,TKQNLTH(SEQ ID NO:31)、S3t-library8,QLATLSY(SEQ ID NO:32)、S3t-library9,RNGNLTR(SEQ ID NO:95)、和S3t-library10,YQPNLIN(SEQ ID NO:33)。所示的序列是S3a-library1a,ARNDSR(SEQ ID NO:34)、S3a-library1b,ARNDSR(SEQ ID NO:35)、S3a-library2,NSTALQ(SEQ ID NO:36)、S3a-library3a,RTNSQD(SEQ ID NO:37)、S3a-library3b,RNTNSQD(SEQ ID NO:38)、S3a-library4,QIGSQF(SEQ ID NO:39)、S3a-library5,DTNRKH(SEQ ID NO:40)、S3a-library6,GLASQD(SEQ ID NO:41)、S3a-library7,HTNQKT(SEQ ID NO:42)、S3a-library8,YSTALQ(SEQ ID NO:43)、S3a-library9,RTNGNR(SEQ ID NO:44)、和S3a-library10,NINPQY(SEQ ID NO:45)。
图10.按靶序列的文库的1-汉明距离点图比较。用于所有64个三联体的初级文库1至9筛选的所有成功选择的相似性的比较。由于图为1-汉明距离,点越暗,选择就越相似。空白空间表示对一个或两个库的选择失败,因此无法进行比较。所有图的刻度均为0.4至1,以便可以在图之间进行比较。GNN(竖直)和NNG(水平)靶标被加框以突出显示这些选择的相似程度。
图11.在界面处呈现不同重叠碱基的文库的全局汉明距离比较。a.文库1(A)-顶部、2-中间和4-底部的所有成功选择与在大多数靶标选择中成功的其余文库之间的汉明距离比较(双侧Wilcoxon秩和检验)。文库6和10由于性能较差而被省略。A重叠文库位于左侧,C重叠文库位于右侧。文库1(A)、2和4均在重叠处结合腺嘌呤,并且在大多数情况下,相对于它们与C重叠文库,它们与其他A重叠文库更相似。b.文库1和3分别能够在重叠处结合A或C以及A或G。在重叠处使用A的这些文库的比较表明,在重叠处具有不同碱基的相同文库与与其他A重叠选择的比较大致相似(双侧Wilcoxon秩和检验)。c.与筛选的任何其他文库相比,在界面处使用精氨酸-鸟嘌呤接触的文库9与在重叠处也放置精氨酸-鸟嘌呤接触的筛选的唯一其他文库文库3(G)明显更相似(双侧Wilcoxon秩和检验)。
图12.富含G的结合的混杂性。对于显示的靶标选择中富集的螺旋,我们计算了这些螺旋也在其中恢复的替代结合位点的数量。因此,靶标熵提供了在这些选择中恢复的螺旋的一般特异性或混杂性的度量。前15个结合位点产生具有最大靶标熵的螺旋,并且这些仅由GNN和NNG靶标构成。相反,具有最低靶标熵的13个选择中没有GNN或NNG靶标,倒数24个中只有2个。
图13.单螺旋设计模块的性能。a)预训练步骤中的训练和验证准确性。b)具有不同数量的掩蔽残基的螺旋序列重建精度。每组中的条从左到右分别是3、4、5和6个掩蔽残基。c)使用开发的模型和ZFPred的预测和实际选择标志之间的差异的比较。d)测试集序列的预测标志和实际B1H标志。
图14.模块一和二的层一和头部四中的注意(attention)值,与Zif268中核苷酸和残基之间的距离的比较。Zif268中第一个a)和第二个b)螺旋对的注意值和距离。注意值由结构图中青色圆柱体的宽度表示,显示注意值>=0.2。
图15.所有测试集序列的预测标志、实际B1H标志和连结单螺旋B1H标志。
图16.靶向TetO序列以进行激活(KLF6)或阻遏(Zim3)的锌指阵列。顶部框,TetO序列以正向(for)和反向(rev)方向列出。这些序列的两个寄存器(register)用作如下所示的锌指阵列的靶标,编号为Tet1–Tet4。小写字母表示2指模块之间跳跃的碱基。底部框,列出了用于指定每个Tet靶序列的螺旋,因为它们在蛋白质中从N末端到C末端表达。下面,显示了这些螺旋在RTF KLF6和Zim3中表达的模板序列。图16中所示的序列是:S10-target-1xtetofor,GTCTCTATCACTGATAGGGAGA(SEQ ID NO:46)、S10-target-tet1for,GTCTCTATCACTGATAGGGAG(SEQ ID NO:47)、S10-target-tet2for,TCTCTATCACTGATAGGGAGA(SEQ ID NO:48)、S10-target-1xtetorev,TCTCCCTATCAGTGATAGAGAC(SEQ ID NO:49)、S10-target-tet3rev,TCTCCCTATCAGTGATAGAGA(SEQ ID NO:50)、S10-target-tet4rev,CTCCCTATCAGTGATAGAGAC(SEQ ID NO:51)、S10-protein-tet1for,QKVHLQSRKWTLSVRKGTLQDQYSSLYKRKGDLNKDPSSLRR(SEQ ID NO:52)、S10-protein-tet2for,RKYNLLRRRYSLSAQKAHLLSDPSNLRRQKRLLQNWKVDLRK(SEQ ID NO:53)、S10-protein-tet3rev,RKFNLLRQSNTLRTLKHHLLNTSSGLCHEKRTLLNWKVDLRK(SEQ ID NO:54)、S10-protein-tet4rev,QKTHLLTRRDYLTKRKFTLLRQSNDLRKLKQTLQDRRDRLRR(SEQ ID NO:55)、S10-zim3scaffoldtet3rev,MNNSQGRVTFEDVTVNFTQGEWQRLNPEQRNLYRDVMLENYSNLVSVGQGETTKPDVILRLEQGKEPWLEEEEVLGSGRAEKNGDIGGQIWKPKDVKESLAREVPSINKETLTTQKGVECDGSKKILPLGIDDVSSLQHYVQNNSHDDNGYRKLVGNNPSKFVGQQFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHSR(SEQ ID NO:56)、和S10-klf6scaffoldtet3rev,
MDVLPMCSIFQELQIVHETGYFSALPSLEEYWQQTCLELERYLQSEPCYVSASEIKFDSQE
DLWTKIILAREKKEESELKISSSPPEDTLISPSFCYNLETNSLNSDVSSESSDSSEELSPTAKFT
SDPIGEVLVSSGKLSSSVTSTPPSSPELSREPSQLWGCVPGELPSPGKVRSGTSGKPGDKGN
GDASPDGRRRVFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIH
TQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQ
RPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHL(SEQ IDNO:57)。
图17.具有Tet3锌指的重编程转录因子序列。a)包含用于阻遏的RTF的KRAB序列,用亲本蛋白、锌指阵列、螺旋和跳碱基接头编码,如图所示。b)用于激活RTF的序列,用亲本蛋白、锌指阵列、螺旋和跳碱基接头编码,如图所示。a)和b)中所示的序列是:
S11a-znf10scaffoldtet3rev
MDAKSLTAWSRTLVTFKDVFVDFTREEWKLLDTAQQIVYRNVMLENYKNLVSLGYQLTKPDVILRLEKGEEPWLVEREIHQETHPDSETAFEIKSSVSSRSIFKDKQSCDIKMEGMARNDLWYLSLEEVWKCRDQLDKYQENPERHLRQVAFTQKKVLTQERVSESGKYGGNCLLPAQLVLREYFHKRDSHTKSLKHDLVLNGHQDSCASNSNECGQTFCQNIHLIQFARTHTGDKSYKCPDNDNSLTHGSSLGISKGIHREKPFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHTGEQFLTCNQCGTALVNTSNLIGYQTNHIRENAY(SEQ ID NO:58);
S11a-znf264scaffoldtet3rev,
MAAAVLTDRAQVSVTFDDVAVTFTKEEWGQLDLAQRTLYQEVMLENCGLLVSLGCPVPKAELICHLEHGQEPWTRKEDLSQDTCPGDKGKPKTTEPTTCEPALSEGISLQGQVTQGNSVDSQLGQAEDQDGLSEMQEGHFRPGIDPQEKSPGKMSPECDGLGTADGVCSRIGQEQVSPGDRVRSHNSCESGKDPMIQEEENNFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHTGKNPISVTDVGRPFTSGQTSVTLRELLLGKDFLNVTTEANILPEETSSSASDQPYQRETPQVSSL(SEQ IDNO:59)
S11a-znf324scaffoldtet3rev
MAFEDVAVYFSQEEWGLLDTAQRALYRRVMLDNFALVASLGLSTSRPRVVIQLERGEEPWVPSGTDTTLSRTTYRRRNPGSWSLTEDRDVSGEWPRAFPDTPPGMTTSVFPVAGACHSVKSLQRQRGASPSRERKPTGVSVIYWERLLLGSGSGQASVSLRLTSPLRPPEGVRLREKTLTEHALLGRQPRTPERQKPCAQEVPGRTFGSAQDLEAAGGRGHHRMGAVWQEPHRLLGGQEPSTWDELGEALHAGEKSFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHTGEKTVRRSRASLHPQARSVAGASSEGAPAKETEPTPASGPAAVSQPAEV(SEQ ID NO:60)
S11b-klf7scaffoldtet3rev
MDVLASYSIFQELQLVHDTGYFSALPSLEETWQQTCLELERYLQTEPRRISETFGEDLDCFLHASPPPCIEESFRRLDPLLLPVEAAICEKSSAVDILLSRDKLLSETCLSLQPASSSLDSYTAVNQAQLNAVTSLTPPSSPELSRHLVKTSQTLSAVDGTVTLKLVAKKAALSSVKVGGVATAAAAVTAAGAVKSGQSDSDQGGLGAEACPENKKRVFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHI(SEQ ID NO:61)
S11b-foxr2scaffoldtet3rev
MDLKLKDCEFWYSLHGQVPGLLDWDMRNELFLPCTTDQCSLAEQILAKYRVGVMKPPEMPQKRRPSPDGDGPPCEPNLWMWVDPNILCPLGSQEAPKPSGKEDLTNISPFPQPPQKDEGSNCSEDKVVESLPSSSSEQSPLQKQGIHSPSDFELTEEEAEEPDDNSLQSPEMKCYQSQKLWQINNQEKSFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHIQECMSQPELLTSLFDL(SEQ ID NO:62)
S11b-zxdcscaffoldtet3rev
MDLPALLPAPTARGGQHGGGPGPLRRAPAPLGASPARRRLLLVRGPEDGGPGARPGEASGPSPPPAEDDSDGDSFLVLLEVPHGGAAAEAAGSQEAEPGSRVNLASRPEQGPSGPAAPPGPGVAPAGAVTISSQDLLVRLDRGVLALSAPPGPATAGAAAPRRAPQASGPSTPGFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHSRRQDLLPQLEAPSSLTPSSELSSPGQSELTNMDLAALFSDTPANASGSAGGSDEALNSGILTIDVTSVSSSLGGNLPANNSSLGPMEPLVLVAHSDIPPSLDSPLVLGTAATVLQQGSFSVDDVQTVSAGALGCLVALPMKNLSDDPLALTSNSNLAAHITTPTSSSTPRENASVPELLAPIKVEPDSPSRPGAVGQQEGSHGLPQSTLPSPAEQHGAQDTELSAGTGNFYLESGGSARTDYRAIQLAKEKKQRGAGSNAGASQSTQRKIKEGKMSPPHFHASQNSWLCGSLVVPSGGRPGPAPAAGVQCGAQGVQVQLVQDDPSGEGVLPSARGPATFLPFLTVDLPVYVLQEVLPSSGGPAGPEATQFPGSTINLQDLQ(SEQ ID NO:63)
图18.ZIM3 RTF的EGFP阻遏。ZIM3的锌指被图11和实施例中描述的TetO结合锌指阵列替换。这些在HEK293T细胞系中表达,EGFP表达由组成型启动子驱动。显示了相对于对照的EGFP荧光。
图19.用ZIM3 RTF阻遏内源基因。a)设计四个锌指阵列以结合DPH1、RAB1a和UBE4A的TSS附近的序列,如图所示。还显示了spCas9使用的gRNA的位置以供比较。b)显示了每个RTF的通过RT-qPCR测量的表达水平。c)为了参考和清晰起见,显示了DPH1T2F8 RTF的卡通图和序列。在所有RTF中,ZIM3和ZF支架相同,仅具有螺旋残基变化。图19中所示的序列是:
S13c-dph1t2f8zfhelices
RKWNLLMRSTNLRDYPYLLRNERSKLRRRVDTLLDHLSNLRKDPSALIRRLDVLRA(SEQ ID NO:64),
S13c-dph1t2f8
MNNSQGRVTFEDVTVNFTQGEWQRLNPEQRNLYRDVMLENYSNLVSVGQGETTKPDVILRLEQGKEPWLEEEEVLGSGRAEKNGDIGGQIWKPKDVKESLAREVPSINKETLTTQKGVECDGSKKILPLGIDDVSSLQHYVQNNSHDDNGYRKLVGNNPSKFVGQQFACDICGRKFARKWNLLMHTRIHTGEKPFACDICGRKFARSTNLRDHTKIHTQRPQIPPKPFACDICGRKFAYPYLLRNHTRIHTGEKPFACDICGRKFAERSKLRRHTKIHTQRPQIPPKPFACDICGRKFARVDTLLDHTRIHTGEKPFACDICGRKFAHLSNLRKHTKIHTQRPQIPPKPFACDICGRKFADPSALIRHTRIHTGEKPFACDICGRKFARLDVLRAHTKIHSR(SEQ ID NO:65),以及
S13c-dph1t2f8dnatarget
CTGGTCGTATCCGGGGCAGCGGAGCAGG(SEQ ID NO:66)。
图20.由靶向CDKN1C的锌指阵列作为RTF和当表达为与截短的激活结构域的融合体时诱导的全局调节的比较。a)对于CDK125、150、172和200锌指阵列,我们将它们表达为KLF6 RTF(FL)以及与截短的KLF6反式激活结构域(TAD)或VP64的融合体。显示了RNA-seq结果。b)RNA-seq结果的PCA表明,受调节的基因主要通过所使用的锌指阵列而不是激活模式聚集。c)常见调节基因的比较再次表明,大多数采用锌指的脱靶调节聚类。
图21.靶标G含量和非特异性亲和力的影响。a)显示了设计用于激活CDKN1C的4个最佳阵列的DNA靶标,CDK200表现出最低的G含量。b)显示了最混杂的CDK125所使用的螺旋,其中位置-1和6为精氨酸。这些被设计来结合鸟嘌呤并且可能更倾向鸟嘌呤。然而,这些螺旋位置上的精氨酸也能够结合其靶标位置上的任何碱基,这可能有助于设计用于结合这些富含G的靶标的阵列的高度脱靶调节。c)没有磷酸盐修饰的CDK125的RNA-seq结果。d)具有8个磷酸盐修饰接触的CDK125的RNA-seq结果。e)失调基因表明,尽管CDK125的靶标富含G,但近一半的失调基因因非特异性亲和力的降低而丢失。图21所示的序列是:
S15a-target125,GCCAATGGGCGGTGCGCGGGGGCCGGGC(SEQ ID NO:67)、S15a-target150,GGCCGCGGCGGGGCGGGGCAGCGGGGCG(SEQ ID NO:68)、S15a-target172,GGGGCGGCCGCCAATCGCCGTGGTGTTG(SEQ ID NO:69)、S15a-target200,TTGAAACTGAAAATACTACATTATGCTA(SEQ ID NO:70)、和S15b-zfa125,KYHLSRDRSTLRRRKDHLRNFPYLLRRLKHHLLRERSKLRRLKQTLQVDRSTLRR(SEQ ID NO:71)。
图22.训练和验证数据集中靶标序列的分布。a)训练和验证数据集中七聚体序列的图形表示。节点表示七聚体,并且连接节点的边表示序列间彼此在两个替换内。橙色节点是验证集序列;蓝色节点是训练集序列。b)验证集序列与训练集序列的距离。c)测试集序列与训练集序列的距离。d)所有七聚体序列与训练集序列的距离。e)所有七聚体序列与进行选择的所有序列的距离。
图23.预训练对模型性能的影响的量化。a)模型在单螺旋选择上进行预训练和重新训练、使用冻结的单螺旋模块参数进行重新训练以及不进行预训练时的重建精度比较。b)模型在单螺旋选择上进行预训练和重新训练、使用冻结的单螺旋模块参数进行重新训练以及不进行预训练时的困惑度比较。
图24.生成的样品的数量对使用A*或温度相关采样的最大似然设计的影响。误差线显示标准偏差(n=18)。
图25.显示KLF6-锌指转录因子的序列和注释。MDVLPMCSIFQELQIVHETGYFSALPSLEEYWQQTCLELERYLQSEPCYVSASEIKFDSQEDLWTKIILAREKKEESELKISSSPPEDTLISPSFCYNLETNSLNSDVSSESSDSSEELSPTAKFTSDPIGEVLVSSGKLSSSVTSTPPSSPELSREPSQLWGCVPGELPSPGKVRSGTSGKPGDKGNGDASPDGRRRVHRCHFNGCRKVYTKSSHLKAHQRTHTGEKPYRCSWEGCEWRFARSDELTRHFRKHTGAKPFKCSHCDRCFSRSDHLALHMKRHL(SEQ ID NO:72)、HRCHFNGCRKVYTKSSHLKAHQRTH(SEQ ID NO:73)、FKCSHCDRCFSRSDHLALHMKRH(SEQ ID NO:74)、FQCRICMRNFSXXXXLXXHIRTH(SEQ ID NO:75)、FACDICGRKFAXXXXLXXHTKIH(SEQ ID NO:76)、ZXCXXCXXZXXXXXZXXHXXXH(SEQ ID NO:77)、ZXCXXCXXZXXXXXZXXHXXXH(SEQ ID NO:78)、和MDVLPMCSIFQELQIVHETGYFSALPSLEEYWQQTCLELERYLQSEPCYVSASEIKFDSQEDLWTKIILAREKKEESELKISSSPPEDTLISPSFCYNLETNSLNSDVSSESSDSSEELSPTAKFTSDPIGEVLVSSGKLSSSVTSTPPSSPELSREPSQLWGCVPGELPSPGKVRSGTSGKPGDKGNGDASPDGRRRVFACDICGRKFARKFNLLRHTRIHTGEKPFACDICGRKFAQSNTLRTHTKIHTQRPQIPPKPFACDICGRKFALKHHLLNHTRIHTGEKPFACDICGRKFATSSGLCHHTKIHTQRPQIPPKPFACDICGRKFAEKRTLLNHTRIHTGEKPFACDICGRKFAWKVDLRKHTKIHL(SEQ ID NO:79)。
图26.显示Zim3-含KRAB的锌指转录因子的序列和注释。图26所示的序列为:MNNSQGRVTFEDVTVNFTQGEWQRLNPEQRNLYRDVMLENYSNLVSVGQGETTKPDVILRLEQGKEPWLEEEEVLGSGRAEKNGDIGGQIWKPKDVKESLAREVPSINKETLTTQKGVECDGSKKILPLGIDDVSSLQHYVQNNSHDDNGYRKLVGNNPSKFVGQQLKCNACRKLFSSKSRLQSHLRRHACQKPFECHSCGRAFGEKWKLDKHQKTHAEERPYKCENCGNAYKQKSNLFQHQKMHTKEKPYQCKTCGKAFSWKSSCINHEKIHNAKKSYQCNECEKSFRQNSTLIQHKKVHTGQKPFQCTDCGKAFIYKSDLVKHQRIHTGEKPYKCSICEKAFSQKSNVIDHEKIHTGKRAYECDLCGNTFIQKKNLIQHKKIHTGEKPYECNRCGKAFFQKSNLHSHQKTHSGERTYRCSECGKTFIRKLNLSLHKKTHTGQKPYGCSECGKAFADRSYLVRHQKRIHSR(SEQ ID NO:80)、LKCNACRKLFSSKSRLQSHLRRH(SEQ ID NO:81)、YGCSECGKAFADRSYLVRHQKRIH(SEQ ID NO:82)、FQCRICMRNFSXXXXLXXHIRTH(SEQ ID NO:83)、FACDICGRKFAXXXXLXXHTKIH(SEQ ID NO:84)、ZXCXXCXXZXXXXXZXXHXXXH(SEQ ID NO:85)、ZXCXXCXXZXXXXXZXXHXXXH(SEQ ID NO:86)、和MNNSQGRVTFEDVTVNFTQGEWQRLNPEQRNLYRDVMLENYSNLVSVGQGETTKPDVILRLEQGKEPWLEEEEVLGSGRAEKNGDIGGQIWKPKDVKESLAREVPSINKETLTTQKGVECDGSKKILPLGIDDVSSLQHYVQNNSHDDNGYRKLVGNNPSKFVGQQLKCNACRKLFSSKSRLQSHLRRHACQKPFECHSCGRAFGEKWKLDKHQKTHAEERPYKCENCGNAYKQKSNLFQHQKMHTKEKPYQCKTCGKAFSWKSSCINHEKIHNAKKSYQCNECEKSFRQNSTLIQHKKVHTGQKPFQCTDCGKAFIYKSDLVKHQRIHTGEKPYKCSICEKAFSQKSNVIDHEKIHTGKRAYECDLCGNTFIQKKNLIQHKKIHTGEKPYECNRCGKAFFQKSNLHSHQKTHSGERTYRCSECGKTFIRKLNLSLHKKTHTGQKPYGCSECGKAFADRSYLVRHQKRIHSR(SEQ IDNO:87)。
发明内容
本公开涉及激活和阻遏转录因子(TF)和/或来自这些蛋白质的激活或阻遏结构域(例如效应结构域)的用途,许多效应结构域使用锌指(ZF)来识别它们的DNA靶标。在其他方面中,本公开提供了激活子(activator)和阻遏子(repressor)的实例,以无缝支撑(seamless scaffold)所设计的ZF代替这些蛋白质中天然存在的ZF。
在各种实施方案中,本公开相应地提供了包含引入的ZF DNA结合结构域的经修饰的蛋白质。引入的ZF DNA结合结构域包含对DNA结合结构域的一个或多个改变,所述DNA结合结构域可以已经以未经修饰的形式存在于效应蛋白结构域的DNA结合结构域(或其他DBD)中,或者可以是全新的ZF DNA结合结构域。在某些实例中,引入的锌指结合结构域包含蛋白质的内源ZF结构域的替换体(substitution)。因此,相对于在其未经修饰形式中的转录激活子或阻遏子蛋白的结合位置,经修饰的蛋白质结合至不同的位置,例如不同的DNA序列。
经修饰的蛋白质结合的DNA结合结构域可以是被引入的ZF DNA结合结构域特异性识别的任意DNA结合位点。在非限制性实施方案中,DNA结合位置位于染色体、细胞器DNA或质粒上。在实施方案中,经修饰的蛋白质的结合促进与DNA结合结构域可操作地连接的基因的表达,从而促进该基因的表达。在一个替代的实施方案中,经修饰的蛋白质的结合阻遏或以其他方式抑制与DNA结合结构域可操作地连接的基因的表达,从而促进基因表达的抑制。
在一个代表性且非限制性的实施方案中,引入的ZF DNA结合结构域存在于包含激活结构域的蛋白质中,该激活结构域是Krueppel样因子6(KLF6)蛋白或其功能片段。
在另一个代表性且非限制性的实施方案中,引入的ZF DNA结合结构域存在于包含基因表达阻遏结构域(其为KRAB结构域)的蛋白质中。在一个非限制性实例中,KRAB结构域包含于Zim3蛋白或其功能片段中。
本公开包括通过引入多个ZF结构域来修饰所描述的蛋白质。在实施方案中,引入的ZF结构域特异性结合相同的DNA序列。在替代实施方案中,引入的ZF结构域结合不同的DNA序列。
本公开包括编码所描述的经修饰的蛋白质的表达载体,以及编码所描述的经修饰的蛋白质的cDNA和RNA(包括mRNA)。
本公开还包括药物组合物,所述药物组合物包含:所述经修饰的蛋白质中的一种或多种蛋白质;编码所述经修饰的蛋白质中的一种或多种蛋白质的一种或多种mRNA;和编码所述经修饰的蛋白质中的一种或多种蛋白质的一种或多种表达载体。本公开包括向有此需要的个体施用所描述的蛋白质、编码它们的表达载体和药物制剂。在实施方案中,经修饰的蛋白质促进治疗基因和/或对任何疾病、病症或障碍具有预防作用的基因的表达。在替代实施方案中,经修饰的蛋白质抑制基因的表达,其中该基因表达的抑制提供针对任何疾病、病症或障碍的治疗或预防效果。在实施方案中,向个体施用所描述的蛋白质不会激发针对经修饰的蛋白质的免疫反应,或不会激发有害的免疫反应。
本公开还包括通过重组表达蛋白质并任选地从表达系统分离经修饰的蛋白质来制备任何所描述的经修饰的蛋白质的方法。因此,本公开还包括被编程为表达所描述的经修饰的蛋白质中的任何一种或其组合的细胞。
具体实施方式
除非本文另外定义,本文使用的所有技术和科学术语具有与本公开内容所属领域的普通技术人员通常理解相同的含义。
除非有相反的说明,否则整个本说明书中给出的每个最大数值限制旨在包括每个较小数值限制,就好像这些较小的数值限制在本文中明确记载的一样。整个本说明书中给出的每个最小数值限制将包括每个更大的数值限制,就好像这些更大的数值限制在本文中明确记载的一样。整个本说明书给出的每个数值范围将包括落在这种更宽数值范围内的每个更窄数值范围,就好像这些更窄数值范围在本文中明确记载的一样。
本文中的所有蛋白质包括在其整个长度上与这样的蛋白质具有80.0-99.9%同一性的蛋白质。根据情况可以将与本公开的每个GenBank登录号相关的氨基酸或多核苷酸序列通过引用并入本文,如在本申请或专利的有效申请日的数据库中呈现的。特定蛋白质、特定蛋白质的所有组合以及蛋白质的多种类型的所有组合均包括在本公开中。本文描述的任意蛋白质可以包含所描述的蛋白质或由所描述的蛋白质组成。在实施方案中,所描述的蛋白质可以连接至另一蛋白质或者可以是另一蛋白质的组分,其非限制性实例包括核酸酶活性,所述核酸酶包括CRISPR核酸酶、重组酶、任何切口酶和转座酶。
本公开涉及有效激活和阻遏TF以及来自这些蛋白质(包括人蛋白质)的激活或阻遏结构域的用途,这些蛋白质中的许多蛋白质使用ZF来识别它们的DNA靶标。在其他方面中,本公开提供了激活子和阻遏子的实例,以无缝支撑所设计的ZF代替这些蛋白质中天然存在的ZF。通过这样做,本公开提供了将经修饰的蛋白质引导至基因组中任何期望的DNA序列以修饰邻近基因表达。通过这种方式,TF的DNA结合特异性被有效地重新编程,以结合基因组中的替代序列,而不改变亲本蛋白的其他功能或组成。本公开的非限制性实施方案包括用于包含KRAB的Zim3蛋白(阻遏子)和活化KLF6蛋白的无缝支撑,并且下文描述了另外的实例。这些结果证明了无缝重编程的方法和功效,其可应用于任何天然ZF或其他表达DBD的TF蛋白。在一个实施方案中,本公开用锌指结构域代替不是锌指的DBD。图6c提供了一个代表性示例,该示例说明了FoxR2的无缝重编程,FoxR2通常使用称为带翼螺旋的DBD。因此,通过使用将所设计的ZF无缝支撑到天然表达ZF或其他DBD的蛋白质中,本公开包括提高这些蛋白质的天然阻遏和激活潜力,因为它们所具有的效应结构域将在其自然环境中精确表达。此外,在某些实施方案中,通过全部使用人类成分,本公开提供了降低这些设计蛋白的免疫原性潜力。通过将例如所设计的EGR1锌指无缝支撑到人蛋白质例如Zim3(阻遏子)和KLF6(激活子)中所产生的蛋白质用于调整疾病相关靶标的基因表达。本公开包括但不限于相关神经退行性疾病例如α-突触核蛋白和帕金森氏病的阻遏。对于激活,本公开包括但不限于SCN5A,它是一种钠通道,其中增加的表达将克服与心肌病相关的多种疾病。然而,本公开包括使用该方法通过同时靶向多个基因的激活子和/或阻遏子来纠正任意基因的疾病相关的失调或纠正通路功能。在实施方案中,所描述的蛋白质抑制或促进基因的表达,其中表达或表达的抑制提供对于任何类型的癌症的预防或治疗益处。
在实施方案中,本公开包括以下实施方案,包括所有单独的实施方案及其所有组合。
在一个实施方案中,本公开提供了包含引入的ZF DBD的经修饰的蛋白质,相对于其未经修饰形式的蛋白质的DNA结合特异性,该经修饰的蛋白质具有改变了的DNA结合特异性。一般而言,除了引入的锌指DNA结合结构域之外,经修饰的蛋白质还包含基因表达激活结构域或基因表达阻遏结构域。“引入的”锌指结构域是指蛋白质的内源ZF结构域中的一个或多个氨基酸变化,其改变了蛋白质的DNA结合位置。因此,引入的ZF结构域包含在如本文所述的蛋白质的修饰之前不存在于蛋白质中的ZF结构域。引入的ZF结构域可以包括多于一个ZF结构域。一般而言,引入的ZF结构域不会改变亲本蛋白的天然功能,例如,如果转录激活子包含引入的ZF结构域,则会保留蛋白质的转录激活子功能,但可以促进不同基因的转录。同样的道理也适用于阻遏子。激活子和阻遏子可以结合至与任何基因可操作地连接的任何位置。“可操作地连接”是指蛋白质的结合与基因表达的变化相关,例如激活或阻遏。因此,蛋白质可以与靠近基因的元件(例如启动子)或远离基因的元件(例如增强子)结合。本公开内容包括与影响与结合位点可操作地连接的基因的表达的其他元件的结合。在实施方案中,激活子或阻遏子是转录因子。因此,在一个实施方案中,激活子促进mRNA的转录,mRNA进而被翻译成蛋白质。在一个实施方案中,阻遏子抑制mRNA的转录。本公开的经修饰的蛋白质可以与染色体、细胞器DNA或质粒上的改变的DNA结合位置结合。在一个实施方案中,DNA结合位置存在于DNA病毒的基因组中。
在实施方案中,引入本文描述的蛋白质中的任意ZF结构域可具有与ZNF324、ZNF264、ZNF10、FoxR2、KLF7或ZXDC中任一个相同的DBD序列。在实施方案中,ZF结构域是新序列。
在实施方案中,相对于未经修饰的效应蛋白的DNA结合位置,基因表达激活结构域促进可操作连接至改变的DNA结合位置的基因的表达,从而提供该基因的治疗性表达。在非限制性实施方案中,基因表达激活结构域包含Krueppel样因子6(KLF6)蛋白或其功能片段。“功能片段”是指足以促进其激活或阻遏的蛋白质片段。在一个实施方案中,基因表达阻遏结构域抑制可操作连接至改变的DNA结合位置的基因的表达,从而提供基因表达的治疗性抑制。在一个非限制性实施方案中,基因表达结构域包含KRAB结构域,其中KRAB结构域任选地包含于Zim3蛋白或其功能片段中。在一个非限制性实施方案中,本公开的经修饰的蛋白质包含蛋白质的内源锌指结构域的替换体。在实施方案中,引入的锌指结构域是被引入到经修饰的蛋白质中的多个锌指结构域之一,从而提供包含多个引入的锌指结构域的经修饰的蛋白质,并且其中多个引入的锌指结构域任选地包含相同的改变的DNA结合结构域。本公开还包括编码本文描述的任意经修饰的蛋白质的cDNA和mRNA。
在实施方案中,经修饰的蛋白质由表达载体编码,例如用于制备经修饰的蛋白质的表达载体,和/或可用于将编码序列递送至细胞以便细胞表达经修饰的蛋白质的表达载体,其可用于治疗目的。在非限制性实施方案中,表达载体可包含合适的病毒载体,其非限制性实施方案包括来自腺病毒、疱疹病毒或逆转录病毒的经修饰的病毒多核苷酸,例如慢病毒载体。多核苷酸可以直接使用,或者可以使用多种多核苷酸插入试剂(例如转染剂)中的任一种将它们引入细胞中。在非限制性实施方案中,可以使用重组腺相关病毒(rAAV)载体。在某些实施方案中,表达载体是自互补的腺相关病毒(scAAV)。在实施方案中,本公开的组合物包含编码一种或多种所述经修饰的蛋白质的mRNA。
在实施方案中,将治疗有效量的所描述的蛋白质施用于有此需要的个体。蛋白质的施用包括通过编码蛋白质的多核苷酸的方式施用。本文使用的术语“治疗有效量”是指以单剂量或多剂量实现预期治疗目的的所描述的蛋白质的量。期望或需要的量将根据具体蛋白质、其施用模式、患者具体情况等而变化。适当的有效量可以由本领域普通技术人员使用常规实验来确定。
本公开还提供了药物组合物,其包含所描述的经修饰的蛋白质中的一种或多种、编码所述经修饰的蛋白质中的一种或多种的一种或多种mRNA、或编码所述经修饰的蛋白质中的一种或多种的一种或多种表达载体。药物组合物通常包含一种或多种药学上可接受的缓冲剂、赋形剂等。
本公开还提供向有此需要的个体施用一种或多种所描述的蛋白质。可以使用任何合适的递送方法将蛋白质或包含经修饰的蛋白质的药物蛋白质施用于个体。
在实施方案中,需要所描述的蛋白质的个体需要一种或多种基因的激活或阻遏。在实施方案中,该一种或多种基因归因于单倍体不足或与单倍体不足相关。
在实施方案中,所描述的经修饰的蛋白质不会在引入它们的个体中激发不利的免疫反应。不利的免疫反应包括但不限于先天免疫反应、体液免疫反应和细胞介导的免疫反应,其中所述免疫反应对个体有害。在一个实施方案中,相对于可以与所描述的蛋白质的效应结构域结合的预先存在的抗体,所描述的蛋白质不引起增加的抗体反应,所述抗体反应包括与所描述的蛋白质结合的抗体的增加。
虽然本公开部分地涉及人类的治疗方法,但是所描述的经修饰的蛋白质也可以用于兽医目的,例如用于非人类动物。此外,所描述的蛋白质可适用于其他真核生物体,例如植物和真菌。在实施方案中,所描述的蛋白质可用于原核目的。
本公开还提供了通过对蛋白质进行修饰以使其包含引入的锌指DNA结合结构域来制备所描述的经修饰的蛋白质的方法。在实施方案中,经修饰的蛋白质由包含编码经修饰的蛋白质的表达载体的细胞产生,经修饰的蛋白质从其中分离。
在实施方案中,本公开包括所描述的文库生成以及文库成员的DNA结合特性的分析。在实施方案中,本文所描述的的一种或多种方法可以由运行软件的数字处理器和/或计算机来执行以执行算法和/或解释信号。在实施方案中,处理器运行软件或实施算法来解释可检测信号,并且可以生成机器和/或用户可读输出。在实施方案中,数字处理器和/或计算机参与本公开的ZF设计方面(如下文所进一步描述的)。在实施方案中,由用于分析如本文所描述的蛋白质结合的装置或系统获得的信息可以由计算机和/或由人类操作员实时监测。在实施方案中,处理器运行软件或执行算法来解释光学可检测信号,例如来自可检测标记的蛋白质的信号。在某些实施方案中,本公开提供了用于执行算法以解释和/或记录信令事件的非暂时性计算机可读存储介质作为系统的实施方案或组件。在实施方案中,本文所描述的系统可以使用逻辑连接至一个或多个远程计算机在网络环境中操作。在实施方案中,使用本公开的装置/系统/方法获得的结果被固定在有形(tangible)的表达介质中。结果可被传达给例如生产和/或测试如本文所描述的经修饰的蛋白质的用户。
以下实施例旨在说明但不限制本公开内容。
实施例
选择锌指特异性和兼容性
两种通用方法已被用来设计具有新的特异性的ZF(图8)。第一种方法关注于通过从ZF文库中选择功能变体来一次设计一个指,其中螺旋的6个碱基指定位置已被随机化(图8B)。第二种方法关注于阵列的相邻ZF之间的界面(interface),因为自从解决了与DNA结合的ZF的第一个结构以来,相邻指对彼此的影响就已经很明显了(图8C);这种影响当然会导致组合上更大的复杂性,这是之前尝试构建代码的失败的原因。虽然第一种方法允许对ZFα螺旋的六个关键位置的所有氨基酸组合进行全面筛选(24、26、27、29-32),但它仅在单个相邻指背景中对这些组合进行采样。因此,只有由该初始单一选择环境启用的ZF策略才可用于后续轮次选择或作为ZF模型的基础。相比之下,第二种方法捕获了ZF之间界面处兼容性的复杂性(25,28,33)(图8C)。然而,由于组合爆发很快超过任何筛选平台的最大实际文库大小,因此需要不完全随机化方案和对有限数量的螺旋位置进行采样。本公开内容揭示了解决方案在于一种组合方法,其在一组综合界面环境中使用多个综合文库。因此,在实施方案中,每个文库在独特的界面环境中使单个ZF螺旋完全随机化。多个文库和多样化、综合性的界面环境将产生广泛的通用和特定于界面的ZF解决方案组合。因此,本公开利用这种源于界面的复杂性来提供生成能够结合广泛多种DNA靶标的兼容ZF的多样性需求,以及支持ZF阵列设计的模型所需的数据深度。
来自相邻ZF的多个侧链彼此非常接近地结合DNA;这在结合位点“重叠”处尤其如此,其中N末端螺旋的位置6可以在其C末端邻居(neighbor)的位置-1和2侧链的氢键距离内。在这个位置,相邻ZF的特异性重叠,并且通过这种方式,N末端螺旋向其C末端邻居呈现特定的界面环境,这基于所使用的侧链和指定的碱基(图1A和1B)。因此,我们使用细菌杂交测定筛选了10个ZF文库,每个文库都使C末端ZF螺旋的六个碱基指定位置完全随机化(图1C)。每个文库将随机C末端ZF螺旋置于由相邻ZF螺旋定义的不同环境中。我们在独立选择中对这些文库64个可能的3碱基对(bp)靶标中的每一个靶标进行了筛选,以恢复功能性ZF螺旋。由于重叠环境应该对筛选中选择的ZF策略具有最大的相邻指影响,因此每个文库在相邻指的位置6处的侧链与其在重叠处指定的碱基之间呈现独特的相互作用(图1D和图9)。我们将大多数文库设计为在重叠处接触腺嘌呤或胞嘧啶,以便与大多数先前ZF筛选中在重叠处呈现的精氨酸-鸟嘌呤接触形成对比。此外,其中两个库可以在重叠处指定两种不同的碱基(#1-A、C和#3-A、G)。因此,我们完成了这些文库的两次综合筛选,一次筛选在重叠处呈现每种碱基。总的来说,通过每个文库有12组64个选择,共768个独立选择,我们从10个文库中筛选了超过490亿个蛋白质-DNA相互作用。
从这些筛选中,我们发现了这些文库背景的全局和靶标特异性差异,指示每个背景对C末端ZF施加的约束的强度。每个筛选文库选择的螺旋总数为128,000个至超过100万个螺旋不等(图9)。我们使用MUSI(34)(一种旨在识别此类数据中的多个特异性的方法)来为每个文库选择定义ZF聚类,并识别由于富集失败而导致信息内容较低的选择。我们使用至少一个表现出低熵的聚类的存在作为我们对选择成功的定义(图9)。为了对所有选择进行定量比较,我们使用了任意恢复的聚类中单螺旋位置的最大信息内容,推断成功的选择应该产生至少一个位置已被强烈选择的聚类(图1E)。通过该分析,我们发现文库能够富集39%至100%的3bp靶标选择中的螺旋(图9)。ZF策略在9个文库筛选的超过85%的3bp靶标选择中得到富集。此外,对于64个3bp靶标中的每一个,ZF策略在至少8个不同的文库筛选中得到富集,证明了ZF能够在广泛的相邻指环境中结合任何靶标。至少有一个在重叠处结合A、C或G的文库在超过95%的选择中成功富集了螺旋(文库1-A重叠、7-C重叠和9-G重叠),表明ZF策略存在于各种独立的重叠碱基的环境中,进一步强调了ZF支架(scaffold)的灵活性。我们发现文库6(C重叠)和10(A重叠)是最不成功的文库(图9);分子动力学模拟表明,每个文库中使用的相邻指(图1D中的结构域1)与其指定的DNA之间的接触数量与全局文库的成功相关,这表明相邻指的更高亲和力可以实现更多的ZF策略(图1E)。因此,ZF功能受到相邻指相互作用的显著影响,而每个重叠碱基都存在可行的ZF结合策略。
富含G的结合模块化和混杂性
由于大多数先前的ZF选择是利用在重叠处呈现的精氨酸-鸟嘌呤接触进行的,因此本内容包括呈现腺嘌呤和胞嘧啶接触的文库以富集新螺旋策略。为了在全局范围内测量这些差异,我们首先计算了所有文库中被富集以结合每个靶标的螺旋之间的平均汉明距离(图10)。接下来,我们比较了所有靶标的归一化汉明距离,以比较文库差异。虽然一般趋势是采用相同重叠碱基的文库更加相似(图11),但是当将重叠处具有腺嘌呤和胞嘧啶的文库与在重叠处显示精氨酸-鸟嘌呤接触的两个文库进行比较时,发现了最显著的差异(图11C)。与筛选的任何其他文库相比,精氨酸-鸟嘌呤接触文库彼此更相似。对所有文库的靶标选择汉明距离的比较表明,富含G的结合受文库背景的影响较小。这表明富含G的结合更加模块化,因为这些螺旋似乎不太依赖于相邻指相互作用(图2A)。然而,这种结合中的独立性可能导致更加混杂。为了解决这种可能性,我们考虑了在每个3bp靶标选择中恢复的螺旋,并计算了这些螺旋在其他靶标选择中恢复的频率。具有最大靶标选择熵的15个靶标(即,在大多数其他选择中恢复的)都在GNN或NNG位置处具有G,其中精氨酸分别是在相应位置6和-1处富集的占优势的氨基酸(图12)。相反,具有最低靶标选择熵的13个靶标在这些位置上都没有G。这些结果表明,在结合位点的第一个或第三个位置结合G的螺旋更有可能是混杂的ZF。这可能有助于解释为什么先前的选择在很大程度上导致了已成功设计或组装为模块的ZF中富含G的偏差,这些模块也可能倾向于更多的脱靶结合。
通用和专用结合策略
通过靶标间选择的成功率以及平均汉明距离来分析文库环境之间的全局差异。为了研究更具体的差异,例如一种文库环境相对于另一种文库环境启用的结合策略的类型,我们比较了通过MUSI针对每个靶标位点选择生成的聚类。对于大多数靶标,我们找到了数个成功的文库选择所共有的通用策略。我们还发现了在少量选择中恢复并且在某些情况下仅在单文库环境中恢复的专用策略(图2B)。一个文库相对于另一个文库中螺旋策略的恢复已被证明预测了仅在恢复环境中的活性,从而证实这些差异不是由于采样影响造成的(35)。此外,由于这些差异表明重叠处存在结构影响,我们考虑了是否不同文库环境中聚类的存在可能表明物理影响。有趣的是,在大多数NCG选择中,我们发现了“QxRYxx”螺旋的聚类(参见图2B中的CCG)。然而,在重叠处呈现来自相邻指的精氨酸的文库中未恢复该聚类。分子动力学模拟表明,这是由于相邻指的位置6处的精氨酸和所选指的位置2处的精氨酸之间存在潜在竞争(图2C)。
本公开中呈现的数据证明了受相邻指环境影响的ZF功能的全局性和特异性差异。虽然据信该数据代表了迄今为止ZF功能的最大筛选,但它仍然是潜在重叠影响中相对较小的一部分。为了测试界面处更大的变异性如何影响兼容性,我们通过组装选择与6bp靶标的每个3bp半位点相结合的螺旋池,产生了200个双指文库。我们从这些文库中选择了兼容的ZF对,并分析了从多少个起始文库环境中富集了螺旋。在这些兼容性测定中富集的大多数螺旋仅在少数文库环境中恢复(图2D)。这表明,尽管所有这些螺旋都被预先选择来结合每个半位点,但只有一小部分在这些新环境中富集。当我们通过靶标选择对兼容螺旋作图并测定它们在其中恢复的初级文库的数量时,我们再次发现在2指选择中恢复的G结合ZF源自大量初级文库,而恢复的与缺乏G的靶标相结合的兼容ZF则源于少量选择(图2E)。总之,这些结果表明,即使对于一组更综合的呈现环境,界面对ZF功能也有很大影响,并且富含G的结合螺旋往往更加模块化和混杂。来自这些双指文库选择的数据为独特(individual)功能化ZF的成对兼容性提供了新的见解。
基于分层注意的神经网络整合了源于界面的选择数据
尽管付出了相当大的努力,但认为生成通用ZF设计代码(code)的所有先前尝试都失败了。鉴于所描述的筛选数据的前所未有的深度,本公开包括明确解决这些邻居影响的新颖且独特的模型。特别是,我们分别利用单指文库选择(其综合描述各种邻居指环境中的单指特异性)以及配对选择(其显示哪些ZF作为邻居彼此兼容)。这些信息是分层的,并且为了利用它,我们开发了一种新的神经网络架构,以分层方式执行注意模块(图3A)。
该分层架构的第一层包含两个模块,这些模块在单指选择数据上进行训练,在相邻指特异性可以重叠的界面处对大范围的影响进行采样(图3A)。单螺旋模块可推广到看不见的序列;残基-核苷酸关系被捕获在注意值中(图13、14)。然后将来自底层的残基嵌入输入到顶部模块中,该模块在双螺旋选择数据上进行训练(图3B)。这类似于从单指选择中获取选择池并对它们执行双指选择的实验过程。实际上,底部模块设计功能化了单ZF(针对给定的邻居环境),而顶部模块则组装了兼容的ZF对。
整体模型保留了传统的编码器-解码器架构:编码器为每个DNA碱基生成高维表示,然后,解码器使用自注意层和将核苷酸碱基与螺旋残基相关联的注意层,为ZF螺旋中的每个残基生成预测。为了训练该模型,我们提供了核苷酸靶标以及部分掩蔽的ZF序列,并评估给定输入数据的交叉熵损失。我们在验证数据和测试数据上分别实现了0.62和0.69的重建精度(与六个掩蔽残基的序列同一性);一些位置(例如“-1”)是结合特异性的强决定因素,具有更高的重建精度(图4A-C)。总体而言,由于允许12个残基存在一定的变异性且同时保留结合靶序列的能力,因此0.62-0.69的重建精度可以认为相当高(见图4C)。
ZFDesign准确捕获双螺旋ZF特异性
所描述的方法(本文中称为ZFDesign)以增量方式产生序列:从空序列开始,模型针对ZF螺旋对中的每个氨基酸运行一次。在每次迭代中都会预测一个氨基酸,并在后续迭代中提供该预测作为背景。为了最佳序列生成,我们采用了基于A*的采样方法(36)以及依赖于温度的采样程序(37)。我们试图将ZFDesign与基线进行比较,但据信以前的模型都没有明确尝试针对给定靶标执行完整的ZF阵列设计,而只是收集了少数可用的ZF。我们使用了ZFpred,这是一种最近开发的方法,其性能优于以前的模型(35)。然后,我们使用ZFDesign和ZFpred二者生成ZF序列,以靶向来自我们的测试数据集的6聚体。作为替代基线比较,我们首先使用单指模型(例如,仅图3B中的底部模块)以为每个DNA3聚体生成ZF序列并将它们连结(concatenate)起来。以类似的方式,我们还直接从每个3聚体B1H选择中获取序列并将它们连结起来,这类似于以前简单连结作为模块的预先存在的指集合的方法。所有这三种方法的表现都明显比我们的分层模型差(见图4D-F)。当直接比较生成的序列的代表性序列标志时,ZFDesign生成了广泛捕获来自B1H双螺旋选择的标志,而来自单螺旋选择的连结标志明显不同(见图4G,15),这强调了ZFDesign捕获单螺旋选择中不存在的螺旋间关系这一事实。
ZFDesign、锌指核酸酶和基因组标记
为了验证ZFDesign,我们在U20S细胞系中使用了GFP破坏测定,该测定已用于近似ZFN(38)、TALEN(39)和spCas9(40)的核酸酶活性,因为GFP编码序列中的插入缺失会导致移码和荧光丢失。对于每个ZFN,设计了两个ZF阵列,因为ZFN需要Fok1催化结构域二聚化,以尾对尾方向呈现为来自每个ZF阵列的C末端融合体(图5A)。该阵列在双指模块之间使用较长的接头来实现独立结合,因为接头允许在每个双指模块的结合位点之间跳跃碱基(41)。上面详述的双指选择的DNA靶标是经过专门选择的,以适应GFP编码序列中的靶标。因此,对于每个靶标,我们首先基于在相应2指选择中恢复的最频繁对来组装ZFN,其中每个单体使用4个ZF(每个ZFN 8个)。接下来,我们设计了5个ZFN,每个单体也使用4个ZF,以与结合相同靶标的B1H选择的ZF进行比较。所有设计的ZFN均在高于背景的情况下发挥作用,但5个中的4个表现出相对于所选阵列的活性降低(图5B)。然而,单个模块的替换可以显著增加活性(图5C),这表明了测定的严格性,因为单个弱模块可能对整体功能产生很大影响。尽管如此,由于这些设计对所有靶标都有效,并且较长的阵列克服了弱模块的存在(42),因此我们设计并测试了16个ZFN,其每个单体使用6个ZF(每个ZFN 12个)。我们发现全部16个都具有功能,荧光平均损失53.6%(图5D)。最后,为了确定6指是否足以进行单体结合,我们设计了6指阵列来将基因组位点标记为GFP融合体。为了使点状GFP表达可视化需要许多GFP拷贝,因此我们设计了结合至14号染色体上的重复序列的阵列,其在Hek293T细胞中以三体性形式出现。我们通过活细胞成像看到3个GFP点(图5E)。这些结果表明,ZFdesign始终如一地生产出高功能性的ZF阵列,并且6个或更多指通常会在人类基因组中产生强大的靶向活性。
人类转录因子的无缝重编程
为了避免效应结构域的呈现脱离其自然背景,本公开证明人类TF中的ZF结构域可以被所设计的ZF无缝替换。这种方法在ZF在亲本蛋白中自然出现的确切背景下呈现了所设计的ZF。这种重编程转录因子(reprogrammed transcription factor,RTF)使TF的二级相互作用最大化,避免使用外源效应结构域,并能够研究TF结合事件(图6A)。作为潜在的治疗方法,它们呈现出具有相应低免疫原性风险的最大程度类似于天然的人类蛋白质。我们选择KLF6作为我们的激活支架。为了测试KLF6架构的活性,我们设计了四个ZF阵列来结合正向链或反向链上的TetO序列(图16)。我们用这些设计的ZF阵列无缝替换了KLF6的ZF,并在HEK293T报告细胞系中表达了这些RTF,该细胞系用最小启动子驱动GFP表达(图6B)。四种设计中的三种以与rTetR-VP64相似或更高的水平激活,其中一个阵列的激活水平几乎是rTetR-VP64的三倍。为了确认这种RTF激活方法不仅限于KLF6蛋白,我们用Tet3 ZF阵列替换了3个其他激活TF(KLF7、FoxR2和ZXDC)的DBD(图6C)。所有这些RTF都与rTetR-VP64对照一样或更好地激活了报告基因,包括FoxR2 RTF,其中其天然叉头DBD被ZF阵列替换(图17)。
为了产生阻遏靶标基因的RTF,我们使用ZIM3作为我们的TF支架,因为ZIM3的KRAB结构域已被证明作为分离的SpCas9融合体是有效阻遏物(43)。我们用一系列设计用于结合TetO序列的ZF阵列替换了ZIM3的ZF,如针对KLF6中所述(图17)。我们在HEK293T细胞系中表达这些ZIM3 RTF,该细胞系具有通过组成型启动子驱动的GFP报告基因。相对于对照,四个ZF阵列中的三个阻遏GFP表达,其中Tet3阵列的性能优于dCas9(图18)。接下来,我们用Tet3Z阵列替换了其他三种包含KRAB的蛋白质(ZNF10、ZNF264和ZNF324)的ZF。在所有情况下,我们都看到类似的阻遏水平(图6D)。有趣的是,当表达为分离的spCas9融合结构域时,Kox1KRAB结构域(ZNF10)提供比Zim3 KRAB结构域低的阻遏潜力(43),但当表达为RTF时,它们的活性相似,这表明呈现背景对这些结构域的效力可能具有大的影响。
对于上面列出的任意RTF,为了无缝替换它们的DBD而不影响亲本蛋白的任何其他部分,我们使用亲本蛋白的DBD的共有(consensus)序列定义来确定替换亲本蛋白的哪一部分。例如,共有序列Cys2His2锌指结构域从第一个半胱氨酸之前的2个氨基酸开始,以第二个组氨酸结束。因此,我们替换了TF的天然ZF(例如Zim3,其天然具有11个ZF),方法是从第一个指的第一个半胱氨酸之前2个氨基酸开始,并将序列一直替换到最后(第十一个)指中的第二个组氨酸。这被设计的ZF阵列所替换,该阵列再次从第一个ZF的第一个半胱氨酸之前的2个氨基酸开始,一直到阵列中最后一个ZF的第二个组氨酸。未对亲本蛋白进行其他修饰(关于使用的确切融合点,参见图16和17)。对于使用叉头DBD接合DNA的FoxR2,我们使用叉头结构域的PFAM定义来精确去除DBD并用ZF阵列无缝替换它,该阵列再次从第一个半胱氨酸之前的2个氨基酸开始,并以阵列中最后一个指的第二个组氨酸结束。
代表性构建体如图25所示,示出了KLF6-锌指转录因子,以及图25,示出了Zim3-,含_KRAB的有锌指转录因子。
粗体=锌指
锌指架构
疏水残基-Z
共同磷酸盐接触-*
任何氨基酸-X
“..”用于保持基序与KLF6指1对齐,KLF6指1的两个Cys之间有4个氨基酸,而EGR1只有2个。锌指结构中任一间距都是容许(tolerate)的,如通过下面括号中的半胱氨酸残基之间可容许的氨基酸数量所示。这些不同的间距常见于天然锌指中的半胱氨酸和组氨酸残基之间。碱基指定(base-specifying)残基以及因此在我们的设计中改变的残基,是斜体和粗体的。
在KLF6支架中表达的设计的锌指的实例:
-EGR1设计的锌指无缝地替换了上述KLF6序列中天然存在的锌指。
设计的锌指在括号之间。每个锌指的识别螺旋都是粗体的。在实例中,我们使用延伸的接头,其允许在2指靶标之间进行碱基跳跃。然而,使用共有序列接头(TG(E/Q)(K/R)P)且不跳跃碱基的工程锌指也具有功能。由于这些锌指天然存在于C末端,因此我们保留了KLF6的C末端“L”,然而,可以容纳来自EGR1或另一种人类锌指蛋白的C末端延伸,而不会产生进一步的免疫原性风险。
Zim3-含_KRAB的锌指转录因子
括号之间的斜体=KRAB结构域
粗体=锌指
锌指架构
疏水残基-Z
共同磷酸盐接触-*
任何氨基酸-X
“.”用于保持基序与Zim3指11对齐,Zim3指11在两个His之间有4个氨基酸,而EGR1只有3个。锌指结构中任一间距都是容许的,如通过下面括号中的Cys和His残基之间可容许的氨基酸数量所示。这些不同的间距常见于天然锌指中的半胱氨酸和组氨酸残基之间。碱基指定残基以及因此在我们的设计中改变的残基,是斜体和粗体的。
在Zim3支架中表达的设计的锌指的实例:
-EGR1设计的锌指无缝地替换了上述Zim3序列中天然存在的锌指
设计的锌指在括号之间。每个锌指的识别螺旋都是粗体的。在实例中,我们使用延伸的接头,其允许在2指靶标之间进行碱基跳跃。然而,使用共有序列接头(TG(E/Q)(K/R)P)且不跳跃碱基的工程锌指也具有功能。由于这些锌指天然存在于C末端,因此我们保留了Zim3的C末端“SR”,然而,可以容纳来自EGR1或另一种人类锌指蛋白的C末端延伸,而不会产生进一步的免疫原性风险。
为了测试RTF对内源基因的调节潜力,我们应用ZIM3架构来抑制3种内源靶标(DPH1、Rab1a和UEB4A)并设计了4个阵列,每个阵列结合每个基因的靠近转录起始位点(TSS)的序列。为了使函数的似然最大化,我们将这些以及所有后续ZF阵列设计为使用8指。HEK293T用RTF进行核转染,并通过RT-qPCR测定表达水平。对于每个靶标基因,至少一个构建体显著降低了表达水平(图6E和19)。为了激活内源性靶标,我们使用一系列阵列对KLF6进行了重新编程,这些阵列被设计为结合CDKN1C启动子中TSS上游的150bp区域。所有7个RTF均使CDKN1C的表达增加,其中7个RTF中的3个增加了9至43倍表达(图6F)。重编程转录因子的全基因组调节活性
ZFDesign使得能够对TF进行重编程以用于激活或阻遏。为了测试调节的精确度,我们使用RNA-seq来量化RTF的靶向和脱靶调节。我们重点关注CDKN1C的4个最有效的KLF6RTF调节因子,#125、150、172和200(见图6F)。在除#172之外的所有情况下,我们发现CDKN1C是上调程度最高的基因之一(图20)。然而,268至1173个脱靶基因也被激活。由于KLF6是人类TF,我们分析了脱靶活性是否是由于TF的二级相互作用所致,而不是由于ZF阵列。因此,我们测试了没有任何ZF的KLF6以及作为完整KLF6 RTF、作为与KLF6截短的反式激活结构域的融合体以及作为与VP64的融合体的4ZF阵列。这些构建体中每一个的RNA-seq表明脱靶活性主要由ZF阵列决定(图20)。
ZF阵列的特异性可能受到靶标含量和亲和力的影响。如前所述,富含G的结合往往更加混杂。与这一观察结果一致,具有最低G含量的CDKN1C靶标(#200,图21)也导致了最少的脱靶事件数量。除了使靶标G含量最小化之外,还可以通过降低每个ZF与磷酸骨架之间的接触所提供的非特异性亲和力来改善ZF特异性(44、45)(图6G)。这对每个螺旋的碱基指定相互作用施加了更大的压力,以提供功能所需的结合亲和力。我们创建了CDKNIC RTF#200的突变版本,用谷氨酰胺替换2、4或8个磷酸盐接触的精氨酸。我们首先通过qPCR比较了这些突变对RNA-seq筛选中上调的靶点和脱靶位点的影响(图6F,右)。当我们增加磷酸盐接触修饰的数量时,这些脱靶基因的表达分别降低高达70%或55%,而靶点活性仅降低12%。接下来,RNA-seq证明脱靶数量随着修饰数量的增加而减少,并且CDKN1C只有通过8个精氨酸全部变至谷氨酰胺修饰而上调,从而提供单靶分辨率。对富含G的结合采用相同的方法#125将脱靶数量减少一半,但消除脱靶活性可能需要设计对富含G的靶标使用替代结合策略的ZF阵列(图21)。
从前述实施例将认识到,本公开提出了ZFDesign,一种新的基于分层注意的AI模型,其在考虑了多个相邻指环境的影响的情况下在ZF-DNA相互作用的综合性筛选上进行训练。ZFDesign捕获这些影响,以为ZF阵列提供首个通用设计模型。相比之下,以前的努力产生了不完整的ZF模块集合,这些模块常常脱离背景而失败,并且产生较低的靶点活性。相反,所描述的模型始终如一地针对大范围的靶标(如核酸酶、阻遏子和激活子)高效地产生ZF阵列。因此,ZFDesign代表了一项重大进步,因为针对任何给定靶标的ZF设计适合许多研究和治疗应用的研究,其具有小尺寸和低免疫原性的优点。
无意于受到任何特定理论的限制,认为本公开提供了首个通用设计方法,其允许无缝替换TF的天然DNA结合结构域并将TF引导至任何感兴趣的靶标。这些RTF可以产生类似于基于CRISPR的工具的激活和阻遏活性,支持这些蛋白质作为仅由人类成分组成的疗法的用途。此外,所描述的方法均用于分析TF功能,因为它们更准确地模拟自然TF。
以下材料和方法用于产生本文和附图中描述的数据。
文库构建
初级锌指文库:所有初级ZF文库均如先前所述(35、46)和下文详述构建。为了提供PCR模板,从IDT订购了gBlock,其编码每个文库的指0和指1结构域(图9,结构域编号参见图1)。将每个文库彼此区分开来的关键差异在于,它们各自在结构域1和文库结构域2之间的界面处置入了不同的环境。这些文库包括五个在界面处结合A、五个在界面处结合C以及两个结合G的结构域1相互作用。这些文库在界面处使用具有一系列生化特性的侧链以与重叠碱基相互作用(碱性、酸性、极性、芳香性和疏水性相互作用)。结构域1位置6侧链的生化特性及其在重叠位置指定的碱基共同代表了每个文库提供的独特界面环境。接下来,设计了在对应于ZF结构域2α螺旋的六个关键残基位置的密码子位置处具有简并性(NNS)的寡核苷酸。该寡核苷酸用于全部文库构建,仅改变模板gBlock并由此改变结构域0和1。PCR用于生成文库插入片段,其从文库特异性gBlock模板扩增与用于捕获完整3指插入片段的下游寡核苷酸配对的文库寡核苷酸。对于每个文库,PCR反应以96孔板形式运行并混池(pool)。PCR产物用Kpn1和XbaI消化并连接到15μg消化的B1H表达载体中。连接在16℃过夜进行,乙醇沉淀,并重悬于15μl 10mM Tris-Cl(pH 8.5)中。将连接物电穿孔至15份电感受态US0细胞中,并在1L SOC中回收。电穿孔后一小时,200μl培养物在羧苄青霉素板上以10倍连续稀释进行滴定以确定文库大小。为了选择转化体,此时将羧苄青霉素添加到培养物中并生长至对数中期。然后由Qiagen maxiprep回收文库DNA。文库大小范围为1-3x109。证明这种方法能够始终如一地产生具有近似随机的多样性的文库(46)
2指文库:第二轮选择用于从在初级ZF文库选择中生成的预选ZF池中选择兼容对。我们基于结合位点将从我们的初级单指筛选中回收的质粒DNA混池,从而产生了对于64个不同结合位点中的每一个位点都具有广泛兼容性的各式各样的螺旋的池(称为“第二轮池”)。为了确保这些是富集功能性螺旋而不是背景,设计了一个简单的截止值以省略不成功的选择。基于所描述的数据过滤指标,如果少于20%的读段(read)通过这些过滤,则忽略单指池,因为这些选择会向我们的模板池添加不成比例的非功能性ZF。这组64个第2轮池被用作PCR模板,使用ExpandTM高保真PCR系统(Roche)和15个PCR循环来产生‘结构域1’或‘结构域2’扩增子,以减少偏差。‘结构域1’或‘结构域2’反应物在2%琼脂糖凝胶中进行凝胶纯化,通过Nanodrop进行定量,并储存在-20℃。为了产生2指文库插入片段,我们进行了重叠PCR以将适当的‘结构域1’和‘结构域2’文库缝合在一起。将纯化的单指扩增子等摩尔组合作为模板,利用高保真DNA聚合酶(NEB)的重叠PCR(25个循环)进行PCR纯化,用KpnI和NotI消化,凝胶纯化,并通过Nanodrop(ThermoFisher Scientific)进行定量。将消化的2指文库插入片段连接到我们的2指文库载体中(见图2D)。使用300ng消化的骨架和5:1摩尔过量的插入片段:骨架在16℃进行过夜连接。连接物进行乙醇沉淀并重悬于5uL EB(Qiagen)中。将100ng连接物电穿孔到USO-ω细胞中,在SOC中回收1小时,在包含2%葡萄糖和100ug/mL羧苄青霉素的2xYT琼脂板上滴定,并在4℃保存过夜。基于第二天的细胞计数,将5x106个细胞铺在15cm富集培养基琼脂板(2xYT、2%葡萄糖、100ug/mL羧苄青霉素)上,在30℃生长12-14小时,通过刮取收获,最后小量制备以获得最终的第2轮文库。
锌指选择
初级ZF文库:在载体中构建文库,该载体将使用强启动子将ZF表达为与细菌聚合酶的ω亚基的融合体。在B1H系统中,ω只是充当激活结构域。通过将感兴趣的结合位点放置在先前描述的GHUC载体中的驱动HIS3和GFP表达的启动子的-35盒上游10bp处,构建结合位点报告载体。例如,对于文库2TAC选择,将结合位点5'TAC-ACA-AAG 3'内置于GHUC载体启动子上游10bp处,其中文库结构域将结合TAC,而文库2的结构域1和0将分别结合ACA和AAG(图1C)。对于每个选择,通过电穿孔将ZF文库和适当的报告质粒转化至ΔrpoZ选择菌株。将细胞在10ml SOC中在37℃旋转扩增1小时,回收并重悬于补充有组氨酸的基本培养基中,并在37℃旋转生长另1小时。最后,将细胞在不含组氨酸的基本培养基中洗涤,在1ml该培养基中回收,并将20μl的连续稀释液铺在含有卡那霉素和羧苄青霉素的富集板上,以定量双转化体。该板在37℃生长过夜,同时将剩余的980μl转化细胞储存在4℃。一旦生长,对连续稀释液进行计数,并从储存于4℃的转化体中取出至少含有5×108个细胞的体积,并铺在选择性培养基上。这些板含有2mM 3-AT(一种HIS3竞争性抑制剂),其有助于从筛选中消除背景活性。细胞在选择板上于37℃生长36-48小时。对集落进行计数,混池细胞并收获DNA。该DNA被用作Illumina测序的模板。所有的选择都导致了数百到数千个存活集落。
兼容性2指模块选择:为了从我们的第2轮文库中鉴别兼容性2指模块,我们首先构建了包含预期DNA靶标的载体的匹配组,然后在我们的细菌1杂交系统中充分利用了HIS3报告基因的ω依赖性激活。将第2轮文库与匹配的报告载体共转化到USO-ω细胞中,并按所描述的进行回收和滴定。基于第二天的细胞计数,将1x106个细胞一式三份添加到含有无菌珠粒的96孔深孔板中,以进行有效搅拌。在补充有100μg/mL羧苄青霉素、50μg/mL卡那霉素、1μM IPTG和5mM 3AT的1mL NM+Ura/-His中进行选择。它们在37℃的板摇床中生长18、24或40小时,并在达到可见浊度(通常OD>0.6)时收获。将三个重复混池,进行小量制备,并在Illumina NextSeq 500上进行深度测序。通过测序读段对螺旋进行排序,并选择前5个最高计数的2指模块进行后续组装和在EGFP核酸酶测定中测试。
U20S GFP破坏测定
通过测量之前描述的克隆U2OS细胞系中整合的组成型表达的eGFP报告基因的破坏来评估锌指核酸酶(ZFN)活性(39)。细胞在补充有10% FBS、2mM GlutaMAXTM(LifeTechnologies)、1%青霉素/链霉素、1% MEM非必需氨基酸(Life Technologies)、2mM丙酮酸钠和400μg/mL G418的DMEM中培养。使用Lonza NucleofectorTM2b装置(套件V,程序X-001)将1μg每种ZFN单体质粒DNA和200ng ptdTomato-N1质粒DNA一式两份转染至5x105个细胞中。在每次测定中,使用2μg亲本空载体(来自addgene的JDS71载体的修饰衍生物)和200ng ptdTomato-N1作为阴性对照,并且在每个实验中使用2μg双spCas9-引导表达载体(修饰的addgene质粒#41815)和200ng ptdTomato-N1作为阳性对照。转染后,细胞在6孔培养皿中生长3天,收获并保存在冰上,并在Sony SH800细胞分选仪上分析eGFP和tdTomato的表达。为了将分析仅限于可能接受两种ZFN单体质粒的细胞,首先对前15-25%tdTomato+细胞进行群体门控,然后分析eGFP表达的丢失。
第二代测序和制备
初级文库:在从>5x108个文库变体中进行选择后,将存活的集落混池、小量制备并加DNA条形码以用于在Illumina500上测序。这些通常作为给定“重叠”文库的一组64个3bp结合位点以如下所示进行。使用2uL混池的质粒DNA作为模板,在具有以下循环参数的利用Taq聚合酶(NEB)的25μL反应中进行加条形码:95℃5min,[95℃:20s、52℃:30s、68℃:30s]20个循环,68℃10min,并保持在4℃。5μL的每个反应物在1%琼脂糖凝胶上可视化,以确认明显的相等扩增。所有64个反应均等体积混池。这些在1%琼脂糖凝胶上运行,凝胶纯化,然后提交给纽约大学基因组技术中心用于在/>500上进行测序。
2-指文库:选择~3x106 2F文库变体后,从存活细胞中提取质粒DNA并加条形码以用于如下在Illumina500上的深度测序。使用2μL混池的质粒DNA作为加条形码模板,在具有以下循环参数的利用/>Green 2X Mastermix(Promega)的25μL反应中进行加条形码:95℃5min,[95℃:30s、68℃:30s、72℃:60s]15个循环,72℃5min,并保持在4℃。每个反应物的10μL在1%琼脂糖凝胶上可视化以确认相等扩增,所有反应均等体积混池。将这些从1%琼脂糖凝胶中进行凝胶纯化,并提交给纽约大学基因组技术中心用于在Illumina/>500上进行测序。
序列恢复和过滤
使用基于EMBOSS 6.6.0的内部Unix脚本对所有双端Illumina读段进行解复用并修剪成21聚体。翻译修剪后的DNA序列,如果氨基酸序列具有至少两个读段计数并且由至少两种不同的DNA编码,则考虑该氨基酸序列。螺旋位置+4处的非变体亮氨酸被排除。
聚类和过滤选择
对于每个选择,使用MUSI软件对螺旋序列进行聚类(34)。每个序列都被分配给与PWM相关的聚类,并为其分配了最高的责任(responsibility)。对于生成的每个聚类,基于该聚类的PWM计算每个螺旋残基的香农熵值。如果某个选择缺少至少一个位置的熵为2或更低的聚类,则该选择将被从下游分析中过滤掉。
通过汉明距离计算选择之间的相似度
为了比较来自两个选择(A和B)的螺旋,基于相同氨基酸的数量计算两组过滤序列之间的成对归一化汉明距离。然后计算从选择A中的每个螺旋到选择B中的每个螺旋以及从选择B中的每个螺旋到选择A中的每个螺旋的最小归一化汉明距离。两个选择之间的总距离计算为这些距离的平均值。
分子动力学模拟
类似于我们之前的研究(47、48),使用PDB文件1AAY(49)作为模板,使用X3DNA将DNA在每一端延长2bp以避免末端解链效应,从而不影响锌指的结合。使用Chimera(www.cgl.ucsf.edu/chimera/)对每个文库和测试例进行DNA和蛋白质序列突变,通过WHATIF(swift.cmbi.umcn.nl/whatif/)确定质子化状态。然后将制备的结构溶剂化到TIP3P水箱中,其中含有从蛋白质/DNA复合物向各个方向延伸的水缓冲液,添加钠离子以确保整体电荷中性。FF99巴塞罗那力场用于蛋白质/DNA复合物,锌琥珀(amber)力场用于锌离子。粒子网格埃瓦耳德(particle mesh Ewald)法用于静电计算。SHAKE算法用于约束含氢键长度,从而允许MD模拟采用2-fs时间步长。非键合截止值设置为/>使用最速下降法和共轭梯度法的组合使系统能量最小化。然后使用多级方案将系统热化并平衡3ns:第一步是1.5ns的从100K逐渐加热到300K,然后进行1.5ns的密度平衡,步长均为1-fs。Berendsen恒温器和恒压器用于温度和压力调节,以2-fs步长进行另一个6-ns平衡,并在300K下逐渐减少位置约束。该系统是使用tleap构建的,并使用GPU加速的Amber18(50)进行模拟。对于每个系统,模拟了三个500ns轨迹。使用BioPython进行氢键分析。我们考虑氢结合至鸟嘌呤中的原子O6和N7与精氨酸中的原子NH1和NH2或天冬酰胺中的ND2和OD1之间低于/>的任何接触。当发现两对06-NH1/2和N7-NH1/2时,鸟嘌呤和精氨酸之间的分叉氢键被识别,从而允许互变异构分叉氢键。
计算文库间核心螺旋的结合熵
为了量化靶向每个核苷酸三聚体的螺旋的混杂性,计算了香农熵。对于每个核苷酸三聚体,计算每组核心残基(-1、2、3、6)靶向的核苷酸序列的位置频率矩阵。以位置方式计算熵,然后求和以获得特异性的总体度量。
神经网络架构
我们开发了模拟B1H实验设置并捕获锌指蛋白的模块化的分层神经网络架构。该架构由三个模块构成(图3)。前两个模块经过训练以生成与包含靶标三聚体和重叠碱基的特定核苷酸四聚体相结合的螺旋。来自这些模块的残基嵌入被连结起来并用作第三个模块的输入,该模块旨在学习一对螺旋之间的兼容性(图3A)。第一个模块基于靶标七聚体中的最后四个碱基生成一对中的第一个螺旋的残基嵌入,第二个模块基于靶标七聚体中的前四个碱基生成第二个螺旋的残基嵌入(图3B)。完整的模型经过训练以预测给定核苷酸七聚体的两个螺旋中的所有核心残基。
前两个模块的架构主要基于转换器模型1。编码器为核苷酸四聚体中的每个碱基生成高维表示。然后,解码器使用自注意层和将核苷酸碱基与螺旋残基相关联的注意层,为锌指螺旋中的每个核心残基生成预测。虽然传统转换器中的解码器严格从左到右生成序列1,但该模型中的解码器使用双向信息。螺旋中的部分残基被掩蔽,并且解码器输出这些位置处的氨基酸预测。第三个模块由重复的自注意层和前馈层组成,允许模型基于螺旋间兼容性更新残基嵌入(图3B)。
具有不同数量的注意头和嵌入维度的第一模块的变体在预测单螺旋中的残基的初始任务上进行训练和评估(表A)。在最终模型中,所有注意层重复三次,并且每个注意层有四个头。模型嵌入维度(dmodel)设置为128。用于计算缩放点积注意的值和关键嵌入维度(dv和dk)均设置为256。前馈层中的隐藏维度设置为128。为了进行正则化,在每个前馈层和注意层之后都包含了退出层,退出百分比为0.3。
表A示出了使用五个常见DNA结合结构域(9)的人转录因子的数量及其大小的比较。由于许多DNA结合结构域需要二聚化,因此列出了它们的单体和多聚体大小。多聚体大小和结构域的共同靶标长度的比较允许计算每个指定碱基所需的氨基酸。
表A
训练数据集
在源自B1H选择的数据上训练和评估模型。B1H筛选数据使用先前描述的方法进行过滤,其中基于筛选中发现的编码核苷酸序列的多样性来评估螺旋2-4。每个螺旋(或螺旋对)的香农熵是基于与每个可能的编码核苷酸序列相关的读段数来计算的。基于先前定义的阈值3过滤螺旋。具体来说,删除了少于10个读段或香农熵小于0.07的螺旋。
使用来自针对核苷酸四聚体进行的单螺旋B1H选择的数据来预训练模块一和二。数据包括利用11个文库针对192个不同的核苷酸四聚体进行的选择。该数据集总共包含2,071,764个数据点。对于初始训练和超参数调整,数据点通过四聚体序列分别按80%、10%和10%的比例分为训练数据集、测试数据集和验证数据集。而对于预训练,数据是按螺旋序列分割的。
使用来自针对核苷酸七聚体进行的螺旋对B1H选择的数据来训练完整模型。针对189个七聚体的选择的初始数据集按90%和10%的比例分为训练数据集和验证数据集。该数据集总共包含327,792个数据点。为了确保验证集与训练数据集有足够的不同,生成了一个图,其中核苷酸七聚体表示为节点(node),并且边连接彼此两个碱基替换以内的七聚体。虽然大多数节点形成单个连接组件,但验证数据集中包含单独的组件(图22A)。然后,将图中度数(degree)最低的节点及其邻居添加到验证数据集中。因此,验证数据集中的大多数序列与训练数据集中的任何序列相比具有至少有三个突变(图22B)。过滤了15个选择的单独集,以确保至少100个独特的螺旋对用作模型评估的独立测试集。
模型训练
在两个训练步骤中,将核苷酸靶标和来自单个锌指或螺旋对的部分掩蔽的核心残基序列提供给模型。50%的核心残基被掩蔽,并基于输出概率评估交叉熵损失。使用Adam优化器以1e-4的学习率进行训练,并且使用128的小批量大小。基于验证损失进行提前停止。预训练模块一和二需要最多130万次迭代。训练完整模型需要最多340万次迭代。在训练完整模型时,模块一和模块二的参数要么随机初始化,要么从预训练步骤转移,要么从预训练步骤转移并冻结(图23)。
锌指螺旋对的从头设计
当预测锌指残基时,模型利用已知残基提供的背景。螺旋序列是增量生成的,其中网络针对每个缺失残基运行一次。在每次迭代中,添加单个残基以增加序列背景。对于一对螺旋,有约4.1x1015个可能的序列和约4.8x108个可以生成每个序列的顺序。因此,枚举所有可能性来找到具有最高似然性的序列在计算上是很困难的。
为了生成序列,我们采用了A*搜索算法,如之前所做的那样5,6。这种方法涉及迭代地填充掩蔽残基,同时维持部分掩蔽序列的优先级队列。在每次迭代中,从优先级队列中取出顶部部分掩蔽序列并通过网络传递。评估每个掩蔽残基的所有可能的标签。任何概率高于0.05的标签都会被接受,并且该标签会在被推入优先级队列之前添加到输入序列的副本中。重复此过程,直到完全生成一定数量的序列。以下等式用于为每个部分掩蔽序列分配优先级:
该启发式近似通过预测剩余残基获得的序列的最大预期概率。pi表示分配给在迭代i处进行的预测的概率,j表示预测残基的数量。p*表示通过网络分配给以后预测的预期最大概率。可以调整此参数以使搜索更接近贪婪搜索或广度优先搜索。每当在这项工作中执行A*时,该参数就设置为0.1。
如之前所述7,我们还使用温度调整分布执行了另一种有偏采样方法。这种方法通常会产生更高似然的序列(图24)。在每次迭代中,预测位置j处的氨基酸i的概率如下:
n表示输入核苷酸序列,S表示已预测的氨基酸和位置对的集合。T是一个可调节参数,用于控制分布的偏差。使用该方法时,该参数设置为0.6。进行从头设计时采样了105个ZF对,并且105个ZF对是最大似然对。
与ZFPred的比较
为了使用ZFPred生成螺旋序列上的分布3,对106个螺旋序列进行随机采样。使用ZFPred预测这些螺旋的结合特异性。然后通过对该核苷酸序列的采样螺旋的预测分数进行归一化来生成特定核苷酸序列的序列分布。将3聚体的预测连结起来,生成6聚体序列的预测。
ZF-GFP融合体的活细胞图像
我们设计了锌指以结合序列5’-CGCCCAGCTGGGGGCGGGGGA-3’,该序列在14号染色体上的Brfl基因座处(hg38 chr14:105229626-105240946)重复111次。设计的锌指阵列的编码序列从IDT(gBlock)订购。通过PCR将SV40 NLS添加到C末端。接下来,我们使用NT-GFPFusion TOPO TA表达试剂盒(Invitrogen)将GFP作为N末端融合体添加到锌指中。通过桑格测序证实成功克隆到表达载体中。
使用X-treme-GENE 9DNA转染试剂(Sigma Aldrich)将GFP-ZF体融合表达载体转染至293T细胞中并在0.01%聚-L-赖氨酸包被的35mm MatTek培养皿上生长。第二天对转染的细胞进行Hoechst染色,然后成像。进行滴定实验以探索最佳质粒浓度。在一定浓度范围内均可见清晰的斑点,但333ng的质粒可实现转染效率和信噪比的最佳平衡。
细胞培养以及阻遏子和激活子的RT-qPCR分析
用靶向各种内源基因座的ZF-阻遏子、ZF-激活子或SpCas9-阻遏子转染HEK293T细胞,并通过RT-qPCR按照如下所述测量靶转录物水平。2μg亲本(pKJ-Kan)质粒DNA或2μg含有非靶向向导的pMMBC_SpCas9分别用作ZF和SpCas9转染的阴性对照。细胞在补充有10%FBS、2mM GlutaMAXTM(Life Technologies)、1%青霉素/链霉素、1%MEM非必需氨基酸(LifeTechnologies)和2mM丙酮酸钠的DMEM中培养。转染之前18-24小时,对细胞进行传代并将7.5e5细胞添加至6孔培养皿中的2.5mL培养基中。根据制造商的说明,使用4:1比例的DNA:-LT1转染试剂(Mirus),用2μg质粒DNA转染细胞。转染后2天更换培养基,转染后3天收获细胞用于RT-qPCR。用无菌PBS洗涤细胞一次,添加含有1%β-巯基乙醇的350μLBuffer RLT Plus(Qiagen),并将样品保存在-80℃或根据制造商的说明立即使用RNeasyPlus Mini Kit(Qiagen)进行处理。使用NanoDropTM2000c(Thermo ScientificTM)对纯RNA进行定量,并储存在-80℃。
根据制造商的说明,使用SuperScriptTMIV第一链合成系统(InvitrogenTM)对1μg纯RNA进行逆转录,只是使用一半推荐的逆转录酶。使用随机六聚体作为引物,并将cDNA保存在-20℃或立即处理。qPCR反应设置为技术重复两次或三次,每个反应使用相当于25ng或50ng的逆转录RNA和KAPA SYBR FAST qPCR Master Mix(2X)(Roche)。
RT-qPCR在480Instrument II(Roche)上使用针对/>480上的KAPASYBR FAST试剂推荐的循环程序进行(退火温度为60℃)。使用机载“AbsoluteQuantification/2nd Derivative Max”分析选项计算Ct值。首先使用管家基因RPS18对输入进行归一化,然后计算给定感兴趣基因相对于适当阴性对照的表达倍数变化。本研究中使用的RT-qPCR引物表可在补充数据中找到。
RNA-seq分析
使用Illumina标准化mRNA文库制备试剂盒(Cat#20020595)使用500-1000ng总RNA作为投入构建RNA-Seq文库制备物,通过10-12个PCR循环进行扩增,并在Illumina测序仪上添加2% PhiX进行双端测序50个循环。每个样品获得2500-3000万个读段。使用STAR aligner8将双端读段与hg38进行比对。使用FeatureCounts计算读段计数,随后使用DESeq29进行差异表达分析。
统计分析
使用SciPy python文库进行双侧Wilcoxon秩和测试。箱线图中心线显示中位数,箱界限显示上四分位数和下四分位数,须线(whisker)为四分位数范围的1.5,点显示异常值。
该参考文献列表并不表明任何特定参考文献对于可专利性来说是重要的:
1.N.Matharu et al.,CRISPR-mediated activation of a promoter orenhancer rescues obesity caused by haploinsufficiency.Science 363,(2019).
2.A.A.Dominguez,W.A.Lim,L.S.Qi,Beyond editing:repurposing CRISPR-Cas9for precision genome regulation and interrogation.Nat Rev Mol Cell Biol 17,5-15(2016).
3.B.Chen,R.B.Altman,Opportunities for developing therapies for raregenetic diseases:focus on gain-of-function and allostery.Orphanet J Rare Dis12,61(2017).
4.L.A.Gilbert et al.,Genome-Scale CRISPR-Mediated Control of GeneRepression and Activation.Cell 159,647-661(2014).
5.P.Perez-Pinera et al.,RNA-guided gene activation by CRISPR-Cas9-based transcription factors.Nat Methods 10,973-976(2013).
6.P.I.Thakore,C.A.Gersbach,Design,Assembly,and Characterization ofTALE-Based Transcriptional Activators and Repressors.Methods Mol Biol 1338,71-88(2016).
7.P.I.Thakore et al.,Highly specific epigenome editing by CRISPR-Cas9repressors for silencing of distal regulatory elements.Nat Methods 12,1143-1149(2015).
8.A.Amabile et al.,Inheritable Silencing of Endogenous Genes by Hit-and-Run Targeted Epigenetic Editing.Cell 167,219-232e214(2016).
9.J.K.Nunez et al.,Genome-wide programmable transcriptional memory byCRISPR-based epigenome editing.Cell 184,2503-2519e2517(2021).
10.M.Jinek et al.,A programmabledual-RNA-guided DNA endonuclease inadaptive bacterial immunity.Science 337,816-821(2012).
11.C.T.Charlesworth et al.,Identification of preexisting adaptiveimmunity to Cas9 proteins in humans.Nat Med 25,249-254(2019).
12.D.L.Wagner et al.,High prevalence of Streptococcus pyogenes Cas9-reactive T cells within the adult human population.Nat Med 25,242-248(2019).
13.C.Anders,O.Niewoehner,A.Duerst,M.Jinek,Structural basis of PAM-dependent target DNA recognition by the Cas9 endonuclease.Nature 513,569-573(2014).
14.H.Nishimasu et al.,Crystal structure of Cas9 in complex with guideRNA and target DNA.Cell 156,935-949(2014).
15.I.Sadowski,J.Ma,S.Triezenberg,M.Ptashne,GAL4-VP16 is an unusuallypotent transcriptional activator.Nature 335,563-564(1988).
16.A.Chavez et al.,Highly efficient Cas9-mediated transcriptionalprogramming.Nat Methods 12,326-328(2015).
17.C.C.Wilkens MS,Pearl J,Schanzer E,Liao H,Van Biber B,Quietsch K,Bloom J,Federation A,Acosta R,Vong S,Otterman E,Dunn D,Wang H,Zraszhevskiy P,Nandakumar V,Bates D,Sandstrom R,Urnov FD,Funnell A,Green S,andStamatoyannopoulos JA,Quantitative dialing of gene expression via precisiontargeting of KRAB repressors.BioRxiv,(2021).
18.S.A.Wolfe,L.Nekludova,C.O.Pabo,DNA recognition by Cys2His2 zincfinger proteins.Annu Rev Biophys Biomol Struct 29,183-212(2000).
19.A.Klug,The discovery of zinc fingers and their applications ingene regulation and genome manipulation.Annu Rev Biochem 79,213-231(2010).
20.S.A.Lambert et al.,The Human Transcription Factors.Cell 175,598-599(2018).
21.M.Imbeault,P.Y.Helleboid,D.Trono,KRAB zinc-finger proteinscontribute to the evolution of gene regulatory networks.Nature 543,550-554(2017).
22.S.V.Razin,V.V.Borunova,O.G.Maksimenko,O.L.Kantidze,Cys2His2 zincfinger protein family:classification,functions,and major members.Biochemistry(Mosc)77,217-226(2012).
23.S.Sydor et al.,Kruppel-like factor 6 is a transcriptionalactivator of autophagy in acute liver injury.Sci Rep 7,8119(2017).
24.H.A.Greisman,C.O.Pabo,A general strategy for selecting high-affinity zinc finger proteins for diverse DNA target sites.Science 275,657-661(1997).
25.M.Isalan,A.Klug,Y.Choo,A rapid,generally applicable method toengineer zinc fingers illustrated by targeting the HIV-1 promoter.NatBiotechnol 19,656-660(2001).
26.D.J.Segal,B.Dreier,R.R.Beerli,C.F.Barbas,3rd,Toward controllinggene expression at will:selection and design of zinc finger domainsrecognizing each of the 5'-GNN-3'DNA target sequences.Proc Natl Acad Sci U SA 96,2758-2763(1999).
27.M.L.Maeder et al.,Rapid"open-source"engineering of customizedzinc-finger nucleases for highly efficient gene modification.Mol Cell 31,294-301(2008).
28.A.Gupta et al.,An optimized two-finger archive for ZFN-mediatedgene targeting.Nat Methods 9,588-590(2012).
29.Y.Choo,A.Klug,Toward a code for the interactions of zinc fingerswith DNA:selection of randomized fingers displayed on phage.Proc Natl AcadSci U S A 91,11163-11167(1994).
30.B.Dreier,R.R.Beerli,D.J.Segal,J.D.Flippin,C.F.Barbas,3rd,Development of zinc finger domains for recognition of the 5'-ANN-3'family ofDNA sequences and their use in the construction of artificial transcriptionfactors.J Biol Chem 276,29466-29478(2001).
31.B.Dreier et al.,Development of zinc finger domains for recognitionof the 5'-CNN-3'family DNA sequences and their use in the construction ofartificial transcription factors.J Biol Chem 280,35588-35597(2005).
32.E.J.Rebar,C.O.Pabo,Zinc finger phage:affinity selection of fingerswith new DNA-binding specificities.Science 263,671-673(1994).
33.C.Zhu et al.,Using defined finger-finger interfaces as units ofassembly for constructing zinc-finger nucleases.Nucleic Acids Res 41,2455-2465(2013).
34.T.Kim et al.,MUSI:an integrated system for identifying multiplespecificity from very large peptide or nucleic acid data sets.Nucleic AcidsRes 40,e47(2012).
35.A.L.Mueller et al.,The geometric influence on the Cys2His2 zincfinger domain and functional plasticity.Nucleic Acids Res 48,6382-6402(2020).
36.A.R.Leach,A.P.Lemon,Exploring the conformational space of proteinside chains using dead-end elimination and the A*algorithm.Proteins 33,227-239(1998).
37.G.V.Ingraham J,Barzilay R,and Jaakkola T.,in Advnaces of NeuralInformation Processing Systems 32.(2019).
38.E.M.Handel et al.,Versatile and efficient genome editing in humancells by combining zinc-finger nucleases with adeno-associated viralvectors.Hum Gene Ther 23,321-329(2012).
39.D.Reyon et al.,FLASH assembly of TALENs for high-throughput genomeediting.Nat Biotechnol 30,460-465(2012).
40.B.P.Kleinstiver et al.,Engineered CRISPR-Cas9 nucleases withaltered PAM specificities.Nature 523,481-485(2015).
41.D.E.Paschon et al.,Diversifying the structure of zinc fingernucleases for high-precision genome editing.Nat Commun 10,1133(2019).
42.M.S.Bhakta et al.,Highly active zinc-finger nucleases by extendedmodular assembly.Genome Res 23,530-538(2013).
43.N.Alerasool,D.Segal,H.Lee,M.Taipale,An efficient KRAB domain forCRISPRi applications in human cells.Nat Methods 17,1093-1096(2020).
44.A.S.Khalil et al.,A synthetic biology framework for programmingeukaryotic transcription functions.Cell 150,647-658(2012).
45.J.C.Miller et al.,Enhancing gene editing specificity byattenuating DNA cleavage kinetics.Nat Biotechnol 37,945-952(2019).
46.A.V.Persikov,E.F.Rowland,B.L.Oakes,M.Singh,M.B.Noyes,Deepsequencing of large library selections allows computational discovery ofdiverse sets of zinc fingers that bind common targets.Nucleic Acids Res 42,1497-1508(2014).
47.A.L.Mueller et al.,The geometric influence on the Cys2His2 zincfinger domain and functional plasticity.Nucleic Acids Research 48,6382-6402(2020).
48.M.Garton et al.,A structural approach reveals how neighbouringC2H2 zinc fingers influence DNA binding specificity.Nucleic Acids Research43,9147-9157(2015).
49.M.Elrod-Erickson,M.A.Rould,L.Nekludova,C.O.Pabo,Zif268 protein–DNA complex refined at 1.6å:a model system for understanding zincfinger–DNA interactions.Structure 4,1171-1180(1996).
50.D.A.Case et al.,The Amber biomolecular simulation programs.Journalof computational chemistry 26,1668-1688(2005)。
序列表
<110> 纽约大学(NEW YOUK UNIVERSITY)
<120> 将工程锌指无缝整合到内源转录因子中以利用其自然功能
<130> PIIB6230362P
<150> 63/145,929
<151> 2021-02-04
<160> 95
<170> PatentIn version 3.5
<210> 1
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 1
Asn Ser Thr Ala Leu Gln Ala Arg Asn Asp Ser Arg
1 5 10
<210> 2
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 2
Asn Asn Asn Ala Cys Ala Ala Ala Gly
1 5
<210> 3
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 3
Asn Asn Asn Ala Cys Ala Ala Ala Gly
1 5
<210> 4
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 4
Arg Ser Asp Asn Arg Ala
1 5
<210> 5
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 5
Gln Leu Ala Thr Ser Asn
1 5
<210> 6
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 6
Asp Gln Ser Asn Thr Arg
1 5
<210> 7
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 7
Phe Gln Ser Gly Ile Gln
1 5
<210> 8
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 8
His Lys Arg Asn Thr Asp
1 5
<210> 9
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 9
Asp Gln Ser Ala Leu Gly
1 5
<210> 10
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 10
Thr Lys Gln Asn Thr His
1 5
<210> 11
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 11
Gln Leu Ala Thr Ser Tyr
1 5
<210> 12
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 12
Arg Asn Gly Asn Thr Arg
1 5
<210> 13
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 13
Tyr Gln Pro Asn Ile Asn
1 5
<210> 14
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 14
agtcgcccag ctgggggcgg g 21
<210> 15
<211> 40
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 15
Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser
1 5 10 15
Thr Val Trp Tyr Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn
20 25 30
Pro Gln Arg Ser Thr Val Trp Tyr
35 40
<210> 16
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 16
Ala Glu Lys Asn Gln Arg Thr Val
1 5
<210> 17
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 17
Ala Asp His Asn Ser Thr Val
1 5
<210> 18
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 18
Ala Asp His Lys Asn Gln Arg Ser
1 5
<210> 19
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 19
Asn Lys Arg Ser
1
<210> 20
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 20
Ala Asp His Asn Gln Arg Thr
1 5
<210> 21
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 21
Ala Glu Lys Asn Gln Arg Thr Val
1 5
<210> 22
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 22
Asp His Asn Ser Thr Val
1 5
<210> 23
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 23
Arg Ser Asp Asn Leu Arg Ala
1 5
<210> 24
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 24
Arg Ser Asp Asn Leu Arg Ala
1 5
<210> 25
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 25
Gln Leu Ala Thr Leu Ser Asn
1 5
<210> 26
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 26
Asp Gln Ser Asn Leu Thr Arg
1 5
<210> 27
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 27
Asp Gln Ser Asn Leu Thr Arg
1 5
<210> 28
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 28
Phe Gln Ser Gly Leu Ile Gln
1 5
<210> 29
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 29
His Lys Arg Asn Leu Thr Asp
1 5
<210> 30
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 30
Asp Gln Ser Ala Leu Leu Gly
1 5
<210> 31
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 31
Thr Lys Gln Asn Leu Thr His
1 5
<210> 32
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 32
Gln Leu Ala Thr Leu Ser Tyr
1 5
<210> 33
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 33
Tyr Gln Pro Asn Leu Ile Asn
1 5
<210> 34
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 34
Ala Arg Asn Asp Ser Arg
1 5
<210> 35
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 35
Ala Arg Asn Asp Ser Arg
1 5
<210> 36
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 36
Asn Ser Thr Ala Leu Gln
1 5
<210> 37
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 37
Arg Thr Asn Ser Gln Asp
1 5
<210> 38
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 38
Arg Asn Thr Asn Ser Gln Asp
1 5
<210> 39
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 39
Gln Ile Gly Ser Gln Phe
1 5
<210> 40
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 40
Asp Thr Asn Arg Lys His
1 5
<210> 41
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 41
Gly Leu Ala Ser Gln Asp
1 5
<210> 42
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 42
His Thr Asn Gln Lys Thr
1 5
<210> 43
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 43
Tyr Ser Thr Ala Leu Gln
1 5
<210> 44
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 44
Arg Thr Asn Gly Asn Arg
1 5
<210> 45
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 45
Asn Ile Asn Pro Gln Tyr
1 5
<210> 46
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 46
gtctctatca ctgataggga ga 22
<210> 47
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 47
gtctctatca ctgataggga g 21
<210> 48
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 48
tctctatcac tgatagggag a 21
<210> 49
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 49
tctccctatc agtgatagag ac 22
<210> 50
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 50
tctccctatc agtgatagag a 21
<210> 51
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 51
ctccctatca gtgatagaga c 21
<210> 52
<211> 42
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 52
Gln Lys Val His Leu Gln Ser Arg Lys Trp Thr Leu Ser Val Arg Lys
1 5 10 15
Gly Thr Leu Gln Asp Gln Tyr Ser Ser Leu Tyr Lys Arg Lys Gly Asp
20 25 30
Leu Asn Lys Asp Pro Ser Ser Leu Arg Arg
35 40
<210> 53
<211> 42
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 53
Arg Lys Tyr Asn Leu Leu Arg Arg Arg Tyr Ser Leu Ser Ala Gln Lys
1 5 10 15
Ala His Leu Leu Ser Asp Pro Ser Asn Leu Arg Arg Gln Lys Arg Leu
20 25 30
Leu Gln Asn Trp Lys Val Asp Leu Arg Lys
35 40
<210> 54
<211> 42
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 54
Arg Lys Phe Asn Leu Leu Arg Gln Ser Asn Thr Leu Arg Thr Leu Lys
1 5 10 15
His His Leu Leu Asn Thr Ser Ser Gly Leu Cys His Glu Lys Arg Thr
20 25 30
Leu Leu Asn Trp Lys Val Asp Leu Arg Lys
35 40
<210> 55
<211> 42
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 55
Gln Lys Thr His Leu Leu Thr Arg Arg Asp Tyr Leu Thr Lys Arg Lys
1 5 10 15
Phe Thr Leu Leu Arg Gln Ser Asn Asp Leu Arg Lys Leu Lys Gln Thr
20 25 30
Leu Gln Asp Arg Arg Asp Arg Leu Arg Arg
35 40
<210> 56
<211> 341
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 56
Met Asn Asn Ser Gln Gly Arg Val Thr Phe Glu Asp Val Thr Val Asn
1 5 10 15
Phe Thr Gln Gly Glu Trp Gln Arg Leu Asn Pro Glu Gln Arg Asn Leu
20 25 30
Tyr Arg Asp Val Met Leu Glu Asn Tyr Ser Asn Leu Val Ser Val Gly
35 40 45
Gln Gly Glu Thr Thr Lys Pro Asp Val Ile Leu Arg Leu Glu Gln Gly
50 55 60
Lys Glu Pro Trp Leu Glu Glu Glu Glu Val Leu Gly Ser Gly Arg Ala
65 70 75 80
Glu Lys Asn Gly Asp Ile Gly Gly Gln Ile Trp Lys Pro Lys Asp Val
85 90 95
Lys Glu Ser Leu Ala Arg Glu Val Pro Ser Ile Asn Lys Glu Thr Leu
100 105 110
Thr Thr Gln Lys Gly Val Glu Cys Asp Gly Ser Lys Lys Ile Leu Pro
115 120 125
Leu Gly Ile Asp Asp Val Ser Ser Leu Gln His Tyr Val Gln Asn Asn
130 135 140
Ser His Asp Asp Asn Gly Tyr Arg Lys Leu Val Gly Asn Asn Pro Ser
145 150 155 160
Lys Phe Val Gly Gln Gln Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
165 170 175
Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile His Thr Gly Glu
180 185 190
Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Gln Ser Asn
195 200 205
Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro
210 215 220
Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Leu Lys
225 230 235 240
His His Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe
245 250 255
Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser Ser Gly Leu Cys
260 265 270
His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro
275 280 285
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Lys Arg Thr Leu
290 295 300
Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp
305 310 315 320
Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu Arg Lys His Thr
325 330 335
Lys Ile His Ser Arg
340
<210> 57
<211> 373
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 57
Met Asp Val Leu Pro Met Cys Ser Ile Phe Gln Glu Leu Gln Ile Val
1 5 10 15
His Glu Thr Gly Tyr Phe Ser Ala Leu Pro Ser Leu Glu Glu Tyr Trp
20 25 30
Gln Gln Thr Cys Leu Glu Leu Glu Arg Tyr Leu Gln Ser Glu Pro Cys
35 40 45
Tyr Val Ser Ala Ser Glu Ile Lys Phe Asp Ser Gln Glu Asp Leu Trp
50 55 60
Thr Lys Ile Ile Leu Ala Arg Glu Lys Lys Glu Glu Ser Glu Leu Lys
65 70 75 80
Ile Ser Ser Ser Pro Pro Glu Asp Thr Leu Ile Ser Pro Ser Phe Cys
85 90 95
Tyr Asn Leu Glu Thr Asn Ser Leu Asn Ser Asp Val Ser Ser Glu Ser
100 105 110
Ser Asp Ser Ser Glu Glu Leu Ser Pro Thr Ala Lys Phe Thr Ser Asp
115 120 125
Pro Ile Gly Glu Val Leu Val Ser Ser Gly Lys Leu Ser Ser Ser Val
130 135 140
Thr Ser Thr Pro Pro Ser Ser Pro Glu Leu Ser Arg Glu Pro Ser Gln
145 150 155 160
Leu Trp Gly Cys Val Pro Gly Glu Leu Pro Ser Pro Gly Lys Val Arg
165 170 175
Ser Gly Thr Ser Gly Lys Pro Gly Asp Lys Gly Asn Gly Asp Ala Ser
180 185 190
Pro Asp Gly Arg Arg Arg Val Phe Ala Cys Asp Ile Cys Gly Arg Lys
195 200 205
Phe Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile His Thr Gly
210 215 220
Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Gln Ser
225 230 235 240
Asn Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg Pro Gln Ile
245 250 255
Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Leu
260 265 270
Lys His His Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro
275 280 285
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser Ser Gly Leu
290 295 300
Cys His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys
305 310 315 320
Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Lys Arg Thr
325 330 335
Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys
340 345 350
Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu Arg Lys His
355 360 365
Thr Lys Ile His Leu
370
<210> 58
<211> 471
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 58
Met Asp Ala Lys Ser Leu Thr Ala Trp Ser Arg Thr Leu Val Thr Phe
1 5 10 15
Lys Asp Val Phe Val Asp Phe Thr Arg Glu Glu Trp Lys Leu Leu Asp
20 25 30
Thr Ala Gln Gln Ile Val Tyr Arg Asn Val Met Leu Glu Asn Tyr Lys
35 40 45
Asn Leu Val Ser Leu Gly Tyr Gln Leu Thr Lys Pro Asp Val Ile Leu
50 55 60
Arg Leu Glu Lys Gly Glu Glu Pro Trp Leu Val Glu Arg Glu Ile His
65 70 75 80
Gln Glu Thr His Pro Asp Ser Glu Thr Ala Phe Glu Ile Lys Ser Ser
85 90 95
Val Ser Ser Arg Ser Ile Phe Lys Asp Lys Gln Ser Cys Asp Ile Lys
100 105 110
Met Glu Gly Met Ala Arg Asn Asp Leu Trp Tyr Leu Ser Leu Glu Glu
115 120 125
Val Trp Lys Cys Arg Asp Gln Leu Asp Lys Tyr Gln Glu Asn Pro Glu
130 135 140
Arg His Leu Arg Gln Val Ala Phe Thr Gln Lys Lys Val Leu Thr Gln
145 150 155 160
Glu Arg Val Ser Glu Ser Gly Lys Tyr Gly Gly Asn Cys Leu Leu Pro
165 170 175
Ala Gln Leu Val Leu Arg Glu Tyr Phe His Lys Arg Asp Ser His Thr
180 185 190
Lys Ser Leu Lys His Asp Leu Val Leu Asn Gly His Gln Asp Ser Cys
195 200 205
Ala Ser Asn Ser Asn Glu Cys Gly Gln Thr Phe Cys Gln Asn Ile His
210 215 220
Leu Ile Gln Phe Ala Arg Thr His Thr Gly Asp Lys Ser Tyr Lys Cys
225 230 235 240
Pro Asp Asn Asp Asn Ser Leu Thr His Gly Ser Ser Leu Gly Ile Ser
245 250 255
Lys Gly Ile His Arg Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg
260 265 270
Lys Phe Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile His Thr
275 280 285
Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Gln
290 295 300
Ser Asn Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg Pro Gln
305 310 315 320
Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala
325 330 335
Leu Lys His His Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys
340 345 350
Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser Ser Gly
355 360 365
Leu Cys His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro
370 375 380
Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Lys Arg
385 390 395 400
Thr Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala
405 410 415
Cys Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu Arg Lys
420 425 430
His Thr Lys Ile His Thr Gly Glu Gln Phe Leu Thr Cys Asn Gln Cys
435 440 445
Gly Thr Ala Leu Val Asn Thr Ser Asn Leu Ile Gly Tyr Gln Thr Asn
450 455 460
His Ile Arg Glu Asn Ala Tyr
465 470
<210> 59
<211> 441
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 59
Met Ala Ala Ala Val Leu Thr Asp Arg Ala Gln Val Ser Val Thr Phe
1 5 10 15
Asp Asp Val Ala Val Thr Phe Thr Lys Glu Glu Trp Gly Gln Leu Asp
20 25 30
Leu Ala Gln Arg Thr Leu Tyr Gln Glu Val Met Leu Glu Asn Cys Gly
35 40 45
Leu Leu Val Ser Leu Gly Cys Pro Val Pro Lys Ala Glu Leu Ile Cys
50 55 60
His Leu Glu His Gly Gln Glu Pro Trp Thr Arg Lys Glu Asp Leu Ser
65 70 75 80
Gln Asp Thr Cys Pro Gly Asp Lys Gly Lys Pro Lys Thr Thr Glu Pro
85 90 95
Thr Thr Cys Glu Pro Ala Leu Ser Glu Gly Ile Ser Leu Gln Gly Gln
100 105 110
Val Thr Gln Gly Asn Ser Val Asp Ser Gln Leu Gly Gln Ala Glu Asp
115 120 125
Gln Asp Gly Leu Ser Glu Met Gln Glu Gly His Phe Arg Pro Gly Ile
130 135 140
Asp Pro Gln Glu Lys Ser Pro Gly Lys Met Ser Pro Glu Cys Asp Gly
145 150 155 160
Leu Gly Thr Ala Asp Gly Val Cys Ser Arg Ile Gly Gln Glu Gln Val
165 170 175
Ser Pro Gly Asp Arg Val Arg Ser His Asn Ser Cys Glu Ser Gly Lys
180 185 190
Asp Pro Met Ile Gln Glu Glu Glu Asn Asn Phe Ala Cys Asp Ile Cys
195 200 205
Gly Arg Lys Phe Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile
210 215 220
His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
225 230 235 240
Ala Gln Ser Asn Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg
245 250 255
Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys
260 265 270
Phe Ala Leu Lys His His Leu Leu Asn His Thr Arg Ile His Thr Gly
275 280 285
Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser
290 295 300
Ser Gly Leu Cys His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile
305 310 315 320
Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu
325 330 335
Lys Arg Thr Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro
340 345 350
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu
355 360 365
Arg Lys His Thr Lys Ile His Thr Gly Lys Asn Pro Ile Ser Val Thr
370 375 380
Asp Val Gly Arg Pro Phe Thr Ser Gly Gln Thr Ser Val Thr Leu Arg
385 390 395 400
Glu Leu Leu Leu Gly Lys Asp Phe Leu Asn Val Thr Thr Glu Ala Asn
405 410 415
Ile Leu Pro Glu Glu Thr Ser Ser Ser Ala Ser Asp Gln Pro Tyr Gln
420 425 430
Arg Glu Thr Pro Gln Val Ser Ser Leu
435 440
<210> 60
<211> 479
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 60
Met Ala Phe Glu Asp Val Ala Val Tyr Phe Ser Gln Glu Glu Trp Gly
1 5 10 15
Leu Leu Asp Thr Ala Gln Arg Ala Leu Tyr Arg Arg Val Met Leu Asp
20 25 30
Asn Phe Ala Leu Val Ala Ser Leu Gly Leu Ser Thr Ser Arg Pro Arg
35 40 45
Val Val Ile Gln Leu Glu Arg Gly Glu Glu Pro Trp Val Pro Ser Gly
50 55 60
Thr Asp Thr Thr Leu Ser Arg Thr Thr Tyr Arg Arg Arg Asn Pro Gly
65 70 75 80
Ser Trp Ser Leu Thr Glu Asp Arg Asp Val Ser Gly Glu Trp Pro Arg
85 90 95
Ala Phe Pro Asp Thr Pro Pro Gly Met Thr Thr Ser Val Phe Pro Val
100 105 110
Ala Gly Ala Cys His Ser Val Lys Ser Leu Gln Arg Gln Arg Gly Ala
115 120 125
Ser Pro Ser Arg Glu Arg Lys Pro Thr Gly Val Ser Val Ile Tyr Trp
130 135 140
Glu Arg Leu Leu Leu Gly Ser Gly Ser Gly Gln Ala Ser Val Ser Leu
145 150 155 160
Arg Leu Thr Ser Pro Leu Arg Pro Pro Glu Gly Val Arg Leu Arg Glu
165 170 175
Lys Thr Leu Thr Glu His Ala Leu Leu Gly Arg Gln Pro Arg Thr Pro
180 185 190
Glu Arg Gln Lys Pro Cys Ala Gln Glu Val Pro Gly Arg Thr Phe Gly
195 200 205
Ser Ala Gln Asp Leu Glu Ala Ala Gly Gly Arg Gly His His Arg Met
210 215 220
Gly Ala Val Trp Gln Glu Pro His Arg Leu Leu Gly Gly Gln Glu Pro
225 230 235 240
Ser Thr Trp Asp Glu Leu Gly Glu Ala Leu His Ala Gly Glu Lys Ser
245 250 255
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg Lys Phe Asn Leu
260 265 270
Leu Arg His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp
275 280 285
Ile Cys Gly Arg Lys Phe Ala Gln Ser Asn Thr Leu Arg Thr His Thr
290 295 300
Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys
305 310 315 320
Asp Ile Cys Gly Arg Lys Phe Ala Leu Lys His His Leu Leu Asn His
325 330 335
Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly
340 345 350
Arg Lys Phe Ala Thr Ser Ser Gly Leu Cys His His Thr Lys Ile His
355 360 365
Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys
370 375 380
Gly Arg Lys Phe Ala Glu Lys Arg Thr Leu Leu Asn His Thr Arg Ile
385 390 395 400
His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
405 410 415
Ala Trp Lys Val Asp Leu Arg Lys His Thr Lys Ile His Thr Gly Glu
420 425 430
Lys Thr Val Arg Arg Ser Arg Ala Ser Leu His Pro Gln Ala Arg Ser
435 440 445
Val Ala Gly Ala Ser Ser Glu Gly Ala Pro Ala Lys Glu Thr Glu Pro
450 455 460
Thr Pro Ala Ser Gly Pro Ala Ala Val Ser Gln Pro Ala Glu Val
465 470 475
<210> 61
<211> 392
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 61
Met Asp Val Leu Ala Ser Tyr Ser Ile Phe Gln Glu Leu Gln Leu Val
1 5 10 15
His Asp Thr Gly Tyr Phe Ser Ala Leu Pro Ser Leu Glu Glu Thr Trp
20 25 30
Gln Gln Thr Cys Leu Glu Leu Glu Arg Tyr Leu Gln Thr Glu Pro Arg
35 40 45
Arg Ile Ser Glu Thr Phe Gly Glu Asp Leu Asp Cys Phe Leu His Ala
50 55 60
Ser Pro Pro Pro Cys Ile Glu Glu Ser Phe Arg Arg Leu Asp Pro Leu
65 70 75 80
Leu Leu Pro Val Glu Ala Ala Ile Cys Glu Lys Ser Ser Ala Val Asp
85 90 95
Ile Leu Leu Ser Arg Asp Lys Leu Leu Ser Glu Thr Cys Leu Ser Leu
100 105 110
Gln Pro Ala Ser Ser Ser Leu Asp Ser Tyr Thr Ala Val Asn Gln Ala
115 120 125
Gln Leu Asn Ala Val Thr Ser Leu Thr Pro Pro Ser Ser Pro Glu Leu
130 135 140
Ser Arg His Leu Val Lys Thr Ser Gln Thr Leu Ser Ala Val Asp Gly
145 150 155 160
Thr Val Thr Leu Lys Leu Val Ala Lys Lys Ala Ala Leu Ser Ser Val
165 170 175
Lys Val Gly Gly Val Ala Thr Ala Ala Ala Ala Val Thr Ala Ala Gly
180 185 190
Ala Val Lys Ser Gly Gln Ser Asp Ser Asp Gln Gly Gly Leu Gly Ala
195 200 205
Glu Ala Cys Pro Glu Asn Lys Lys Arg Val Phe Ala Cys Asp Ile Cys
210 215 220
Gly Arg Lys Phe Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile
225 230 235 240
His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
245 250 255
Ala Gln Ser Asn Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg
260 265 270
Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys
275 280 285
Phe Ala Leu Lys His His Leu Leu Asn His Thr Arg Ile His Thr Gly
290 295 300
Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser
305 310 315 320
Ser Gly Leu Cys His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile
325 330 335
Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu
340 345 350
Lys Arg Thr Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro
355 360 365
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu
370 375 380
Arg Lys His Thr Lys Ile His Ile
385 390
<210> 62
<211> 379
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 62
Met Asp Leu Lys Leu Lys Asp Cys Glu Phe Trp Tyr Ser Leu His Gly
1 5 10 15
Gln Val Pro Gly Leu Leu Asp Trp Asp Met Arg Asn Glu Leu Phe Leu
20 25 30
Pro Cys Thr Thr Asp Gln Cys Ser Leu Ala Glu Gln Ile Leu Ala Lys
35 40 45
Tyr Arg Val Gly Val Met Lys Pro Pro Glu Met Pro Gln Lys Arg Arg
50 55 60
Pro Ser Pro Asp Gly Asp Gly Pro Pro Cys Glu Pro Asn Leu Trp Met
65 70 75 80
Trp Val Asp Pro Asn Ile Leu Cys Pro Leu Gly Ser Gln Glu Ala Pro
85 90 95
Lys Pro Ser Gly Lys Glu Asp Leu Thr Asn Ile Ser Pro Phe Pro Gln
100 105 110
Pro Pro Gln Lys Asp Glu Gly Ser Asn Cys Ser Glu Asp Lys Val Val
115 120 125
Glu Ser Leu Pro Ser Ser Ser Ser Glu Gln Ser Pro Leu Gln Lys Gln
130 135 140
Gly Ile His Ser Pro Ser Asp Phe Glu Leu Thr Glu Glu Glu Ala Glu
145 150 155 160
Glu Pro Asp Asp Asn Ser Leu Gln Ser Pro Glu Met Lys Cys Tyr Gln
165 170 175
Ser Gln Lys Leu Trp Gln Ile Asn Asn Gln Glu Lys Ser Phe Ala Cys
180 185 190
Asp Ile Cys Gly Arg Lys Phe Ala Arg Lys Phe Asn Leu Leu Arg His
195 200 205
Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly
210 215 220
Arg Lys Phe Ala Gln Ser Asn Thr Leu Arg Thr His Thr Lys Ile His
225 230 235 240
Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys
245 250 255
Gly Arg Lys Phe Ala Leu Lys His His Leu Leu Asn His Thr Arg Ile
260 265 270
His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
275 280 285
Ala Thr Ser Ser Gly Leu Cys His His Thr Lys Ile His Thr Gln Arg
290 295 300
Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys
305 310 315 320
Phe Ala Glu Lys Arg Thr Leu Leu Asn His Thr Arg Ile His Thr Gly
325 330 335
Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys
340 345 350
Val Asp Leu Arg Lys His Thr Lys Ile His Ile Gln Glu Cys Met Ser
355 360 365
Gln Pro Glu Leu Leu Thr Ser Leu Phe Asp Leu
370 375
<210> 63
<211> 729
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 63
Met Asp Leu Pro Ala Leu Leu Pro Ala Pro Thr Ala Arg Gly Gly Gln
1 5 10 15
His Gly Gly Gly Pro Gly Pro Leu Arg Arg Ala Pro Ala Pro Leu Gly
20 25 30
Ala Ser Pro Ala Arg Arg Arg Leu Leu Leu Val Arg Gly Pro Glu Asp
35 40 45
Gly Gly Pro Gly Ala Arg Pro Gly Glu Ala Ser Gly Pro Ser Pro Pro
50 55 60
Pro Ala Glu Asp Asp Ser Asp Gly Asp Ser Phe Leu Val Leu Leu Glu
65 70 75 80
Val Pro His Gly Gly Ala Ala Ala Glu Ala Ala Gly Ser Gln Glu Ala
85 90 95
Glu Pro Gly Ser Arg Val Asn Leu Ala Ser Arg Pro Glu Gln Gly Pro
100 105 110
Ser Gly Pro Ala Ala Pro Pro Gly Pro Gly Val Ala Pro Ala Gly Ala
115 120 125
Val Thr Ile Ser Ser Gln Asp Leu Leu Val Arg Leu Asp Arg Gly Val
130 135 140
Leu Ala Leu Ser Ala Pro Pro Gly Pro Ala Thr Ala Gly Ala Ala Ala
145 150 155 160
Pro Arg Arg Ala Pro Gln Ala Ser Gly Pro Ser Thr Pro Gly Phe Ala
165 170 175
Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg Lys Phe Asn Leu Leu Arg
180 185 190
His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys
195 200 205
Gly Arg Lys Phe Ala Gln Ser Asn Thr Leu Arg Thr His Thr Lys Ile
210 215 220
His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile
225 230 235 240
Cys Gly Arg Lys Phe Ala Leu Lys His His Leu Leu Asn His Thr Arg
245 250 255
Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys
260 265 270
Phe Ala Thr Ser Ser Gly Leu Cys His His Thr Lys Ile His Thr Gln
275 280 285
Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg
290 295 300
Lys Phe Ala Glu Lys Arg Thr Leu Leu Asn His Thr Arg Ile His Thr
305 310 315 320
Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Trp
325 330 335
Lys Val Asp Leu Arg Lys His Thr Lys Ile His Ser Arg Arg Gln Asp
340 345 350
Leu Leu Pro Gln Leu Glu Ala Pro Ser Ser Leu Thr Pro Ser Ser Glu
355 360 365
Leu Ser Ser Pro Gly Gln Ser Glu Leu Thr Asn Met Asp Leu Ala Ala
370 375 380
Leu Phe Ser Asp Thr Pro Ala Asn Ala Ser Gly Ser Ala Gly Gly Ser
385 390 395 400
Asp Glu Ala Leu Asn Ser Gly Ile Leu Thr Ile Asp Val Thr Ser Val
405 410 415
Ser Ser Ser Leu Gly Gly Asn Leu Pro Ala Asn Asn Ser Ser Leu Gly
420 425 430
Pro Met Glu Pro Leu Val Leu Val Ala His Ser Asp Ile Pro Pro Ser
435 440 445
Leu Asp Ser Pro Leu Val Leu Gly Thr Ala Ala Thr Val Leu Gln Gln
450 455 460
Gly Ser Phe Ser Val Asp Asp Val Gln Thr Val Ser Ala Gly Ala Leu
465 470 475 480
Gly Cys Leu Val Ala Leu Pro Met Lys Asn Leu Ser Asp Asp Pro Leu
485 490 495
Ala Leu Thr Ser Asn Ser Asn Leu Ala Ala His Ile Thr Thr Pro Thr
500 505 510
Ser Ser Ser Thr Pro Arg Glu Asn Ala Ser Val Pro Glu Leu Leu Ala
515 520 525
Pro Ile Lys Val Glu Pro Asp Ser Pro Ser Arg Pro Gly Ala Val Gly
530 535 540
Gln Gln Glu Gly Ser His Gly Leu Pro Gln Ser Thr Leu Pro Ser Pro
545 550 555 560
Ala Glu Gln His Gly Ala Gln Asp Thr Glu Leu Ser Ala Gly Thr Gly
565 570 575
Asn Phe Tyr Leu Glu Ser Gly Gly Ser Ala Arg Thr Asp Tyr Arg Ala
580 585 590
Ile Gln Leu Ala Lys Glu Lys Lys Gln Arg Gly Ala Gly Ser Asn Ala
595 600 605
Gly Ala Ser Gln Ser Thr Gln Arg Lys Ile Lys Glu Gly Lys Met Ser
610 615 620
Pro Pro His Phe His Ala Ser Gln Asn Ser Trp Leu Cys Gly Ser Leu
625 630 635 640
Val Val Pro Ser Gly Gly Arg Pro Gly Pro Ala Pro Ala Ala Gly Val
645 650 655
Gln Cys Gly Ala Gln Gly Val Gln Val Gln Leu Val Gln Asp Asp Pro
660 665 670
Ser Gly Glu Gly Val Leu Pro Ser Ala Arg Gly Pro Ala Thr Phe Leu
675 680 685
Pro Phe Leu Thr Val Asp Leu Pro Val Tyr Val Leu Gln Glu Val Leu
690 695 700
Pro Ser Ser Gly Gly Pro Ala Gly Pro Glu Ala Thr Gln Phe Pro Gly
705 710 715 720
Ser Thr Ile Asn Leu Gln Asp Leu Gln
725
<210> 64
<211> 56
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 64
Arg Lys Trp Asn Leu Leu Met Arg Ser Thr Asn Leu Arg Asp Tyr Pro
1 5 10 15
Tyr Leu Leu Arg Asn Glu Arg Ser Lys Leu Arg Arg Arg Val Asp Thr
20 25 30
Leu Leu Asp His Leu Ser Asn Leu Arg Lys Asp Pro Ser Ala Leu Ile
35 40 45
Arg Arg Leu Asp Val Leu Arg Ala
50 55
<210> 65
<211> 402
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 65
Met Asn Asn Ser Gln Gly Arg Val Thr Phe Glu Asp Val Thr Val Asn
1 5 10 15
Phe Thr Gln Gly Glu Trp Gln Arg Leu Asn Pro Glu Gln Arg Asn Leu
20 25 30
Tyr Arg Asp Val Met Leu Glu Asn Tyr Ser Asn Leu Val Ser Val Gly
35 40 45
Gln Gly Glu Thr Thr Lys Pro Asp Val Ile Leu Arg Leu Glu Gln Gly
50 55 60
Lys Glu Pro Trp Leu Glu Glu Glu Glu Val Leu Gly Ser Gly Arg Ala
65 70 75 80
Glu Lys Asn Gly Asp Ile Gly Gly Gln Ile Trp Lys Pro Lys Asp Val
85 90 95
Lys Glu Ser Leu Ala Arg Glu Val Pro Ser Ile Asn Lys Glu Thr Leu
100 105 110
Thr Thr Gln Lys Gly Val Glu Cys Asp Gly Ser Lys Lys Ile Leu Pro
115 120 125
Leu Gly Ile Asp Asp Val Ser Ser Leu Gln His Tyr Val Gln Asn Asn
130 135 140
Ser His Asp Asp Asn Gly Tyr Arg Lys Leu Val Gly Asn Asn Pro Ser
145 150 155 160
Lys Phe Val Gly Gln Gln Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
165 170 175
Ala Arg Lys Trp Asn Leu Leu Met His Thr Arg Ile His Thr Gly Glu
180 185 190
Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Thr
195 200 205
Asn Leu Arg Asp His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro
210 215 220
Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Tyr Pro
225 230 235 240
Tyr Leu Leu Arg Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe
245 250 255
Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Arg Ser Lys Leu Arg
260 265 270
Arg His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro
275 280 285
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg Val Asp Thr Leu
290 295 300
Leu Asp His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp
305 310 315 320
Ile Cys Gly Arg Lys Phe Ala His Leu Ser Asn Leu Arg Lys His Thr
325 330 335
Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro Phe Ala Cys
340 345 350
Asp Ile Cys Gly Arg Lys Phe Ala Asp Pro Ser Ala Leu Ile Arg His
355 360 365
Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly
370 375 380
Arg Lys Phe Ala Arg Leu Asp Val Leu Arg Ala His Thr Lys Ile His
385 390 395 400
Ser Arg
<210> 66
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 66
ctggtcgtat ccggggcagc ggagcagg 28
<210> 67
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 67
gccaatgggc ggtgcgcggg ggccgggc 28
<210> 68
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 68
ggccgcggcg gggcggggca gcggggcg 28
<210> 69
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 69
ggggcggccg ccaatcgccg tggtgttg 28
<210> 70
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 锌指靶标序列
<400> 70
ttgaaactga aaatactaca ttatgcta 28
<210> 71
<211> 56
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 71
Arg Lys Tyr His Leu Ser Arg Asp Arg Ser Thr Leu Arg Arg Arg Lys
1 5 10 15
Asp His Leu Arg Asn Phe Pro Tyr Leu Leu Arg Arg Leu Lys His His
20 25 30
Leu Leu Arg Glu Arg Ser Lys Leu Arg Arg Leu Lys Gln Thr Leu Gln
35 40 45
Val Asp Arg Ser Thr Leu Arg Arg
50 55
<210> 72
<211> 283
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 72
Met Asp Val Leu Pro Met Cys Ser Ile Phe Gln Glu Leu Gln Ile Val
1 5 10 15
His Glu Thr Gly Tyr Phe Ser Ala Leu Pro Ser Leu Glu Glu Tyr Trp
20 25 30
Gln Gln Thr Cys Leu Glu Leu Glu Arg Tyr Leu Gln Ser Glu Pro Cys
35 40 45
Tyr Val Ser Ala Ser Glu Ile Lys Phe Asp Ser Gln Glu Asp Leu Trp
50 55 60
Thr Lys Ile Ile Leu Ala Arg Glu Lys Lys Glu Glu Ser Glu Leu Lys
65 70 75 80
Ile Ser Ser Ser Pro Pro Glu Asp Thr Leu Ile Ser Pro Ser Phe Cys
85 90 95
Tyr Asn Leu Glu Thr Asn Ser Leu Asn Ser Asp Val Ser Ser Glu Ser
100 105 110
Ser Asp Ser Ser Glu Glu Leu Ser Pro Thr Ala Lys Phe Thr Ser Asp
115 120 125
Pro Ile Gly Glu Val Leu Val Ser Ser Gly Lys Leu Ser Ser Ser Val
130 135 140
Thr Ser Thr Pro Pro Ser Ser Pro Glu Leu Ser Arg Glu Pro Ser Gln
145 150 155 160
Leu Trp Gly Cys Val Pro Gly Glu Leu Pro Ser Pro Gly Lys Val Arg
165 170 175
Ser Gly Thr Ser Gly Lys Pro Gly Asp Lys Gly Asn Gly Asp Ala Ser
180 185 190
Pro Asp Gly Arg Arg Arg Val His Arg Cys His Phe Asn Gly Cys Arg
195 200 205
Lys Val Tyr Thr Lys Ser Ser His Leu Lys Ala His Gln Arg Thr His
210 215 220
Thr Gly Glu Lys Pro Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg
225 230 235 240
Phe Ala Arg Ser Asp Glu Leu Thr Arg His Phe Arg Lys His Thr Gly
245 250 255
Ala Lys Pro Phe Lys Cys Ser His Cys Asp Arg Cys Phe Ser Arg Ser
260 265 270
Asp His Leu Ala Leu His Met Lys Arg His Leu
275 280
<210> 73
<211> 25
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 73
His Arg Cys His Phe Asn Gly Cys Arg Lys Val Tyr Thr Lys Ser Ser
1 5 10 15
His Leu Lys Ala His Gln Arg Thr His
20 25
<210> 74
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 74
Phe Lys Cys Ser His Cys Asp Arg Cys Phe Ser Arg Ser Asp His Leu
1 5 10 15
Ala Leu His Met Lys Arg His
20
<210> 75
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 75
Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Ile Arg Thr His
20
<210> 76
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 76
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Thr Lys Ile His
20
<210> 77
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 77
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 78
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 78
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 79
<211> 373
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 79
Met Asp Val Leu Pro Met Cys Ser Ile Phe Gln Glu Leu Gln Ile Val
1 5 10 15
His Glu Thr Gly Tyr Phe Ser Ala Leu Pro Ser Leu Glu Glu Tyr Trp
20 25 30
Gln Gln Thr Cys Leu Glu Leu Glu Arg Tyr Leu Gln Ser Glu Pro Cys
35 40 45
Tyr Val Ser Ala Ser Glu Ile Lys Phe Asp Ser Gln Glu Asp Leu Trp
50 55 60
Thr Lys Ile Ile Leu Ala Arg Glu Lys Lys Glu Glu Ser Glu Leu Lys
65 70 75 80
Ile Ser Ser Ser Pro Pro Glu Asp Thr Leu Ile Ser Pro Ser Phe Cys
85 90 95
Tyr Asn Leu Glu Thr Asn Ser Leu Asn Ser Asp Val Ser Ser Glu Ser
100 105 110
Ser Asp Ser Ser Glu Glu Leu Ser Pro Thr Ala Lys Phe Thr Ser Asp
115 120 125
Pro Ile Gly Glu Val Leu Val Ser Ser Gly Lys Leu Ser Ser Ser Val
130 135 140
Thr Ser Thr Pro Pro Ser Ser Pro Glu Leu Ser Arg Glu Pro Ser Gln
145 150 155 160
Leu Trp Gly Cys Val Pro Gly Glu Leu Pro Ser Pro Gly Lys Val Arg
165 170 175
Ser Gly Thr Ser Gly Lys Pro Gly Asp Lys Gly Asn Gly Asp Ala Ser
180 185 190
Pro Asp Gly Arg Arg Arg Val Phe Ala Cys Asp Ile Cys Gly Arg Lys
195 200 205
Phe Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile His Thr Gly
210 215 220
Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Gln Ser
225 230 235 240
Asn Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg Pro Gln Ile
245 250 255
Pro Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Leu
260 265 270
Lys His His Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro
275 280 285
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser Ser Gly Leu
290 295 300
Cys His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys
305 310 315 320
Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Lys Arg Thr
325 330 335
Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys
340 345 350
Asp Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu Arg Lys His
355 360 365
Thr Lys Ile His Leu
370
<210> 80
<211> 472
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 80
Met Asn Asn Ser Gln Gly Arg Val Thr Phe Glu Asp Val Thr Val Asn
1 5 10 15
Phe Thr Gln Gly Glu Trp Gln Arg Leu Asn Pro Glu Gln Arg Asn Leu
20 25 30
Tyr Arg Asp Val Met Leu Glu Asn Tyr Ser Asn Leu Val Ser Val Gly
35 40 45
Gln Gly Glu Thr Thr Lys Pro Asp Val Ile Leu Arg Leu Glu Gln Gly
50 55 60
Lys Glu Pro Trp Leu Glu Glu Glu Glu Val Leu Gly Ser Gly Arg Ala
65 70 75 80
Glu Lys Asn Gly Asp Ile Gly Gly Gln Ile Trp Lys Pro Lys Asp Val
85 90 95
Lys Glu Ser Leu Ala Arg Glu Val Pro Ser Ile Asn Lys Glu Thr Leu
100 105 110
Thr Thr Gln Lys Gly Val Glu Cys Asp Gly Ser Lys Lys Ile Leu Pro
115 120 125
Leu Gly Ile Asp Asp Val Ser Ser Leu Gln His Tyr Val Gln Asn Asn
130 135 140
Ser His Asp Asp Asn Gly Tyr Arg Lys Leu Val Gly Asn Asn Pro Ser
145 150 155 160
Lys Phe Val Gly Gln Gln Leu Lys Cys Asn Ala Cys Arg Lys Leu Phe
165 170 175
Ser Ser Lys Ser Arg Leu Gln Ser His Leu Arg Arg His Ala Cys Gln
180 185 190
Lys Pro Phe Glu Cys His Ser Cys Gly Arg Ala Phe Gly Glu Lys Trp
195 200 205
Lys Leu Asp Lys His Gln Lys Thr His Ala Glu Glu Arg Pro Tyr Lys
210 215 220
Cys Glu Asn Cys Gly Asn Ala Tyr Lys Gln Lys Ser Asn Leu Phe Gln
225 230 235 240
His Gln Lys Met His Thr Lys Glu Lys Pro Tyr Gln Cys Lys Thr Cys
245 250 255
Gly Lys Ala Phe Ser Trp Lys Ser Ser Cys Ile Asn His Glu Lys Ile
260 265 270
His Asn Ala Lys Lys Ser Tyr Gln Cys Asn Glu Cys Glu Lys Ser Phe
275 280 285
Arg Gln Asn Ser Thr Leu Ile Gln His Lys Lys Val His Thr Gly Gln
290 295 300
Lys Pro Phe Gln Cys Thr Asp Cys Gly Lys Ala Phe Ile Tyr Lys Ser
305 310 315 320
Asp Leu Val Lys His Gln Arg Ile His Thr Gly Glu Lys Pro Tyr Lys
325 330 335
Cys Ser Ile Cys Glu Lys Ala Phe Ser Gln Lys Ser Asn Val Ile Asp
340 345 350
His Glu Lys Ile His Thr Gly Lys Arg Ala Tyr Glu Cys Asp Leu Cys
355 360 365
Gly Asn Thr Phe Ile Gln Lys Lys Asn Leu Ile Gln His Lys Lys Ile
370 375 380
His Thr Gly Glu Lys Pro Tyr Glu Cys Asn Arg Cys Gly Lys Ala Phe
385 390 395 400
Phe Gln Lys Ser Asn Leu His Ser His Gln Lys Thr His Ser Gly Glu
405 410 415
Arg Thr Tyr Arg Cys Ser Glu Cys Gly Lys Thr Phe Ile Arg Lys Leu
420 425 430
Asn Leu Ser Leu His Lys Lys Thr His Thr Gly Gln Lys Pro Tyr Gly
435 440 445
Cys Ser Glu Cys Gly Lys Ala Phe Ala Asp Arg Ser Tyr Leu Val Arg
450 455 460
His Gln Lys Arg Ile His Ser Arg
465 470
<210> 81
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 81
Leu Lys Cys Asn Ala Cys Arg Lys Leu Phe Ser Ser Lys Ser Arg Leu
1 5 10 15
Gln Ser His Leu Arg Arg His
20
<210> 82
<211> 24
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 82
Tyr Gly Cys Ser Glu Cys Gly Lys Ala Phe Ala Asp Arg Ser Tyr Leu
1 5 10 15
Val Arg His Gln Lys Arg Ile His
20
<210> 83
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 83
Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Ile Arg Thr His
20
<210> 84
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> zinc finger fusion protein fragmen
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 84
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Thr Lys Ile His
20
<210> 85
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 85
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 86
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 86
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 87
<211> 471
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 87
Met Asn Asn Ser Gln Gly Arg Val Thr Phe Glu Asp Val Thr Val Asn
1 5 10 15
Phe Thr Gln Gly Glu Trp Gln Arg Leu Asn Pro Glu Gln Arg Asn Leu
20 25 30
Tyr Arg Asp Val Met Leu Glu Asn Tyr Ser Asn Leu Val Ser Val Gly
35 40 45
Gln Gly Glu Thr Thr Lys Pro Asp Val Ile Leu Arg Leu Glu Gln Gly
50 55 60
Lys Glu Pro Trp Leu Glu Glu Glu Glu Val Leu Gly Ser Gly Arg Ala
65 70 75 80
Glu Lys Asn Gly Asp Ile Gly Gly Gln Ile Trp Lys Pro Lys Asp Val
85 90 95
Lys Glu Ser Leu Ala Arg Glu Val Pro Ser Ile Asn Lys Glu Thr Leu
100 105 110
Thr Thr Gln Lys Gly Val Glu Cys Asp Gly Ser Lys Lys Ile Leu Pro
115 120 125
Leu Gly Ile Asp Asp Val Ser Ser Leu Gln His Tyr Val Gln Asn Asn
130 135 140
Ser His Asp Asp Asn Gly Tyr Arg Lys Leu Val Gly Asn Asn Pro Ser
145 150 155 160
Lys Phe Val Gly Gln Gln Leu Lys Cys Asn Ala Cys Arg Lys Leu Phe
165 170 175
Ser Ser Lys Ser Arg Leu Gln Ser His Leu Arg Arg His Ala Cys Gln
180 185 190
Lys Pro Phe Glu Cys His Ser Cys Gly Arg Ala Phe Gly Glu Lys Trp
195 200 205
Lys Leu Asp Lys His Gln Lys Thr His Ala Glu Glu Arg Pro Tyr Lys
210 215 220
Cys Glu Asn Cys Gly Asn Ala Tyr Lys Gln Lys Ser Asn Leu Phe Gln
225 230 235 240
His Gln Lys Met His Thr Lys Glu Lys Pro Tyr Gln Cys Lys Thr Cys
245 250 255
Gly Lys Ala Phe Ser Trp Lys Ser Ser Cys Ile Asn His Glu Lys Ile
260 265 270
His Asn Ala Lys Lys Ser Tyr Gln Cys Asn Glu Cys Glu Lys Ser Phe
275 280 285
Arg Gln Asn Ser Thr Leu Ile Gln His Lys Lys Val His Thr Gly Gln
290 295 300
Lys Pro Phe Gln Cys Thr Asp Cys Gly Lys Ala Phe Ile Tyr Lys Ser
305 310 315 320
Asp Leu Val Lys His Gln Arg Ile His Thr Gly Glu Lys Pro Tyr Lys
325 330 335
Cys Ser Ile Cys Glu Lys Ala Phe Ser Gln Lys Ser Asn Val Ile Asp
340 345 350
His Glu Lys Ile His Thr Gly Lys Arg Ala Tyr Glu Cys Asp Leu Cys
355 360 365
Gly Asn Thr Phe Ile Gln Lys Lys Asn Leu Ile Gln His Lys Lys Ile
370 375 380
His Thr Gly Glu Lys Pro Tyr Glu Cys Asn Arg Cys Gly Lys Ala Phe
385 390 395 400
Phe Gln Lys Ser Asn Leu His Ser His Gln Lys Thr His Ser Gly Glu
405 410 415
Arg Thr Tyr Arg Cys Ser Glu Cys Gly Lys Thr Phe Ile Arg Lys Leu
420 425 430
Asn Leu Ser Leu His Lys Lys Thr His Thr Gly Gln Lys Pro Tyr Gly
435 440 445
Cys Ser Glu Cys Gly Lys Ala Phe Ala Asp Arg Ser Tyr Leu Val Arg
450 455 460
His Gln Lys Arg Ile His Ser
465 470
<210> 88
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 88
Leu Lys Cys Asn Ala Cys Arg Lys Leu Phe Ser Ser Lys Ser Arg Leu
1 5 10 15
Gln Ser His Leu Arg Arg His
20
<210> 89
<211> 24
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 89
Tyr Gly Cys Ser Glu Cys Gly Lys Ala Phe Ala Asp Arg Ser Tyr Leu
1 5 10 15
Val Arg His Gln Lys Arg Ile His
20
<210> 90
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 90
Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Ile Arg Thr His
20
<210> 91
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (12)..(15)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (17)..(18)
<223> Xaa可以是任意天然存在的氨基酸
<400> 91
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Xaa Xaa Xaa Xaa Leu
1 5 10 15
Xaa Xaa His Thr Lys Ile His
20
<210> 92
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 92
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 93
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (7)..(8)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (10)..(14)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任意天然存在的氨基酸
<220>
<221> misc_feature
<222> (19)..(21)
<223> Xaa可以是任意天然存在的氨基酸
<400> 93
Glx Xaa Cys Xaa Xaa Cys Xaa Xaa Glx Xaa Xaa Xaa Xaa Xaa Glx Xaa
1 5 10 15
Xaa His Xaa Xaa Xaa His
20
<210> 94
<211> 341
<212> PRT
<213> 人工序列
<220>
<223> 合成的锌指
<400> 94
Met Asn Asn Ser Gln Gly Arg Val Thr Phe Glu Asp Val Thr Val Asn
1 5 10 15
Phe Thr Gln Gly Glu Trp Gln Arg Leu Asn Pro Glu Gln Arg Asn Leu
20 25 30
Tyr Arg Asp Val Met Leu Glu Asn Tyr Ser Asn Leu Val Ser Val Gly
35 40 45
Gln Gly Glu Thr Thr Lys Pro Asp Val Ile Leu Arg Leu Glu Gln Gly
50 55 60
Lys Glu Pro Trp Leu Glu Glu Glu Glu Val Leu Gly Ser Gly Arg Ala
65 70 75 80
Glu Lys Asn Gly Asp Ile Gly Gly Gln Ile Trp Lys Pro Lys Asp Val
85 90 95
Lys Glu Ser Leu Ala Arg Glu Val Pro Ser Ile Asn Lys Glu Thr Leu
100 105 110
Thr Thr Gln Lys Gly Val Glu Cys Asp Gly Ser Lys Lys Ile Leu Pro
115 120 125
Leu Gly Ile Asp Asp Val Ser Ser Leu Gln His Tyr Val Gln Asn Asn
130 135 140
Ser His Asp Asp Asn Gly Tyr Arg Lys Leu Val Gly Asn Asn Pro Ser
145 150 155 160
Lys Phe Val Gly Gln Gln Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe
165 170 175
Ala Arg Lys Phe Asn Leu Leu Arg His Thr Arg Ile His Thr Gly Glu
180 185 190
Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Gln Ser Asn
195 200 205
Thr Leu Arg Thr His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro
210 215 220
Pro Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Leu Lys
225 230 235 240
His His Leu Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe
245 250 255
Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Thr Ser Ser Gly Leu Cys
260 265 270
His His Thr Lys Ile His Thr Gln Arg Pro Gln Ile Pro Pro Lys Pro
275 280 285
Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Glu Lys Arg Thr Leu
290 295 300
Leu Asn His Thr Arg Ile His Thr Gly Glu Lys Pro Phe Ala Cys Asp
305 310 315 320
Ile Cys Gly Arg Lys Phe Ala Trp Lys Val Asp Leu Arg Lys His Thr
325 330 335
Lys Ile His Ser Arg
340
<210> 95
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 锌指融合蛋白片段
<400> 95
Arg Asn Gly Asn Leu Thr Arg
1 5

Claims (20)

1.一种经修饰的蛋白质,包含引入的锌指DNA结合结构域,相对于蛋白质在其未经修饰形式中的DNA结合位置,所述经修饰的蛋白质具有改变的DNA结合位置,其中除了所述引入的锌指DNA结合结构域之外,所述经修饰的蛋白质还包含基因表达激活结构域或基因表达阻遏结构域。
2.根据权利要求1所述的经修饰的蛋白质,其中所述改变的DNA结合位置在染色体、细胞器DNA或质粒上。
3.根据权利要求1所述的经修饰的蛋白质,包含所述基因表达激活结构域,其中所述经修饰的蛋白质的DNA结合促进与所述改变的DNA结合结构域位置可操作地连接的基因的表达。
4.根据权利要求3所述的经修饰的蛋白质,其中所述基因表达激活结构域包含Krueppel样因子6(KLF)蛋白或其功能片段。
5.根据权利要求1所述的经修饰的蛋白质,包含所述基因表达阻遏结构域,并且其中所述经修饰的蛋白质的DNA结合抑制与所述改变的DNA结合结构域位置可操作地连接的基因的表达,从而抑制所述基因的表达。
6.根据权利要求5所述的经修饰的蛋白质,所述经修饰的蛋白质包含所述基因表达阻遏结构域,所述基因表达结构域包含KRAB结构域,其中所述KRAB结构域任选地包含于Zim3蛋白或其功能片段中。
7.根据权利要求1-6中任一项所述的经修饰的蛋白质,其中所述引入的锌指结合结构域包含所述蛋白质在其未经修饰形式中的内源锌指结构域的替换体。
8.根据权利要求7所述的经修饰的蛋白质,其中所述引入的锌指结构域是被引入到所述经修饰的蛋白质中的多个锌指结构域之一,从而提供包含多个引入的锌指结构域的经修饰的蛋白质,并且其中所述多个引入的锌指结构域任选地包含相同的改变的DNA结合结构域。
9.一种cDNA或mRNA,编码根据权利要求1-6中任一项所述的经修饰的蛋白质。
10.根据权利要求9所述的cDNA或mRNA,其中引入的锌指结构域是被引入到所述经修饰的蛋白质中的多个锌指结构域之一,从而提供包含多个引入的锌指结构域的经修饰的蛋白质,并且其中所述多个引入的锌指结构域任选地包含相同的改变的DNA结合结构域。
11.一种表达载体,编码根据权利要求1-6中任一项所述的经修饰的蛋白质。
12.根据权利要求11所述的表达载体,其中引入的锌指结构域是被引入到所述经修饰的蛋白质中的多个锌指结构域之一,从而提供包含多个引入的锌指结构域的经修饰的蛋白质,并且其中所述多个引入的锌指结构域任选地包含相同的改变的DNA结合结构域。
13.一种药物组合物,包含:i)一种或多种根据权利要求1-6中任一项所述的经修饰的蛋白质;ii)编码所述经修饰的蛋白质中的一种或多种的一种或多种mRNA;或iii)编码所述经修饰的蛋白质中的一种或多种的一种或多种表达载体,并且其中任选地所述引入的锌指结构域是被引入到所述经修饰的蛋白质中的多个锌指结构域之一,从而提供包含多个引入的锌指结构域的经修饰的蛋白质,并且其中所述多个引入的锌指结构域任选地包含相同的改变的DNA结合结构域。
14.一种方法,包括向有此需要的个体施用根据权利要求13所述的药物组合物。
15.根据权利要求14所述的方法,其中所述个体需要一种或多种基因的激活或阻遏,其中经修饰的蛋白质分别促进所述一种或多种基因的激活或阻遏。
16.根据权利要求15所述的方法,其中在所述个体中不激发针对所述经修饰的蛋白质的免疫反应。
17.一种制备根据权利要求1-6中任一项所述的经修饰的蛋白质的方法,所述方法包括对蛋白质进行修饰以包含引入的锌指DNA结合结构域。
18.根据权利要求17所述的方法,其中被修饰的所述蛋白质包含基因表达激活结构域或基因表达阻遏结构域。
19.根据权利要求18所述的方法,其中所述经修饰的蛋白质由包含编码所述经修饰的蛋白质的表达载体的细胞产生,所述方法还包括从所述细胞分离所述经修饰的蛋白质。
20.一种细胞,包含根据权利要求1-6中任一项所述的经修饰的蛋白质。
CN202280026983.9A 2021-02-04 2022-02-04 将工程锌指无缝整合到内源转录因子中以利用其自然功能 Pending CN117413064A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163145929P 2021-02-04 2021-02-04
US63/145,929 2021-02-04
PCT/US2022/015346 WO2022170117A1 (en) 2021-02-04 2022-02-04 Seamless integration of engineered zinc fingers into endogenous transcription factors to commandeer their natural functions

Publications (1)

Publication Number Publication Date
CN117413064A true CN117413064A (zh) 2024-01-16

Family

ID=82741801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280026983.9A Pending CN117413064A (zh) 2021-02-04 2022-02-04 将工程锌指无缝整合到内源转录因子中以利用其自然功能

Country Status (8)

Country Link
US (1) US20240092844A1 (zh)
EP (1) EP4288550A1 (zh)
JP (1) JP2024508668A (zh)
KR (1) KR20230147644A (zh)
CN (1) CN117413064A (zh)
AU (1) AU2022215615A1 (zh)
CA (1) CA3207437A1 (zh)
WO (1) WO2022170117A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825204B (zh) * 2023-08-30 2023-11-07 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1963499A4 (en) * 2005-11-28 2009-04-08 Scripps Research Inst ZINCFINGER BINDING DOMAIN FOR TNN
WO2020006409A1 (en) * 2018-06-28 2020-01-02 Trustees Of Boston University Systems and methods for control of gene expression

Also Published As

Publication number Publication date
US20240092844A1 (en) 2024-03-21
AU2022215615A1 (en) 2023-09-07
WO2022170117A1 (en) 2022-08-11
CA3207437A1 (en) 2022-08-11
EP4288550A1 (en) 2023-12-13
KR20230147644A (ko) 2023-10-23
JP2024508668A (ja) 2024-02-28
AU2022215615A9 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
US11913017B2 (en) Efficient genetic screening method
AU737756B2 (en) Nucleic acid binding polypeptide library
Jamieson et al. Drug discovery with engineered zinc-finger proteins
Liachko et al. A comprehensive genome-wide map of autonomously replicating sequences in a naive genome
Ichikawa et al. A universal deep-learning model for zinc finger design enables transcription factor reprogramming
Singh et al. CRISPR/Cas9: a historical and chemical biology perspective of targeted genome engineering
EP2522726A1 (en) Zinc finger nucleases for p53 editing
JP2022546594A (ja) 新規crispr dnaターゲティング酵素及びシステム
CN117413064A (zh) 将工程锌指无缝整合到内源转录因子中以利用其自然功能
AU2003215094B2 (en) Zinc finger libraries
US20210108249A1 (en) Long Adapter Single Stranded Oligonucleotide (LASSO) Probes to Capture and Clone Complex Libraries
JP7026304B2 (ja) 部位特異的dna開裂及び修復による標的化原位置タンパク質多様化
EP4441745A1 (en) Zinc finger design using a hierarchical machine learning model
Weingarten-Gabbay et al. Deciphering transcriptional regulation of human core promoters
Ichikawa Comprehensive Screens of Synthetic Zinc Finger Libraries Enable Assembly and Design
WO2011102796A1 (en) Novel synthetic zinc finger proteins and their spatial design
Melore et al. HyperCas12a enables highly-multiplexed epigenome editing screens
Hosoda et al. TALE-based C-to-T base editor for multiple homologous genes with flexible precision
Lockwood Studies of Cys2His2 Zinc Finger Proteins and Their Roles in Biology and Biotechnology
Nagel Development of the MAX randomisation technique
WO2002022634A1 (en) Method for the preparation of selectively randomised nucleic acid molecules
Croft Investigating the interaction between the Xenopus laevis protein p43 and 5S rRNA
ONE-HYBRID GSBS Dissertations
Christensen et al. Global analysis of Drosophila Cys2-His2 zinc finger proteins reveals a multitude of novel recognition motifs and binding determinants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination