CN107922953B - 提高基因编辑效率的核酸酶 - Google Patents

提高基因编辑效率的核酸酶 Download PDF

Info

Publication number
CN107922953B
CN107922953B CN201680048134.8A CN201680048134A CN107922953B CN 107922953 B CN107922953 B CN 107922953B CN 201680048134 A CN201680048134 A CN 201680048134A CN 107922953 B CN107922953 B CN 107922953B
Authority
CN
China
Prior art keywords
lys
leu
sequence
glu
asp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680048134.8A
Other languages
English (en)
Other versions
CN107922953A (zh
Inventor
R·雁如·蔡
L·J·孔
J·曹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Applied StemCell Inc
Original Assignee
Applied StemCell Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Applied StemCell Inc filed Critical Applied StemCell Inc
Publication of CN107922953A publication Critical patent/CN107922953A/zh
Application granted granted Critical
Publication of CN107922953B publication Critical patent/CN107922953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • C07K2319/81Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor containing a Zn-finger domain for DNA binding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Abstract

本申请提供了一种组合物,其包含能够切割靶DNA序列的位点特异性核酸酶结构域;以及能够与识别DNA序列特异性结合的序列特异性DNA结合结构域,其中所述位点特异性核酸酶结构域可操作地连接至序列特异性DNA结合结构域。

Description

提高基因编辑效率的核酸酶
相关申请的交叉引用
本申请要求2015年8月20日提交的美国临时专利申请62/207,860的优先权,其公开内容在此参考并入。
发明领域
本发明主要涉及位点特异性核酸酶和基因编辑。
参考序列表
本申请包含下表中所示的序列。序列表的计算机可读副本与本申请一起提交,其在此参考并入。
序列号 注解
1 Cas9蛋白的肽序列
2 Cas9基因的核苷酸序列
3 TALE结构域的肽序列
4 TALE结构域的肽序列
5 锌指结构域的肽序列
6 螺旋转角螺旋结构域的肽序列
7 GAL4蛋白的肽序列
8 GAL4基因的核苷酸序列
9 5×UAS的核苷酸序列
10 靶向ROSA26的gRNA的核苷酸序列
11 实施例1中使用的60bp插入的核苷酸序列
12 实施例1中使用的5'同源臂的核苷酸序列
13 实施例1中使用的3'同源臂的核苷酸序列
14 Cas9-GAL4基因的核苷酸序列
15 CAS9-GAL4蛋白的肽序列
16 pX459质粒的核苷酸序列
17 ROSA 5'引物的核苷酸序列
18 ROSA插入3'引物的核苷酸序列
背景技术
由成簇的规则间隔短回文重复序列(CRISPR)-Cas系统衍生的RNA引导的Cas9核酸酶为不同生物体提供了用于编辑基因组的多种工具。然而,目前基于CRISPR-Cas系统的技术只具有有限的插入DNA片段(例如基因敲入)的能力。因此,仍然需要新的基因工程技术,这些技术经济实惠,易于建立并提供增强的基因敲入效率。
附图简述
图1是由序列特异性核酸酶组合物介导的重组的示意图。该组合物包括Cas9-DBD(DNA结合结构域)融合蛋白和含有DBD识别序列的供体载体。在gRNA的指导下,Cas9结构域切割靶位点,而DBD将供体载体带到靶位点附近。然后目标基因以提高的效率通过重组插入到靶位点。
图2示出了图1中所示的敲入系统的组件。靶位点位于人类ROSA26基因座上,基于此设计了一个gRNA。供体质粒包括插入序列,侧翼为由ROSA26基因座中靶位点周围的序列组成的同源臂。供体质粒还含有被GAL4蛋白识别的5×UAS(上游激活序列)。gRNA/Cas9-DBD质粒含有编码由U6启动子驱动的gRNA和由CBH启动子控制的Cas9-DBD融合基因的序列。作为对照,gRNA/Cas9质粒含有编码由U6启动子驱动的gRNA和由CBH启动子控制的Cas9基因的序列。
图3显示了图2中描绘的CAS9-DBD融合蛋白的增加的敲入效率。
发明概述
本文公开了具有位点特异性核酸酶活性的组合物,其具有提高的将核苷酸序列插入到靶DNA中的效率。还公开了使用该组合物的方法。
一方面,本公开提供了一种组合物,其包含能够切割靶DNA序列的位点特异性核酸酶结构域;以及能够特异性结合识别DNA序列的序列特异性DNA结合结构域,其中所述位点特异性核酸酶结构域可操作地连接至序列特异性DNA结合结构域。
在某些实施方式中,所述位点特异性核酸酶结构域是CRISPR相关(Cas)核酸酶。在某些实施方式中,所述Cas核酸酶是Cas9。
在某些实施方式中,所述的组合物还包含针对第一核苷酸序列的CRISPR-Cas向导RNA。
在某些实施方式中,所述位点特异性核酸酶结构域是转录激活因子样效应物核酸酶(TALEN)。
在某些实施方式中,所述位点特异性核酸酶结构域是锌指核酸酶(ZFN)。
在某些实施方式中,所述序列特异性DNA结合结构域选自由转录激活因子样效应物(TALE)结构域、锌指结构域、RNA引导的DNA结合结构域、螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、亮氨酸拉链结构域、翼螺旋结构域、HMG框结构域、Wor3结构域、有翼螺旋-转角-螺旋结构域和B3结构域组成的组。
在某些实施方式中,所述的组合物还包含含有识别DNA序列和替代DNA序列的供体载体。
另一方面,本公开提供了一种组合物,其包含含有第一多核苷酸的第一载体,所述第一多核苷酸编码(1)融合蛋白,所述融合蛋白含有能够切割靶DNA序列的位点特异性核酸酶结构域;和(2)序列特异性DNA结合结构域,其能够特异性结合识别DNA序列。
在某些实施方式中,所述位点特异性核酸酶结构域是Cas核酸酶。在某些实施方式中,所述Cas核酸酶是Cas9。
在某些实施方式中,所述的组合物还包含第二载体,所述第二载体包含编码针对所述靶DNA序列的CRISPR-Cas向导RNA的第二多核苷酸,其中所述第一载体和所述第二载体相同或不同。
在某些实施方式中,所述位点特异性核酸酶结构域是TALEN。
在某些实施方式中,所述位点特异性核酸酶结构域是ZFN。
所述序列特异性DNA结合结构域选自TALE结构域、锌指结构域、RNA引导的DNA结合结构域、螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、亮氨酸拉链结构域、翼螺旋结构域、HMG框结构域、Wor3结构域、有翼螺旋-转角-螺旋结构域和B3结构域。
在某些实施方式中,所述的组合物还包含含有识别DNA序列和替代DNA序列的供体载体。
另一方面,本公开提供包含如本文所述的组合物的细胞。
另一方面,本公开提供将替代DNA序列插入细胞的靶DNA序列中的方法,包括将本文所述的组合物引入细胞中。
发明详述
在上述发明概述和发明详述,以及权利要求书和附图中,参考了本发明的特定特征(包括方法步骤)。应当理解,本说明书中的本发明的公开内容包括这些特定特征的所有可能的组合。例如,在本发明的特定方面或实施例或特定权利要求的上下文中公开特定特征的情况下,也可以在可能的情况下,结合和/或在本发明的上下文中的其他特定方面和实施例中以及本发明的一般方面的使用该特征。
术语“包括”及其语法等效词在本文中用于表示其它组分、成分、步骤等任选存在。例如,一篇文章包括(或“包含”)组分A、B和C可以由(即仅包含)组分A,B和C组成,或不仅可以含有组分A、B和C而且还有一个或多个其他组分。
在本文中提及包括两个或多个限定步骤的方法的情况下,所定义的步骤可以以任何顺序或同时进行(除非上下文排除了该可能性),并且该方法可以包括一个或多个其它步骤在任何定义的步骤之前、在两个定义的步骤之间或在所有定义的步骤之后执行(除非上下文排除了该可能性)。
在提供一定范围的值的情况下,应当理解,除非上下文另有明确规定,否则本公开包含每个中间值至该下限单位的十分之一,在该范围的上限和下限之间以及在所述范围内的任何其他所述值或中间值,其适用在所述范围内的任何明确排除的限制。如果所述范围包括一个或两个限制,则不包括这些限制中的一个或两个的范围也包括在本公开中。
应当理解,为了说明的简单和清楚,在适当的情况下,在不同的图中重复参考数字以表示对应的或类似的元素。此外,阐述了许多具体细节,以便提供对本文所述实施例的透彻理解。然而,本文描述的实施例可以在没有具体细节的情况下实施。在其他情况下,尚未详细描述方法、程序和组件,以免模糊所描述的相关功能。并且,描述不应被理解为对本文描述的实施范围的限制。应当理解,除非另有说明,否则本公开中阐述的实施例的描述和表征不应被视为相互排斥。
定义
提供了说明书、实施例和所附权利要求中使用的某些术语和短语的含义。这些定义本质上不是限制性的,而是用来提供对本发明的某些方面的更清楚的理解。
术语“至少”后跟数字在本文中用于表示以该数字开始的范围(其可以是具有上限或没有上限的范围,取决于被定义的变量)。例如,“至少1”表示1或大于1。术语“最多”后跟一个数字在本文中用于表示以该数字结尾的范围(其可以是以1或0作为下限的范围,或者没有下限的范围,取决于被定义的变量)。例如,“至多4”表示4或小于4,“至多40%”表示40%或小于40%。在本说明书中,在将范围设为“(第一个数字)到(第二个数字)”或“(第一个数字)-(第二个数字)”的情况下,意味着范围的下限是第一个数字,上限是第二个数字。例如,25到100mm是指下限为25mm,上限为100mm的范围。
当与表达序列一起使用时,术语“细胞”包括适于表达重组核酸序列的任何细胞。细胞包括原核细胞和真核细胞(单细胞或多细胞)、细菌细胞(例如大肠杆菌、芽孢杆菌属、链霉菌属等)、分枝杆菌细胞、真菌细胞、酵母细胞(例如酿酒酵母、粟酒裂殖酵母、巴斯德毕赤酵母、甲醇毕赤酵母等)、植物细胞、昆虫细胞(例如SF-9、SF-21、杆状病毒感染的昆虫细胞、粉纹夜蛾等)、非人类动物细胞、人类细胞、B细胞,或细胞融合物,例如杂交瘤或四倍体细胞。在一些实施方式中,细胞是人、猴、猿、仓鼠、大鼠或小鼠细胞。在一些实施方式中,所述细胞是真核的并且选自以下细胞:CHO(例如CHO K1,DXB-11CHO,Veggie-CHO)、COS(例如COS-7)、视网膜细胞、Vero细胞、CV1细胞、肾(例如HEK293、293EBNA、MSR293、MDCK、HaK、BHK)、HeLa细胞、HepG2细胞、VVI38、MRC5、Colo205细胞、HB8065细胞、HL-60(例如BHK21)、Jurkat细胞、Daudi细胞、A431细胞(表皮)、CV-1、U937、3T3、L细胞,C127细胞、SP2/0、NS-0、MMT 060562、Sertoli细胞、BRL 3A细胞、HT1080细胞、骨髓瘤细胞、肿瘤细胞和来源于上述细胞的细胞系。在一些实施方式中,细胞包含一个或多个病毒基因,例如,表达病毒基因的视网膜细胞(例如,PER.C6TM细胞)。
根据本领域的一般用法,术语“结构域”是指可以与特定功能等同的多肽的氨基酸序列的分离的连续部分。
在将核酸序列插入细胞的情况下,术语“引入”是指“转染”或“转化”或“转导”,并且包括提及将核酸序列掺入真核或原核细胞,其中核酸序列可以暂时存在于细胞中或者可以被整合到细胞基因组(例如染色体、质粒、质体或线粒体DNA)中,转化成能独立复制的复制子。
术语“核酸”包含DNA、RNA、单链或双链以及其化学修饰物。术语“核酸”和“多核苷酸”在本文中可互换使用。
术语“可操作地连接”是指其中所述的组件被配置为执行其通常功能的元件排列。如本文所用,两个多肽结构域可以通过共价(例如肽键)或非共价键直接或间接可操作地连接。与多肽可操作连接的给定信号肽指导从细胞分泌所述多肽。在启动子的情况下,与编码序列可操作连接的启动子将指导编码序列的表达。所述启动子或其他控制元件不需要与编码序列连续,只要它们起到指导其表达的作用即可。例如,在启动子序列和编码序列之间可以存在插入的未翻译但转录的序列,并且启动子序列仍然可以被认为与编码序列“可操作地连接”。
本文可互换使用的术语“多肽”和“蛋白质”是指任何长度的氨基酸的聚合形式,其可以包括编码和非编码氨基酸,化学或生物化学修饰或衍生的氨基酸,以及具有修饰的肽骨架的多肽。
如本文所用,术语“载体”是指能够在不同遗传环境之间运输已被可操作连接的另一种核酸的核酸分子。优选的载体是能够自主复制和表达存在于与它们可操作连接的DNA片段中的结构基因产物的载体。因此,载体优选包含前述的复制子和选择标记。载体包括但不一定限于表达载体。
如本文所用,术语“表达载体”是指通过插入或掺入异源DNA(如编码本文所述融合蛋白的核酸或本文提供的表达盒)处理的质粒、病毒、噬菌粒或本领域已知的其它载体。这种表达载体通常含有用于插入的核酸在细胞中高效转录的启动子序列。表达载体通常含有复制起点、启动子,以及允许转化细胞的表型选择的特定基因。
位点特异性核酸酶的组成
一方面,本公开提供了具有位点特异性核酸酶活性的组合物,其具有提高的将核苷酸序列(例如,替代DNA序列)插入到靶DNA的效率。在一个实施方式中,组合物含有能够切割靶DNA序列的位点特异性核酸酶结构域和能够特异性结合供体构建体中的特定DNA序列(识别序列)的序列特异性DNA结合结构域,其中所述位点特异性核酸酶结构域可操作地连接至序列特异性DNA结合结构域。如果引入具有靶DNA序列的细胞中,该组合物可以介导基因编辑的高效率,并含有用于DNA结合的特定DNA序列和替代DNA序列的供体构建体。引入细胞后,组合物通过位点特异性核酸酶结构域切割靶DNA并引发同源重组机制修复DNA断裂。组合物的序列特异性DNA结合结构域通过特定的DNA序列与供体载体结合,并将替代DNA序列拖到靶DNA序列附近,这有助于同源重组机制将供体构建体用作模板修复靶DNA序列处的DNA断裂,导致替代DNA序列插入到靶DNA的高效率。
位点特异性核酸酶结构域
如本文所用,“核酸酶”是能够切割核酸的核苷酸亚基之间的磷酸二酯键的酶。“核酸酶结构域”是具有核酸酶活性的独立折叠的蛋白质结构域。“位点特异性核酸酶”是指其功能取决于特定核苷酸序列的核酸酶。通常,位点特异性核酸酶识别并结合特定的核苷酸序列并切割核苷酸序列内的磷酸二酯键。位点特异性核酸酶的实例包括但不限于锌指核酸酶(ZFNs),转录激活因子样效应物核酸酶(TALENs)和CRISPR(成簇规则间隔短回文重复序列)相关的(Cas)核酸酶。
位点特异性核酸酶通常含有DNA结合结构域和DNA切割结构域。例如,ZFN含有通常包含3-6个独立的锌指重复序列的DNA结合结构域和由用于DNA切割的FokI限制性内切酶组成的核酸酶结构域。ZFN的DNA结合结构域可以识别9至18个碱基对。在含有TALE结构域和DNA切割结构域的TALEN的例子中,TALE结构域包含除了第12和第13个氨基酸之外重复的高度保守的33-34个氨基酸序列,第12和第13个氨基酸的变异显示与特异性核苷酸识别有强相关性。又例如,典型的Cas核酸酶Cas9由N末端识别结构域和C-末端的两个内切核酸酶结构域(RuvC结构域和HNH结构域)组成。
在某些实施方式中,位点特异性核酸酶是Cas蛋白。在这种情况下,组合物还可以含有针对靶DNA序列的CRISPR-Cas向导RNA,以在靶DNA序列处形成CRISPR复合物。CRISPR复合物由Cas蛋白、向导RNA,在3'末端具有PAM的靶序列和tracrRNA(其可以与向导RNA融合或从向导RNA分离)形成。
如本文所用,“Cas蛋白”是指与向导RNA结合并显示核酸酶活性的多肽。Cas蛋白的非限制性例子包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4,其同源物或其修饰形式。这些酶是已知的;例如,酿脓链球菌Cas9蛋白的氨基酸序列可以在登录号Q99ZW2的SwissProt数据库中找到。在一个实例中,Cas9蛋白具有SEQIDNO:1的序列。在一些实施方式中,未修饰的Cas蛋白具有DNA切割活性。在一些实施方式中,所述Cas蛋白指导在靶序列位置处,例如在靶序列内和/或在靶序列的互补序列内,切割一条或两条链。在一些实施方式中,所述Cas蛋白在来自靶序列的第一个或最后一个核苷酸的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个碱基对内引导一条或两条链的切割。在一些实施方式中,将Cas蛋白突变,使得突变的Cas蛋白缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。例如,来自酿脓链球菌的Cas9的RuvCI催化结构域中的天冬氨酸-丙氨酸取代(D10A)将Cas9从切割两条链的核酸酶转变成切口酶(切割单链)。使Cas9成为切口酶的突变的其他例子包括但不限于H840A、N854A和N863A。
如本文所用,“CRISPR-Cas向导RNA”或“向导RNA”是指指导CRISPR复合物与靶序列的序列特异性结合的RNA。通常,向导RNA包括:(i)与靶多核苷酸序列有足够的互补性以与靶序列杂交的引导序列和(ii)一个反式激活CR(TRACR)伴侣序列。向导RNA还进一步包含在3'末端融合的tracr RNA,产生单一的嵌合向导RNA。在一些实施方式中,当使用合适的比对算法进行最佳比对时,向导序列与其相应的靶序列之间的互补性程度为约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更多。可以使用用于比对序列的任何合适算法来确定最佳比对,其非限制性实例包括Smith-Waterman算法、Needleman-Wunsch算法、基于Burrows-Wheeler变换的算法(例如BurrowsWheelerAligner)、ClustalW、Clustal X、BLAT、Novoalign(Novocraft Technologies,ELAND(Illumina,San Diego,加利福尼亚州)、SOAP(可在soap.genomics.org.cn上获得)和Maq(可在maq.sourceforge.net上获得)。在一些实施方式中,指导序列的长度是大约或长于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75,或更多个核苷酸。在一些实施方式中,指导序列的长度小于约75、50、45、40、35、30、25、20、15、12,或更少核苷酸。指导序列指导CRISPR复合物与靶序列的序列特异性结合的能力可以通过任何合适的测定来评估。例如,足以形成CRISPR复合物的CRISPR系统的组分,包括待测试的指导序列,可以提供给具有相应靶序列的宿主细胞,例如通过用编码CRISPR序列组分的载体转染,然后评估目标序列内的优先切割,如通过如本文所述的Surveyor分析。类似地,可通过提供靶序列、CRISPR复合物的组分(包括待测试的指导序列和不同于测试指导序列的对照指导序列),并在测试和对照指导序列反应之间比较在靶序列处的结合或切割速率来评估靶多核苷酸序列的切割。其他测定方法是可能的,并且对于本领域技术人员而言是显而易见的。
在一些实施方式中,选择指导序列以降低指导序列内的二级结构的程度。二级结构可以通过任何合适的多核苷酸折叠算法确定。一些程序是基于计算最小吉布斯自由能。如Zuker和Stiegler(Nucleic Acids Res.9(1981),133-148)所述,一种这样的算法的例子是mFold。折叠算法的另一示例是使用质心结构预测算法在维也纳大学理论化学研究所开发的在线网络服务器RNAfold(参见例如A.R.Gruber et al.,2008,Cell 106(1):23-24和PA Carr和GM Church,2009,Nature Biotechnology 27(12):1151-62)。
如本文所用的,tracr配对序列包括与tracr序列具有足够的互补性以促进以下一种或多种的任何序列:(1)在含有相应tracr序列的细胞中切除侧翼为tracr配对序列的引导序列;和(2)在靶序列处形成CRISPR复合物,其中所述CRISPR复合物包含与tracr序列杂交的tracr配对序列。通常,互补程度是沿着两个序列中较短的序列的长度,并参照tracr配对序列和tracr序列的最佳比对。最佳比对可以通过任何合适的比对算法来确定,并且可以进一步解释二级结构,例如tracr序列或tracr配对序列内的自互补性。在一些实施方式中,当最佳比对时,tracr序列与tracr配对序列之间沿着两者中较短者的长度的互补程度约为或大于约25%、30%、40%、50%、60%、70%、80%、90%、95%、97.5%、99%或更高。
在一些实施方式中,向导RNA包含与tracr序列融合的指导序列,即tracr序列和tracr配对序列包含在单个转录物内,使得两者之间的杂交产生具有二级结构的转录物,如发夹结构。在一些实施方式中,tracr序列的长度是约或多于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。用于发夹结构的优选的环形成序列的长度是四个核苷酸,并且最优选具有序列GAAA。然而,可以使用更长或更短的环序列,也可以使用替代序列。序列优选包括核苷酸三联体(例如AAA)和另外的核苷酸(例如C或G)。环形成序列的例子包括CAAA和AAAG。在本申请的一个实施方式中,向导RNA具有至少两个或更多个发夹结构。在优选的实施方式中,向导RNA具有两个、三个、四个或五个发夹结构。在本发明的另一个实施方式中,向导RNA具有至多五个发夹。在一些实施方式中,向导RNA还包含转录终止序列、优选多聚T序列,例如六个T核苷酸。在一些实施方式中,tracr序列是来自包含tracr配对序列的转录物的单独的转录物。在某些实施方式中,tracr序列位于来自向导RNA的独立载体中(参见例如美国授权前公开文献公布号20140068797)。
如本文所用,术语“前间区序列邻近基序”(PAM)是指紧接着由Cas蛋白靶向的DNA序列之后的DNA序列。在一些实施方式中,PAM序列位于靶序列的3'末端并且是Cas蛋白成功结合靶序列所需的。PAM序列因Cas蛋白来源的细菌种类而异。例如,来自酿脓链球菌的Cas9的PAM序列是NGG(N可以是A、T、C或G中的任何一个)。又例如,脑膜炎奈瑟球菌的PAM序列是NNNNGATT。嗜热链球菌的PAM序列是NNAGGAA。齿垢密螺旋体的PAM序列是NAAAAC。
在某些实施方式中,序列特异性核酸酶结构域是锌指核酸酶(ZFN)。锌指核酸酶是通过将锌指DNA结合结构域与DNA切割结构域融合而产生的人工限制酶。锌指结构域可以被改造以靶向特定的所需的DNA序列,其指导锌指核酸酶切割靶DNA序列。
通常,锌指DNA结合结构域包含3至6个独立的锌指重复序列,并且可以识别9至18个碱基对。每个锌指重复序列通常包含约30个氨基酸,并且包含被锌离子稳定的ββα折叠。串联的相邻锌指重复序列通过接头序列连接在一起。
已经开发了多种策略来设计锌指结构域以结合所需的序列,包括“模块化组装”和采用噬菌体展示或细胞选择系统的选择策略(Pabo CO et al.,“Design and Selectionof Novel Cys2His2Zinc Finger Proteins”Annu.Rev.Biochem.(2001)70:313–40)。产生新的锌指DNA结合结构域的最直接的方法是将已知特异性的较小的锌指重复序列组合。最常见的模块化组装过程涉及组合三个独立的锌指重复序列,每个重复序列可识别3个碱基对的DNA序列以产生可识别9个碱基对目标位点的3指阵列。其他程序可以利用1指或2指模块来产生具有六个或更多独立锌指重复序列的锌指阵列。或者,选择方法已被用于产生能够靶向所需序列的锌指DNA结合结构域。最初的选择工作利用噬菌体展示从大量的部分随机化的锌指结构域库中选择结合给定DNA靶标的蛋白质。最近的工作已经利用了酵母单杂交系统、细菌单杂交系统和双杂交系统以及哺乳动物细胞。一个有前途的选择新型锌指阵列的新方法利用了一个细菌双杂交系统,该系统结合了预先选择的各个锌指重复序列库,每个锌指重复序列都被选择来结合给定的三联体,然后利用第二轮选择获得能够结合所需的9-bp序列的3-指重复序列(Maeder ML,et al.,“Rapid‘open-source’engineering ofcustomized zinc-finger nucleases for highly efficient gene modification”.Mol.Cell.(2008)31(2):294–301)。
通常将来自II型限制性内切核酸酶FokI的非特异性切割结构域用作ZFN中的切割结构域。该切割结构域必须二聚化以切割DNA,因此需要一对ZFN来靶向非回文DNA位点。标准的ZFN将切割结构域融合到每个锌指结构域的C端。为了允许两个切割结构域二聚化和切割DNA,两个单独的ZFN必须以其C-末端分开一定距离的结合DNA的相对链。锌指结构域和切割结构域之间最常用的接头序列需要每个结合位点的5'端分开5至7bp。
在某些实施方式中,序列特异性核酸酶结构域是转录激活因子样效应物核酸酶(TALEN)。TALEN是通过将转录激活物样效应物(TALE)DNA结合结构域与DNA切割结构域(例如,核酸酶结构域)融合而制成的人工限制酶,其可以被改造以切割特定的序列。TALE是由黄单胞杆菌感染植物时通过III型分泌系统分泌的蛋白质。TALE DNA结合结构域包含除了多变的第12和第13个氨基酸之外重复的高度保守的33-34个氨基酸序列,第12和第13个氨基酸高度可变并且与特定的核苷酸识别具有强相关性。氨基酸序列与DNA识别之间的关系允许通过选择含有适当可变氨基酸的重复片段的组合来改造特定的DNA结合结构域。来自FokI内切核酸酶末端的非特异性DNA切割结构域可用于构建TALEN。FokI结构域作为二聚体起作用,需要两个具有独特DNA结合结构域的构建体,用于靶基因组中具有适当方向和间隔的位点。参见Boch,Jens“TALEs of genome targeting”.Nature Biotechnology.(2011)29(2):135–6;Boch,Jens等,“Breaking the Code of DNA Binding Specificity of TAL-Type III Effectors”Science(2009)326(5959):1509–12;Moscou MJ and Bogdanove AJ“A Simple Cipher Governs DNA Recognition by TAL Effectors”Science(2009)326(5959):1501;Juillerat A等,“Optimized tuning of TALEN specificity using non-conventional RVDs”Scientific Reports(2015)5:8150;Christian等,“Targeting DNADouble-Strand Breaks with TAL Effector Nucleases”Genetics(2010)186(2):757–61;Li等,“TAL nucleases(TALNs):hybrid proteins composed of TAL effectors and FokIDNA-cleavage domain”Nucleic Acids Research(2010)39:1–14.
如本文所用,“靶DNA序列”是指由位点特异性核酸酶结构域识别的序列。在一些实施方式中,靶DNA序列是细胞基因组内的序列。示例性靶序列包括在靶基因组中独特的序列。在一些实施方式中,靶DNA序列位于细胞的细胞核或细胞质中。在一些实施方式中,靶序列可以在真核细胞的细胞器内,例如线粒体或叶绿体中。
在某些实施方式中,位点特异性核酸酶结构域是Cas蛋白,靶序列是指引导序列被设计为具有互补性的序列,其中靶序列和引导序列之间的杂交促进CRISPR复合物的形成。已经描述了CRISPR复合物的组分和使用CRISPR复合物进行基因编辑的机制(例如,M Jinek等,Science,2012,337:816-821;L Cong等,Science,2012,339:819-823;PCT公开WO2013176772、WO2013169802、WO2014018423和US专利号8,697,359)。靶序列可以是靶细胞基因组中的任何序列,只要靶序列包含前间区序列邻近基序(PAM)序列,其为在靶序列3'末端处形成CRISPR复合物所需的。示例性靶序列包括靶细胞基因组中独特的序列。例如,对于酿脓链球菌Cas9,基因组中的独特靶序列可以包括MMMMMMMMNNNNNNNNNNNNXGG形式的Cas9靶位点,其中NNNNNNNNNNNNXGG(N是A、G、T或C;并且X可以是任何核苷酸)在基因组中发生一次。在这种情况下,NNNNNNNNNNNN与向导RNA互补,XGG是PAM序列。对于嗜热链球菌CRISPR1Cas9,基因组中的独特靶序列可以包括MMMMMMMMNNNNNNNNNNNNXXAGAAW形式的Cas9靶位点,其中NNNNNNNNNNNNXXAGAAW(N是A、G、T或C;X可以是任何核苷酸;W是A或T)在基因组中发生一次。在这些序列中的每一个中,“M”可以是A、G、T或C,并且在将序列鉴定为独特的时候不需要考虑。
序列特异性DNA结合结构域
在某些实施方式中,位点特异性核酸酶结构域可操作地连接至序列特异性DNA结合结构域(DBD)。序列特异性DNA结合结构域是识别特定DNA序列的独立折叠的蛋白质结构域。序列特异性DNA结合结构域的实例包括但不限于转录激活因子样效应物结构域、锌指结构域、RNA引导的DNA结合结构域(例如Cas9DNA结合结构域)、螺旋-转角-螺旋结构域、螺旋-环-螺旋结构域、亮氨酸拉链结构域、翼螺旋结构域、HMG框结构域、Wor3结构域、有翼螺旋-转角-螺旋结构域和B3结构域。
术语“转录激活因子样效应物结构域”或“TALE”或“TAL效应物”在本文可互换使用,并且是指已经被设计为具有特异性的DNA结合结构域的一组细菌植物病原体蛋白质,或其人工版本。TALE DNA结合结构域可以是多个TALE重复序列,并且每个重复序列通过上述重复可变的二元残基识别一个DNA碱基对(例如HD两个氨基酸用于识别C/G;NI用于识别NT;NG用于识别T/A;NS用于识别C/G或NT或T/A或G/C;NN用于识别G/C或A/T;IG用于识别T/A;N用于识别C/G;HG用于识别C/G或T/A;H用于识别T/A;NK用于识别G/C)。TALE通常与转录激活因子、阻遏蛋白或转录激活因子样效应物结构域(TALEN)融合以调控或修饰任何所需基因,因为其重复序列的高度特异性和重复序列之间不存在情景依赖的效应。(Walton J etal.,J Biol Chem.2012Nov9;287(46):38427-32)。因此,TALE被认为是基因编辑、功能分析、基因表达修饰和突变的有用工具。
34个氨基酸重复的示例性TALE序列可以是LTPEQVVAIASNGGGKQALETVQRLLPVLCQAHG(SEQ ID NO:3),或者35个氨基酸重复可以是LTPEQVVAIASNGGGKQALETVQRLLPVLCQAPHD(SEQ ID NO:4)(详细描述请参见美国专利号US9404099)。在某些实施方式中,TALE结构域包含至少一个重复序列,其与TALE具有至少40%、约50%、约60%或约70%或约80%或约90%或约95%或约98%,或约99%的同源性。
“锌指结构域”是通过半胱氨酸和/或组氨酸残基(一种常见的真核DNA结合蛋白)与一个或多个锌离子配位而稳定的小的功能性独立的折叠结构域。锌指结构域的结构包含多个指状突起并串联接触靶分子。由于其蛋白质结构多样,锌指结构域可分为几个不同的家族,并具有不同的结合特异性。不同的锌指结构域可以与DNA、RNA、蛋白质和其他小分子相互作用。可以将设计的锌指融合至DNA切割结构域(例如Fok I切割结构域)以产生用于操作基因组的锌指核酸酶(ZFN)。具有保守半胱氨酸和组氨酸残基的示例性锌指结构域可以由-Cys-(X)2-4-Cys-(X)12-His-(X)3-5-His-(SEQ ID NO:5)表示,其中X可以是任意氨基酸。详细说明请参见美国专利US9404099。在某些实施方式中,DNA结合结构域包含一个、两个、三个或更多个锌指结构域。在某些实施方式中,锌指结构域结合DNA的大沟。
“RNA-引导的DNA结合结构域”是指DNA结合结构域与向导RNA形成复合物,所述向导RNA将复合物引导至双链DNA,其中复合物与DNA序列结合。在某些实施方式中,RNA-引导的DNA结合结构域是成簇的规则间隔短回文重复相关(Cas)蛋白。在某些实施方式中,Cas蛋白是Cas9DNA结合结构域。在某些实施方式中,Cas9DNA结合结构域包括Cas9的同源基因和直系同源基因,其可由RNA引导并保留DNA结合和切割能力。在某些实施方式中,RNA指导的DNA结合结构域具有一个与来自公开可用的数据库例如NCBI(例如GenBank登录号:AKS40389.1)的Cas9蛋白质序列具有至少30%、40%、50%、60%、70%、80%、90%、95%、98%或99%同源性的序列。在某些实施方式中,向导RNA可以是CRISPR RNA(crRNA)、反式激活crRNA(trancrRNA)或crRNA-trancrRNA嵌合体。
螺旋-转角-螺旋结构域或HTH结构域是通常约20个氨基酸长的结构基序,其能够结合由短的转角结构分开的两个α螺旋组成的DNA(Ann Rev.of Biochem.1984.53:293)。两个α螺旋分别占据基序的N端和C端,并且每个螺旋分别嵌入两个连续的大沟中。在某些实施方式中,所述HTH蛋白包含一个、两个、三个或更多个HTH结构域。在真核生物中,HTH结构域包含三个螺旋。HTH结构域的示例性氨基酸序列是XXXPhoAlaXXPhoGlyPhoXXXXPhoXXPhoXX(SEQ ID NO:6),其中X是任意氨基酸,Pho是疏水性氨基酸(详见美国专利申请20110230523)。
螺旋-环-螺旋结构域或HLH结构域是具有40-50个氨基酸残基的保守结构域的转录因子家族的氨基酸结构基序。HLH结构域是亮氨酸拉链结构域的变体。螺旋-环-螺旋结构域由两个通过环连接的α螺旋组成。具有这种结构的转录因子是通过两亲螺旋的二聚体。HLH结构域的一个螺旋通常比另一个螺旋小,并且由于环的灵活性,它允许通过折叠和压缩另一个螺旋进行二聚化。两个螺旋中较大的一个通常含有DNA结合区。大多数HLH蛋白具有与HLH结构域相邻的约15个氨基酸残基的额外碱性区,并特异性结合DNA,并且这种HLH被称为碱性HLH(bHLH)。bHLH结构域的序列可以从公共数据库如NCBI获得。
亮氨酸拉链结构域(bZIP)是由约60-80个氨基酸组成的三维结构基序,其具有含两个特异性α螺旋单体(N-末端)的高度保守的DNA结合区域和含有两亲性α螺旋(C-末端)的亮氨酸拉链二聚化区。N-末端赖氨酸和精氨酸的碱性残基结合到DNA的大沟上。亮氨酸拉链调节蛋白通常包括对于正常发育重要的c-fos蛋白和c-jun蛋白(AP1转录因子)。bZIP结构域的序列可以从公共数据库(例如NCBI)获得。
翼螺旋结构域是由具有四个螺旋和双链-β折叠的110个氨基酸组成的翼螺旋转录因子。HMM文库和基因组分配服务器上列出了翼螺旋结构域的示例性家族。
翼螺旋转角螺旋结构域或wHTH由两个翼、三个α螺旋以及三个或四个β-折叠组成(详情请参见Ketan S Gajiwala和Stephen K Burley,Current Opinion in StructuralBiology 2000,10:110-116)。DNA识别螺旋(第三螺旋)结合到DNA的大沟,翼通常结合到小沟或DNA的主链。在Gajiwala KS和Burley SK,Current Opinion in Structural Biology2000,10:110-116中示出了翼螺旋转角螺旋结构域的疏水核心的示例性序列。
HMG框结构域(高迁移率族框)含有三个不规则的α螺旋,这些α螺旋由参与DNA结合并且调节诸如转录、复制和DNA修复的DNA依赖性过程的环分开,所有这些都需要改变染色质的构象。HMG框结构域的序列可以从公共数据库如NCBI获得。
Wor3(White-Opaque Regulator 3)域结合至特定的DNA序列。有关详细说明,请参阅Lohse MB等人PNAS(2013)110(19):7660-5。Wor3的示例性氨基酸序列是GenBank登录号Q5A6T8。
B3结构域是只来自高等植物的转录因子中的高度保守结构域,并且是大约100-120个残基。B3结构域由七个β-折叠和两个形成假桶蛋白折叠的α-螺旋组成。含有B3结构域的蛋白质存在于高等植物中,包括生长素响应因子(ARF),脱落酸不敏感3(ABI3)和与ABI3/VP1(RAV)相关。HMG框结构域的序列可以从公共数据库如NCBI获得。
在一个实例中,位点特异性DNA结合结构域是GAL4(SEQ ID NO:7)。GAL4识别的DNA序列是5×UAS(SEQ ID NO:9)。
针对于靶蛋白的“序列一致性百分比(%)”被定义为目标序列的氨基酸残基与靶蛋白的氨基酸残基一致的百分比,比对序列并引入空隙后,如果必要的话,可以获得最大的序列一致性百分比,并且不考虑任何保守的氨基酸取代作为序列一致性的一部分。用于测定氨基酸序列一致性百分比的比对方法以本领域已知的多种方式实现,例如,使用公开的计算机软件如BLAST、BLAST-2、ALIGN或Megalign(DNASTAR)。参见,例如,Altschul等,Nucleic Acids Res.25:3389-3402(1997);Altschul等,Methods in Enzymology266:460-480(1996)。本领域的技术人员可以确定用于测量比对的合适参数,包括在被比较序列的全长上实现最大比对所需的任何算法。
在某些实施方式中,位点特异性核酸酶结构域含有与序列特异性DNA结合结构域具有相同类型的DNA结合结构域。例如,本文公开的组合物含有由TALEN组成的位点特异性核酸酶结构域和由TALE组成的序列特异性DNA结合结构域。在这种情况下,TALEN被设计来识别其中将插入转基因的靶序列,而TALE被设计来识别供体载体中的序列。
在某些实施方式中,位点特异性核酸酶结构域中包含的DNA结合结构域是与序列特异性DNA结合结构域不同的类型。例如,本文公开的组合物含有由ZFN组成的位点特异性核酸酶结构域和由TALE组成的序列特异性DNA结合结构域。
在优选的实施方式中,位点特异性核酸酶结构域识别的序列不同于序列特异性DNA结合结构域识别的序列。例如,本文公开的组合物含有由识别第一核苷酸序列的TALEN组成的位点特异性核酸酶结构域和由识别第二核苷酸序列的TALE组成的序列特异性DNA结合结构域,其中第一核苷酸序列与第二核苷酸序列不同。
位点特异性核酸酶结构域经由共价键、非共价相互作用或通过接头可操作地连接至序列特异性DNA结合结构域。因此,位点特异性核酸酶结构域和序列特异性DNA结合结构域可以分别制备并通过共价键或非共价键结合。在某些实施方式中,组合物通过混合位点特异性核酸酶结构域和序列特异性DNA结合结构域来制备。在优选的实施方式中,组合物是通过重组技术产生的融合蛋白。在这种情况下,位点特异性核酸酶结构域可以连接到序列特异性DNA结合结构域的N端或C端。
在某些实施方式中,位点特异性核酸酶结构域通过接头连接至序列特异性DNA结合结构域。本文所述的接头是指设计用于连接(connect)(例如,连接(join),连接(link))两种蛋白质序列的肽序列,其中接头肽序列通常天然不置于两种蛋白质序列之间。通常,连接蛋白是连续的或彼此相邻的,并且在连接时保持它们各自的可操作性和功能。包含本文公开的嵌合多肽的肽通过插入的包含一个或多个氨基酸的肽接头连接。这样的接头可以提供期望的灵活性以允许嵌合多肽的期望的表达、活性和/或构象定位。典型的氨基酸接头通常被设计为两个蛋白质部分之间柔性的或者在两个蛋白质部分之间的结构(诸如α-螺旋)的插入。接头肽序列可以具有任何合适的长度以连接一个或多个目标蛋白质,并且优选设计为足够柔性以便允许其连接的肽中的一个或两个的适当折叠和/或功能和/或活性。在包含接头的多肽组合物中,接头肽序列(例如氨基酸序列)的5'端(例如,末端)与一个蛋白质序列的3'端相邻并共价连接(例如全长蛋白质或蛋白质结构域、片段或变体),另外,接头氨基酸序列的3'端与另一个蛋白质序列的5'端相邻并共价连接。以这种方式产生的多肽组合物通常是指融合或嵌合蛋白/多肽,并且通常通过在合适的系统中编码多肽组合物的核酸序列的表达(例如,转录、翻译)来制备。用于制备融合蛋白和/或嵌合多肽的方法在本领域中是已知的(参见例如Sambrook等,Molecular Cloning:A Laboratory Manual,ColdSprings Harbor Laboratory,1992纽约,其通过引用全部并入本文)。上述肽接头可以侧接一个或多个由期望的限制性内切核酸酶位点或多个位点编码的氨基酸序列。许多内切核酸酶切割位点(例如,EcoRI、BamHI、HindIII、AscI位点等)在本领域中是已知的,并且最好由本领域技术人员确定接头(和/或多肽)核酸序列中包含的切割位点的选择,通常根据被连接的各个核酸序列来选择该位点。内切核酸酶限制性位点可以是接头序列的每个末端上的相同位点或根据需要和/或期望的不同限制性位点。
供体载体
在某些实施方式中,组合物还包含供体载体。供体载体含有被序列特异性DNA结合结构域识别的DNA序列。供体载体还含有待插入到靶DNA序列中的替代DNA序列(例如转基因)。优选地,供体载体还含有同源重组所必需的序列,即与靶DNA序列及其邻近序列同源的序列。
如本文所用,“替代DNA序列”是指例如通过同源重组插入到靶DNA序列中的任何核苷酸序列。在某些实施方式中,替代DNA序列是编码多肽的核苷酸序列或其片段。在某些实施方式中,替代DNA序列是非编码核苷酸序列。在优选的实施方式中,替代DNA序列含有促进同源重组的序列,例如同源臂。
另一方面,本公开提供了包含一个或多个载体的组合物。载体包含第一多核苷酸,所述第一多核苷酸编码(1)包含能够切割靶DNA序列的位点特异性核酸酶结构域的融合蛋白和(2)能够在供体构建体中特异性结合特异性DNA序列的序列特异性DNA结合结构域。
另一方面,本公开提供了包含上述公开的组合物的细胞。
使用序列特异性核酸酶组合物的方法
另一方面,本公开提供了将替代DNA序列插入到细胞的靶DNA序列中的方法。在某些实施方式中,所述方法包括向细胞中引入组合物,所述组合物包含第一多核苷酸,所述第一多核苷酸编码包含能够切割靶DNA序列的位点特异性核酸酶结构域的融合蛋白和能够特异性结合特异性DNA序列(识别DNA序列)的序列特异性DNA结合结构域;和包含识别DNA序列和替代DNA序列的供体载体。
可以使用常规的基于病毒和非病毒的基因转移方法将载体导入靶细胞。这样的方法可用于将编码组合物组分的核酸施用于培养的细胞或宿主生物体中。非病毒载体递送系统包括DNA质粒、RNA(例如本文描述的载体的转录物)、裸核酸和与递送运载体复合的核酸,例如脂质体,与递送运载体复合的蛋白质,例如脂质体。病毒载体递送系统包括DNA和RNA病毒,其在递送至细胞后具有附加型或整合型基因组。关于基因治疗程序的综述,参见Anderson,Science 256:808-813(1992);Nabel&Felgner,TIBTECH 11:211-217(1993);Mitani&Caskey,TIBTECH 11:162-166(1993);Dillon,TIBTECH 11:167-175(1993);Miller,Nature 357:455-460(1992);Van Brunt,Biotechnology 6(10):1149-1154(1988);Vigne,Restorative Neurology and Neuroscience 8:35-36(1995);Kremer&Perricaudet,British Medical Bulletin 51(1):31-44(1995);Haddada et al.,inCurrent Topics in Microbiology and Immunology Doerfler and Bihm(eds)(1995);和Yu et al.,Gene Therapy 1:13-26(1994).
非病毒递送核酸的方法包括脂质转染、核转染、电穿孔、显微注射、生物射弹、病毒小体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人造病毒体和DNA摄取增强剂。脂质转染法描述于例如美国专利号5,049,386,4,946,787;和4,897,355)并且脂质转染试剂是市售的(例如,TransfectamTM和LipofectinTM).)。适用于多核苷酸的有效受体识别脂质转染的阳离子和中性脂质包括Feigner,WO 91/17424;WO 91/16024。可递送至细胞(例如体外或离体给药)或靶组织(例如体内给药)。
包括靶向脂质体如免疫脂质复合物的脂质:核酸复合物的制备是本领域技术人员熟知的(参见例如Crystal,Science 270:404-410(1995);Blaese et al.,Cancer GeneTher.2:291-297(1995);Behr et al.,Bioconjugate Chem.5:382-389(1994);Remy etal.,Bioconjugate Chem.5:647-654(1994);Gao et al.,Gene Therapy 2:710-722(1995);Ahmad et al.,Cancer Res.52:4817-4820(1992);U.S.Pat.Nos.4,186,183,4,217,344,4,235,871,4,261,975,4,485,054,4,501,728,4,774,085,4,837,028,和4,946,787)。
基于RNA或DNA病毒的系统用于递送核酸,利用高度进化的过程将病毒靶向到体内的特定细胞并将病毒有效载荷运输到细胞核。可以将病毒载体直接给予患者(体内),或者可以将它们用于体外处理细胞,并且可以将修饰的细胞任选给予患者(体内)。常规的基于病毒的系统可以包括逆转录病毒、慢病毒、腺病毒、腺相关病毒和用于基因转移的单纯疱疹病毒载体。在宿主基因组中发生整合在逆转录病毒、慢病毒和腺相关病毒基因转移的方法中是可能的,通常导致插入的转基因的长期表达。另外,在许多不同的细胞类型和靶组织中已经观察到高转导效率。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这样的细胞包括包装腺病毒的293细胞和包装逆转录病毒的ψ2细胞或PA317细胞。用于基因治疗的病毒载体通常通过产生将核酸载体包装到病毒颗粒中的细胞系来产生。载体通常含有包装和随后整合到宿主中所需的最小病毒序列,其他病毒序列被待表达的多核苷酸的表达盒取代。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的AAV载体通常仅具有包装和整合到宿主基因组中所需的来自AAV基因组的ITR序列。病毒DNA包装在细胞系中,该细胞系含有编码其他AAV基因(即rep和cap)但缺乏ITR序列的辅助质粒。细胞系也可能被腺病毒作为辅助物感染。辅助病毒促进AAV载体的复制和AAV基因从辅助质粒的表达。由于缺乏ITR序列,辅助质粒不能大量包装。腺病毒的污染可以通过例如腺病毒比AAV更敏感的热处理来降低。将核酸递送至细胞的其他方法是本领域技术人员已知的。参见例如US20030087817,其在此参考并入。
实施例1
以下是具有提高的同源重组效率的敲入系统的实例。
敲入系统的示意图在图1中示出。参考图1,序列特异性核酸酶组合物包括Cas9-DBD融合蛋白和含有DBD识别序列的供体载体。在gRNA的指导下,Cas9结构域切割靶位点,而DBD将供体载体带到靶位点附近。然后目标基因以提高的效率通过重组插入到靶位点。
图2示出了敲入系统的组件。靶位点位于人ROSA26基因座中,基于此设计了一个gRNA(SEQ ID NO:10)。设计供体质粒以引入侧接人ROSA26基因座(5'和3'臂,SEQ ID NO:12和13)的两个同源臂的60bp插入物(箭头,SEQ ID NO:11)。供体质粒还含有克隆在同源臂之外的Gal4识别序列5×UAS(SEQ ID NO:9)。使用pX459质粒(Addgene,SEQ ID NO:16)将hROSA26gRNA与CAS9或CAS9-Gal4DNA结合结构域(DBD)一起克隆。
将供体质粒与CAS9或CAS9-DBD质粒一起转染到HEK293细胞中。转染一周后,提取基因组DNA并用一对连接引物(SEQ ID NO:17和18)通过PCR扩增。PCR产物用于深度测序分析。每个反应获得约3000个读长。HDR效率是通过完全插入的读长总数占总读长数的比值来计算。图3中示出了反映三个实验的平均值的最终百分比。
如图3所示,使用CAS9-DBD融合蛋白和配对供体质粒的敲入系统使同源重组效率几乎增加一倍。
序列表
<110> 应用干细胞有限公司
<120> 提高基因编辑效率的核酸酶
<130> 044903-8007WO01
<160> 18
<170> PatentIn version 3.5
<210> 1
<211> 1368
<212> PRT
<213> 酿脓链球菌
<400> 1
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 2
<211> 4104
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 2
atggacaaga agtatagcat cgggctggac attggaacga actcggttgg ttgggctgtg 60
attacggacg aatacaaggt gccatccaag aagtttaagg tcctgggaaa caccgaccgt 120
cactcaatca agaagaatct cattggagcc ctgctcttcg atagtgggga gaccgccgaa 180
gctactcgac tgaagcgaac ggctcgccgg cgttatacac gacgcaagaa tcgcatctgc 240
tacctccagg agattttcag caacgaaatg gctaaggttg atgactcatt ctttcatcga 300
ctcgaagaaa gtttcttggt cgaggaggat aagaagcacg agcgccatcc gatctttggt 360
aacattgtgg atgaggttgc ctatcacgaa aagtacccaa ctatctatca tcttcgtaag 420
aagctggtcg atagcacgga caaggctgat ttgcgactta tctacctggc actcgcgcac 480
atgattaagt tccgcggcca ttttcttatc gagggtgacc tgaaccccga taattctgac 540
gttgataagc tcttcatcca gttggtccaa acctacaatc agctgtttga ggaaaaccct 600
attaatgcat ctggcgtgga cgccaaggct atcctttcgg cgcgcctgtc taagtcgcgg 660
cgtttggaga accttatcgc acaactcccc ggcgaaaaga agaacggcct cttcggtaat 720
ttgattgcgt tgtcacttgg tctgactcct aacttcaaga gtaattttga cctggcagag 780
gatgcgaagc tccagttgtc taaggatacg tatgatgacg atctcgacaa cttgcttgcc 840
caaatcggtg accagtacgc tgatcttttc ctggccgcta agaatctctc agatgcaatc 900
ctgctcagtg acattttgcg ggtcaacacc gagattacta aggcccccct gtcagctagt 960
atgatcaagc ggtatgatga gcaccatcag gacctcacct tgcttaaggc cctcgtgcgt 1020
cagcaattgc ctgagaagta caaggaaatc ttctttgacc aatccaagaa cggatacgca 1080
gggtatattg atggcggtgc gagccaggag gaattctaca agtttatcaa gccgattttg 1140
gagaagatgg acggcactga ggaactgctc gtcaagctga atcgcgaaga tttgcttcgt 1200
aagcaacgaa cgttcgacaa cggctccatc ccgcaccaga ttcatctggg cgagctccac 1260
gccatccttc gacgccagga agatttctac ccatttctga aggacaaccg tgagaagatc 1320
gaaaagattc ttacattccg aatcccctac tatgtgggac ctttggcccg tgggaattcc 1380
cgatttgctt ggatgacccg aaagagcgag gaaaccatca ctccgtggaa cttcgaggaa 1440
gtcgtggaca agggtgcatc cgcgcagagc ttcattgagc ggatgaccaa ttttgataag 1500
aaccttccga atgaaaaggt cctgccaaag cattcgctgc tctacgagta tttcaccgtg 1560
tataacgaac tgactaaggt caagtacgtg acggagggaa tgcggaagcc agccttcctc 1620
tcaggggaac aaaagaaggc tatcgtcgat ttgcttttta agaccaatcg taaagtgact 1680
gttaagcagc tgaaggagga ttatttcaag aagattgaat gtttcgactc cgtcgagatc 1740
agcggcgtgg aagatcgctt taacgcttcc ctcggtacct accacgacct gctcaagatc 1800
attaaggaca aggatttcct cgataacgag gaaaatgagg acatcttgga agatattgtc 1860
ctcacgttga cactttttga ggaccgcgaa atgatcgagg aacggctcaa gacatatgcc 1920
catttgttcg acgataaggt gatgaagcag ctgaagcggc gtcgatacac cggatggggt 1980
cgccttagcc ggaagctgat caacggcatt cgagataagc aatctggtaa gactatcttg 2040
gatttcctta agtcggacgg cttcgccaac cgcaatttta tgcagcttat tcacgacgat 2100
tccctgacgt tcaaggagga catccagaag gcacaagtct caggacaagg ggattccctg 2160
cacgagcata tcgccaacct ggctggatcc ccggcgatca agaaggggat tcttcagacc 2220
gtcaaggttg tcgacgagct ggtcaaggtg atgggccgtc ataagccaga aaacatcgtg 2280
attgagatgg cccgagaaaa tcagaccact caaaagggtc agaagaacag ccgcgagcgg 2340
atgaagcgga tcgaggaagg cattaaggaa cttggttctc agatcctgaa ggagcaccct 2400
gttgaaaaca cacagctcca aaatgagaag ctgtatctct actatttgca aaatggacgc 2460
gacatgtacg tcgatcagga gctcgacatt aaccggttgt cggactacga tgttgaccat 2520
atcgtcccgc aatccttcct taaggacgat agcattgata acaaggtgct gactcgctca 2580
gataagaacc ggggcaagtc cgacaatgtt ccaagcgagg aagtggttaa gaagatgaag 2640
aactactggc gccaattgct taatgccaag ctcatcacac agcgcaagtt tgacaacttg 2700
accaaggccg agcggggagg gctgagtgaa ctcgataagg ctggcttcat caagcgtcaa 2760
ctcgtggaga cgcgacagat cacaaagcac gttgctcaga ttctggactc ccggatgaac 2820
acaaagtacg acgagaatga taagctcatc cgtgaagtta aggtcattac cctcaagtct 2880
aagttggtgt cggatttccg caaggacttc caattttata aggttcggga gatcaacaat 2940
tatcaccatg cacatgatgc gtacctcaac gcagtcgtgg gaactgcgct catcaagaag 3000
tatcccaagt tggagtccga attcgtctac ggggattata aggtttacga cgtccgcaag 3060
atgatcgcca agagtgagca ggaaattggc aaggccacgg ctaagtattt cttttactcc 3120
aacatcatga atttctttaa gacggagatc acactcgcca atggagaaat ccgtaagcga 3180
cctttgattg agaccaacgg cgagactggt gaaatcgttt gggataaggg gcgcgacttc 3240
gctaccgtgc ggaaggttct gagcatgccg caagtcaata tcgtcaagaa aaccgaggtg 3300
cagacaggcg gtttctctaa ggaatcgatt cttccaaagc gtaactctga caagctgatc 3360
gctcgaaaga aggattggga ccccaagaag tatggagggt tcgattctcc tacagtggca 3420
tactcggttc tcgttgtcgc gaaggttgag aagggaaagt ctaagaagct gaagtcggtc 3480
aaggaactgc tcgggatcac cattatggag cgctccagct tcgaaaagaa tcccatcgac 3540
tttctcgagg ccaagggcta taaggaagtc aagaaggatc ttatcattaa gctgcctaag 3600
tactctttgt tcgagcttga aaacggtcga aagcgaatgc tcgcatcggc aggagagttg 3660
cagaagggga atgaattggc acttccctca aagtacgtga acttcctgta tctcgcgtcc 3720
cactacgaga agctgaaggg tagccctgag gacaacgaac agaagcaact ttttgttgag 3780
caacacaagc attatctgga tgagatcatt gaacagattt cagagttcag taagcgcgtc 3840
atcctcgccg atgctaatct cgacaaggtg ttgtcggcct acaacaagca ccgtgacaag 3900
ccgatccgag agcaggctga aaatatcatt catctgttca ccctcactaa cttgggagca 3960
ccagcagcgt tcaagtattt tgatacgaca atcgaccgta agcgatacac gtccacaaag 4020
gaggtgcttg atgcgaccct gattcatcaa tccatcactg ggctctatga aacccgtatc 4080
gaccttagtc aactgggggg cgac 4104
<210> 3
<211> 34
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 3
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
1 5 10 15
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
20 25 30
His Gly
<210> 4
<211> 35
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 4
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
1 5 10 15
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
20 25 30
Pro His Asp
35
<210> 5
<211> 25
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<220>
<221> misc_feature
<223> 锌指结构域组分
<220>
<221> misc_feature
<222> (2)..(3)
<223> Xaa可以是任何氨基酸或无氨基酸
<220>
<221> misc_feature
<222> (4)..(5)
<223> Xaa可以是任何氨基酸或无氨基酸
<220>
<221> misc_feature
<222> (7)..(18)
<223> Xaa可以是任何氨基酸
<220>
<221> misc_feature
<222> (20)..(22)
<223> Xaa可以是任何氨基酸
<220>
<221> misc_feature
<222> (23)..(24)
<223> Xaa可以是任何氨基酸或无氨基酸
<400> 5
Cys Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa
1 5 10 15
Xaa Xaa His Xaa Xaa Xaa Xaa Xaa His
20 25
<210> 6
<211> 20
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<220>
<221> misc_feature
<223> Pho可以是疏水性氨基酸
<220>
<221> misc_feature
<222> (1)..(3)
<223> Xaa可以是任何天然氨基酸
<220>
<221> misc_feature
<222> (6)..(7)
<223> Xaa可以是任何天然氨基酸
<220>
<221> misc_feature
<222> (11)..(14)
<223> Xaa可以是任何天然氨基酸
<220>
<221> misc_feature
<222> (16)..(17)
<223> Xaa可以是任何天然氨基酸
<220>
<221> misc_feature
<222> (19)..(20)
<223> Xaa可以是任何天然氨基酸
<400> 6
Xaa Xaa Xaa Pho Ala Xaa Xaa Pho Gly Pho Xaa Xaa Xaa Xaa Pho Xaa
1 5 10 15
Xaa Pho Xaa Xaa
20
<210> 7
<211> 147
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 7
Met Lys Leu Leu Ser Ser Ile Glu Gln Ala Cys Asp Ile Cys Arg Leu
1 5 10 15
Lys Lys Leu Lys Cys Ser Lys Glu Lys Pro Lys Cys Ala Lys Cys Leu
20 25 30
Lys Asn Asn Trp Glu Cys Arg Tyr Ser Pro Lys Thr Lys Arg Ser Pro
35 40 45
Leu Thr Arg Ala His Leu Thr Glu Val Glu Ser Arg Leu Glu Arg Leu
50 55 60
Glu Gln Leu Phe Leu Leu Ile Phe Pro Arg Glu Asp Leu Asp Met Ile
65 70 75 80
Leu Lys Met Asp Ser Leu Gln Asp Ile Lys Ala Leu Leu Thr Gly Leu
85 90 95
Phe Val Gln Asp Asn Val Asn Lys Asp Ala Val Thr Asp Arg Leu Ala
100 105 110
Ser Val Glu Thr Asp Met Pro Leu Thr Leu Arg Gln His Arg Ile Ser
115 120 125
Ala Thr Ser Ser Ser Glu Glu Ser Ser Asn Lys Gly Gln Arg Gln Leu
130 135 140
Thr Val Ser
145
<210> 8
<211> 441
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 8
atgaagctac tgtcttctat cgaacaagca tgcgatattt gccgacttaa aaagctcaag 60
tgctccaaag aaaaaccgaa gtgcgccaag tgtctgaaga acaactggga gtgtcgctac 120
tctcccaaaa ccaaaaggtc tccgctgact agggcacatc tgacagaagt ggaatcaagg 180
ctagaaagac tggaacagct atttctactg atttttcctc gagaagacct tgacatgatt 240
ttgaaaatgg attctttaca ggatataaaa gcattgttaa caggattatt tgtgcaagat 300
aatgtgaata aagatgccgt cacagataga ttggcttcag tggagactga tatgcctcta 360
acattgagac agcatagaat aagtgcgaca tcatcatcgg aagagagtag taacaaaggt 420
caaagacagt tgactgtatc g 441
<210> 9
<211> 93
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 9
cggagtactg tcctccgagc ggagtactgt cctccgagcg gagtactgtc ctccgagcgg 60
agtactgtcc tccgagcgga gtactgtcct ccg 93
<210> 10
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 10
agtcgcttct cgattatggg 20
<210> 11
<211> 60
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 11
tcgacggcgc gtaaccggta agtaagggcg aattccagca cactggcggc cgttactagt 60
<210> 12
<211> 2000
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 12
ggtttgttgg acttagcttt cagctaaata tataataaat aaaacaaaac aagcagttaa 60
atgaaatgta atgggccaga gagcttcagc ttttatttcc ttactgctca gtaaaaagag 120
aaaaccatca atgtccacgt attctgtaat ccacagaaca agtccggggc tacagctata 180
ctgtccacag ttgcaattca aattagataa aaaataaaaa ttcagttctt tagtcatacc 240
agccactttt ccaatgctca agattaataa aatgtcaaac cataaagaca tttacatgtc 300
gctcactcca tttacttaaa gttggctaga catcagagta tactaggagc tcaggagtac 360
aagacactat tccttcaaaa agctcagaat agttaaggta atttaaatca gcaatgacaa 420
caaccccaga attactatga cccacgcagt acaaactgct caggagtcag aagaaaactg 480
cttttttaaa agggcagttt gggtcataga acaacagacc atggaaggca tgaccaaagg 540
ggagatgaca tttgaatctg caggattaaa agcagcaagg gtagcattcc aaaaagaacc 600
accccacaaa gatatatgac gtctctatga tttgggtaac tgcaattcat tccatgtgac 660
ttcaggagag aggtcatatt tgtgtgtgta gtatgtggaa aatagtgaaa aatgaaaaag 720
ctgttaaatt gaggaaagtc tatccaggga ccttatgcat cacattcacg agaacagaat 780
tcatcctgta aaccaggggt gtccaatctt tcggcttccc tgggccacac tgcaagaact 840
gtcttgggcc acatataaag gacagctgat gagcaaaaaa aaaaaacaga caacaacaac 900
aaaaaaaaca ccccgcaaaa aaaactccta aaactttaag aaagtttacg aatttgtgtt 960
gggtcgcatt caaagctgtc ctgggtccca tgcggcccgc gggttagaca acttgctgta 1020
aacagtacaa gccagtaatg gagtttcacc tgtcattttc atgctctatc ttcctttagg 1080
acaatcatcc taacaagatg taagatggat caaaagataa cactaaagac agagacagca 1140
atttggaagc tatcacacag gcatctgaga tcagttacta actggtaaga acagaaatga 1200
gaggtattta gaggaagaaa aagggagatg ttgcctaacc tcagatccaa ttctctgtaa 1260
agcagtagtc aagatcacct ggactgtgaa gacggtcagg gacagaatcc cagctaagga 1320
aaaaggataa aatgaaaatc aagataaaca tttaagaacg tgaactaggg aggaataaaa 1380
gcactgctgg gtaagagtca agccccagct caagccttaa tttgtggtgg aaccaatctg 1440
tctggtttcg cgagacacca ggctacccaa gatcaagaga gggagaaagc tagtgctatg 1500
tctgaatact agaggagcaa gtacaacaaa tggaaaatgg gatcaagtat gagtgagagt 1560
tgctaagatg cctggtaggg atgcaaaggg gtagagagcc tggggagaga gggtgaggga 1620
gggaagcact ggtttctcaa gcaaaagcta aaatttttct attaagattt aacctgatgc 1680
tacactttgg tggtgcagca agggtctcaa atggtataaa actcaggtga tcatgcttta 1740
tgtctgtctc tagaaaaatg ctccaaaaat gataagtagt gataatccgc agtctcgttg 1800
cataaaatca gccccaggtg aatgactaag ctccatttcc ctaccccacc cttattacaa 1860
taacctcgac accaactcta gtccgtggga agataaacta atcggagtcg cccctcaaat 1920
cttacagctg ctcactcccc tgcagggcaa cgcccaggga ccaagttagc cccttaagcc 1980
taggcaaaag aatcccgccc 2000
<210> 13
<211> 1744
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 13
ataatcgaga agcgactcga catggaggcg atgacgagat cacgcgagga ggaaaggagg 60
gagggcttct tccaggccca gggcggtcct tacaagacgg gaggcagcag agaactccca 120
taaaggtatt gcggcactcc cctccccctg cccagaaggg tgcggccttc tctccacctc 180
ctccaccgca gctccctcag gattgcagct cgcgccggtt tttggagaac aagcgcctcc 240
cacccacaaa ccagccggac cgacccccgc tcctccccca cccccacgag tgcctgtagc 300
aggtcgggct tgtctcgccc ttcaggcggt gggaacccgg ggcggagccg cggccgccgc 360
catccagaag tctcggccgg cagcccgccc ccgcctccag cgcgcgcttc ctgccacgtt 420
gcgcaggggc gcggggccag acactgcggc gctcggcctc ggggaggacc gtaccaacgc 480
ccgcctcccc gccacccccg cgccccgcgc agtggtttcg ctcatgtgag actcgagcca 540
gtagcaaggg cccggtccca cagcttcgac agccaatcag gtgtcgaaga caagcaggcg 600
gcgggtaaac cgactccccc gaaggaaggg gagggtggga ggacgcccgc gccagagccg 660
atttcactga ccctcccctc ccgccgcagg aggccggccg cgcccgcaca cccagcatct 720
ctacacccca cctacctacc cgccccaccc agggggcaac gcgagagtcg ctaagcggct 780
gcgtactccc gacggcgtaa ctgacaggag ctttactcca accagaatac gccatttgtg 840
ttttcacaca cggcgggagg agaaacggcc aatcggcgac aagaggctag ccggaagcgc 900
tcctccctct gcgagagcaa tggctccgtc cggtttcgag cattttccgc tcccttctcc 960
ctccccctcc ggttgccgca gggcgggcct ccctcccgcc tgcatccagc cacccctttc 1020
cctcccaacg taacaaacat tatgttcccg acttcccacg ggaaaggcaa cccccgcaag 1080
ccaccagacg gcccccctag ccacccatcc ccccagtgta ccgcacctcc cctcccacca 1140
gagttccgct cccctaccta gccgaggctc tctgaggagc cggagcgccg aagcacagcc 1200
tcttctctag gcggccccgg cggcttccgc tgattggcgg cgagtgggcc aatgggtgcg 1260
gggcggtggg cggagaggcc aatggcgcgg cgggaggggg cgtgtcccgg gtgcccctgg 1320
cgccggcgct gggaatcccc gtgcggtcag tggcgtttcc gctcgggcag cgggctgagt 1380
gagctgccgc cgccgccgcc gccgccgccg ccgccgccgc tgccggggga ggggcggccg 1440
ccgcccgcct gcgctcagag actcacgcag ccccagtccc gccagtccgc caacacagta 1500
gtgccggccc ccctctttcc ctggccctgc cccccctccc cgcctttggc tcgctccgcc 1560
tttctgcccc ccacccccac ctcacgggta cgggccattc ccggccagga aacgccgtgg 1620
cgccgcgttg ggcctaactc gagtcctgcc gcctcccggg agtgccgtgc gccgcagccc 1680
gggcccaggc cccggcagcg cctgggacaa ggtaagggtc cgacagaaaa gagaccgaac 1740
ctca 1744
<210> 14
<211> 4758
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 14
atggactata aggaccacga cggagactac aaggatcatg atattgatta caaagacgat 60
gacgataaga tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagcc 120
gacaagaagt acagcatcgg cctggacatc ggcaccaact ctgtgggctg ggccgtgatc 180
accgacgagt acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgaccggcac 240
agcatcaaga agaacctgat cggagccctg ctgttcgaca gcggcgaaac agccgaggcc 300
acccggctga agagaaccgc cagaagaaga tacaccagac ggaagaaccg gatctgctat 360
ctgcaagaga tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccacagactg 420
gaagagtcct tcctggtgga agaggataag aagcacgagc ggcaccccat cttcggcaac 480
atcgtggacg aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa 540
ctggtggaca gcaccgacaa ggccgacctg cggctgatct atctggccct ggcccacatg 600
atcaagttcc ggggccactt cctgatcgag ggcgacctga accccgacaa cagcgacgtg 660
gacaagctgt tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc 720
aacgccagcg gcgtggacgc caaggccatc ctgtctgcca gactgagcaa gagcagacgg 780
ctggaaaatc tgatcgccca gctgcccggc gagaagaaga atggcctgtt cggaaacctg 840
attgccctga gcctgggcct gacccccaac ttcaagagca acttcgacct ggccgaggat 900
gccaaactgc agctgagcaa ggacacctac gacgacgacc tggacaacct gctggcccag 960
atcggcgacc agtacgccga cctgtttctg gccgccaaga acctgtccga cgccatcctg 1020
ctgagcgaca tcctgagagt gaacaccgag atcaccaagg cccccctgag cgcctctatg 1080
atcaagagat acgacgagca ccaccaggac ctgaccctgc tgaaagctct cgtgcggcag 1140
cagctgcctg agaagtacaa agagattttc ttcgaccaga gcaagaacgg ctacgccggc 1200
tacattgacg gcggagccag ccaggaagag ttctacaagt tcatcaagcc catcctggaa 1260
aagatggacg gcaccgagga actgctcgtg aagctgaaca gagaggacct gctgcggaag 1320
cagcggacct tcgacaacgg cagcatcccc caccagatcc acctgggaga gctgcacgcc 1380
attctgcggc ggcaggaaga tttttaccca ttcctgaagg acaaccggga aaagatcgag 1440
aagatcctga ccttccgcat cccctactac gtgggccctc tggccagggg aaacagcaga 1500
ttcgcctgga tgaccagaaa gagcgaggaa accatcaccc cctggaactt cgaggaagtg 1560
gtggacaagg gcgcttccgc ccagagcttc atcgagcgga tgaccaactt cgataagaac 1620
ctgcccaacg agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtat 1680
aacgagctga ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc cttcctgagc 1740
ggcgagcaga aaaaggccat cgtggacctg ctgttcaaga ccaaccggaa agtgaccgtg 1800
aagcagctga aagaggacta cttcaagaaa atcgagtgct tcgactccgt ggaaatctcc 1860
ggcgtggaag atcggttcaa cgcctccctg ggcacatacc acgatctgct gaaaattatc 1920
aaggacaagg acttcctgga caatgaggaa aacgaggaca ttctggaaga tatcgtgctg 1980
accctgacac tgtttgagga cagagagatg atcgaggaac ggctgaaaac ctatgcccac 2040
ctgttcgacg acaaagtgat gaagcagctg aagcggcgga gatacaccgg ctggggcagg 2100
ctgagccgga agctgatcaa cggcatccgg gacaagcagt ccggcaagac aatcctggat 2160
ttcctgaagt ccgacggctt cgccaacaga aacttcatgc agctgatcca cgacgacagc 2220
ctgaccttta aagaggacat ccagaaagcc caggtgtccg gccagggcga tagcctgcac 2280
gagcacattg ccaatctggc cggcagcccc gccattaaga agggcatcct gcagacagtg 2340
aaggtggtgg acgagctcgt gaaagtgatg ggccggcaca agcccgagaa catcgtgatc 2400
gaaatggcca gagagaacca gaccacccag aagggacaga agaacagccg cgagagaatg 2460
aagcggatcg aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg 2520
gaaaacaccc agctgcagaa cgagaagctg tacctgtact acctgcagaa tgggcgggat 2580
atgtacgtgg accaggaact ggacatcaac cggctgtccg actacgatgt ggaccatatc 2640
gtgcctcaga gctttctgaa ggacgactcc atcgacaaca aggtgctgac cagaagcgac 2700
aagaaccggg gcaagagcga caacgtgccc tccgaagagg tcgtgaagaa gatgaagaac 2760
tactggcggc agctgctgaa cgccaagctg attacccaga gaaagttcga caatctgacc 2820
aaggccgaga gaggcggcct gagcgaactg gataaggccg gcttcatcaa gagacagctg 2880
gtggaaaccc ggcagatcac aaagcacgtg gcacagatcc tggactcccg gatgaacact 2940
aagtacgacg agaatgacaa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag 3000
ctggtgtccg atttccggaa ggatttccag ttttacaaag tgcgcgagat caacaactac 3060
caccacgccc acgacgccta cctgaacgcc gtcgtgggaa ccgccctgat caaaaagtac 3120
cctaagctgg aaagcgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg 3180
atcgccaaga gcgagcagga aatcggcaag gctaccgcca agtacttctt ctacagcaac 3240
atcatgaact ttttcaagac cgagattacc ctggccaacg gcgagatccg gaagcggcct 3300
ctgatcgaga caaacggcga aaccggggag atcgtgtggg ataagggccg ggattttgcc 3360
accgtgcgga aagtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtgcag 3420
acaggcggct tcagcaaaga gtctatcctg cccaagagga acagcgataa gctgatcgcc 3480
agaaagaagg actgggaccc taagaagtac ggcggcttcg acagccccac cgtggcctat 3540
tctgtgctgg tggtggccaa agtggaaaag ggcaagtcca agaaactgaa gagtgtgaaa 3600
gagctgctgg ggatcaccat catggaaaga agcagcttcg agaagaatcc catcgacttt 3660
ctggaagcca agggctacaa agaagtgaaa aaggacctga tcatcaagct gcctaagtac 3720
tccctgttcg agctggaaaa cggccggaag agaatgctgg cctctgccgg cgaactgcag 3780
aagggaaacg aactggccct gccctccaaa tatgtgaact tcctgtacct ggccagccac 3840
tatgagaagc tgaagggctc ccccgaggat aatgagcaga aacagctgtt tgtggaacag 3900
cacaagcact acctggacga gatcatcgag cagatcagcg agttctccaa gagagtgatc 3960
ctggccgacg ctaatctgga caaagtgctg tccgcctaca acaagcaccg ggataagccc 4020
atcagagagc aggccgagaa tatcatccac ctgtttaccc tgaccaatct gggagcccct 4080
gccgccttca agtactttga caccaccatc gaccggaaga ggtacaccag caccaaagag 4140
gtgctggacg ccaccctgat ccaccagagc atcaccggcc tgtacgagac acggatcgac 4200
ctgtctcagc tgggaggcga cggtggctct ggaggcggat caggtatgaa gctactgtct 4260
tctatcgaac aagcatgcga tatttgccga cttaaaaagc tcaagtgctc caaagaaaaa 4320
ccgaagtgcg ccaagtgtct gaagaacaac tgggagtgtc gctactctcc caaaaccaaa 4380
aggtctccgc tgactagggc acatctgaca gaagtggaat caaggctaga aagactggaa 4440
cagctatttc tactgatttt tcctcgagaa gaccttgaca tgattttgaa aatggattct 4500
ttacaggata taaaagcatt gttaacagga ttatttgtgc aagataatgt gaataaagat 4560
gccgtcacag atagattggc ttcagtggag actgatatgc ctctaacatt gagacagcat 4620
agaataagtg cgacatcatc atcggaagag agtagtaaca aaggtcaaag acagttgact 4680
gtatcgggtg gctctggagg cggatcaggt aaaaggccgg cggccacgaa aaaggccggc 4740
caggcaaaaa agaaaaag 4758
<210> 15
<211> 1586
<212> PRT
<213> 人工序列
<220>
<223> 合成的
<400> 15
Met Asp Tyr Lys Asp His Asp Gly Asp Tyr Lys Asp His Asp Ile Asp
1 5 10 15
Tyr Lys Asp Asp Asp Asp Lys Met Ala Pro Lys Lys Lys Arg Lys Val
20 25 30
Gly Ile His Gly Val Pro Ala Ala Asp Lys Lys Tyr Ser Ile Gly Leu
35 40 45
Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr
50 55 60
Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His
65 70 75 80
Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu
85 90 95
Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr
100 105 110
Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu
115 120 125
Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe
130 135 140
Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn
145 150 155 160
Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His
165 170 175
Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu
180 185 190
Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu
195 200 205
Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe
210 215 220
Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile
225 230 235 240
Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser
245 250 255
Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys
260 265 270
Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr
275 280 285
Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln
290 295 300
Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln
305 310 315 320
Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser
325 330 335
Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr
340 345 350
Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His
355 360 365
Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu
370 375 380
Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly
385 390 395 400
Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys
405 410 415
Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu
420 425 430
Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser
435 440 445
Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg
450 455 460
Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu
465 470 475 480
Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg
485 490 495
Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile
500 505 510
Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln
515 520 525
Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu
530 535 540
Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr
545 550 555 560
Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro
565 570 575
Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe
580 585 590
Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe
595 600 605
Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp
610 615 620
Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile
625 630 635 640
Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu
645 650 655
Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu
660 665 670
Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys
675 680 685
Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys
690 695 700
Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp
705 710 715 720
Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile
725 730 735
His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val
740 745 750
Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly
755 760 765
Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp
770 775 780
Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile
785 790 795 800
Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser
805 810 815
Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser
820 825 830
Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu
835 840 845
Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp
850 855 860
Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile
865 870 875 880
Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu
885 890 895
Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu
900 905 910
Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala
915 920 925
Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg
930 935 940
Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu
945 950 955 960
Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser
965 970 975
Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val
980 985 990
Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp
995 1000 1005
Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala
1010 1015 1020
His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys
1025 1030 1035
Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys
1040 1045 1050
Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile
1055 1060 1065
Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn
1070 1075 1080
Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys
1085 1090 1095
Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp
1100 1105 1110
Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met
1115 1120 1125
Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly
1130 1135 1140
Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu
1145 1150 1155
Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe
1160 1165 1170
Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val
1175 1180 1185
Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu
1190 1195 1200
Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile
1205 1210 1215
Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu
1220 1225 1230
Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly
1235 1240 1245
Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn
1250 1255 1260
Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala
1265 1270 1275
Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln
1280 1285 1290
Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile
1295 1300 1305
Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp
1310 1315 1320
Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp
1325 1330 1335
Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr
1340 1345 1350
Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr
1355 1360 1365
Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp
1370 1375 1380
Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg
1385 1390 1395
Ile Asp Leu Ser Gln Leu Gly Gly Asp Gly Gly Ser Gly Gly Gly
1400 1405 1410
Ser Gly Met Lys Leu Leu Ser Ser Ile Glu Gln Ala Cys Asp Ile
1415 1420 1425
Cys Arg Leu Lys Lys Leu Lys Cys Ser Lys Glu Lys Pro Lys Cys
1430 1435 1440
Ala Lys Cys Leu Lys Asn Asn Trp Glu Cys Arg Tyr Ser Pro Lys
1445 1450 1455
Thr Lys Arg Ser Pro Leu Thr Arg Ala His Leu Thr Glu Val Glu
1460 1465 1470
Ser Arg Leu Glu Arg Leu Glu Gln Leu Phe Leu Leu Ile Phe Pro
1475 1480 1485
Arg Glu Asp Leu Asp Met Ile Leu Lys Met Asp Ser Leu Gln Asp
1490 1495 1500
Ile Lys Ala Leu Leu Thr Gly Leu Phe Val Gln Asp Asn Val Asn
1505 1510 1515
Lys Asp Ala Val Thr Asp Arg Leu Ala Ser Val Glu Thr Asp Met
1520 1525 1530
Pro Leu Thr Leu Arg Gln His Arg Ile Ser Ala Thr Ser Ser Ser
1535 1540 1545
Glu Glu Ser Ser Asn Lys Gly Gln Arg Gln Leu Thr Val Ser Gly
1550 1555 1560
Gly Ser Gly Gly Gly Ser Gly Lys Arg Pro Ala Ala Thr Lys Lys
1565 1570 1575
Ala Gly Gln Ala Lys Lys Lys Lys
1580 1585
<210> 16
<211> 9175
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 16
gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60
ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120
aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180
atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240
cgaaacaccg ggtcttcgag aagacctgtt ttagagctag aaatagcaag ttaaaataag 300
gctagtccgt tatcaacttg aaaaagtggc accgagtcgg tgcttttttg ttttagagct 360
agaaatagca agttaaaata aggctagtcc gtttttagcg cgtgcgccaa ttctgcagac 420
aaatggctct agaggtaccc gttacataac ttacggtaaa tggcccgcct ggctgaccgc 480
ccaacgaccc ccgcccattg acgtcaatag taacgccaat agggactttc cattgacgtc 540
aatgggtgga gtatttacgg taaactgccc acttggcagt acatcaagtg tatcatatgc 600
caagtacgcc ccctattgac gtcaatgacg gtaaatggcc cgcctggcat tgtgcccagt 660
acatgacctt atgggacttt cctacttggc agtacatcta cgtattagtc atcgctatta 720
ccatggtcga ggtgagcccc acgttctgct tcactctccc catctccccc ccctccccac 780
ccccaatttt gtatttattt attttttaat tattttgtgc agcgatgggg gcgggggggg 840
ggggggggcg cgcgccaggc ggggcggggc ggggcgaggg gcggggcggg gcgaggcgga 900
gaggtgcggc ggcagccaat cagagcggcg cgctccgaaa gtttcctttt atggcgaggc 960
ggcggcggcg gcggccctat aaaaagcgaa gcgcgcggcg ggcgggagtc gctgcgacgc 1020
tgccttcgcc ccgtgccccg ctccgccgcc gcctcgcgcc gcccgccccg gctctgactg 1080
accgcgttac tcccacaggt gagcgggcgg gacggccctt ctcctccggg ctgtaattag 1140
ctgagcaaga ggtaagggtt taagggatgg ttggttggtg gggtattaat gtttaattac 1200
ctggagcacc tgcctgaaat cacttttttt caggttggac cggtgccacc atggactata 1260
aggaccacga cggagactac aaggatcatg atattgatta caaagacgat gacgataaga 1320
tggccccaaa gaagaagcgg aaggtcggta tccacggagt cccagcagcc gacaagaagt 1380
acagcatcgg cctggacatc ggcaccaact ctgtgggctg ggccgtgatc accgacgagt 1440
acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgaccggcac agcatcaaga 1500
agaacctgat cggagccctg ctgttcgaca gcggcgaaac agccgaggcc acccggctga 1560
agagaaccgc cagaagaaga tacaccagac ggaagaaccg gatctgctat ctgcaagaga 1620
tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccacagactg gaagagtcct 1680
tcctggtgga agaggataag aagcacgagc ggcaccccat cttcggcaac atcgtggacg 1740
aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa ctggtggaca 1800
gcaccgacaa ggccgacctg cggctgatct atctggccct ggcccacatg atcaagttcc 1860
ggggccactt cctgatcgag ggcgacctga accccgacaa cagcgacgtg gacaagctgt 1920
tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc aacgccagcg 1980
gcgtggacgc caaggccatc ctgtctgcca gactgagcaa gagcagacgg ctggaaaatc 2040
tgatcgccca gctgcccggc gagaagaaga atggcctgtt cggaaacctg attgccctga 2100
gcctgggcct gacccccaac ttcaagagca acttcgacct ggccgaggat gccaaactgc 2160
agctgagcaa ggacacctac gacgacgacc tggacaacct gctggcccag atcggcgacc 2220
agtacgccga cctgtttctg gccgccaaga acctgtccga cgccatcctg ctgagcgaca 2280
tcctgagagt gaacaccgag atcaccaagg cccccctgag cgcctctatg atcaagagat 2340
acgacgagca ccaccaggac ctgaccctgc tgaaagctct cgtgcggcag cagctgcctg 2400
agaagtacaa agagattttc ttcgaccaga gcaagaacgg ctacgccggc tacattgacg 2460
gcggagccag ccaggaagag ttctacaagt tcatcaagcc catcctggaa aagatggacg 2520
gcaccgagga actgctcgtg aagctgaaca gagaggacct gctgcggaag cagcggacct 2580
tcgacaacgg cagcatcccc caccagatcc acctgggaga gctgcacgcc attctgcggc 2640
ggcaggaaga tttttaccca ttcctgaagg acaaccggga aaagatcgag aagatcctga 2700
ccttccgcat cccctactac gtgggccctc tggccagggg aaacagcaga ttcgcctgga 2760
tgaccagaaa gagcgaggaa accatcaccc cctggaactt cgaggaagtg gtggacaagg 2820
gcgcttccgc ccagagcttc atcgagcgga tgaccaactt cgataagaac ctgcccaacg 2880
agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtat aacgagctga 2940
ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc cttcctgagc ggcgagcaga 3000
aaaaggccat cgtggacctg ctgttcaaga ccaaccggaa agtgaccgtg aagcagctga 3060
aagaggacta cttcaagaaa atcgagtgct tcgactccgt ggaaatctcc ggcgtggaag 3120
atcggttcaa cgcctccctg ggcacatacc acgatctgct gaaaattatc aaggacaagg 3180
acttcctgga caatgaggaa aacgaggaca ttctggaaga tatcgtgctg accctgacac 3240
tgtttgagga cagagagatg atcgaggaac ggctgaaaac ctatgcccac ctgttcgacg 3300
acaaagtgat gaagcagctg aagcggcgga gatacaccgg ctggggcagg ctgagccgga 3360
agctgatcaa cggcatccgg gacaagcagt ccggcaagac aatcctggat ttcctgaagt 3420
ccgacggctt cgccaacaga aacttcatgc agctgatcca cgacgacagc ctgaccttta 3480
aagaggacat ccagaaagcc caggtgtccg gccagggcga tagcctgcac gagcacattg 3540
ccaatctggc cggcagcccc gccattaaga agggcatcct gcagacagtg aaggtggtgg 3600
acgagctcgt gaaagtgatg ggccggcaca agcccgagaa catcgtgatc gaaatggcca 3660
gagagaacca gaccacccag aagggacaga agaacagccg cgagagaatg aagcggatcg 3720
aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg gaaaacaccc 3780
agctgcagaa cgagaagctg tacctgtact acctgcagaa tgggcgggat atgtacgtgg 3840
accaggaact ggacatcaac cggctgtccg actacgatgt ggaccatatc gtgcctcaga 3900
gctttctgaa ggacgactcc atcgacaaca aggtgctgac cagaagcgac aagaaccggg 3960
gcaagagcga caacgtgccc tccgaagagg tcgtgaagaa gatgaagaac tactggcggc 4020
agctgctgaa cgccaagctg attacccaga gaaagttcga caatctgacc aaggccgaga 4080
gaggcggcct gagcgaactg gataaggccg gcttcatcaa gagacagctg gtggaaaccc 4140
ggcagatcac aaagcacgtg gcacagatcc tggactcccg gatgaacact aagtacgacg 4200
agaatgacaa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag ctggtgtccg 4260
atttccggaa ggatttccag ttttacaaag tgcgcgagat caacaactac caccacgccc 4320
acgacgccta cctgaacgcc gtcgtgggaa ccgccctgat caaaaagtac cctaagctgg 4380
aaagcgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg atcgccaaga 4440
gcgagcagga aatcggcaag gctaccgcca agtacttctt ctacagcaac atcatgaact 4500
ttttcaagac cgagattacc ctggccaacg gcgagatccg gaagcggcct ctgatcgaga 4560
caaacggcga aaccggggag atcgtgtggg ataagggccg ggattttgcc accgtgcgga 4620
aagtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtgcag acaggcggct 4680
tcagcaaaga gtctatcctg cccaagagga acagcgataa gctgatcgcc agaaagaagg 4740
actgggaccc taagaagtac ggcggcttcg acagccccac cgtggcctat tctgtgctgg 4800
tggtggccaa agtggaaaag ggcaagtcca agaaactgaa gagtgtgaaa gagctgctgg 4860
ggatcaccat catggaaaga agcagcttcg agaagaatcc catcgacttt ctggaagcca 4920
agggctacaa agaagtgaaa aaggacctga tcatcaagct gcctaagtac tccctgttcg 4980
agctggaaaa cggccggaag agaatgctgg cctctgccgg cgaactgcag aagggaaacg 5040
aactggccct gccctccaaa tatgtgaact tcctgtacct ggccagccac tatgagaagc 5100
tgaagggctc ccccgaggat aatgagcaga aacagctgtt tgtggaacag cacaagcact 5160
acctggacga gatcatcgag cagatcagcg agttctccaa gagagtgatc ctggccgacg 5220
ctaatctgga caaagtgctg tccgcctaca acaagcaccg ggataagccc atcagagagc 5280
aggccgagaa tatcatccac ctgtttaccc tgaccaatct gggagcccct gccgccttca 5340
agtactttga caccaccatc gaccggaaga ggtacaccag caccaaagag gtgctggacg 5400
ccaccctgat ccaccagagc atcaccggcc tgtacgagac acggatcgac ctgtctcagc 5460
tgggaggcga caaaaggccg gcggccacga aaaaggccgg ccaggcaaaa aagaaaaagg 5520
aattcggcag tggagagggc agaggaagtc tgctaacatg cggtgacgtc gaggagaatc 5580
ctggcccaat gaccgagtac aagcccacgg tgcgcctcgc cacccgcgac gacgtcccca 5640
gggccgtacg caccctcgcc gccgcgttcg ccgactaccc cgccacgcgc cacaccgtcg 5700
atccggaccg ccacatcgag cgggtcaccg agctgcaaga actcttcctc acgcgcgtcg 5760
ggctcgacat cggcaaggtg tgggtcgcgg acgacggcgc cgcggtggcg gtctggacca 5820
cgccggagag cgtcgaagcg ggggcggtgt tcgccgagat cggcccgcgc atggccgagt 5880
tgagcggttc ccggctggcc gcgcagcaac agatggaagg cctcctggcg ccgcaccggc 5940
ccaaggagcc cgcgtggttc ctggccaccg tcggagtctc gcccgaccac cagggcaagg 6000
gtctgggcag cgccgtcgtg ctccccggag tggaggcggc cgagcgcgcc ggggtgcccg 6060
ccttcctgga gacctccgcg ccccgcaacc tccccttcta cgagcggctc ggcttcaccg 6120
tcaccgccga cgtcgaggtg cccgaaggac cgcgcacctg gtgcatgacc cgcaagcccg 6180
gtgcctgaga attctaacta gagctcgctg atcagcctcg actgtgcctt ctagttgcca 6240
gccatctgtt gtttgcccct cccccgtgcc ttccttgacc ctggaaggtg ccactcccac 6300
tgtcctttcc taataaaatg aggaaattgc atcgcattgt ctgagtaggt gtcattctat 6360
tctggggggt ggggtggggc aggacagcaa gggggaggat tgggaagaga atagcaggca 6420
tgctggggag cggccgcagg aacccctagt gatggagttg gccactccct ctctgcgcgc 6480
tcgctcgctc actgaggccg ggcgaccaaa ggtcgcccga cgcccgggct ttgcccgggc 6540
ggcctcagtg agcgagcgag cgcgcagctg cctgcagggg cgcctgatgc ggtattttct 6600
ccttacgcat ctgtgcggta tttcacaccg catacgtcaa agcaaccata gtacgcgccc 6660
tgtagcggcg cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt 6720
gccagcgccc tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc 6780
ggctttcccc gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta 6840
cggcacctcg accccaaaaa acttgatttg ggtgatggtt cacgtagtgg gccatcgccc 6900
tgatagacgg tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg 6960
ttccaaactg gaacaacact caaccctatc tcgggctatt cttttgattt ataagggatt 7020
ttgccgattt cggcctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat 7080
tttaacaaaa tattaacgtt tacaatttta tggtgcactc tcagtacaat ctgctctgat 7140
gccgcatagt taagccagcc ccgacacccg ccaacacccg ctgacgcgcc ctgacgggct 7200
tgtctgctcc cggcatccgc ttacagacaa gctgtgaccg tctccgggag ctgcatgtgt 7260
cagaggtttt caccgtcatc accgaaacgc gcgagacgaa agggcctcgt gatacgccta 7320
tttttatagg ttaatgtcat gataataatg gtttcttaga cgtcaggtgg cacttttcgg 7380
ggaaatgtgc gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg 7440
ctcatgagac aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt 7500
attcaacatt tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt 7560
gctcacccag aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg 7620
ggttacatcg aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa 7680
cgttttccaa tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt 7740
gacgccgggc aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag 7800
tactcaccag tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt 7860
gctgccataa ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga 7920
ccgaaggagc taaccgcttt tttgcacaac atgggggatc atgtaactcg ccttgatcgt 7980
tgggaaccgg agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta 8040
gcaatggcaa caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg 8100
caacaattaa tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc 8160
cttccggctg gctggtttat tgctgataaa tctggagccg gtgagcgtgg aagccgcggt 8220
atcattgcag cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg 8280
gggagtcagg caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg 8340
attaagcatt ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa 8400
cttcattttt aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa 8460
atcccttaac gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga 8520
tcttcttgag atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg 8580
ctaccagcgg tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact 8640
ggcttcagca gagcgcagat accaaatact gtccttctag tgtagccgta gttaggccac 8700
cacttcaaga actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg 8760
gctgctgcca gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg 8820
gataaggcgc agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga 8880
acgacctaca ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc 8940
gaagggagaa aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg 9000
agggagcttc cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc 9060
tgacttgagc gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc 9120
agcaacgcgg cctttttacg gttcctggcc ttttgctggc cttttgctca catgt 9175
<210> 17
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 17
taacgcttgc tttcactgtt gtcc 24
<210> 18
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 18
atctcgtcat cgcctccatg t 21

Claims (4)

1.一种组合物,其包含:
融合蛋白,所述融合蛋白由位点特异性核酸酶结构域和序列特异性DNA结合结构域GAL4组成,
其中所述位点特异性核酸酶结构域能够切割靶DNA序列,并且所述位点特异性核酸酶结构域是CRISPR相关(Cas)核酸酶,并且所述Cas核酸酶是Cas9,并且
所述序列特异性DNA结合结构域GAL4的序列如SEQ ID NO: 7所示,其能够特异性结合序列如SEQ ID NO: 9所示的5×UAS;和
供体载体,其包含5× UAS和替代DNA序列;和
针对靶DNA序列的CRISPR-Cas向导RNA,其中所述向导RNA的靶位点序列如SEQ ID NO:10所示。
2.一种组合物,其包含:
第一载体,其包含编码融合蛋白的第一多核苷酸,所述融合蛋白由位点特异性核酸酶结构域和序列特异性DNA结合结构域GAL4组成,
其中所述位点特异性核酸酶结构域能够切割靶DNA序列,并且所述位点特异性核酸酶结构域是CRISPR相关(Cas)核酸酶,并且所述Cas核酸酶是Cas9,
所述序列特异性DNA结合结构域GAL4的序列如SEQ ID NO: 7所示,其能够特异性结合序列如SEQ ID NO: 9所示的5×UAS;和
供体载体,其包含所述5×UAS和替代DNA序列,
并且所述组合物还包含第二载体,所述第二载体包含第二多核苷酸,所述第二多核苷酸包含编码针对所述靶DNA序列的向导RNA,其中所述向导RNA的靶位点序列如SEQ ID NO:10所示,
并且其中所述第一载体和第二载体相同或不同。
3.一种细胞,其包含权利要求1或2所述的组合物。
4.将替代DNA序列插入细胞的靶DNA序列中的方法,包括:
向细胞中引入组合物,所述组合物包含
第一多核苷酸,其编码融合蛋白的,所述融合蛋白由位点特异性核酸酶结构域和序列特异性DNA结合结构域GAL4组成,
其中所示位点特异性核酸酶结构域能够切割靶DNA序列,并且所述位点特异性核酸酶结构域是CRISPR相关(Cas)核酸酶,并且所述Cas核酸酶是Cas9,并且
所述序列特异性DNA结合结构域GAL4的序列如SEQ ID NO: 7所示,其能够特异性结合序列如SEQ ID NO: 9所示的5×UAS;和
供体载体,其包含所述识别5×UAS 和替换DNA序列;和
向所述细胞中引入第二多核苷酸,所述第二多核苷酸包含编码针对所述靶DNA序列的CRISPR-Cas向导RNA,其中所述向导RNA的靶位点序列如SEQ ID NO: 10所示。
CN201680048134.8A 2015-08-20 2016-08-22 提高基因编辑效率的核酸酶 Active CN107922953B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562207860P 2015-08-20 2015-08-20
US62/207,860 2015-08-20
PCT/US2016/047937 WO2017031483A1 (en) 2015-08-20 2016-08-22 Nuclease with enhanced efficiency of genome editing

Publications (2)

Publication Number Publication Date
CN107922953A CN107922953A (zh) 2018-04-17
CN107922953B true CN107922953B (zh) 2022-03-04

Family

ID=58052049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680048134.8A Active CN107922953B (zh) 2015-08-20 2016-08-22 提高基因编辑效率的核酸酶

Country Status (3)

Country Link
US (1) US11339408B2 (zh)
CN (1) CN107922953B (zh)
WO (1) WO2017031483A1 (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6261500B2 (ja) 2011-07-22 2018-01-17 プレジデント アンド フェローズ オブ ハーバード カレッジ ヌクレアーゼ切断特異性の評価および改善
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9526784B2 (en) 2013-09-06 2016-12-27 President And Fellows Of Harvard College Delivery system for functional nucleases
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9840699B2 (en) 2013-12-12 2017-12-12 President And Fellows Of Harvard College Methods for nucleic acid editing
CA3075047C (en) 2014-02-11 2022-02-01 The Regents Of The University Of Colorado, A Body Corporate Crispr enable method for multiplex genome editing
WO2016022363A2 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
CA2963820A1 (en) 2014-11-07 2016-05-12 Editas Medicine, Inc. Methods for improving crispr/cas-mediated genome-editing
WO2017053879A1 (en) 2015-09-24 2017-03-30 Editas Medicine, Inc. Use of exonucleases to improve crispr/cas-mediated genome editing
US20190225955A1 (en) 2015-10-23 2019-07-25 President And Fellows Of Harvard College Evolved cas9 proteins for gene editing
EP3433363A1 (en) 2016-03-25 2019-01-30 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
EP3443086B1 (en) 2016-04-13 2021-11-24 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
LT3474669T (lt) 2016-06-24 2022-06-10 The Regents Of The University Of Colorado, A Body Corporate Barkodu pažymėtų kombinatorinių bibliotekų generavimo būdai
KR102547316B1 (ko) 2016-08-03 2023-06-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 아데노신 핵염기 편집제 및 그의 용도
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
KR20240007715A (ko) 2016-10-14 2024-01-16 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵염기 에디터의 aav 전달
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
EP3592777A1 (en) 2017-03-10 2020-01-15 President and Fellows of Harvard College Cytosine to guanine base editor
US11268082B2 (en) 2017-03-23 2022-03-08 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable DNA binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
CN111183226A (zh) * 2017-07-11 2020-05-19 西格马-奥尔德里奇有限责任公司 使用核小体相互作用蛋白结构域来增强靶向基因组修饰
WO2019014564A1 (en) 2017-07-14 2019-01-17 Editas Medicine, Inc. SYSTEMS AND METHODS OF TARGETED INTEGRATION AND GENOME EDITING AND DETECTION THEREOF WITH INTEGRATED PRIMING SITES
WO2019023680A1 (en) 2017-07-28 2019-01-31 President And Fellows Of Harvard College METHODS AND COMPOSITIONS FOR EVOLUTION OF BASIC EDITORS USING PHAGE-ASSISTED CONTINUOUS EVOLUTION (PACE)
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
WO2019204369A1 (en) * 2018-04-17 2019-10-24 Applied Stemcell, Inc. Compositions and methods for treating spinal muscular atrophy
JP2021523745A (ja) 2018-05-16 2021-09-09 シンテゴ コーポレイション ガイドrna設計および使用のための方法およびシステム
CN111718418B (zh) * 2019-03-19 2021-08-27 华东师范大学 一种增强基因编辑的融合蛋白及其应用
CA3130488A1 (en) 2019-03-19 2020-09-24 David R. Liu Methods and compositions for editing nucleotide sequences
CN111154003B (zh) * 2020-01-14 2022-11-04 温氏食品集团股份有限公司 提高基因敲入效率的Cas9融合蛋白和外源基因敲入整合系统
GB2614813A (en) 2020-05-08 2023-07-19 Harvard College Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
CN112011561A (zh) * 2020-06-18 2020-12-01 杭州市第三人民医院 Krt14-cas9基因及其在构建白癜风药物筛选模型中的应用
CN117402855B (zh) * 2023-12-14 2024-03-19 中国农业科学院植物保护研究所 一种Cas蛋白、基因编辑系统及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930550A (zh) * 2011-02-25 2014-07-16 重组股份有限公司 经遗传修饰的动物及其生成方法
EP2796558A1 (en) * 2013-04-23 2014-10-29 Rheinische Friedrich-Wilhelms-Universität Bonn Improved gene targeting and nucleic acid carrier molecule, in particular for use in plants
CN104781404A (zh) * 2012-09-04 2015-07-15 斯克利普斯研究院 具有靶向结合特异性的嵌合多肽

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
WO2015073867A1 (en) * 2013-11-15 2015-05-21 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Engineering neural stem cells using homologous recombination
US9840699B2 (en) * 2013-12-12 2017-12-12 President And Fellows Of Harvard College Methods for nucleic acid editing
US10774338B2 (en) 2014-01-16 2020-09-15 The Regents Of The University Of California Generation of heritable chimeric plant traits
US10190106B2 (en) * 2014-12-22 2019-01-29 Univesity Of Massachusetts Cas9-DNA targeting unit chimeras

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930550A (zh) * 2011-02-25 2014-07-16 重组股份有限公司 经遗传修饰的动物及其生成方法
CN104781404A (zh) * 2012-09-04 2015-07-15 斯克利普斯研究院 具有靶向结合特异性的嵌合多肽
EP2796558A1 (en) * 2013-04-23 2014-10-29 Rheinische Friedrich-Wilhelms-Universität Bonn Improved gene targeting and nucleic acid carrier molecule, in particular for use in plants

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Determining the Specificities of TALENs, Cas9, and Other Genome-Editing Enzymes;Vikram Pattanayak等;《Methods in Enzymology》;20141231;第546卷;47-78 *
DNA结合蛋白结构域的研究进展;王锐 等;《化学进展》;19951231;第7卷(第4期);277-286 *
基因编辑技术的研究进展;李东 等;《畜牧与兽医》;20150731;第47卷(第7期);124-129 *

Also Published As

Publication number Publication date
US20180216135A1 (en) 2018-08-02
WO2017031483A1 (en) 2017-02-23
CN107922953A (zh) 2018-04-17
US11339408B2 (en) 2022-05-24

Similar Documents

Publication Publication Date Title
CN107922953B (zh) 提高基因编辑效率的核酸酶
US20210145940A1 (en) Dystrophin gene exon deletion using engineered nucleases
CN107208079B (zh) 整合转基因的位点定向crispr/重组酶组合物和方法
JP2023156355A (ja) 細胞または生物のゲノムへのDNA配列の標的化組み込みのためのCas9レトロウイルスインテグラーゼおよびCas9レコンビナーゼ系
US11779657B2 (en) Compositions and methods for mitochondrial genome editing
KR102093570B1 (ko) 조작된 핵산 표적화 핵산
JP6552965B2 (ja) 配列操作のための改善された系、方法および酵素組成物のエンジニアリングおよび最適化
CN110904155B (zh) 一种碱基编辑器及其制备方法和应用
KR102387830B1 (ko) 안정하고 부작용이 적은 게놈 편집용 복합체 및 이를 코딩하는 핵산
CN112552380B (zh) 一种SARS-CoV-2病毒的免疫原及其应用
EP2526199A2 (en) Methods of generating zinc finger nucleases having altered activity
CA3150747A1 (en) Targeted trans-splicing using crispr/cas13
CN114634923B (zh) 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途
CN112138152A (zh) 基于aav载体的冠状病毒感染通用型基因治疗药物及制备方法
US6280937B1 (en) Shuttle vectors
CN113583978A (zh) 3种重组腺病毒以及SARS-CoV-2 Spike蛋白的RBD以及它们的应用
KR20230134543A (ko) 신규한 조작된 뉴클레아제 및 키메라 뉴클레아제
JPS63289A (ja) バクテリアにおける新規リボゾ−ム結合部位を用いたタンパク生産の増強
CN110218737B (zh) 一种利用内质网滞留信号肽提高酵母细胞表面展示Fab片段抗原结合能力的重组载体
JP4665190B2 (ja) 遺伝子の転写調節方法
CN109943563A (zh) CRISPR-Cas9系统介导的狂犬病病毒基因组敲除的方法
KR20180128864A (ko) 매칭된 5&#39; 뉴클레오타이드를 포함하는 가이드 rna를 포함하는 유전자 교정용 조성물 및 이를 이용한 유전자 교정 방법
KR20230173145A (ko) 심각한 질병을 치료하기 위한 b 세포 기반 단백질 공장 조작
KR20230061474A (ko) 소형화 시티딘 데아미나아제를 포함하는 이중쇄 dna의 개변용 복합체
CN116964197A (zh) 新型工程化和嵌合核酸酶

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant