CN107250363B - 在大肠杆菌中进行有效基因编辑的组合物和方法 - Google Patents

在大肠杆菌中进行有效基因编辑的组合物和方法 Download PDF

Info

Publication number
CN107250363B
CN107250363B CN201580076439.5A CN201580076439A CN107250363B CN 107250363 B CN107250363 B CN 107250363B CN 201580076439 A CN201580076439 A CN 201580076439A CN 107250363 B CN107250363 B CN 107250363B
Authority
CN
China
Prior art keywords
sequence
dna
protein
coli
nucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580076439.5A
Other languages
English (en)
Other versions
CN107250363A (zh
Inventor
R.L.弗里施
E.N.贾克森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EIDP Inc
Original Assignee
EI Du Pont de Nemours and Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EI Du Pont de Nemours and Co filed Critical EI Du Pont de Nemours and Co
Publication of CN107250363A publication Critical patent/CN107250363A/zh
Application granted granted Critical
Publication of CN107250363B publication Critical patent/CN107250363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

提供了用于对大肠杆菌细胞的基因组中的靶序列进行基因组修饰的组合物和方法。这些方法和组合物采用与环状多核苷酸修饰模板组合的引导RNA/Cas内切核酸酶系统,从而提供用于在大肠杆菌细胞的基因组内编辑靶位点的有效系统。

Description

在大肠杆菌中进行有效基因编辑的组合物和方法
本申请要求于2014年12月17日提交的美国临时申请号62/092914的权益,该申请通过引用以其全文结合在此。
技术领域
本发明涉及细菌分子生物学领域,具体涉及用于在大肠杆菌的基因组中编辑核苷酸序列的组合物和方法。
以电子方式提交的序列表的引用
该序列表的官方副本经由EFS-Web作为ASCII格式的序列表以电子方式提交,文件名为“20151117_CL6256PCT_ST25.txt”,创建于2015年11月17日,且具有106千字节大小,并与本说明书同时提交。包括在该ASCII格式的文件中的序列表是本说明书的一部分并且以其全文通过引用结合在此。
背景
了解生物体内基因的功能的方法是抑制其表达。基因表达的抑制可以例如通过打断或缺失基因的DNA序列来实现,导致基因的“敲除”(Austin等人,Nat.Genetics[自然遗传学]36:921-924)。基因敲除主要通过适用于从细菌到哺乳动物的广泛的生物体的技术,即同源重组(HR)进行。研究基因功能的另一种方法可以是通过遗传“敲入”,该方法通常也通过HR进行。当靶向的DNA位点含有双链断裂时,已显示用于基因靶向的HR被增强(Rudin等人,Genetics[遗传学]122:519-534;Smih等人,Nucl.Acids Res.[核酸研究]23:5012-5019)。因此已经开发了引入双链断裂来促进HR介导的DNA靶向的策略。例如,当存在多核苷酸修饰模板DNA时,锌指核酸酶已经被工程化以切割特定的DNA位点,导致在该位点增加的HR水平(Bibikova等人,Science[科学]300:764;Bibikova等人,Mol.Cell.Biol.[分子细胞生物学]21:289-297)。类似地,人工大范围核酸酶(归巢内切核酸酶)和转录激活子样效应子(TALE)核酸酶也被开发用于HR介导的DNA靶向(Epinat等人,Nucleic Acids Res.[核酸研究]31:2952-2962;Miller等人,Nat.Biotech.[自然生物技术]29:143-148)。
编码CRISPR(成簇的规律间隔的短回文重复序列)DNA切割系统的基因座仅在约40%的细菌基因组和大多数古细菌基因组中被发现(Horvath和Barrangou,Science[科学]327:167-170;Karginov和Hannon,Mol.Cell[分子细胞]37:7-19)。特别地,已经开发了II型CRIPSR系统的CRISPR相关(Cas)RNA引导的内切核酸酶(RGEN)Cas9作为引入刺激HR的位点特异性DNA链断裂的手段(美国临时申请号61/868,706,提交于2013年8月22日)。可以设计Cas9的RNA组分的序列,这样使得Cas9识别并切割含有(i)与RNA组分的一部分互补的序列和(ii)前间区序列邻近基序(PAM)序列的DNA。
天然的RNA/Cas9复合物包含两个RNA序列,CRISPR RNA(crRNA)和反式激活CRISPRRNA(tracrRNA)。在5′至3′方向上,crRNA包含与靶DNA位点互补的唯一序列和由该crRNA所起源的CRISPR基因座的重复区编码的序列的一部分。在5′至3′方向上,tracrRNA包含与crRNA的重复区和含茎环的部分退火的序列。最近的工作已经获得引导RNA(gRNA)的开发,该引导RNA在5′至3′方向上含有与tracrRNA连接的crRNA的嵌合序列(美国专利申请号14/463,687,提交于2014年8月20日)。
重组DNA技术已经使得可能修饰生物体基因组中的DNA序列,从而改变生物体的表型。尽管已经开发了若干方法用来在生物体(例如大肠杆菌)基因组中靶向用于修饰的特异位点,但是对于用于在大肠杆菌细胞基因组中编辑核苷酸序列的更有效率的并且更有效的方法仍存在需要。
发明内容
本披露包括用于对大肠杆菌细胞的基因组中的靶序列进行基因组修饰的组合物和方法。这些方法和组合物结合环状多核苷酸修饰模板采用引导RNA/Cas内切核酸酶系统(也称为RGEN),从而提供用于在大肠杆菌细胞的基因组内编辑靶位点的有效系统。这些方法和组合物还结合环状供体DNA采用引导RNA/Cas内切核酸酶系统,从而提供用于大肠杆菌细胞中的基因敲入的有效系统。
在本披露的一个实施例中,该方法包括一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括将包含编码引导RNA的DNA序列的至少一个重组DNA构建体和环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。大肠杆菌细胞的基因组中的核苷酸序列可以选自下组,该组由以下各项组成:启动子序列、终止子序列、调节元件序列、编码序列、原噬菌体、假基因、外源基因、内源基因。可以经由环状质粒提供包含编码引导RNA的DNA序列的重组DNA构建体。可以在分开的质粒上各自提供重组DNA构建体和环状多核苷酸修饰模板。可以在单个质粒上提供重组DNA构建体和环状多核苷酸修饰模板。可以经由选自下组的一种手段提供重组DNA构建体和环状多核苷酸模板,该组由以下各项组成:电穿孔、热激、噬菌体递送、配对、接合和转导。大肠杆菌细胞的基因组中的靶位点的侧翼可以是第一基因组区域和第二基因组区域,其中该环状多核苷酸模板进一步包含与所述第一基因组区域同源的第一区域和与所述第二基因组区域同源的第二区域。
在一个实施例中,大肠杆菌细胞不表达外源重组酶蛋白、RecET蛋白、λ-red蛋白、或RecBCD抑制剂。
在本披露的一个实施例中,该方法包括一种用于产生galK突变的大肠杆菌细胞的方法,该方法包括:a)将包含编码引导RNA的DNA序列的至少一个环状重组DNA构建体和至少一个环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在大肠杆菌基因组中的galK基因组序列内的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述环状多核苷酸修饰模板包含所述galK基因组序列的至少一个核苷酸修饰;b)从(a)的大肠杆菌细胞生长子代细胞;c)针对所述至少一个核苷酸修饰的存在,评估(b)的子代细胞。
在本披露的一个实施例中,该方法包括一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括至少将包含编码引导RNA的DNA序列的第一重组DNA构建体、环状多核苷酸修饰模板、以及包含可操作地连接至诱导型启动子的、编码Cas9内切核酸酶的DNA序列的第二重组DNA构建体提供给大肠杆菌细胞,其中该Cas9内切核酸酶在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。可以在分开的质粒上各自提供该第一重组DNA构建体、该第二重组DNA构建体、和该环状多核苷酸修饰模板。可以在单个质粒上提供该第一重组DNA构建体、该第二重组DNA构建体、和该环状多核苷酸修饰模板。
附图和序列的简述
图1.包含多核苷酸修饰模板的环状质粒(模板质粒)用于对包含Cas9质粒的大肠杆菌细胞中天然靶进行基因编辑的用途。该示意图说明了包含待编辑的天然靶(位于大肠杆菌靶基因组中)和Cas9质粒的大肠杆菌细胞,该Cas9质粒包含由诱导型启动子(例如Pbad)驱动的Cas9表达盒。经由模板质粒,连同包含能够表达引导RNA(gRNA)的引导RNA表达盒的的引导RNA质粒,将包含对侧翼是两个同源区域(HR1和HR2,允许同源重组)的天然靶序列(如黑条所示)进行希望的编辑(如白星所示)的多核苷酸修饰模板提供至大肠杆菌细胞(其中诱导Cas9内切核酸酶表达)。诱导的大肠杆菌细胞能够表达Cas9内切核酸酶,并且形成能够介导允许同源重组介导的基因编辑的天然靶序列的切割的引导RNA/Cas9内切核酸酶复合物(也称为RGEN)。
图2.包含多核苷酸修饰模板的环状质粒(模板质粒)用于对缺乏Cas9质粒的大肠杆菌细胞中天然靶进行基因编辑的用途。该示意图说明了包含待编辑的天然靶序列(位于大肠杆菌靶基因组中)的大肠杆菌细胞。经由模板质粒,连同引导RNA质粒(包含引导RNA表达盒)和Cas9质粒(包含由Pbad驱动的诱导型Cas9表达盒),将包含对侧翼是两个同源区域(HR1和HR2,允许同源重组)的天然靶序列(如黑条所示)进行希望的编辑(如白星所示)的多核苷酸修饰模板提供至大肠杆菌细胞。一旦大肠杆菌细胞被诱导,所诱导的细胞能够表达Cas9内切核酸酶,并且形成能够介导允许同源重组介导的基因编辑的天然靶序列的切割的引导RNA/Cas9内切核酸酶复合物(也称为RGEN)。
图3示出了包含连接至可变靶向结构域(VT)(灰色)的Cas内切核酸酶识别(CER)结构域(黑色)的单个引导多核苷酸。
图4示出了在用阿拉伯糖诱导之前和之后,大肠杆菌细胞中来自pRF48的Cas9表达的SDS-PAGE凝胶。以千道尔顿(kDa)指示标记重量。指示了凝胶中对应于Cas9的条带(Cas9)。
图5说明了大肠杆菌的galK基因(黑色)。用标记有靶位点名称的箭头指示galK中的四个天然靶位点,并且箭头的方向指示靶DNA的正向链或反向链。
图6示出了在用引导RNA/Cas9内切核酸酶复合物(RGEN)进行基因编辑后,来自半乳糖抗性大肠杆菌的galK基因座的菌落PCR的DNA的琼脂糖凝胶。每个泳道对应于单个半乳糖抗性菌落。以千碱基(kb)给出标记重量。紧挨着该条带指示了希望的编辑(缺失)的大小。也指示了未编辑的等位基因的大小(WT)。在凝胶上运行两个对照反应(WT和pRF113),用来分别指示WT和编辑的等位基因。
表1
核酸和蛋白质SEQ ID号的总结
Figure GDA0002822613450000061
Figure GDA0002822613450000071
Figure GDA0002822613450000081
Figure GDA0002822613450000091
详细描述
所有引用的专利和非专利文献的披露内容通过引用以其全文结合在此。
如在此所用,术语“披露内容”或“披露的披露内容”不旨在是限制性的,而是广泛适用于权利要求书中限定的或在此所述的任何披露内容。这些术语在此可互换地使用。
提供了用于对大肠杆菌细胞的基因组中的靶序列进行基因组修饰的组合物和方法。这些方法和组合物结合环状多核苷酸修饰模板采用引导RNA/Cas内切核酸酶系统,从而提供用于在大肠杆菌细胞的基因组内编辑靶位点的有效系统。
在图1中说明了并且在此描述了包含多核苷酸修饰模板的环状质粒(模板质粒)用于对包含Cas9质粒的大肠杆菌细胞中天然靶进行基因编辑的用途。该示意图说明了包含待编辑的天然靶(位于大肠杆菌靶基因组中)和Cas9质粒的大肠杆菌细胞,该Cas9质粒包含由诱导型启动子(例如Pbad)驱动的Cas9表达盒。经由模板质粒,连同包含能够表达引导RNA(gRNA)的引导RNA表达盒的的引导RNA质粒,将包含对侧翼是两个同源区域(HR1和HR2,允许同源重组)的天然靶序列(如黑条所示)进行希望的编辑(如白星所示)的多核苷酸修饰模板提供至大肠杆菌细胞(其中诱导Cas9内切核酸酶表达)。诱导的大肠杆菌细胞能够表达Cas9内切核酸酶,并且形成能够介导允许同源重组介导的基因编辑的天然靶序列的切割的引导RNA/Cas9内切核酸酶复合物(也称为RGEN)。
在图2中说明了并且在此描述了包含多核苷酸修饰模板的环状质粒(模板质粒)用于对缺乏Cas9质粒的大肠杆菌细胞中天然靶进行基因编辑的用途。该示意图说明了包含待编辑的天然靶序列(位于大肠杆菌靶基因组中)的大肠杆菌细胞。经由模板质粒,连同引导RNA质粒(包含引导RNA表达盒)和Cas9质粒(包含由Pbad驱动的诱导型Cas9表达盒),将包含对侧翼是两个同源区域(HR1和HR2,允许同源重组)的天然靶序列(如黑条所示)进行希望的编辑(如白星所示)的多核苷酸修饰模板提供至大肠杆菌细胞。一旦大肠杆菌细胞被诱导,所诱导的细胞能够表达Cas9内切核酸酶,并且形成能够介导允许同源重组介导的基因编辑的天然靶序列的切割的引导RNA/Cas9内切核酸酶复合物(也称为RGEN)。
如在此描述的,包含供体DNA(该供体DNA包含感兴趣的多核苷酸)的环状质粒还可以用于大肠杆菌中的基因敲入。
术语“CRISPR”(成簇的规律间隔的短回文重复序列)是指I类、II类或III类DNA切割系统的某些遗传基因座编码因子,例如被细菌和古细胞用来破坏外源DNA(Horvath和Barrangou,Science[科学]327:167-170)的那些。本文中以异源方式利用CRISPR系统的组分,用于细胞中的DNA靶向。
术语“II型CRISPR系统”和“II型CRISPR-Cas系统”在本文中可互换使用,并且是指利用与至少一种RNA组分复合的Cas9内切核酸酶的DNA切割系统。例如,Cas9可以与CRISPRRNA(crRNA)和反式激活CRISPR RNA(tracrRNA)复合。在另一个实例中,Cas9可以与引导RNA复合。因此,crRNA、tracrRNA和引导RNA是本文中RNA组分的非限制性实例。
本文中术语CRISPR相关(“Cas”)内切核酸酶是指由Cas基因编码的Cas蛋白。当与合适的RNA组分复合时,Cas内切核酸酶能够切割全部或部分特异性DNA靶序列。例如,其能够在特异性DNA靶序列中引入双链断裂;可替代地,其可以被表征为能够切割特异性DNA靶序列的一条或两条链。Cas内切核酸酶可以在靶序列处解开DNA双链体并切割至少一条DNA链,如通过与Cas复合的crRNA或引导RNA识别靶序列所介导的。如果正确的前间区序列邻近基序(PAM)位于或相邻于DNA靶序列的3′末端,则通过Cas内切核酸酶对靶序列进行的此类识别和切割通常会发生。可替代地,本文中的Cas蛋白质可能缺乏DNA切割或切口活性,但是当与合适的RNA组分复合时,仍然可以特异性结合DNA靶序列。本文中优选的Cas蛋白是Cas9。
本文中“Cas9”(以前称为Cas5、Csn1、或Csx12)是指与crRNA和tracrRNA或与引导RNA形成复合物的II型CRISPR系统的Cas内切核酸酶,用于特异性识别和切割全部或部分的DNA靶序列。Cas9蛋白包含RuvC核酸酶结构域和HNH(H-N-H)核酸酶结构域,其各自在靶序列上切割单个DNA链(两个结构域的协同作用导致DNA双链切割,而一个结构域的活性导致一个缺口)。通常,RuvC结构域包含亚结构域I、II和III,其中亚结构域I位于Cas9的N末端附近,并且亚结构域II和III位于蛋白质的中间,即位于HNH结构域的侧翼(Hsu等人,Cell[细胞]157:1262-1278)。“Apo-Cas9”是指不与RNA组分复合的Cas9。Apo-Cas9可以结合DNA,但以非特异性方式进行,且不能切割DNA(Sternberg等人,Nature[自然]507:62-67)。
本文中术语“CRISPR RNA”(crRNA)是指可以与一种或多种Cas蛋白(例如Cas9)形成复合物,并且为复合物提供DNA结合特异性的RNA序列。crRNA提供DNA结合特异性,因为其含有与DNA靶序列的链互补的“可变靶向结构域”(VT)。crRNA进一步包含由crRNA起源的CRISPR基因座的重复区编码的“重复序列”(“tracr RNA配对序列”)。crRNA的重复序列可以为在tracrRNA的5′-端的序列退火。在天然CRISPR系统中的crRNA源自于从CRISPR基因座转录的“前crRNA”。前crRNA包括间隔区和重复区;间隔区包含与DNA靶位点序列互补的独特序列。天然系统中的前crRNA被处理成多个不同的crRNA,每个沿着重复序列的一部分具有引导序列。例如为了DNA靶向特异性,CRISPR系统利用crRNA。
本文中术语“反式激活CRISPR RNA”(tracrRNA)是指在II型CRISPR系统中使用的非编码RNA,并且在5′至3′方向上包含(i)与CRISPR II型crRNA的重复区退火的序列和(ii)含茎环的部分(Deltcheva等人,Nature[自然]471:602-607)。
可以任选地使用“CRISPR DNA”(crDNA)来代替RNA组分。crDNA具有对应于如本文披露的crRNA的序列的DNA序列。crDNA可以与crDNA/tracrRNA复合物中的tracrRNA一起使用,其进而可以与RGEN蛋白组分缔合。美国申请号61/953,090披露了crDNA以及其用于RGEN介导的DNA靶向的方法。相应地,预期本文中关于crRNA的任何披露内容同样适用于使用crDNA。因此,在结合了crDNA的本文的实施例中,“RNA引导的内切核酸酶”(RGEN)可以反而被称为包含至少一种Cas蛋白和至少一种crDNA的复合物。
如本文中所使用,术语“引导多核苷酸”涉及可以与Cas内切核酸酶形成复合物的多核苷酸序列,并且使得Cas内切核酸酶能够识别并任选地切割DNA靶位点。引导多核苷酸可以是单分子或双分子。引导多核苷酸序列可以是RNA序列、DNA序列或其组合(RNA-DNA组合序列)。任选地,引导多核苷酸可以包含至少一种核苷酸、磷酸二酯键或连接修饰,例如但不限于锁核酸(LNA)、5-甲基dC、2,6-二氨基嘌呤、2′-氟代A、2’-氟代U、2′-O-甲基RNA、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔子18(六乙二醇链)分子的连接、或导致环化的5′至3′共价连接。
仅包含核糖核酸的引导多核苷酸也被称为“引导RNA”。引导RNA可以与Cas内切核酸酶形成复合物,称为引导RNA/Cas内切核酸酶复合物(也称为RGEN)。术语“引导RNA”(gRNA)和“单引导RNA”(sgRNA)在本文中可互换使用。本文中的gRNA可以是指含有与tracrRNA可操作地连接的crRNA的嵌合序列。可替代地,例如,gRNA可以是指crRNA和tracrRNA的合成融合物。还可以按照具有可变靶向结构域、随后是Cas内切核酸酶识别(CER)结构域来表征gRNA。CER结构域可以包含tracrRNA配对序列,随后是tracrRNA序列。
引导多核苷酸可以是双分子(也称为双链体引导多核苷酸),其包含与靶DNA中的核苷酸序列互补的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)和与Cas内切核酸酶多肽相互作用的第二核苷酸序列结构域(称为Cas内切核酸酶识别结构域或CER结构域)。双分子引导多核苷酸的CER结构域包含沿着互补区域杂交的两个单独的分子。两个单独的分子可以是RNA、DNA和/或RNA-DNA组合序列。在一些实施例中,包含连接到CER结构域(“cr核苷酸”)的VT结构域的双链体引导多核苷酸的第一个分子被称为“crDNA”(当由DNA核苷酸的连续延伸构成时)或“crRNA”(当由RNA核苷酸的连续延伸构成时)或“crDNA-RNA”(当由DNA和RNA核苷酸的组合构成时)。在一些实施例中,包含CER结构域的双链体引导多核苷酸的第二个分子被称为“tracrRNA”(当由RNA核苷酸的连续延伸构成时)或“tracrDNA”(当由DNA核苷酸的连续延伸构成时)或“tracrDNA-RNA”(当由DNA和RNA核苷酸的组合构成时)。
引导多核苷酸还可以是单分子,其包含与靶DNA中的核苷酸序列互补的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域,图3)和与Cas内切核酸酶多肽相互作用的第二核苷酸结构域(称为Cas内切核酸酶识别结构域或CER结构域,图3)。“结构域”意指可以为RNA、DNA和/或RNA-DNA组合序列的核苷酸的连续延伸。单引导多核苷酸的VT结构域和/或CER结构域可以包含RNA序列、DNA序列或RNA-DNA组合序列。在一些实施例中,单引导多核苷酸包含连接到tracr核苷酸(包含CER结构域)的cr核苷酸(包含与CER结构域连接的VT结构域),其中该连接是包含RNA序列、DNA序列或RNA-DNA组合序列的核苷酸序列。由来自cr核苷酸和tracr核苷酸的序列构成的单引导多核苷酸可以被称为“单引导RNA”(当由RNA核苷酸的连续延伸构成时)或“单引导DNA”(当由DNA核苷酸的连续延伸构成时)或“单引导RNA-DNA”(当由RNA和DNA核苷酸的组合构成时)。
因此,在某些实施例中,引导多核苷酸和II型Cas内切核酸酶可以彼此形成复合物(被称为“引导多核苷酸/Cas内切核酸酶复合物”或也被称为“引导多核苷酸/Cas内切核酸酶系统”),其中该引导多核苷酸/Cas内切核酸酶复合物可以指导Cas内切核酸酶靶向细胞(例如植物细胞)中的基因组靶位点,任选地使得Cas内切核酸酶在基因组靶位点引入单链或双链断裂。引导多核苷酸/Cas内切核酸酶复合物可以连接至至少一种CPP,其中这样的复合物能够结合到细胞(例如,植物细胞)的靶位点,并且任选地对其产生单链或双链断裂)。
术语“可变靶向结构域”或“VT结构域”在本文中可互换使用,并且是指与双链DNA靶位点的一条链(核苷酸序列)互补的核苷酸序列。第一个核苷酸序列结构域(VT结构域)与靶序列之间的互补百分比可以为至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、63%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。可变靶标结构域可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸长度。在一些实施例中,可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(参见例如本文所述的修饰)或其任意组合构成。
术语引导多核苷酸的“Cas内切核酸酶识别结构域”或“CER结构域”在本文中可互换使用,并且涉及与Cas内切核酸酶多肽相互作用的核苷酸序列(例如引导多核苷酸的第二核苷酸序列结构域)。CER结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(参见例如本文所述的修饰)或其任意组合构成。
术语“RNA引导的内切核酸酶”、“RGEN”、“引导RNA/Cas内切核酸酶复合物”、“引导RNA/Cas内切核酸酶系统”在此可互换地使用,并且是指包含至少一种CRISPR(成簇的规律间隔的短回文重复序列)相关(Cas)蛋白质和至少一种RNA组分的复合物。术语“RGEN的蛋白组分”和“RGEN蛋白组分”在本文中可互换使用,并且是指作为RGEN的内切核酸酶组分的Cas蛋白,或者形成其一部分的Cas蛋白。在某些实施例中蛋白组分可以是完整的内切核酸酶(例如Cas9);这样的蛋白组分可以可替代地被称为RGEN的“内切核酸酶组分”。鉴于其与至少一种RNA组分缔合,本文中的RGEN通常具有特异性DNA靶向活性。
本文中术语“RNA组分”是指RGEN的RNA组分,其含有与DNA靶序列的链互补的核糖核酸序列。该互补序列在本文中被称为“引导序列”或“可变靶向结构域”序列(图3)。本文中合适的RNA组分的实例包括crRNA和引导RNA。在某些实施例中的RNA组分(例如,仅引导RNA、crRNA+tracrRNA)可以使得RGEN组分能够进行特异性DNA靶向。
简言之,RGEN的RNA组分含有与靶位点序列中的DNA序列互补的序列。基于这种互补性,RGEN可以特异地识别和切割特定的DNA靶位点序列。本文中RGEN可以包含四种已知的CRISPR系统(Horvath和Barrangou,Science[科学]327:167-170)(例如I型、II型或III型CRISPR系统)中任一种的一种或多种Cas蛋白和一种或多种合适的RNA组分。在优选的实施例中,RGEN包含Cas9内切核酸酶(CRISPR II系统)和至少一种RNA组分(例如,cfRNA和tracrRNA、或gRNA)。
RGEN蛋白组分可能是指Cas蛋白,例如Cas9。合适的Cas蛋白的实例包括I型、II型或III型CRISPR系统的一种或多种Cas内切核酸酶(Bhaya等人,Annu.Rev.Genet.[遗传学年评]45:273-297,通过引用结合在此)。例如,I型CRISPR Cas蛋白可以是Cas3或Cas4蛋白。例如,II型CRISPR Cas蛋白可以是Cas9蛋白。例如,III型CRISPR Cas蛋白可以是Cas10蛋白。在某些优选实施例中使用Cas9蛋白。在某些实施例中的Cas蛋白可以是细菌或古细菌蛋白质。例如,本文中的I-III型CRISPR Cas蛋白通常起源于原核生物;I型和III型Cas蛋白可以源自于细菌或古细菌物种,而II型Cas蛋白(即Cas9)可以源自于细菌种类。在其他实施例中,合适的Cas蛋白包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4中的一种或多种,其同系物或其修改版本。
在所披露的披露内容的其他方面,本文中的Cas蛋白可以来自任何以下属:气火菌属(Aeropyrum)、火棒菌属(Pyrobaculum)、硫化叶菌属(Sulfolobus)、古球状菌属(Archaeoglobus)、嗜盐小盒菌属(Haloarcula)、甲烷杆菌属(Methanobacteriumn)、产甲烷球菌属(Methanococcus)、甲烷八叠球菌属(Methanosarcina)、甲烷火菌属(Methanopyrus)、火球菌属(Pyrococcus)、嗜酸菌属(Picrophilus)、Thernioplasnia、棒状杆菌属(Corynebacterium)、分支杆菌属(Mycobacterium)、链霉菌属(Streptomyces)、产液菌属(Aquifrx)、卟啉单胞菌属(Porphvromonas)、绿菌属(Chlorobium)、Thermus、芽孢杆菌属(Bacillus)、利斯特菌属(Listeria)、葡萄球菌属(Staphylococcus)、梭菌属(Clostridium)、高温厌氧杆菌属(Thermoanaerobacter)、支原菌属(Mycoplasma)、梭形杆菌属(Fusobacterium)、Azarcus、色素杆菌属(Chromobacterium)、奈瑟氏菌属(Neisseria)、亚硝化单胞菌属(Nitrosomonas)、脱硫弧菌属(Desulfovibrio)、土杆菌属(Geobacter)、Myrococcus、弯曲杆菌属(Campylobacter)、沃林氏菌属(Wolinella)、不动细菌属(Acinetobacter)、欧文氏菌属(Erwinia)、埃希氏菌属(Escherichia)、军团杆菌属(Legionella)、甲基球菌属(Methylococcus)、巴斯德氏菌属(Pasteurella)、发光杆菌属(Photobacterium)、沙门氏菌属(Salmonella)、黄单胞杆菌属(Xanthomonas)、耶尔森氏菌属(Yersinia)、链球菌属(Streptococcus)、密螺旋体属(Treponema)、弗朗西斯氏菌属(Francisella)、或栖热孢菌属(Thermotoga)。可替代地,本文中的Cas蛋白可以例如由SEQID NO:462-465、467-472、474-477、479-487、489-492、494-497、499-503、505-508、510-516、或517-521中的任一个编码,如披露于美国申请公开号2010/0093617中,将其通过引用结合在此。
例如,RGEN蛋白组分可以包含Cas9氨基酸序列。包含这种类型的蛋白组分的RGEN通常可以被表征为具有作为RGEN的内切核酸酶组分的Cas9。本文中Cas9蛋白的氨基酸序列,以及本文中某些其他Cas蛋白,可能源自于,例如,链球菌属(例如化脓性链球菌(S.pyogenes)、肺炎链球菌(S.pneumoniae)、嗜热链球菌(S.thermophilus)、无乳链球菌(S.agalactiae)、副血链球菌(S.parasanguinis)、口腔链球菌(S.oralis)、唾液链球菌(S.salivarius)、猕猴链球菌(S.macacae)、停乳链球菌(S.dysgalactiae)、咽峡炎链球菌(S.anginosus)、星座链球菌(S.constellatus)、假豕链球菌(S.pseudoporcinus)、变异链球菌(S.mutans))、李斯特菌属(Listeria)(例如,无害利斯特菌(L.innocua))、螺原体属(Spiroplasma)(例如,蜂螺旋原体(S.apis)、S.syrphidicola)、消化链球菌科(Peptostreptococcaceae)、奇异菌属(Atopobium)、卟啉单胞菌属(Porphyromonas)(例如,P.catoniae)、普雷沃菌属(Prevotella)(例如,中间普雷沃菌(P.intermedia))、韦荣球菌属(Veillonella)、密螺旋体属(Treponema)(例如,索氏密螺旋体(T.socranskii)、齿垢密螺旋体(T.denticola))、二氧化碳噬细胞菌属(Capnocytophaga)、芬戈尔德菌属(Finegoldia)(例如,大芬戈尔德菌(F.magna))、红蝽菌科(Coriobacteriaceae)(例如,C.bacterium)、Olsenella(例如,O.profusa)、嗜血杆菌属(Haemophilus)(例如,H.sputorum、H.pittmaniae)、巴斯德氏菌属(Pasteurella)(例如,贝氏巴斯德菌(P.bettyae))、Olivibacter(例如,O.sitiensis)、Epilithonimonas(例如,E.tenax)、Mesonia(例如,M.mobilis)、乳杆菌属(Lactobacillus)、芽孢杆菌属(Bacillus(例如,蜡样芽孢杆菌(B.cereus))、Aquimarina(例如,A.muelleri)、金黄杆菌属(Chryseobacterium)(例如,C.palustre)、多形杆状菌属(Bacteroides)(例如,B.graminisolvens)、奈瑟氏菌属(Neisseria)(例如,脑膜炎奈瑟氏菌(N.meningitidis))、弗朗西斯氏菌属(Francisella(例如,新凶手弗朗西斯菌(F.novicida))、或黄杆菌属(Flavobacterium)(例如,寒冷黄杆菌(F.frigidarium)、F.soli物种。本文中,在某些方面优选化脓性链球菌Cas9。作为另一个实例,Cas9蛋白可以是描述于Chylinski等人(RNA Biology[RNA生物学]10:726-737,其通过引用结合在此)中的任何Cas9蛋白。
因此,本文中Cas9蛋白的序列可以包含,例如,在以下各项中披露任何Cas9氨基酸序列:基因库(GenBank)登记号G3ECR1(嗜热链球菌(S.thermophilus))、WP_026709422、WP_027202655、WP_027318179、WP_027347504、WP_027376815、WP_027414302、WP_027821588、WP_027886314、WP_027963583、WP_028123848、WP_028298935、Q03JI6(嗜热链球菌)、EGP66723、EGS38969、EGV05092、EHI65578(假豕链球菌)、EIC75614(口腔链球菌)、EID22027(星座链球菌)、EIJ69711、EJP22331(口腔链球菌)、EJP26004(咽峡炎链球菌)、EJP30321、EPZ44001(化脓性链球菌)、EPZ46028(化脓性链球菌)、EQL78043(化脓性链球菌)、EQL78548(化脓性链球菌)、ERL10511、ERL12345、ERL19088(化脓性链球菌)、ESA57807(化脓性链球菌)、ESA59254(化脓性链球菌)、ESU85303(化脓性链球菌)、ETS96804、UC75522、EGR87316(停乳链球菌)、EGS33732、EGV01468(口腔链球菌)、EHJ52063(猕猴链球菌)、EID26207(口腔链球菌)、EID33364、EIG27013(副血链球菌)、EJF37476、EJO19166(链球菌属BS35b)、EJU16049、EJU32481、YP_006298249、ERF61304、ERK04546、ETJ95568(无乳链球菌)、TS89875、ETS90967(链球菌属SR4)、ETS92439、EUB27844(链球菌属BS21)、AFJ08616、EUC82735(链球菌属CM6)、EWC92088、EWC94390、EJP25691、YP_008027038、YP_008868573、AGM26527、AHK22391、AHB36273、Q927P4、G3ECR1、或Q99ZW2(化脓性链球菌),其通过引用结合。可以使用任何这些Cas9蛋白序列的变体,但是当与本文中的RNA组分缔合时,它们应当具有针对DNA的特异性结合活性和任选地切割或切口活性。这样的变体可以包含与参比Cas9的氨基酸序列具有至少约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%同一性的氨基酸序列。
可替代地,例如,本文中的Cas9蛋白可以由SEQ ID NO:1-2编码。仍可替代地,Cas9蛋白可以包含例如,与任何前述氨基酸序列具有至少约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的氨基酸序列。当与本文中的RNA组分缔合时,这样的变体Cas9蛋白应当具有针对DNA的特异性结合活性,以及任选地切割或切口活性。
本文中使用的Cas蛋白(例如Cas9)的起源可以是与RNA组分所源自的相同物种,或者其可以来自不同的物种。例如,包含源自于链球菌属物种(例如,化脓性链球菌或嗜热链球菌)的Cas9蛋白的RGEN可以与具有源自于相同的链球菌属物种的序列(例如,crRNA重复序列、tracrRNA序列)的至少一种RNA组分复合。可替代地,本文中使用的Cas蛋白(例如Cas9)的起源可以来自RNA组分所源自的不同物种(Cas蛋白和RNA组分可以彼此异源);这样的异源Cas/RNA组分RGEN应当具有DNA靶向活性。
确定本文中的Cas蛋白针对特异性靶DNA序列的结合活性和/或内切核酸酶活性可以通过本领域已知的任何合适的测定法(例如在美国专利号8697359(其通过引用披露在此)中披露的)来评估。例如,可以通过在细胞中表达Cas蛋白和合适的RNA组分,然后检查预测的DNA靶位点是否存在插入缺失(indel)来进行确定(在该特定测定法中Cas蛋白通常具有完全的内切核酸酶活性[双链切割活性])。例如,在预测的靶位点处检查是否存在改变/修饰(例如,插入缺失)可以经由DNA测序方法进行,或通过测定靶序列的功能丧失来推断改变/修饰形成。
在又另一个实例中,可以使用将Cas蛋白和合适的RNA组分与含有合适的靶序列的DNA多核苷酸混合在一起的体外测定来确定Cas蛋白活性。该测定法可以用于检测通过缺乏切割活性的Cas蛋白的结合(例如凝胶转移)或通过具有内切核酸能力的Cas蛋白的切割。
在某些方面,本文中的Cas蛋白例如Cas9可以进一步包含异源核定位序列(NLS)。例如,本文中的异源NLS氨基酸序列可能具有足够的强度来驱动在本文的细胞核中可检测的量的Cas蛋白或Cas蛋白-CPP复合物的积累。NLS可以包含碱性、带正电荷的残基(例如赖氨酸和/或精氨酸)的一个(单份的)或更多个(例如,单份的)短序列(例如,2至20个残基),并且可以位于Cas氨基酸序列的任何地方,但使得其暴露在蛋白质表面上。例如,NLS可以可操作地连接到本文中的Cas蛋白的N末端或C末端。两个或更多个NLS序列可以连接到Cas蛋白,例如在Cas蛋白的N末端和C末端两者。本文中合适的NLS序列的非限制性实例包括在美国专利号6660830和7309576(例如,其中的表1)中披露的那些,其都通过引用结合在此。例如,如本文中披露的Cas蛋白可以与CPP融合(Cas蛋白与CPP共价连接的实例)。应当理解的是,这样的Cas-CPP融合蛋白还可以包含如上所述的NLS。还应当理解的是,在Cas蛋白与靶向不同细胞器(例如线粒体)的氨基酸序列融合的实施例中,这样的Cas蛋白通常不含有NLS。
Cas蛋白可以是包含一个或多个异源蛋白质结构域(例如除Cas蛋白之外的1、2、3或更多个结构域)的融合蛋白的一部分。例如,Cas蛋白可以共价地连接至CPP和/或一个或多个另外的异源氨基酸序列(参见美国临时专利申请号62/036652,2014年8月13日提交)。例如,Cas蛋白还可以与不包括CPP的一种或多种另外的异源氨基酸序列共价连接(在这样的实施例中CPP将非共价连接到Cas融合蛋白)。包含Cas蛋白的融合蛋白可以包含任何另外的蛋白质序列,以及任选地在任何两个结构域之间(例如在Cas和第一异源结构域之间)的连接体序列。可以与本文中的Cas蛋白融合的蛋白质结构域的实例包括但不限于表位标签(例如,组氨酸[His,聚组氨酸]、V5、FLAG、流感血球凝集素[HA]、myc、VSV-G、硫氧还蛋白[Trx]);报道子(例如谷胱甘肽-5-转移酶[GST]、辣根过氧化物酶[HRP]、氯霉素乙酰转移酶[CAT]、β-半乳糖苷酶、β-葡萄糖醛酸酶[GUS]、荧光素酶、绿色荧光蛋白[GFP]、HcRed、DsRed、青色荧光蛋白[CFP]、黄色荧光蛋白[YFP]、蓝色荧光蛋白[BFP]);以及具有一个或多个以下活性的结构域:甲基化酶活性、脱甲基酶活性、转录激活活性(例如,VP16或VP64)、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性和核酸结合活性。在其他实施例中的Cas蛋白可能与结合DNA分子或其他分子的蛋白质融合,例如麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)、GAL4A DNA结合结构域和单纯疱疹病毒(HSV)VP16。可以是包含本文中的Cas蛋白的融合蛋白的一部分的其他结构域披露在美国专利申请公开号2011/0059502中,其通过引用结合在此。在Cas蛋白与异源蛋白(例如转录因子)融合的某些实施例中,Cas蛋白具有DNA识别和结合活性(当与本文中合适的RNA组分复合时),但没有DNA切口或切割活性。
可以连接到本文中的Cas蛋白的异源结构域的其他实例包括将蛋白质靶向到特定细胞器中的氨基酸序列(即定位信号)。可以被靶向的细胞器的实例包括线粒体和叶绿体。通常,当靶向核外DNA位点时,使用这样的靶向结构域而不是NLS。例如,线粒体靶向序列(MTS)可以位于Cas蛋白的N末端或其附近。在美国专利申请公开号2007/0011759和2014/0135275中披露了MTS实例,将其通过引用结合在此。例如,叶绿体靶向序列可以如在美国专利申请公开号2010/0192262或2012/0042412中披露,将其通过引用结合在此。
例如,RGEN的蛋白组分可以与至少一种RNA组分缔合(从而构成完整的RGEN),所述RNA组分包括与细胞中的染色体或附加体上的靶位点序列互补的序列。在这样的实施例中的RGEN可以结合靶位点序列,并且任选地在靶位点序列处切割一条或两条DNA链。例如,RGEN可以切割DNA靶序列的一条或两条链。在另一个实例中,RGEN可以切割DNA靶序列的两条链。应当理解的是,在所有这些实施例中,RGEN蛋白组分可以与RGEN蛋白-CPP复合物中的至少一种CPP共价或非共价连接。RGEN蛋白-CPP复合物与本文中的RNA组分的缔合可以被表征为形成RGEN-CPP复合物。除非另有说明,本文关于RGEN的任何披露内容同样适用于RGEN-CPP复合物的RGEN组分。
本文中可以切割DNA靶序列的两条链的RGEN通常包含具有处于功能状态的所有其内切核酸酶结构域的Cas蛋白(例如野生型内切核酸酶结构域或其变体在每个内切核酸酶结构域中保留一些或全部活性)。因此,在Cas蛋白的每个内切核酸酶结构域中保留一些或全部活性的野生型Cas蛋白(例如,本文披露的Cas9蛋白)或其变体是可以切割DNA靶序列的两条链的RGEN的合适实例。包含功能性RuvC和HNH核酸酶结构域的Cas9蛋白是可以切割DNA靶序列的两条链的Cas蛋白的实例。本文中可以切割DNA靶序列的两条链的RGEN通常在相同位置切割两条链,这样使得在切割位点处形成钝端(即,没有核苷酸突出端)。
本文中可以切割DNA靶序列的一条链的RGEN可以在本文中表征为具有切口酶活性(例如,部分切割能力)。本文中的Cas切口酶(例如,Cas9切口酶)通常包含一个功能性内切核酸酶结构域,该结构域允许Cas仅切割DNA靶序列的一条链(即,形成切口)。例如,Cas9切口酶可以包含(i)突变体、功能失调的RuvC结构域和(ii)功能性HNH结构域(例如野生型HNH结构域)。作为另一个实例,Cas9切口酶可以包含(i)功能性RuvC结构域(例如野生型RuvC结构域)和(ii)突变的功能失调的HNH结构域。
适用于本文使用的Cas9切口酶的非限制性实例披露于以下文献中:Gasiunas等人(Proc.Natl.Acad.Sci.U.S.A.[美国国家科学院院刊]109:E2579-E2586)、Jinek等人(Science[科学]337:816-821)、Sapranauskas等人(Nucleic Acids Res.[核酸研究]39:9275-9282)和美国专利申请公开号2014/0189896,将其通过引用结合在此。例如,本文中的Cas9切口酶可以包含嗜热链球菌Cas9,该嗜热链球菌Cas9具有Asp-31取代(例如,Asp-31-Ala)(突变的RuvC结构域的实例),或His-865取代(例如,His-865-Ala)、Asn-882取代(例如,Asn-882-Ala)或Asn-891取代(例如,Asn-891-Ala)(突变的HNH结构域的实例)。而且,例如,本文中的Cas9切口酶可以包含化脓性链球菌Cas9,该化脓性链球菌Cas9具有Asp-10取代(例如,Asp-10-Ala)、Glu-762取代(例如,Glu-762-Ala)或Asp-986取代(例如,Asp-986-Ala)(突变的RuvC结构域的实例),或His-840取代(例如,His-840-Ala)、Asn-854取代(例如,Asn-854-Ala)或Asn-863取代(例如,Asn-863-Ala)(突变的HNH结构域的实例)。关于化脓性链球菌Cas9,三个RuvC亚结构域通常分别位于氨基酸残基1-59、718-769和909-1098,并且HNH结构域位于氨基酸残基775-908(Nishimasu等人,Cell[细胞]156:935-949)。
必要时,本文中的Cas9缺口酶可以用于细胞中的各种目的。例如,Cas9切口酶可以用于在DNA靶位点序列处或其附近用合适的多核苷酸修饰模板刺激HR。由于缺口DNA不是用于NHEJ过程的底物,而是由HR过程所识别的,特异性靶位点处的切口DNA应该使得位点更容易被用合适的多核苷酸修饰模板进行的HR所接受。
作为另一个实例,可以使用一对Cas9切口酶来增加DNA靶向的特异性。一般来说,这可以通过提供两个Cas9切口酶来进行,这两个Cas9切口酶通过与具有不同引导序列的RNA组分缔合,在希望靶向的区域的相反链上在DNA序列附近进行靶向和切口。每个DNA链的这样的附近的切割产生DSB(即,具有单链突出端的DSB),其然后被识别为NHEJ的底物(导致插入缺失形成)或HR的底物(如果提供,导致与合适的多核苷酸修饰模板重组)。在这些实施例中的每个切口可以,例如,彼此分离至少约5、10、15、20、30、40、50、60、70、80、90、或100(或在5与100之间的任何整数)个碱基。本文中的一个或两个Cas9切口酶蛋白可以用于如上所述的Cas9切口酶对。例如,可以使用具有突变的RuvC结构域但具有功能性HNH结构域的Cas9切口酶(即,Cas9 HNH+/RuvC-)(例如,化脓性链球菌Cas9 HNH+/RuvC-)。通过使用本文中的合适的RNA组分(具有将每个切口酶靶向每个特异性DNA位点的引导RNA序列),将每个Cas9切口酶(例如,Cas9 HNH+/RuvC-)引导到彼此邻近(分离多达100个碱基对)的特定的DNA位点。
在某些实施例中的RGEN可以结合DNA靶位点序列,但不切割在靶位点序列处的任何链。这样的RGEN可以包含其中所有核酸酶结构域都是突变的、功能失调的Cas蛋白。例如,可以结合到DNA靶位点序列但在靶位点序列处不切割任何链的本文的Cas9蛋白可以包含突变的、功能失调的RuvC结构域和突变的、功能失调的HNH结构域。这样的Cas9蛋白的非限制性实例包括上文披露的任何RuvC和HNH核酸酶结构域突变(例如,具有Asp-10取代(例如Asp-10-Ala)和His-840取代(例如His-840-Ala)的化脓性链球菌Cas9)。结合但不切割靶DNA序列的本文中的Cas蛋白可以用于调节基因表达,例如,在该情况下,Cas蛋白可以与转录因子(或其部分)融合(例如抑制子或激活子,例如本文披露的那些中的任一种)。例如,可以将包含具有Asp-10取代(例如Asp-10-Ala)和His-840取代(例如His-840-Ala)的化脓性链球菌Cas9的Cas9融合到VP16或VP64转录激活子结构域。例如,在这样RGEN的RNA组分中使用的引导序列将与在基因启动子或其他调控元件(例如,内含子)中的DNA序列互补。
本文中的RGEN可以结合靶位点序列,并且任选地在染色体、附加体或细胞基因组中的任何其他DNA分子中切割靶位点序列的一条或两条链。鉴于RGEN的RNA组分包含与靶序列的链互补的序列(引导序列),靶序列的这种识别和结合是特异性的。
术语“靶位点”、“靶序列”、“靶DNA”、“DNA靶序列”、“靶基因座”、“前间区序列(protospacer)”等在本文中可互换使用。靶位点序列是指在本文的RGEN可以识别、结合并任选地产生切口或切割的细胞的基因组中的染色体、附加体或任何其他DNA分子上的多核苷酸序列。靶位点可以是(i)细胞中的内源/天然位点,(ii)与细胞异源,因此不是天然存在于基因组中的,或(iii)与其天然发生的位置相比在异源基因组位置中发现的。
本文中的靶位点序列长度为至少13个核苷酸,并且具有一条链,该链与(crRNA或gRNA的)可变靶向结构域具有足够互补性以便能够与该引导序列杂交并且引导Cas蛋白或Cas蛋白复合物与靶序列的序列特异性结合(如果合适的PAM在某些实施例中与靶序列相邻)。切割/切口位点(适用于内切核苷酸的或切口Cas)可以位于靶序列内(例如,使用Cas9)或切割/切口位点可能在靶序列之外(例如,使用与异源内切核酸酶结构域(例如源自于FokI酶的结构域)融合的Cas9)。靶位点序列也可能被缺乏切割或切口活性的RGEN结合。
本文中的“人工靶位点”或“人工靶序列”是指已经导入细胞基因组的靶序列。在一些实施例中,人工靶序列可以在序列上与细胞基因组中的天然靶序列相同,但是位于基因组中的不同位置(异源位置),或者如果位于细胞基因组中的相同位置其可以不同于天然靶序列。
本文中靶序列的长度可以是至少13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸;在13-30个核苷酸之间;在17-25个核苷酸之间;或在17-20个核苷酸之间。该长度可以包括或排除PAM(前间区序列邻近基序)序列。而且,本文中的靶序列的链与(crRNA或gRNA的)可变靶向结构域具有足够的互补性以便与引导序列杂交并且引导Cas蛋白或Cas蛋白复合物与靶序列的序列特异性结合(如果合适的PAM与靶序列相邻,参见下文)。在引导序列与其对应的DNA靶序列的链之间的互补程度为例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。例如,本文中的靶位点可以位于编码基因产物(例如,蛋白质或RNA)的序列或非编码序列(例如调节序列或“垃圾”序列)中。
本文中的“前间区序列邻近基序”(PAM)是指由本文中的RGEN识别的短序列。本文中的PAM的序列和长度可以取决于所使用的Cas蛋白或Cas蛋白复合物而不同,但通常为例如2、3、4、5、6、7或8个核苷酸长。
PAM(前间区序列邻近基序)序列可以与靶位点序列相邻。PAM序列是由本文中的RGEN识别的短DNA序列。缔合的PAM和DNA靶序列的前11个核苷酸可能对Cas9/gRNA靶向和切割很重要(Jiang等人,Nat.Biotech.[自然生物技术]31:233-239)。本文中的PAM序列的长度可以取决于所使用的Cas蛋白或Cas蛋白复合物而变化,但通常为例如2、3、4、5、6、7或8个核苷酸长。例如,PAM序列紧邻靶位点序列下游或在其下游2个或3个核苷酸内,该靶位点序列与该靶位点中的链互补,该链反过来与RNA组分引导序列互补。在RGEN是与RNA组分复合的内切核酸活性的Cas9蛋白的本文中的实施例中,Cas9如通过RNA组分指导的结合靶序列,并且紧邻PAM序列上游的第三核苷酸位置的5′处切割两条链。考虑靶位点的以下实例:PAM序列:
Figure GDA0002822613450000271
(SEQ ID NO:52)。
在该实例序列中N可以是A、C、T或G,并且X可以是A、C、T或G(X也可以被称为NPAM)。在该实例中的PAM序列是XGG(下划线)。合适的Cas9/RNA组分复合物将紧邻双下划线N的5′处切割该靶标。在SEQ ID NO:52中的N串表示例如与本文中的RNA组分中的引导序列具有至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的靶序列(其中DNA靶序列的任何T与RNA引导序列中的任何U匹配)。在该靶序列处(其代表本文中的靶位点)的识别和结合中的Cas9复合物的RNA组分的引导序列将与N串的互补序列退火;在引导序列与靶位点补体之间的互补性百分比为例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。如果使用Cas9切口酶来靶向在基因组中的SEQ ID NO:52,切口酶将紧邻双下划线N的5′处或在互补链的相同位置处产生切口,这取决于该切口酶中哪个内切核酸酶结构域功能失调。如果使用没有溶核活性的Cas9(RuvC和HNH结构域两者都是功能失调的)靶向在基因组中的SEQ ID NO:52,那么它将识别并结合靶序列,但不对序列进行任何切割。
鉴于正在使用的RGEN的类型,通常选择本文中的PAM。本文中的PAM序列可以是由包含Cas(例如Cas9)的RGEN识别的PAM序列,该Cas9源自于例如可从其得到Cas的本文披露的任何物种。在某些实施例中,PAM序列可以是由包含Cas9的RGEN所识别的PAM序列,该Cas9源自于化脓性链球菌(S.pyogenes)、嗜热链球菌(S.thermophilus)、无乳链球菌(S.agalactiae)、脑膜炎奈瑟氏球菌(N.meningitidis)、齿垢密螺旋体(T.denticola)或新凶手弗朗西斯菌(F.novicida)。例如,源自于化脓性链球菌的合适的Cas9可以用于靶向具有NGG的PAM序列(N可以是A、C、T或G)的基因组序列。作为其他实例,当靶向具有以下PAM序列的DNA序列时,合适的Cas9可以源自于以下物种中的任一种:嗜热链球菌(NNAGAA)、无乳链球菌(NGG、NNAGAAW,[W是A或T]、NGGNG)、脑膜炎奈瑟氏菌(NNNNGATT)、齿垢密螺旋体(NAAAAC)、或新凶手弗朗西斯菌(NG)(其中在所有这些具体的PAM序列中的N是A、C、T或G)。可用于本文中的Cas9/PAM的其他实例包括在Shah等人(RNA Biology[RNA生物学]10:891-899)以及Esvelt等人(Nature Methods[自然方法]10:1116-1121)(其通过引用结合在此)中披露的那些。本文中的靶序列的实例遵循SEQ ID NO:43,但是其中‘XGG’PAM被前述PAM中的任一种替代。
本文中的RNA组分可以包含与细胞中的染色体或附加体中的靶位点序列互补的序列。基于该序列互补性,RGEN可以特异性结合靶位点序列,并且任选地切割靶位点序列的一条或两条链。因此,在所披露的披露内容的某些实施例中,RNA组分的互补序列也可以被称为引导序列或可变靶向结构域。
例如,本文中RNA组分(例如,crRNA或gRNA)的引导序列可以是至少13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核糖核苷酸长度;在13-30个之间的核糖核苷酸长度;在17-25个之间的核糖核苷酸长度;或在17-20个之间的核糖核苷酸长度。通常,本文中的引导序列与靶DNA序列的链具有足够的互补性以便与靶序列杂交并且指导Cas蛋白或Cas蛋白复合物与靶序列的序列特异性结合(如果合适的PAM与靶序列相邻)。在引导序列与其对应的DNA靶序列之间的互补程度为例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。可以相应地设计引导序列以将RGEN靶向细胞中的DNA靶序列。
本文中的RNA组分可以包含crRNA,例如,其包含引导序列和重复(tracrRNA配对)序列。引导序列通常位于crRNA的5′末端或其附近(在1、2、3、4、5、6、7、8、9、10或更多个碱基之内)。在crRNA的引导序列的下游是与tracrRNA的5′末端处的序列互补并且可以与其杂交的“重复”或“tracrRNA配对”序列。引导和tracrRNA配对序列可以直接相邻,或者例如被1、2、3、4或更多个碱基分开。tracrRNA配对序列与tracrRNA的5’末端具有例如至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或100%序列互补性。通常,互补性程度可以是沿着两个序列中较短者的长度,参比tracrRNA配对序列和tracrRNA序列的5′末端的最佳比对。本文中的tracrRNA配对序列的长度可以是例如至少8、9、10、11、12、13、14、15、16、17或18个核糖核苷酸长度,并且与在tracrRNA的5′末端的相同或相似长度(例如加上或减去1、2、3、4或5个碱基)的序列杂交。本文中的crRNA的长度可以是例如,至少约18、20、22、24、26、28、30、32、34、36、38、40、42、44、46或48个核糖核苷酸;或约18-48个核糖核苷酸;或约25-50个核糖核苷酸。
在RGEN中包含II型CRISPR系统的Cas9蛋白的实施例中,tracrRNA可以与crRNA一起包含在内。在5′-至-3′方向,本文中的tracrRNA包含(i)与crRNA的重复区(tracrRNA配对序列)退火的序列和(ii)含茎环的部分。例如,(i)的序列的长度可以与上文所披露的任何tracrRNA配对序列长度相同或类似(例如,加上或减去1、2、3、4或5个碱基)。本文中的tracrRNA的总长度(即序列成分[i]和[ii])可以是例如,至少约30、35、40、45、50、55、60、65、70、75、80、85或90(或在30与90之间的任何整数)个核糖核苷酸。tracrRNA可以进一步包含在3′-末端的1、2、3、4、5或更多个尿嘧啶残基,其可以凭借用转录终止子序列表达tracrRNA而存在。
本文中的tracrRNA可以源自细菌物种,例如但不限于链球菌属物种(例如化脓性链球菌、嗜热链球菌)或可以包括以下文献中披露的那些:美国专利号8697359和Chylinski等人(RNA Biology[RNA生物学]10:726-737),将其通过引用结合在此。\
术语“核酶”、“核糖核酸酶”和“自切割核酶”在本文中可互换使用。核酶是指形成二级、三级和/或四级结构的一个或多个RNA序列,其可以在特定部位、特别是在相对于核酶序列的顺式位点切割RNA(即自动催化、或自切割)。已经描述了核酶核溶解活性的一般性质(例如,Lilley,Biochem.Soc.Trans.[生化学会会刊]39:641-646)。本文中的“锤头状核酶”(HHR)可以包含由三个碱基配对的茎组成的小的催化RNA基序和参与催化的高度保守的、非互补性核苷酸的核。Pley等人(Nature[自然]372:68-74)和Hammann等人(RNA18:871-885)(其通过引用结合在此)披露了锤头状核酶结构和活性。本文中的锤头状核酶可以包含如例如Scott等人(Cell[细胞]81:991-1002,通过引用结合在此)所披露的“最小锤头状”序列。
术语“靶向”、“基因靶向”、“DNA靶向”、“编辑”、“基因编辑”和“DNA编辑”在本文中可互换使用。本文中的DNA靶向可能是在特定的DNA序列(例如细胞的染色体或附加体)中特异性引入插入缺失、敲除或敲入。通常,DNA靶向可以通过在具有与合适的RNA组分缔合的Cas蛋白的细胞中的特异性DNA序列处切割一条或两条链来进行。这样的DNA切割,如果是双链断裂(DSB),可以促进NHEJ过程,这可能导致靶位点的插入缺失形成。而且,无论切割是单链断裂(SSB)还是DSB,如果在DNA切口或切割位点提供合适的多核苷酸修饰模板或供体DNA,则可以促进HR过程。取决于多核苷酸修饰模板的序列,这样的HR过程可以用于在靶位点引入敲除或敲入。可替代地,本文中DNA靶向可以是指本文中的Cas/RNA组分复合物与靶DNA序列的特异性缔合,其中Cas蛋白质切割或不切割DNA链(取决于Cas蛋白质的内切核酸结构域的状态)。
本文中术语“插入缺失(indel)”是指在染色体或附加体中的靶DNA序列中插入或缺失一个或多个核苷酸碱基。这样的插入或缺失可以是例如1、2、3、4、5、6、7、8、9、10或更多个碱基。在某些实施例中,插入缺失可以甚至更大,至少约20、30、40、50、60、70、80、90或100个碱基。如果在基因的开放阅读框(ORF)中引入插入缺失,通常该插入缺失会通过产生移码突变来破坏由ORF编码的蛋白质的野生型表达。
术语“敲除”、“基因敲除”和“遗传敲除”在本文中可互换使用。敲除代表通过用Cas蛋白靶向而部分或完全不起作用的本文中的细胞的DNA序列;敲除之前这样的DNA序列例如可以已经编码氨基酸序列或者可以具有调节功能(例如,启动子)。可以通过插入缺失(通过由Cas介导的切割促进的NHEJ)或通过特异性去除序列(当还使用合适的多核苷酸修饰模板时,通过由Cas介导的切割或切口促进的HR)来产生敲除,其减少或完全破坏靶向位点处、邻接位置处或附近的序列的功能。可替代地,本文中敲除的DNA多核苷酸序列可以被表征为例如被部分或完全破坏或下调。
术语“敲入”、“基因敲入”和“遗传敲入”在本文中可互换使用。敲入表示通过用Cas蛋白靶向在细胞中的特异性DNA序列处的DNA序列的替换或插入(当还使用合适的供体DNA时,通过由Cas介导的切割或切口促进的HR)。敲入的实例是感兴趣的多核苷酸、异源氨基酸编码序列在基因的编码区中的特异性插入,或转录调控元件在遗传基因座中的特异性插入。
术语“重组DNA分子”、“重组构建体”、“表达构建体”、“构建体”、“构建体”、和“重组DNA构建体”在此可互换地使用。重组构建体包含核酸片段,例如在自然界中未全部一起发现的调节序列和编码序列的人工组合。例如,构建体可包括源于不同来源的调控序列和编码序列,或者包括源于同一来源但以不同于天然存在的方式排列的调控序列和编码序列。这类构建体可以单独使用或可以与载体或质粒结合使用。技术人员还将认识到,不同的独立基因编辑事件可以导致表达的不同水平和模式(Jones等人,(1985)EMBOJ[欧洲分子生物学学会杂志]4:2411-2418;De Almeida等人,(1989)Mol Gen Genetics[分子遗传学和普通遗传学]218:78-86),并且因此典型地筛选多个事件,从而获得显示希望的表达水平和模式的品系。此类筛选可以是完成的标准分子生物学测定、生物化学测定以及其他测定,这些测定包括DNA的印迹分析、mRNA表达的Northern分析、PCR、实时定量PCR(qPCR)、逆转录PCR(RT-PCR)、蛋白表达的免疫印迹分析、酶测定或活性测定、和/或表型分析。
如在此所用,术语“表达”是指处于前体形式抑或成熟形式的功能终产物(例如mRNA、引导RNA或蛋白)的产生。
在此术语“提供”是指将核酸(例如表达构建体、质粒)或蛋白提供(引入)到细胞中。提供包括提到核酸合并到真核细胞或原核细胞中,其中核酸可以被并入细胞的基因组中,并且包括提到核酸或蛋白被瞬时提供至细胞。提供包括提到电穿孔(Green MR,Sambrook J.2012.Molecular Cloning:A Laboratory Manual[分子克隆:实验手册],第四版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社])、热激处理(Green MR,Sambrook J.2012.Molecular Cloning:ALaboratory Manual[分子克隆:实验手册],第四版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社])、化学处理(Green MR,Sambrook J.2012.Molecular Cloning:A Laboratory Manual[分子克隆:实验手册],第四版,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社])、噬菌体递送(Tyler BM,Goldberg RB.1976.Transduction ofchromosomal genes between enteric bacteria by bacteriophage P1[通过细菌噬菌体P1的肠道细菌之间的染色体基因的转导].Journal of bacteriology[细菌学杂志]125:1105-1111)、配对、接合和转导(Methods for General and Molecular Bacteriology.[普通细菌学和分子细菌学方法]1994.ASM出版社,华盛顿(Washington D.C.))。在将核酸片段(例如重组DNA构建体/表达构建体)插入细胞中的背景下,提供包括“转染”或“转化”或“转导”,并且包括提到将核酸片段合并到原核细胞中,其中核酸片段可以被并入细胞的基因组(例如大环状基因组、质粒)中,转变成自主复制子或瞬时表达。
已经提供到生物体/细胞中的核酸分子可以是在生物体/细胞中自主复制的核酸分子,或者整合到生物体/细胞的基因组中的核酸分子,或瞬时存在于细胞中而不进行复制或整合的核酸分子。在此披露了可以提供至细胞的核酸分子的非限制性实例,例如质粒和线性DNA分子。
如在此描述的,引导RNA/Cas内切核酸酶系统可以与共递送的多核苷酸修饰模板组合使用,从而允许感兴趣的基因组核苷酸序列的编辑。而且,如在此描述的,对于使用引导RNA/Cas内切核酸酶系统的每个实施例而言,相似的引导多核苷酸/Cas内切核酸酶系统可以被部署,其中引导多核苷酸不仅包括核糖核酸,而且其中引导多核苷酸包括RNA-DNA分子的组合或仅包括DNA分子。
“修饰的核苷酸”或“编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时,包括至少一个改变的感兴趣的核苷酸序列。例如,此类改变包括:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任意组合。
术语“多核苷酸修饰模板”是指当与待编辑的核苷酸序列相比时,包括至少一个核苷酸修饰的多核苷酸。例如,核苷酸修饰可以包括:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任意组合。任选地,多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。
如在此所用,“供体DNA”是包括待插入到Cas内切核酸酶的靶位点的的感兴趣的多核苷酸的DNA构建体。供体DNA构建体可以进一步包含位于感兴趣的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于植物基因组的靶位点中或位于该靶位点侧翼的第一和第二基因组区域共享同源性。
多核苷酸修饰模板或供体DNA可以能够经历与DNA靶位点的同源重组(HR)。本文中多核苷酸修饰模板或供体DNA内的“同源序列”可以例如包含至少约25个核苷酸,例如与靶位点处或附近的序列具有100%同一性,或与靶位点处或附近的序列具有至少约90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的同一性的序列或由其组成。
多核苷酸修饰模板或供体DNA可以具有两个同源序列,它们被与在靶位点处的序列同源的序列(或碱基对)分隔开。这样的多核苷酸修饰模板或供体DNA的这两个同源序列可以被称为“同源臂”,它们位于异源序列的侧翼。靶位点和具有两个同源臂的多核苷酸修饰模板或供体DNA之间的HR典型地导致在靶位点处的序列的编辑。
同源的区域可以具有足以在切割的靶位点处促进同源重组的任何长度。例如,同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,这样使得同源的区域具有充足同源性,从而经历与相应的基因组区域的同源重组。“充足同源性”指示两个多核苷酸序列具有充足结构相似性,用来充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度,连同多核苷酸的序列相似性。可以通过在序列的全长上的百分比序列同一性,和/或通过包括局部相似性(例如具有100%序列同一性的连续核苷酸),以及在序列的长度的一部分上的百分比序列同一性,来描述序列相似性。
由靶和多核苷酸修饰模板或供体DNA共享的同源性或序列同一性的量可以变化并且包括总长度和/或具有在以下范围中的单位整数值的区域:约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或高达并且包括靶位点的总长度。这些范围包括范围内的每个整数,例如,1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。还可以通过在包括以下百分比序列同一性的两个多核苷酸的全比对长度上的百分比序列同一性,来描述同源性的量:约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。充足同源性包括多核苷酸长度、全百分比序列同一性、以及任选地连续核苷酸的保守区域、或局部百分比序列同一性的任何组合,例如,充足同源性可以被描述为具有与靶基因座的区域的至少80%序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力,来描述充足同源性,参见例如Sambrook等人,(1989)Molecular Cloning:A Laboratory Manual[分子克隆:实验手册](ColdSpring Harbor Laboratory Press,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社]);Current Protocols in Molecular Biology[现代分子生物学实验技术],Ausubel等人,编辑(1994)Current Protocols[实验室指南](Greene Publishing Associates,Inc.[格林出版合伙公司]和John Wiley&Sons,Inc.[约翰威利父子公司]);以及Tijssen(1993)Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes[生物化学和分子生物学中的实验室技术--与核酸探针杂交](Elsevier[爱思唯尔],纽约(New York))。
在一个实施例中,本披露描述了一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括将包含编码引导RNA的DNA序列的至少一个重组DNA构建体和环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。大肠杆菌细胞的基因组中的核苷酸序列可以选自下组,该组由以下各项组成:启动子序列、终止子序列、调节元件序列、编码序列、原噬菌体、假基因、外源基因、内源基因。可以经由环状质粒提供包含编码引导RNA的DNA序列的重组DNA构建体。可以在分开的质粒上提供重组DNA构建体和环状多核苷酸修饰模板,或可以在单个质粒上提供它们。可以经由选自下组的一种手段提供重组DNA构建体和环状多核苷酸模板,该组由以下各项组成:电穿孔、热激、噬菌体递送、配对、接合和转导、或其任一个组合。
待编辑的核苷酸序列可以是对待编辑的细胞而言是内源的、人工的、已有的、或转基因的序列。例如,细胞的基因组中的核苷酸序列可以是稳定地并入细胞的基因组中的天然基因、突变的基因、非天然基因、外源基因、或转基因。此类核苷酸的编辑可以生成进一步希望的表型或基因型。
在一个实施例中,本披露描述了一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括至少将包含编码引导RNA的DNA序列的第一重组DNA构建体、环状多核苷酸修饰模板、以及包含可操作地连接至诱导型启动子的、编码Cas9内切核酸酶的DNA序列的第二重组DNA构建体提供给大肠杆菌细胞,其中该Cas9内切核酸酶在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
在本披露的一个实施例中,该方法包括一种用于在大肠杆菌细胞的基因组中插入感兴趣的多核苷酸序列的方法,该方法包括将包含编码引导RNA的DNA序列的至少一个重组DNA构建体和环状供体DNA提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述供体DNA包括多核苷酸。
大肠杆菌中的靶位点的实例包括糖利用基因(例如半乳糖激酶,galK)、代谢基因(例如异柠檬酸脱氢酶,icd,(Kabir MM,Shimizu K.2004.Applied microbiology andbiotechnology[应用微生物学和生物技术]65:84-96))、生物合成基因(例如胸甘酸合酶,thyA(Belfort M,Maley G,Pedersen-Lane J,Maley F..PNAS.1983.80(16):4914-18))、转录调节子(例如一般应激反应调节子,rpoS(Notley-McRobb L,King T,Ferenci T(2002)JBacteriol[细菌学杂志]184(3);806-11.PMID:11790751)、信号转导蛋白(例如用于缺氧氧化还原控制的传感器,arcB(Iuchi S,Matsuda Z,Fuiiwara T,Lin EC(1990).MolMicrobiol[分子微生物学]1990;4(5);715-27.PMID:2201868))、tRNA(例如tRNA丙氨酸,alaU(Siekevitz P,Zamecnik PC(1981).Cell Biol[细胞生物学]91(3Pt 2);53s-65s.PMID:7033244))、应激反应蛋白(例如噬菌体休克蛋白A,pspA(Adams H,Teertstra W,Demmers J,Boesten R,Tommassen J(2003).J Bacteriol[细菌学杂志]2003;185(4);1174-80.PMID:12562786))、核糖体组件(例如S12核糖体蛋白,rpsL,(Funatsu G,YaguchiM,Wittmann-Liebold B(1977).“Primary stucture of protein S12 from the smallEscherichia coli ribosomal subunit.[来自小大肠杆菌核糖体亚基的蛋白S12的一级结构]”FEBS Lett[欧洲生化学会联合会快报]73(1);12-7.PMID:320034)以及23s核糖体RNA,rrlD(Arkov AL,Hedenstierna KO,Murgola EJ(2002).“Mutational evidence for afunctional connection between two domains of 23S rRNA in translationtermination.[用于翻译终止中的23S rRNA的两个结构域之间的功能连接的突变证据]”JBacteriol[细菌学杂志]184(18);5052-7.PMID:12193621))、DNA复制(例如DNA聚合酶II,polB(Chen H,Bryan SK,Moses RE(1989).“Cloning the polB gene of Escherichiacoli and identification of its product.[克隆大肠杆菌的polB基因及其产物的鉴定]”J Biol Chem[生物化学杂志]264(34);20591-5.PMID:2684981))、转录机器(例如RNA聚合酶的β’亚基,rpoC(Squires C,Krainer A,Barry G,Shen WF,Squires CL(1981).“Nucleotide sequence at the end of the gene for the RNA polymerase beta’subunit(rpoC).[在RNA聚合酶β’亚基的基因(rpoC)的端部的核苷酸序列]”Nucleic AcidsRes[核酸研究]1981;9(24);6827-40.PMID:6278450)、转运蛋白(例如乳糖渗透酶,lacY(Buchel DE,Gronenborn B,Muller-Hill B(1980).“Sequence of the lactose permeasegene.[乳糖渗透酶基因的序列]”Nature[自然]1980;283(5747);541-5.PMID:6444453))、噬菌体附接位点(例如λ附接位点,attB(Landv A,Ross W(1977).“Viral integration andexcision:structure of the lambda att sites.[病毒整合和切除:λatt位点的结构]”Science[科学]197(4309);1147-60.PMID:331474))、原噬菌体基因(例如细胞分裂的rac原噬菌体抑制剂,kilR(Conter A,Bouche JP,Dassain M(1996).“Identification of a newinhibitor of essential division gene ftsZ as the kil gene of defectiveprophage Rac.[作为缺陷性原噬菌体的kil基因的必需分裂基因的新抑制剂的鉴定]”JBacteriol[细菌学杂志]178(17);5100-4.PMID:8752325))、或细胞分裂(例如细胞分裂环,ftsZ(Robinson AC,Kenan DJ,Hatfull GF,Sullivan NF,Spiegelberg R,Donachie WD(1984).“DNA sequence and transcriptional organization of essential celldivision genes ftsQ and ftsA of Escherichia coli:evidence for overlappingtranscriptional units.[大肠杆菌的必需细胞分裂基因ftsQ和ftsA的DNA序列和转录组织:重叠转录单位的证据]”J Bacteriol[细菌学杂志]160(2);546-55.PMID:6094474))。已经定义了适合靶位点的另外的基因(Karp PD,Weaver D,Paley S,Fulcher C,Kubo A,Kothari A,Krummenacker M,Subhraveti P,Weerasinghe D,Gama-Castro S,Huerta AM,Muniz-Rascado L,Bonavides-Martinez C,Weiss V,Peralta-Gil M,Santos-Zavaleta A,Schroder I,Mackie A,Gunsalus R,Collado-Vides J,Keseler IM,PaulsenI.2014.EcoCyc数据库.EcoSal Plus 2014;Keseler IM,Collado-Vides J,Santos-Zavaleta A,Peralta-Gil M,Gama-Castro S,Muniz-Rascado L,Bonavides-Martinez C,Paley S,Krummenacker M,Altman T,Kaipa P,Spaulding A,Pacheco J,Latendresse M,Fulcher C,Sarker M,Shearer AG,Mackie A,Paulsen I,Gunsalus RP,KarpPD.2011.EcoCyc:a comprehensive database of Escherichia coli biology[EcoCyc:大肠杆菌生物学的综合数据库].Nucleic acids research[核酸研究]39:D583-590.;Keseler IM,Bonavides-Martinez C,Collado-Vides J,Gama-Castro S,Gunsalus RP,Johnson DA,Krummenacker M,Nolan LM,Paley S,Paulsen IT,Peralta-Gil M,Santos-Zavaleta A,Shearer AG,Karp PD.2009.EcoCyc:a comprehensive view of Escherichiacolibiology.[EcoCyc:大肠杆菌生物学的综合意见]Nucleic acids research[核酸研究]37:D464-470;Escherichia coli and Salmonella typhimurium:Cellular andMolecular Biology[大肠杆菌和鼠伤寒沙门菌:细胞和分子生物学],1987年第一版American Society of Microbiology[美国微生物学会],华盛顿(Washington,DC.))。
术语“细胞穿透肽”(CPP)和“蛋白质转导结构域”(PTD)在本文中可互换使用。CPP是指通常约5-60个氨基酸残基长度的肽,其可促进蛋白质货物(protein cargo),特别是本文所描述的一种或多种RGEN蛋白组分(例如Cas9蛋白)的细胞摄取。这样的蛋白质货物可以通过共价或非共价的连接与一个或多个CPP缔合。在某些实施例中,CPP也可以表征为能够促进蛋白质货物跨越/通过脂质双层、胶束、细胞膜、细胞器膜、囊泡膜或细胞壁中的一种或多种的移动或穿越。在某些实施例中,本文中的CPP可以是阳离子性、两亲性或疏水性的。(参见例如美国临时专利申请号62/036652,2014年8月13日提交,通过引用结合在此)。
术语“按体积计百分比”、“体积百分比”、“vol%”和“v/v%”在本文可互换地使用。在溶液中溶质的按体积计百分比可以使用以下式确定:[(溶质体积)/(溶液体积)]×100%。
术语“重量百分比”、“重量百分率(wt%)”和“重量-重量百分率(%w/w)”在本文中可互换使用。按重量计百分比是指当材料被包含在组合物、混合物或溶液中时该材料在质量基础上的百分比。
术语“多核苷酸”、“多核苷酸序列”和“核酸序列”在本文可互换地使用。这些术语涵盖核苷酸序列等。多核苷酸可以是单链或双链的DNA或RNA的聚合物,其任选地包含合成的、非天然的或改变的核苷酸碱基。多核苷酸可以由cDNA、基因组DNA、合成DNA或其混合物的一个或多个区段组成。核苷酸(核糖核苷酸或脱氧核糖核苷酸)可以通过单字母名称表示如下:“A”表示腺苷酸或脱氧腺苷酸(分别用于RNA或DNA),“C”表示胞苷酸或脱氧胞苷酸(分别用于RNA或DNA),“G”表示鸟苷酸或脱氧鸟苷酸(分别用于RNA或DNA),“U”表示尿苷酸(用于RNA),“T”表示脱氧胸苷酸(用于DNA),“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,“W”表示A或T,并且“N”表示任何核苷酸(例如,如果提及DNA序列,N可以是A、C、T或G;如果提及RNA序列,N可以是A、C、U或G)。本文披露的任何RNA序列(例如,crRNA、tracrRNA、gRNA)可以由合适的DNA序列编码。
术语“分离的”是指已经从其天然来源完全或部分纯化的多核苷酸或多肽分子。在一些情况下,分离的多核苷酸或多肽分子是更大组合物、缓冲系统或试剂混合物的一部分。例如,分离的多核苷酸或多肽分子能以异源方式包含在细胞或生物体内。
术语“基因”是指从编码区表达RNA(RNA从DNA多核苷酸序列转录)的DNA多核苷酸序列,该RNA可以是信使RNA(编码蛋白质)或非蛋白质编码RNA(例如本文中的crRNA、tracrRNA、或gRNA)。基因可以是指单独的编码区,或者可以包括编码区上游和/或下游的调控序列(例如启动子、5’-非翻译区、3’-转录终止子区)。可替代地,编码蛋白质的编码区可以在本文被称为“开放阅读框”(ORF)。“天然”或“内源”的基因是指自然界中发现的具有其自身调节序列的基因;这样的基因位于宿主细胞基因组的天然位置中。“嵌合”基因是指不是天然基因的任何基因,该基因包括在自然界中未一起发现的调节序列和编码序列(即,调节区和编码区彼此是异源的)。因此,嵌合基因可包括源于不同来源的调控序列和编码序列,或者包括源于同一来源但以不同于天然存在的方式排列的调控序列和编码序列。“外来”或“异源”的基因是指通过基因转移导入宿主生物体的基因。外来/异源基因可包括插入到非天然生物内的天然基因、导入到天然宿主内的新位置的天然基因、或嵌合基因。在某些实施例中,本文披露的多核苷酸序列是异源的。“密码子优化的”开放阅读框的密码子使用频率被设计为模拟宿主细胞优选密码子使用的频率。
“修饰的基因”或“编辑的基因”是指当与其非修饰的基因序列相比时,包括至少一个改变的感兴趣的基因。例如,此类“改变”包括:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任意组合。
如本文中所使用,“调节序列”是指位于基因转录起始位点(例如启动子)上游的核苷酸序列、5′非翻译区和3′非编码区,并且该调节序列可以影响转录、加工或稳定性、或从该基因转录的RNA的翻译。本文中,调节序列可以包括启动子、增强子、沉默子、5′非翻译前导序列、内含子、聚腺苷酸化识别序列、RNA加工位点、效应子结合位点、茎环结构以及涉及调节基因表达的其他元件。本文中一个或多个调节元件可以与本文的编码区异源。
如本文中所使用的“启动子”是指能够控制来自基因的RNA转录的DNA序列。通常,启动子序列位于基因的转录起始位点的上游。启动子可以全部来源于天然基因,或者由源自于在自然界存在的不同启动子的不同元件构成,或者甚至包含合成的DNA区段。在多数时候在所有情况下引起基因在细胞中表达的启动子通常称为“组成型启动子”。本文中一个或多个启动子可以与本文的编码区异源。
如本文中所使用的“强启动子”是指可以指导每单位时间相对大量的生产性启动的启动子,和/或是驱动比在细胞中基因的平均转录水平更高的基因转录水平的启动子。
组成型大肠杆菌启动子是本领域所熟知的并且包括缺乏通过转录因子的调节并且仅由RNA聚合酶识别的启动子(Shimada T,Yamazaki Y,Tanaka K,Ishihama A;Thewhole set of constitutive promoters recognized by RNA polymerase RpoDholoenzyme of Escherichia coli.[由大肠杆菌的RNA聚合酶,RpoD全酶识别的组成型启动子的全集]PLoS One.[公共科学图书馆期刊]2014年3月6日;9(3):e90447;Science[科学]2002,Stochastic Gene Expression in a Single Cell[单细胞中的随机基因表达]第297卷,第5584期,第1183-1186页)。
如本文中所使用,术语“3’非编码序列”、“转录终止子”和“终止子”是指位于编码序列下游的DNA序列。这包括多腺苷酸化识别序列和编码能影响mRNA加工或基因表达的调节信号的其它序列。
如本文中所使用,术语“盒”是指与编码蛋白质编码RNA或非蛋白质编码RNA的DNA序列可操作地连接的启动子。盒可以任选地可操作地连接到3′非编码序列。
如本文关于多核苷酸所使用的术语“上游”和“下游”分别是指“5’的”和“3’的”。
如本文中所使用,术语“表达”是指(i)来自编码区的RNA(例如,mRNA或非蛋白质编码RNA,例如crRNA、tracrRNA或gRNA)的转录,或(ii)多肽从mRNA的翻译。
当用于描述基因或多核苷酸序列的表达时,术语“下调”、“破坏”、“抑制”、“失活”和“沉默”在本文中可互换使用,是指当多核苷酸序列的转录被降低或消除时的情况。这导致来自多核苷酸序列的RNA转录物的减少或消除,其引起源自于多核苷酸序列的蛋白质表达的降低或消除(如果该基因包含ORF)。可替代地,下调可能是指从由多核苷酸序列产生的转录物的蛋白质翻译被减少或消除的情况。可替代地,下调可能是指由多核苷酸序列表达的蛋白质具有降低的活性的情况。在细胞中任何上述过程(转录、翻译、蛋白质活性)的减少可以是相对于合适的对照细胞的转录、翻译或蛋白质活性的约20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。下调可以是例如如本文所披露的靶向事件的结果(例如,添加缺失、敲除)。
术语“对照细胞”和“合适的对照细胞”在本文中可互换使用,并且可以关于已经进行了特定修饰(例如,多核苷酸的过表达、多核苷酸下调)的细胞(即,“实验细胞”)进行参比。对照细胞可以是不具有或不表达实验细胞的特定修饰的任何细胞。例如,对照细胞可以是实验细胞的直接亲本,该直接亲本细胞不具有在实验细胞中的特定修饰。可替代地,对照细胞可以是通过一个或多个世代移除的实验细胞的亲本。仍可替代地,对照细胞可以是实验细胞的同胞,该同胞不包括存在于实验细胞中的特定修饰。
如本文中所使用,术语“增加”可以是指比该增加的量或活性与之进行比较的量或活性多至少约1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、50%、100%、或200%的量或活性。术语“增加的”、“提高的”、“增强的”、“大于”和“改进的”在本文中可互换使用。术语“增加”可以用于表征编码蛋白质的多核苷酸的表达,例如,其中“增加的表达”也可以意指“过表达”。
如本文中所使用,术语“可操作地连接”是指两个或更多个核酸序列的缔合,这样使得其中一种核酸序列的功能受到另一种核酸序列的影响。例如,当启动子能够影响编码序列的表达时,它与编码序列可操作地连接。即,编码序列处于启动子的转录控制下。例如,编码序列可以与调节序列可操作地连接。而且,例如,crRNA可以与本文中的tracrRNA可操作地连接(融合),这样使得crRNA的tracrRNA配对序列与tracrRNA的5′序列退火。
如本文中所使用,术语“重组”是指例如通过化学合成或者通过用基因工程技术操纵分离的核酸区段来将两个原本分离的序列区段进行人工组合。
用于制备本文中的重组构建体/载体(例如,编码本文中的RNA组分盒的DNA多核苷酸,或编码本文中的Cas蛋白或Cas-CPP融合蛋白的DNA多核苷酸)的方法可以遵循标准重组DNA和分子克隆技术,这些技术是如在以下参考文献中描述的:例如,J.Sambrook和D.Russell(Molecular Cloning:A Laboratory Manual[分子克隆:实验手册],第3版,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社],2001);T.J.Silhavy等人(Experiments with Gene Fusions[使用基因融合的实验],Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社],1984);以及F.M.Ausubel等人(Short Protocols in Molecular Biology[简明分子生物学试验方案],第5版,Current Protocols[当前试验方案],JohnWiley and Sons,Inc.,NY[纽约州约翰威利父子公司],2002)。
“表型标记”是可筛选或可选择的标记,其包括视觉标记和可选择标记,无论其是阳性还是阴性可选择标记。可以使用任何表型标记。具体地,可选择或可筛选的标记包含允许人们通常在特定条件下鉴定或选择含有它的分子或细胞或对其进行选择的DNA区段。这些标记可以编码活性,例如但不限于RNA、肽或蛋白质的产生,或可以提供RNA、肽、蛋白质、无机和有机化合物或组合物等的结合位点。
用于大肠杆菌的可选择标记的实例包括对抗生素(氨苄青霉素、羧苄青霉素、青霉素、氯霉素、卡那霉素、四环素、红霉素、大观霉素、链霉素)的抗性,以及营养缺陷型标记(氨基酸生物合成、糖利用、和维生素生物合成(Methods for General and MolecularBacteriology[普通细菌学和分子细菌学方法],1994,ASM出版社,华盛顿(WashingtonD.C))。
大肠杆菌中的可筛选标记包括荧光蛋白(GFP、RFP、CFP、YFP),糖利用(乳糖、核糖、葡萄糖、蔗糖、半乳糖、甘油)(Methods for General and Molecular Bacteriology.[普通细菌学和分子细菌学方法]1994,ASM出版社,华盛顿(Washington D.C))以及独特的引物结合位点的产生。
如本文中所使用,关于多核苷酸或多肽序列的术语“序列同一性”或“同一性”是指在两个序列中的核酸残基或氨基酸残基当在指定的比较窗口上比对最大对应度时是相同的。如本文中所使用,“序列同一性百分比”或“百分比同一性”是指通过在比较窗口上比较两个最佳比对的序列所确定的值,其中与参比序列(其不包含添加或缺失)比较两个序列的最佳比对时,该多核苷酸或多肽序列在比较窗口中的部分可以包含添加或缺失(即空位)。通过以下方式计算该百分比:确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗口中的位置的总数目,然后将该结果乘以100以产生序列同一性百分比。应当理解的是,当计算DNA序列和RNA序列之间的序列同一性时,DNA序列的T残基与RNA序列的U残基比对,并且可以被认为与其“一致”。出于确定第一和第二多核苷酸的百分比互补性的目的,可以通过确定(i)第一多核苷酸和第二多核苷酸的补体序列之间的百分比同一性(或反之亦然),例如和/或(ii)将产生规范的沃森和克里克碱基对的第一和第二多核苷酸之间的碱基百分比来获得。
可以使用在美国国家生物技术信息中心(NCBI)网站上在线获得的基本局部比对搜索工具(BLAST),例如,来测量在两个或更多个多核苷酸序列(BLASTN算法)或多肽序列(BLASTP算法)之间的百分比同一性。可替代地,使用Clustal算法(例如,ClustalW或ClustalV)可以进行序列之间的百分比同一性比对。对于使用Clustal比对方法的多重比对,默认值可以对应于空位罚分(GAP PENALTY)=10和空位长度罚分(GAP LENGTHPENALTY)=10。使用Clustal方法进行逐对比对和蛋白质序列的百分比同一性计算的默认参数可以是KTUPLE=1、空位罚分=3、窗口(WINDOW)=5、以及存储的对话框(DIAGONALSSAVED)=5。对于核酸,这些参数可以是KTUPLE=2、空位罚分=5、窗口=4、以及存储的对话框=4。仍可替代地,序列之间的百分比同一性可以使用BLOSUM矩阵(例如,BLOSUM62),使用具有参数例如空位开始(GAP OPEN)=10、空位延伸(GAP EXTEND)=0.5、最终空位罚分(ENDGAP PENALTY)=错误(false)、最终空位开始(END GAP OPEN)=10、最终空位延伸(END GAPEXTEND)=0.5的EMBOSS算法(例如,needle)来执行。
本文中,与第二序列“互补”的第一序列可替代地可以被称为处于第二序列的“反义”取向。
作为本披露的披露内容的某些实施例的特征,本文披露了各种多肽氨基酸序列和多核苷酸序列。可以使用与本文披露的序列具有至少约70%-85%、85%-90%、或90%-95%同一性的这些序列的变体。可替代地,变体氨基酸序列或多核苷酸序列可以与本文披露的序列具有至少70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的同一性。变体氨基酸序列或多核苷酸序列具有与所披露的序列的相同的功能/活性,或具有所披露的序列的功能/活性的至少约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%的功能/活性。
在Cas9蛋白的每个氨基酸位置处本文披露的所有氨基酸残基都是实例。鉴于某些氨基酸彼此共享类似的结构和/或电荷特征(即,保守的),Cas9中每个位置处的氨基酸可以是如所披露的序列提供的或被如下保守的氨基酸残基取代(“保守的氨基酸取代”):
1.以下的小脂肪族的、非极性或轻微极性的残基可相互置换:Ala(A)、Ser(S)、Thr(T)、Pro(P)、Gly(G);
2.以下极性的、带负电荷的残基和它们的酰胺可以相互置换:Asp(D)、Asn(N)、Glu(E)、Gln(Q);
3.以下极性的、带正电荷的残基可以相互置换:His(H)、Arg(R)、Lvs(K);
4.以下脂族的、非极性残基可以相互置换:Ala(A)、Leu(L)、Ile(I)、Val(V)、Cys(C),Met(M);并且
5.以下大的芳香族残基可以相互置换:Phe(F)、Tyr(Y)、Trp(W)。
在本文中细菌细胞(例如大肠杆菌细胞)的基因组是指可以自主地存在于细胞中(可以复制并且传给子细胞)的DNA分子。基因组DNA对于细胞而言可以是天然的或异源的。大肠杆菌中基因组DNA的实例包括位于大环状DNA分子以及质粒DNA上的DNA。
本文中的术语“细胞”是指任何类型的细胞,例如原核细胞或真核细胞。真核细胞具有细胞核和其他膜封闭的结构(细胞器),而原核细胞缺乏细胞核。在某些实施例中的细胞可以是哺乳动物细胞或非哺乳动物细胞。非哺乳动物细胞可以是真核的或原核的。例如,本文中的非哺乳动物细胞可以是指微生物细胞或非哺乳动物多细胞生物体例如植物、昆虫、线虫、鸟类物种、两栖动物、爬行类或鱼类的细胞。本文中的微生物细胞可以是指例如真菌细胞(例如酵母细胞)、原核细胞、原生生物细胞(例如,藻类细胞)、眼虫藻细胞、原生藻菌细胞或卵菌纲细胞。本文中的原核细胞可以是指例如细菌细胞或古细菌细胞。
细菌细胞可以是球菌、杆菌、螺旋体、原生质球、原生质体等形式的细菌细胞。细菌的其他非限制性实例包括革兰氏阴性和革兰氏阳性的细菌。细菌的另外其他非限制性实例包括以下属中的那些:沙门氏菌属(Salmonella)(例如,伤寒沙门氏菌(S.typhi)、肠炎沙门氏菌(S.enteritidis))、志贺氏菌属(Shigella)(例如,痢疾志贺氏菌(S.dysenteriae))、埃希氏菌属(Escherichia)(例如,大肠杆菌(E.coli))、肠杆菌属(Enterobacter)、沙雷氏菌属(Serratia)、变形杆菌属(Proteus)、耶尔森氏菌属(Yersinia)、柠檬酸杆菌属(Citrobacter)、爱德华菌属(Edwardsiella)、普罗维登斯菌属(Providencia)、克雷伯氏菌属(Klebsiella)、哈夫尼菌属(Hafnia)、爱文菌属(Ewingella)、克吕沃氏菌属(Kluyvera)、摩根氏菌属(Morganella)、动性球菌属(Planococcus)、口腔球菌属(Stomatococcus)、微球菌属(Micrococcus)、葡萄球菌属(Staphylococcus)(例如,金黄色葡萄球菌(S.aureus)、表皮葡萄球菌(S.epidermidis))、弧菌属(Vibrio)(例如,霍乱弧菌(V.cholerae))、气单胞菌属(Aeromonas)、Plessiomonas、嗜血杆菌属(Haemophilus)(例如,流感嗜血杆菌(H.influenzae))、放线杆菌属(Actinobacillus)、巴斯德氏菌属(Pasteurella)、支原菌属(Mycoplasma)(例如,肺炎支原体(M.pneumonia))、脲原体属(Ureaplasma)、立克次氏体(Rickettsia)、考克斯氏体属(Coxiella)、罗克利马体属(Rochalimaea)、埃利希氏体属(Ehrlichia)、链球菌属(Streptococcus)(例如,化脓性链球菌(S.pyogenes)、变异链球菌(S.mutans)、肺炎链球菌(S.pneumoniae))、肠球菌属(Enterococcus)(例如,粪肠球菌(E.faecalis))、气球菌属(Aerococcus)、兼性双球菌属(Gemella)、乳球菌属(Lactococcus)(例如,乳酸乳球菌(L.lactis))、明串珠菌属(Leuconostoc(例如,肠膜明串珠菌(L.mesenteroides))、片球菌属(Pedicoccus)、芽孢杆菌属(Bacillus)(例如,蜡样芽孢杆菌(B.cereus)、枯草芽孢杆菌(B.subtilis)、苏云金芽孢杆菌(B.thuringiensis))、棒状杆菌属(Corynebacterium)(例如,白喉棒状杆菌(C.diphtheriae))、隐秘杆菌属(Arcanobacterium)、放线菌属(Actinomyces)、红球菌属(Rhodococcus)、李斯特菌属(Listeria)(例如,单核细胞增生李斯特菌(L.monocytogenes))、丹毒杆茵属(Erysipelothrix)、加德纳菌属(Gardnerella)、奈瑟氏菌属(Neisseria)(例如,脑膜炎奈瑟氏菌(N.meningitidis)、淋病奈瑟氏菌(N.gonorrhoeae))、弯曲杆菌属(Campylobacter)、弓形菌属(Arcobacter)、沃林氏菌属(Wolinella)、缠绕杆菌属(Helicobacter)(例如,幽门螺杆菌(H.pylori))、无色杆菌属(Achromobacter)、不动细菌属(Acinetobacter)、土壤杆菌(Agrobacterium)(例如,根癌土壤杆菌(A.tumefaciens))、产碱杆菌属(Alcaligenes)、华丽单胞菌属(Chryseomonas)、丛毛单胞菌属(Comamonas)、埃肯菌属(Eikenella)、黄色单胞菌(Flavimonas)、黄杆菌属(Flavobacterium)、摩拉克氏菌属(Moraxella)、寡源杆菌属(Oligella)、假单胞菌属(Pseudomonas)(例如,铜绿假单胞菌(P.aeruginosa))、希瓦氏菌属(Shewanella)、威克氏菌(Weeksella)、黄单胞杆菌属(Xanthomonas)、博德特氏菌(Bordetella)、Franciesella、布氏杆菌属(Brucella)、军团杆菌属(Legionella)、阿菲波菌属(Afipia)、巴尔通氏体属(Bartonella)、荚膜菌属(Calymmatobacterium)、心杆菌属(Cardiobacterium)、链杆菌属(Streptobacillus)、螺旋状菌属(Spirillum)、消化链球菌属(Peptostreptococcus)、消化球菌(Peptococcus)、Sarcinia、粪球菌属(Coprococcus)、瘤胃球菌属(Ruminococcus)、丙酸杆菌属(Propionibacterium)、动弯杆菌属(Mobiluncus)、双歧杆菌属(Biffdobacterium)、真细菌属(Eubacterium)、乳杆菌属(Lactobacillus)(例如,乳酸乳杆菌(L.lactis)、嗜酸乳杆菌(L.acidophilus))、罗思氏菌属(Rothia)、梭菌属(Clostridium)(例如,肉毒梭菌(C.botulinum)、产气荚膜梭菌(C.perfringens))、多形杆状菌属(Bacteroides)、卟啉单胞菌属(Porphyromonas)、普雷沃菌属(Prevotella)、梭形杆菌属(Fusobacterium)、嗜胆菌属(Bilophila)、纤毛菌属(Leptotrichia)、沃林氏菌属(Wolinella)、氨基酸球菌属(Acidaminococcus)、巨球型菌属(Megasphaera)、Veilonella、诺卡氏菌属(Norcardia)、马杜拉放线菌属(Actinomadura)、拟诺卡氏菌属(Norcardiopsis)、链霉菌属(Streptomyces)、小多孢菌属(Micropolysporas)、高温放线菌属(Thermoactinomycetes)、分枝杆菌(Mycobacterium)(例如,结核分枝杆菌(M.tuberculosis)、牛分枝杆菌(M.bovis)、麻风分枝杆菌(M.leprae))、密螺旋体属(Treponema)、包柔氏螺旋体属(Borrelia)(例如,伯氏包柔氏螺旋体(B.burgdorferi))、钩端螺旋体属(Leptospira)、以及衣原体(Chlamydiae)。在某些实施例中,细菌可以任选地被表征为植物或动物(例如人类)的有害生物/病原体。在某些实施例中,细菌可以包含在混合的微生物群体中(例如,含有其他细菌,或含有酵母和/或其他细菌)。
在某些实施例中,古细胞可以来自任何古细菌门,例如广古菌门(Euryarchaeota)、泉古菌门(Crenarchaeota)、纳古菌门(Nanoarchaeota)、初古菌门(Korarchaeota)、曙古菌门(Aigarchaeota)或奇古菌门(Thaumarchaeota)。本文中的古细菌细胞可以是例如嗜极生物(extremophilic)(例如,能够在对大多数生命有害的物理或地球化学的极端条件下生长和/或茁壮成长)。嗜极生物古细菌的一些实例包括嗜热的(例如,可以在45℃-122℃之间的温度下生长)、超嗜热的(例如,可以在80℃-122℃的温度下生长)、嗜酸的(例如,可以在3或以下的pH水平下生长)、嗜碱性(例如,可以在9或以上的pH水平下生长)和/或嗜盐(例如,可以在高盐浓度[例如20%-30%NaCl]中生长)的那些。古细菌物种的实例包括以下属的那些:盐杆菌属(Halobacterium)(例如,沃氏富盐菌(H.volcanii))、硫化叶菌属(Sulfolobus)(例如,硫磺矿硫化叶菌(S.solfataricus))、酸热硫化叶菌(S.acidocaldarius))、热球菌属(Thermococcus)(例如,T.alcaliphilus、速生热球菌(T.celer)、T.chitonophagus、T.gammatolerans、T.hvdrothermalis、超耐热菌(T.kodakarensis)、嗜热高温球菌(T.litoralis)、T.peptonophilus、深部热球菌(T.profundus)、T.stetteri)、甲烷暖球菌属(Methanocaldococcus)(例如,M.thermolithotrophicus、詹氏甲烷暖球菌(M.jannaschii))、产甲烷球菌属(Methanococcus)(例如,海沼甲烷球菌(M.maripaludis))、甲烷热杆菌属(Methanothermobacter)(例如,M.marburgensis、热自养甲烷热杆菌(M.thermautotrophicus))、古生球菌属(Archaeoglobus)(例如,闪烁古生球菌(A.fulgidus))、亚硝化侏儒菌属(Nitrosopumilus)(例如,海洋亚硝化侏儒菌(N.maritimus))、生金球菌属(Metallosphaera)(例如,勤奋金属球菌(M.sedula))、铁原体属(Ferroplasma)、热原体属(Thermoplasma)、甲烷短杆菌属(Methanobrevibacter)(例如,史密斯氏甲烷短杆菌(M.smithii))、以及甲烷球形菌属(Methanosphaera)(例如,M.stadtmanae)。
重组工程允许使用双链和单链的多核苷酸编辑模板来编辑细菌DNA(DatsenkoKA,Wanner BL.2000.One-step inactivation of chromosomal genes in Escherichiacoli K-12 using PCR products.[使用PCR产物的大肠杆菌K-12中的染色体基因的一步灭活]Proceedings of the National Academy of Sciences of the United States ofAmerica[美国国家科学院院刊]97:6640-6645;Thomason LC,Sawitzke JA,Li X,Costantino N,Court DL.2014.Recombineering:genetic engineering in bacteriausing homologous recombination.[重组工程:使用同源重组的细菌中的基因工程]Current protocols in molecular biology[现代分子生物学实验技术]/FrederickM.Ausubel等人编辑106:1 16 11-11 16 39)。为了利用线性的或单链的编辑模板,需要外源噬菌体重组酶蛋白的表达(Datsenko KA,Wanner BL.2000.One-step inactivation ofchromosomal genes in Escherichia coli K-12 using PCR products.[使用PCR产物的大肠杆菌K-12中的染色体基因的一步灭活]Proceedings of the National Academy ofSciences of the United States of America[美国国家科学院院刊]97:6640-6645;美国专利7,736,851 DNA cloning method[DNA克隆方法],2010年1月15日公布,通过引用结合在此)。典型地,可以使用短的单链的寡核苷酸编辑模板,来产生小的改变,例如点突变或缺失。然而,对于基因的更大改变或插入而言,需要多核苷酸编辑模板上存在可选择标记,以便分离包含由于低频的重组(大约10-5至10-7)而造成的希望的编辑的菌落。一旦做到了编辑,必须去除可选择标记,通常在基因组中留下疤痕(scar)(Datsenko KA,WannerBL.2000.One-step inactivation of chromosomal genes in Escherichia coli K-12using PCR products.[使用PCR产物的大肠杆菌K-12中的染色体基因的一步灭活]Proceedings of the National Academy of Sciences of the United States ofAmerica[美国国家科学院院刊]97:6640-6645)。
一种或多种外源重组酶包括除了细胞天然的同源重组机器而提供的(即经由非天然手段表达的)同源重组系统的蛋白。
RecET蛋白包括Rac原噬菌体的ATP独立的、recA独立的同源重组途径的蛋白(Kuzminov A.1999.Recombinational repair of DNA damage in Escherichia coli andbacteriophage lambda.[大肠杆菌和细菌噬菌体λ中DNA损伤的重组修复]Microbiologyand molecular biology reviews[微生物学与分子生物学评论]:MMBR 63:751-813)。
λred蛋白包括噬菌体λ的red、redβ、和redγ蛋白(Smith GR.1988.Homologousrecombination in procaryotes.[原核生物中的同源重组]Microbiological reviews[微生物学评论]52:1-28)。
RecBCD抑制剂包括结合并且抑制RecBCD功能的蛋白(例如λGam蛋白)(MurphyKC.2007.The lambda Gam protein inhibits RecBCD binding to dsDNA ends.[λGam蛋白抑制结合dsDNA端的RecBCD]Journal of molecular biology[分子生物学杂志]371:19-24)。
包含(i)可操作地连接至(ii)编码引导RNA或Cas内切核酸酶的核苷酸序列的启动子的的DNA多核苷酸序列典型地可以用于在此描述的引导RNA或cas内切核酸酶的稳定的和/或瞬时的表达。这样的多核苷酸序列可以包含在例如质粒、粘粒、噬菌粒、细菌人工染色体(BAC)、病毒或线性DNA(例如,线性PCR产物)中,或包含在任何其他类型的用于将多核苷酸序列提供到细胞中的载体或构建体中。
细菌启动子包括细菌噬菌体λ启动子左(PL)(Menart V,Jevsevar S,Vilar M,Trobis A,Pavko A.2003.Constitutive versus thermoinducible expression ofheterologous proteins in Escherichia coli based on strong PR,PL promotersfrom phage lambda.[基于来自噬菌体λ的强PR、PL启动子的大肠杆菌中的异源蛋白的组成型表达对比温度诱导表达],Biotechnology and bioengineering[生物技术和生物工程]83:181-190);细菌噬菌体λ启动子右(PR)(Menart V,Jevsevar S,Vilar M,TrobisA.Pavko A.2003.Constitutive versus thermoinducible expression of heterologousproteins in Escherichia coli based on strong PR,PL promoters from phagelambda.[基于来自噬菌体λ的强PR、PL启动子的大肠杆菌中的异源蛋白的组成型表达对比温度诱导表达],Biotechnology and bioengineering[生物技术和生物工程]83:181-190);阿拉伯糖利用操纵子启动子(PBAD)(Guzman LM,Belin D,Carson MJ,BeckwithJ.1995.Tight regulation,modulation,and high-level expression by vectorscontaining the arabinose PBAD promoter.[通过包含阿拉伯糖PBAD启动子的载体的严谨性调控、调节、和高水平表达],Journal of bacteriology[细菌学杂志]177:4121-4130);噬菌体T7 RNA聚合酶控制的启动子(PT7)(Ikeda RA,Ligman CM,WarshamanaS.1992.T7 promoter contacts essential for promoter activity in vivo.[体内启动子活性必需的T7启动子接触],Nucleic acids research[核酸研究]20:2517-2524);大肠杆菌的乳糖利用操纵子的启动子(Plac,(Gronenborn B.1976.Overproduction of phagelambda repressor under control of the lac promotor of Escherichia coli.[在大肠杆菌的lac启动子的控制下的噬菌体λ阻遏物的过量产生],Molecular&generalgenetics:MGG[分子遗传学&普通遗传学:MGG]148:243-250);杂合的trp和lac启动子(Ptac)(de Boer HA,Comstock LJ,Vasser M.1983.The tac promoter:a functionalhybrid derived from the trp and lac promoters.[tac启动子:源自trp和lac启动子的功能杂合体],Proceedings of the National Academy of Sciences of the UnitedStates of America[美国国家科学院院刊]80:21-25);以及噬菌体T5启动子(PT5)(BujardH,Gentz R,Lanzer M,Stueber D,Mueller M,Ibrahimi I,Haeuptle MT,DobbersteinB.1987.A T5 promoter-based transcription-translation system for the analysisof proteins in vitro and in vivo.[用于体外和体内的蛋白分析的基于T5启动子的转录-翻译系统]Methods in enzymology[酶学方法]155:416-433)。已经描述了用于在细菌中表达的其他适合的启动子(Green MR,Sambrook J.2012.Molecular Clonine:ALaboratory Manual[分子克隆:实验手册],第四版,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,NY[纽约冷泉港冷泉港实验室出版社];Karp PD等人2014.TheEcoCyc Database.[EcoCyc数据库]EcoSal Plus 2014;Keseler IM等人,2011.EcoCyc:acomprehensive database of Escherichia coli biology.[EcoCyc:大肠杆菌生物学的综合数据库],Nucleic acids research[核酸研究]39:D583-590)。
在某些实施例中,包含用于表达RNA组分的盒的DNA多核苷酸包含RNA组分序列下游的合适的转录终止序列。可用于本文的转录终止序列的实例披露于美国专利申请公开号2014/0186906中,将其通过引用结合在此。这样的实施例通常包括在RNA组分序列末端后的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基,取决于终止子序列的选择。取决于终止子序列的选择,这些另外的残基可以是所有U残基,或例如至少90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的U残基。可替代地,核酶序列(例如锤头状或HDV核酶)可以是例如RNA组分序列的3′(例如下游的1、2、3、4、5、6、7、8、9、10或更多个核苷酸)。可以相应地定位3′核酶序列,这样使得其从RNA组分序列中切割其自身;这样的切割将使转录物完全结束于RNA组分序列的末端,或者在RNA组分序列的末端后具有例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个残基。
可以结合DNA靶位点序列但不切割靶位点序列上的任何链的本文中的RGEN可以用于其他实施例中的DNA靶向方法。本文披露的仅具有功能失调的核酸酶结构域但保留特异性DNA结合活性的RGEN可以用于这种类型的靶向方法中。
与激活子转录因子或其激活子结构域连接或融合的RGEN可以用于上调一个或多个多核苷酸序列的表达。掺入这样的激活性RGEN的方法可以任选地被表征为转录上调或激活方法。与应用激活性RGEN之前的转录水平相比,在这样的方法中转录上调水平可以是例如至少约25%、50%、75%、100%、250%、500%或1000%。
本文的靶向方法能以例如在该方法中靶向两个或更多个DNA靶位点的这样的方式进行。这样的方法可以任选地被表征为多重方法。在某些实施例中,可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多重方法通常通过本文的靶向方法进行,其中提供了多个不同的RNA组分,每一个被设计成将RGEN引导到唯一的DNA靶位点。例如,可以使用两种或更多种不同的RNA组分在体外制备RGEN-CPP复合物的混合物(例如,按照本文披露的用于将RNA组分与RGEN蛋白-CPP复合物缔合的程序),然后将该混合物与细胞接触。
本文中的多重靶向的另一方面可以包括在细胞中提供两种或更多种不同的RNA组分,该RNA组分与已经穿越到细胞中的RGEN蛋白-CPP复合物的RGEN蛋白组分缔合。这样的方法可以包括例如向细胞提供(i)各自的DNA多核苷酸,其每一个表达特定的RNA组分,和/或(ii)编码两种或更多种RNA组分的至少一个DNA多核苷酸(例如,参见下面关于串联核酶-RNA组分盒的披露内容)。
多重方法可以任选地靶向非常接近相同序列的DNA位点(例如,启动子或开放阅读框),和/或彼此远离的位点(例如,在不同的基因和/或染色体中)。在其他实施例中,取决于所希望的靶向结果(是否使用内切核酸酶或切口酶组分的RGEN),可以使用(对于HR)或不使用(对于导致插入缺失和/或碱基取代的NHEJ)合适的多核苷酸修饰模板进行多重方法。在叉其他实施例中,可以使用如本文所披露的抑制性或激活性RGEN进行多重方法。例如,可以提供多种抑制性RGEN,其下调一组基因,例如涉及特定代谢途径的基因。
本文披露的组合物和方法的非限制性实例包括:
1.一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括将包含编码引导RNA的DNA序列的至少一个重组DNA构建体和环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
2.如实施例1所述的方法,其中大肠杆菌细胞的基因组中的核苷酸序列选自下组,该组由以下各项组成:启动子序列、终止子序列、调节元件序列、编码序列、原噬菌体、假基因、外源基因、和内源基因。
3.如实施例1所述的方法,其中经由环状质粒提供包含编码引导RNA的DNA序列的所述重组DNA构建体。
4.如实施例1所述的方法,其中在分开的质粒上各自提供该重组DNA构建体和该环状多核苷酸修饰模板。
5.如实施例1所述的方法,其中在单个质粒上提供该重组DNA构建体和该环状多核苷酸修饰模板。
6.如实施例1所述的方法,其中经由选自下组的一种手段提供该重组DNA构建体和该环状多核苷酸模板,该组由以下各项组成:电穿孔、热激、噬菌体递送、配对、接合和转导。
7.如实施例1所述的方法,其中所述靶位点的侧翼是第一基因组区域和第二基因组区域,其中该环状多核苷酸模板进一步包含与所述第一基因组区域同源的第一区域和与所述第二基因组区域同源的第二区域。
8.如实施例1所述的方法,其中该大肠杆菌细胞不表达外源重组酶蛋白。
9.如实施例1所述的方法,其中该大肠杆菌细胞不表达选自下组的蛋白,该组包括:RecET蛋白、λ-red蛋白、和RecBCD抑制剂。
10.如实施例1所述的方法,进一步包括从所述大肠杆菌细胞生长子代细胞,其中该子代细胞包含所述核苷酸序列的该至少一个核苷酸修饰。
11.如实施例1所述的方法,其中该靶位点位于大肠杆菌galK基因中。
12.一种通过如实施例1所述的方法产生的大肠杆菌细胞。
13.一种从如实施例12所述的大肠杆菌细胞产生的大肠杆菌菌株。
14.一种用于产生galK突变的大肠杆菌细胞的方法,该方法包括:
a)将包含编码引导RNA的DNA序列的至少一个环状重组DNA构建体和至少一个环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在大肠杆菌基因组中的galK基因组序列内的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述环状多核苷酸修饰模板包含所述galK基因组序列的至少一个核苷酸修饰;
b)从(a)的大肠杆菌细胞生长子代细胞;并且,
c)针对所述至少一个核苷酸修饰的存在,评估(b)的子代细胞。
15.一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,该方法包括至少将包含编码引导RNA的DNA序列的第一重组DNA构建体、环状多核苷酸修饰模板、以及包含可操作地连接至诱导型启动子的、编码Cas9内切核酸酶的DNA序列的第二重组DNA构建体提供给大肠杆菌细胞,其中该Cas9内切核酸酶在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
16.如实施例15所述的方法,其中在分开的质粒上各自提供该第一重组DNA构建体、该第二重组DNA构建体、和该环状多核苷酸修饰模板。
17.如实施例1所述的方法,其中在单个质粒上提供该第一重组DNA构建体、该第二重组DNA构建体、和该环状多核苷酸修饰模板。
实例
所披露的披露内容在下面的实例中进一步定义。应该理解,尽管这些实例说明了本披露的某些优选方面,但仅是通过说明的方式给出的。从以上的讨论和这些实例中,本领域的技术人员能够确定本披露的本质特性,并且在不脱离本披露的精神和范围的情况下,可进行本披露的各种变化和修改以使其适应各种用途和条件。
实例1
用于在大肠杆菌中使用的Cas9内切核酸酶表达载体的构建。
在此实例中,构建了用于在大肠杆菌中的基因组编辑的诱导型Cas9表达载体。确认Cas9表达响应诱导物。
来自酿脓链球菌M1 GAS SF370的Cas9基因(SEQ ID NO:1)是按照本领域已知的标准技术优化的耶氏酵母属密码子(SEQ ID NO:2)。为了将Cas9蛋白定位至细胞核,在Cas9开放读码框的羧基末端合并猿病毒40(SV40)单组份(MAPKKKRKV,SEQ ID NO:3)核定位信号。通过标准分子生物学技术,将耶氏酵母属密码子优化的Cas9基因融合至耶氏酵母属组成型启动子,FBA1(SEQ ID NO:4)。包含组成型FBA启动子、耶氏酵母属密码子优化的Cas9、和SV40核定位信号的耶氏酵母属密码子优化的Cas9表达盒(SEQ ID NO:5)的实例。将Cas9表达盒克隆进质粒pZuf和称为pZufCas9的新构建体(SEQ ID NO:6)。
使用标准分子生物学技术,从pZufCas9扩增耶氏酵母属密码子优化的Cas9-SV40融合基因(SEQ ID NO:7)。用于该反应的引物是GGGGGAATTCGACAAGAAATACTCCATCGGCCTGG(正向引物,SEQ ID NO:8)和CCCCAAGCTTAGCGGCCGCTTAGACCTTTCG(反向引物,SEQ ID NO:9),它们将5’EcoRI位点和3’HindIII位点添加至该融合。使用标准技术纯化PRC产物(SEQID NO:10)。将纯化的片段克隆进来自life technologies[美国生命技术公司]的pBAD/HisB的EcoRI和HindIII位点(SEQ ID NO:11),从而产生pRF48(SEQ ID NO:12)。
用pRF48转化大肠杆菌Top10细胞(life technologies[美国生命技术公司])。在L肉汤(1%(w/v)胰蛋白胨,0.5%(w/v)酵母提取物,1%(w/v)NaCl)+100μg/ml氨苄青霉素+0.4%(w/v)葡萄糖上维持转化的细胞,从而抑制Cas9蛋白的表达。在L肉汤+100μg/ml氨苄青霉素+0.4%(w/v)葡萄糖中,在220RPM下,使细胞在37℃生长过夜。在2.8L冯巴赫瓶中,在1L的2x YT培养基(1.6%胰蛋白胨,1.0%(w/v)酵母提取物,0.5%(w/v)NaCl)中将细胞1:100稀释。在37℃下,220RPM下生长培养物,直至OD600达到0.438。将1ml的培养物沉淀,并且在43.8μl的1x Laemmli缓冲液中再悬浮,并且在-20℃下冷冻。将L-阿拉伯糖添加至0.2%(w/v)的最终浓度,用来诱导驱动耶氏酵母属优化的Cas9基因的PBAD启动子。将培养物转移至18℃,180RPM,持续20小时。
在用L-阿拉伯糖诱导后,OD600是3.01。使等分试样的0.332ml的培养物沉淀。在100μl的1X laemmeli缓冲液中再悬浮细胞。将诱导前和诱导后的样品加热至95℃持续5分钟,并且取10μl上样至12.5%tris-甘氨酸SDS聚丙烯酰胺凝胶上。将200伏特应用至凝胶,持续30分钟。使用简单蓝染色法将凝胶染色,从而解析蛋白带。在阿拉伯糖诱导型启动子控制下,大肠杆菌中耶氏酵母属优化的Cas9蛋白的表达是稳健的(图4)。
实例2
编码靶向大肠杆菌的galK基因的单个引导RNA的环状表达质粒的构建
为了修饰(编辑)大肠杆菌的内源galK基因,鉴定了大肠杆菌galK基因内的四(4)个Cas9内切核酸酶靶位点(图5):galK-1(SEQ ID NO:13,表1),galK-2(SEQ ID NO:14,表1),galK-3(SEQ ID NO:15,表1),和galK-4(SEQ ID NO:16,表1)。
表1.用于大肠杆菌中的galK基因编辑的靶向序列
Figure GDA0002822613450000601
Figure GDA0002822613450000611
将对应于缺乏PAM结构域(在表1中定义)的基因组galK1靶序列的DNA片段融合至造成用于单个引导RNA的完整DNA模板的酿脓链球菌Cas识别结构域(SEQ ID NO:17)。编码引导RNA的DNA片段示出在SEQ ID NO:18-21中。用于gallK-1至gall-K4的sgRNA示出在SEQID No:22-25中。
为了在大肠杆菌细胞中表达sgRNA,构建了四个sgRNA表达盒(SEQ ID NO:28-31)。在细菌噬菌体λ的PL启动子(SEQ ID NO:26)控制下,放入sgRNA。为了诱导sgRNA的转录终止,将CR结构域的3’端融合至强细菌噬菌体λ终止子(SEQ ID NO:27)。将GalK-1sgRNA表达盒(SEQ ID NO:28)设计为靶向galK-1基因组靶位点(SEQ ID NO:13)。将GalK-2sgRNA表达盒(SEQ ID NO:29)设计为靶向galK-1基因组靶位点(SEQ ID NO:14)。将GalK-3 sgRNA表达盒(SEQ ID NO:30)设计为靶向galK-3基因组靶位点(SEQ ID NO:15)。将GalK-4 sgRNA表达盒(SEQ ID NO:31)设计为靶向galK-4基因组靶位点(SEQ ID NO:16)。
每个sgRNA表达盒包含5’HinDIII限制位点(AAGCTT)和3’BamH限制位点(GGATCC)。将每个sgRNA表达盒克隆进pACYC184(SEQ ID NO:32)的HinDIII/BamHI位点中,用来产生环状质粒(参见引导RNA质粒,图1和图2)pRF50(靶向galK-1,SEQ ID NO:33)、pRF51(靶向galK-2,SEQ ID NO:34)、pRF53(靶向galK-3,SEQ ID NO:35)和pRF55(靶向galK-4,SEQ IDNO:36)。
实例3
包含用于大肠杆菌中的基因编辑的多核苷酸修饰模板的环状质粒的构建
为了能够使用(例如galK基因的基因缺失),在大肠杆菌中进行基因编辑(修饰),如下制备缺乏一部分galK基因的多核苷酸修饰模板(称为galK缺失模板):
使用标准PCR技术,使用添加用于克隆的5’HinDIII限制位点的正向引物(GGGaagcttggattatgttcagcgcgagc,SEQ ID NO:38),并且使用添加用来产生上游重叠延伸产物(SEQ ID NO:40)的正好在galK基因的终止密码子的3’的20bp的序列的反向引物(tgccagtgcgggagtttcgtTTCTTACACTCCGGATTCGC,SEQ ID NO:39),来扩增正好在大肠杆菌galK基因的翻译起始位点的5’的454bp片段(SEQ ID NO:37)。使用标准PCR技术,使用添加正好在galK基因的起始密码子的5’的20bp的序列的正向引物(GCGAATCCGGAGTGTAAGAAacgaaactcccgcactggca,SEQ ID NO:42),并且使用添加产生下游重叠延伸产物(SEQ ID NO:44)的3’HinDIII限制位点的反向引物(GGGaagcttGCAAACAGCACCTGACGATCG,SEQ ID NO:43),来扩增就在大肠杆菌galK基因的翻译终止位点的3’的376bp(SEQ ID NO:41)。使用Zymo清洁和浓缩物柱来纯化PCR产物。使用用于5’片段的正向引物(GGGaagcttggattatgttcagcgcgagc,SEQ ID NO:38)和3’片段的反向引物(GGGaagcttGCAAACAGCACCTGACGATCG,SEQ ID NO:43),使用10ng的每种PCR产物,来延伸重叠的20nt。将全长galK缺失模板(SEQ ID NO:45)克隆进有条件地复制质粒pKD3(SEQ ID NO:46)的HinDIII位点,用来产生环状galK缺失模板质粒pRF113(SEQ ID NO:47)。galK缺失模板质粒pRF113(在图1和图2中称为模板质粒)缺乏用于Pi蛋白的表达盒(Inuzuka M.1985.Plasmid-encoded initiation protein is requiredfor activity at all three origins of plasmid R6K DNA replication in vitro.[在所有三个质粒R6K DNA体外复制起点处的活性所需的质粒编码的启动蛋白]FEBS letters[欧洲生物学化学会联盟通讯]181:236-240),由此致使其不能够自主复制。因此,一旦将这一环状模板提供至大肠杆菌细胞,它可以发挥功能,作为用于RGEN介导的基因编辑的模板,但是它将不被复制,并且因此在从所述大肠杆菌细胞培养的任何子代细胞中不存在。
实例4
结合包含多核苷酸修饰模板的环状质粒使用引导RNA/Cas内切核酸酶系统在大肠 杆菌中的galK基因的有效编辑
由于毒性产物磷-半乳糖的积累,包含大肠杆菌的galE基因的缺失的菌株EF44对生长培养基中存在半乳糖敏感(Incorporate E.coli and S.typhimurium:Cellular andMolecular Biology[合并大肠杆菌和鼠伤寒沙门菌:细胞生物学和分子生物学]作者:Frederick C.Neidhardt,John L.Ingraham,Roy Curtiss III.ASM出版社,华盛顿(Washington D.C.)1987))。在此菌株中,引起编码半乳糖激酶(galK)的基因中的功能的损失的突变拯救了允许菌株在半乳糖存在下生长的半乳糖敏感性。
为了产生包含Cas9质粒(该质粒包含Cas9表达盒)的大肠杆菌菌株(如图1中所描绘),如下将质粒pRF48引入大肠杆菌菌株EF44中。用pRF48(SEQ ID NO:12)转化菌株EF44的菌株,并且在包含用来抑制Cas9基因从pBAD启动子表达的100μg/ml氨苄青霉素和0.4%(W/V)葡萄糖的L肉汤琼脂平板上选择菌落,从而产生包含Cas9质粒的大肠杆菌菌株EF56(ΔgalE pRF48)。
将EF56的单个菌落接种在包含100μg/ml氨苄青霉素和0.4%(W/V)葡萄糖的L肉汤中,并且在37℃,230RPM下生长18小时。然后将该菌株稀释进包含100ug/ml氨苄青霉素的新鲜L肉汤中,并且在37℃,230RPM下生长2小时。将L-阿拉伯糖添加至0.2%(W/V)的最终浓度,用来诱导Cas9从PBAD启动子表达,并且另外将细胞生长1小时。经由标准实验方案将细胞制成电感受态的。用200ng的pACYC184(SEQ TD NO:32)、pRF50(SEQ ID NO:33)、pRF51(SEQID NO:34)、pRF53(SEQ ID NO:35)、或pRF55(SEQ ID NO:36),和1μg pRF113(SEQ ID NO:47),1μg的线性多核苷酸修饰模板(SEQ ID NO:44),抑或无多核苷酸修饰修饰模板质粒DNA转化100μl的诱导的电感受态EF56细胞。在1mM缺口槽中,在1750伏特下,将细胞电穿孔。添加1ml的SOC培养基,并且允许在37℃,230RPM下恢复3小时。将细胞涂板在固化有包含100μg/ml氨苄青霉素和25μg/ml氯霉素的1.5%(w/v)琼脂的L肉汤平板上,用来选择包含pRF48(SEQ ID NO:12)和相应的pACYC184(SEQ ID NO:32)、pRF50(SEQ ID NO:33)、pRF51(SEQ IDNO:34)、pRF53(SEQ ID NO:35)、或pRF55(SEQ ID NO:36)二者的细胞。将平板在37℃下孵育20小时。
使用影印培养法,将菌落从L肉汤100μg/ml氨苄青霉素/25μg/ml氯霉素平板转移至固化有包含0.2%(w/v)甘油和0.2%(w/v)半乳糖的1.5%(w/v)琼脂的基本A培养基,从而筛选半乳糖抗性分离群。对于每一转化,通过半乳糖抗性菌落的数目除以在原始平板上的菌落的总数,来计算半乳糖抗性的频率(表2)。
表2:半乳糖抗性菌落的频率。
Figure GDA0002822613450000641
Figure GDA0002822613450000651
频率取决于靶位点。为了确定同源重组的频率,使用标准PCR技术,使用正向引物(ggcgaagagaatcaacactgg,SEQ ID NO:49)和反向引物(GCAAACAGCACCTGACGATCG,SEQ IDNO:50),扩增galK基因座(SEQ ID NO:48)。在WT菌株中,扩增整个galK基因座(SEQ ID NO:48),生成长度为1717bp的PCR产物。在其中galK基因座和HR多核苷酸修饰模板pRF113之间已经发生重组的细胞中,PCR产物的长度是569bp(SEQ ID NO:50)。图6示出了来自pRF50/pRF113编辑实验,源自菌落的扩增的凝胶,具有75%的HR频率。通过其中扩增了galK的缺失等位基因(指示精确编辑)的菌落的数目除以通过菌落PCR测定的菌落的总数,确定HR频率。在不存在多核苷酸修饰模板的情况下,为GalR的菌落不能允许galK基因座的扩增。
这一实例示出,结合包含多核苷酸修饰模板的环状质粒,使用引导RNA/Cas内切核酸酶系统,成功完成了在大肠杆菌中的galK基因的有效基因组编辑。
序列表
<110> E.I.内穆尔杜邦公司(E. I. du Pont de Nemours and Company)
Frisch, Ryan L.
Jackson, Ethel N.
<120> 使用与环状多核苷酸修饰模板组合的引导RNA/Cas内切核酸酶系统在大肠杆菌中进行有效基因编辑的组合物和方法
<130> CL6256 PCT
<150> 62/092914
<151> 2014-12-17
<160> 52
<170> PatentIn版本3.5
<210> 1
<211> 4107
<212> DNA
<213> 化脓性链球菌
<400> 1
atggataaga aatactcaat aggcttagat atcggcacaa atagcgtcgg atgggcggtg 60
atcactgatg aatataaggt tccgtctaaa aagttcaagg ttctgggaaa tacagaccgc 120
cacagtatca aaaaaaatct tataggggct cttttatttg acagtggaga gacagcggaa 180
gcgactcgtc tcaaacggac agctcgtaga aggtatacac gtcggaagaa tcgtatttgt 240
tatctacagg agattttttc aaatgagatg gcgaaagtag atgatagttt ctttcatcga 300
cttgaagagt cttttttggt ggaagaagac aagaagcatg aacgtcatcc tatttttgga 360
aatatagtag atgaagttgc ttatcatgag aaatatccaa ctatctatca tctgcgaaaa 420
aaattggtag attctactga taaagcggat ttgcgcttaa tctatttggc cttagcgcat 480
atgattaagt ttcgtggtca ttttttgatt gagggagatt taaatcctga taatagtgat 540
gtggacaaac tatttatcca gttggtacaa acctacaatc aattatttga agaaaaccct 600
attaacgcaa gtggagtaga tgctaaagcg attctttctg cacgattgag taaatcaaga 660
cgattagaaa atctcattgc tcagctcccc ggtgagaaga aaaatggctt atttgggaat 720
ctcattgctt tgtcattggg tttgacccct aattttaaat caaattttga tttggcagaa 780
gatgctaaat tacagctttc aaaagatact tacgatgatg atttagataa tttattggcg 840
caaattggag atcaatatgc tgatttgttt ttggcagcta agaatttatc agatgctatt 900
ttactttcag atatcctaag agtaaatact gaaataacta aggctcccct atcagcttca 960
atgattaaac gctacgatga acatcatcaa gacttgactc ttttaaaagc tttagttcga 1020
caacaacttc cagaaaagta taaagaaatc ttttttgatc aatcaaaaaa cggatatgca 1080
ggttatattg atgggggagc tagccaagaa gaattttata aatttatcaa accaatttta 1140
gaaaaaatgg atggtactga ggaattattg gtgaaactaa atcgtgaaga tttgctgcgc 1200
aagcaacgga cctttgacaa cggctctatt ccccatcaaa ttcacttggg tgagctgcat 1260
gctattttga gaagacaaga agacttttat ccatttttaa aagacaatcg tgagaagatt 1320
gaaaaaatct tgacttttcg aattccttat tatgttggtc cattggcgcg tggcaatagt 1380
cgttttgcat ggatgactcg gaagtctgaa gaaacaatta ccccatggaa ttttgaagaa 1440
gttgtcgata aaggtgcttc agctcaatca tttattgaac gcatgacaaa ctttgataaa 1500
aatcttccaa atgaaaaagt actaccaaaa catagtttgc tttatgagta ttttacggtt 1560
tataacgaat tgacaaaggt caaatatgtt actgaaggaa tgcgaaaacc agcatttctt 1620
tcaggtgaac agaagaaagc cattgttgat ttactcttca aaacaaatcg aaaagtaacc 1680
gttaagcaat taaaagaaga ttatttcaaa aaaatagaat gttttgatag tgttgaaatt 1740
tcaggagttg aagatagatt taatgcttca ttaggtacct accatgattt gctaaaaatt 1800
attaaagata aagatttttt ggataatgaa gaaaatgaag atatcttaga ggatattgtt 1860
ttaacattga ccttatttga agatagggag atgattgagg aaagacttaa aacatatgct 1920
cacctctttg atgataaggt gatgaaacag cttaaacgtc gccgttatac tggttgggga 1980
cgtttgtctc gaaaattgat taatggtatt agggataagc aatctggcaa aacaatatta 2040
gattttttga aatcagatgg ttttgccaat cgcaatttta tgcagctgat ccatgatgat 2100
agtttgacat ttaaagaaga cattcaaaaa gcacaagtgt ctggacaagg cgatagttta 2160
catgaacata ttgcaaattt agctggtagc cctgctatta aaaaaggtat tttacagact 2220
gtaaaagttg ttgatgaatt ggtcaaagta atggggcggc ataagccaga aaatatcgtt 2280
attgaaatgg cacgtgaaaa tcagacaact caaaagggcc agaaaaattc gcgagagcgt 2340
atgaaacgaa tcgaagaagg tatcaaagaa ttaggaagtc agattcttaa agagcatcct 2400
gttgaaaata ctcaattgca aaatgaaaag ctctatctct attatctcca aaatggaaga 2460
gacatgtatg tggaccaaga attagatatt aatcgtttaa gtgattatga tgtcgatcac 2520
attgttccac aaagtttcct taaagacgat tcaatagaca ataaggtctt aacgcgttct 2580
gataaaaatc gtggtaaatc ggataacgtt ccaagtgaag aagtagtcaa aaagatgaaa 2640
aactattgga gacaacttct aaacgccaag ttaatcactc aacgtaagtt tgataattta 2700
acgaaagctg aacgtggagg tttgagtgaa cttgataaag ctggttttat caaacgccaa 2760
ttggttgaaa ctcgccaaat cactaagcat gtggcacaaa ttttggatag tcgcatgaat 2820
actaaatacg atgaaaatga taaacttatt cgagaggtta aagtgattac cttaaaatct 2880
aaattagttt ctgacttccg aaaagatttc caattctata aagtacgtga gattaacaat 2940
taccatcatg cccatgatgc gtatctaaat gccgtcgttg gaactgcttt gattaagaaa 3000
tatccaaaac ttgaatcgga gtttgtctat ggtgattata aagtttatga tgttcgtaaa 3060
atgattgcta agtctgagca agaaataggc aaagcaaccg caaaatattt cttttactct 3120
aatatcatga acttcttcaa aacagaaatt acacttgcaa atggagagat tcgcaaacgc 3180
cctctaatcg aaactaatgg ggaaactgga gaaattgtct gggataaagg gcgagatttt 3240
gccacagtgc gcaaagtatt gtccatgccc caagtcaata ttgtcaagaa aacagaagta 3300
cagacaggcg gattctccaa ggagtcaatt ttaccaaaaa gaaattcgga caagcttatt 3360
gctcgtaaaa aagactggga tccaaaaaaa tatggtggtt ttgatagtcc aacggtagct 3420
tattcagtcc tagtggttgc taaggtggaa aaagggaaat cgaagaagtt aaaatccgtt 3480
aaagagttac tagggatcac aattatggaa agaagttcct ttgaaaaaaa tccgattgac 3540
tttttagaag ctaaaggata taaggaagtt aaaaaagact taatcattaa actacctaaa 3600
tatagtcttt ttgagttaga aaacggtcgt aaacggatgc tggctagtgc cggagaatta 3660
caaaaaggaa atgagctggc tctgccaagc aaatatgtga attttttata tttagctagt 3720
cattatgaaa agttgaaggg tagtccagaa gataacgaac aaaaacaatt gtttgtggag 3780
cagcataagc attatttaga tgagattatt gagcaaatca gtgaattttc taagcgtgtt 3840
attttagcag atgccaattt agataaagtt cttagtgcat ataacaaaca tagagacaaa 3900
ccaatacgtg aacaagcaga aaatattatt catttattta cgttgacgaa tcttggagct 3960
cccgctgctt ttaaatattt tgatacaaca attgatcgta aacgatatac gtctacaaaa 4020
gaagttttag atgccactct tatccatcaa tccatcactg gtctttatga aacacgcatt 4080
gatttgagtc agctaggagg tgactga 4107
<210> 2
<211> 4140
<212> DNA
<213> 人工序列
<220>
<223> 耶氏酵母属优化的Cas9
<400> 2
atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60
atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120
cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180
gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240
tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300
ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360
aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca cctgcgaaag 420
aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480
atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540
gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600
atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660
cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720
ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780
gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840
cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900
ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960
atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020
cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080
ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140
gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200
aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260
gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320
gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380
cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440
gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500
aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560
tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620
tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680
gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740
tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800
atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860
ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920
cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980
agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040
gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100
tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160
cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220
gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280
atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340
atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400
gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460
gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520
attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580
gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640
aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700
accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760
ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820
accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880
aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940
taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000
taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060
atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120
aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180
ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240
gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300
cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360
gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420
tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480
aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540
ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600
tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660
cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720
cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780
cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840
atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900
cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960
cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020
gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080
gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140
<210> 3
<211> 9
<212> PRT
<213> 猿病毒40
<400> 3
Met Ala Pro Lys Lys Lys Arg Lys Val
1 5
<210> 4
<211> 546
<212> DNA
<213> 解脂耶氏酵母
<400> 4
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
accatg 546
<210> 5
<211> 4683
<212> DNA
<213> 人工序列
<220>
<223> 耶氏酵母属优化的Cas9表达盒
<400> 5
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 600
gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 660
cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 720
gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 780
tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 840
cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 900
ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccacctgcga 960
aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 1020
cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 1080
gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 1140
cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 1200
agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 1260
aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 1320
gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 1380
gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 1440
attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 1500
tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 1560
cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 1620
gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 1680
ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 1740
cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 1800
cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 1860
atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 1920
tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 1980
gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 2040
aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 2100
gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 2160
ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 2220
actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 2280
atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 2340
attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 2400
gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 2460
gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 2520
ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 2580
ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 2640
gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 2700
ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 2760
actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 2820
gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 2880
cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 2940
cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 3000
cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 3060
cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 3120
tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 3180
aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 3240
cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 3300
caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 3360
aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 3420
tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 3480
aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 3540
aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 3600
aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 3660
tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 3720
agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 3780
tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 3840
gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 3900
atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 3960
gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 4020
gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 4080
gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 4140
aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 4200
ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 4260
tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 4320
gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 4380
gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 4440
aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 4500
gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 4560
aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 4620
atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 4680
taa 4683
<210> 6
<211> 10706
<212> DNA
<213> 人工序列
<220>
<223> pZufCas9CS
<400> 6
catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60
catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120
acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180
agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240
ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300
actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360
caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc acctgcgaaa 420
gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480
catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540
tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600
catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660
acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720
cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780
ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840
acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900
tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960
catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020
acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080
tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140
cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200
gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260
cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320
cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380
tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440
agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500
gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560
ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620
gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680
tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740
ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800
tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860
gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920
tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980
aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040
ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100
ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160
gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220
tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280
gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340
gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400
cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460
agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520
cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580
cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640
gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700
taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760
actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820
caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880
caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940
ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000
ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060
gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120
caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180
accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240
tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300
tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360
cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420
ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480
caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540
cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600
gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660
gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720
tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780
gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840
catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900
acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960
tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020
ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080
cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140
agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200
caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260
aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320
ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380
gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440
tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500
aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560
acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620
ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680
gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740
caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800
tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860
gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920
ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980
cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040
tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100
tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160
cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220
agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280
agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340
gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400
aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460
ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520
gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580
taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640
tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700
tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760
gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820
gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880
ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940
cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000
tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060
cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120
agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180
cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240
aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300
aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360
gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420
gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480
tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540
ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600
tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660
tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720
tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780
gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840
agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900
cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960
agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140
ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200
cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260
catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320
gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380
atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440
atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500
cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560
tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620
acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680
taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740
tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800
agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860
gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920
ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980
gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040
agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100
attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160
acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220
actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280
aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340
cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400
gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460
ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520
agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580
agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640
cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700
agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760
agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820
atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880
ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940
atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000
cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060
tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120
ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180
accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240
gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300
ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360
ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420
ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480
tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540
tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600
atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660
agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720
agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780
ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840
accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900
agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960
gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020
atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080
gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140
aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200
acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260
caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320
aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380
cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440
gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500
tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560
accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620
tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680
ttcgaaatct aaactacaca tcacac 10706
<210> 7
<211> 4144
<212> DNA
<213> 人工序列
<220>
<223> Cas9-SV40融合
<400> 7
acaagaaata ctccatcggc ctggacattg gaaccaactc tgtcggctgg gctgtcatca 60
ccgacgagta caaggtgccc tccaagaaat tcaaggtcct cggaaacacc gatcgacact 120
ccatcaagaa aaacctcatt ggtgccctgt tgttcgattc tggcgagact gccgaagcta 180
ccagactcaa gcgaactgct cggcgacgtt acacccgacg gaagaaccga atctgctacc 240
tgcaggagat cttttccaac gagatggcca aggtggacga ttcgttcttt catcgactgg 300
aggaatcctt cctcgtcgag gaagacaaga aacacgagcg tcatcccatc tttggcaaca 360
ttgtggacga ggttgcttac cacgagaagt atcctaccat ctaccacctg cgaaagaaac 420
tcgtcgattc caccgacaag gcggatctca gacttatcta cctcgctctg gcacacatga 480
tcaagtttcg aggtcatttc ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg 540
acaagctgtt cattcagctc gttcagacct acaaccagct gttcgaggaa aaccccatca 600
atgcctccgg agtcgatgca aaggccatct tgtctgctcg actctcgaag agcagacgac 660
tggagaacct cattgcccaa cttcctggcg agaaaaagaa cggactgttt ggcaacctca 720
ttgccctttc tcttggtctc acacccaact tcaagtccaa cttcgatctg gcggaggacg 780
ccaagctcca gctgtccaag gacacctacg acgatgacct cgacaacctg cttgcacaga 840
ttggcgatca gtacgccgac ctgtttctcg ctgccaagaa cctttcggat gctattctct 900
tgtctgacat tctgcgagtc aacaccgaga tcacaaaggc tcccctttct gcctccatga 960
tcaagcgata cgacgagcac catcaggatc tcacactgct caaggctctt gtccgacagc 1020
aactgcccga gaagtacaag gagatctttt tcgatcagtc gaagaacggc tacgctggat 1080
acatcgacgg cggagcctct caggaagagt tctacaagtt catcaagcca attctcgaga 1140
agatggacgg aaccgaggaa ctgcttgtca agctcaatcg agaggatctg cttcggaagc 1200
aacgaacctt cgacaacggc agcattcctc atcagatcca cctcggtgag ctgcacgcca 1260
ttcttcgacg tcaggaagac ttctacccct ttctcaagga caaccgagag aagatcgaga 1320
agattcttac ctttcgaatc ccctactatg ttggtcctct tgccagagga aactctcgat 1380
ttgcttggat gactcgaaag tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg 1440
tggacaaggg tgcctctgca cagtccttca tcgagcgaat gaccaacttc gacaagaatc 1500
tgcccaacga gaaggttctt cccaagcatt cgctgctcta cgagtacttt acagtctaca 1560
acgaactcac caaagtcaag tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg 1620
gcgaacagaa gaaagccatt gtcgatctcc tgttcaagac caaccgaaag gtcactgtta 1680
agcagctcaa ggaggactac ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg 1740
gagttgagga ccgattcaac gcctctttgg gcacctatca cgatctgctc aagattatca 1800
aggacaagga ttttctcgac aacgaggaaa acgaggacat tctggaggac atcgtgctca 1860
ctcttaccct gttcgaagat cgggagatga tcgaggaacg actcaagaca tacgctcacc 1920
tgttcgacga caaggtcatg aaacaactca agcgacgtag atacaccggc tggggaagac 1980
tttcgcgaaa gctcatcaac ggcatcagag acaagcagtc cggaaagacc attctggact 2040
ttctcaagtc cgatggcttt gccaaccgaa acttcatgca gctcattcac gacgattctc 2100
ttaccttcaa ggaggacatc cagaaggcac aagtgtccgg tcagggcgac agcttgcacg 2160
aacatattgc caacctggct ggttcgccag ccatcaagaa aggcattctc cagactgtca 2220
aggttgtcga cgagctggtg aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg 2280
agatggccag agagaaccag acaactcaaa agggtcagaa aaactcgcga gagcggatga 2340
agcgaatcga ggaaggcatc aaggagctgg gatcccagat tctcaaggag catcccgtcg 2400
agaacactca actgcagaac gagaagctgt atctctacta tctgcagaat ggtcgagaca 2460
tgtacgtgga tcaggaactg gacatcaatc gtctcagcga ctacgatgtg gaccacattg 2520
tccctcaatc ctttctcaag gacgattcta tcgacaacaa ggtccttaca cgatccgaca 2580
agaacagagg caagtcggac aacgttccca gcgaagaggt ggtcaaaaag atgaagaact 2640
actggcgaca gctgctcaac gccaagctca ttacccagcg aaagttcgac aatcttacca 2700
aggccgagcg aggcggtctg tccgagctcg acaaggctgg cttcatcaag cgtcaactcg 2760
tcgagaccag acagatcaca aagcacgtcg cacagattct cgattctcgg atgaacacca 2820
agtacgacga gaacgacaag ctcatccgag aggtcaaggt gattactctc aagtccaaac 2880
tggtctccga tttccgaaag gactttcagt tctacaaggt gcgagagatc aacaattacc 2940
accatgccca cgatgcttac ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc 3000
ccaagctcga aagcgagttc gtttacggcg attacaaggt ctacgacgtt cgaaagatga 3060
ttgccaagtc cgaacaggag attggcaagg ctactgccaa gtacttcttt tactccaaca 3120
tcatgaactt tttcaagacc gagatcacct tggccaacgg agagattcga aagagaccac 3180
ttatcgagac caacggcgaa actggagaga tcgtgtggga caagggtcga gactttgcaa 3240
ccgtgcgaaa ggttctgtcg atgcctcagg tcaacatcgt caagaaaacc gaggttcaga 3300
ctggcggatt ctccaaggag tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc 3360
gaaagaaaga ctgggatccc aagaaatacg gtggcttcga ttctcctacc gtcgcctatt 3420
ccgtgcttgt cgttgcgaag gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg 3480
agctgctcgg aattaccatc atggagcgat cgagcttcga gaagaatccc atcgacttct 3540
tggaagccaa gggttacaag gaggtcaaga aagacctcat tatcaagctg cccaagtact 3600
ctctgttcga actggagaac ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga 3660
agggaaacga gcttgccttg ccttcgaagt acgtcaactt tctctatctg gcttctcact 3720
acgagaagct caagggttct cccgaggaca acgaacagaa gcaactcttc gttgagcagc 3780
acaaacatta cctcgacgag attatcgagc agatttccga gttttcgaag cgagtcatcc 3840
tggctgatgc caacttggac aaggtgctct ctgcctacaa caagcatcgg gacaaaccca 3900
ttcgagaaca ggcggagaac atcattcacc tgtttactct taccaacctg ggtgctcctg 3960
cagctttcaa gtacttcgat accactatcg accgaaagcg gtacacatcc accaaggagg 4020
ttctcgatgc caccctgatt caccagtcca tcactggcct gtacgagacc cgaatcgacc 4080
tgtctcagct tggtggcgac tccagagccg atcccaagaa aaagcgaaag gtctaagcgg 4140
ccgc 4144
<210> 8
<211> 35
<212> DNA
<213> 人工序列
<220>
<223> Cas9正向引物
<400> 8
gggggaattc gacaagaaat actccatcgg cctgg 35
<210> 9
<211> 31
<212> DNA
<213> 人工序列
<220>
<223> Cas9反向引物
<400> 9
ccccaagctt agcggccgct tagacctttc g 31
<210> 10
<211> 4166
<212> DNA
<213> 人工序列
<220>
<223> Cas9 PCR产物
<400> 10
gggggaattc gacaagaaat actccatcgg cctggacatt ggaaccaact ctgtcggctg 60
ggctgtcatc accgacgagt acaaggtgcc ctccaagaaa ttcaaggtcc tcggaaacac 120
cgatcgacac tccatcaaga aaaacctcat tggtgccctg ttgttcgatt ctggcgagac 180
tgccgaagct accagactca agcgaactgc tcggcgacgt tacacccgac ggaagaaccg 240
aatctgctac ctgcaggaga tcttttccaa cgagatggcc aaggtggacg attcgttctt 300
tcatcgactg gaggaatcct tcctcgtcga ggaagacaag aaacacgagc gtcatcccat 360
ctttggcaac attgtggacg aggttgctta ccacgagaag tatcctacca tctaccacct 420
gcgaaagaaa ctcgtcgatt ccaccgacaa ggcggatctc agacttatct acctcgctct 480
ggcacacatg atcaagtttc gaggtcattt cctcatcgag ggcgatctca atcccgacaa 540
cagcgatgtg gacaagctgt tcattcagct cgttcagacc tacaaccagc tgttcgagga 600
aaaccccatc aatgcctccg gagtcgatgc aaaggccatc ttgtctgctc gactctcgaa 660
gagcagacga ctggagaacc tcattgccca acttcctggc gagaaaaaga acggactgtt 720
tggcaacctc attgcccttt ctcttggtct cacacccaac ttcaagtcca acttcgatct 780
ggcggaggac gccaagctcc agctgtccaa ggacacctac gacgatgacc tcgacaacct 840
gcttgcacag attggcgatc agtacgccga cctgtttctc gctgccaaga acctttcgga 900
tgctattctc ttgtctgaca ttctgcgagt caacaccgag atcacaaagg ctcccctttc 960
tgcctccatg atcaagcgat acgacgagca ccatcaggat ctcacactgc tcaaggctct 1020
tgtccgacag caactgcccg agaagtacaa ggagatcttt ttcgatcagt cgaagaacgg 1080
ctacgctgga tacatcgacg gcggagcctc tcaggaagag ttctacaagt tcatcaagcc 1140
aattctcgag aagatggacg gaaccgagga actgcttgtc aagctcaatc gagaggatct 1200
gcttcggaag caacgaacct tcgacaacgg cagcattcct catcagatcc acctcggtga 1260
gctgcacgcc attcttcgac gtcaggaaga cttctacccc tttctcaagg acaaccgaga 1320
gaagatcgag aagattctta cctttcgaat cccctactat gttggtcctc ttgccagagg 1380
aaactctcga tttgcttgga tgactcgaaa gtccgaggaa accatcactc cctggaactt 1440
cgaggaagtc gtggacaagg gtgcctctgc acagtccttc atcgagcgaa tgaccaactt 1500
cgacaagaat ctgcccaacg agaaggttct tcccaagcat tcgctgctct acgagtactt 1560
tacagtctac aacgaactca ccaaagtcaa gtacgttacc gagggaatgc gaaagcctgc 1620
cttcttgtct ggcgaacaga agaaagccat tgtcgatctc ctgttcaaga ccaaccgaaa 1680
ggtcactgtt aagcagctca aggaggacta cttcaagaaa atcgagtgtt tcgacagcgt 1740
cgagatttcc ggagttgagg accgattcaa cgcctctttg ggcacctatc acgatctgct 1800
caagattatc aaggacaagg attttctcga caacgaggaa aacgaggaca ttctggagga 1860
catcgtgctc actcttaccc tgttcgaaga tcgggagatg atcgaggaac gactcaagac 1920
atacgctcac ctgttcgacg acaaggtcat gaaacaactc aagcgacgta gatacaccgg 1980
ctggggaaga ctttcgcgaa agctcatcaa cggcatcaga gacaagcagt ccggaaagac 2040
cattctggac tttctcaagt ccgatggctt tgccaaccga aacttcatgc agctcattca 2100
cgacgattct cttaccttca aggaggacat ccagaaggca caagtgtccg gtcagggcga 2160
cagcttgcac gaacatattg ccaacctggc tggttcgcca gccatcaaga aaggcattct 2220
ccagactgtc aaggttgtcg acgagctggt gaaggtcatg ggacgtcaca agcccgagaa 2280
cattgtgatc gagatggcca gagagaacca gacaactcaa aagggtcaga aaaactcgcg 2340
agagcggatg aagcgaatcg aggaaggcat caaggagctg ggatcccaga ttctcaagga 2400
gcatcccgtc gagaacactc aactgcagaa cgagaagctg tatctctact atctgcagaa 2460
tggtcgagac atgtacgtgg atcaggaact ggacatcaat cgtctcagcg actacgatgt 2520
ggaccacatt gtccctcaat cctttctcaa ggacgattct atcgacaaca aggtccttac 2580
acgatccgac aagaacagag gcaagtcgga caacgttccc agcgaagagg tggtcaaaaa 2640
gatgaagaac tactggcgac agctgctcaa cgccaagctc attacccagc gaaagttcga 2700
caatcttacc aaggccgagc gaggcggtct gtccgagctc gacaaggctg gcttcatcaa 2760
gcgtcaactc gtcgagacca gacagatcac aaagcacgtc gcacagattc tcgattctcg 2820
gatgaacacc aagtacgacg agaacgacaa gctcatccga gaggtcaagg tgattactct 2880
caagtccaaa ctggtctccg atttccgaaa ggactttcag ttctacaagg tgcgagagat 2940
caacaattac caccatgccc acgatgctta cctcaacgcc gtcgttggca ctgcgctcat 3000
caagaaatac cccaagctcg aaagcgagtt cgtttacggc gattacaagg tctacgacgt 3060
tcgaaagatg attgccaagt ccgaacagga gattggcaag gctactgcca agtacttctt 3120
ttactccaac atcatgaact ttttcaagac cgagatcacc ttggccaacg gagagattcg 3180
aaagagacca cttatcgaga ccaacggcga aactggagag atcgtgtggg acaagggtcg 3240
agactttgca accgtgcgaa aggttctgtc gatgcctcag gtcaacatcg tcaagaaaac 3300
cgaggttcag actggcggat tctccaagga gtcgattctg cccaagcgaa actccgacaa 3360
gctcatcgct cgaaagaaag actgggatcc caagaaatac ggtggcttcg attctcctac 3420
cgtcgcctat tccgtgcttg tcgttgcgaa ggtcgagaag ggcaagtcca aaaagctcaa 3480
gtccgtcaag gagctgctcg gaattaccat catggagcga tcgagcttcg agaagaatcc 3540
catcgacttc ttggaagcca agggttacaa ggaggtcaag aaagacctca ttatcaagct 3600
gcccaagtac tctctgttcg aactggagaa cggtcgaaag cgtatgctcg cctccgctgg 3660
cgagctgcag aagggaaacg agcttgcctt gccttcgaag tacgtcaact ttctctatct 3720
ggcttctcac tacgagaagc tcaagggttc tcccgaggac aacgaacaga agcaactctt 3780
cgttgagcag cacaaacatt acctcgacga gattatcgag cagatttccg agttttcgaa 3840
gcgagtcatc ctggctgatg ccaacttgga caaggtgctc tctgcctaca acaagcatcg 3900
ggacaaaccc attcgagaac aggcggagaa catcattcac ctgtttactc ttaccaacct 3960
gggtgctcct gcagctttca agtacttcga taccactatc gaccgaaagc ggtacacatc 4020
caccaaggag gttctcgatg ccaccctgat tcaccagtcc atcactggcc tgtacgagac 4080
ccgaatcgac ctgtctcagc ttggtggcga ctccagagcc gatcccaaga aaaagcgaaa 4140
ggtctaagcg gccgctaagc ttgggg 4166
<210> 11
<211> 4092
<212> DNA
<213> 人工序列
<220>
<223> pBAD/HisB
<400> 11
aagaaaccaa ttgtccatat tgcatcagac attgccgtca ctgcgtcttt tactggctct 60
tctcgctaac caaaccggta accccgctta ttaaaagcat tctgtaacaa agcgggacca 120
aagccatgac aaaaacgcgt aacaaaagtg tctataatca cggcagaaaa gtccacattg 180
attatttgca cggcgtcaca ctttgctatg ccatagcatt tttatccata agattagcgg 240
atcctacctg acgcttttta tcgcaactct ctactgtttc tccatacccg ttttttgggc 300
taacaggagg aattaaccat ggggggttct catcatcatc atcatcatgg tatggctagc 360
atgactggtg gacagcaaat gggtcgggat ctgtacgacg atgacgataa ggatccgagc 420
tcgagatctg cagctggtac catatgggaa ttcgaagctt ggctgttttg gcggatgaga 480
gaagattttc agcctgatac agattaaatc agaacgcaga agcggtctga taaaacagaa 540
tttgcctggc ggcagtagcg cggtggtccc acctgacccc atgccgaact cagaagtgaa 600
acgccgtagc gccgatggta gtgtggggtc tccccatgcg agagtaggga actgccaggc 660
atcaaataaa acgaaaggct cagtcgaaag actgggcctt tcgttttatc tgttgtttgt 720
cggtgaacgc tctcctgagt aggacaaatc cgccgggagc ggatttgaac gttgcgaagc 780
aacggcccgg agggtggcgg gcaggacgcc cgccataaac tgccaggcat caaattaagc 840
agaaggccat cctgacggat ggcctttttg cgtttctaca aactcttttg tttatttttc 900
taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 960
tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 1020
gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 1080
gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 1140
cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 1200
tgtggcgcgg tattatcccg tgttgacgcc gggcaagagc aactcggtcg ccgcatacac 1260
tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 1320
atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 1380
ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 1440
gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 1500
gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 1560
gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 1620
gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 1680
gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 1740
cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 1800
atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 1860
tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 1920
ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 1980
gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 2040
tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 2100
ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 2160
ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 2220
gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 2280
ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 2340
tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 2400
ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 2460
agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 2520
agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 2580
gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 2640
tggccttttg ctcacatgtt ctttcctgcg ttatcccctg attctgtgga taaccgtatt 2700
accgcctttg agtgagctga taccgctcgc cgcagccgaa cgaccgagcg cagcgagtca 2760
gtgagcgagg aagcggaaga gcgcctgatg cggtattttc tccttacgca tctgtgcggt 2820
atttcacacc gcatatggtg cactctcagt acaatctgct ctgatgccgc atagttaagc 2880
cagtatacac tccgctatcg ctacgtgact gggtcatggc tgcgccccga cacccgccaa 2940
cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 3000
tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 3060
ggcagcagat caattcgcgc gcgaaggcga agcggcatgc ataatgtgcc tgtcaaatgg 3120
acgaagcagg gattctgcaa accctatgct actccgtcaa gccgtcaatt gtctgattcg 3180
ttaccaatta tgacaacttg acggctacat cattcacttt ttcttcacaa ccggcacgga 3240
actcgctcgg gctggccccg gtgcattttt taaatacccg cgagaaatag agttgatcgt 3300
caaaaccaac attgcgaccg acggtggcga taggcatccg ggtggtgctc aaaagcagct 3360
tcgcctggct gatacgttgg tcctcgcgcc agcttaagac gctaatccct aactgctggc 3420
ggaaaagatg tgacagacgc gacggcgaca agcaaacatg ctgtgcgacg ctggcgatat 3480
caaaattgct gtctgccagg tgatcgctga tgtactgaca agcctcgcgt acccgattat 3540
ccatcggtgg atggagcgac tcgttaatcg cttccatgcg ccgcagtaac aattgctcaa 3600
gcagatttat cgccagcagc tccgaatagc gcccttcccc ttgcccggcg ttaatgattt 3660
gcccaaacag gtcgctgaaa tgcggctggt gcgcttcatc cgggcgaaag aaccccgtat 3720
tggcaaatat tgacggccag ttaagccatt catgccagta ggcgcgcgga cgaaagtaaa 3780
cccactggtg ataccattcg cgagcctccg gatgacgacc gtagtgatga atctctcctg 3840
gcgggaacag caaaatatca cccggtcggc aaacaaattc tcgtccctga tttttcacca 3900
ccccctgacc gcgaatggtg agattgagaa tataaccttt cattcccagc ggtcggtcga 3960
taaaaaaatc gagataaccg ttggcctcaa tcggcgttaa acccgccacc agatgggcat 4020
taaacgagta tcccggcagc aggggatcat tttgcgcttc agccatactt ttcatactcc 4080
cgccattcag ag 4092
<210> 12
<211> 8237
<212> DNA
<213> 人工序列
<220>
<223> pRF48
<400> 12
aattcgacaa gaaatactcc atcggcctgg acattggaac caactctgtc ggctgggctg 60
tcatcaccga cgagtacaag gtgccctcca agaaattcaa ggtcctcgga aacaccgatc 120
gacactccat caagaaaaac ctcattggtg ccctgttgtt cgattctggc gagactgccg 180
aagctaccag actcaagcga actgctcggc gacgttacac ccgacggaag aaccgaatct 240
gctacctgca ggagatcttt tccaacgaga tggccaaggt ggacgattcg ttctttcatc 300
gactggagga atccttcctc gtcgaggaag acaagaaaca cgagcgtcat cccatctttg 360
gcaacattgt ggacgaggtt gcttaccacg agaagtatcc taccatctac cacctgcgaa 420
agaaactcgt cgattccacc gacaaggcgg atctcagact tatctacctc gctctggcac 480
acatgatcaa gtttcgaggt catttcctca tcgagggcga tctcaatccc gacaacagcg 540
atgtggacaa gctgttcatt cagctcgttc agacctacaa ccagctgttc gaggaaaacc 600
ccatcaatgc ctccggagtc gatgcaaagg ccatcttgtc tgctcgactc tcgaagagca 660
gacgactgga gaacctcatt gcccaacttc ctggcgagaa aaagaacgga ctgtttggca 720
acctcattgc cctttctctt ggtctcacac ccaacttcaa gtccaacttc gatctggcgg 780
aggacgccaa gctccagctg tccaaggaca cctacgacga tgacctcgac aacctgcttg 840
cacagattgg cgatcagtac gccgacctgt ttctcgctgc caagaacctt tcggatgcta 900
ttctcttgtc tgacattctg cgagtcaaca ccgagatcac aaaggctccc ctttctgcct 960
ccatgatcaa gcgatacgac gagcaccatc aggatctcac actgctcaag gctcttgtcc 1020
gacagcaact gcccgagaag tacaaggaga tctttttcga tcagtcgaag aacggctacg 1080
ctggatacat cgacggcgga gcctctcagg aagagttcta caagttcatc aagccaattc 1140
tcgagaagat ggacggaacc gaggaactgc ttgtcaagct caatcgagag gatctgcttc 1200
ggaagcaacg aaccttcgac aacggcagca ttcctcatca gatccacctc ggtgagctgc 1260
acgccattct tcgacgtcag gaagacttct acccctttct caaggacaac cgagagaaga 1320
tcgagaagat tcttaccttt cgaatcccct actatgttgg tcctcttgcc agaggaaact 1380
ctcgatttgc ttggatgact cgaaagtccg aggaaaccat cactccctgg aacttcgagg 1440
aagtcgtgga caagggtgcc tctgcacagt ccttcatcga gcgaatgacc aacttcgaca 1500
agaatctgcc caacgagaag gttcttccca agcattcgct gctctacgag tactttacag 1560
tctacaacga actcaccaaa gtcaagtacg ttaccgaggg aatgcgaaag cctgccttct 1620
tgtctggcga acagaagaaa gccattgtcg atctcctgtt caagaccaac cgaaaggtca 1680
ctgttaagca gctcaaggag gactacttca agaaaatcga gtgtttcgac agcgtcgaga 1740
tttccggagt tgaggaccga ttcaacgcct ctttgggcac ctatcacgat ctgctcaaga 1800
ttatcaagga caaggatttt ctcgacaacg aggaaaacga ggacattctg gaggacatcg 1860
tgctcactct taccctgttc gaagatcggg agatgatcga ggaacgactc aagacatacg 1920
ctcacctgtt cgacgacaag gtcatgaaac aactcaagcg acgtagatac accggctggg 1980
gaagactttc gcgaaagctc atcaacggca tcagagacaa gcagtccgga aagaccattc 2040
tggactttct caagtccgat ggctttgcca accgaaactt catgcagctc attcacgacg 2100
attctcttac cttcaaggag gacatccaga aggcacaagt gtccggtcag ggcgacagct 2160
tgcacgaaca tattgccaac ctggctggtt cgccagccat caagaaaggc attctccaga 2220
ctgtcaaggt tgtcgacgag ctggtgaagg tcatgggacg tcacaagccc gagaacattg 2280
tgatcgagat ggccagagag aaccagacaa ctcaaaaggg tcagaaaaac tcgcgagagc 2340
ggatgaagcg aatcgaggaa ggcatcaagg agctgggatc ccagattctc aaggagcatc 2400
ccgtcgagaa cactcaactg cagaacgaga agctgtatct ctactatctg cagaatggtc 2460
gagacatgta cgtggatcag gaactggaca tcaatcgtct cagcgactac gatgtggacc 2520
acattgtccc tcaatccttt ctcaaggacg attctatcga caacaaggtc cttacacgat 2580
ccgacaagaa cagaggcaag tcggacaacg ttcccagcga agaggtggtc aaaaagatga 2640
agaactactg gcgacagctg ctcaacgcca agctcattac ccagcgaaag ttcgacaatc 2700
ttaccaaggc cgagcgaggc ggtctgtccg agctcgacaa ggctggcttc atcaagcgtc 2760
aactcgtcga gaccagacag atcacaaagc acgtcgcaca gattctcgat tctcggatga 2820
acaccaagta cgacgagaac gacaagctca tccgagaggt caaggtgatt actctcaagt 2880
ccaaactggt ctccgatttc cgaaaggact ttcagttcta caaggtgcga gagatcaaca 2940
attaccacca tgcccacgat gcttacctca acgccgtcgt tggcactgcg ctcatcaaga 3000
aataccccaa gctcgaaagc gagttcgttt acggcgatta caaggtctac gacgttcgaa 3060
agatgattgc caagtccgaa caggagattg gcaaggctac tgccaagtac ttcttttact 3120
ccaacatcat gaactttttc aagaccgaga tcaccttggc caacggagag attcgaaaga 3180
gaccacttat cgagaccaac ggcgaaactg gagagatcgt gtgggacaag ggtcgagact 3240
ttgcaaccgt gcgaaaggtt ctgtcgatgc ctcaggtcaa catcgtcaag aaaaccgagg 3300
ttcagactgg cggattctcc aaggagtcga ttctgcccaa gcgaaactcc gacaagctca 3360
tcgctcgaaa gaaagactgg gatcccaaga aatacggtgg cttcgattct cctaccgtcg 3420
cctattccgt gcttgtcgtt gcgaaggtcg agaagggcaa gtccaaaaag ctcaagtccg 3480
tcaaggagct gctcggaatt accatcatgg agcgatcgag cttcgagaag aatcccatcg 3540
acttcttgga agccaagggt tacaaggagg tcaagaaaga cctcattatc aagctgccca 3600
agtactctct gttcgaactg gagaacggtc gaaagcgtat gctcgcctcc gctggcgagc 3660
tgcagaaggg aaacgagctt gccttgcctt cgaagtacgt caactttctc tatctggctt 3720
ctcactacga gaagctcaag ggttctcccg aggacaacga acagaagcaa ctcttcgttg 3780
agcagcacaa acattacctc gacgagatta tcgagcagat ttccgagttt tcgaagcgag 3840
tcatcctggc tgatgccaac ttggacaagg tgctctctgc ctacaacaag catcgggaca 3900
aacccattcg agaacaggcg gagaacatca ttcacctgtt tactcttacc aacctgggtg 3960
ctcctgcagc tttcaagtac ttcgatacca ctatcgaccg aaagcggtac acatccacca 4020
aggaggttct cgatgccacc ctgattcacc agtccatcac tggcctgtac gagacccgaa 4080
tcgacctgtc tcagcttggt ggcgactcca gagccgatcc caagaaaaag cgaaaggtct 4140
aagcggccgc taagcttggc tgttttggcg gatgagagaa gattttcagc ctgatacaga 4200
ttaaatcaga acgcagaagc ggtctgataa aacagaattt gcctggcggc agtagcgcgg 4260
tggtcccacc tgaccccatg ccgaactcag aagtgaaacg ccgtagcgcc gatggtagtg 4320
tggggtctcc ccatgcgaga gtagggaact gccaggcatc aaataaaacg aaaggctcag 4380
tcgaaagact gggcctttcg ttttatctgt tgtttgtcgg tgaacgctct cctgagtagg 4440
acaaatccgc cgggagcgga tttgaacgtt gcgaagcaac ggcccggagg gtggcgggca 4500
ggacgcccgc cataaactgc caggcatcaa attaagcaga aggccatcct gacggatggc 4560
ctttttgcgt ttctacaaac tcttttgttt atttttctaa atacattcaa atatgtatcc 4620
gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 4680
tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 4740
tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 4800
gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 4860
acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtgt 4920
tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 4980
gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 5040
tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 5100
accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 5160
ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 5220
agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 5280
gcaacaatta atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 5340
ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg ggtctcgcgg 5400
tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 5460
ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 5520
gattaagcat tggtaactgt cagaccaagt ttactcatat atactttaga ttgatttaaa 5580
acttcatttt taatttaaaa ggatctaggt gaagatcctt tttgataatc tcatgaccaa 5640
aatcccttaa cgtgagtttt cgttccactg agcgtcagac cccgtagaaa agatcaaagg 5700
atcttcttga gatccttttt ttctgcgcgt aatctgctgc ttgcaaacaa aaaaaccacc 5760
gctaccagcg gtggtttgtt tgccggatca agagctacca actctttttc cgaaggtaac 5820
tggcttcagc agagcgcaga taccaaatac tgtccttcta gtgtagccgt agttaggcca 5880
ccacttcaag aactctgtag caccgcctac atacctcgct ctgctaatcc tgttaccagt 5940
ggctgctgcc agtggcgata agtcgtgtct taccgggttg gactcaagac gatagttacc 6000
ggataaggcg cagcggtcgg gctgaacggg gggttcgtgc acacagccca gcttggagcg 6060
aacgacctac accgaactga gatacctaca gcgtgagcta tgagaaagcg ccacgcttcc 6120
cgaagggaga aaggcggaca ggtatccggt aagcggcagg gtcggaacag gagagcgcac 6180
gagggagctt ccagggggaa acgcctggta tctttatagt cctgtcgggt ttcgccacct 6240
ctgacttgag cgtcgatttt tgtgatgctc gtcagggggg cggagcctat ggaaaaacgc 6300
cagcaacgcg gcctttttac ggttcctggc cttttgctgg ccttttgctc acatgttctt 6360
tcctgcgtta tcccctgatt ctgtggataa ccgtattacc gcctttgagt gagctgatac 6420
cgctcgccgc agccgaacga ccgagcgcag cgagtcagtg agcgaggaag cggaagagcg 6480
cctgatgcgg tattttctcc ttacgcatct gtgcggtatt tcacaccgca tatggtgcac 6540
tctcagtaca atctgctctg atgccgcata gttaagccag tatacactcc gctatcgcta 6600
cgtgactggg tcatggctgc gccccgacac ccgccaacac ccgctgacgc gccctgacgg 6660
gcttgtctgc tcccggcatc cgcttacaga caagctgtga ccgtctccgg gagctgcatg 6720
tgtcagaggt tttcaccgtc atcaccgaaa cgcgcgaggc agcagatcaa ttcgcgcgcg 6780
aaggcgaagc ggcatgcata atgtgcctgt caaatggacg aagcagggat tctgcaaacc 6840
ctatgctact ccgtcaagcc gtcaattgtc tgattcgtta ccaattatga caacttgacg 6900
gctacatcat tcactttttc ttcacaaccg gcacggaact cgctcgggct ggccccggtg 6960
cattttttaa atacccgcga gaaatagagt tgatcgtcaa aaccaacatt gcgaccgacg 7020
gtggcgatag gcatccgggt ggtgctcaaa agcagcttcg cctggctgat acgttggtcc 7080
tcgcgccagc ttaagacgct aatccctaac tgctggcgga aaagatgtga cagacgcgac 7140
ggcgacaagc aaacatgctg tgcgacgctg gcgatatcaa aattgctgtc tgccaggtga 7200
tcgctgatgt actgacaagc ctcgcgtacc cgattatcca tcggtggatg gagcgactcg 7260
ttaatcgctt ccatgcgccg cagtaacaat tgctcaagca gatttatcgc cagcagctcc 7320
gaatagcgcc cttccccttg cccggcgtta atgatttgcc caaacaggtc gctgaaatgc 7380
ggctggtgcg cttcatccgg gcgaaagaac cccgtattgg caaatattga cggccagtta 7440
agccattcat gccagtaggc gcgcggacga aagtaaaccc actggtgata ccattcgcga 7500
gcctccggat gacgaccgta gtgatgaatc tctcctggcg ggaacagcaa aatatcaccc 7560
ggtcggcaaa caaattctcg tccctgattt ttcaccaccc cctgaccgcg aatggtgaga 7620
ttgagaatat aacctttcat tcccagcggt cggtcgataa aaaaatcgag ataaccgttg 7680
gcctcaatcg gcgttaaacc cgccaccaga tgggcattaa acgagtatcc cggcagcagg 7740
ggatcatttt gcgcttcagc catacttttc atactcccgc cattcagaga agaaaccaat 7800
tgtccatatt gcatcagaca ttgccgtcac tgcgtctttt actggctctt ctcgctaacc 7860
aaaccggtaa ccccgcttat taaaagcatt ctgtaacaaa gcgggaccaa agccatgaca 7920
aaaacgcgta acaaaagtgt ctataatcac ggcagaaaag tccacattga ttatttgcac 7980
ggcgtcacac tttgctatgc catagcattt ttatccataa gattagcgga tcctacctga 8040
cgctttttat cgcaactctc tactgtttct ccatacccgt tttttgggct aacaggagga 8100
attaaccatg gggggttctc atcatcatca tcatcatggt atggctagca tgactggtgg 8160
acagcaaatg ggtcgggatc tgtacgacga tgacgataag gatccgagct cgagatctgc 8220
agctggtacc atatggg 8237
<210> 13
<211> 23
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(23)
<223> GalK-1靶位点
<400> 13
atcagcggca atgtgccgca ggg 23
<210> 14
<211> 23
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(23)
<223> GalK-2靶位点
<400> 14
atgaccggcg gcggatttgg cgg 23
<210> 15
<211> 23
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(23)
<223> GalK-3靶位点
<400> 15
atagttttca tgtgcgacaa tgg 23
<210> 16
<211> 23
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(23)
<223> GalK-4靶位点
<400> 16
atgatctttc ttgccgagcg cgg 23
<210> 17
<211> 80
<212> DNA
<213> 化脓性链球菌
<400> 17
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtgctttt 80
<210> 18
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> GalK-1 sgRNA模板
<400> 18
atcagcggca atgtgccgca gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 19
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> GalK-2 sgRNA模板
<400> 19
atgaccggcg gcggatttgg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 20
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> GalK-3 sgRNA模板
<400> 20
atagttttca tgtgcgacaa gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 21
<211> 100
<212> DNA
<213> 人工序列
<220>
<223> GalK-4 sgRNA模板
<400> 21
atgatctttc ttgccgagcg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 100
<210> 22
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> GalK-1 sgRNA
<400> 22
aucagcggca augugccgca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 23
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> GalK-2 sgRNA
<400> 23
augaccggcg gcggauuugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 24
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> GalK-3 sgRNA
<400> 24
auaguuuuca ugugcgacaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 25
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> GalK-4 sgRNA
<400> 25
augaucuuuc uugccgagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 26
<211> 52
<212> DNA
<213> 细菌噬菌体λ
<400> 26
ggttatctct ggcggtgttg acataaatac cactggcggt gatactgagc ac 52
<210> 27
<211> 43
<212> DNA
<213> 细菌噬菌体λ
<400> 27
gttaataaca ggcctgctgg taatcgcagg cctttttatt ttt 43
<210> 28
<211> 212
<212> DNA
<213> 人工序列
<220>
<223> GalK-1 sgRNA表达盒
<400> 28
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catcagcggc aatgtgccgc agttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 29
<211> 212
<212> DNA
<213> 人工序列
<220>
<223> GalK-2 sgRNA表达盒
<400> 29
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catgaccggc ggcggatttg ggttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 30
<211> 212
<212> DNA
<213> 人工序列
<220>
<223> GalK-3 sgRNA表达盒
<400> 30
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catagttttc atgtgcgaca agttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 31
<211> 212
<212> DNA
<213> 人工序列
<220>
<223> GalK-4 sgRNA表达盒
<400> 31
gggaagcttg gttatctctg gcggtgttga cataaatacc actggcggtg atactgagca 60
catgatcttt cttgccgagc ggttttagag ctagaaatag caagttaaaa taaggctagt 120
ccgttatcaa cttgaaaaag tggcaccgag tcggtggtgc gttaataaca ggcctgctgg 180
taatcgcagg cctttttatt tttggatccg gg 212
<210> 32
<211> 4245
<212> DNA
<213> 人工序列
<220>
<223> pACYC184
<400> 32
gaattccgga tgagcattca tcaggcgggc aagaatgtga ataaaggccg gataaaactt 60
gtgcttattt ttctttacgg tctttaaaaa ggccgtaata tccagctgaa cggtctggtt 120
ataggtacat tgagcaactg actgaaatgc ctcaaaatgt tctttacgat gccattggga 180
tatatcaacg gtggtatatc cagtgatttt tttctccatt ttagcttcct tagctcctga 240
aaatctcgat aactcaaaaa atacgcccgg tagtgatctt atttcattat ggtgaaagtt 300
ggaacctctt acgtgccgat caacgtctca ttttcgccaa aagttggccc agggcttccc 360
ggtatcaaca gggacaccag gatttattta ttctgcgaag tgatcttccg tcacaggtat 420
ttattcggcg caaagtgcgt cgggtgatgc tgccaactta ctgatttagt gtatgatggt 480
gtttttgagg tgctccagtg gcttctgttt ctatcagctg tccctcctgt tcagctactg 540
acggggtggt gcgtaacggc aaaagcaccg ccggacatca gcgctagcgg agtgtatact 600
ggcttactat gttggcactg atgagggtgt cagtgaagtg cttcatgtgg caggagaaaa 660
aaggctgcac cggtgcgtca gcagaatatg tgatacagga tatattccgc ttcctcgctc 720
actgactcgc tacgctcggt cgttcgactg cggcgagcgg aaatggctta cgaacggggc 780
ggagatttcc tggaagatgc caggaagata cttaacaggg aagtgagagg gccgcggcaa 840
agccgttttt ccataggctc cgcccccctg acaagcatca cgaaatctga cgctcaaatc 900
agtggtggcg aaacccgaca ggactataaa gataccaggc gtttccccct ggcggctccc 960
tcgtgcgctc tcctgttcct gcctttcggt ttaccggtgt cattccgctg ttatggccgc 1020
gtttgtctca ttccacgcct gacactcagt tccgggtagg cagttcgctc caagctggac 1080
tgtatgcacg aaccccccgt tcagtccgac cgctgcgcct tatccggtaa ctatcgtctt 1140
gagtccaacc cggaaagaca tgcaaaagca ccactggcag cagccactgg taattgattt 1200
agaggagtta gtcttgaagt catgcgccgg ttaaggctaa actgaaagga caagttttgg 1260
tgactgcgct cctccaagcc agttacctcg gttcaaagag ttggtagctc agagaacctt 1320
cgaaaaaccg ccctgcaagg cggttttttc gttttcagag caagagatta cgcgcagacc 1380
aaaacgatct caagaagatc atcttattaa tcagataaaa tatttctaga tttcagtgca 1440
atttatctct tcaaatgtag cacctgaagt cagccccata cgatataagt tgtaattctc 1500
atgtttgaca gcttatcatc gataagcttt aatgcggtag tttatcacag ttaaattgct 1560
aacgcagtca ggcaccgtgt atgaaatcta acaatgcgct catcgtcatc ctcggcaccg 1620
tcaccctgga tgctgtaggc ataggcttgg ttatgccggt actgccgggc ctcttgcggg 1680
atatcgtcca ttccgacagc atcgccagtc actatggcgt gctgctagcg ctatatgcgt 1740
tgatgcaatt tctatgcgca cccgttctcg gagcactgtc cgaccgcttt ggccgccgcc 1800
cagtcctgct cgcttcgcta cttggagcca ctatcgacta cgcgatcatg gcgaccacac 1860
ccgtcctgtg gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg 1920
cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg 1980
ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt 2040
tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc 2100
tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct 2160
tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg 2220
cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg 2280
tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg 2340
tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt 2400
tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc 2460
tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg 2520
gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg 2580
gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga 2640
tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag 2700
gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca 2760
cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg 2820
agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc 2880
catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg 2940
gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg 3000
ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg 3060
caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag 3120
tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc 3180
aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta 3240
ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat 3300
gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc 3360
ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc 3420
gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac 3480
acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa 3540
atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca 3600
tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag 3660
acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg 3720
aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg 3780
gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg 3840
taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat 3900
cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg 3960
ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg 4020
attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc 4080
accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta 4140
ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg 4200
aacactatcc catatcacca gctcaccgtc tttcattgcc atacg 4245
<210> 33
<211> 4099
<212> DNA
<213> 人工序列
<220>
<223> pRF50
<400> 33
gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60
cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120
cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180
ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240
ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300
caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360
tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420
cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480
cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540
gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600
gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660
gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720
aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780
gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840
ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900
aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960
ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020
gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080
cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140
tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200
gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260
cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320
accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380
caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440
gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500
aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560
attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620
gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680
cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740
acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800
ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860
attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920
ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980
agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040
atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100
ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160
acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220
gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280
agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340
catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400
cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460
aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520
aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580
atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640
cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700
tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760
atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820
gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880
tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940
caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000
ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060
atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120
gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180
agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240
ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300
ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360
tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420
tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540
aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600
gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660
cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720
ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780
attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840
gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900
gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatca 3960
gcggcaatgt gccgcagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020
atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080
gcaggccttt ttatttttg 4099
<210> 34
<211> 4099
<212> DNA
<213> 人工序列
<220>
<223> pRF51
<400> 34
agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60
accggcggcg gatttgggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120
tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180
cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240
gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300
cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360
gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420
ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480
ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540
atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600
gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660
tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720
accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780
tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840
gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900
gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960
ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020
tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080
agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140
caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200
agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260
ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320
ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380
actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440
tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500
gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560
tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620
cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680
gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740
cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800
cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860
ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920
gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980
ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040
tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100
gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160
agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220
gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280
tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340
tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400
ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460
cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520
aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580
ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640
tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700
tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760
caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820
tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880
ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940
caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000
cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060
tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120
gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180
actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240
tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300
ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360
tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420
tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480
tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540
cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600
tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660
gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720
caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780
agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840
gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900
aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960
gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020
tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080
tgacagctta tcatcgata 4099
<210> 35
<211> 4099
<212> DNA
<213> 人工序列
<220>
<223> pRF53
<400> 35
gatcctctac gccggacgca tcgtggccgg catcaccggc gccacaggtg cggttgctgg 60
cgcctatatc gccgacatca ccgatgggga agatcgggct cgccacttcg ggctcatgag 120
cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc gggggactgt tgggcgccat 180
ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac ggcctcaacc tactactggg 240
ctgcttccta atgcaggagt cgcataaggg agagcgtcga ccgatgccct tgagagcctt 300
caacccagtc agctccttcc ggtgggcgcg gggcatgact atcgtcgccg cacttatgac 360
tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca gcgctctggg tcattttcgg 420
cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg tcgcttgcgg tattcggaat 480
cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc accaaacgtt tcggcgagaa 540
gcaggccatt atcgccggca tggcggccga cgcgctgggc tacgtcttgc tggcgttcgc 600
gacgcgaggc tggatggcct tccccattat gattcttctc gcttccggcg gcatcgggat 660
gcccgcgttg caggccatgc tgtccaggca ggtagatgac gaccatcagg gacagcttca 720
aggatcgctc gcggctctta ccagcctaac ttcgatcact ggaccgctga tcgtcacggc 780
gatttatgcc gcctcggcga gcacatggaa cgggttggca tggattgtag gcgccgccct 840
ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg agccgggcca cctcgacctg 900
aatggaagcc ggcggcacct cgctaacgga ttcaccactc caagaattgg agccaatcaa 960
ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc agaacatatc catcgcgtcc 1020
gccatctcca gcagccgcac gcggcgcatc tcgggcagcg ttgggtcctg gccacgggtg 1080
cgcatgatcg tgctcctgtc gttgaggacc cggctaggct ggcggggttg ccttactggt 1140
tagcagaatg aatcaccgat acgcgagcga acgtgaagcg actgctgctg caaaacgtct 1200
gcgacctgag caacaacatg aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg 1260
cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga gagtggaacc aaccggtgat 1320
accacgatac tatgactgag agtcaacgcc atgagcggcc tcatttctta ttctgagtta 1380
caacagtccg caccgctgtc cggtagctcc ttccggtggg cgcggggcat gactatcgtc 1440
gccgcactta tgactgtctt ctttatcatg caactcgtag gacaggtgcc ggcagcgccc 1500
aacagtcccc cggccacggg gcctgccacc atacccacgc cgaaacaagc gccctgcacc 1560
attatgttcc ggatctgcat cgcaggatgc tgctggctac cctgtggaac acctacatct 1620
gtattaacga agcgctaacc gtttttatca ggctctggga ggcagaataa atgatcatat 1680
cgtcaattat tacctccacg gggagagcct gagcaaactg gcctcaggca tttgagaagc 1740
acacggtcac actgcttccg gtagtcaata aaccggtaaa ccagcaatag acataagcgg 1800
ctatttaacg accctgccct gaaccgacga ccgggtcgaa tttgctttcg aatttctgcc 1860
attcatccgc ttattatcac ttattcaggc gtagcaccag gcgtttaagg gcaccaataa 1920
ctgccttaaa aaaattacgc cccgccctgc cactcatcgc agtactgttg taattcatta 1980
agcattctgc cgacatggaa gccatcacag acggcatgat gaacctgaat cgccagcggc 2040
atcagcacct tgtcgccttg cgtataatat ttgcccatgg tgaaaacggg ggcgaagaag 2100
ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac tcacccaggg attggctgag 2160
acgaaaaaca tattctcaat aaacccttta gggaaatagg ccaggttttc accgtaacac 2220
gccacatctt gcgaatatat gtgtagaaac tgccggaaat cgtcgtggta ttcactccag 2280
agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt aacaagggtg aacactatcc 2340
catatcacca gctcaccgtc tttcattgcc atacggaatt ccggatgagc attcatcagg 2400
cgggcaagaa tgtgaataaa ggccggataa aacttgtgct tatttttctt tacggtcttt 2460
aaaaaggccg taatatccag ctgaacggtc tggttatagg tacattgagc aactgactga 2520
aatgcctcaa aatgttcttt acgatgccat tgggatatat caacggtggt atatccagtg 2580
atttttttct ccattttagc ttccttagct cctgaaaatc tcgataactc aaaaaatacg 2640
cccggtagtg atcttatttc attatggtga aagttggaac ctcttacgtg ccgatcaacg 2700
tctcattttc gccaaaagtt ggcccagggc ttcccggtat caacagggac accaggattt 2760
atttattctg cgaagtgatc ttccgtcaca ggtatttatt cggcgcaaag tgcgtcgggt 2820
gatgctgcca acttactgat ttagtgtatg atggtgtttt tgaggtgctc cagtggcttc 2880
tgtttctatc agctgtccct cctgttcagc tactgacggg gtggtgcgta acggcaaaag 2940
caccgccgga catcagcgct agcggagtgt atactggctt actatgttgg cactgatgag 3000
ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc tgcaccggtg cgtcagcaga 3060
atatgtgata caggatatat tccgcttcct cgctcactga ctcgctacgc tcggtcgttc 3120
gactgcggcg agcggaaatg gcttacgaac ggggcggaga tttcctggaa gatgccagga 3180
agatacttaa cagggaagtg agagggccgc ggcaaagccg tttttccata ggctccgccc 3240
ccctgacaag catcacgaaa tctgacgctc aaatcagtgg tggcgaaacc cgacaggact 3300
ataaagatac caggcgtttc cccctggcgg ctccctcgtg cgctctcctg ttcctgcctt 3360
tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg tctcattcca cgcctgacac 3420
tcagttccgg gtaggcagtt cgctccaagc tggactgtat gcacgaaccc cccgttcagt 3480
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggaa agacatgcaa 3540
aagcaccact ggcagcagcc actggtaatt gatttagagg agttagtctt gaagtcatgc 3600
gccggttaag gctaaactga aaggacaagt tttggtgact gcgctcctcc aagccagtta 3660
cctcggttca aagagttggt agctcagaga accttcgaaa aaccgccctg caaggcggtt 3720
ttttcgtttt cagagcaaga gattacgcgc agaccaaaac gatctcaaga agatcatctt 3780
attaatcaga taaaatattt ctagatttca gtgcaattta tctcttcaaa tgtagcacct 3840
gaagtcagcc ccatacgata taagttgtaa ttctcatgtt tgacagctta tcatcgataa 3900
gcttggttat ctctggcggt gttgacataa ataccactgg cggtgatact gagcacatag 3960
ttttcatgtg cgacaagttt tagagctaga aatagcaagt taaaataagg ctagtccgtt 4020
atcaacttga aaaagtggca ccgagtcggt ggtgcgttaa taacaggcct gctggtaatc 4080
gcaggccttt ttatttttg 4099
<210> 36
<211> 4099
<212> DNA
<213> 人工序列
<220>
<223> pRF55
<400> 36
agcttggtta tctctggcgg tgttgacata aataccactg gcggtgatac tgagcacatg 60
atctttcttg ccgagcggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 120
tatcaacttg aaaaagtggc accgagtcgg tggtgcgtta ataacaggcc tgctggtaat 180
cgcaggcctt tttatttttg gatcctctac gccggacgca tcgtggccgg catcaccggc 240
gccacaggtg cggttgctgg cgcctatatc gccgacatca ccgatgggga agatcgggct 300
cgccacttcg ggctcatgag cgcttgtttc ggcgtgggta tggtggcagg ccccgtggcc 360
gggggactgt tgggcgccat ctccttgcat gcaccattcc ttgcggcggc ggtgctcaac 420
ggcctcaacc tactactggg ctgcttccta atgcaggagt cgcataaggg agagcgtcga 480
ccgatgccct tgagagcctt caacccagtc agctccttcc ggtgggcgcg gggcatgact 540
atcgtcgccg cacttatgac tgtcttcttt atcatgcaac tcgtaggaca ggtgccggca 600
gcgctctggg tcattttcgg cgaggaccgc tttcgctgga gcgcgacgat gatcggcctg 660
tcgcttgcgg tattcggaat cttgcacgcc ctcgctcaag ccttcgtcac tggtcccgcc 720
accaaacgtt tcggcgagaa gcaggccatt atcgccggca tggcggccga cgcgctgggc 780
tacgtcttgc tggcgttcgc gacgcgaggc tggatggcct tccccattat gattcttctc 840
gcttccggcg gcatcgggat gcccgcgttg caggccatgc tgtccaggca ggtagatgac 900
gaccatcagg gacagcttca aggatcgctc gcggctctta ccagcctaac ttcgatcact 960
ggaccgctga tcgtcacggc gatttatgcc gcctcggcga gcacatggaa cgggttggca 1020
tggattgtag gcgccgccct ataccttgtc tgcctccccg cgttgcgtcg cggtgcatgg 1080
agccgggcca cctcgacctg aatggaagcc ggcggcacct cgctaacgga ttcaccactc 1140
caagaattgg agccaatcaa ttcttgcgga gaactgtgaa tgcgcaaacc aacccttggc 1200
agaacatatc catcgcgtcc gccatctcca gcagccgcac gcggcgcatc tcgggcagcg 1260
ttgggtcctg gccacgggtg cgcatgatcg tgctcctgtc gttgaggacc cggctaggct 1320
ggcggggttg ccttactggt tagcagaatg aatcaccgat acgcgagcga acgtgaagcg 1380
actgctgctg caaaacgtct gcgacctgag caacaacatg aatggtcttc ggtttccgtg 1440
tttcgtaaag tctggaaacg cggaagtccc ctacgtgctg ctgaagttgc ccgcaacaga 1500
gagtggaacc aaccggtgat accacgatac tatgactgag agtcaacgcc atgagcggcc 1560
tcatttctta ttctgagtta caacagtccg caccgctgtc cggtagctcc ttccggtggg 1620
cgcggggcat gactatcgtc gccgcactta tgactgtctt ctttatcatg caactcgtag 1680
gacaggtgcc ggcagcgccc aacagtcccc cggccacggg gcctgccacc atacccacgc 1740
cgaaacaagc gccctgcacc attatgttcc ggatctgcat cgcaggatgc tgctggctac 1800
cctgtggaac acctacatct gtattaacga agcgctaacc gtttttatca ggctctggga 1860
ggcagaataa atgatcatat cgtcaattat tacctccacg gggagagcct gagcaaactg 1920
gcctcaggca tttgagaagc acacggtcac actgcttccg gtagtcaata aaccggtaaa 1980
ccagcaatag acataagcgg ctatttaacg accctgccct gaaccgacga ccgggtcgaa 2040
tttgctttcg aatttctgcc attcatccgc ttattatcac ttattcaggc gtagcaccag 2100
gcgtttaagg gcaccaataa ctgccttaaa aaaattacgc cccgccctgc cactcatcgc 2160
agtactgttg taattcatta agcattctgc cgacatggaa gccatcacag acggcatgat 2220
gaacctgaat cgccagcggc atcagcacct tgtcgccttg cgtataatat ttgcccatgg 2280
tgaaaacggg ggcgaagaag ttgtccatat tggccacgtt taaatcaaaa ctggtgaaac 2340
tcacccaggg attggctgag acgaaaaaca tattctcaat aaacccttta gggaaatagg 2400
ccaggttttc accgtaacac gccacatctt gcgaatatat gtgtagaaac tgccggaaat 2460
cgtcgtggta ttcactccag agcgatgaaa acgtttcagt ttgctcatgg aaaacggtgt 2520
aacaagggtg aacactatcc catatcacca gctcaccgtc tttcattgcc atacggaatt 2580
ccggatgagc attcatcagg cgggcaagaa tgtgaataaa ggccggataa aacttgtgct 2640
tatttttctt tacggtcttt aaaaaggccg taatatccag ctgaacggtc tggttatagg 2700
tacattgagc aactgactga aatgcctcaa aatgttcttt acgatgccat tgggatatat 2760
caacggtggt atatccagtg atttttttct ccattttagc ttccttagct cctgaaaatc 2820
tcgataactc aaaaaatacg cccggtagtg atcttatttc attatggtga aagttggaac 2880
ctcttacgtg ccgatcaacg tctcattttc gccaaaagtt ggcccagggc ttcccggtat 2940
caacagggac accaggattt atttattctg cgaagtgatc ttccgtcaca ggtatttatt 3000
cggcgcaaag tgcgtcgggt gatgctgcca acttactgat ttagtgtatg atggtgtttt 3060
tgaggtgctc cagtggcttc tgtttctatc agctgtccct cctgttcagc tactgacggg 3120
gtggtgcgta acggcaaaag caccgccgga catcagcgct agcggagtgt atactggctt 3180
actatgttgg cactgatgag ggtgtcagtg aagtgcttca tgtggcagga gaaaaaaggc 3240
tgcaccggtg cgtcagcaga atatgtgata caggatatat tccgcttcct cgctcactga 3300
ctcgctacgc tcggtcgttc gactgcggcg agcggaaatg gcttacgaac ggggcggaga 3360
tttcctggaa gatgccagga agatacttaa cagggaagtg agagggccgc ggcaaagccg 3420
tttttccata ggctccgccc ccctgacaag catcacgaaa tctgacgctc aaatcagtgg 3480
tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggcgg ctccctcgtg 3540
cgctctcctg ttcctgcctt tcggtttacc ggtgtcattc cgctgttatg gccgcgtttg 3600
tctcattcca cgcctgacac tcagttccgg gtaggcagtt cgctccaagc tggactgtat 3660
gcacgaaccc cccgttcagt ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 3720
caacccggaa agacatgcaa aagcaccact ggcagcagcc actggtaatt gatttagagg 3780
agttagtctt gaagtcatgc gccggttaag gctaaactga aaggacaagt tttggtgact 3840
gcgctcctcc aagccagtta cctcggttca aagagttggt agctcagaga accttcgaaa 3900
aaccgccctg caaggcggtt ttttcgtttt cagagcaaga gattacgcgc agaccaaaac 3960
gatctcaaga agatcatctt attaatcaga taaaatattt ctagatttca gtgcaattta 4020
tctcttcaaa tgtagcacct gaagtcagcc ccatacgata taagttgtaa ttctcatgtt 4080
tgacagctta tcatcgata 4099
<210> 37
<211> 454
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(454)
<223> 454bp 5' galK
<400> 37
ggattatgtt cagcgcgagc tggcagacgg tagccgtacc gttgtcgaaa ccgaacactg 60
gttagccgtc gtgccttact gggctgcctg gccgttcgaa acgctactgc tgcccaaagc 120
ccacgtttta cggatcaccg atttgaccga cgcccagcgc agcgatctgg cgctggcgtt 180
gaaaaagctg accagtcgtt atgacaacct cttccagtgc tccttcccct actctatggg 240
ctggcacggc gcgccattta atggcgaaga gaatcaacac tggcagctgc acgcgcactt 300
ttatccgcct ctgctgcgct ccgccaccgt acgtaaattt atggttggtt atgaaatgct 360
ggcagagacc cagcgagacc tgaccgcaga acaggcagca gagcgtttgc gcgcagtcag 420
cgatatccat tttcgcgaat ccggagtgta agaa 454
<210> 38
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> 5'正向引物
<400> 38
gggaagcttg gattatgttc agcgcgagc 29
<210> 39
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 5'反向引物
<400> 39
tgccagtgcg ggagtttcgt ttcttacact ccggattcgc 40
<210> 40
<211> 483
<212> DNA
<213> 人工序列
<220>
<223> 上游重叠延伸产物
<400> 40
gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60
cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120
gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180
gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240
ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300
cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360
tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420
cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480
gca 483
<210> 41
<211> 376
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(376)
<223> 376bp 3' galK
<400> 41
acgaaactcc cgcactggca cccgatggtc agccgtaccg actgttaact ttgcgtaaca 60
acgcagggat ggtagtcacg ctgatggact ggggtgcgac tttactttcc gcccgtattc 120
cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc 180
aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta tgccaaccgt atcgccaata 240
gccgttatac ctttgacggt gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc 300
tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca gattgtgaac cagaacgatc 360
gtcaggtgct gtttgc 376
<210> 42
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 3'正向引物
<400> 42
gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 40
<210> 43
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 3'反向引物
<400> 43
gggaagcttg caaacagcac ctgacgatcg 30
<210> 44
<211> 405
<212> DNA
<213> 人工序列
<220>
<223> 下游重叠延伸产物
<400> 44
gcgaatccgg agtgtaagaa acgaaactcc cgcactggca cccgatggtc agccgtaccg 60
actgttaact ttgcgtaaca acgcagggat ggtagtcacg ctgatggact ggggtgcgac 120
tttactttcc gcccgtattc cgctttccga tggcagcgtc cgcgaggcgc tgctcggctg 180
tgccagcccg gaatgctatc aggatcaggc cgcgtttctg ggggcctcta ttggtcgtta 240
tgccaaccgt atcgccaata gccgttatac ctttgacggt gaaaccgtga cgctttcgcc 300
aagtcagggc gttaaccagc tgcacggcgg gccggaaggg ttcgacaaac gtcgctggca 360
gattgtgaac cagaacgatc gtcaggtgct gtttgcaagc ttccc 405
<210> 45
<211> 848
<212> DNA
<213> 人工序列
<220>
<223> galK缺失多核苷酸修饰模板
<400> 45
gggaagcttg gattatgttc agcgcgagct ggcagacggt agccgtaccg ttgtcgaaac 60
cgaacactgg ttagccgtcg tgccttactg ggctgcctgg ccgttcgaaa cgctactgct 120
gcccaaagcc cacgttttac ggatcaccga tttgaccgac gcccagcgca gcgatctggc 180
gctggcgttg aaaaagctga ccagtcgtta tgacaacctc ttccagtgct ccttccccta 240
ctctatgggc tggcacggcg cgccatttaa tggcgaagag aatcaacact ggcagctgca 300
cgcgcacttt tatccgcctc tgctgcgctc cgccaccgta cgtaaattta tggttggtta 360
tgaaatgctg gcagagaccc agcgagacct gaccgcagaa caggcagcag agcgtttgcg 420
cgcagtcagc gatatccatt ttcgcgaatc cggagtgtaa gaaacgaaac tcccgcactg 480
gcacccgatg gtcagccgta ccgactgtta actttgcgta acaacgcagg gatggtagtc 540
acgctgatgg actggggtgc gactttactt tccgcccgta ttccgctttc cgatggcagc 600
gtccgcgagg cgctgctcgg ctgtgccagc ccggaatgct atcaggatca ggccgcgttt 660
ctgggggcct ctattggtcg ttatgccaac cgtatcgcca atagccgtta tacctttgac 720
ggtgaaaccg tgacgctttc gccaagtcag ggcgttaacc agctgcacgg cgggccggaa 780
gggttcgaca aacgtcgctg gcagattgtg aaccagaacg atcgtcaggt gctgtttgca 840
agcttccc 848
<210> 46
<211> 2804
<212> DNA
<213> 人工序列
<220>
<223> pKD3
<400> 46
agattgcagc attacacgtc ttgagcgatt gtgtaggctg gagctgcttc gaagttccta 60
tactttctag agaataggaa cttcggaata ggaacttcat ttaaatggcg cgccttacgc 120
cccgccctgc cactcatcgc agtactgttg tattcattaa gcatctgccg acatggaagc 180
catcacaaac ggcatgatga acctgaatcg ccagcggcat cagcaccttg tcgccttgcg 240
tataatattt gcccatggtg aaaacggggg cgaagaagtt gtccatattg gccacgttta 300
aatcaaaact ggtgaaactc acccagggat tggctgagac gaaaaacata ttctcaataa 360
accctttagg gaaataggcc aggttttcac cgtaacacgc cacatcttgc gaatatatgt 420
gtagaaactg ccggaaatcg tcgtggtatt cactccagag cgatgaaaac gtttcagttt 480
gctcatggaa aacggtgtaa caagggtgaa cactatccca tatcaccagc tcaccgtctt 540
tcattgccat acgtaattcc ggatgagcat tcatcaggcg ggcaagaatg tgaataaagg 600
ccggataaaa cttgtgctta tttttcttta cggtctttaa aaaggccgta atatccagct 660
gaacggtctg gttataggta cattgagcaa ctgactgaaa tgcctcaaaa tgttctttac 720
gatgccattg ggatatatca acggtggtat atccagtgat ttttttctcc attttagctt 780
ccttagctcc tgaaaatctc gacaactcaa aaaatacgcc cggtagtgat cttatttcat 840
tatggtgaaa gttggaacct cttacgtgcc gatcaacgtc tcattttcgc caaaagttgg 900
cccagggctt cccggtatca acagggacac caggatttat ttattctgcg aagtgatctt 960
ccgtcacagg taggcgcgcc gaagttccta tactttctag agaataggaa cttcggaata 1020
ggaactaagg aggatattca tatggaccat ggctaattcc catgtcagcc gttaagtgtt 1080
cctgtgtcac tgaaaattgc tttgagaggc tctaagggct tctcagtgcg ttacatccct 1140
ggcttgttgt ccacaaccgt taaaccttaa aagctttaaa agccttatat attctttttt 1200
ttcttataaa acttaaaacc ttagaggcta tttaagttgc tgatttatat taattttatt 1260
gttcaaacat gagagcttag tacgtgaaac atgagagctt agtacgttag ccatgagagc 1320
ttagtacgtt agccatgagg gtttagttcg ttaaacatga gagcttagta cgttaaacat 1380
gagagcttag tacgtgaaac atgagagctt agtacgtact atcaacaggt tgaactgcgg 1440
atcttgcggc cgcaaaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta 1500
aacttggtct gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct 1560
atttcgttca tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg 1620
cttaccatct ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga 1680
tttatcagca ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt 1740
atccgcctcc atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt 1800
taatagtttg cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt 1860
tggtatggct tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat 1920
gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc 1980
cgcagtgtta tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc 2040
cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat 2100
gcggcgaccg agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag 2160
aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt 2220
accgctgttg agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc 2280
ttttactttc accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa 2340
gggaataagg gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg 2400
aagcatttat cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa 2460
taaacaaata ggggttccgc gcacatttcc ccgaaaagtg ccacctgcat cgatggcccc 2520
ccgatggtag tgtggggtct ccccatgcga gagtagggaa ctgccaggca tcaaataaaa 2580
cgaaaggctc agtcgaaaga ctgggccttt cgttttatct gttgtttgtc ggtgaacgct 2640
ctcctgagta ggacaaatcc gccgggagcg gatttgaacg ttgcgaagca acggcccgga 2700
gggtggcggg caggacgccc gccataaact gccaggcatc aaattaagca gaaggccatc 2760
ctgacggatg gcctttttgc gtggccagtg ccaagcttgc atgc 2804
<210> 47
<211> 2458
<212> DNA
<213> 人工序列
<220>
<223> pRF113
<400> 47
agctttaaaa gccttatata ttcttttttt tcttataaaa cttaaaacct tagaggctat 60
ttaagttgct gatttatatt aattttattg ttcaaacatg agagcttagt acgtgaaaca 120
tgagagctta gtacgttagc catgagagct tagtacgtta gccatgaggg tttagttcgt 180
taaacatgag agcttagtac gttaaacatg agagcttagt acgtgaaaca tgagagctta 240
gtacgtacta tcaacaggtt gaactgcgga tcttgcggcc gcaaaaatta aaaatgaagt 300
tttaaatcaa tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc 360
agtgaggcac ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc 420
gtcgtgtaga taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata 480
ccgcgagacc cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg 540
gccgagcgca gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc 600
cgggaagcta gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct 660
acaggcatcg tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa 720
cgatcaaggc gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt 780
cctccgatcg ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca 840
ctgcataatt ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac 900
tcaaccaagt cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca 960
atacgggata ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt 1020
tcttcggggc gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc 1080
actcgtgcac ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca 1140
aaaacaggaa ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata 1200
ctcatactct tcctttttca atattattga agcatttatc agggttattg tctcatgagc 1260
ggatacatat ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc 1320
cgaaaagtgc cacctgcatc gatggccccc cgatggtagt gtggggtctc cccatgcgag 1380
agtagggaac tgccaggcat caaataaaac gaaaggctca gtcgaaagac tgggcctttc 1440
gttttatctg ttgtttgtcg gtgaacgctc tcctgagtag gacaaatccg ccgggagcgg 1500
atttgaacgt tgcgaagcaa cggcccggag ggtggcgggc aggacgcccg ccataaactg 1560
ccaggcatca aattaagcag aaggccatcc tgacggatgg cctttttgcg tggccagtgc 1620
caagcttgga ttatgttcag cgcgagctgg cagacggtag ccgtaccgtt gtcgaaaccg 1680
aacactggtt agccgtcgtg ccttactggg ctgcctggcc gttcgaaacg ctactgctgc 1740
ccaaagccca cgttttacgg atcaccgatt tgaccgacgc ccagcgcagc gatctggcgc 1800
tggcgttgaa aaagctgacc agtcgttatg acaacctctt ccagtgctcc ttcccctact 1860
ctatgggctg gcacggcgcg ccatttaatg gcgaagagaa tcaacactgg cagctgcacg 1920
cgcactttta tccgcctctg ctgcgctccg ccaccgtacg taaatttatg gttggttatg 1980
aaatgctggc agagacccag cgagacctga ccgcagaaca ggcagcagag cgtttgcgcg 2040
cagtcagcga tatccatttt cgcgaatccg gagtgtaaga aacgaaactc ccgcactggc 2100
acccgatggt cagccgtacc gactgttaac tttgcgtaac aacgcaggga tggtagtcac 2160
gctgatggac tggggtgcga ctttactttc cgcccgtatt ccgctttccg atggcagcgt 2220
ccgcgaggcg ctgctcggct gtgccagccc ggaatgctat caggatcagg ccgcgtttct 2280
gggggcctct attggtcgtt atgccaaccg tatcgccaat agccgttata cctttgacgg 2340
tgaaaccgtg acgctttcgc caagtcaggg cgttaaccag ctgcacggcg ggccggaagg 2400
gttcgacaaa cgtcgctggc agattgtgaa ccagaacgat cgtcaggtgc tgtttgca 2458
<210> 48
<211> 1717
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(1717)
<223> galK基因座
<400> 48
ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60
gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120
accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180
ggagtgtaag aaatgagtct gaaagaaaaa acacaatctc tgtttgccaa cgcatttggc 240
taccctgcca ctcacaccat tcaggcgcct ggccgcgtga atttgattgg tgaacacacc 300
gactacaacg acggtttcgt tctgccctgc gcgattgatt atcaaaccgt gatcagttgt 360
gcaccacgcg atgaccgtaa agttcgcgtg atggcagccg attatgaaaa tcagctcgac 420
gagttttccc tcgatgcgcc cattgtcgca catgaaaact atcaatgggc taactacgtt 480
cgtggcgtgg tgaaacatct gcaactgcgt aacaacagct tcggcggcgt ggacatggtg 540
atcagcggca atgtgccgca gggtgccggg ttaagttctt ccgcttcact ggaagtcgcg 600
gtcggaaccg tattgcagca gctttatcat ctgccgctgg acggcgcaca aatcgcgctt 660
aacggtcagg aagcagaaaa ccagtttgta ggctgtaact gcgggatcat ggatcagcta 720
atttccgcgc tcggcaagaa agatcatgcc ttgctgatcg attgccgctc actggggacc 780
aaagcagttt ccatgcccaa aggtgtggct gtcgtcatca tcaacagtaa cttcaaacgt 840
accctggttg gcagcgaata caacacccgt cgtgaacagt gcgaaaccgg tgcgcgtttc 900
ttccagcagc cagccctgcg tgatgtcacc attgaagagt tcaacgctgt tgcgcatgaa 960
ctggacccga tcgtggcaaa acgcgtgcgt catatactga ctgaaaacgc ccgcaccgtt 1020
gaagctgcca gcgcgctgga gcaaggcgac ctgaaacgta tgggcgagtt gatggcggag 1080
tctcatgcct ctatgcgcga tgatttcgaa atcaccgtgc cgcaaattga cactctggta 1140
gaaatcgtca aagctgtgat tggcgacaaa ggtggcgtac gcatgaccgg cggcggattt 1200
ggcggctgta tcgtcgcgct gatcccggaa gagctggtgc ctgccgtaca gcaagctgtc 1260
gctgaacaat atgaagcaaa aacaggtatt aaagagactt tttacgtttg taaaccatca 1320
caaggagcag gacagtgctg aacgaaactc ccgcactggc acccgatggt cagccgtacc 1380
gactgttaac tttgcgtaac aacgcaggga tggtagtcac gctgatggac tggggtgcga 1440
ctttactttc cgcccgtatt ccgctttccg atggcagcgt ccgcgaggcg ctgctcggct 1500
gtgccagccc ggaatgctat caggatcagg ccgcgtttct gggggcctct attggtcgtt 1560
atgccaaccg tatcgccaat agccgttata cctttgacgg tgaaaccgtg acgctttcgc 1620
caagtcaggg cgttaaccag ctgcacggcg ggccggaagg gttcgacaaa cgtcgctggc 1680
agattgtgaa ccagaacgat cgtcaggtgc tgtttgc 1717
<210> 49
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> GalK正向
<400> 49
ggcgaagaga atcaacactg g 21
<210> 50
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> GalK反向
<400> 50
gcaaacagca cctgacgatc g 21
<210> 51
<211> 1136
<212> DNA
<213> 大肠杆菌
<220>
<221> 尚未归类的特征
<222> (1)..(1136)
<223> galK缺失
<400> 51
ggcgaagaga atcaacactg gcagctgcac gcgcactttt atccgcctct gctgcgctcc 60
gccaccgtac gtaaatttat ggttggttat gaaatgctgg cagagaccca gcgagacctg 120
accgcagaac aggcagcaga gcgtttgcgc gcagtcagcg atatccattt tcgcgaatcc 180
ggagtgtaag aaacgaaact cccgcactgg cacccgatgg tcagccgtac cgactgttaa 240
ctttgcgtaa caacgcaggg atggtagtca cgctgatgga ctggggtgcg actttacttt 300
ccgcccgtat tccgctttcc gatggcagcg tccgcgaggc gctgctcggc tgtgccagcc 360
cggaatgcta tcaggatcag gccgcgtttc tgggggcctc tattggtcgt tatgccaacc 420
gtatcgccaa tagccgttat acctttgacg gtgaaaccgt gacgctttcg ccaagtcagg 480
gcgttaacca gctgcacggc gggccggaag ggttcgacaa acgtcgctgg cagattgtga 540
accagaacga tcgtcaggtg ctgtttgcgg cgaagagaat caacactggc agctgcacgc 600
gcacttttat ccgcctctgc tgcgctccgc caccgtacgt aaatttatgg ttggttatga 660
aatgctggca gagacccagc gagacctgac cgcagaacag gcagcagagc gtttgcgcgc 720
agtcagcgat atccattttc gcgaatccgg agtgtaagaa acgaaactcc cgcactggca 780
cccgatggtc agccgtaccg actgttaact ttgcgtaaca acgcagggat ggtagtcacg 840
ctgatggact ggggtgcgac tttactttcc gcccgtattc cgctttccga tggcagcgtc 900
cgcgaggcgc tgctcggctg tgccagcccg gaatgctatc aggatcaggc cgcgtttctg 960
ggggcctcta ttggtcgtta tgccaaccgt atcgccaata gccgttatac ctttgacggt 1020
gaaaccgtga cgctttcgcc aagtcagggc gttaaccagc tgcacggcgg gccggaaggg 1080
ttcgacaaac gtcgctggca gattgtgaac cagaacgatc gtcaggtgct gtttgc 1136
<210> 52
<211> 23
<212> DNA
<213> 未知
<220>
<223> Cas9靶位点的实例:PAM序列
<220>
<221> 尚未归类的特征
<222> (1)..(20)
<223> n = A、C、T、或G
<220>
<221> 尚未归类的特征
<222> (21)..(21)
<223> n = A、C、T、或G(在说明书中表示为“X”)
<400> 52
nnnnnnnnnn nnnnnnnnnn ngg 23

Claims (18)

1.一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,所述方法包括将包含编码引导RNA的DNA序列的至少一个重组DNA构建体和环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰,其中所述至少一个核苷酸修饰选自(i)至少一个核苷酸的替代,(ii)至少一个核苷酸的缺失,(iii)至少一个核苷酸的插入,或(iv) (i)-(iii)的任何组合。
2.如权利要求1所述的方法,其中所述大肠杆菌细胞的基因组中的核苷酸序列选自:启动子序列、终止子序列、调节元件序列、编码序列、原噬菌体、假基因、和外源基因。
3.如权利要求1所述的方法,其中经由环状质粒提供包含编码引导RNA的DNA序列的所述重组DNA构建体。
4.如权利要求1所述的方法,其中在分开的质粒上各自提供所述重组DNA构建体和所述环状多核苷酸修饰模板。
5.如权利要求1所述的方法,其中在单个质粒上提供所述重组DNA构建体和所述环状多核苷酸修饰模板。
6.如权利要求1所述的方法,其中经由选自以下的一种手段提供所述重组DNA构建体和所述环状多核苷酸模板:电穿孔、热休克、噬菌体递送、配对、接合和转导。
7.如权利要求1所述的方法,其中所述靶位点的侧翼是第一基因组区域和第二基因组区域,其中所述环状多核苷酸模板进一步包含与所述第一基因组区域同源的第一区域和与所述第二基因组区域同源的第二区域。
8.如权利要求1所述的方法,其中所述大肠杆菌细胞不表达外源重组酶蛋白。
9.如权利要求1所述的方法,其中所述大肠杆菌细胞不表达选自以下的蛋白:RecET蛋白、λ-red蛋白、和RecBCD抑制剂。
10.如权利要求1所述的方法,其进一步包括从所述大肠杆菌细胞生长子代细胞,其中所述子代细胞包含所述核苷酸序列的至少一个核苷酸修饰。
11.如权利要求1所述的方法,其中所述靶位点位于大肠杆菌galK基因中。
12.一种通过如权利要求1所述的方法产生的大肠杆菌细胞,其中所述大肠杆菌细胞不表达外源重组酶蛋白。
13.如权利要求12所述的大肠杆菌细胞,其中所述大肠杆菌细胞不表达选自以下的蛋白:RecET蛋白、λ-red蛋白、和RecBCD抑制剂。
14.一种从如权利要求12或13所述的大肠杆菌细胞产生的大肠杆菌菌株。
15.一种用于产生galK突变的大肠杆菌细胞的方法,所述方法包括:
a)将包含编码引导RNA的DNA序列的至少一个环状重组DNA构建体和至少一个环状多核苷酸修饰模板提供给包含可操作地连接至诱导型启动子的Cas9内切核酸酶DNA序列的大肠杆菌细胞,其中所述Cas9内切核酸酶DNA序列编码能够在大肠杆菌基因组中的galK基因组序列内的靶位点处引入双链断裂的Cas9内切核酸酶,其中所述环状多核苷酸修饰模板包含所述galK基因组序列的至少一个核苷酸修饰;
b) 从 (a) 的大肠杆菌细胞生长子代细胞;并且,
c) 针对所述至少一个核苷酸修饰的存在,评估 (b) 的子代细胞。
16.一种用于编辑大肠杆菌细胞的基因组中的核苷酸序列的方法,所述方法包括至少将包含编码引导RNA的DNA序列的第一重组DNA构建体、环状多核苷酸修饰模板、以及包含可操作地连接至诱导型启动子的编码Cas9内切核酸酶的DNA序列的第二重组DNA构建体提供给大肠杆菌细胞,其中所述Cas9内切核酸酶在所述大肠杆菌细胞的基因组中的靶位点处引入双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
17.如权利要求16所述的方法,其中在分开的质粒上各自提供所述第一重组DNA构建体、所述第二重组DNA构建体、和所述环状多核苷酸修饰模板。
18.如权利要求1所述的方法,其中在单个质粒上提供一个重组DNA构建体、其他重组DNA构建体、和所述环状多核苷酸修饰模板。
CN201580076439.5A 2014-12-17 2015-12-02 在大肠杆菌中进行有效基因编辑的组合物和方法 Active CN107250363B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462092914P 2014-12-17 2014-12-17
US62/092914 2014-12-17
PCT/US2015/063434 WO2016099887A1 (en) 2014-12-17 2015-12-02 Compositions and methods for efficient gene editing in e. coli using guide rna/cas endonuclease systems in combination with circular polynucleotide modification templates

Publications (2)

Publication Number Publication Date
CN107250363A CN107250363A (zh) 2017-10-13
CN107250363B true CN107250363B (zh) 2021-03-30

Family

ID=55024260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580076439.5A Active CN107250363B (zh) 2014-12-17 2015-12-02 在大肠杆菌中进行有效基因编辑的组合物和方法

Country Status (12)

Country Link
US (1) US20170369866A1 (zh)
EP (1) EP3234117B1 (zh)
JP (1) JP6839082B2 (zh)
KR (1) KR102424626B1 (zh)
CN (1) CN107250363B (zh)
AU (1) AU2015363113B2 (zh)
BR (1) BR112017012765A2 (zh)
CA (1) CA2971391C (zh)
DK (1) DK3234117T3 (zh)
ES (1) ES2865268T3 (zh)
MX (1) MX2017007907A (zh)
WO (1) WO2016099887A1 (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012333134B2 (en) 2011-07-22 2017-05-25 John Paul Guilinger Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9340800B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College Extended DNA-sensing GRNAS
US9068179B1 (en) 2013-12-12 2015-06-30 President And Fellows Of Harvard College Methods for correcting presenilin point mutations
AU2015217208B2 (en) 2014-02-11 2018-08-30 The Regents Of The University Of Colorado, A Body Corporate CRISPR enabled multiplexed genome engineering
AU2015298571B2 (en) 2014-07-30 2020-09-03 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
WO2017070632A2 (en) 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
SG11201807025SA (en) * 2016-02-26 2018-09-27 Lanzatech New Zealand Ltd Crispr/cas systems for c-1 fixing bacteria
AU2017280353B2 (en) 2016-06-24 2021-11-11 Inscripta, Inc. Methods for generating barcoded combinatorial libraries
CA3032699A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
WO2018031683A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
CN110114461A (zh) 2016-08-17 2019-08-09 博德研究所 新型crispr酶和系统
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
EP3526320A1 (en) 2016-10-14 2019-08-21 President and Fellows of Harvard College Aav delivery of nucleobase editors
JP7182545B2 (ja) * 2016-12-14 2022-12-02 ヴァーヘニンゲン ユニヴェルシテット 熱安定性cas9ヌクレアーゼ
CN110312803B (zh) * 2016-12-21 2024-04-30 许景焜 编辑核酸序列的组合物及方法
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
JP2020510439A (ja) 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
KR102687373B1 (ko) 2017-03-23 2024-07-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
WO2018204777A2 (en) 2017-05-05 2018-11-08 The Broad Institute, Inc. Methods for identification and modification of lncrna associated with target genotypes and phenotypes
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
WO2018226853A1 (en) * 2017-06-07 2018-12-13 The Rockefeller University Enhancement of crispr gene editing or target destruction by co-expression of heterologous dna repair protein
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
CN109295054B (zh) * 2017-07-25 2024-02-06 广州普世利华科技有限公司 用于靶向病原体基因RNA的gRNA及基于C2c2的病原体基因的检测方法及试剂盒
EP3658573A1 (en) 2017-07-28 2020-06-03 President and Fellows of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (pace)
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
CN111757937A (zh) 2017-10-16 2020-10-09 布罗德研究所股份有限公司 腺苷碱基编辑器的用途
CN109971778B (zh) * 2017-12-27 2022-11-18 北京蓝晶微生物科技有限公司 一种在盐单胞菌中快速基因编辑的载体组合及其应用
AU2019236210A1 (en) 2018-03-14 2020-09-10 Arbor Biotechnologies, Inc. Novel CRISPR DNA targeting enzymes and systems
CA3109083A1 (en) * 2018-08-09 2020-02-13 G+Flas Life Sciences Compositions and methods for genome engineering with cas12a proteins
IL292273B2 (en) 2018-08-14 2023-10-01 Inscripta Inc Devices, modules and methods for improved detection of edited sequences in living cells
US11965154B2 (en) * 2018-08-30 2024-04-23 Inscripta, Inc. Detection of nuclease edited sequences in automated modules and instruments
WO2020191249A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
CA3136114A1 (en) 2019-04-05 2020-10-08 Danisco Us Inc. Methods for integrating a donor dna sequence into the genome of bacillus using linear recombinant dna constructs and compositions thereof
CA3136113A1 (en) 2019-04-05 2020-10-08 Danisco Us Inc. Methods for polynucleotide integration into the genome of bacillus using dual circular recombinant dna constructs and compositions thereof
WO2020236967A1 (en) 2019-05-20 2020-11-26 The Broad Institute, Inc. Random crispr-cas deletion mutant
US20220298501A1 (en) 2019-08-30 2022-09-22 The Broad Institute, Inc. Crispr-associated mu transposase systems
MX2022014008A (es) 2020-05-08 2023-02-09 Broad Inst Inc Métodos y composiciones para la edición simultánea de ambas cadenas de una secuencia de nucleótidos de doble cadena objetivo.
CN118541475A (zh) * 2021-12-27 2024-08-23 亘喜生物科技(上海)有限公司 用于细胞修饰的系统和方法
WO2024118881A1 (en) 2022-12-01 2024-06-06 Genencor International Bv Iterative muliplex genome engineering in microbial cells using a bidirectional selection marker system
WO2024118882A1 (en) 2022-12-01 2024-06-06 Genencor International Bv Iterative multiplex genome engineering in microbial cells using a selection marker swapping system
WO2024118876A1 (en) 2022-12-01 2024-06-06 Genencor International Bv Iterative multiplex genome engineering in microbial cells using a recombinant self-excisable selection marker system
WO2024145743A1 (zh) * 2023-01-03 2024-07-11 哈尔滨工业大学 一类rna引导的内切酶系统及其基因编辑应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005056786A2 (en) * 2003-12-05 2005-06-23 Wisconsin Alumni Research Foundation Sugar kinases with expanded substrate specificity and their use
WO2012164565A1 (en) * 2011-06-01 2012-12-06 Yeda Research And Development Co. Ltd. Compositions and methods for downregulating prokaryotic genes

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2419322C (en) * 2000-08-14 2012-10-23 Donald L. Court Enhanced homologous recombination mediated by lambda recombination proteins
DK2800811T3 (en) * 2012-05-25 2017-07-17 Univ Vienna METHODS AND COMPOSITIONS FOR RNA DIRECTIVE TARGET DNA MODIFICATION AND FOR RNA DIRECTIVE MODULATION OF TRANSCRIPTION
EP3825401A1 (en) * 2012-12-12 2021-05-26 The Broad Institute, Inc. Crispr-cas component systems, methods and compositions for sequence manipulation
US20150132263A1 (en) * 2013-11-11 2015-05-14 Radiant Genomics, Inc. Compositions and methods for targeted gene disruption in prokaryotes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005056786A2 (en) * 2003-12-05 2005-06-23 Wisconsin Alumni Research Foundation Sugar kinases with expanded substrate specificity and their use
WO2012164565A1 (en) * 2011-06-01 2012-12-06 Yeda Research And Development Co. Ltd. Compositions and methods for downregulating prokaryotic genes

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A programmable dual RNA-guided DNA endonuclease in adaptive bacterial immunity;Martin Jinek等;《Science》;20120817;第337卷(第6096期);第816-821页 *
CRISPR/Cas基因组靶向编辑技术综述;贾良杰;《中国医药导报》;20140831;第11卷(第22期);第154-156页 *
CRISPR-assisted editing of bacterial genomes;Wenyan Jiang等;《Nat Biotechnol》;20130901;第31卷(第31期);第233-239页 *

Also Published As

Publication number Publication date
CA2971391C (en) 2023-05-09
AU2015363113B2 (en) 2021-03-11
JP2017538422A (ja) 2017-12-28
US20170369866A1 (en) 2017-12-28
AU2015363113A1 (en) 2017-06-29
BR112017012765A2 (pt) 2018-01-16
MX2017007907A (es) 2017-09-18
CN107250363A (zh) 2017-10-13
ES2865268T3 (es) 2021-10-15
EP3234117A1 (en) 2017-10-25
EP3234117B1 (en) 2021-03-03
KR20170087959A (ko) 2017-07-31
DK3234117T3 (da) 2021-06-07
KR102424626B1 (ko) 2022-07-25
JP6839082B2 (ja) 2021-03-03
WO2016099887A1 (en) 2016-06-23
CA2971391A1 (en) 2016-06-23

Similar Documents

Publication Publication Date Title
CN107250363B (zh) 在大肠杆菌中进行有效基因编辑的组合物和方法
AU2019204429B2 (en) Modified hematopoietic stem/progenitor and non-T effector cells, and uses thereof
KR102622910B1 (ko) Pd-1 호밍 엔도뉴클레아제 변이체, 조성물 및 사용 방법
KR102424721B1 (ko) Rna-유도 엔도뉴클레아제의 세포 내로의 펩티드 매개성 전달
JP2023082141A (ja) CasZ組成物及び使用方法
AU2018279457B2 (en) Method for manufacturing DNA-edited eukaryotic cell, and kit used in method
CN111465689B (zh) Cas9变体和使用方法
TWI323284B (en) Amplification process
CN116083398B (zh) 分离的Cas13蛋白及其应用
KR20240001708A (ko) 유전적 장애의 치료를 위해 생체내 뉴클레아제-매개의 유전자 표적화를 위한 조성물 및 방법
US20200017917A1 (en) Mapping a Functional Cancer Genome Atlas of Tumor Suppressors Using AAV-CRISPR Mediated Direct In Vivo Screening
CN110241099B (zh) 酿脓链球菌的CRISPR核酸酶SpCas9 的截短变异体及其应用
CN112608932A (zh) 一种大肠杆菌中高效表达禽腺病毒Fiber-2蛋白的方法
KR20220116512A (ko) 박테로이데스의 게놈편집
KR102705104B1 (ko) Cas9 변이체 및 사용 방법
NL2028346B1 (en) gRAMP protein for modulating a target mRNA
CN110016481A (zh) 一种pX335-xCas9n载体及其构建方法和应用
CN112538104B (zh) 构建促融质粒优化禽腺病毒Fiber-2蛋白表达及纯化的方法
KR102527339B1 (ko) 일산화탄소 탈수소효소 및 포름산 탈수소효소를 이용한 개미산의 제조 방법
KR20230029922A (ko) 피루베이트 키나아제 결핍증(pkd) 유전자 편집 치료 방법
CN114292800B (zh) 用于igf-1基因重组表达的重组细胞和重组表达方法
RU2781083C2 (ru) Варианты, композиции и методы применения хоминг-эндонуклеазы pd-1
KR20230150998A (ko) Cas3 단백질을 제조하는 방법
CN115247186A (zh) 一种构建af双基因突变的动脉粥样硬化模型猪核移植供体细胞的基因编辑系统及其应用
KR20240021866A (ko) 효소적 핵산 합성을 위한 조성물 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant